• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C P3600系列GPON OLT交换机 故障处理手册-6W101

01-正文

本章节下载 01-正文  (1.37 MB)

01-正文

目    录

1 故障处理注意事项

1.1 使用终端仿真登录P3600

1.2 使用telnet登录P3600

1.3 P3600系统接口介绍

1.4 收集设备运行信息

1.4.1 版本信息

1.4.2 诊断信息

1.4.3 CPU利用率

2 使用配置文件恢复配置

3 硬件类故障处理

3.1 配置系统故障

3.1.1 终端无显示故障处理

3.1.2 终端显示乱码故障处理

3.2 运行过程中OLT重启故障处理

3.2.1 故障描述

3.2.2 故障处理流程

3.2.3 故障处理步骤

3.3 业务板启动故障处理

3.3.1 故障描述

3.3.2 故障处理流程

3.3.3 故障处理步骤

3.4 电源运行中上报告警问题处理方法

3.4.1 故障描述

3.4.2 故障处理流程

3.4.3 故障处理步骤

4 系统类故障处理

4.1 CPU利用率过高问题处理方法

4.1.1 故障描述

4.1.2 故障处理流程

4.1.3 故障处理步骤

4.2 内存占用率过高问题处理方法

4.2.1 故障描述

4.2.2 故障处理流程

4.2.3 故障处理步骤

4.3 系统温度告警问题处理方法

4.3.1 故障描述

4.3.2 故障处理流程

4.3.3 故障处理步骤

5 端口类故障处理

5.1 上行光口不UP故障处理

5.1.1 故障描述

5.1.2 故障处理流程

5.1.3 故障处理步骤

5.2 端口由UP变DOWN

5.2.1 故障描述

5.2.2 故障处理步骤

5.3 端口频繁UP/DOWN

5.3.1 故障描述

5.3.2 故障处理步骤

5.4 光模块故障

5.4.1 故障描述

5.4.2 故障处理步骤

5.5 端口存在FCS等错误统计故障处理

5.5.1 故障描述

5.5.2 故障处理步骤

6 PON常见故障处理

6.1 ONU不能被自动发现或注册失败

6.2 ONU频繁上下线

6.3 业务不通

6.4 系统其它告警

6.5 配置不生效

6.6 丢包查询

 


1 故障处理注意事项

注意

设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。

 

在进行故障诊断和处理时,请注意以下事项:

设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

·     记录具体的故障现象、故障时间、配置信息。

·     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

·     收集设备的日志信息和诊断信息(收集设备运行信息)。

·     记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。

·     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

·     记录故障处理过程中配置的所有命令行显示信息。

更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部和软件版本的兼容性。

1.1  使用终端仿真登录P3600

当使用终端仿真访问P3600系统时,PC机的RS-232 COM串口连接到OLT的COM端口。按照下列步骤连接PC到P3600系统:

(1)     使用RJ-45/DB9 RS-232串口线。将DB-9接头连接到PC上空闲的RS232 COM串口,将RJ-45 接头连接到P3600的MYCA主用主控板COM端口。

图1-1 RJ-45/DB9 RS-232串口线的连接

图片2

 

COM端口和DB9的连接线序如图1-2

图1-2 串口线序说明

 

(2)     启动串口登录程序。该例中,使用secureCRT,启动后点击快速连接按钮,进行连接配置。如下图。

图1-3 串口接入

2dd7925069890129ce1227fceafcf17

 

(3)     在secureCRT的配置中,protocol选择serial表示使用串口连接。port本例选择COM3(电脑中具体查询串口号见备注)。

说明

对于查询电脑上可使用的串口序号,可以执行以下步骤:

在计算机桌面,鼠标移到“此电脑”。

点击鼠标右键,选择“管理”,这将自动打开“计算机管理”页面。

在左侧的系统工具下选择“设备管理器”。

在右侧页面上点击“端口 (COM和LPT)”,展开后可以看到系统串口信息。

一般台式机自带的串口序号一般为COM1和COM2。如果使用USB转串口,其串口序号为COM3及以上(不同USB转串口线插入会导致COM号发生变化)。

 

图1-4 查看COM口编号

cab67aeeec7d985305e90f2b7e0668e

 

(4)     设置端口参数。

¡     设置Bits per Second(每秒位数)为115200。

¡     设置Data Bits(数据位)为8。

¡     设置Parity(奇偶校验)为无。

¡     设置Stop Bits(停止位)为1。

¡     设置Flow Control(数据流控制)都不选。

(5)     单击<Connect>完成设置。

在成功完成线缆和终端的通信参数设置后,系统会提示输入用户名和口令。

10.20.30.1 login:

说明

缺省的系统管理员用户名和口令为admin和admin。

 

(6)     输入用户名和口令。

成功登录P3600后,会显示以下命令提示符:

P3600#

1.2  使用telnet登录P3600

当使用Telnet访问P3600系统时,PC网卡的RJ-45接头连接到P3600的PCU1S板上的ETH管理端口(RJ-45)。按照以下步骤连接PC到P3600系统:

(1)     用两端带RJ-45接头的网线将P3600的管理端口与PC的网卡连接。

图1-5 网线管理端口连接

P3617

 

说明

P3600管理端口支持Auto-MDIX,所以直连或交叉网线都可使用。

 

(2)     配置PC的静态IP地址,使其与缺省的P3600管理端口的IP地址(10.20.30.1)处于同一子网,如:10.20.30.2。

(3)     从Windows主菜单选择[开始/运行],输入以下命令:

C:\ telnet 10.20.30.1

说明

10.20.3.1为缺省的P3600管理端口IP地址。

 

(4)     建立与P3600的连接后,系统会提示输入用户名和口令。

10.20.30.1 login:

说明

对于P3600,缺省的管理员用户名和口令都是“admin”。

 

(5)     输入用户名和口令。

成功登录后,出现以下系统提示符:

P3600#

该提示符表示用户处于第一个命令模式接口,即EXEC级别。

EXEC级别是第一次登录P3600系统时进入的基本命令模式。该命令模式下,用户可查看系统属性但不能修改。如果用户的账号权限允许,用户可进入其他命令模式执行系统配置功能。

1.3  P3600系统接口介绍

P3600采用机框式设计,以P3617为例用户侧支持17个业务槽位,可配置不同业务板卡,支持GPON/XGPON/XGSPON或Combo三模应用。具体部署图如图1-6所示:

图1-6 系统接口

 

说明

有关P3600系列GPON OLT交换机各个型号槽位分布及与板卡适配关系的详细介绍,请参见“H3C P3600系列GPON OLT交换机 安装指南”。

 

1.4  收集设备运行信息

1.4.1  版本信息

收集软硬件版本信息。

P3617#show version

H3C P3617 Software, Version E1002, Release 1002, Build on Oct 27 2022 00:24:25

Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.

H3C P3617 uptime is 0 days 00:24:17

 

MYCA(A) 1-A:

Uptime is 0 days 00:24:17

H3C MYCA with 1 Processor

BOARD TYPE:         MYCA

DRAM:               4G bytes

FLASH:              8G bytes

PCB 1 Version:      VER.A4

Bootrom Version:    U-Boot 2022.10.14

CPLD Version:       0.2

FPGA Version:       0.0.0.6

Kernel Version:     Linux version 4.19.68

Release Version:    H3C MYCA-E1002

Patch Version:      None

 

MYCA(S) 1-B:

Uptime is 0 days 00:24:08

H3C MYCA with 1 Processor

BOARD TYPE:         MYCA

DRAM:               4G bytes

FLASH:              8G bytes

PCB 1 Version:      VER.A3           

Bootrom Version:    U-Boot 2022.10.14

CPLD Version:       0.1

FPGA Version:       0.0.0.6

Kernel Version:     Linux version 4.19.68

Release Version:    H3C MYCA-E1002

Patch Version:      None

 

XGFCA 1-6:

Uptime is 0 days 00:21:20

H3C XGFCA with 1 Processor

BOARD TYPE:         XGFCA

DRAM:               4G bytes

FLASH:              64M bytes

PCB 1 Version:      VER.A0

Bootrom Version:    N/A

CPLD Version:       N/A

Release Version:    H3C XGFCA-E1002

Patch Version:      None

 

XGFCA 1-12:

Uptime is 0 days 00:21:14

H3C XGFCA with 1 Processor

BOARD TYPE:         XGFCA

DRAM:               4G bytes         

FLASH:              64M bytes

PCB 1 Version:      VER.A2

Bootrom Version:    N/A

CPLD Version:       N/A

Release Version:    H3C XGFCA-E1002

Patch Version:      None

 

P3617#show slot

Sh-S Module     Ava O Hardware Ver      SW Ver      Serial Number        UP Time        

1-6  XGFCA      MAT U 9801A48Q:A0       E1002       X123456789S123456789 0 days 00:21:39

1-12 XGFCA      MAT U GN0206030465:A2   E1002       1012021091900039     0 days 00:21:33

1-A  MYCA(A)    MAT U GN0206030523:A4   E1002       1012022101400007     0 days 00:24:36

1-B  MYCA(S)    MAT U GN0206030340:A3   E1002       0000000000000000     0 days 00:24:28

1-P1 PDC1A      MAT U N/A:N/A           N/A         N/A                  N/A            

1-IO PCU1S      MAT U N/A:N/A           N/A         N/A                  N/A            

1    FAN1A      MAT U N/A:N/A           N/A         N/A                  N/A            

1    OPA-P3617  MAT U 0206021416:A0     N/A         1052021051700006     N/A            

通过FTP/TFTP工具导出配置文件,或者执行命令导出配置文件。

P3617# upload ip 192.168.10.10 src /tftpboot/sysconfig.gz dst sysconfigbak.gz

1.4.2  诊断信息

(1)     执行如下命令将收集系统诊断信息,并在tftpboot目录下生成诊断信息文件。

P3600# show diagnostic-information-to-file

图1-7 诊断信息

 

(2)     通过FTP/TFTP工具导出配置文件。

1.4.3  CPU利用率

查看CPU利用率和内存利用率。

P3600#show cpu-memory

Active MYCA CPU usage  :  11%

Active MYCA Memory usage  :  32%

 

Standby MYCA CPU usage  :  8%

Standby MYCA Memory usage  :  32%


2 使用配置文件恢复配置

缺省情况下,设备的启动配置文件为/tftpboot/sysconfig.gz。设备上电时,从缺省存储路径中解压配置文件进行设备的初始化操作。如果缺省存储路径中没有配置文件,则设备采用缺省参数进行初始化配置。

如果想要将设备当前配置恢复成以前保存过的某个配置,可以通过下面的步骤完成。

(1)     通过FTP或TFTP方式将用于恢复的配置文件上传到设备上(以FTP方式举例,上传的配置文件名为sysconfig.gz)。

P3600# download ip 192.168.10.10 src sysconfigbak.gz dst /tftpboot/sysconfig.gz

(2)     重启设备,重启完成后设备会以上面设置的配置文件恢复配置。

P3600# resetnode

注意

上述步骤的操作过程中,不能进行save命令的操作,否则设备将以当前保存的配置启动。

 


3 硬件类故障处理

说明

本章节主要介绍了单板、电源、风扇、机框等部件故障的处理方法。关于其它部件,如光模块、端口、温度告警故障等问题,请参见“硬件类故障处理,系统类故障处理,端口类故障处理”。

 

3.1  配置系统故障

设备上电后,如果系统正常,将在串口终端上显示启动信息;而如果配置系统出现故障,配置终端可能无显示或者显示乱码。

3.1.1  终端无显示故障处理

如果上电后配置终端无显示信息,首先要进行以下检查:

·     电源系统是否正常工作。

·     主控板是否正常工作。

·     是否已将配置电缆接到主控板的配置口(CONSOLE口)。

如果以上检查未发现问题,可能存在以下原因:

·     配置电缆连接的串口错误(实际选择的串口线与终端设置的串口不符)。

·     配置终端参数设置错误(参数应设置为波特率115200,数据位8,奇偶校验无,停止位1,流量控制无)。

·     配置电缆本身存在问题,可尝试更换配置电缆。

3.1.2  终端显示乱码故障处理

如果配置终端上显示乱码,很可能是由于配置终端参数设置错误(需设置波特率为115200,数据位为8,奇偶校验为无,停止位为1,流量控制为无),请进行相应检查。

3.2  运行过程中OLT重启故障处理

3.2.1  故障描述

OLT使用中发生重启但无法正常启动。

可能原因:文件系统损坏或启动文件缺失。

解决方法:重新烧写文件。

3.2.2  故障处理流程

图3-1 异常状态下的固件升级

1640742735(1)

 

3.2.3  故障处理步骤

系统发生故障后,可执行以下步骤重新建立与FTP服务器的连接,并升级P3600固件和映像文件。

当系统发生了故障或启动进程中断,通过主控板卡的Console端口和管理进行固件恢复。

图3-2建立与P3600的带外连接。

图3-2 升级连接拓扑

1640743525(1)

 

2. 重新烧写系统文件

按照以下步骤烧写系统文件,操作时请确保只有一块主控卡在位,如果有两块主控卡,拔出其中一块,每次操作一块主控卡。

(1)     电脑串口设置波特率“115200”, date bits 8, Parity N, Stop bits 1,连接串口。

(2)     通过串口设置主控板卡外网口(eth5)的管理IP地址。

图3-3 设置管理IP地址

 

(3)     电脑连接主控卡带外管理端口登录步骤2配置好的IP地址,开启TFTP服务软件(推荐使用3CDaemon)。

1676964957967

 

 

(4)     将主控板的系统文件“csm_upgrade.gz”文件传到/usr/local目录下。

图3-4 下载版本文件

 

(5)     软件上传完毕以后,在串口操作界面进入/usr/local/目录,执行tar -zxvf csm_upgrade.gz,解压系统文件。

图3-5 解压系统文件

 

(6)     执行同步命令sync后,再下发reboot命令,重启板卡。

图3-6 执行同步和重启

 

(7)     启动完成后查看板卡是否能正常启动。

(8)     启动完成后Telnet 登录主控卡,默认IP是10.20.30.1,用户名/密码 admin/admin。

P3600#show version

3. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系技术支持工程师。

3.3  业务板启动故障处理

3.3.1  故障描述

业务板无法正常启动。

可能原因:业务板文件系统损坏或启动文件缺失。

解决方法:重新烧写文件。

3.3.2  故障处理流程

图3-7 业务板故障处理

图片6

 

3.3.3  故障处理步骤

在CLI界面,通过show slot命令,发现对应槽位的状态是UNR时,需要通过对应业务板卡的串口进行网口IP配置,然后从主控板上获取业务板卡的系统文件。

1. 登录串口配置IP

业务板卡的串口线序与主控板卡一致,登录方法也与主控板一致,具体请参见3.2.3  故障处理步骤。用户名为root,可直接进入。如果出现输入密码的提示,请直接联系技术支持工程师。

说明

因为业务板卡的串口位于板卡侧面,建议先将串口线接好,再将业务板卡插入槽位。

 

为每个槽位配置一个192.168.100.0/24网段地址,范围包括192.168.100.1至192.168.100.18,以及192.168.100.254。确保不会出现IP冲突。

图3-8 配置网口IP

 

在完成Eth5口的IP配置后,将与主控默认IP 192.168.100.1互通,可以使用ping命令来检测一下通信是否正常。

图3-9 检测与主控互通

 

2. 重新烧写业务板卡文件

使用以下命令将业务板卡文件从主控板卡中取出,默认传输到根目录下:

tftp -g -b 10240 -r xsmlc.img 192.168.100.1(执行该命令后,默认没有任何提示,大约两三秒内完成)

然后将xsmlc.img文件从根目录下复制到DATA目录:

mv xsmlc.img /mnt/hfs1/DATA/  (执行该命令后,估计等待大约半分钟,也没有任何提示)

最后,进入目录检查文件是否成功传送。

图3-10 检查文件

 

最后在主控上进行业务板复位操作:reset hard slot X。其中X为对应的业务板卡槽位号。

3.4  电源运行中上报告警问题处理方法

3.4.1  故障描述

电源运行中上报告警,Power灯灭。

3.4.2  故障处理流程

图3-11 电源告警处理流程

1640750961(1)

 

3.4.3  故障处理步骤

1. 检查是否存在Fault的电源模块

使用brief-show alarm命令查看电源模块告警信息。

P3600#brief-show alarm

Num Seq      Alarm Name                 Severity Ocurred Time         Entity Type  Entity Ins

---+--------+--------------------------+--------+--------------------+------------+----------

1   5        Power Abnormal                 Major    2020/12/28, 08:49:37 CSM Port     1-A-Trunk 1

如果存在告警状态的电源模块,请执行下一步骤。

2. 检查Fault状态电源模块

如果存在Abnormal状态电源模块,表示该电源模块异常,无法供电。

电源处于Abnormal状态可能有以下原因:

·     电源线可能未连接牢固而脱落。如果出现电源线脱落的情况,那么电源的电流和电压都会显示为0,电源状态显示为Abnormal。请检查电源线连接情况,确认连接后使用show alarm命令查看相关告警是否已清除。

·     电源模块本身可能因温度过高而处于异常状态。如果电源模块上积灰较多,可能导致电源模块温度上升。请检查电源模块的积灰情况,如果发现灰尘较多,请将电源模块拆卸清理灰尘后重新安装。然后使用show alarm命令查看对应告警是否已清除。

3. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系技术支持工程师。


4 系统类故障处理

4.1  CPU利用率过高问题处理方法

4.1.1  故障描述

使用命令“show cpu 5”连续查看CPU利用率,如果CPU占用率持续在80%以上(IDLE剩余20%以下),说明有某个任务长时间占用CPU,需要确认造成CPU高的具体原因。

4.1.2  故障处理流程

图4-1 CPU利用率过高处理流程

 

4.1.3  故障处理步骤

CPU占用率高的原因通常有:

·     报文攻击

·     链路环路等

1. 报文攻击排查

使用报文捕获工具(如Sniffer、Wireshark、WinNetCap等)在设备端口进行抓包,从报文特征分析中确认攻击源。随后,针对攻击源配置报文防护措施。

2. 链路环路排查

当存在链路环路时,可能会导致广播风暴和网络振荡,大量的协议报文被上送至CPU处理,进而导致CPU占用率升高,设备端口上的流量也会变得异常庞大,端口使用率可能达到90%以上。对于链路出现环路的情况,可以按一下步骤进行排查:

·     检查链路连接和端口配置是否正确

·     检查RSTP或MSTP协议是否启用,并且确认配置是否正确

·     检查邻接设备的RSTP或MSTP状态是否正常

·     如果以上配置均正确,可能是由于RSTP或MSTP协议计算出现错误,或者协议计算正确但是端口驱动层未能正常进行Block阻塞。在这种情况下,可以通过shutdown环路上的端口,或者拔插端口,让RSTP或MSTP重新计算,以便快速恢复业务。

3. 收集信息并寻求技术支持

请收集设备的运行信息、日志信息等。将所有信息反馈给技术人员寻求技术支持。

4.2  内存占用率过高问题处理方法

4.2.1  故障描述

使用show memory命令查看内存信息。如果内存占用率在持续的一段时间内(通常为30分钟)高于60%,那么可能存在内存异常问题,需要引起关注。

4.2.2  故障处理流程

图4-2 内存占用率过高处理流程

1640748110(1)

 

4.2.3  故障处理步骤

1. 查看当前内存分配状态

使用命令“show cpu-memory”查看内存分配状态。

P3600#show cpu-memory

Active CSM CPU usage  :  11%

Active CSM Memory usage  :  32%

 

Standby CSM CPU usage  :  8%

Standby CSM Memory usage  :  32%

需要注意的是:有些内存块使用率的增加是正常的,例如由于配置的增加。因此需要判断该内存块是否真的异常。判断内存使用率是否正常可能需要持续观察内存增长速度和使用量综合分析。

此外,有些内存的泄漏过程比较缓慢,因此可能需要较长时间(甚至是几周的时间)来进行比较观察。

2. 收集信息并寻求技术支持

通过上述步骤仅确定了问题的范围,但需继续收集信息以明确具体的故障。对于后续信息收集不建议用户自行操作,请联系H3C的技术支持工程师。

需要注意的是,请不要重启设备,否则会破坏故障信息,给故障定位带来困难。

4.3  系统温度告警问题处理方法

4.3.1  故障描述

系统出现温度告警。

4.3.2  故障处理流程

图4-3 系统温度过高处理流程

1640770550(1)

 

4.3.3  故障处理步骤

1. 确认是设备自身温度过高,还是环境温度过高。

使用命令“show alarm”查看告警状态。

P3600#brief-show alarm

Num Seq      Alarm Name                 Severity Ocurred Time         Entity Type  Entity Ins

---+--------+--------------------------+--------+--------------------+------------+----------

4   13       CSM Temperature High           Major    2020/12/29, 11:22:54 Node         N/A 

需要注意的是:

·     如果环境温度超过45°C,请增加空调或采取其他散热措施以降低环境温度。

·     如果设备温度过高超过68°C,请执行步骤2

2. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系技术支持工程师。


5 端口类故障处理

5.1  上行光口不UP故障处理

5.1.1  故障描述

上行光口不UP故障。

5.1.2  故障处理流程

图5-1 上行光口故障处理流程

图片1

 

5.1.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

(1)     通过“brief-show port”命令查看Admin端口状态是否为Unlock,如果不是,请使用“enable”命令激活相应的端口。

P3600(CONFIG/L2/PORT)#enable interface xge 1

(2)     CfgSpeed对应当前端口配置的端口速率,默认为auto,端口自适应,10G和25G都可以自适应。

(3)     如果需要使用千兆速率,则需要把对端端口的自协商模式给关闭,否则会协商异常。

(4)     上行口暂不支持千兆电口模式。

P3617#brief-show port

Port                Admin  Oper CfgSpeed CfgDup CfgFlow ActSpeed ActDup  ActFlow Orient     Fec   

IS 1/1              Unlock Down 25000M   Full   On      10000M   Full    On      Subscriber Disable

IS 1/2              Unlock Down 25000M   Full   On      10000M   Full    On      Subscriber Disable

IS 1/3              Unlock Down 25000M   Full   On      10000M   Full    On      Subscriber Disable

IS 1/4              Unlock Down 25000M   Full   On      10000M   Full    On      Subscriber Disable

IS 2/1              Unlock Down 25000M   Full   On      10000M   Full    On      Subscriber Disable

IS 2/2              Unlock Down 25000M   Full   On      10000M   Full    On      Subscriber Disable

IS 2/3              Unlock Down 25000M   Full   On      10000M   Full    On      Subscriber Disable

IS 2/4              Unlock Down 25000M   Full   On      10000M   Full    On      Subscriber Disable

......

XGE 1               Unlock Down Auto     Auto   On      10000M   Full    On      Network    Disable

XGE 2               Unlock Down Auto     Auto   On      10000M   Full    On      Network    Disable

XGE 3               Unlock Down Auto     Auto   On      10000M   Full    On      Network    Disable

XGE 4               Unlock Down Auto     Auto   On      10000M   Full    On      Network    Disable

XGE 5               Unlock Down Auto     Auto   On      10000M   Full    On      Network    Disable

XGE 6               Unlock Up   Auto     Auto   On      10000M   Full    On      Network    Disable

XGE 7               Unlock Up   Auto     Auto   On      10000M   Full    On      Network    Disable

XGE 8               Unlock Up   Auto     Auto   On      10000M   Full    On      Network    Disable

2. 检查光模块是否正常

(1)     可通过show transceiver interface xge 2命令,查看当前端口上的光模块的信息。

P3617(CONFIG/L2/PORT)#show transceiver interface xge 2

XGE2:

Transceiver Type              : unknow

Wave Length(nm)               : 1310

Vendor Name                   : H3C

Vendor Part Number            : MXPD-243S

Vendor Serial Number          : MA12360160841

Manufacturing Date            : 20120905 

Digital Diagnostic Monitor    : YES

Power Feed Voltage(V)         : 3.27

Optical Launch Power(dBm)     : -5.9739

Laser Bias Current(mA)        : 12.888

Temperature(Centigrade)       : 52.47

 

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     检查两端的光模块波长、光波的传输距离等参数是否一致。

3. 检查光纤是否正常

检查光纤收发是否连接正确,若收发连接正确,可通过更换光纤来检查故障是否排除。

检查光纤模式是否和光模块匹配(多模/单模)。若不匹配,可通过更换光纤来检查故障是否排除。

4. 检查本端端口是否正常

可通过更换本端设备端口来检查故障是否排除。

5. 检查对端端口是否正常

可通过更换对端设备端口来检查故障是否排除。

6. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系技术支持工程师。

5.2  端口由UP变DOWN

5.2.1  故障描述

端口状态由UP变为DOWN。

5.2.2  故障处理步骤

(1)     查看本设备及对端设备日志,确认有无端口disable操作。

(2)     查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口disable。请将故障信息发送技术支持人员分析。

(3)     参照端口无法UP故障处理,排查两端端口配置,网线、光模块、光纤等链路是否正常。

(4)     如仍无法确认,请搜集本端、对端设备信息,并将信息发送技术支持人员分析。

5.3  端口频繁UP/DOWN

5.3.1  故障描述

端口状态频繁UP/DOWN。

5.3.2  故障处理步骤

(1)     对于光口,请确认光模块是否异常。查看光模块alarm信息来排查两端光模块以及中间光纤问题;对于支持诊断功能的光模块可以通过查看diagnosis信息确认光模块的光功率是否处于上下门限临界值。如发送光功率处于临界值,请更换光纤、光模块做交叉验证;如接收光功率处于临界值,请排查对端光模块及中间光纤链路。

(2)     对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。

(3)     如果故障依然存在,请排查链路、对端设备、中间设备。

(4)     如仍无法确认,请将故障信息发送技术支持人员分析。

5.4  光模块故障

5.4.1  故障描述

安装光模块的接口不能正常工作。

5.4.2  故障处理步骤

(1)     检查光模块的温度、电压、偏置电流、接收、发送光功率是否正常(即在该光模块的光功率上下门限值之内)。

P3600(CONFIG/L2/PORT)#show transceiver interface xge 2

XGE2:

Transceiver Type              : unknow

Wave Length(nm)               : 1310

Vendor Name                   : H3C   

Vendor Part Number            : MXPD-243S      

Vendor Serial Number          : MA12360160841  

Manufacturing Date            : 20120905 

Digital Diagnostic Monitor    : YES

Power Feed Voltage(V)         : 3.27

Optical Launch Power(dBm)     : -5.9739

Laser Bias Current(mA)        : 12.888

Temperature(Centigrade)       : 52.47

(2)     对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。

(3)     如仍无法确认,请将故障信息发送技术支持人员分析。

5.5  端口存在FCS等错误统计故障处理

5.5.1  故障描述

通过show statistics查看到端口存在FCS等错误统计故障。

P3600(CONFIG/L2/BRIDGE)#show statistics interface xge 1

Port                                    :XGE 1

Rx total octets                         :0

Rx total frames                         :0

Rx multicast frames                     :0

Rx broadcast frames                     :0

Rx discards                             :0

Rx puase frames                         :0

Rx control frames                       :0

Tx total octets                         :420

Tx total frames                         :6

Tx multicast frames                     :0

Tx broadcast frames                     :0

Tx discards                             :0

Tx puase frames                         :0

Tx control frames                       :0

Rx 64 octets                            :0

Rx 65 to127 octets                      :0

Rx 128 to255 octets                     :0

Rx 256 to 511 octets                    :0

Rx 512 to 1023 octets                   :0

Rx 1024 to 1518 octets                  :0

Rx 1519 to 1522 octets                  :0

Rx Jumbo frames                         :0

Tx 64 octets                            :3

Tx 65 to127 octets                      :3

Tx 128 to255 octets                     :0

Tx 256 to 511 octets                    :0

Tx 512 to 1023 octets                   :0

Tx 1024 to 1518 octets                  :0

Tx 1519 to 1522 octets                  :0

Tx Jumbo frames                         :0

Rx undersize frames                     :0

Rx Fragments                            :0

Rx FCS Error Frames                     :0

Rx Alignment Error Frames               :0

Rx Oversize Frames                      :0

Rx Jabber Frames                        :0

Rx Code Errors                          :0

Tx Deferrals                            :0

Tx Excessive Deferrals                  :0

Tx Single Collisions                    :0

Tx Multiple Collisions                  :0

Tx Late Collisions                      :0

5.5.2  故障处理步骤

1. 查看错误报文统计信息从而判断故障问题

通过show counter命令,查看端口出入方向的错包统计具体是哪项在增长,从而判断故障问题。为方便查看,也可以在用户视图下使用clear counters 清空端口统计报文再观察。

(1)端口入方向出现FCS错包且计数持续增加。

a.使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。

b.与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现,应为单板端口故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。

(2)排查对端设备或者中间的传输设备。检查端口入方向是否出现Overrun等错包且计数持续增加。Overrun计数是由于端口输入速率超出本端口处理能力,导致丢包。如果只有某一个端口收发包异常,或者某一个端口下挂设备的业务不通,同时这个单板上的其他端口都是正常的,可以多次查询show counter命令,如果Receiver errors有增加,且等于overruns的增加,那么可以怀疑是单板内部拥塞或堵死,请将故障信息发送技术支持人员分析。

(3)检查端口入方向是否出现giants错包且计数持续增加。

检查两端的jumbo配置是否一致,如jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。如果仍然无法确认,请将故障信息发送技术支持人员分析。

2. 若是光口,请检查光模块的光功率是否正常

通过show transceiver命令查看光口所插光模块的数字诊断参数的当前测量值。若该光模块的光功率不正常,请更换同一型号的正常光模块。


6 PON常见故障处理

6.1  ONU不能被自动发现或注册失败

(1)     查看下面的检查方法:

表6-1 光路故障

Fault Scope

可能原因

判断依据

恢复方法

OLT

SN没有配置正确

brief-show configuration running 1

重新配置SN.

P3600#brief-show slot 1 ont-unbound

ONU光模块发光被关闭

ONU不发光 @1310nm

show interface gpon-olt 1/1 ont-unbound没有发现ONU

方法 1,基于PON口enable所有ONU:
P3600(Slot-9/if-gpon-olt-1/1)#all-ont enable
方法2, Enable 单个ONU:
P3600(Slot-9/if-gpon-olt-1/1/1)# enable

方法 3, 重启 ONU

ONUdeactive

brief-show configuration running 1

P3600(Slot-9/if-gpon-olt-1/1/1)# deactive

P3600(Slot-9/if-gpon-olt-1/1/1)# active

PON口被shutdown

brief-show configuration running 1

P3600(Slot-9/if-gpon-olt-1/1)# no shutdown

光模块故障

brief-show slot 2 interface gpon-olt 1/1 optical-info

更换光模块或者切换到其他PON口

ONU

ONU没有上电

brief-show alarm" to check if "DGi" alarm is raised

检查ONU电源

PON口下存在流氓ONU
(
流氓ONU持续长发光导致其他ONU不能注册.)

1.开启长发光检测:
P3600(Slot-9)#anti-rogueont 1 enable
2."OPTICAL-TF"
告警上报

1. 移除流氓ONU

2. 完成后关闭流氓ONU检测

P3600(Slot-9)#anti-rogueont 1 disable

ONU硬件故障

1. ONU LED不正常
2. ONU
发送光功率过低
3. ONU
接收灵敏度过低

更换故障ONU或者掉电重启ONU

ODN

光纤接头不干净(衰减和反射增大)

 

清洁光纤接头

光纤过度弯折(衰减和反射增大)

 

整理光纤

光纤没有紧密连接

 

重新连接光纤

不同类型光纤接头连接在一起比如APCUPC

 

更换分光器/光纤

 

(2)     查看光功率是否正常:

¡     OLT 光模块信息:

P3600#brief-show slot 2 interface gpon-olt 1/1 optical-info

¡     OLT光模块发送光功率范围:

Class B+: 1.5~ 5 dBm

Class C+: 3~7 dBm

¡     OLT 接收到ONU1发送的光功率:

P3600#brief-show slot 9 interface gpon-olt 1/1 optical-info ont  1 received-power

¡     ONU光模块信息:

P3600#brief-show slot 2 interface gpon-olt 1/1 ont 1 optical-info

说明

为了确保ONU正常上线工作,ONU接收光功率必须小于ONU饱和光功率,大于ONU接收灵敏度。具体而言,需满足以下条件:(ONU接收灵敏度)<( (OLT实际发送光功率)–(光链路损耗总和) )<(ONU饱和光功率)。如果出现功率接近或者超过饱和光功率问题,可通过增加光衰来解决。建议将ONU收光功率调整到-20dBm~-15dBm,以达到最佳工作状态。

 

6.2  ONU频繁上下线

ONU频繁上下线,频繁产生光路告警,光路质量差导致光路存在较大反射或衰减,导致交互报文存在较多误码,交互失败。查看告警,并检查光路。

P3600#alarm show alarm

P3600#alarm show alarm-history

表6-2 光路告警

告警

描述

原因

处理方式

LOSi

ONUi的信号丢失

ONUi的光纤中断

重新拔插或替换光纤

LOS

信号丢失

主干光纤中断

重新拔插或替换光纤

LOFi

ONUi帧丢失

ODN故障

优化ODN,参见表6-1

DOWi

ONUi窗口偏移

ODN故障

优化ODN

SFi

ONUi信号故障, 发生于ONUi上行BER ≥10-4

ODN故障

优化ODN

SDi

ONUi信号劣化, 发生于ONUi上行BER≥10-5

ODN故障

优化ODN

LCDGi

GEM通道定界丢失

ODN故障

优化ODN

SUFi

=ONUi启动失败,

已经失败了n次(n≥2)

ODN故障

优化ODN

LOAMi

ONUi PLOAM丢失

ODN故障

优化ODN

DGi

ONUi掉电

ONUi掉电

恢复电源

 

6.3  业务不通

(1)     检查流模板配置,重点关注:

¡     uni-type确保根据ONU类型(SFU或HGU)正确选择相应参数。

¡     uni-bitmap根据实际ONU的LAN口数量配置此参数。

¡     flow参数错误配置可能导致业务异常,请仔细核对。

(2)     确保tcont-bind模板中的v-port参数与flow模板中的一致。例如,如果flow模板中包含vport1和vport2,tcont-bind模板中也需要创建相同的vport1和vport2。

(3)     确认流模板正确应用到对应的ONU上,应用流模板时svc-type参数推荐使用 n_p,检查ONU接口下配置的ont-vlan/port-vlan是否正确,确保终端正确连线到相应的LAN口。

(4)     业务模板检查无误后,检查VLAN配置是否准确。核对VLAN是否都加入到正确的上联口,vlan-translate是否都配置准确,例如vport 1对应的VLAN是否正确。需要注意的是svid对应外层vlan,cvid对应内层vlan。通常情况下,仅需配置svid和new-svid。cvid和new-cvid根据实际需求配置(大部分情况下不进行配置)。

6.4  系统其它告警

查看系统告警:

P3600#brief-show alarm

告警列表说明如表6-3

表6-3 告警列表

Alarm Description(English)

告警描述

级别

产生原因

解决方法

Module Type Mismatch

模块类型不匹配

Major

当前插入的模块类型和虚支配的模块类型不匹配

解支配模块或插入正确的模块

Module unrecognized

模块无法识别

Major

由于模块失败导致插入的模块无法被识别

替换模块

Module fail to  up

模块无法正常启动

Major

由于模块故障,尽管模块被节点识别,但是模块无法正常启动提供业务

复位或替换模块

Module removal

模块被拔出

Major

正常匹配的模块被拔出

模块被重新插入或虚模块被解除支配后清除

Standby MYCA removal

备用MYCA模块被拔出

Major

备用的MYCA模块被拔出

备用MYCA模块插回后清除

Heartbeat Fai

主备用MYCA之间的心跳信号失败

Major

模块中正在运行的软件版本和节点版本文件中的不同

复位备用MYCA,主备切换后复位新的备用MYCA,复位节点。如果仍然无效,建议替换MYCA模块

Image Download Fail

模块下载软件失败

Minor

模块被拔出或后续的成功下载后清除

检查所下载的软件版本在主用MYCA是否存在,重新下载,复位模块,或替换模块

Module ambient temperature exceeds the warning threshold.

模块周围温度超过了告警温度阀值

Minor

模块周围温度等于或高于告警温度阀值(T1)

检查机房中的空调设备,检查机框环境状况,检查风扇盘运行状况

Module ambient temperature exceeds the short-time tolerance threshold.

模块周围温度超过了短时容忍温度阀值

Major

模块周围温度等于或高于短时容忍温度阀值(T2)

检查机房中的空调设备,检查机框环境状况,检查风扇盘运行状况

Module ambient temperature exceeds the shutdown threshold.

模块周围温度超过了停工温度阀值

Major

模块周围温度等于或高于停工温度阀值(T3)

检查机房中的空调设备,检查机框环境状况,检查风扇盘运行状况

Environmental temperature cross the high-temperature threshold

环境温度超过高温阀值

Critical

检测到的环境温度超过高温阀值

检查机房中的空调设备,或检查机框的环境状况

Environmental temperature cross the low-temperature threshold

环境温度超过低温阀值

Critical

检测到的环境温度超过低温阀值

检查机房中的空调设备,或检查机框的环境状况

Fan Tray absent

风扇盘不在位

Major

风扇盘不在位

按照风扇盘

One or two FANs fails working

一个或两个风扇停止工作

Minor

一个或两个风扇停止工作

替换风扇盘

More than two FANs fail working

超过两个风扇停止工作

Major

超过两个风扇停止工作

替换风扇盘

Time server is down

时间服务器断开

Minor

在轮询周期内没有收到所有的配置的SNTP服务器的响应

检查节点和SNTP服务器之间的通信,检查SNTP服务器

The threshold of CPU occupancy in CSM is crossed.

主用CSM的CPU占有率超过阀值

Minor

主用CSM的CPU占有率超过阀值

检查CSM的CPU占有率

The threshold of Memory occupancy in CSM is crossed.

主用CSM的内存占有率超过阀值

Minor

主用CSM的内存占有率超过阀值

检查CSM的内存占有率

The threshold of 15min CPU occupancy is crossed.

15分钟的CPU占有率超过阀值

Minor

模块15分钟的CPU占有率超过阀值

检查模块的CPU占有率

-48VDC input is abnormal

-48V直流电源输入异常

Major

-48V直流电源输入过压,欠压或过流

请检查供电电源,电源线连接或更换电源模块

Power output is abnormal

电源输出异常

Critical

直流电源输出过压,欠压或过流

请更换电源模块

CSM uplink down

MYCA上行链路断开

Major

MYCA上行链路端口的运行状态是“断开”

检查MYCA模块的配置,检查线缆连接,检查远端设备状态

Uplink port down

上联板上行链路断开

Major

上联板上行链路端口的运行状态是“断开”

检查上联板的配置,检查线缆连接,检查远端设备状态

Trunk work abnormal

Trunk工作异常

Major

1、该链路聚合对端的交换机路由器端口可能工作异常。或者,

2、本设备与对端交换机路由器之间用于该链路聚合的线缆可能受损。

检查对端设备配置,检查连接线缆

Trunk down

Trunk状态down

Major

CSM trunk的运行状态是“断开”

检查trunk所有成员端口对端设备配置,检查连接线缆

Uplink port optical transceiver TX

上联口光模块发送光功率高告警

Major

上联口光模块发送光功率高于设置的阈值

检查并替换光模块

Uplink optical transceiver TX power low alarm

上联口光模块发送光功率低告警

Major

上联口光模块发送光功率低于设置的阈值

检查并替换光模块

Uplink optical transceiver supply voltage high alarm

上联口光模块收发器电压高告警

Major

上联口光模块收发器电压高于设置的阈值

检查并替换光模块

Uplink optical transceiver supply voltage low alarm

上联口光模块收发器电压低告警

Major

上联口光模块收发器电压低于设置的阈值

检查并替换光模块

Uplink optical transceiver bias current high alarm

上联口光模块收发器偏流高告警

Major

上联口光模块收发器偏流高于设置的阈值

检查并替换光模块

Uplink optical transceiver temperature high alarm

上联口光模块收发器温度高告警

Major

上联口光模块收发器温度高于设置的阈值

检查并替换光模块

Uplink optical transceiver temperature low alarm

上联口光模块收发器温度低告警

Major

上联口光模块收发器温度低于设置的阈值

检查并替换光模块

Uplink optical transceiver TX power high warning

上联口光模块发送光功率高警告

Warning

上联口光模块发送光功率高于设置的阈值

检查并替换光模块

Uplink optical transceiver TX power high warning

上联口光模块发送光功率高警告

Warning

上联口光模块发送光功率高于设置的阈值

检查并替换光模块

Uplink optical transceiver supply voltage low warning

上联口光模块收发器电压低警告

Warning

上联口光模块收发器电压低于设置的阈值

检查并替换光模块

Uplink optical transceiver bias current high warning

上联口光模块收发器偏流高警告

Warning

上联口光模块收发器偏流高于设置的阈值

检查并替换光模块

Uplink optical transceiver temperature low warning

上联口光模块收发器温度低警告

Warning

上联口光模块收发器温度低于设置的阈值

检查并替换光模块

Uplink optical transceiver Rx power low alarm

上联口光模块收发器接收功率低告警

Major

上联口光模块接收光功率低于设置的阈值

检查并替换光模块

Uplink optical transceiver Rx power low warning

上联口光模块收发器接收功率低警告

Warning

上联口光模块接收光功率低于设置的阈值

检查并替换光模块

Uplink port loop detected alarm

上联口环回告警

Major

上联口之间发生环路

请检查上联口连接拓扑

ONT loop detected alarm

ONT环回告警

Major

ONT之间发生环路

请检查ONT连接拓扑

ONT local optical transceiver bias low alarm

ONT本地PON光模块电流低告警

Minor

ONT本地PON光模块电流低

请检查PON光模块或者设备

ONT local optical transceiver bias  high alarm

ONT本地PON光模块电流高告警

Minor

ONT本地PON光模块电流高

请检查PON光模块或者设备

 

6.5  配置不生效

(1)     检查ONU类型是否和所下发配置相匹配,比如HGU/SFU 需要配置对应的业务流模式。

(2)     检查OLT下发的配置是否超出ONU的实际能力。

6.6  丢包查询

(1)     在进行丢包查询之前,首先需要了解清楚用户的组网情况,业务配置参数,包括上联端口号, PON端口号,ONU ID,业务类型等 。

图6-1 数据转发架构及丢包检查点

 

(2)     丢包查询命令。其中,ONU统计值需要在ONU上查看。

¡     PON卡清除计数器

P3600#clear counter-lc 1

¡     查询GEM Port统计值

P3600#brief-show slot 2 interface gpon-olt 1/1 counters gemport 1/1

¡     查询PON NNI统计值

P3600#brief-show slot 2 interface gpon-olt 1/1 counters nni

¡     主控卡清除计数器

P3600#clear counter-csm counter

¡     查询主控卡IS端口统计值

P3600(CONFIG/BRIDGE)#show statistics interface is 1/1

¡     查询主控卡上行端口统计值

P3600(CONFIG/BRIDGE)#show statistics interface xge 4

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们