01-正文
本章节下载 (1.03 MB)
设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。
在进行故障诊断和处理时,请注意以下事项:
设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。
· 记录具体的故障现象、故障时间、配置信息。
· 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
· 收集设备的日志信息和诊断信息(收集设备运行信息)。
· 记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。
· 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
· 记录故障处理过程中配置的所有命令行显示信息。
更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。
故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部和软件版本的兼容性。
当使用终端仿真访问P3500系统时,PC机的RS-232 COM串口连接到OLT的DEBUG端口。按照下列步骤连接PC到P3500系统:
(1) 使用RJ-45/DB9 RS-232串口线。将DB-9接头连接到PC上空闲的RS232 COM串口,将RJ-45 接头连接到P3500的DEBUG端口。
图1-1 RJ-45/DB9 RS-232串口线的连接
(2) 启动终端仿真程序。该例中,使用Windows超级终端(Windows HyperTerminal)。
(3) 从超级终端主菜单选择[File/Properties],弹出New Connection Properties对话框。
图1-2 超级终端COM端口选择
(4) 从“Connect using”下拉列表框选择与步骤1的线缆连接对应的COM 端口。
(5) 单击<Configure>,弹出COMx Properties对话框。
图1-3 设置DEBUG端口参数
(6) 设置端口参数。
¡ 设置Bits per Second(每秒位数)为115200。
¡ 设置Data Bits(数据位)为8。
¡ 设置Parity(奇偶校验)为无。
¡ 设置Stop Bits(停止位)为1。
¡ 设置Flow Control(数据流控制)为无。
(7) 单击<OK>完成设置。
在成功完成线缆和终端的通信参数设置后,系统会提示输入用户名和口令。
10.20.30.1 login:
缺省的系统管理员用户名和口令为admin和admin。
(8) 输入用户名和口令。
成功登录P3500后,会显示以下命令提示符:
P3500#
当使用Telnet访问P3500系统时,PC网卡的RJ-45接头连接到P3500的管理端口(RJ-45)。按照以下步骤连接PC到P3500系统:
(1) 用两端带RJ-45接头的网线将P3500的管理端口与PC的网卡连接。
P3500管理端口支持Auto-MDIX,所以直连或交叉网线都可使用。
(2) 配置PC的静态IP地址,使其与缺省的P3500管理端口的IP地址(10.20.30.1)处于同一子网,如:10.20.30.2。
(3) 从Windows主菜单选择[开始/运行],输入以下命令:
C:\ telnet 10.20.30.1
10.20.3.1为缺省的P3500管理端口IP地址。
(4) 建立与P3500的连接后,系统会提示输入用户名和口令。
10.20.30.1 login:
对于P3500,缺省的管理员用户名和口令都是“admin”。
(5) 输入用户名和口令。
成功登录后,出现以下系统提示符:
P3500#
该提示符表示用户处于第一个命令模式接口,即EXEC级别。
EXEC级别是第一次登录P3500系统时进入的基本命令模式。该命令模式下,用户可查看系统属性但不能修改。如果用户的账号权限允许,用户可进入其他命令模式执行系统配置功能。
P3500采用机框式设计,用户侧支持105个业务槽位,可配置不同业务板卡,支持GPON/XGPON/XGSPON 或Combo三模应用。具体部署图如图1-5所示:
为方便故障快速定位,请使用命令收集设备软硬件版本信息, 及导出配置文件。
设备运行过程中会产生日志信息记录设备运行状态。这些信息存储在Flash,可以通过“show syslog flash all 1000”查看。还可以实时查看CPU利用率, 内存利用率, 任务状态等信息。
执行命令收集软硬件版本信息。
P3500#show version
cpld_version = 1.6
app_version = 1.0.0.46
kernel_version = 3.1.1.4
uboot_version = 3.1.1.1
dtb_version = 3.1.1.1
rootfs_version = 3.1.1.2
P3500#show slot
Sh-S Module Ava O Hardware Ver SW Ver Serial Number UP Time
1-3 XSM1A VIR D N/A:N/A N/A N/A N/A
1-4 GPFA MAT U GN0206030328:A0 E1001 1012019122000425 0 days 04:49:02
1-5 GPFA MAT U GN0206030328:A0 1.2.0.46 1012019122000424 0 days 04:48:55
1-A MXCA(A) MAT U GN0206030340:B3 1.0.0.46 1012020033000025 0 days 04:51:17
1-B MXCA(S) MAT U GN0206030340:B0 E1001 1012020033000024 0 days 04:51:19
1-P1 PWRA MAT U XGN2424524405:A5 N/A 1012014060501172 N/A
1-P2 PWRA VIR D N/A:N/A N/A N/A N/A
1 FAN1A MAT U GN2424525305:A6 N/A 1012017090100100 N/A
1 BKP1G MAT U N/A:N/A N/A N/A N/A
通过FTP/TFTP工具导出配置文件, 或者执行命令导出配置文件。
P3500# upload ip 192.168.10.10 src /tftpboot/sysconfig.gz dst sysconfigbak.gz
执行命令“show syslog flash all”收集设备软硬件版本信息, 及导出配置文件查看日志内容,参数为需要显示的条目数。
GPFA-1-1> show syslog flash all 100
>>> fLog Show <<<
FRI DEC 10 15:34:29 2021:510ms FLog Init Done in vxWorks.st
SAT NOV 27 17:37:21 2021:640ms FLog Init Done in vxWorks.st
SAT NOV 27 17:20:57 2021:240ms cli_config_mgmt_reboot, reboot [rebooting...]
SAT NOV 27 17:13:02 2021:380ms ************tXbdService:0,normal
SAT NOV 27 17:12:58 2021:350ms ************tXbdService:55,overload
执行命令“show cpu-memory”查看CPU利用率和内存利用率。
P3500#show cpu-memory
Active CSM CPU usage : 11%
Active CSM Memory usage : 32%
Standby CSM CPU usage : 8%
Standby CSM Memory usage : 32%
缺省情况下,设备的启动配置文件为/tftpboot/sysconfig.gz。设备上电时,从缺省存储路径中解压配置文件进行设备的初始化操作。如果缺省存储路径中没有配置文件,则设备采用缺省参数进行初始化配置。
如果想要将设备当前配置恢复成以前保存过的某个配置,可以通过下面的步骤完成。
(1) 通过FTP或TFTP方式将用于恢复的配置文件上传到设备上(以FTP方式举例,上传的配置文件名为sysconfig.gz)。
P3500# download ip 192.168.10.10 src sysconfigbak.gz dst /tftpboot/sysconfig.gz
(2) 删除线卡配置文件。Lc000x.cfg文件为设备启动后生成的线卡配置文件。
P3500# /tftpboot/lc000x.cfg
(3) 重启设备,重启完成后设备会以上面设置的配置文件恢复配置。
上述步骤的操作过程中,不能进行save命令的操作,否则设备将以当前保存的配置启动。
上本章节主要讲述单板、电源、风扇、机框等部件故障的处理方法。其它部件如光模块、端口、温度告警故障等问题请参见“硬件类故障处理,系统类故障处理,端口类故障处理”。
设备上电后,如果系统正常,将在串口终端上显示启动信息;如果配置系统出现故障,配置终端可能无显示或者显示乱码。
如果上电后配置终端无显示信息,首先要做以下检查:
· 电源系统是否正常工作。
· 主控板是否正常工作。
· 是否已将配置电缆接到主控板的配置口(CONSOLE口)。
如果以上检查未发现问题,很可能有如下原因:
· 配置电缆连接的串口错误(实际选择的串口线与终端设置的串口不符)。
· 配置终端参数设置错误(参数要求:设置波特率为115200,数据位为8,奇偶校验为无,停止位为1,流量控制为无)。
· 配置电缆本身有问题,可以尝试更换配置电缆。
如果配置终端上显示乱码,很可能是配置终端参数设置错误(设置波特率为115200,数据位为8,奇偶校验为无,停止位为1,流量控制为无),请进行相应检查。
OLT使用中发生重启,无法正常启动。
可能原因:文件系统损坏或启动文件缺失。
解决方法:重新烧写文件。
系统发生故障后,可执行以下步骤重新建立与FTP服务器的连接,并升级P3500固件和映像文件。
当系统发生了故障或启动进程中断,Console端口是P3500上唯一可以访问的端口。以下例子中将建立与P3500的带外连接。然后配置系统boot参数并重启P3500。此时可使用连接到带外管理端口的FTP服务器boot image启动系统。
下表中列出系统文件,设备文件保存在目录/tftpboot/下:
文件名称 |
说明 |
目录 |
csm1g,ipe |
OLT映像文件 |
/tftpboot/ |
sys_version_file |
系统版本文件 |
/tftpboot/ |
csm1g-kernel.bin |
MXCA 内核文件 |
/tftpboot/ |
csm1g-rootfs.bin |
MXCA 根文件系统 |
/tftpboot/ |
csm1g-p1021.dtb |
MXCA CPU支持文件 |
/tftpboot/ |
csm1g-uboot.bin |
MXCA启动文件 |
/tftpboot/ |
csm1g-userfs.jffs2 |
MXCA用户文件系统 |
/tftpboot/ |
gpn2.img |
GPFA映像文件 |
/tftpboot/ |
sysconfig.gz |
系统配置文件 |
/tftpboot/ |
bcm68620_appl.bin |
PON应用文件 |
/tftpboot/ |
bcm68620_boot.bin |
PON启动文件 |
/tftpboot/ |
按照以下步骤烧写系统文件,操作时请确保只有一块主控卡在位,如果有两块主控卡,拔出其中一块,每次操作一块主控卡。
(1) 电脑串口设置波特率“115200”, date bits 8, Parity N, Stop bits 1,连接MXCA串口。
(2) 电脑连接主控卡带外管理端口(默认出厂IP地址为10.20.30.1),开启TFTP服务,设置正确的文件目录,本例中电脑IP地址为“10.20.30.5”。。
(3) 重启系统,并查看串口打印信息,按照提示输入“Ctrl+c”进入uboot。
(4) 修改启动参数,设置TFTP服务器地址。
=>printenv
查看 serverip地址, 如果不同于前面配置的电脑TFTP服务器地址10.20.30.5,
则修改
=>setenv serverip 10.20.30.5
(5) 顺序升级系统文件。
=>update kernel csm1g-kernel.bin
=>update rootfs csm1g-rootfs.bin
=>update dtb csm1g-p1021.dtb
=>update uboot csm1g-uboot.bin
=>update userfs csm1g-userfs.jffs2
(6) 升级成功后,重启。
=>reset
(7) 启动完成查看软件版本信息。
P3500#show version
(8) 启动完成后Telnet 登录主控卡,用户名/密码 admin/admin。
P3500#show version
如果上述检查完成后故障仍无法排除,请联系技术支持工程师。
电源运行中上报告警,Power灯灭。
使用brief-show alarm命令查看电源模块告警信息。
P3500#brief-show alarm
Num Seq Alarm Name Severity Ocurred Time Entity Type Entity Ins
---+--------+--------------------------+--------+--------------------+------------+----------
1 5 Power Abnormal Major 2020/12/28, 08:49:37 CSM Port 1-A-Trunk 1
如果存在告警状态的电源模块,请执行下一步骤。
如果存在Abnormal状态电源模块,表示该电源模块异常,无法供电。
电源处于Abnormal状态可能有以下原因:
· 电源线可能没接稳而脱落。如果电源线脱落,那么电源的电流和电压都会显示为0,电源状态显示为Abnormal。请检查电源是否接线,接线后使用show alarm命令查看对应告警是否清除。
· 可能是电源模块本身温度过高导致。如果电源模块上积灰较多可能引起电源模块温度升高。请查看电源模块积灰情况,如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。然后使用show alarm命令查看对应告警是否清除。
如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系技术支持工程师。
连续使用命令“show cpu 5”查看CPU利用率,如果CPU占用率持续在80%以上(IDLE剩余20%以下),说明有某个任务长时间占用CPU,需要确认CPU高的具体原因。
图4-1 CPU利用率过高处理流程
CPU占用率高的原因通常有:
· 报文攻击
· 链路环路等
抓包确认攻击源。在设备端口抓包,使用报文捕获工具(如Sniffer、Wireshark、WinNetCap等)分析报文特征,确认攻击源。然后针对攻击源配置报文防攻击。
链路存在环路时,可能出现广播风暴和网络振荡,大量的协议报文上送CPU处理可能导致CPU占用率升高,设备很多端口的流量会变得很大,端口使用率达到90%以上:
如链路出现环路:
· 排查链路连接、端口配置是否正确
· 是否使能STP协议,配置是否正确
· 邻接设备STP状态是否正常
· 如以上配置均正确,可能为STP协议计算错误或协议计算正确但端口驱动层没有正常Block阻塞,可以shutdown环路上端口、拔插端口让STP重新计算来快速恢复业务。
请收集设备的运行信息、日志信息等。将所有信息反馈给技术人员寻求技术支持。
使用show memory命令查看内存信息。如果内存占用率在持续的一段时间内(一般为30分钟)高于60%,那么可能存在内存异常问题,需要关注。
使用命令“show cpu-memory”查看内存分配状态。
P3500#show cpu-memory
Active CSM CPU usage : 11%
Active CSM Memory usage : 32%
Standby CSM CPU usage : 8%
Standby CSM Memory usage : 32%
需要注意的是:
有些内存块使用率的增加是正常的,比如增加配置, 所以需要判断该块内存是否真正的异常。判断内存使用率是否正常可能需要持续观察内存增长速度和内存使用的多少综合分析判断。
有些内存的泄漏过程比较缓慢,所以需要比较长的时间(甚至是几周的时间)来对比观察。
通过上述步骤只是确定了问题的范围,但还需继续收集信息以确定具体的故障。由于后续信息收集要求较高,不建议用户操作,请与H3C的技术支持工程师联系。
需要注意的是,请不要重启设备,否则会将故障信息破坏,给故障定位带来困难
系统出现温度告警。
使用命令“show alarm”查看告警状态。
P3500#brief-show alarm
Num Seq Alarm Name Severity Ocurred Time Entity Type Entity Ins
---+--------+--------------------------+--------+--------------------+------------+----------
4 13 CSM Temperature High Major 2020/12/29, 11:22:54 Node N/A
需要注意的是:
· 若是环境温度过高,如超过45°C,请增加空调或者采取其他散热措施降低环境温度。
· 若是设备温度过高,如超过68°C,请执行步骤2
如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系技术支持工程师。
10/100/1000Base-T千兆以太网电口不UP故障。
通过“show port”命令查看Admin端口状态是否为UP,如果不是,请使用“enable”命令激活相应的端口。
P3500(CONFIG/L2/PORT)#enable xge 1
P3500(CONFIG/L2/PORT)#show port
Port Admin Oper CfgSpeed CfgDup CfgFlow ActSpeed ActDup ActFlow Orient
IU 1/1 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 1/2 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 2/1 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 2/2 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 2/3 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 2/4 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 3/1 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 3/2 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 3/3 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 3/4 Unlock Down Auto Auto Auto Unknown Full Off Network
XGE 1 Lock Down 1000M Full On Unknown Full Off Network
XGE 2 Unlock Up Auto Auto Auto 1000M Full On Network
XGE 3 Unlock Up 1000M Full On 1000M Full On Network
XGE 4 Unlock Up 1000M Full On 1000M Full On Network
P3500(CONFIG/L2/PORT)#show transceiver interface xge 3
XGE3:
Transceiver Type : SFP
Wave Length(nm) : 0
Vendor Name : H3C
Vendor Part Number : MXP-24RJSD
Vendor Serial Number : HA13440370022
Manufacturing Date : 20131029
Digital Diagnostic Monitor : NO
可通过更换网线来检查故障是否排除。
可通过更换本端设备端口, 或者更换电模块, 来检查故障是否排除。
可通过更换对端设备端口来检查故障是否排除。
如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系H3C的技术支持工程师。
千兆SFP光口不UP故障。
通过“show port”命令查看Admin端口状态是否为Enable,如果不是,请使用“enable”命令激活相应的端口。
P3500(CONFIG/L2/PORT)#enable xge 1
P3500(CONFIG/L2/PORT)#show port
Port Admin Oper CfgSpeed CfgDup CfgFlow ActSpeed ActDup ActFlow Orient
IU 1/1 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 1/2 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 2/1 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 2/2 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 2/3 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 2/4 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 3/1 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 3/2 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 3/3 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 3/4 Unlock Down Auto Auto Auto Unknown Full Off Network
XGE 1 Lock Down 1000M Full On Unknown Full Off Network
XGE 2 Unlock Up Auto Auto Auto 1000M Full On Network
XGE 3 Unlock Up 1000M Full On 1000M Full On Network
XGE 4 Unlock Up 1000M Full On 1000M Full On Network
执行“show port”命令查看端口与光模块的速率, 双工配置是否匹配。 若不匹配, 请通过命令配置端口速率和双工模式。
(1) 可通过show interface giga-ethernet 2/4 optical-info命令,查看当前端口上的光模块的信息。
P3500(CONFIG/L2/PORT)#show transceiver interface xge 2
XGE2:
Transceiver Type : unknow
Wave Length(nm) : 1310
Vendor Name : H3C
Vendor Part Number : MXPD-243S
Vendor Serial Number : MA12360160841
Manufacturing Date : 20120905
Digital Diagnostic Monitor : YES
Power Feed Voltage(V) : 3.27
Optical Launch Power(dBm) : -5.9739
Laser Bias Current(mA) : 12.888
Temperature(Centigrade) : 52.47
(2) 可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。
(3) 检查两端的光模块波长、距离等参数是否一致。
检查光纤收发是否连接正确, 若收发连接正确,可通过更换光纤来检查故障是否排除。
检查光纤模式是否和光模块匹配(多模/单模)。若不匹配,可通过更换光纤来检查故障是否排除。
可通过更换本端设备端口来检查故障是否排除。
可通过更换对端设备端口来检查故障是否排除。
如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系技术支持工程师。
万兆SFP+/XFP光口不UP故障。
P3500仅 GE2/1-2支持万兆光口配置,万兆光模块切勿插入GE2/3-4端口,以免发生器件损坏。
通过“show port”命令查看Admin端口状态是否为Enable,如果不是,请使用“enable”命令激活相应的端口。
P3500(CONFIG/L2/PORT)#enable xge 1
P3500(CONFIG/L2/PORT)#show port
Port Admin Oper CfgSpeed CfgDup CfgFlow ActSpeed ActDup ActFlow Orient
IU 1/1 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 1/2 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 2/1 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 2/2 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 2/3 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 2/4 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 3/1 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 3/2 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 3/3 Unlock Down Auto Auto Auto Unknown Full Off Network
IU 3/4 Unlock Down Auto Auto Auto Unknown Full Off Network
XGE 1 Lock Down 1000M Full On Unknown Full Off Network
XGE 2 Unlock Up Auto Auto Auto 1000M Full On Network
XGE 3 Unlock Up 1000M Full On 1000M Full On Network
XGE 4 Unlock Up 1000M Full On 1000M Full On Network
执行“show port”命令查看端口与光模块的速率, 双工配置是否匹配。 若不匹配, 请通过命令配置端口速率和双工模式。
(1) 可通过show interface giga-ethernet 2/2 optical-info命令,查看当前端口上的光模块的信息。
P3500(CONFIG/L2/PORT)#show transceiver interface xge 2
XGE2:
Transceiver Type : unknow
Wave Length(nm) : 1310
Vendor Name : H3C
Vendor Part Number : MXPD-243S
Vendor Serial Number : MA12360160841
Manufacturing Date : 20120905
Digital Diagnostic Monitor : YES
Power Feed Voltage(V) : 3.27
Optical Launch Power(dBm) : -5.9739
Laser Bias Current(mA) : 12.888
Temperature(Centigrade) : 52.47
(2) 可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。
(3) 检查两端的光模块波长、距离等参数是否一致。
检查光纤收发是否连接正确, 若收发连接正确,可通过更换光纤来检查故障是否排除。
检查光纤模式是否和光模块匹配(多模/单模)。若不匹配,可通过更换光纤来检查故障是否排除。
可通过更换本端设备端口来检查故障是否排除。
可通过更换对端设备端口来检查故障是否排除。
如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系技术支持工程师。
端口状态由UP变为DOWN。
(1) 查看本设备及对端设备日志,确认有无端口disable操作。
(2) 查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口disable。请将故障信息发送技术支持人员分析。
(3) 参照端口无法UP故障处理,排查两端端口配置,网线、光模块、光纤等链路是否正常。
(4) 如仍无法确认,请搜集本端、对端设备信息,并将信息发送技术支持人员分析。
端口状态频繁UP/DOWN。
(1) 对于光口,请确认光模块是否异常。查看光模块alarm信息来排查两端光模块以及中间光纤问题;对于支持诊断功能的光模块可以通过查看diagnosis信息确认光模块的光功率是否处于上下门限临界值。如发送光功率处于临界值,请更换光纤、光模块做交叉验证;如接收光功率处于临界值,请排查对端光模块及中间光纤链路。
(2) 对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。
(3) 如果故障依然存在,请排查链路、对端设备、中间设备。
(4) 如仍无法确认,请将故障信息发送技术支持人员分析。
安装光模块的接口不能正常工作。
(1) 检查光模块的温度、电压、偏置电流、接收、发送光功率是否正常(即在该光模块的光功率上下门限值之内)。
P3500(CONFIG/L2/PORT)#show transceiver interface xge 2
XGE2:
Transceiver Type : unknow
Wave Length(nm) : 1310
Vendor Name : H3C
Vendor Part Number : MXPD-243S
Vendor Serial Number : MA12360160841
Manufacturing Date : 20120905
Digital Diagnostic Monitor : YES
Power Feed Voltage(V) : 3.27
Optical Launch Power(dBm) : -5.9739
Laser Bias Current(mA) : 12.888
Temperature(Centigrade) : 52.47
(2) 对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。
(3) 如仍无法确认,请将故障信息发送技术支持人员分析。
通过show statistics查看到端口存在FCS等错误统计故障。
P3500(CONFIG/L2/BRIDGE)#show statistics xge 1
Port :XGE 1
Rx total octets :0
Rx total frames :0
Rx multicast frames :0
Rx broadcast frames :0
Rx discards :0
Rx puase frames :0
Rx control frames :0
Tx total octets :420
Tx total frames :6
Tx multicast frames :0
Tx broadcast frames :0
Tx discards :0
Tx puase frames :0
Tx control frames :0
Rx 64 octets :0
Rx 65 to127 octets :0
Rx 128 to255 octets :0
Rx 256 to 511 octets :0
Rx 512 to 1023 octets :0
Rx 1024 to 1518 octets :0
Rx 1519 to 1522 octets :0
Rx Jumbo frames :0
Tx 64 octets :3
Tx 65 to127 octets :3
Tx 128 to255 octets :0
Tx 256 to 511 octets :0
Tx 512 to 1023 octets :0
Tx 1024 to 1518 octets :0
Tx 1519 to 1522 octets :0
Tx Jumbo frames :0
Rx undersize frames :0
Rx Fragments :0
Rx FCS Error Frames :0
Rx Alignment Error Frames :0
Rx Oversize Frames :0
Rx Jabber Frames :0
Rx Code Errors :0
Tx Deferrals :0
Tx Excessive Deferrals :0
Tx Single Collisions :0
Tx Multiple Collisions :0
Tx Late Collisions :0
通过show counter命令,查看端口出入方向的错包统计具体是哪项在增长,从而判断故障问题。为方便查看,也可以在用户视图下使用clear counters 清空端口统计报文再观察。
(1)端口入方向出现FCS错包且计数持续增加。
a.使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。
b.与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现,应为单板端口故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。
(2)排查对端设备或者中间的传输设备。检查端口入方向是否出现Overrun等错包且计数持续增加。Overrun计数是由于端口输入速率超出本端口处理能力,导致丢包。如果只有某一个端口收发包异常,或者某一个端口下挂设备的业务不通,同时这个单板上的其他端口都是正常的,可以多次查询show counter命令,如果Receiver errors有增加,且等于overruns的增加,那么可以怀疑是单板内部拥塞或堵死,请将故障信息发送技术支持人员分析。
(3)检查端口入方向是否出现giants错包且计数持续增加。
检查两端的jumbo配置是否一致,如jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。如果仍然无法确认,请将故障信息发送技术支持人员分析。
通过show transceiver命令查看光口所插光模块的数字诊断参数的当前测量值。若该光模块的光功率不正常,请更换同一型号的正常光模块。
(1) 查看下面的检查方法:
Fault Scope |
可能原因 |
判断依据 |
恢复方法 |
OLT |
SN没有配置正确 |
"show configure running" |
重新配置SN. GPFA-1-2(config-t)# show ont-unbound |
ONU光模块发光被关闭 |
ONU不发光 @1310nm ”show interface gpon-olt 1/1 ont-unbound” 没有发现ONU
|
方法 1,基于PON口enable所有ONU: 方法 3, 重启 ONU |
|
ONU被deactive |
"show configure running" |
GPFA-1-2(config-if-gpon-ont-1/1/1)# deactive GPFA-1-2(config-if-gpon-ont-1/1/1)# active |
|
PON口被shutdown |
"show configure running" |
GPFA-1-2(config-t-if-gpon-olt-1/1)# no shutdown |
|
光模块故障 |
"show interface gpon-olt 1/1 optical-info" |
更换光模块或者切换到其他PON口 |
|
ONU |
ONU没有上电 |
"show alarm" to check if "DGi" alarm is raised |
检查ONU电源 |
PON口下存在流氓ONU |
1.开启长发光检测: |
1. 移除流氓ONU 2. 完成后关闭流氓ONU检测 GPFA-1-2(config-t)#anti-rogueont disable |
|
ONU硬件故障 |
1. ONU LED不正常 |
更换故障ONU或者掉电重启ONU |
|
ODN |
光纤接头不干净(衰减和反射增大) |
|
清洁光纤接头 |
光纤过度弯折(衰减和反射增大) |
|
整理光纤 |
|
光纤没有紧密连接 |
|
重新连接光纤 |
|
不同类型光纤接头连接在一起比如APC 和 UPC |
|
更换分光器/光纤 |
(2) 查看光功率是否正常:
¡ OLT 光模块信息:
GPFA-1-2(config-t)# show interface gpon-olt 1/1 optical-info
¡ OLT光模块发送光功率范围:
Class B+: 1.5~ 5 dBm
Class C+: 3~7 dBm
¡ OLT 接收到ONU1发送的光功率:
GPFA-1-2(config-t)# show interface gpon-olt 1/1 optical-info ont 1 received-power
¡ OLT光模块接收灵敏度:
Class B+: -28 dBm
Class C+: -32 dBm
¡ ONU光模块信息:
GPFA-1-2(config-t)# show interface gpon-olt 1/1 ont 1 optical-info
¡ ONU光模块灵敏度:
-28dBm @ 1490nm
(1) ONU频繁上下线, 频繁产生光路告警, 光路质量差导致光路存在较大反射或衰减,导致交互报文存在较多误码,交互失败。查看告警,并检查光路。
GPFA-1-2(config-t)# show alarm
GPFA-1-2(config-t)# show alarm detail
GPFA-1-2(config-t)# show alarm-history
Alarm |
Description |
Cause |
Actions |
LOSi |
Loss of signal for ONUi |
Fiber of ONUi break occurs |
Reconnect the fiber |
LOS |
Loss of Signal |
Backbone fiber break occurs |
Reconnect the fiber |
LOFi |
Loss of Frame of ONUi |
ODN failure |
Optimize the ODN |
DOWi |
Drift of window of ONUi |
ODN failure |
Optimize the ODN |
SFi |
Signal Fail of ONUi, when upstream BER of ONUi becomes >=10-4 |
ODN failure |
Optimize the ODN |
SDi |
Signal degraded of ONUi, when upstream BER of ONUi becomes >=10-5 |
ODN failure |
Optimize the ODN |
LCDGi |
Loss of GEM channel delineation |
ODN failure |
Optimize the ODN |
SUFi |
Start-up failure of ONUi The ranging of ONUi has failed n times (n=2) |
ODN failure |
Optimize the ODN |
LOAMi |
Loss of PLOAM for ONUi |
ODN failure |
Optimize the ODN |
DGi |
Dying-Gasp of ONUi |
ONUi is powered off |
Restore power supply |
(1) 查看系统告警
P3500#alarm show alarm
告警列表说明如下表。
Alarm Description(English) |
告警描述 |
级别 |
产生原因 |
解决方法 |
Module Type Mismatch |
模块类型不匹配 |
Major |
当前插入的模块类型和虚支配的模块类型不匹配 |
虚模块被解支配或当前插入模块被拔除或复位后清除 |
Module unrecognized |
模块无法识别 |
Major |
由于模块失败导致插入的模块无法被识别 |
模块以后被识别或模块被拔出或复位后清除 |
Module failed to come up |
模块无法正常启动 |
Major |
由于模块故障,尽管模块被节点识别,但是模块无法正常启动提供业务 |
模块以后启动业务或模块被拔出或复位后清除 |
Assigned module removal |
模块被拔出 |
Major |
正常匹配的模块被拔出 |
模块被重新插入或虚模块被解除支配后清除 |
Standby CSM removal |
备用CSM模块被拔出 |
Major |
备用的CSM模块被拔出 |
备用CSM模块插回后清除 |
Standby CSM is running a higher version image |
备用CSM上正运行一个更高的版本软件 |
Minor |
备用CSM上正运行一个更高的版本软件 |
CSM切换或备用CSM被拔出或复位后清除 |
Standby CSM is running a lower version image |
备用CSM上正运行一个更低的版本软件 |
Major |
备用CSM上正运行一个更低的版本软件 |
CSM切换或备用CSM被拔出或复位后清除 |
Module image version mismatch |
模块软件版本不匹配 |
Minor |
模块中正在运行的软件版本和节点版本文件中的不同 |
模块被拔出或复位后清除 |
Hearbeat signal failed between two redundancy CSM modules |
主备用CSM之间的心跳信号失败 |
Major |
主备用CSM之间的心跳信号失败 |
备用CSM被拔出或心跳信号恢复后清除 |
Protection uplink on active CSM is down |
主用CSM的上行保护链路断开 |
Critical |
主用CSM的上行保护链路断开 |
CSM切换,主用CSM被拔出或复位,主用CSM的上行保护链路恢复后清除 |
Protection uplink on standby CSM is down |
备用CSM的上行保护链路断开 |
Major |
备用CSM的上行保护链路断开 |
CSM切换,备用CSM被拔出或复位,备用CSM的上行保护链路恢复后清除 |
Image file failed to be downloaded into module |
模块下载软件失败 |
Minor |
模块下载软件失败 |
模块被拔出或后续的成功下载后清除 |
Version file is missing |
版本文件未找到 |
Major |
机框中没有版本文件 |
版本软件重新获取后清除 |
Module ambient temperature exceeds the warning threshold |
模块周围温度超过了告警温度阀值 |
Minor |
模块周围温度等于或高于告警温度阀值(T1) |
模块复位,拔出或模块周围温度低于告警温度,或模块周围温度等于或高于短时容忍温度阀值 |
Module ambient temperature exceeds the short-time tolerance threshold |
模块周围温度超过了短时容忍温度阀值 |
Major |
模块周围温度等于或高于短时容忍温度阀值(T2) |
模块复位,拔出或模块周围温度低于短时容忍温度阀值,或模块周围温度高于停工温度阀值 |
Environmental temperature cross the high-temperature threshold |
模块周围温度超过了停工温度阀值 |
Major |
模块周围温度等于或高于停工温度阀值(T3) |
模块复位或拔出后清除 |
Environmental temperature cross the high-temperature threshold |
环境温度超过高温阀值 |
Critical |
检测到的环境温度超过高温阀值 |
节点复位,下次检测到的环境温度低于高温阀值3 °C后清除 |
Environmental temperature cross the low-temperature threshold |
环境温度超过低温阀值 |
Warning |
检测到的环境温度超过低温阀值 |
节点复位,下次检测到的环境温度高于低温阀值3 °C后清除 |
Fan Tray absent |
风扇盘不在位 |
Major |
风扇盘不在位 |
风扇盘插入后清除 |
One or two FANs fails working |
一个或两个风扇停止工作 |
Minor |
一个或两个风扇停止工作 |
风扇盘拔出,所有的风扇工作正常或超过两个风扇停止工作后清除 |
More than two FANs fail working |
超过两个风扇停止工作 |
Major |
超过两个风扇停止工作 |
风扇盘拔出,所有的风扇工作正常或只有一个或两个风扇停止工作后清除 |
Time server is down |
时间服务器断开 |
Minor |
在轮询周期内没有收到所有的配置的SNTP服务器的响应 |
在下一个轮询周期内收到任何一个SNTP服务器的响应后清除 |
External alarm raised |
外部告警产生 |
Configurable |
外部告警产生 |
外部告警清除,或外部告警输入去能后清除 |
The threshold of CPU occupancy in CSM is crossed |
主用CSM的CPU占有率超过阀值 |
Minor |
主用CSM的CPU占有率超过阀值 |
在下面的轮询中CPU占有率低于过负荷阀值后清除 |
The threshold of Memory occupancy in CSM is crossed |
主用CSM的内存占有率超过阀值 |
Minor |
主用CSM的内存占有率超过阀值 |
在下面的轮询中内存占有率低于过负荷阀值后清除 |
The threshold of 15min CPU occupancy is crossed |
15分钟的CPU占有率超过阀值 |
Minor |
模块15分钟的CPU占有率超过阀值 |
模块复位,或在下面的轮询中CPU占有率低于过负荷阀值后清除 |
-48VDC input is abnormal |
-48V直流电源输入异常 |
Major |
-48V直流电源输入过压,欠压或过流 |
-48V直流电源输入恢复正常 |
3.3VDC power output is abnormal |
3.3V直流电源输出异常 |
Major |
3.3V直流电源输出过压,欠压或过流 |
3.3V直流电源输出恢复正常 |
Ringer power output is abnormal |
铃流电源输出异常 |
Major |
铃流电源输出欠压或过流 |
铃流电源输出恢复正常 |
Power output is abnormal |
电源输出异常 |
Critical |
直流电源输出过压,欠压或过流 |
直流电源输出恢复正常 |
CSM uplink down |
CSM上行链路断开 |
Major |
CSM上行链路端口的运行状态是“断开” |
CSM上行链路的工作状态变成“正常”或上行链路端口的管理状态变为“锁定” |
CSM uplink locked |
CSM上行链路“锁定” |
Warning |
CSM链路端口的管理状态为"锁定” |
CSM链路端口的管理状态为“为锁定” |
Trunk work abnormal |
Trunk工作异常 |
Major |
1、该链路聚合对端的交换机路由器端口可能工作异常。或者, |
激活的trunk成员端口的实际速度、双工方式、或者流控一致 |
Trunk down |
Trunk状态down |
Major |
CSM trunk的运行状态是“断开” |
CSM trunk的工作状态变成“正常”或trunk的管理状态变为“锁定” |
GE optical transceiver TX power high alarm |
GE光模块发送光功率高告警 |
Major |
OLT光模块发送光功率高于设置的阈值 |
OLT光模块发送光功率低于设置的阈值的5% |
GE optical transceiver TX power low alarm |
GE光模块发送光功率低告警 |
Major |
OLT光模块发送光功率低于设置的阈值 |
OLT光模块发送光功率高于设置的阈值的5% |
GE optical transceiver supply voltage high alarm |
GE光模块收发器电压高告警 |
Major |
GE光模块收发器电压高于设置的阈值 |
GE光模块收发器电压低于设置的阈值的5% |
GE optical transceiver supply voltage low alarm |
GE光模块收发器电压低告警 |
Major |
GE光模块收发器电压低于设置的阈值 |
GE光模块收发器电压高于设置的阈值的5% |
GE optical transceiver bias current high alarm |
GE光模块收发器偏流高告警 |
Major |
GE光模块收发器偏流高于设置的阈值 |
GE光模块收发器偏流低于设置的阈值的5% |
GE optical transceiver bias current low alarm |
GE光模块收发器偏流低告警 |
Major |
GE光模块收发器偏流低于设置的阈值 |
GE光模块收发器偏流高于设置的阈值的5% |
GE optical transceiver temperature high alarm |
GE光模块收发器温度高告警 |
Major |
GE光模块收发器温度高于设置的阈值 |
GE光模块收发器温度低于设置的阈值的5% |
GE optical transceiver temperature low alarm |
GE光模块收发器温度低告警 |
Major |
GE光模块收发器温度低于设置的阈值 |
GE光模块收发器温度高于设置的阈值的5% |
GE optical transceiver TX power high warning |
GE光模块发送光功率高警告 |
Major |
OLT光模块发送光功率高于设置的阈值 |
OLT光模块发送光功率低于设置的阈值的5% |
GE optical transceiver TX power low warning |
GE光模块发送光功率低警告 |
Major |
OLT光模块发送光功率低于设置的阈值 |
OLT光模块发送光功率高于设置的阈值的5% |
GE optical transceiver supply voltage high warning |
GE光模块收发器电压高警告 |
Major |
GE光模块收发器电压高于设置的阈值 |
GE光模块收发器电压低于设置的阈值的5% |
GE optical transceiver supply voltage low warning |
GE光模块收发器电压低警告 |
Warning |
GE光模块收发器电压低于设置的阈值 |
GE光模块收发器电压高于设置的阈值的5% |
GE optical transceiver bias current high warning |
GE光模块收发器偏流高警告 |
Warning |
GE光模块收发器偏流高于设置的阈值 |
GE光模块收发器偏流低于设置的阈值的5% |
GE optical transceiver bias current low warning |
GE光模块收发器偏流低警告 |
Warning |
GE光模块收发器偏流低于设置的阈值 |
GE光模块收发器偏流高于设置的阈值的5% |
GE optical transceiver temperature high warning |
GE光模块收发器温度高警告 |
Warning |
GE光模块收发器温度高于设置的阈值 |
GE光模块收发器温度低于设置的阈值的5% |
GE optical transceiver temperature low warning |
GE光模块收发器温度低警告 |
Warning |
GE光模块收发器温度低于设置的阈值 |
GE光模块收发器温度高于设置的阈值的5% |
GE optical transceiver Rx power high alarm |
GE光模块收发器接收功率高告警 |
Major |
GE光模块接收光功率高于设置的阈值 |
OLT光模块接收光功率低于设置的阈值的5% |
GE optical transceiver Rx power low alarm |
GE光模块收发器接收功率低告警 |
Major |
GE光模块接收光功率低于设置的阈值 |
OLT光模块接收光功率高于设置的阈值的5% |
GE optical transceiver Rx power high warning |
GE光模块收发器接收功率高警告 |
Warning |
GE光模块接收光功率高于设置的阈值 |
OLT光模块接收光功率低于设置的阈值的5% |
GE optical transceiver Rx power low warning |
GE光模块收发器接收功率低警告 |
Warning |
GE光模块接收光功率低于设置的阈值 |
OLT光模块接收光功率高于设置的阈值的5% |
LOS |
PON 光口失效 |
Critical |
PON光模块报告失败 |
PON端口的发送光功率恢复到最大最小阈值之间或端口去能后清除 |
LOSi |
ONT LOSi Alarm |
Critical |
OLT收不到指定ONU的发光 |
OLT 探测到正常的ONU发光 |
SFi |
ONUi信号失效 |
Critical |
每个间隔T计算BER(ONU误码率)。T是应用程序设置的参数。 如果BER≥BER SF阈值,则SFi警报将发送到主机应用程序。 BER SF阈值定义为10-x,其中x为可在3到8范围内配置。 |
警报必须由主机清除成功激活ONU之后的应用程序. |
SDi |
ONUi信号降级 |
Major |
每个间隔T计算BER(ONU误码率)。T是主机应用程序设置的参数。 如果BER≥BER SD阈值,则SDi警报将发送到主机应用程序。BER SD阈值 |
SD阈值必须高于SF阈值。 当BER <10-(x + 1)时,SDi被清除。 |
GTCAi |
GEM port 丢包 |
Major |
GEM端口丢包 |
|
ETCAi |
EHT 端口 FEC 错误 |
Major |
FEC错误 |
ONU成功上线 |
TIWi |
ONUi的传输受到干扰 |
Major |
当检测到ONUi的平均漂移时触发此警报 |
ONU成功上线 |
LOFi |
ONUi的帧丢失 |
Major |
此警报由ONUi的N个连续的无效定界符触发,其中N为可通过bcmolt_cfg_set(gpon_ni)API进行配置(默认值为4)。 |
ONU成功上线 |
MEMi |
ONUi的消息错误 |
Major |
收到未知的PLOAM消息时,BCM68620 |
|
LOKi |
ONUi丢失同步密钥 |
Major |
密钥交换过程由于对Request_Key PLOAM消息无响应而失败3次。 如果出现以下情况,将清除警报接收到Encryption_Key PLOAM消息或成功的ONU激活过程之后。 |
ONU成功上线 |
LOAMi |
PLOAM消息丢失 |
Major |
当ONUi中缺少N个连续的PLOAM消息时,OLT将触发此警报,其中N是可配置的(默认值为3)。 当检测到LOAMi时,将禁用ONU并将通知发送到主机应用程序。 |
ONU成功上线 |
LOBi |
ONU Burst丢失 |
Major |
此警报由ONUi的N个连续的无效定界符触发,其中N为可通过链接配置进行配置。 |
ONU成功上线 |
DOWi |
ONUi窗口的漂移 |
Major |
当为ONUi检测到的平均漂移超过预定义的阈值时,将触发此警报。 |
当平均漂移降至阈值以下时清除警报 |
LOPCi |
XG(S)PLOAM消息丢失 |
Major |
ONUi的PLOAM通道丢失—当连续N次时,此警报由BCM686XX固件触发ONUi中缺少PLOAM消息,缺少确认或持续的MIC故障。 |
ONU成功上线 |
LOOCi |
OMCI通道失败 |
Major |
当连续N次OMCI时,此警报由BCM686XX固件触发 |
ONU成功上线 |
LCDGi |
GEM通道定界丢失 |
Major |
ONUi的GEM通道定界丢失时 |
当ONUi的GEM通道定界恢复 |
LOAi |
ONUi协议确认帧丢失 |
Minor |
OLT没有收到ONUi应发送的上行确认信息 |
当OLT收到ONU的确认 |
DFi |
ONU Deactive失败 |
Major |
当OLT receive 3个连续的消息,产生这个alarm |
激活onu |
RDIi |
ONUi远端缺陷指示 |
Minor |
当ONUi中的RDI域被声明,ONU处接收到的OLT的数据有缺陷。 |
当ONUi的RDI信号消失 |
SUFi |
ONUi启动失败 |
Critical |
OLT接收到ONU的光脉冲 |
成功激活ONU后,告警清除 |
DGi |
接收到ONUi的Dying-Gasp |
Critical |
当OLT接收到ONUi的Dying Gasp消息,声明Dying Gaspi |
当OLT收到测距过程中的PLOAM消息 |
PEEi |
ONUi物理设备错误 |
Major |
当OLT从OUN接收到一个PEE消息 |
当OLT没有收到ONUi的PEE消息的3秒后 |
LOS |
PON光口信号丢失 |
Critical |
PON 端口收无光 |
PON 端口接收到光信号或端口去能后清除 |
OLT port admin state link down |
PON口 admin state link down |
Critical |
PON 端口 Link Down |
PON 端口 Link Up |
(1) 检查ONU类型是否和所下发配置相匹配, 比如HGU/SFU 需要配置对应的业务流模式。
(2) 检查OLT下发的配置是否超出ONU的实际能力。
(1) 在进行丢包查询之前,首先需要了解清楚用户的组网情况, 业务配置参数, 包括上联端口号, PON端口号,ONU ID, 业务类型等 。
(2) 丢包查询命令。其中, ONU统计值需要在ONU上查看。
¡ PON卡清除计数器
GPFA-1-2# clear counter
¡ 查询GEM Port统计值
GPFA-1-2# show interface gpon-olt 1/1 counters gemport 1/1
¡ 查询PON NNI统计值
GPFA-1-2# show interface gpon-olt 1/1 counters nni
¡ 主控卡清除计数器
P3500(CONFIG/L2/BRIDGE)# reset counter
¡ 查询主控卡IS端口统计值
P3500(CONFIG/L2/BRIDGE)#show statistics is 1/1
¡ 查询主控卡上行端口统计值
P3500(CONFIG/L2/BRIDGE)#show statistics xge 1
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!