01-正文
本章节下载: 01-正文 (1.37 MB)
目 录
设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。
在进行故障诊断和处理时,请注意以下事项:
设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。
· 记录具体的故障现象、故障时间、配置信息。
· 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
· 收集设备的日志信息和诊断信息(收集设备运行信息)。
· 记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。
· 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
· 记录故障处理过程中配置的所有命令行显示信息。
更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。
故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部和软件版本的兼容性。
当使用终端仿真访问P3600系统时,PC机的RS-232 COM串口连接到OLT的COM端口。按照下列步骤连接PC到P3600系统:
(1) 使用RJ-45/DB9 RS-232串口线。将DB-9接头连接到PC上空闲的RS232 COM串口,将RJ-45 接头连接到P3600的MYCA主用主控板COM端口。
图1-1 RJ-45/DB9 RS-232串口线的连接
COM端口和DB9的连接线序如图1-2。
(2) 启动串口登录程序。该例中,使用secureCRT,启动后点击快速连接按钮,进行连接配置。如下图。
图1-3 串口接入
(3) 在secureCRT的配置中,protocol选择serial表示使用串口连接。port本例选择COM3(电脑中具体查询串口号见备注)。
对于查询电脑上可使用的串口序号,可以执行以下步骤:
在计算机桌面,鼠标移到“此电脑”。
点击鼠标右键,选择“管理”,这将自动打开“计算机管理”页面。
在左侧的系统工具下选择“设备管理器”。
在右侧页面上点击“端口 (COM和LPT)”,展开后可以看到系统串口信息。
一般台式机自带的串口序号一般为COM1和COM2。如果使用USB转串口,其串口序号为COM3及以上(不同USB转串口线插入会导致COM号发生变化)。
图1-4 查看COM口编号
(4) 设置端口参数。
¡ 设置Bits per Second(每秒位数)为115200。
¡ 设置Data Bits(数据位)为8。
¡ 设置Parity(奇偶校验)为无。
¡ 设置Stop Bits(停止位)为1。
¡ 设置Flow Control(数据流控制)都不选。
(5) 单击<Connect>完成设置。
在成功完成线缆和终端的通信参数设置后,系统会提示输入用户名和口令。
10.20.30.1 login:
缺省的系统管理员用户名和口令为admin和admin。
(6) 输入用户名和口令。
成功登录P3600后,会显示以下命令提示符:
P3600#
当使用Telnet访问P3600系统时,PC网卡的RJ-45接头连接到P3600的PCU1S板上的ETH管理端口(RJ-45)。按照以下步骤连接PC到P3600系统:
(1) 用两端带RJ-45接头的网线将P3600的管理端口与PC的网卡连接。
P3600管理端口支持Auto-MDIX,所以直连或交叉网线都可使用。
(2) 配置PC的静态IP地址,使其与缺省的P3600管理端口的IP地址(10.20.30.1)处于同一子网,如:10.20.30.2。
(3) 从Windows主菜单选择[开始/运行],输入以下命令:
C:\ telnet 10.20.30.1
10.20.3.1为缺省的P3600管理端口IP地址。
(4) 建立与P3600的连接后,系统会提示输入用户名和口令。
10.20.30.1 login:
对于P3600,缺省的管理员用户名和口令都是“admin”。
(5) 输入用户名和口令。
成功登录后,出现以下系统提示符:
P3600#
该提示符表示用户处于第一个命令模式接口,即EXEC级别。
EXEC级别是第一次登录P3600系统时进入的基本命令模式。该命令模式下,用户可查看系统属性但不能修改。如果用户的账号权限允许,用户可进入其他命令模式执行系统配置功能。
P3600采用机框式设计,以P3617为例用户侧支持17个业务槽位,可配置不同业务板卡,支持GPON/XGPON/XGSPON或Combo三模应用。具体部署图如图1-6所示:
有关P3600系列GPON OLT交换机各个型号槽位分布及与板卡适配关系的详细介绍,请参见“H3C P3600系列GPON OLT交换机 安装指南”。
收集软硬件版本信息。
P3617#show version
H3C P3617 Software, Version E1002, Release 1002, Build on Oct 27 2022 00:24:25
Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.
H3C P3617 uptime is 0 days 00:24:17
MYCA(A) 1-A:
Uptime is 0 days 00:24:17
H3C MYCA with 1 Processor
BOARD TYPE: MYCA
DRAM: 4G bytes
FLASH: 8G bytes
PCB 1 Version: VER.A4
Bootrom Version: U-Boot 2022.10.14
CPLD Version: 0.2
FPGA Version: 0.0.0.6
Kernel Version: Linux version 4.19.68
Release Version: H3C MYCA-E1002
Patch Version: None
MYCA(S) 1-B:
Uptime is 0 days 00:24:08
H3C MYCA with 1 Processor
BOARD TYPE: MYCA
DRAM: 4G bytes
FLASH: 8G bytes
PCB 1 Version: VER.A3
Bootrom Version: U-Boot 2022.10.14
CPLD Version: 0.1
FPGA Version: 0.0.0.6
Kernel Version: Linux version 4.19.68
Release Version: H3C MYCA-E1002
Patch Version: None
XGFCA 1-6:
Uptime is 0 days 00:21:20
H3C XGFCA with 1 Processor
BOARD TYPE: XGFCA
DRAM: 4G bytes
FLASH: 64M bytes
PCB 1 Version: VER.A0
Bootrom Version: N/A
CPLD Version: N/A
Release Version: H3C XGFCA-E1002
Patch Version: None
XGFCA 1-12:
Uptime is 0 days 00:21:14
H3C XGFCA with 1 Processor
BOARD TYPE: XGFCA
DRAM: 4G bytes
FLASH: 64M bytes
PCB 1 Version: VER.A2
Bootrom Version: N/A
CPLD Version: N/A
Release Version: H3C XGFCA-E1002
Patch Version: None
P3617#show slot
Sh-S Module Ava O Hardware Ver SW Ver Serial Number UP Time
1-6 XGFCA MAT U 9801A48Q:A0 E1002 X123456789S123456789 0 days 00:21:39
1-12 XGFCA MAT U GN0206030465:A2 E1002 1012021091900039 0 days 00:21:33
1-A MYCA(A) MAT U GN0206030523:A4 E1002 1012022101400007 0 days 00:24:36
1-B MYCA(S) MAT U GN0206030340:A3 E1002 0000000000000000 0 days 00:24:28
1-P1 PDC1A MAT U N/A:N/A N/A N/A N/A
1-IO PCU1S MAT U N/A:N/A N/A N/A N/A
1 FAN1A MAT U N/A:N/A N/A N/A N/A
1 OPA-P3617 MAT U 0206021416:A0 N/A 1052021051700006 N/A
通过FTP/TFTP工具导出配置文件,或者执行命令导出配置文件。
P3617# upload ip 192.168.10.10 src /tftpboot/sysconfig.gz dst sysconfigbak.gz
(1) 执行如下命令将收集系统诊断信息,并在tftpboot目录下生成诊断信息文件。
P3600# show diagnostic-information-to-file
图1-7 诊断信息
(2) 通过FTP/TFTP工具导出配置文件。
查看CPU利用率和内存利用率。
P3600#show cpu-memory
Active MYCA CPU usage : 11%
Active MYCA Memory usage : 32%
Standby MYCA CPU usage : 8%
Standby MYCA Memory usage : 32%
缺省情况下,设备的启动配置文件为/tftpboot/sysconfig.gz。设备上电时,从缺省存储路径中解压配置文件进行设备的初始化操作。如果缺省存储路径中没有配置文件,则设备采用缺省参数进行初始化配置。
如果想要将设备当前配置恢复成以前保存过的某个配置,可以通过下面的步骤完成。
(1) 通过FTP或TFTP方式将用于恢复的配置文件上传到设备上(以FTP方式举例,上传的配置文件名为sysconfig.gz)。
P3600# download ip 192.168.10.10 src sysconfigbak.gz dst /tftpboot/sysconfig.gz
(2) 重启设备,重启完成后设备会以上面设置的配置文件恢复配置。
上述步骤的操作过程中,不能进行save命令的操作,否则设备将以当前保存的配置启动。
本章节主要介绍了单板、电源、风扇、机框等部件故障的处理方法。关于其它部件,如光模块、端口、温度告警故障等问题,请参见“硬件类故障处理,系统类故障处理,端口类故障处理”。
设备上电后,如果系统正常,将在串口终端上显示启动信息;而如果配置系统出现故障,配置终端可能无显示或者显示乱码。
如果上电后配置终端无显示信息,首先要进行以下检查:
· 电源系统是否正常工作。
· 主控板是否正常工作。
· 是否已将配置电缆接到主控板的配置口(CONSOLE口)。
如果以上检查未发现问题,可能存在以下原因:
· 配置电缆连接的串口错误(实际选择的串口线与终端设置的串口不符)。
· 配置终端参数设置错误(参数应设置为波特率115200,数据位8,奇偶校验无,停止位1,流量控制无)。
· 配置电缆本身存在问题,可尝试更换配置电缆。
如果配置终端上显示乱码,很可能是由于配置终端参数设置错误(需设置波特率为115200,数据位为8,奇偶校验为无,停止位为1,流量控制为无),请进行相应检查。
OLT使用中发生重启但无法正常启动。
可能原因:文件系统损坏或启动文件缺失。
解决方法:重新烧写文件。
系统发生故障后,可执行以下步骤重新建立与FTP服务器的连接,并升级P3600固件和映像文件。
当系统发生了故障或启动进程中断,通过主控板卡的Console端口和管理进行固件恢复。
如图3-2建立与P3600的带外连接。
按照以下步骤烧写系统文件,操作时请确保只有一块主控卡在位,如果有两块主控卡,拔出其中一块,每次操作一块主控卡。
(1) 电脑串口设置波特率“115200”, date bits 8, Parity N, Stop bits 1,连接串口。
(2) 通过串口设置主控板卡外网口(eth5)的管理IP地址。
图3-3 设置管理IP地址
(3) 电脑连接主控卡带外管理端口登录步骤2配置好的IP地址,开启TFTP服务软件(推荐使用3CDaemon)。
(4) 将主控板的系统文件“csm_upgrade.gz”文件传到/usr/local目录下。
图3-4 下载版本文件
(5) 软件上传完毕以后,在串口操作界面进入/usr/local/目录,执行tar -zxvf csm_upgrade.gz,解压系统文件。
图3-5 解压系统文件
(6) 执行同步命令sync后,再下发reboot命令,重启板卡。
图3-6 执行同步和重启
(7) 启动完成后查看板卡是否能正常启动。
(8) 启动完成后Telnet 登录主控卡,默认IP是10.20.30.1,用户名/密码 admin/admin。
P3600#show version
如果上述检查完成后故障仍无法排除,请联系技术支持工程师。
业务板无法正常启动。
可能原因:业务板文件系统损坏或启动文件缺失。
解决方法:重新烧写文件。
图3-7 业务板故障处理
在CLI界面,通过show slot命令,发现对应槽位的状态是UNR时,需要通过对应业务板卡的串口进行网口IP配置,然后从主控板上获取业务板卡的系统文件。
业务板卡的串口线序与主控板卡一致,登录方法也与主控板一致,具体请参见3.2.3 故障处理步骤。用户名为root,可直接进入。如果出现输入密码的提示,请直接联系技术支持工程师。
因为业务板卡的串口位于板卡侧面,建议先将串口线接好,再将业务板卡插入槽位。
为每个槽位配置一个192.168.100.0/24网段地址,范围包括192.168.100.1至192.168.100.18,以及192.168.100.254。确保不会出现IP冲突。
图3-8 配置网口IP
在完成Eth5口的IP配置后,将与主控默认IP 192.168.100.1互通,可以使用ping命令来检测一下通信是否正常。
图3-9 检测与主控互通
使用以下命令将业务板卡文件从主控板卡中取出,默认传输到根目录下:
tftp -g -b 10240 -r xsmlc.img 192.168.100.1(执行该命令后,默认没有任何提示,大约两三秒内完成)
然后将xsmlc.img文件从根目录下复制到DATA目录:
mv xsmlc.img /mnt/hfs1/DATA/ (执行该命令后,估计等待大约半分钟,也没有任何提示)
最后,进入目录检查文件是否成功传送。
图3-10 检查文件
最后在主控上进行业务板复位操作:reset hard slot X。其中X为对应的业务板卡槽位号。
电源运行中上报告警,Power灯灭。
使用brief-show alarm命令查看电源模块告警信息。
P3600#brief-show alarm
Num Seq Alarm Name Severity Ocurred Time Entity Type Entity Ins
---+--------+--------------------------+--------+--------------------+------------+----------
1 5 Power Abnormal Major 2020/12/28, 08:49:37 CSM Port 1-A-Trunk 1
如果存在告警状态的电源模块,请执行下一步骤。
如果存在Abnormal状态电源模块,表示该电源模块异常,无法供电。
电源处于Abnormal状态可能有以下原因:
· 电源线可能未连接牢固而脱落。如果出现电源线脱落的情况,那么电源的电流和电压都会显示为0,电源状态显示为Abnormal。请检查电源线连接情况,确认连接后使用show alarm命令查看相关告警是否已清除。
· 电源模块本身可能因温度过高而处于异常状态。如果电源模块上积灰较多,可能导致电源模块温度上升。请检查电源模块的积灰情况,如果发现灰尘较多,请将电源模块拆卸清理灰尘后重新安装。然后使用show alarm命令查看对应告警是否已清除。
如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系技术支持工程师。
使用命令“show cpu 5”连续查看CPU利用率,如果CPU占用率持续在80%以上(IDLE剩余20%以下),说明有某个任务长时间占用CPU,需要确认造成CPU高的具体原因。
图4-1 CPU利用率过高处理流程
CPU占用率高的原因通常有:
· 报文攻击
· 链路环路等
使用报文捕获工具(如Sniffer、Wireshark、WinNetCap等)在设备端口进行抓包,从报文特征分析中确认攻击源。随后,针对攻击源配置报文防护措施。
当存在链路环路时,可能会导致广播风暴和网络振荡,大量的协议报文被上送至CPU处理,进而导致CPU占用率升高,设备端口上的流量也会变得异常庞大,端口使用率可能达到90%以上。对于链路出现环路的情况,可以按一下步骤进行排查:
· 检查链路连接和端口配置是否正确
· 检查RSTP或MSTP协议是否启用,并且确认配置是否正确
· 检查邻接设备的RSTP或MSTP状态是否正常
· 如果以上配置均正确,可能是由于RSTP或MSTP协议计算出现错误,或者协议计算正确但是端口驱动层未能正常进行Block阻塞。在这种情况下,可以通过shutdown环路上的端口,或者拔插端口,让RSTP或MSTP重新计算,以便快速恢复业务。
请收集设备的运行信息、日志信息等。将所有信息反馈给技术人员寻求技术支持。
使用show memory命令查看内存信息。如果内存占用率在持续的一段时间内(通常为30分钟)高于60%,那么可能存在内存异常问题,需要引起关注。
使用命令“show cpu-memory”查看内存分配状态。
P3600#show cpu-memory
Active CSM CPU usage : 11%
Active CSM Memory usage : 32%
Standby CSM CPU usage : 8%
Standby CSM Memory usage : 32%
需要注意的是:有些内存块使用率的增加是正常的,例如由于配置的增加。因此需要判断该内存块是否真的异常。判断内存使用率是否正常可能需要持续观察内存增长速度和使用量综合分析。
此外,有些内存的泄漏过程比较缓慢,因此可能需要较长时间(甚至是几周的时间)来进行比较观察。
通过上述步骤仅确定了问题的范围,但需继续收集信息以明确具体的故障。对于后续信息收集不建议用户自行操作,请联系H3C的技术支持工程师。
需要注意的是,请不要重启设备,否则会破坏故障信息,给故障定位带来困难。
系统出现温度告警。
使用命令“show alarm”查看告警状态。
P3600#brief-show alarm
Num Seq Alarm Name Severity Ocurred Time Entity Type Entity Ins
---+--------+--------------------------+--------+--------------------+------------+----------
4 13 CSM Temperature High Major 2020/12/29, 11:22:54 Node N/A
需要注意的是:
· 如果环境温度超过45°C,请增加空调或采取其他散热措施以降低环境温度。
· 如果设备温度过高超过68°C,请执行步骤2
如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系技术支持工程师。
上行光口不UP故障。
(1) 通过“brief-show port”命令查看Admin端口状态是否为Unlock,如果不是,请使用“enable”命令激活相应的端口。
P3600(CONFIG/L2/PORT)#enable interface xge 1
(2) CfgSpeed对应当前端口配置的端口速率,默认为auto,端口自适应,10G和25G都可以自适应。
(3) 如果需要使用千兆速率,则需要把对端端口的自协商模式给关闭,否则会协商异常。
(4) 上行口暂不支持千兆电口模式。
P3617#brief-show port
Port Admin Oper CfgSpeed CfgDup CfgFlow ActSpeed ActDup ActFlow Orient Fec
IS 1/1 Unlock Down 25000M Full On 10000M Full On Subscriber Disable
IS 1/2 Unlock Down 25000M Full On 10000M Full On Subscriber Disable
IS 1/3 Unlock Down 25000M Full On 10000M Full On Subscriber Disable
IS 1/4 Unlock Down 25000M Full On 10000M Full On Subscriber Disable
IS 2/1 Unlock Down 25000M Full On 10000M Full On Subscriber Disable
IS 2/2 Unlock Down 25000M Full On 10000M Full On Subscriber Disable
IS 2/3 Unlock Down 25000M Full On 10000M Full On Subscriber Disable
IS 2/4 Unlock Down 25000M Full On 10000M Full On Subscriber Disable
......
XGE 1 Unlock Down Auto Auto On 10000M Full On Network Disable
XGE 2 Unlock Down Auto Auto On 10000M Full On Network Disable
XGE 3 Unlock Down Auto Auto On 10000M Full On Network Disable
XGE 4 Unlock Down Auto Auto On 10000M Full On Network Disable
XGE 5 Unlock Down Auto Auto On 10000M Full On Network Disable
XGE 6 Unlock Up Auto Auto On 10000M Full On Network Disable
XGE 7 Unlock Up Auto Auto On 10000M Full On Network Disable
XGE 8 Unlock Up Auto Auto On 10000M Full On Network Disable
(1) 可通过show transceiver interface xge 2命令,查看当前端口上的光模块的信息。
P3617(CONFIG/L2/PORT)#show transceiver interface xge 2
XGE2:
Transceiver Type : unknow
Wave Length(nm) : 1310
Vendor Name : H3C
Vendor Part Number : MXPD-243S
Vendor Serial Number : MA12360160841
Manufacturing Date : 20120905
Digital Diagnostic Monitor : YES
Power Feed Voltage(V) : 3.27
Optical Launch Power(dBm) : -5.9739
Laser Bias Current(mA) : 12.888
Temperature(Centigrade) : 52.47
(2) 可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。
(3) 检查两端的光模块波长、光波的传输距离等参数是否一致。
检查光纤收发是否连接正确,若收发连接正确,可通过更换光纤来检查故障是否排除。
检查光纤模式是否和光模块匹配(多模/单模)。若不匹配,可通过更换光纤来检查故障是否排除。
可通过更换本端设备端口来检查故障是否排除。
可通过更换对端设备端口来检查故障是否排除。
如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系技术支持工程师。
端口状态由UP变为DOWN。
(1) 查看本设备及对端设备日志,确认有无端口disable操作。
(2) 查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口disable。请将故障信息发送技术支持人员分析。
(3) 参照端口无法UP故障处理,排查两端端口配置,网线、光模块、光纤等链路是否正常。
(4) 如仍无法确认,请搜集本端、对端设备信息,并将信息发送技术支持人员分析。
端口状态频繁UP/DOWN。
(1) 对于光口,请确认光模块是否异常。查看光模块alarm信息来排查两端光模块以及中间光纤问题;对于支持诊断功能的光模块可以通过查看diagnosis信息确认光模块的光功率是否处于上下门限临界值。如发送光功率处于临界值,请更换光纤、光模块做交叉验证;如接收光功率处于临界值,请排查对端光模块及中间光纤链路。
(2) 对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。
(3) 如果故障依然存在,请排查链路、对端设备、中间设备。
(4) 如仍无法确认,请将故障信息发送技术支持人员分析。
安装光模块的接口不能正常工作。
(1) 检查光模块的温度、电压、偏置电流、接收、发送光功率是否正常(即在该光模块的光功率上下门限值之内)。
P3600(CONFIG/L2/PORT)#show transceiver interface xge 2
XGE2:
Transceiver Type : unknow
Wave Length(nm) : 1310
Vendor Name : H3C
Vendor Part Number : MXPD-243S
Vendor Serial Number : MA12360160841
Manufacturing Date : 20120905
Digital Diagnostic Monitor : YES
Power Feed Voltage(V) : 3.27
Optical Launch Power(dBm) : -5.9739
Laser Bias Current(mA) : 12.888
Temperature(Centigrade) : 52.47
(2) 对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。
(3) 如仍无法确认,请将故障信息发送技术支持人员分析。
通过show statistics查看到端口存在FCS等错误统计故障。
P3600(CONFIG/L2/BRIDGE)#show statistics interface xge 1
Port :XGE 1
Rx total octets :0
Rx total frames :0
Rx multicast frames :0
Rx broadcast frames :0
Rx discards :0
Rx puase frames :0
Rx control frames :0
Tx total octets :420
Tx total frames :6
Tx multicast frames :0
Tx broadcast frames :0
Tx discards :0
Tx puase frames :0
Tx control frames :0
Rx 64 octets :0
Rx 65 to127 octets :0
Rx 128 to255 octets :0
Rx 256 to 511 octets :0
Rx 512 to 1023 octets :0
Rx 1024 to 1518 octets :0
Rx 1519 to 1522 octets :0
Rx Jumbo frames :0
Tx 64 octets :3
Tx 65 to127 octets :3
Tx 128 to255 octets :0
Tx 256 to 511 octets :0
Tx 512 to 1023 octets :0
Tx 1024 to 1518 octets :0
Tx 1519 to 1522 octets :0
Tx Jumbo frames :0
Rx undersize frames :0
Rx Fragments :0
Rx FCS Error Frames :0
Rx Alignment Error Frames :0
Rx Oversize Frames :0
Rx Jabber Frames :0
Rx Code Errors :0
Tx Deferrals :0
Tx Excessive Deferrals :0
Tx Single Collisions :0
Tx Multiple Collisions :0
Tx Late Collisions :0
通过show counter命令,查看端口出入方向的错包统计具体是哪项在增长,从而判断故障问题。为方便查看,也可以在用户视图下使用clear counters 清空端口统计报文再观察。
(1)端口入方向出现FCS错包且计数持续增加。
a.使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。
b.与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现,应为单板端口故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。
(2)排查对端设备或者中间的传输设备。检查端口入方向是否出现Overrun等错包且计数持续增加。Overrun计数是由于端口输入速率超出本端口处理能力,导致丢包。如果只有某一个端口收发包异常,或者某一个端口下挂设备的业务不通,同时这个单板上的其他端口都是正常的,可以多次查询show counter命令,如果Receiver errors有增加,且等于overruns的增加,那么可以怀疑是单板内部拥塞或堵死,请将故障信息发送技术支持人员分析。
(3)检查端口入方向是否出现giants错包且计数持续增加。
检查两端的jumbo配置是否一致,如jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。如果仍然无法确认,请将故障信息发送技术支持人员分析。
通过show transceiver命令查看光口所插光模块的数字诊断参数的当前测量值。若该光模块的光功率不正常,请更换同一型号的正常光模块。
(1) 查看下面的检查方法:
Fault Scope |
可能原因 |
判断依据 |
恢复方法 |
OLT |
SN没有配置正确 |
brief-show configuration running 1 |
重新配置SN. P3600#brief-show slot 1 ont-unbound |
ONU光模块发光被关闭 |
ONU不发光 @1310nm show interface gpon-olt 1/1 ont-unbound没有发现ONU |
方法 1,基于PON口enable所有ONU: 方法 3, 重启 ONU |
|
ONU被deactive |
brief-show configuration running 1 |
P3600(Slot-9/if-gpon-olt-1/1/1)# deactive P3600(Slot-9/if-gpon-olt-1/1/1)# active |
|
PON口被shutdown |
brief-show configuration running 1 |
P3600(Slot-9/if-gpon-olt-1/1)# no shutdown |
|
光模块故障 |
brief-show slot 2 interface gpon-olt 1/1 optical-info |
更换光模块或者切换到其他PON口 |
|
ONU |
ONU没有上电 |
brief-show alarm" to check if "DGi" alarm is raised |
检查ONU电源 |
PON口下存在流氓ONU |
1.开启长发光检测: |
1. 移除流氓ONU 2. 完成后关闭流氓ONU检测 P3600(Slot-9)#anti-rogueont 1 disable |
|
ONU硬件故障 |
1.
ONU LED不正常 |
更换故障ONU或者掉电重启ONU |
|
ODN |
光纤接头不干净(衰减和反射增大) |
|
清洁光纤接头 |
光纤过度弯折(衰减和反射增大) |
|
整理光纤 |
|
光纤没有紧密连接 |
|
重新连接光纤 |
|
不同类型光纤接头连接在一起比如APC和UPC |
|
更换分光器/光纤 |
(2) 查看光功率是否正常:
¡ OLT 光模块信息:
P3600#brief-show slot 2 interface gpon-olt 1/1 optical-info
¡ OLT光模块发送光功率范围:
Class B+: 1.5~ 5 dBm
Class C+: 3~7 dBm
¡ OLT 接收到ONU1发送的光功率:
P3600#brief-show slot 9 interface gpon-olt 1/1 optical-info ont 1 received-power
¡ ONU光模块信息:
P3600#brief-show slot 2 interface gpon-olt 1/1 ont 1 optical-info
为了确保ONU正常上线工作,ONU接收光功率必须小于ONU饱和光功率,大于ONU接收灵敏度。具体而言,需满足以下条件:(ONU接收灵敏度)<( (OLT实际发送光功率)–(光链路损耗总和) )<(ONU饱和光功率)。如果出现功率接近或者超过饱和光功率问题,可通过增加光衰来解决。建议将ONU收光功率调整到-20dBm~-15dBm,以达到最佳工作状态。
ONU频繁上下线,频繁产生光路告警,光路质量差导致光路存在较大反射或衰减,导致交互报文存在较多误码,交互失败。查看告警,并检查光路。
P3600#alarm show alarm
P3600#alarm show alarm-history
告警 |
描述 |
原因 |
处理方式 |
LOSi |
ONUi的信号丢失 |
ONUi的光纤中断 |
重新拔插或替换光纤 |
LOS |
信号丢失 |
主干光纤中断 |
重新拔插或替换光纤 |
LOFi |
ONUi帧丢失 |
ODN故障 |
优化ODN,参见表6-1 |
DOWi |
ONUi窗口偏移 |
ODN故障 |
优化ODN |
SFi |
ONUi信号故障, 发生于ONUi上行BER ≥10-4 |
ODN故障 |
优化ODN |
SDi |
ONUi信号劣化, 发生于ONUi上行BER≥10-5 |
ODN故障 |
优化ODN |
LCDGi |
GEM通道定界丢失 |
ODN故障 |
优化ODN |
SUFi |
=ONUi启动失败, 已经失败了n次(n≥2) |
ODN故障 |
优化ODN |
LOAMi |
ONUi PLOAM丢失 |
ODN故障 |
优化ODN |
DGi |
ONUi掉电 |
ONUi掉电 |
恢复电源 |
(1) 检查流模板配置,重点关注:
¡ uni-type确保根据ONU类型(SFU或HGU)正确选择相应参数。
¡ uni-bitmap根据实际ONU的LAN口数量配置此参数。
¡ flow参数错误配置可能导致业务异常,请仔细核对。
(2) 确保tcont-bind模板中的v-port参数与flow模板中的一致。例如,如果flow模板中包含vport1和vport2,tcont-bind模板中也需要创建相同的vport1和vport2。
(3) 确认流模板正确应用到对应的ONU上,应用流模板时svc-type参数推荐使用 n_p,检查ONU接口下配置的ont-vlan/port-vlan是否正确,确保终端正确连线到相应的LAN口。
(4) 业务模板检查无误后,检查VLAN配置是否准确。核对VLAN是否都加入到正确的上联口,vlan-translate是否都配置准确,例如vport 1对应的VLAN是否正确。需要注意的是svid对应外层vlan,cvid对应内层vlan。通常情况下,仅需配置svid和new-svid。cvid和new-cvid根据实际需求配置(大部分情况下不进行配置)。
查看系统告警:
P3600#brief-show alarm
告警列表说明如表6-3。
Alarm Description(English) |
告警描述 |
级别 |
产生原因 |
解决方法 |
Module Type Mismatch |
模块类型不匹配 |
Major |
当前插入的模块类型和虚支配的模块类型不匹配 |
解支配模块或插入正确的模块 |
Module unrecognized |
模块无法识别 |
Major |
由于模块失败导致插入的模块无法被识别 |
替换模块 |
Module fail to up |
模块无法正常启动 |
Major |
由于模块故障,尽管模块被节点识别,但是模块无法正常启动提供业务 |
复位或替换模块 |
Module removal |
模块被拔出 |
Major |
正常匹配的模块被拔出 |
模块被重新插入或虚模块被解除支配后清除 |
Standby MYCA removal |
备用MYCA模块被拔出 |
Major |
备用的MYCA模块被拔出 |
备用MYCA模块插回后清除 |
Heartbeat Fai |
主备用MYCA之间的心跳信号失败 |
Major |
模块中正在运行的软件版本和节点版本文件中的不同 |
复位备用MYCA,主备切换后复位新的备用MYCA,复位节点。如果仍然无效,建议替换MYCA模块 |
Image Download Fail |
模块下载软件失败 |
Minor |
模块被拔出或后续的成功下载后清除 |
检查所下载的软件版本在主用MYCA是否存在,重新下载,复位模块,或替换模块 |
Module ambient temperature exceeds the warning threshold. |
模块周围温度超过了告警温度阀值 |
Minor |
模块周围温度等于或高于告警温度阀值(T1) |
检查机房中的空调设备,检查机框环境状况,检查风扇盘运行状况 |
Module ambient temperature exceeds the short-time tolerance threshold. |
模块周围温度超过了短时容忍温度阀值 |
Major |
模块周围温度等于或高于短时容忍温度阀值(T2) |
检查机房中的空调设备,检查机框环境状况,检查风扇盘运行状况 |
Module ambient temperature exceeds the shutdown threshold. |
模块周围温度超过了停工温度阀值 |
Major |
模块周围温度等于或高于停工温度阀值(T3) |
检查机房中的空调设备,检查机框环境状况,检查风扇盘运行状况 |
Environmental temperature cross the high-temperature threshold |
环境温度超过高温阀值 |
Critical |
检测到的环境温度超过高温阀值 |
检查机房中的空调设备,或检查机框的环境状况 |
Environmental temperature cross the low-temperature threshold |
环境温度超过低温阀值 |
Critical |
检测到的环境温度超过低温阀值 |
检查机房中的空调设备,或检查机框的环境状况 |
Fan Tray absent |
风扇盘不在位 |
Major |
风扇盘不在位 |
按照风扇盘 |
One or two FANs fails working |
一个或两个风扇停止工作 |
Minor |
一个或两个风扇停止工作 |
替换风扇盘 |
More than two FANs fail working |
超过两个风扇停止工作 |
Major |
超过两个风扇停止工作 |
替换风扇盘 |
Time server is down |
时间服务器断开 |
Minor |
在轮询周期内没有收到所有的配置的SNTP服务器的响应 |
检查节点和SNTP服务器之间的通信,检查SNTP服务器 |
The threshold of CPU occupancy in CSM is crossed. |
主用CSM的CPU占有率超过阀值 |
Minor |
主用CSM的CPU占有率超过阀值 |
检查CSM的CPU占有率 |
The threshold of Memory occupancy in CSM is crossed. |
主用CSM的内存占有率超过阀值 |
Minor |
主用CSM的内存占有率超过阀值 |
检查CSM的内存占有率 |
The threshold of 15min CPU occupancy is crossed. |
15分钟的CPU占有率超过阀值 |
Minor |
模块15分钟的CPU占有率超过阀值 |
检查模块的CPU占有率 |
-48VDC input is abnormal |
-48V直流电源输入异常 |
Major |
-48V直流电源输入过压,欠压或过流 |
请检查供电电源,电源线连接或更换电源模块 |
Power output is abnormal |
电源输出异常 |
Critical |
直流电源输出过压,欠压或过流 |
请更换电源模块 |
CSM uplink down |
MYCA上行链路断开 |
Major |
MYCA上行链路端口的运行状态是“断开” |
检查MYCA模块的配置,检查线缆连接,检查远端设备状态 |
Uplink port down |
上联板上行链路断开 |
Major |
上联板上行链路端口的运行状态是“断开” |
检查上联板的配置,检查线缆连接,检查远端设备状态 |
Trunk work abnormal |
Trunk工作异常 |
Major |
1、该链路聚合对端的交换机路由器端口可能工作异常。或者, 2、本设备与对端交换机路由器之间用于该链路聚合的线缆可能受损。 |
检查对端设备配置,检查连接线缆 |
Trunk down |
Trunk状态down |
Major |
CSM trunk的运行状态是“断开” |
检查trunk所有成员端口对端设备配置,检查连接线缆 |
Uplink port optical transceiver TX |
上联口光模块发送光功率高告警 |
Major |
上联口光模块发送光功率高于设置的阈值 |
检查并替换光模块 |
Uplink optical transceiver TX power low alarm |
上联口光模块发送光功率低告警 |
Major |
上联口光模块发送光功率低于设置的阈值 |
检查并替换光模块 |
Uplink optical transceiver supply voltage high alarm |
上联口光模块收发器电压高告警 |
Major |
上联口光模块收发器电压高于设置的阈值 |
检查并替换光模块 |
Uplink optical transceiver supply voltage low alarm |
上联口光模块收发器电压低告警 |
Major |
上联口光模块收发器电压低于设置的阈值 |
检查并替换光模块 |
Uplink optical transceiver bias current high alarm |
上联口光模块收发器偏流高告警 |
Major |
上联口光模块收发器偏流高于设置的阈值 |
检查并替换光模块 |
Uplink optical transceiver temperature high alarm |
上联口光模块收发器温度高告警 |
Major |
上联口光模块收发器温度高于设置的阈值 |
检查并替换光模块 |
Uplink optical transceiver temperature low alarm |
上联口光模块收发器温度低告警 |
Major |
上联口光模块收发器温度低于设置的阈值 |
检查并替换光模块 |
Uplink optical transceiver TX power high warning |
上联口光模块发送光功率高警告 |
Warning |
上联口光模块发送光功率高于设置的阈值 |
检查并替换光模块 |
Uplink optical transceiver TX power high warning |
上联口光模块发送光功率高警告 |
Warning |
上联口光模块发送光功率高于设置的阈值 |
检查并替换光模块 |
Uplink optical transceiver supply voltage low warning |
上联口光模块收发器电压低警告 |
Warning |
上联口光模块收发器电压低于设置的阈值 |
检查并替换光模块 |
Uplink optical transceiver bias current high warning |
上联口光模块收发器偏流高警告 |
Warning |
上联口光模块收发器偏流高于设置的阈值 |
检查并替换光模块 |
Uplink optical transceiver temperature low warning |
上联口光模块收发器温度低警告 |
Warning |
上联口光模块收发器温度低于设置的阈值 |
检查并替换光模块 |
Uplink optical transceiver Rx power low alarm |
上联口光模块收发器接收功率低告警 |
Major |
上联口光模块接收光功率低于设置的阈值 |
检查并替换光模块 |
Uplink optical transceiver Rx power low warning |
上联口光模块收发器接收功率低警告 |
Warning |
上联口光模块接收光功率低于设置的阈值 |
检查并替换光模块 |
Uplink port loop detected alarm |
上联口环回告警 |
Major |
上联口之间发生环路 |
请检查上联口连接拓扑 |
ONT loop detected alarm |
ONT环回告警 |
Major |
ONT之间发生环路 |
请检查ONT连接拓扑 |
ONT local optical transceiver bias low alarm |
ONT本地PON光模块电流低告警 |
Minor |
ONT本地PON光模块电流低 |
请检查PON光模块或者设备 |
ONT local optical transceiver bias high alarm |
ONT本地PON光模块电流高告警 |
Minor |
ONT本地PON光模块电流高 |
请检查PON光模块或者设备 |
(1) 检查ONU类型是否和所下发配置相匹配,比如HGU/SFU 需要配置对应的业务流模式。
(2) 检查OLT下发的配置是否超出ONU的实际能力。
(1) 在进行丢包查询之前,首先需要了解清楚用户的组网情况,业务配置参数,包括上联端口号, PON端口号,ONU ID,业务类型等 。
(2) 丢包查询命令。其中,ONU统计值需要在ONU上查看。
¡ PON卡清除计数器
P3600#clear counter-lc 1
¡ 查询GEM Port统计值
P3600#brief-show slot 2 interface gpon-olt 1/1 counters gemport 1/1
¡ 查询PON NNI统计值
P3600#brief-show slot 2 interface gpon-olt 1/1 counters nni
¡ 主控卡清除计数器
P3600#clear counter-csm counter
¡ 查询主控卡IS端口统计值
P3600(CONFIG/BRIDGE)#show statistics interface is 1/1
¡ 查询主控卡上行端口统计值
P3600(CONFIG/BRIDGE)#show statistics interface xge 4
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!