整本手册
本章节下载 (510.68 KB)
H3C S3210系列以太网交换机故障处理手册
Copyright © 2017杭州新华三技术有限公司 版权所有,保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部, 并不得以任何形式传播。本文档中的信息可能变动,恕不另行通知。 |
本文档介绍S3210系列以太网交换机软、硬件常见故障的诊断及处理措施。
本文档不严格和具体的软硬件版本对应。
设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。
在进行故障诊断和处理时,请注意以下事项:
· 设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。
¡ 记录具体的故障现象、故障时间、配置信息。
¡ 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
¡ 收集设备的日志信息和诊断信息(收集方法见1.2 收集设备运行信息)。
¡ 记录设备故障时指示灯的状态,或给现场设备拍照记录。
¡ 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
¡ 记录故障处理过程中配置的所有命令行显示信息。
· 更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。
· 故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。
为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。
设备运行过程中会产生logfile、diagfile日志信息及记录设备运行状态的诊断信息。这些信息存储在设备的Flash,可以通过FTP、TFTP等方式导出。
表1 设备运行信息介绍
分类 |
文件名 |
内容 |
logfile日志 |
logfile.log |
命令行记录、设备运行中产生的记录信息 |
diagfile日志 |
diagfile.log |
设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、设备无法启动时的信息、成员设备之间通信异常时的握手信息 |
诊断信息 |
XXX.gz |
系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等 |
(1) 执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在Flash的logfile目录中。
<Sysname> logfile save
The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log
(2) 查看设备中logfile日志文件名称。
<Sysname> dir flash:/logfile/
Directory of flash:/logfile
0 -rw- 21863 Jul 11 2017 16:00:37 logfile.log
1048576 KB total (864548 KB free)
(3) 使用FTP、TFTP将日志文件传输到指定位置。
(1) 执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在Flash的diagfile目录中。
<Sysname> diagnostic-logfile save
The contents in the diagnostic log file buffer have been saved to the file flash:/diagfile/diagfile.log
(2) 查看设备中诊断日志文件的名称。
<Sysname> dir flash:/diagfile/
Directory of flash:/diagfile
0 -rw- 161321 Jul 11 2017 16:16:00 diagfile.log
1048576 KB total (864548 KB free)
(3) 使用FTP、TFTP将日志文件传输到指定位置。
诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。
需要注意的是,成员设备越多,诊断信息收集的时间越长,信息收集期间不能输入命令,请耐心等待。
通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口或管理口的情况下,建议通过业务网口或管理口登录和传输文件。
(1) 执行screen-length disable命令,以避免屏幕输出被打断(如果是将诊断信息保存到文件中,则忽略此步骤)。
<Sysname> screen-length disable
(2) 执行display diagnostic-information命令收集诊断信息。
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N] :
(3) 选择将诊断信息保存至文件中,还是将直接在屏幕上显示。
· 输入“Y”,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。
Save or display diagnostic information (Y=save, N=display)? [Y/N] : Y
Please input the file name(*.tar.gz)[flash:/diag.tar.gz] :flash:/diag.tar.gz
Diagnostic information is outputting to flash:/diag.tar.gz.
Please wait...
Save successfully.
<Sysname> dir flash:/
Directory of flash:
……
6 -rw- 898180 Jun 26 2017 09:23:51 diag.tar.gz
1048576 KB total (38812 KB free)
· 输入“N”,将诊断信息直接显示在屏幕上。(诊断信息的显示随设备型号和版本不同有所差异,请以实际情况为准)
Save or display diagnostic information (Y=save, N=display)? [Y/N] :N
==================================================================
===============display cpu===============
Slot 1 CPU 0 CPU usage:
1% in last 5 seconds
0% in last 1 minute
2% in last 5 minutes
===========================================================
=================================================================
===============display cpu-usage history slot 1 ===============
100%|
95%|
90%|
85%|
80%|
……
当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。
用户支持邮箱:service@h3c.com
技术支持热线电话:400-810-0504(手机、固话均可拨打)
本章节主要讲述电源、风扇、接口模块扩展卡等部件故障的处理方法。其它部件如光模块、端口故障等问题请参见端口相关故障处理。
设备在使用中发生异常重启。
图1 故障诊断流程图
设备重启后查看是否能够进入命令行模式,使用display diagnostic-information命令收集设备的日志信息,待收集完成后,将设备信息导出后发给H3C技术支持寻求帮助。
通过Console口登录故障设备,重新启动设备,如果BootWare提示CRC错误或者找不到启动文件,请重新加载启动文件。加载后请设置该文件为当前启动文件(在BootWare加载过程中,BootWare能自动将该文件设置为当前启动文件)。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
电源运行中上报Fault。
使用display power命令显示电源模块状态,查看是否存在Fault或Absent状态的电源模块。
<Sysname> display power
Slot 1:
PowerID State Mode Current(A) Voltage(V) Power(W)
1 Absent -- -- -- --
2 Normal AC -- -- --
如果存在Absent状态的电源模块,请前往步骤2. 。
如果存在Fault状态的电源模块,请前往步骤3. 。
如果电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装牢固。
如果电源模块槽位有电源模块在位且显示为Absent,请将电源模块拆卸后重新安装,然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请更换新电源模块。
如果更换新电源模块后仍然显示为Absent状态,请前往步骤4. 。
如果电源模块状态为Fault,表示该电源模块异常,无法供电。
当电源模块没有上电时,该电源模块的运行状态会显示为Fault,此时请为该电源模块上电。
电源处于Fault状态有可能是电源模块本身温度过高导致。如果电源模块上积灰较多可能引起电源模块温度升高。请查看电源模块积灰情况,如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果没有恢复为Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。如果该电源模块仍然显示为Fault状态,请更换电源模块。
如果更换新电源模块后仍然显示为Fault状态,请前往步骤4. 。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
新插入电源模块状态异常。
使用display power命令查看电源模块状态。
<Sysname> display power
Slot 1
PowerID State Mode Current(A) Voltage(V) Power(W)
1 Absent -- -- -- --
2 Normal AC -- -- --
如果该电源模块显示为Absent状态,请前往步骤2. 。
如果该电源模块显示为Fault状态,请前往步骤3. 。
如果该电源模块显示为Absent状态,表示电源模块没有安装牢固。请将该电源模块拆卸后重新安装,然后查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Absent状态,请前往步骤4. 。
如果该电源模块显示为Fault状态,表示该模块异常,无法供电。请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Fault状态,请前往步骤4. 。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
风扇模块运行中上报Fault或执行display fan命令,风扇的状态不是Normal。
图2 风扇异常故障处理流程图
使用display fan命令查看风扇模块状态。
<Sysname> display fan
Slot 1:
Fan 1:
State : Normal
Fan 2:
State : Normal
Fan 3:
State : Normal
如果风扇模块工作状态显示为Fault,请前往步骤2. 。
如果风扇模块工作状态显示为Fault状态,表示该风扇模块异常,无法提供通风散热功能。请使用下述步骤进一步定位。
(1) 使用display environment命令查看系统温度是否持续升高。如果系统温度持续升高,建议用手在设备出风口触摸进一步判断出风口是否有出风。
(2) 如果温度持续升高,且出风口无风,可以肯定风扇模块异常。请重启设备,然后使用display fan命令查看是否恢复为Normal状态。
(3) 如果仍然不能恢复为Normal状态,请关闭设备以免温度过高导致电路烧坏(如果有降温措施保证系统工作在60摄氏度以下,也可以继续使用设备),请前往步骤3. 。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
命令 |
说明 |
probe |
进入Probe视图 |
dir |
用来显示目录或文件信息 |
display boot-loader |
用来显示启动软件包的信息 |
display environment |
显示设备的工作温度信息 |
display fan |
显示设备风扇模块的工作状态 |
display logbuffer |
用来显示系统日志缓冲区记录的日志信息 |
display power |
显示设备电源的信息 |
将光模块插入EPON设备的OLT端口后,设备打印如下日志信息:
%Aug 19 09:53:07:661 2017 H3C OPTMOD/4/MODULE_IN: -MDC=1-Slot=1; Olt1/0/12: The transceiver is 1000_BASE_LX_SFP.
^Aug 19 09:53:07:915 2016 HP DRVMNT/2/ERRORCODE: -MDC=1-Slot=1; MdcId=1-ModuleId=0xf0b-Level=2; ErrCode = 1326120980, SYSM: ManuInfo Fail.
%Aug 19 09:53:08:111 2017 H3C OPTMOD/3/CFG_ERR: -MDC=1-Slot=1; Olt1/0/12: Transceiver type and port configuration mismatched!
%Aug 19 09:53:08:344 2017 H3C OPTMOD/3/TYPE_ERR: -MDC=1-Slot=1; Olt1/0/12: Transceiver type not supported!
更换光模块。EPON设备的OLT端口仅支持1000_BASE_PX_SFP类型的光模块;其他类型的光模块插入时,设备提示插入的光模块类型和不支持的原因。
EPON设备的OLT端口下挂ONU设备,ONU设备可正确注册。EPON设备热重启或断电重启后OLT端口不up。
(1) 通过命令display transceiver diagnosis interface查询OLT端口的光模块诊断信息。命令行中Current diagnostic parameters下数据表示光模块当前的温度、电压、偏置电流、接收光功率、发送光功率,Olt的光功率查询不出来的时候可以先查询一下下挂Onu的光功率,如果这些诊断信息未正常显示,则光模块硬件接触有问题,请重新拔插光模块。
<Sysname>display transceiver diagnosis interface Olt1/0/12
Olt1/0/12 transceiver diagnostic information:
Current diagnostic parameters:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
-1 6.50 130.05 -40.00 8.13
Alarm thresholds:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
High N/A N/A N/A N/A N/A
Low N/A N/A N/A N/A N/A
(2) 如果反复拔插光模块后,OLT端口仍然不能up,请收集设备的运行信息,并联系H3C的技术支持工程师。
通过display transceiver diagnosis interface命令查询OLT端口的光模块诊断信息,发现接收光功率(RX power)超出阈值(参见以下命令行的Alarm thresholds字段)。
<Sysname>display transceiver diagnosis interface olt1/0/8
Olt1/0/8 transceiver diagnostic information:
Current diagnostic parameters:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
38 3.27 5.61 -40.00 4.53
Alarm thresholds:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
High 85 3.60 100.00 -4.00 8.00
Low -13 3.00 0.00 -32.10 1.00
(1) 检查该光模块对应的OLT端口是否已经存在up的ONU端口,如果没有ONU端口up,则OLT接收光功率超出阈值为正常现象。等ONU注册成功后,接收光功率会变为正常。
(2) 当有OLT下有ONU端口up,而OLT端口的接收光功率仍然超出阈值时,可以先通过display transceiver diagnosis interface命令查询该OLT下任意up的ONU端口的诊断信息,然后再次查询OLT端口的光模块诊断信息,此时OLT端口的光功率应该可以正常显示(因为OLT光模块的接收光功率显示需要依赖ONU端口的光模块诊断命令来触发)。
(3) 如果经过前面步骤操作后,OLT端口接收光功率依然超出阈值,请收集设备运行信息并联系H3C的技术支持工程师。
display interface命令显示ONU接口状态为down。
图3 故障诊断流程图
如果ONU设备是通过bind onu-id命令手动绑定的,请通过display onu命令检查绑定的MAC地址或LOID\LOID-PASSWORD,确保该绑定数据与ONU设备的数据一致。
如果ONU设备是通过onu bind batch命令批量绑定的,请再次执行onu bind batch命令,以确认绑定是否生效。需要注意的是:一个OLT端口上最多可以注册63台ONU设备。
请参考“6.1 千兆SFP光口不up故障处理”进行检查。
H3C OLT设备上厂商兼容功能缺省为开启状态,如果关闭了厂商兼容功能(undo vendor-compatible),则非H3C的ONU设备不能注册到该OLT,对应ONU端口down。
关闭厂商兼容功能后,如果使用bind onu-id命令在ONU端口上绑定了非H3C的ONU设备,那么再开启厂商兼容功能时(执行vendor-compatible),需要注销该ONU端口(执行deregister onu命令)或关闭再打开该ONU端口(执行shutdown、undo shutdown命令),才能使该ONU注册到OLT。
插入EPON光模块,OLT端口UP,但是所有ONU无法注册,对端ONU设备PON灯不亮,说明ONU没有收到光,排查是否插入了不符合要求的光模块(参考“3.1 OLT端口不支持光模块”),分光器是否存在异常。
如果部分ONU无法注册,需要排查ONU设备是否正常,采用替换ONU的方式验证。另外需要排查光纤线路是否有问题:如果一个分光器下部分ONU能够正常注册UP,可以交换ONU设备的光纤查看效果。
如果上述步骤不能解决问题,请联系H3C的技术支持工程师。
ONU端口震荡,一直频繁上报UP/DOWN,设备打印日志:
%Jan 2 21:19:28:391 2017 H3C IFNET/3/PHY_UPDOWN: Physical state on the interface Onu1/0/1:6 changed to up.
%Jan 2 21:19:28:392 2017 H3C IFNET/5/LINK_UPDOWN: Line protocol state on the interface Onu1/0/1:6 changed to up.
%Jan 2 21:19:30:287 2017 H3C IFNET/3/PHY_UPDOWN: Physical state on the interface Onu1/0/1:6 changed to down.
%Jan 2 21:19:30:298 2017 H3C IFNET/5/LINK_UPDOWN: Line protocol state on the interface Onu1/0/1:6 changed to down.
%Jan 2 21:19:37:648 2017 H3C IFNET/3/PHY_UPDOWN: Physical state on the interface Onu1/0/1:6 changed to up.
%Jan 2 21:19:37:653 2017 H3C IFNET/5/LINK_UPDOWN: Line protocol state on the interface Onu1/0/1:6 changed to up.
%Jan 2 21:19:47:982 2017 H3C IFNET/3/PHY_UPDOWN: Physical state on the interface Olt1/0/1 changed to down.
%Jan 2 21:19:47:983 2017 H3C IFNET/5/LINK_UPDOWN: Line protocol state on the interface Olt1/0/1 changed to down.
......
使用display interface命令查询OLT端口CRC等错包计数,观察是否在增长。如果增长,请排查光模块、光纤线路和分光器是否有问题。
如问题不能解决问题,请联系H3C的技术支持工程师。
ONU设备注册正常,下挂的用户设备通过ONU设备接入,但不能接入网络。
检查用户设备MAC地址,如果MAC地址第一个字节的第7bit为1,为异常MAC地址,例如:02xx-xxxx-xxxx。符合此规则的异常源MAC地址报文在OLT设备会被丢弃。出现此种异常MAC地址,一般是由于用户修改MAC地址导致。设备提供了非标MAC广播或者单播转发的命令onu invalid-address mode,遇到该问题可以尝试配置该命令允许这类MAC地址的报文正常转发。
如果问题不能解决,请收集设备的运行信息,并联系H3C的技术支持工程师。
命令 |
说明 |
display interface |
显示以太网端口的相关信息 |
display interface brief |
显示接口的概要信息 |
display transceiver diagnosis |
显示可插拔光模块的数字诊断参数的当前测量值 |
display transceiver interface |
显示接口上插入的可插拔接口模块的主要特征参数 |
用户下发ACL失败,具体分两种失败情况:
· 执行下发命令后设备提示资源不足。
· 执行下发命令后设备无任何错误提示,但ACL不起作用。
图4 ACL下发失败故障诊断流程图
下发ACL配置时如果界面打印出“Not enough resource”或者“The resources are insufficient”字样,则表明ACL下发失败是由ACL资源不足导致。通过display qos-acl resource命令可以进一步确认ACL资源使用情况。如果显示信息中Remaining条目为0了,则表示ACL资源已用尽,设备无法再下发ACL。
[Sysname]display qos-acl resource
Interfaces: Olt1/0/1 to Olt1/0/16, GE1/0/17 to GE1/0/24
XGE1/0/25 to XGE1/0/28 (slot 1)
---------------------------------------------------------------------
Type Total Reserved Configured Remaining Usage
---------------------------------------------------------------------
VFP ACL 2048 512 0 1536 25%
IFP ACL 4096 1024 0 3072 25%
IFP Meter 2048 512 0 1536 25%
IFP Counter 2048 512 0 1536 25%
EFP ACL 1024 0 0 1024 0%
EFP Meter 512 0 0 512 0%
EFP Counter 512 0 0 512 0%
其中IFP为入方向ACL的资源情况,EFP为出方向的ACL使用情况。在下发ACL发现失败时,建议先测算下要下发的ACL的数目与芯片剩余的资源数量进行对比。当要下发的ACL条数大于剩余的数量时,系统会提示当前资源不足。
如果下发时没有报“Not enough resource”或者“The resources are insufficient”字样,则根据下发方式进行步骤选择:
· 通过QoS策略(MQC)方式下发,请进行步骤2:
· 通过包过滤(packet-filter)方式下发,请进行步骤3。
通过下面命令分别检查不同使用情况下QoS策略的配置情况:
· 显示端口上QoS 策略配置信息,display qos policy interface
· 显示VLAN上QoS 策略配置信息,display qos vlan-policy
· 显示全局QoS策略配置信息,display qos policy global
· 显示控制平面上QoS策略配置信息,display qos policy control-plane slot slot-number
如果QoS策略中缺少流分类和流行为关联的配置,则补充相应配置。否则可通过以下两个命令分别检查下QoS策略中的类和流行为是否配置正确。
· 显示配置的类信息,display traffic classifier user-defined
· 显示配置的流行为信息,display traffic behavior user-defined
如果没有正确配置,则进行正确配置,否则进行步骤4。
可以通过display packet-filter命令检查packet-filter配置是否正确,如果不正确,则进行正确配置,否则进行步骤4
可以通过display acl命令检查ACL是否配置正确,ACL配置不正确的原因包括已下发的ACL规则存在重叠配置、重叠匹配的ACL所对应的动作出现冲突等情况。
如果不正确,则进行正确配置,否则进行步骤5。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
命令 |
说明 |
display acl |
显示ACL的配置和运行情况 |
display packet-filter |
显示ACL在报文过滤中的应用情况 |
display qos-acl resource |
显示ACL资源的使用情况 |
display qos policy interface |
显示指定端口或所有端口上QoS策略的配置信息和运行情况 |
display qos vlan-policy |
显示基于VLAN应用QoS策略的信息 |
display qos policy global |
显示基于全局应用QoS策略的信息 |
display qos policy control-plane |
显示控制平面应用QoS策略的信息 |
display qos policy user-defined |
显示QoS策略的配置信息 |
display traffic classifier user-defined |
显示配置的类信息 |
display traffic behavior user-defined |
显示配置的流行为信息 |
用户配置链路聚合功能后,发现聚合组中的成员端口不能被选中,聚合失败。
图5 聚合不成功故障处理流程图
根据聚合规划进行线路检查,检查物理链接线路是否完全按照规划进行连接。
通过display interface命令查看聚合组中的成员端口是否处于UP状态,如果没有UP,可按照端口不UP故障流程处理,具体请参见端口相关故障处理。
在本设备上通过执行display current-configuration interface查看聚合接口及本端Unselected端口(通过display link-aggregation verbose命令查看端口是否为Selected状态,只有Selected状态的端口才可以在该聚合组中正常工作)的操作key和属性类配置与参考端口是否相同,如果不同,则将其配置相同。
若不是动态聚合,则直接到步骤6,否则进行步骤5。
在与本端Unselected端口相连接设备上执行display current-configuration interface命令查看对端Unselected端口的属操作key和属性类配置与参考端口的对端端口是否相同,如果不同,则将其配置相同。
可在聚合接口视图下通过link-aggregation selected-port maximum命令配置聚合组中的最大选中端口数。通过display link-aggregation verbose命令查看聚合组中成员端口是否超过上限,如果超过上限,则多出来的端口为Unselected状态。Selected端口按照端口编号从小到大排序,可以在成员端口视图下使用undo port link-aggregation group命令将Selected端口中不适用的端口从聚合组中删除,以使必须使用的端口为Select状态。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
命令 |
说明 |
display current-configuration interface |
显示接口当前生效的配置 |
display interface |
显示以太网接口的相关信息 |
display link-aggregation verbose |
显示系统上已有聚合接口所对应的聚合组的详细信息 |
link-aggregation selected-port maximum |
配置聚合组中的最大选中端口数 |
千兆SFP光口不UP故障。
图6 故障诊断流程图
通过display interface命令查看端口状态是否为UP,如果不是,请使用undo shutdown命令激活相应的端口。执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。
执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。
可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块)来检查故障是否排除。关于光模块的具体描述请参见产品的安装手册。
(1) 可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;如果是接收有问题,那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常,需要排查本端端口。
<Sysname> display transceiver alarm interface GigabitEthernet 21/0/117
GigabitEthernet21/0/117 transceiver current alarm information:
TX fault
RX power high
表2 光模块告警信息说明
字段 |
描述 |
SFP |
|
RX loss of signal |
接收信号丢失 |
RX power high |
接收光功率高告警 |
RX power low |
接收光功率低告警 |
TX fault |
发送错误 |
TX bias high |
偏置电流高告警 |
TX bias low |
偏置电流低告警 |
TX power high |
发送光功率高告警 |
TX power low |
发送光功率低告警 |
Temp high |
温度高告警 |
Temp low |
温度低告警 |
Voltage high |
电压高告警 |
Voltage low |
电压低告警 |
Transceiver info I/O error |
模块信息读写错误 |
Transceiver info checksum error |
模块信息校验和错误 |
Transceiver type and port configuration mismatch |
模块类型和端口配置不匹配 |
Transceiver type not supported by port hardware |
端口不支持该模块类型 |
(2) 可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。
(3) 可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。
(4) 可通过display transceiver interface命令,检查两端的光模块波长、距离等参数是否一致。
可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。
可通过更换本端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。
可通过更换对端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。
如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系H3C的技术支持工程师。
光口(万兆SFP+口)不UP故障。
图7 光口不UP故障处理流程图
执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。
执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。
对于万兆SFP+光口,在本设备上的万兆SFP+端口上用万兆SFP+电缆(适用于短距离连接)直接互连;查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口来检查故障是否解决。
可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块、电缆)来检查故障是否排除。关于光模块、电缆的具体描述请参见产品的安装手册。
(1) 可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配。
(2) 可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。
(3) 可通过display transceiver interface命令,检查两端的光模块波长、距离等参数是否一致。
首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。
如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information,联系H3C的技术支持工程师。
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
命令 |
说明 |
display diagnostic-information |
显示或保存系统当前多个功能模块运行的统计信息 |
display interface brief |
显示端口的概要信息 |
display transceiver alarm interface |
显示可插拔接口模块的当前故障告警信息 |
display transceiver interface |
显示接口上插入的可插拔接口模块的主要特征参数 |
1G电口是Combo口,先确定当前端口是工作在电口状态;执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
通过display logbuffer命令查看系统日志时,发现存在上报非H3C合法光模块的相关信息。显示如下:
<Sysname> display logbuffer
Olt 1/0/1: This transceiver is NOT sold by H3C. H3C therefore shall NOT guarantee the normal function of the device or assume the maintenance responsibility thereof!
图9 故障诊断流程图
通过命令display transceiver interface,查看Vendor Name是否是H3C。如果显示的是H3C,则可能是没有电子标签的H3C光模块,也可能不是H3C光模块,需要进一步确认。如果显示的是其它信息,则一定不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。
[Sysname] display transceiver interface Olt 1/0/1
Olt1/0/1 transceiver information:
Transceiver Type : 1000_BASE_PX_SFP
Connector Type : SC
Wavelength(nm) : 1490
Transfer Distance(km) : 20(SMF)
Digital Diagnostic Monitoring : YES
Vendor Name : H3C
Ordering Name : SFP-GE-PX20-D-SM1490-M
通过Probe视图下的命令display hardware internal transceiver register interface收集光模块信息。
然后向H3C技术支持工程师反馈光模块上的条码,确认光模块的渠道来源,明确是否是H3C光模块。如果确认不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。
如果上述检查完成后确认是H3C光模块,但故障仍无法排除,请联系H3C的技术支持工程师。
通过display transceiver diagnosis interface命令查看光模块诊断信息时,系统提示光模块不支持数字诊断故障。显示如下:
<Sysname> display transceiver diagnosis interface ten-gigabitEthernet 1/0/27
The transceiver does not support this function.
图10 故障诊断流程图
(1) 通过display transceiver interface命令,查看Vendor Name是否是H3C。
(2) 通过display transceiver manuinfo interface命令,确认光模块的渠道来源,向H3C返回光模块上的条码,收集光模块的信息,明确是否是H3C光模块。
通过display transceiver interface命令,查看Digital Diagnostic Monitoring(对数字诊断功能的支持情况)是否是Yes,并向H3C人员咨询这款光模块是否支持数字诊断功能。
<Sysname> display transceiver interface Ten-GigabitEthernet 1/0/27
Ten-GigabitEthernet1/0/27 transceiver information:
Transceiver Type : 10G_BASE_SR_SFP
Connector Type : LC
Wavelength(nm) : 850
Transfer Distance(m) : 80(OM2),20(OM1),300(OM3)
Digital Diagnostic Monitoring : YES
Vendor Name : H3C
如果上述检查完成后确认是H3C光模块,并支持数字诊断功能,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师。
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
通过display interface查看到端口存在CRC等错误统计故障。
图1-1 故障诊断流程图
通过display interface命令,查看端口出入方向的错包统计具体是哪项在增长,从而判断故障问题。为方便查看,也可以在用户视图下使用reset counter interface清空端口统计报文再观察。
通过display transceiver diagnosis interface查看光口所插光模块的数字诊断参数的当前测量值。若该光模块的光功率不正常,请更换同一型号的正常光模块。
[Sysname] display transceiver diagnosis interface Olt 1/0/1
Olt1/0/1 transceiver diagnostic information:
Current diagnostic parameters:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
36 3.26 6.53 -8.21 4.50
Alarm thresholds:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
High 85 3.60 100.00 -4.00 8.00
Low -13 3.00 0.00 -32.10 1.00
通过display interface brief命令,查看端口配置是否有异常,其中两端的协商状态双工模式,端口速率是否一致。若端口速率不一致或存在半双工模式,请通过speed命令和duplex命令分别配置端口的速率和双工模式。
更换到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,可更换光模块测试。
通过display interface命令,查看端口pauses帧计数,如果在不断增长,表明端口发出或者收到了大量的流控帧。检查下端口出入流量是否过大及对端设备的流量处理能力。
如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师。
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
端口状态为UP,但不接收报文。
图11 故障诊断流程图
检查两端端口状态是否一直UP,并使用display interface 命令查看入方向的报文统计是否增长。为方便查看,也可以使用reset counter interface清空当前端口的报文统计结果再进行观察。同时,查看对端是否有发送报文统计。检查端口错包统计是否持续增长。
可通过以下步骤检查端口配置是否影响报文的接收:
(1) 通过display interface brief命令,查看端口配置是否有异常。其中包括两端的端口双工模式、端口速率、端口类型以及VLAN等配置。若有异常,请更改端口属性的配置查看该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令,再次查看端口是否能恢复正常。
(2) 如果配置了STP功能,通过display stp brief命令,查看端口是否为 discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。
(3) 如果该端口加入了聚合组,通过display link-aggregation summary命令查看该端口是否为Selected选中状态。当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。
更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光纤转换器,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,可更换光模块测试。
如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
端口状态为UP,但不发送收报文。
图12 故障诊断流程图
检查两端端口状态是否一直UP,并使用display interface 命令查看出方向的报文统计是否增长。为方便查看,也可以使用reset counter interface命令清空端口当前的报文统计结果再进行观察。检查端口错包统计是否持续增长。
可通过以下步骤检查端口配置是否影响报文的发送:
(1) 通过display interface brief命令,查看端口配置是否有异常。其中包括两端端口的双工模式、端口速率、端口类型以及VLAN等配置。若有异常,请更改端口属性的配置查看该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令,再次查看端口是否能恢复正常。
(2) 如果配置了STP功能,使用display stp brief命令查看故障端口是否为discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。
(3) 如果该端口加入了聚合组,使用display link-aggregation summary命令查看该端口是否为Selected选中状态。当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。
更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接测试。如果为光口,可更换光模块测试。
如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
命令 |
说明 |
display diagnostic-information |
显示或保存系统当前多个功能模块运行的统计信息 |
display interface |
显示以太网端口的相关信息 |
display interface brief |
显示接口的概要信息 |
display link-aggregation summary |
显示所有聚合组的摘要信息 |
display logbuffer |
显示系统日志缓冲区的状态和缓冲区记录的日志信息 |
display stp brief |
显示生成树状态和统计的简要信息 |
display transceiver alarm interface |
显示可插拔接口模块的当前故障告警信息 |
display transceiver diagnosis |
显示可插拔光模块的数字诊断参数的当前测量值 |
display transceiver interface |
显示接口上插入的可插拔接口模块的主要特征参数 |
display transceiver manuinfo interface |
显示可插拔接口模块的部分电子标签信息 |
设备运行中CPU占用率持续很高。
图13 故障诊断流程图
连续使用命令display cpu-usage查看CPU的占用率。如果CPU占用率持续在80%以上,说明某个任务长时间占用CPU,需要确认CPU高的具体原因。
使用Probe视图下的display process cpu命令观察占用CPU最多的任务。
<Sysname> system-view
[Sysname] probe
[Sysname-probe] display process cpu slot 1
CPU utilization in 5 secs: 3.7%; 1 min: 3.1%; 5 mins: 3.8%
JID 5Sec 1Min 5Min Name
1 0.0% 0.0% 0.0% scmd
2 0.0% 0.0% 0.0% [kthreadd]
3 0.0% 0.0% 0.0% [migration/0]
4 0.0% 0.0% 0.0% [ksoftirqd/0]
5 0.0% 0.0% 0.0% [watchdog/0]
6 0.0% 0.0% 0.0% [migration/1]
7 0.0% 0.0% 0.0% [ksoftirqd/1]
8 0.0% 0.0% 0.0% [watchdog/1]
9 0.0% 0.0% 0.0% [migration/2]
10 0.0% 0.0% 0.0% [ksoftirqd/2]
11 0.0% 0.0% 0.0% [watchdog/2]
12 0.0% 0.0% 0.0% [migration/3]
13 0.0% 0.0% 0.0% [ksoftirqd/3]
14 0.0% 0.0% 0.0% [watchdog/3]
15 0.0% 0.0% 0.0% [migration/4]
16 0.0% 0.0% 0.0% [ksoftirqd/4]
17 0.0% 0.0% 0.0% [watchdog/4]
18 0.0% 0.0% 0.0% [migration/5]
19 0.0% 0.0% 0.0% [ksoftirqd/5]
20 0.0% 0.0% 0.0% [watchdog/5]
21 0.0% 0.0% 0.0% [migration/6]
---- More ----
各列分别表示某任务平均5sec、1min、5min实际占用CPU的百分比和任务名。某任务占用率越高,说明相应的任务占用CPU的资源越多。正常情况任务对CPU的占用率一般低于10%,这个命令可以查看明显高出正常占用率的任务。
通过Probe视图下的follow job job-id 命令确认异常任务的调用栈。此处以显示job 14的调用栈为例。
[Sysname-probe] follow job 14
Attaching to process 14 ([watchdog/3])
Iteration 1 of 5
------------------------------
Kernel stack:
[<80480754>] schedule+0x954/0x1250
[<8028f720>] watchdog+0xb0/0x410
[<802656d0>] kthread+0x130/0x140
[<8021d730>] kernel_thread_helper+0x10/0x20
Iteration 2 of 5
------------------------------
Kernel stack:
[<80480754>] schedule+0x954/0x1250
[<8028f720>] watchdog+0xb0/0x410
[<802656d0>] kthread+0x130/0x140
[<8021d730>] kernel_thread_helper+0x10/0x20
Iteration 3 of 5
------------------------------
Kernel stack:
[<80480754>] schedule+0x954/0x1250
[<8028f720>] watchdog+0xb0/0x410
[<802656d0>] kthread+0x130/0x140
[<8021d730>] kernel_thread_helper+0x10/0x20
Iteration 4 of 5
------------------------------
Kernel stack:
[<80480754>] schedule+0x954/0x1250
[<8028f720>] watchdog+0xb0/0x410
[<802656d0>] kthread+0x130/0x140
[<8021d730>] kernel_thread_helper+0x10/0x20
Iteration 5 of 5
------------------------------
Kernel stack:
[<80480754>] schedule+0x954/0x1250
[<8028f720>] watchdog+0xb0/0x410
[<802656d0>] kthread+0x130/0x140
[<8021d730>] kernel_thread_helper+0x10/0x20
记录上述三步所获得的信息,并使用display diagnostic-information命令收集设备的诊断信息。将所有信息反馈给H3C技术人员寻求技术支持。
使用display memory命令查看设备内存信息。如果内存占用率在持续的一段时间内(一般为30分钟)高于60%,那么可能存在内存异常问题,需要关注。
图14 故障诊断流程图
使用Probe视图下的display system internal kernel memory pool命令查看各块内存使用情况,找出使用率不正常和不断增加的内存模块。
<Sysname> system-view
[Sysname] probe
[Sysname-probe]display system internal kernel memory pool slot 1
Active Number Size Align Slab Pg/Slab ASlabs NSlabs Name
2 10 3072 0 10 8 1 1 sgpool-128
0 0 900 0 34 8 0 0 LFIB_IlmEntryCache
0 0 656 0 23 4 0 0 MFW_FsCache
2 39 768 0 39 8 1 1 biovec-64
0 0 96 8 30 1 0 0 cfq_io_context
0 0 52 0 42 1 0 0 ARP_Static_Entry_Cachep
0 0 432 0 34 4 0 0 LFIB_IlmEntryCache
0 0 80 0 34 1 0 0 LFIB_NhlfeCacheCache
0 0 536 0 28 4 0 0 jffs2_i
11 92 52 4 46 1 2 2 pktpcb
1 26 576 0 26 4 1 1 shmem_inode_cache
515 650 256 8 25 2 24 26 kmalloc-256
0 0 1936 0 16 8 0 0 MFW_FsCache
0 42 4096 0 7 8 0 6 names_cache
0 0 1104 0 28 8 0 0 MFW_FsCache
0 0 336 4 21 2 0 0 ripcb
0 0 8 0 85 1 0 0 L2VFIB_Ac_Ctr_Cache
599 680 440 4 34 4 20 20 socket
0 0 104 0 28 1 0 0 memDSLITE
0 0 68 0 39 1 0 0 mfib_l2m_source_cache
16 26 108 0 26 1 1 1 ADJ4_Ext_Cachep
0 0 48 0 46 1 0 0 L2VFIB_LpwEntryCacheName(1)
---- More ----
请重点查看Number列和Size列的统计结果。如果发现某块内存在不停增加,那么表示该块内存在被不断使用。需要注意的是:
· 有些内存块使用率的增加是正常的,所以需要判断该块内存是否真正的异常。Number*Size是某个模块使用的内存大小。判断内存使用率是否正常可能需要持续观察内存增长速度和内存使用的多少综合分析判断。
· 有些内存的泄漏过程比较缓慢,所以需要比较长的时间(甚至是几周的时间)来对比观察。
通过上述步骤只是确定了出现问题的内存模块,但还需继续收集信息以确定具体是哪些代码有问题。由于后续信息收集要求较高,不建议用户操作,请与H3C的技术支持工程师联系。需要注意的是:此时,不得重启设备,否则设备重启后,由于缺少故障出现时的信息而给故障定位带来困难。
命令 |
说明 |
display cpu-usage |
显示CPU利用率的统计信息 |
display process cpu |
Probe视图下命令,显示各任务占用CPU的情况 |
display memory |
显示内存使用情况 |
display system internal kernel memory pool |
Probe视图下命令,查看各块内存使用情况 |
follow job job-id |
Probe视图下命令,显示异常任务的调用栈 |
设备二层转发丢包,即源端和目的端在同一二层网络的同一VLAN内,通信过程中有丢包。
图15 二层流量转发丢包故障诊断流程图
使用display interface命令查看端口下是否有错包。如果有错包,请前往步骤2,如果没有错包,请前往步骤3进行后续步骤的检查。
<Sysname>display interface GigabitEthernet 1/0/17
GigabitEthernet1/0/17
Current state: UP
Line protocol state: UP
IP packet frame type: Ethernet II, hardware address: 00e0-fc00-511e
Description: GigabitEthernet1/0/17 Interface
Bandwidth: 100000 kbps
Loopback is not set
Media type is twisted pair, port hardware type is 1000_BASE_T
100Mbps-speed mode, full-duplex mode
Link speed type is autonegotiation, link duplex type is autonegotiation
Flow-control is not enabled
Maximum frame length: 9216
Allow jumbo frames to pass
Broadcast max-ratio: 100%
Multicast max-ratio: 100%
Unicast max-ratio: 100%
PVID: 100
MDI type: Automdix
Port link-type: Access
Tagged VLANs: None
Untagged VLANs: 100
Port priority: 0
Last link flapping: 1 hours 34 minutes 30 seconds
Last clearing of counters: Never
Peak input rate: 617 bytes/sec, at 2011-01-07 10:50:37
Peak output rate: 405 bytes/sec, at 2011-01-07 11:43:26
Last 300 second input: 2 packets/sec 349 bytes/sec 0%
Last 300 second output: 0 packets/sec 12 bytes/sec 0%
Input (total): 17727 packets, 2339745 bytes
2147 unicasts, 8826 broadcasts, 3919 multicasts, 0 pauses
Input (normal): 14892 packets, - bytes
2147 unicasts, 8826 broadcasts, 3919 multicasts, 0 pauses
Input: 1 input errors, 0 runts, 0 giants, 0 throttles
1 CRC, 0 frame, - overruns, 0 aborts
- ignored, - parity errors
Output (total): 1793 packets, 202615 bytes
1775 unicasts, 12 broadcasts, 6 multicasts, 0 pauses
Output (normal): 1793 packets, - bytes
1775 unicasts, 12 broadcasts, 6 multicasts, 0 pauses
Output: 0 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
0 lost carrier, - no carrier
端口下有错包有以下几种可能的故障原因,可使用排除法定位:
· 端口本身硬件故障:通过将连接端口的线缆连接到配置相同且可正常工作的端口查看是否端口本身硬件故障。如果是端口本身硬件故障,请将线缆连接到可正常工作的端口。
· 链路上光模块、光纤或以太网双绞线故障:通过更换完好的光模块、光纤或以太网双绞线定位是否光纤或以太网双绞线故障。如果是光模块、光纤或以太网双绞线故障,请更换完好的光模块、光纤或以太网双绞线。
· 对端配置问题,查看对端速率、双工模式的配置是否和本端一致。如果对端速率和双工模式的配置与本端不一致,请更新配置保证本端和对端速率和双工模式的配置一致。
· 当通过上述方法无法解决错包问题需要联系技术支持时,请先通过如下方法收集信息,然后前往步骤7。
# 使用probe命令进入Probe视图,在Probe视图下使用debug port mapping命令确认面板端口对应的芯片端口。
[Sysname-probe] debug port mapping slot 1
[Interface] [Unit] [Port] [Name] [Combo?] [Active?] [IfIndex] [MID] [Link]
===============================================================================
OLT1/0/1 0 1 ge0 no no 0x1 1 down
OLT1/0/2 0 2 ge1 no no 0x2 1 down
OLT1/0/3 0 3 ge2 no no 0x3 1 down
OLT1/0/4 0 4 ge3 no no 0x4 1 down
OLT1/0/5 0 5 ge4 no no 0x5 1 down
OLT1/0/6 0 6 ge5 no no 0x6 1 down
OLT1/0/7 0 7 ge6 no no 0x7 1 down
OLT1/0/8 0 8 ge7 no no 0x8 1 down
OLT1/0/9 0 9 ge8 no no 0x9 1 down
OLT1/0/10 0 10 ge9 no no 0xa 1 down
OLT1/0/11 0 11 ge10 no no 0xb 1 down
OLT1/0/12 0 12 ge11 no no 0xc 1 down
OLT1/0/13 0 13 ge12 no no 0xd 1 down
OLT1/0/14 0 14 ge13 no no 0xe 1 down
OLT1/0/15 0 15 ge14 no no 0xf 1 down
OLT1/0/16 0 16 ge15 no no 0x10 1 down
GE1/0/17 0 17 ge16 yes yes 0x11 1 up
GE1/0/18 0 18 ge17 yes yes 0x12 1 down
GE1/0/19 0 19 ge18 yes yes 0x13 1 down
GE1/0/20 0 20 ge19 yes yes 0x14 1 down
GE1/0/21 0 21 ge20 yes yes 0x15 1 down
GE1/0/22 0 22 ge21 yes yes 0x16 1 up
GE1/0/23 0 23 ge22 yes yes 0x17 1 down
GE1/0/24 0 24 ge23 yes yes 0x18 1 down
XGE1/0/25 0 50 xe0 no no 0x19 1 down
XGE1/0/26 0 51 xe1 no no 0x1a 1 down
XGE1/0/27 0 53 xe3 no no 0x1b 1 down
XGE1/0/28 0 52 xe2 no no 0x1c 1 down
# 查到XGE1/0/25对应的芯片端口名字为xe0,然后执行下面命令两次或两次以上,查看是否有接收丢包统计(RDBGC)和发送丢包统计(TDBGC)计数。如果有将相关信息反馈技术支持。
[Sysname-probe] bcm slot 1 chip 0 show/count/xe0
RDBGC2.xe0 : 8,118 +8,118
R511.xe0 : 8,118 +8,118
RPKT.xe0 : 8,118 +8,118
RMCA.xe0 : 8,118 +8,118
RPOK.xe0 : 8,118 +8,118
RBYT.xe0 : 2,726,553 +2,726,553
T511.xe0 : 8,208 +8,208
TPOK.xe0 : 8,208 +8,208
TPKT.xe0 : 8,208 +8,208
TMCA.xe0 : 8,208 +8,208
TBYT.xe0 : 2,741,472 +2,741,472
PERQ_PKT(3).xe0 : 8,208 +8,208
PERQ_BYTE(3).xe0 : 2,741,472 +2,741,472 330/s
(1) 检查端口、VLAN以及全局下是否配置了ACL或QoS策略,如果配置了ACL或QoS策略,请检查端口进入的报文是否因匹配了ACL或QoS策略的流分类而被丢弃,包括端口下的packet-filter(使用display packet-filter查看)、qos policy(使用display qos policy查看),vlan policy(使用display qos vlan-policy查看)以及global policy(使用display qos policy global查看)。如果报文因匹配了ACL或QoS策略的流分类而被丢弃,请参考ACL或QoS的配置方法通过更新配置使报文不被丢弃。
(2) 检查是否因匹配一些特性自动创建的ACL而被过滤,在以太网接口视图下使用display this命令查看端口下是否配置了下面特性或使用特性相关的具体命令查看:
· 端口是否配置ip source binding或ip verify source,使用display ip source binding/ display ipv6 source binding可以查看绑定表项信息。如果端口配置了ip source guard且通过上述 display命令发现没有匹配报文的表项,请根据您使用的绑定表项的生成方法进一步排查。
· 端口所在VLAN是否配置了MFF,使用display mac-forced-forwarding vlan命令显示指定VLAN的MFF信息,如果显示信息中没有Gateway信息,请根据MFF运行的模式查看ARP Snooping或DHCP Snooping是否正确配置。
· 使用display stp brief命令查看端口是否被stp设置为discarding状态。如果端口被stp设置为discarding状态,请根据stp的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的stp功能。
· 如果端口属于某个聚合组,使用display link-aggregation verbose命令查看聚合口的详细信息,当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。
· 查看端口是否被Smartlink阻塞:使用display smart-link group命令查看端口状态,当State为STANDBY或DOWN时端口不能转发数据。如果State为DOWN,请定为端口成为DOWN状态的原因,如上行链路上的设备配置了Monitor Link功能造成该端口DOWN,或该端口所在链路连接发生故障或端口被shutdown,进一步排查解决;如果State为STANDBY,请将该设备Smart Link组的主、从端口互换。
· 在以太网接口视图下使用display this命令查看端口是否在报文所属VLAN中。如果端口不在报文所属VLAN中,请将端口加入该VLAN。
· 使用display mac-address blackhole命令查看是否因为匹配了黑洞MAC地址表项被丢包。请根据实际情况确定是否可以取消该黑洞MAC。如果需要删除该黑洞MAC,请使用undo mac-address blackhole mac-address vlan vlan-id命令删除。
· 使用display qos lr interface查看是否有端口限速的配置。如果端口有限速的配置,请查看令牌生成速度和突发流量配置值是否合理,可以通过使用qos lr { inbound | outbound } cir committed-information-rate [ cbs committed-burst-size ]命令调整令牌生成速度和突发流量配置值定位解决。
· 在以太网接口视图下使用display this命令查看端口是否有风暴抑制相关配置,包括广播风暴抑制比(broadcast-suppression),组播风暴抑制比(multicast-suppression),未知单播风暴抑制比(unicast-suppression)。如果端口下配置了风暴抑制比,可以通过将风暴抑制比的数值调大定位解决。
通过display qos queue-statistics interface命令查看端口是否有拥塞丢包。请参考拥塞管理的相关内容定位解决拥塞问题。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
命令 |
说明 |
display interface |
显示以太网端口的相关信息 |
display packet-filter |
显示ACL在报文过滤中的应用情况 |
显示用户定义策略的配置信息 |
|
display qos policy interface |
显示指定端口或所有端口上QoS策略的配置信息和运行情况 |
display qos vlan-policy |
显示基于VLAN应用QoS策略的信息 |
display qos policy global |
显示基于全局应用QoS策略的信息 |
display this |
在以太网接口视图下使用此命令查看接口的当前配置 |
display ip source binding/ display ipv6 source binding |
查看IP Source Guard绑定表项信息 |
display mac-forced-forwarding vlan |
显示指定VLAN的MFF信息 |
display link-aggregation verbose |
查看聚合口的详细信息 |
display smart-link group |
查看Smart Link组的信息 |
display mac-address blackhole |
查看黑洞MAC地址表项信息 |
display qos queue-statistics interface |
显示端口队列统计信息 |
设备三层转发丢包,即发送端IP地址和目的端IP地址不在同一网段内,通信过程中有丢包。
图16 三层转发丢包故障诊断流程图
根据8.1 二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):
· 如果是端口故障,请按照8.1 二层流量转发丢包节的故障处理思路进行处理。
· 如果不是端口故障,则执行步骤2。
使用display arp命令查看设备上是否学习到网关设备的ARP表项、学习到的ARP表项是否正确:
· 如果设备上未学习到ARP表项或学习到的表项错误,通过打开debugging arp packet查看设备ARP表项学习情况,来定位ARP问题的原因。对于未学习到ARP表项,可以使用arp static命令手工添加静态ARP表项。
· 使用display mac-address命令查看对应的MAC地址表项的出接口和ARP表项中的出接口是否一致,如果不一致,使用reset命令清除ARP表项,让设备重新学习表项。
· 如果设备上ARP表项学习正确,请执行步骤3。
使用display ip routing-table命令查看设备上学习的路由信息是否正确:
· 如果设备上学习到的路由信息不正确,请根据您使用的具体的路由协议进行进一步排查。
· 使用display fib命令查看对应的FIB表项的出接口和路由表项中的出接口是否一致,如果不一致,使用reset命令清除路由表项,让设备重新学习表项。
· 如果设备上的路由信息正确,请执行步骤4。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
命令 |
说明 |
debugging arp packet |
打开ARP的报文调试信息开关 |
display arp |
显示ARP表项 |
display ip routing-table |
显示路由表中当前激活路由的摘要信息 |
display mac-address |
显示MAC地址表信息 |
display fib |
显示FIB表项的信息 |
协议震荡一般都是协议报文交互时不通导致的。
图17 协议震荡故障诊断流程图
根据8.1 二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):
· 如果是端口故障,请按照8.1 二层流量转发丢包一节的故障处理思路进行处理。
· 如果不是端口故障,则执行步骤2。
根据8.2 三层转发丢包故障一节的故障定位处理方法,定位是否为三层故障(包括ARP表项错误和路由表项错误):
· 如果是三层故障,请按照8.2 三层转发丢包故障一节的故障处理思路进行处理。
· 如果不是三层故障,则执行步骤3。
# 进入Probe视图。
[Sysname-probe] debug rxtx softcar show slot 1
ID Type RcvPps Rcv_All DisPkt_All Pps Dyn Swi Hash ACLmax
0 ROOT 0 0 0 300 S On SMAC 0
1 ISIS 0 0 0 200 D On SMAC 8
2 ESIS 0 0 0 100 S On SMAC 8
3 CLNP 0 0 0 100 S On SMAC 8
4 VRRP 0 0 0 1024 S On SMAC 8
5 UNKNOWN_IPV4MC 0 0 0 100 S On SMAC 8
6 UNKNOWN_IPV6MC 0 0 0 100 S On SMAC 8
7 IPV4_MC_RIP 0 0 0 150 D On SMAC 8
8 IPV4_BC_RIP 0 0 0 150 D On SMAC 8
......(省略部分显示信息)
如果发现有丢包发生,请收集信息,然后前往步骤4。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!