国家 / 地区

H3C S5150-EI系列以太网交换机 故障处理手册-6W101

手册下载

H3C S5150-EI系列以太网交换机 故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2017 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,

并不得以任何形式传播。本文档中的信息可能变动,恕不另行通知。

H3C_彩色.emf

 


 

1 简介·· 1

1.1 故障处理注意事项·· 1

1.2 收集设备运行信息·· 1

1.2.1 logfile日志·· 2

1.2.2 diagfile日志·· 2

1.2.3 诊断信息·· 3

1.3 故障处理求助方式·· 4

2 硬件类故障处理·· 5

2.1 运行过程中设备异常重启故障处理·· 5

2.1.1 故障描述·· 5

2.1.2 故障处理流程·· 5

2.1.3 故障处理步骤·· 6

2.2 电源运行中上报Fault问题处理方法·· 6

2.2.1 故障描述·· 6

2.2.2 故障处理步骤·· 6

2.3 插入电源模块状态异常处理方法·· 7

2.3.1 故障描述·· 7

2.3.2 故障处理步骤·· 7

2.4 风扇异常·· 7

2.4.1 故障描述·· 7

2.4.2 故障处理步骤·· 8

2.5 故障诊断命令·· 8

3 ACL相关特性故障处理·· 9

3.1 ACL下发失败故障处理·· 9

3.1.1 故障描述·· 9

3.1.2 故障处理流程·· 9

3.1.3 故障处理步骤·· 10

3.2 故障诊断命令·· 10

4 IRF相关特性故障处理·· 12

4.1 IRF建立不成功故障处理·· 12

4.1.1 故障描述·· 12

4.1.2 故障处理流程·· 12

4.1.3 故障处理步骤·· 13

4.2 故障诊断命令·· 14

5 聚合相关特性故障处理·· 15

5.1 聚合不成功故障处理·· 15

5.1.1 故障描述·· 15

5.1.2 故障处理流程·· 16

5.1.3 故障处理步骤·· 16

5.2 故障诊断命令·· 17

6 端口相关故障处理·· 18

6.1 光口(万兆SFP+口)不UP故障处理·· 18

6.1.1 故障描述·· 18

6.1.2 故障处理流程·· 18

6.1.3 故障处理步骤·· 18

6.2 故障诊断命令·· 19

6.3 电口(2.5GBase-T千兆电口和1/10GBase-T万兆电口)不UP故障处理·· 19

6.3.1 故障描述·· 19

6.3.2 故障处理流程·· 20

6.3.3 故障处理步骤·· 20

6.4 故障诊断命令·· 21

7 其它常见故障处理·· 22

7.1 二层流量转发丢包·· 22

7.1.1 故障描述·· 22

7.1.2 故障处理流程·· 22

7.1.3 故障处理步骤·· 23

7.1.4 故障诊断命令·· 26

7.2 三层转发丢包故障·· 27

7.2.1 故障描述·· 27

7.2.2 故障处理流程·· 27

7.2.3 故障处理步骤·· 27

7.2.4 故障诊断命令·· 28

7.3 协议震荡故障处理·· 28

7.3.1 故障描述·· 28

7.3.2 故障处理流程·· 29

7.3.3 故障处理步骤·· 29

7.4 PoE供电异常·· 30

7.4.1 故障描述·· 30

7.4.2 故障处理流程·· 30

7.4.3 故障处理步骤·· 31

7.4.4 故障诊断命令·· 32

 


1 简介

本文档介绍S5150-EI系列以太网交换机软、硬件常见故障的诊断及处理措施。

本文档不严格和具体的软硬件版本对应。

1.1  故障处理注意事项

注意

设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。

 

在进行故障诊断和处理时,请注意以下事项:

·     设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

¡     记录具体的故障现象、故障时间、配置信息。

¡     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡     收集设备的日志信息和诊断信息(收集方法见1.2  收集设备运行信息)。

¡     记录设备故障时指示灯的状态,或给现场设备拍照记录。

¡     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡     记录故障处理过程中配置的所有命令行显示信息。

·     更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

·     故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。

1.2  收集设备运行信息

说明

为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。

 

设备运行过程中会产生logfilediagfile日志信息及记录设备运行状态的诊断信息。这些信息存储在主设备的Flash,可以通过FTP或者TFTP等方式导出。

如果设备运行过程中发生过主从倒换,则日志文件将保存在设备多个成员设备中,不同成员设备中导出的logfilediagfile、诊断信息文件请按照一定规则存放(如不同的文件夹:slotY),避免不同成员设备的运行信息相互混淆,以方便查询。

表1-1 设备运行信息介绍

分类

文件名

内容

logfile日志

logfile.log

设备运行中执行的命令行、发生的事件、状态的变化等信息

diagfile日志

diagfile.log

设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、设备无法启动时的信息、成员设备之间通信异常时的握手信息

诊断信息

XXX.tar.gz

系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

 

1.2.1  logfile日志

(1)     执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在Flashlogfile目录中。

<Sysname> logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log

(2)     查看各成员设备中日志文件名称。

·     主设备logfile日志:

<Sysname> dir flash:/logfile/

Directory of flash:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

524288 KB total (107944 KB free)

 

·     从设备(slot 2)上的logfile日志:

<Sysname> dir slot2#flash:/logfile/

Directory of slot2#flash:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

524288 KB total (107944 KB free)

 

(3)     使用FTP或者TFTP接口将日志文件传输到指定位置。

1.2.2  diagfile日志

(1)     执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在Flashdiagfile目录中。

<Sysname> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file flash:/diagfile/diagfile.log

(2)     查看各成员设备中诊断日志文件的名称。

·     主设备diagfile日志

<Sysname> dir flash:/diagfile/

Directory of flash:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

524288 KB total (107944 KB free)

·     从设备(slot 2)上的diagfile日志

<Sysname> dir slot2#flash:/diagfile/

Directory of slot2#flash:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

524288 KB total (107944 KB free)

(3)     使用FTP或者TFTP接口将日志文件传输到指定位置。

1.2.3  诊断信息

诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。

需要注意的是,成员设备越多,诊断信息收集的时间越长,信息收集期间不能输入命令,请耐心等待。

说明

通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口或管理口的情况下,建议通过业务网口或管理口登录和传输文件。

 

(1)     执行display diagnostic-information命令收集诊断信息。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N] :

(2)     选择将诊断信息保存至文件中,还是将直接在屏幕上显示。

·     输入“Y”,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。

Save or display diagnostic information (Y=save, N=display)? [Y/N] : Y

Please input the file name(*.tar.gz)[flash:/diag_Sysname_20160101-000704.tar.gz] :flash:/diag.tar.gz

Diagnostic information is outputting to flash:/diag.tar.gz.

Please wait...

Save successfully.

<Sysname> dir flash:/

Directory of flash:

……

   6 -rw-      898180 Jun 26 2013 09:23:51   diag.tar.gz

 

524288 KB total (107944 KB free)

·     输入“N”,将诊断信息直接显示在屏幕上(诊断信息的显示随设备型号和版本不同有所差异,请以实际情况为准)。

Save or display diagnostic information (Y=save, N=display)? [Y/N] :N

===============================================

  ===============display clock===============

05:26:01 UTC Tue 01/01/2016

=================================================

---- More ----

1.3  故障处理求助方式

当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。

用户支持邮箱:service@h3c.com

技术支持热线电话:400-810-0504(手机、固话均可拨打)


2 硬件类故障处理

说明

本章节主要讲述可插拔电源、风扇故障的处理方法。其它部件如光模块、端口、温度告警故障等问题请参见6 端口相关故障处理

 

2.1  运行过程中设备异常重启故障处理

2.1.1  故障描述

设备在使用中发生异常重启。

2.1.2  故障处理流程

图2-1 故障诊断流程图

 

 

2.1.3  故障处理步骤

1. 收集设备诊断信息

设备重启后查看是否能够进入命令行模式,使用display diagnostic-information命令收集设备的诊断信息,待收集完成后,将设备信息导出后发给H3C技术支持寻求帮助。

2. 检查设备上的启动文件是否正常

通过Console口登录故障设备,再次重启设备,如果BootWare提示CRC错误或者找不到启动文件,请使用BootWare菜单重新下载启动文件,并设置该文件为当前启动文件。

3. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.2  电源运行中上报Fault问题处理方法

本节内容仅适用于采用可插拔电源的机型。

2.2.1  故障描述

电源运行中上报Fault

2.2.2  故障处理步骤

1. 检查是否存在FaultAbsent状态的电源模块

使用display power命令显示电源模块状态,查看是否存在FaultAbsent状态的电源模块。

<Sysname> display power

 Slot 1:                                                                       

 PowerID State    Mode   Current(A)  Voltage(V)  Power(W)                      

 1       Normal   DC       --          --           --                          

 2       Fault    AC       --          --           --       

如果存在Absent状态的电源模块,请前往步骤2

如果存在Fault状态的电源模块,请前往步骤3

2. 检查Absent状态电源模块

如果电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装牢固。

如果电源模块槽位有电源模块但显示为Absent,请将电源模块拆卸后重新安装,然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请更换新电源模块。

如果更换新电源模块后仍然显示为Absent状态,请前往步骤4

3. 检查Fault状态电源模块

如果电源模块状态为Fault,则表示该电源模块异常,无法供电。

当电源模块没有上电时,该电源模块的运行状态会显示为Fault,此时请为该电源模块上电。

电源处于Fault状态有可能是电源模块本身温度过高导致。电源模块上积灰较多可能引起电源模块温度升高,请查看电源模块积灰情况。如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果没有恢复为Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。如果该电源模块仍然显示为Fault状态,请更换电源模块。

如果更换新电源模块后仍然显示为Fault状态,请前往步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.3  新插入电源模块状态异常处理方法

本节内容仅适用于采用可插拔电源的机型。

2.3.1  故障描述

新插入电源模块状态异常。

2.3.2  故障处理步骤

1. 查看电源模块状态

使用display power命令查看电源模块状态。

<Sysname> display power

 Slot 1:                                                                       

 PowerID State    Mode   Current(A)  Voltage(V)  Power(W)                      

 1       Normal   DC       --          --           0                          

 2       Fault    AC       --          --           0   

如果该电源模块显示为Absent状态,请前往步骤2

如果该电源模块显示为Fault状态,请前往步骤3

2. 检查Absent状态电源模块

如果该电源模块显示为Absent状态,表示电源模块没有安装牢固。请将该电源模块拆卸后重新安装,然后查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Absent状态,请前往步骤4

3. 检查Fault状态电源模块

如果该电源模块显示为Fault状态,表示该模块异常,无法供电。请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Fault状态,请前往步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.4  风扇异常

2.4.1  故障描述

设备风扇工作不正常。

2.4.2  故障处理步骤

1. 如果风扇状态显示为Fault,则表示设备风扇故障。

<Sysname> display fan

 Slot 1:

 Fan 1:

 State : Normal

 Fan 2:

 State : Fault

2. 寻求技术支持

请联系H3C的技术支持工程师。

2.5  故障诊断命令

命令

说明

display fan

显示风扇的工作状态

 


3 ACL相关特性故障处理

3.1  ACL下发失败故障处理

3.1.1  故障描述

用户下发ACL失败,具体分两种失败情况:

·     执行下发命令后设备提示资源不足。

·     执行下发命令后设备无任何错误提示,但ACL不起作用。

3.1.2  故障处理流程

图3-1 ACL下发失败故障诊断流程图

 

3.1.3  故障处理步骤

1. 查看下发时是否报硬件资源不足

下发ACL配置时如果界面打印出“Reason: Not enough hardware resource”字样,则表明ACL下发失败是由硬件资源不足导致。通过display qos-acl resource命令可以进一步确认ACL硬件资源使用情况。如果显示信息中Remaining条目为0了,则表示ACL硬件资源已用尽,设备无法再下发ACL。如果下发时没有报“Reason: Not enough hardware resource”字样,则根据下发方式进行步骤选择:

·     通过MQCQoS策略)方式下发,请进行步骤2

·     通过包过滤(packet-filter)方式下发,请进行步骤3

2. 检查QoS策略配置是否正确

通过下面命令分别检查不同使用情况下QoS策略的配置情况:

·     显示端口上QoS策略配置信息,display qos policy interface

·     显示VLANQoS策略配置信息,display qos vlan-policy

·     显示全局QoS策略配置信息,display qos policy global

·     显示控制平面上QoS策略配置信息,display qos policy control-plane slot slot-number

如果QoS策略中缺少流分类和流行为关联的配置,则补充相应配置。否则可通过以下两个命令分别检查下QoS策略中的类和流行为是否配置正确。

·     显示配置的类信息,display traffic classifier user-defined

·     显示配置的流行为信息,display traffic behavior user-defined

如果没有正确配置,则进行正确配置,否则进行步骤4

3. 检查packet-filter配置是否正确

可以通过display packet-filter命令检查packet-filter配置是否正确,如果不正确,则进行正确配置,否则进行步骤4

4. 检查ACl配置是否正确

可以通过display acl命令检查ACL是否配置正确,如果不正确,则进行正确配置,否则进行步骤5

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

3.2  故障诊断命令

命令

说明

display qos-acl resource

显示ACL资源的使用情况

display qos policy interface

显示指定端口或所有端口上QoS策略的配置信息和运行情况

display qos vlan-policy

显示基于VLAN应用QoS策略的信息

display qos policy global

显示基于全局应用QoS策略的信息

display qos policy control-plane

显示控制平面应用QoS策略的信息

display traffic classifier user-defined

显示配置的类信息

display traffic behavior user-defined

显示配置的流行为信息

display packet-filter

显示ACL在报文过滤中的应用情况

 


4 IRF相关特性故障处理

4.1  IRF建立不成功故障处理

4.1.1  故障描述

用户规划IRF后,尝试将多台设备配置为一个IRF系统,发现没有成功建立IRF

4.1.2  故障处理流程

图4-1 IRF故障处理流程图

 

4.1.3  故障处理步骤

1. IRF中的成员数量是否已达到支持的最大值

通过display irf命令可以查看当前IRF中的成员个数,如果当前IRF成员数目已经达到支持的最大值,则其它设备不能再加入该IRFIRF支持的最大成员数量与软件版本有关。

2. IRF中各成员的编号是否唯一

执行display irf命令可以查看到IRF中各成员的编号,如果新增设备的编号与IRF中现有成员设备的编号相同,则新增设备无法加入IRF;如果两台IRF中的设备具有相同的成员编号,则将导致IRF合并失败。

3. 物理连接是否正确

根据IRF规划进行线路检查,检查物理线路是否完全按照规划进行连接。通过display irf configuration命令可以查看当前设备上的IRF端口配置,其中一台设备的IRF-Port1端口必须与另外一台设备的IRF-Port2端口相连才能建立IRF,否则IRF建立失败。

4. IRF物理链路是否为10Gbps链路

IRF物理端口需要为10GBase-T以太网端口或SFP+口,请检查IRF物理端口是否符合要求。

如果使用的是10GBase-T以太网端口作为IRF物理端口,请检查双绞线是否为6A及以上级别的双绞线。

如果使用的是SFP+口作为IRF物理端口,请检查插入IRF物理端口的电缆或光模块是否带有10GbpsSFP+标记。使用光模块+光纤的连接方式时,请查看链路两端的光模块型号是否一致,光纤是否连接正确。

5. IRF链路状态是否正常

执行display irf topology命令,查看显示信息中的Link字段,可以判断IRF端口的链路状态:

·     如果Link字段显示UP,表示IRF链路状态正常,请执行步骤6

·     如果Link字段显示DOWN,表示IRF链路状态异常,请执行display irf link命令查看IRF物理端口的状态,注意观察Status字段:

¡     如果与IRF端口绑定的所有IRF物理端口的当前状态均为DOWNADMAdministratively DOWN),请检查物理连接状态或使用undo shutdown命令开启该端口,使之变为UP状态。

¡     如果与IRF端口绑定的IRF物理端口中至少有一个处于UP状态,请在保存当前配置后,在系统视图下执行irf-port-configuration active命令来激活IRF端口的配置。

说明

irf-port-configuration active命令用于激活IRF端口的配置,该操作会使被选举为Standby的设备自动重启以加入IRF。因此,在执行该命令前,请在各成员设备上使用save命令保存当前配置,避免设备重启后因IRF配置丢失造成无法成功建立IRF

 

6. 各设备上运行的软件版本差异是否过大

用户可通过display version命令查看各设备上运行的软件版本,如果两台设备上使用的软件版本差异过大,则不能堆叠在一起,出现这种现象时,建议采用将低版本升级到高版本的方式解决。

说明

IRF启动文件自动加载功能irf auto-update enable命令)可以自动同步IRF中各成员设备的版本。但是当成员设备使用的软件版本间差异过大时,该功能可能无法实现自动同步,此时请手工升级较低的版本。

 

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

4.2  故障诊断命令

命令

说明

display version

显示系统版本信息

display irf

显示本IRF的相关信息

display irf topology

显示IRF的拓扑信息

display irf configuration

显示本IRF中所有设备的配置信息

irf-port-configuration active

激活设备上所有IRF端口下的配置

 


5 聚合相关特性故障处理

5.1  聚合不成功故障处理

5.1.1  故障描述

用户配置链路聚合功能后,发现聚合组中的成员端口不能被选中,聚合失败。

5.1.2  故障处理流程

图5-1 聚合不成功故障处理流程图

 

5.1.3  故障处理步骤

1. 物理连线是否正确

根据聚合规划进行线路检查,检查物理链接线路是否完全按照规划进行连接。

2. 聚合组中成员端口是否UP

通过display interface命令查看聚合组中的成员端口是否处于UP状态,如果没有UP,可按照端口不UP故障流程处理,具体请参见6 端口相关故障处理

3. 本端口的操作key和属性类配置与参考端口是否相同

在本设备上通过执行display current-configuration interface查看聚合接口及本端Unselected端口(通过display link-aggregation verbose命令查看端口是否为Selected状态,只有Selected状态的端口才可以在该聚合组中正常工作)的操作key和属性类配置与参考端口是否相同,如果不同,则将其配置相同。

4. 是否为动态聚合

若不是动态聚合,则直接到步骤6,否则进行步骤5

5. 本端口的对端端口的操作key和属性类配置与参考端口的对端端口是否相同

在与本端Unselected端口相连接设备上执行display current-configuration interface命令查看对端Unselected端口的属操作key和属性类配置与参考端口的对端端口是否相同,如果不同,则将其配置相同。

6. 聚合成员端口数量是否超过上限

可在聚合接口视图下通过link-aggregation selected-port maximum命令配置聚合组中的最大选中端口数。通过display link-aggregation verbose命令查看聚合组中成员端口是否超过上限,如果超过上限,则多出来的端口为Unselected状态。Selected端口按照端口编号从小到大排序,可以在成员端口视图下使用undo port link-aggregation group命令将Selected端口中不适用的端口从聚合组中删除,以使必须使用的端口为Select状态。

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

5.2  故障诊断命令

命令

说明

display current-configuration interface

显示接口当前生效的配置

display interface

显示以太网接口的相关信息

display link-aggregation verbose

显示系统上已有聚合接口所对应的聚合组的详细信息

link-aggregation selected-port maximum

配置聚合组中的最大选中端口数

 


6 端口相关故障处理

6.1  光口(万兆SFP+口)不UP故障处理

6.1.1  故障描述

光口(万兆SFP+口)不UP故障。

6.1.2  故障处理流程

图6-1 光口不UP故障处理流程图

 

6.1.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

3. 检查两端端口是否正常

对于万兆SFP+光口,在本设备上的万兆SFP+端口上用万兆SFP+电缆(适用于短距离连接)直接互连。查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口来检查故障是否解决。

4. 检查光模块、电缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块、电缆)来检查故障是否排除。关于光模块、电缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令,检查两端的光模块波长、距离等参数是否一致。

5. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

6. 寻求技术支持

如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information,联系H3C的技术支持工程师。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.2  故障诊断命令

命令

说明

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface brief

显示端口的概要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

 

6.3  电口(2.5GBase-T千兆电口和1/10GBase-T万兆电口)不UP故障处理

6.3.1  故障描述

电口(2.5GBase-T千兆电口和1/10GBase-T万兆电口)不UP故障。

6.3.2  故障处理流程

图6-2 电口不UP故障诊断流程图

 

6.3.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查链路情况,网线是否正常

可通过更换网线来检查故障是否排除。

3. 检查本端端口是否正常

可通过更换本端设备端口来检查故障是否排除。

4. 检查对端端口是否正常

可通过更换对端设备端口来检查故障是否排除。

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

6.4  故障诊断命令

命令

说明

display interface brief

显示以太网端口的概要信息

 


7 其它常见故障处理

7.1  二层流量转发丢包

7.1.1  故障描述

设备二层转发丢包,即源端和目的端在同一二层网络的同一VLAN内,通信过程中有丢包。

7.1.2  故障处理流程

图7-1 二层流量转发丢包故障诊断流程图

 

7.1.3  故障处理步骤

1. 查看端口下是否有错包

使用display interface命令查看端口下是否有错包。如果有错包,请前往步骤2,如果没有错包,请前往步骤3进行后续步骤的检查。

<Sysname>display interface Ten-GigabitEthernet1/0/25

Ten-GigabitEthernet1/0/25 current state: UP

Line protocol state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: aa11-2233-4496

……

Last 300 seconds input:  0 packets/sec 10 bytes/sec 0%

 Last 300 seconds output:  0 packets/sec 10 bytes/sec 0%

 Input (total):  1438 packets, 480292 bytes

          0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses

 Input (normal):  1438 packets, - bytes

          0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses

 Input:  0 input errors, 0 runts, 0 giants, 0 throttles

          0 CRC, 0 frame, - overruns, 0 aborts

          - ignored, - parity errors

 Output (total): 1440 packets, 475200 bytes

          0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses

 Output (normal): 1440 packets, - bytes

          0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses

 Output: 0 output errors, - underruns, - buffer failures

          0 aborts, 0 deferred, 0 collisions, 0 late collisions

          0 lost carrier, - no carrier

2. 端口下有错包

端口下有错包有以下几种可能的故障原因,可使用排除法定位:

·     端口本身硬件故障:通过将连接端口的线缆连接到配置相同且可正常工作的端口查看是否端口本身硬件故障。如果是端口本身硬件故障,请将线缆连接到可正常工作的端口。

·     链路上光模块、光纤或以太网双绞线故障:通过更换完好的光模块、光纤或以太网双绞线定位是否光纤或以太网双绞线故障。如果是光模块、光纤或以太网双绞线故障,请更换完好的光模块、光纤或以太网双绞线。

·     对端配置问题,查看对端速率、双工模式的配置是否和本端一致。如果对端速率和双工模式的配置与本端不一致,请更新配置保证本端和对端速率和双工模式的配置一致。

·     当通过上述方法无法解决错包问题需要联系技术支持时,请先通过如下方法收集信息,然后前往步骤7

# 进入probe视图,先确认面板端口对应的芯片端口。

[Sysname-probe]debug port map slot 1

 

[Interface] [Unit] [Port] [Name] [Combo?] [Active?] [IfIndex]  [MID]  [Link]   

===============================================================================

 SGE1/0/1        0      3     xe1     no        no      0x1         1     up    

 SGE1/0/2        0      2     xe0     no        no      0x2         1     down 

 SGE1/0/3        0      5     xe3     no        no      0x3         1     down 

 SGE1/0/4        0      4     xe2     no        no      0x4         1     down 

 SGE1/0/5        0      7     ge1     no        no      0x5         1     down 

 SGE1/0/6        0      6     ge0     no        no      0x6         1     down 

 SGE1/0/7        0      9     ge3     no        no      0x7         1     down 

 SGE1/0/8        0      8     ge2     no        no      0x8         1     down 

 SGE1/0/9        0      11    ge5     no        no      0x9         1     down 

 SGE1/0/10       0      10    ge4     no        no      0xa         1     down 

 SGE1/0/11       0      13    ge7     no        no      0xb         1     down 

 SGE1/0/12       0      12    ge6     no        no      0xc         1     down 

 SGE1/0/13       0      19    xe9     no        no      0xd         1     down 

 SGE1/0/14       0      18    xe8     no        no      0xe         1     down 

 SGE1/0/15       0      21    xe11    no        no      0xf         1     down 

 SGE1/0/16       0      20    xe10    no        no      0x10        1     down 

 SGE1/0/17       0      23    xe13    no        no      0x11        1     down 

 SGE1/0/18       0      22    xe12    no        no      0x12        1     down 

 SGE1/0/19       0      25    xe15    no        no      0x13        1     down 

 SGE1/0/20       0      24    xe14    no        no      0x14        1     down  

 XGE1/0/21       0      14    xe4     no        no      0x15        1     down 

 XGE1/0/22       0      15    xe5     no        no      0x16        1     down 

 XGE1/0/23       0      16    xe6     no        no      0x17        1     down 

 XGE1/0/24       0      17    xe7     no        no      0x18        1     down 

# 查到Smartrate-Ethernet1/0/1对应的芯片端口名字为xe1,然后执行下面命令两次或两次以上,查看是否有接收丢包统计(RDBGC)和发送丢包统计(TDBGC)计数。如果有将相关信息反馈技术支持。

[Sysname-probe]bcm slot 1 chip 0 show/c/xe1                                       

RUC.xe1           :               441,676            +441,676              42/s

RDBGC1.xe1        :                     9                  +9                  

RDBGC3.xe1        :               445,869            +445,869              43/s

RDBGC6.xe1        :                 2,708              +2,708                   

RIPC4.xe1         :                 5,132              +5,132                  

RIPHE6.xe1        :                     9                  +9                  

R64.xe1           :                11,949             +11,949               3/s

R127.xe1          :               438,567            +438,567              42/s

R255.xe1          :                 1,595              +1,595                  

R511.xe1          :                 2,771              +2,771                  

R1023.xe1         :                   117                +117                  

R1518.xe1         :                   900                +900                  

RPKT.xe1          :               455,899            +455,899              46/s

RUCA.xe1          :               441,676            +441,676              42/s

RMCA.xe1          :                 7,777              +7,777                  

RBCA.xe1          :                 6,446              +6,446               2/s

RPRM.xe1          :               441,676            +441,676              42/s

RPOK.xe1          :               455,899            +455,899              46/s

RBYT.xe1          :            34,167,975         +34,167,975           3,218/s

T64.xe1           :                 6,744              +6,744                   

T127.xe1          :                 1,599              +1,599                  

T255.xe1          :                    99                 +99                  

T511.xe1          :                    41                 +41                  

T1023.xe1         :                    16                 +16                  

T1518.xe1         :                    13                 +13                  

TPOK.xe1          :                 8,512              +8,512                  

TPKT.xe1          :                 8,512              +8,512                  

TUCA.xe1          :                 8,510              +8,510                  

TBCA.xe1          :                     2                  +2                   

TBYT.xe1          :               628,832            +628,832                  

PERQ_PKT(7).xe1   :                 8,512              +8,512                  

PERQ_BYTE(7).xe1  :               628,832            +628,832                   

DROP_PKT_ING(0).xe1 :               445,869            +445,869             43/s

3. 报文因匹配ACL被过滤

(1)     检查端口、VLAN以及全局下是否配置了ACLQoS策略,如果配置了ACLQoS策略,请检查端口进入的报文是否匹配了ACLQoS策略的流分类而被丢弃,包括端口下的packet-filter(使用display packet-filter查看)qos policy(使用display qos policy查看)vlan policy(使用display qos vlan-policy查看)以及global policy(使用display qos policy global查看)如果报文因匹配了ACLQoS策略的流分类而被丢弃,请参考ACLQoS的配置方法通过更新配置使报文不被丢弃。

(2)     检查是否因匹配一些特性自动创建的的ACL而被过滤在以太网接口视图下使用display this命令查看端口下是否配置了下面特性或使用特性相关的具体命令查看

·     端口是否配置ip source bindingip verify source,使用display ip source bindingdisplay ipv6 source binding可以查看绑定表项信息。如果端口配置了ip source guard且通过上述 display命令发现没有匹配报文的表项,请根据您使用的绑定表项的生成方法进一步排查。

·     查看端口是否配置了Portal认证,没有通过Portal认证的用户,报文会被该端口丢弃。使用display portal interface可以显示指定VLAN接口或二层以太网端口的Portal配置信息。请用户根据实际情况确定是否可以取消Portal认证:在二层以太网端口视图下,使用undo portal命令,可以取消二层Portal认证配置;在端口所属VLAN的对应VLAN虚接口下使用undo portal server server-name可以取消三层Portal认证。

·     使用display dot1x命令查看端口是否使能了EAD快速部署。如果使能了802.1XEAD快速部署功能,那未认证成功的用户访问除Free IP以外的网段时就会丢包。请定位用户是否是未认证成功用户,且未认证成功用户访问的是否是Free IP以外的网段来进一步确认丢包原因。

·     端口所在VLAN是否配置了MFF,使用display mac-forced-forwarding vlan命令显示指定VLANMFF信息,如果显示信息中没有Gateway信息,请根据MFF运行的模式查看ARP SnoopingDHCP Snooping是否正确配置

4. 端口被协议设置为block状态

·     使用display stp brief命令查看端口是否被STP设置为discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。

·     如果端口属于某个聚合组,使用display link-aggregation verbose命令查看聚合口的详细信息,当该端口StatusUnselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

·     查看端口是否Smartlink阻塞:使用display smart-link group命令查看端口状态,当StateSTANDBYDOWN时端口不能转发数据如果StateDOWN,请定位端口成为DOWN状态的原因,如上行链路上的设备配置了Monitor Link功能造成该端口DOWN,或该端口所在链路连接发生故障或端口被shutdown,进一步排查解决;如果StateSTANDBY,请将该设备Smart Link组的主、从端口互换。

5. 配置相关丢包

·     在以太网接口视图下使用display this命令查看端口是否在报文所属VLAN。如果端口不在报文所属VLAN中,请将端口加入该VLAN

·     使用display mac-address blackhole命令查看是否因为匹配了黑洞MAC地址表项被丢包。请根据实际情况确定是否可以取消该黑洞MAC。如果需要删除该黑洞MAC,请使用undo mac-address blackhole mac-address vlan vlan-id命令删除。

·     使用display qos lr interface查看是否有端口限速的配置。如果端口有限速的配置,请查看令牌生成速度和突发流量配置值是否合理,可以通过使用qos lr { inbound | outbound } cir committed-information-rate [ cbs committed-burst-size ]命令调整令牌生成速度和突发流量配置值定位解决。

·     在以太网接口视图下使用display this命令查看端口是否有风暴抑制相关配置,包括广播风暴抑制比broadcast-suppression),组播风暴抑制比multicast-suppression),未知单播风暴抑制比unicast-suppression)。如果端口下配置了风暴抑制比,可以通过将风暴抑制比的数值调大定位解决。

6. 拥塞丢包

通过display qos queue interface命令查看端口是否有拥塞丢包。请参考拥塞管理的相关内容定位解决拥塞问题。

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

7.1.4  故障诊断命令

命令

说明

display interface

显示以太网端口的相关信息

display packet-filter

显示ACL在报文过滤中的应用情况

display qos policy

显示用户定义策略的配置信息

display qos policy interface

显示指定端口或所有端口上QoS策略的配置信息和运行情况

display qos vlan-policy

显示基于VLAN应用QoS策略的信息

display qos policy global

显示基于全局应用QoS策略的信息

display this

在以太网接口视图下使用此命令查看接口的当前配置

display ip source binding/ display ipv6 source binding

查看IP Source Guard绑定表项信息

display portal interface

显示指定接口的Portal配置信息

display dot1x

显示802.1X的会话连接信息、相关统计信息或配置信息

display mac-forced-forwarding vlan

显示指定VLANMFF信息

display link-aggregation verbose

查看聚合口的详细信息

display smart-link group

查看Smart Link组的信息

display mac-address blackhole

查看黑洞MAC地址表项信息

display qos lr interface

显示端口限速配置情况

display qos queue interface

显示端口队列统计信息

 

7.2  三层转发丢包故障

7.2.1  故障描述

设备三层转发丢包,即发送端IP地址和目的端IP地址不在同一网段内,通信过程中有丢包。

7.2.2  故障处理流程

图7-2 三层转发丢包故障诊断流程图

 

7.2.3  故障处理步骤

1. 检查端口是否有故障

根据7.1  二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):

·     如果是端口故障,请按照7.1  二层流量转发丢包节的故障处理思路进行处理。

·     如果不是端口故障,则执行步骤2

2. 查看ARP表项是否正确

使用display arp命令查看设备上是否学习到网关设备的ARP表项、学习到的ARP表项是否正确:

·     如果设备上未学习到ARP表项或学习到的表项错误,通过打开debugging arp packet查看设备ARP表项学习情况,来定位ARP问题的原因。对于未学习到ARP表项,可以使用arp static命令手工添加静态ARP表项

·     使用display mac-address命令查看对应的MAC地址表项的出接口和ARP表项中的出接口是否一致,如果不一致,使用reset命令清除ARP表项,让设备重新学习表项。

·     如果设备上ARP表项学习正确,请执行步骤3

3. 查看路由表项是否正确

使用display ip routing-table命令查看设备上学习的路由信息是否正确:

·     如果设备上学习到的路由信息不正确,请根据您使用的具体的路由协议进行进一步排查。

·     使用display fib命令查看对应的FIB表项的出接口和路由表项中的出接口是否一致,如果不一致,使用reset命令清除路由表项,让设备重新学习表项。

·     如果设备上的路由信息正确,请执行步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

7.2.4  故障诊断命令

命令

说明

debugging arp packet

打开ARP的报文调试信息开关

display arp

显示ARP表项

display ip routing-table

显示路由表中当前激活路由的摘要信息

display mac-address

显示MAC地址表信息

display fib

显示FIB表项的信息

 

7.3  协议震荡故障处理

7.3.1  故障描述

协议震荡一般都是协议报文交互时不通导致的。

7.3.2  故障处理流程

图7-3 协议震荡故障诊断流程图

 

7.3.3  故障处理步骤

1. 查看二层转发是否丢包

根据7.1  二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):

·     如果是端口故障,请按照7.1  二层流量转发丢包节的故障处理思路进行处理。

如果不是端口故障,则执行步骤2

2. 查看三层转发是否丢包

根据7.2  层转发丢包故障一节的故障定位处理方法,定位是否为三层故障(包括ARP表项错误和路由表项错误):

·     如果是三层故障,请按照7.2  层转发丢包故障一节的故障处理思路进行处理。

如果不是三层故障,则执行步骤3

3.  查看软件收包是否丢包

# 进入Probe视图。

[Sysname-probe] debug rxtx softcar show slot 1                                      

                                                                               

ID  Type                RcvPps Rcv_All    DisPkt_All Pps  Dyn Swi Hash ACLmax  

0   ROOT                0      0          0          300  S   On  SMAC 0       

1   ISIS                0      0          0          200  D   On  SMAC 8       

2   ESIS                0      0          0          100  S   On  SMAC 8       

3   CLNP                0      0          0          100  S   On  SMAC 8       

4   VRRP                0      0          0          1024 S   On  SMAC 8       

5   UNKNOWN_IPV4MC      0      0          0          100  S   On  SMAC 8       

6   UNKNOWN_IPV6MC      0      0          0          100  S   On  SMAC 8       

7   IPV4_MC_RIP         0      0          0          150  D   On  SMAC 8       

8   IPV4_BC_RIP         0      0          0          150  D   On  SMAC 8       

9   MCAST_NTP           0      0          0          100  S   On  SMAC 8       

10  BCAST_NTP           0      0          0          100  S   On  SMAC 8       

    

如果发现有丢包发生,请收集信息,然后前往步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

7.4  PoE供电异常

7.4.1  故障描述

PoE设备供电不正常。

7.4.2  故障处理流程

图7-4 PoE供电异常故障诊断流程图

 

7.4.3  故障处理步骤

1. 确定电源配备是否正确

对于PoE设备,必须按照电源配置方案配置电源。关于电源模块的适配情况,请参见《H3C S5150-EI系列以太网交换机 安装指导》。

2. 使用命令行查看供电细节

通过下面命令查看供电细节:

(1)     在任意视图中执行display poe device命令查看显示PSE的工作状态。如果工作状态显示为faulty,则说明PSE故障。如下所示:

<Sysname> display poe device

PSE ID  SlotNo SubSNo PortNum  MaxPower(W)  State   Model

 4      1      0      24       370          faulty  LSW124POED-M

以上显示信息说明该PSE存在故障。此时,请使用poe update命令升级PSE软件。升级方法如下所示:

<Sysname> system-view

[Sysname] poe update full ver_3_9_0_release.bin pse 4

This command will fully update firmware on the specific PSE(s), Continue? [Y/N]:y

System is downloading firmware into the hardware. Please wait ..................

Update firmware on the specific PSE(s) successfully!

以上显示信息说明PSE软件升级成功。再次执行display poe device命令查看显示PSE的工作状态。如果工作状态显示为onoff,则说明PSE故障已修复。如下所示:

[Sysname] display poe device

PSE ID  SlotNo SubSNo PortNum  MaxPower(W)  State   Model

 4      1      0      24       370          off     LSW124POED-M

(2)     在任意视图中执行display poe pse命令查看显示PSE信息。确认当前整机供电功率、平均功率、峰值功率是否正常、PSE检测非标准PD功能是否打开等。如下所示:

[Sysname] display poe pse

 PSE ID                           : 4                                          

 PSE Slot No                      : 1                                          

 PSE SubSlot No                   : 0                                          

 PSE Model                        : LSW124POED-M                               

 PSE Power Enabled                : enabled                                    

 PSE Power Priority               : -                                          

 PSE Current Power                : 0        W                                 

 PSE Average Power                : 0        W                                 

 PSE Peak Power                   : 0        W                                 

 PSE Max Power                    : 370      W                                 

 PSE Remaining Guaranteed         : 370      W                                 

 PSE CPLD Version                 : -                                          

 PSE Software Version             : 390                                        

 PSE Hardware Version             : 57603                                      

 PSE Legacy Detection             : disabled                                   

 PSE Utilization-threshold        : 80                                         

 PSE Pd-policy Mode               : disable                                    

 PSE PD Disconnect Detect Mode    : AC

·     如果当前整机供电功率、平均功率、峰值功率都达到或接近PSE最大供电功率,说明PoE电源模块供电不足,此时请选配更大供电功率的PoE电源模块。

·     如果PSE Pd-policy Mode字段显示为disable,请执行poe legacy enable pse命令,开启PSE检测非标准PD功能

(3)     在任意视图中执行display poe interface interface-type interfece-number命令查看显示PoE端口相关信息。确认当前端口供电功率、平均功率、峰值功率是否正常,端口的电流、电压是否正常。如下所示:

[Sysname] display poe interface smartrate-ethernet 1/0/1

 Port Power Enabled               : disabled                                   

 Port Power Priority              : low                                        

 Port Operating Status            : off                                        

 Port IEEE Class                  : 0                                          

 Port Detection Status            : disabled                                   

 Port Power Mode                  : signal                                      

 Port Current Power               : 0        mW                                

 Port Average Power               : 0        mW                                

 Port Peak Power                  : 0        mW                                 

 Port Max Power                   : 30000    mW                                

 Port Current                     : 0        mA                                

 Port Voltage                     : 0.0      V                                 

 Port PD Description              :

如果当前端口供电功率、平均功率、峰值功率都达到或接近端口最大供电功率,说明PoE端口供电不足,此时请执行poe max-power命令重新配置PoE端口的最大供电功率。

3. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

7.4.4  故障诊断命令

命令

说明

display poe device

查看显示PSE的工作状态

display poe pse

查看显示PSE的信息

display poe interface interface-type interfece-number

查看显示PoE端口的相关信息

poe legacy enable pse

开启PSE检测非标准PD功能

poe max-power

配置PoE端口的最大供电功率