国家 / 地区

H3C S6820系列以太网交换机 故障处理手册-6W100

docurl=/cn/Service/Document_Software/Document_Center/Switches/Catalog/S6820/S6820/Maintenance/Troubleshooting/H3C_S6820_TG-6W100/201703/980791_30005_0.htm

整本手册

H3C S6820系列以太网交换机故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 



1 简介

本文档介绍S6820系列以太网交换机软、硬件常见故障的诊断及处理措施。

本文档不严格和具体的软硬件版本对应。

1.1  故障处理注意事项

注意

设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。

 

在进行故障诊断和处理时,请注意以下事项:

·     设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

¡     记录具体的故障现象、故障时间、配置信息。

¡     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡     收集设备的日志信息和诊断信息(收集方法见1.2  收集设备运行信息)。

¡     记录设备故障时指示灯的状态,或给现场设备拍照记录。

¡     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡     记录故障处理过程中配置的所有命令行显示信息。

·     更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

·     故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。

1.2  收集设备运行信息

说明

为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。

 

设备运行过程中会产生logfile、diagfile日志信息及记录设备运行状态的诊断信息。这些信息存储在主设备的Flash,可以通过FTP、TFTP、USB等方式导出。

如果设备运行过程中发生过主备倒换,则日志文件将保存在设备多个成员设备中,不同成员设备中导出的logfile、diagfile、诊断信息文件请按照一定规则存放(如不同的文件夹:slotY),避免不同成员设备的运行信息相互混淆,以方便查询。

表1     设备运行信息介绍

分类

文件名

内容

logfile日志

logfile.log

设备运行中执行的命令行、发生的事件、状态的变化等信息

diagfile日志

diagfile.log

设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、设备无法启动时的信息、成员设备之间通信异常时的握手信息

诊断信息

XXX.tar.gz

系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

 

1.2.1  收集logfile日志

(1)     执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在Flash的logfile目录中。

<Sysname> logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log

(2)     查看各成员设备中日志文件名称。

·     查看主设备logfile日志:

<Sysname> dir flash:/logfile/

Directory of flash:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

1048576 KB total (38812 KB free)

·     查看从设备(slot 2)上的logfile日志:

<Sysname> dir slot2#flash:/logfile/

Directory of slot2#flash:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

1048576 KB total (38812 KB free)

(3)     使用FTP、TFTP或者USB接口将日志文件传输到指定位置。

1.2.2  收集diagfile日志

(1)     执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在Flash的diagfile目录中。

<Sysname> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file flash:/diagfile/diagfile.log

(2)     查看各成员设备中诊断日志文件的名称。

·     查看主设备diagfile日志:

<Sysname> dir flash:/diagfile/

Directory of flash:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

1048576 KB total (38812 KB free)

·     查看从设备(slot 2)上的diagfile日志:

<Sysname> dir slot2#flash:/diagfile/

Directory of slot2#flash:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

1048576 KB total (38812 KB free)

(3)     使用FTP、TFTP或者USB接口将日志文件传输到指定位置。

1.2.3  收集诊断信息

诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。

需要注意的是,成员设备越多,诊断信息收集的时间越长,信息收集期间不能输入命令,请耐心等待。

说明

通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口或管理口的情况下,建议通过业务网口或管理口登录和传输文件。

 

(1)     执行display diagnostic-information命令收集诊断信息。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N] :

(2)     选择将诊断信息保存至文件中,还是将直接在屏幕上显示

·     输入“Y”,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。

Save or display diagnostic information (Y=save, N=display)? [Y/N] : Y

Please input the file name(*.tar.gz)[flash:/diag_Sysname_20160101-000704.tar.gz] :

Diagnostic information is outputting to flash:/diag_Sysname_20160101-000704.tar.gz.

Please wait...

Save successfully.

<Sysname> dir flash:/

Directory of flash:

……

   6 -rw-      898180 Jun 26 2013 09:23:51   diag.tar.gz

 

1048576 KB total (38812 KB free)

·     输入“N”,将诊断信息直接显示在屏幕上。(诊断信息的显示随设备型号和版本不同有所差异,请以实际情况为准)

Save or display diagnostic information (Y=save, N=display)? [Y/N] :N

===============================================

  ===============display clock===============

23:49:53 UTC Tue 01/01/2016

=================================================

其它显示信息略……。

(3)     查看诊断信息文件内容。

·     解压诊断信息文件。

<Sysname> tar extract archive-file diag_Sysname_20160101-000704.tar.gz

Extracting archive flash:/diag_Sysname_20160101-000704.tar.gz Done.

<Sysname> gunzip diag_Sysname_20160101-000704.gz

Decompressing file flash:/diag_Sysname_20160101-000704.gz.... Done.

(4)     查看解压后的诊断信息文件内容。

<Sysname> more diag_Sysname_20160101-000704

===============================================

  ===============display clock===============

23:49:53 UTC Tue 01/01/2016

=================================================

---- More ----

 


2 硬件类故障处理

说明

本章节主要讲述电源、风扇、接口模块扩展卡等部件故障的处理方法。其它部件如光模块、端口故障等问题请参见6 端口相关故障处理

 

2.1  运行过程中设备异常重启故障处理

2.1.1  故障描述

设备在使用中发生异常重启。

2.1.2  故障处理流程

图1     故障诊断流程图

 

2.1.3  故障处理步骤

1. 收集设备诊断信息

设备重启后查看是否能够进入命令行模式,使用display diagnostic-information命令收集设备的诊断信息,待收集完成后,将设备信息导出后发给H3C技术支持寻求帮助。

2. 检查设备上的启动文件是否正常

通过Console口登录故障设备,再次重启设备,如果BootWare提示CRC错误或者找不到启动文件,请使用BootWare菜单重新下载启动文件,并设置该文件为当前启动文件。

3. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.2  电源运行中上报Fault问题处理方法

2.2.1  故障描述

电源运行中上报Fault

2.2.2  故障处理步骤

1. 检查是否存在Fault或Absent状态的电源模块

使用display power命令显示电源模块状态,查看是否存在FaultAbsent状态的电源模块。

<Sysname> display power

 Slot 1                                                                        

Input Power: 266(W)                                                           

 PowerID State          Mode   Current(A)  Voltage(V)  Power(W)                

 1       Absent         --        --          --          --                   

 2       Normal         AC        --          --          --

如果存在Absent状态的电源模块,请前往步骤2。

如果存在Fault状态的电源模块,请前往步骤3。

2. 检查Absent状态电源模块

如果电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装牢固。

如果电源模块槽位有电源模块在位但显示为Absent,请将电源模块拆卸后重新安装,然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请更换新电源模块。

如果更换新电源模块后仍然显示为Absent状态,请前往步骤4

3. 检查Fault状态电源模块

如果电源模块状态为Fault,表示该电源模块异常,无法供电。

当电源模块没有上电时,该电源模块的运行状态会显示为Fault,此时请为该电源模块上电。

电源处于Fault状态有可能是电源模块本身温度过高导致。如果电源模块上积灰较多可能引起电源模块温度升高,请查看电源模块积灰情况。如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果没有恢复为Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。如果该电源模块仍然显示为Fault状态,请更换电源模块。

如果更换新电源模块后仍然显示为Fault状态,请前往步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.3  新插入电源模块状态异常处理方法

2.3.1  故障描述

新插入电源模块状态异常。

2.3.2  故障处理步骤

1. 查看电源模块状态

使用display power命令查看电源模块状态。

<Sysname> display power

 Slot 1                                                                        

Input Power: 266(W)                                                           

 PowerID State          Mode   Current(A)  Voltage(V)  Power(W)                

 1       Absent         --        --          --          --                   

 2       Normal         AC        --          --          --

如果该电源模块显示为Absent状态,请前往步骤2。

如果该电源模块显示为Fault状态,请前往步骤3。

2. 检查Absent状态电源模块

如果该电源模块显示为Absent状态,表示电源模块没有安装牢固。请将该电源模块拆卸后重新安装,然后查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Absent状态,请前往步骤4

3. 检查Fault状态电源模块

如果该电源模块显示为Fault状态,表示该模块异常,无法供电。请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Fault状态,请前往步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.4  风扇状态异常处理方法

2.4.1  故障描述

风扇模块运行中上报Fault或执行display fan命令,风扇的状态不是Normal。

2.4.2  故障处理步骤

1. 查看风扇模块状态

使用display fan命令查看风扇模块状态。

<Sysname> display fan

 Slot 1:                                                                       

 Fan 1:                                                                        

 State    : FanDirectionFault                                                  

 Airflow Direction: Port-to-power                                              

 Prefer Airflow Direction: Power-to-port                                       

 Fan 2:                                                                        

 State    : FanDirectionFault                                                  

 Airflow Direction: Port-to-power                                              

 Prefer Airflow Direction: Power-to-port

·     如果风扇模块工作状态显示为FanDirectionFault,表示风扇的实际风道方向与配置的期望风道风向不一致,请根据机房的风向重新安装正确风向的风扇或使用fan prefer-direction命令配置正确的期望风道风向。

·     如果风扇模块工作状态显示为Absent,请前往步骤2。

·     如果风扇模块工作状态显示为Fault,请前往步骤3。

2. 检查风扇模块是否安装牢固

如果风扇模块工作状态显示为Absent状态,表示风扇模块不在位或者没有安装牢固。如果风扇模块在位,请将该风扇模块拆卸后重新安装,然后查看风扇模块状态是否显示为Normal状态。如果仍然显示为Absent状态,请更换风扇模块。如果更换新风扇模块后仍然显示为Absent状态,请前往步骤4

3. 检查设备的工作温度信息

如果风扇模块工作状态显示Fault状态,表示该风扇模块异常,无法提供通风散热功能。请使用下述步骤进一步定位。

(1)     使用display environment命令查看系统温度是否持续升高。如果系统温度持续升高,建议用手在设备出风口触摸进一步判断出风口是否有出风。

(2)     如果温度持续升高,且出风口无风,可以肯定风扇模块异常。请将风扇模块拆卸后重新安装,然后使用display fan命令查看是否恢复为Normal状态。

(3)     如果仍然不能恢复为Normal状态,请更换该风扇模块。如果现场没有风扇模块,不能立即更换,请关闭设备以免温度过高导致电路烧坏(如果有降温措施保证系统工作在60摄氏度以下,也可以继续使用设备)。

(4)     如果更换新的风扇模块仍然不能恢复为Normal状态,请前往步骤4。

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.4.3  故障诊断命令

命令

说明

dir

用来显示目录或文件信息

display boot-loader

用来显示启动软件包的信息

display environment

显示设备的工作温度信息

display fan

显示设备风扇模块的工作状态

display logbuffer

用来显示系统日志缓冲区记录的日志信息

display power

显示设备电源的信息

fan prefer-direction slot slot-number { power-to-port | port-to-power }

配置用户期望的风扇模块的风道方向

 

3 ACL相关特性故障处理

3.1  ACL下发失败故障处理

3.1.1  故障描述

用户下发ACL失败,具体分两种失败情况:

·     执行下发命令后设备提示资源不足。

·     执行下发命令后设备无任何错误提示,但ACL不起作用。

3.1.2  故障处理流程

图2     ACL下发失败故障诊断流程图

 

 

3.1.3  故障处理步骤

1. 查看下发时是否报硬件资源不足

下发ACL配置时如果界面打印出“Reason: Not enough hardware resource”字样,则表明ACL下发失败是由硬件资源不足导致。通过display qos-acl resource命令可以进一步确认ACL硬件资源使用情况。如果显示信息中Remaining条目为0了,则表示ACL硬件资源已用尽,设备无法再下发ACL。如果下发时没有报“Reason: Not enough hardware resource”字样,则根据下发方式进行步骤选择:

·     通过MQC(QoS策略)方式下发,请进行步骤2:

·     通过包过滤(packet-filter)方式下发,请进行步骤3。

2. 检查QoS策略配置是否正确

通过下面命令分别检查不同使用情况下QoS策略的配置情况:

·     显示端口上QoS 策略配置信息,display qos policy interface

·     显示VLAN上QoS 策略配置信息,display qos vlan-policy

·     显示全局QoS策略配置信息,display qos policy global

·     显示控制平面上QoS策略配置信息,display qos policy control-plane slot slot-number

如果QoS策略中缺少流分类和流行为关联的配置,则补充相应配置。否则可通过以下两个命令分别检查下QoS策略中的类和流行为是否配置正确。

·     显示配置的类信息,display traffic classifier user-defined

·     显示配置的流行为信息,display traffic behavior user-defined

如果没有正确配置,则进行正确配置,否则进行步骤4。

3. 检查packet-filter配置是否正确

可以通过display packet-filter命令检查packet-filter配置是否正确,如果不正确,则进行正确配置,否则进行步骤4

4. 检查ACl配置是否正确

可以通过display acl命令检查ACL是否配置正确,如果不正确,则进行正确配置,否则进行步骤5。

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

3.1.4  故障诊断命令

命令

说明

display acl

显示ACL的配置和运行情况

display diagnostic-information

显示系统当前多个功能模块运行的统计信息

display packet-filter

显示ACL在报文过滤中的应用情况

display qos-acl resource

显示ACL资源的使用情况

display qos policy interface

显示指定端口或所有端口上QoS策略的配置信息和运行情况

display qos vlan-policy

显示基于VLAN应用QoS策略的信息

display qos policy global

显示基于全局应用QoS策略的信息

display qos policy control-plane

显示控制平面应用QoS策略的信息

display qos policy user-defined

显示QoS策略的配置信息

display traffic classifier user-defined

显示配置的类信息

display traffic behavior user-defined

显示配置的流行为信息

 

4 IRF相关特性故障处理

4.1  IRF建立不成功故障处理

4.1.1  故障描述

用户规划IRF后,尝试将多台设备配置为一个IRF系统,发现没有成功建立IRF。

4.1.2  故障处理流程

图3     IRF故障处理流程图

 

4.1.3  故障处理步骤

1. IRF中的成员数量是否已达到支持的最大值

通过display irf命令可以查看当前IRF中的成员个数,如果当前IRF成员数目已经达到支持的最大值,则其它设备不能再加入该IRF。IRF支持的最大成员数量为10台。

2. IRF中各成员的编号是否唯一

执行display irf命令可以查看到IRF中各成员的编号,如果新增设备的编号与IRF中现有成员设备的编号相同,则新增设备无法加入IRF;如果两台IRF中的设备具有相同的成员编号,则将导致IRF合并失败。

3. 物理连接是否正确

根据IRF规划进行线路检查,检查物理线路是否完全按照规划进行连接。通过display irf configuration命令可以查看当前设备上的IRF端口配置,其中一台设备的IRF-Port1端口必须与另外一台设备的IRF-Port2端口相连才能建立IRF,否则IRF建立失败。

4. 连接线缆类型及速率是否正确

IRF物理端口需要为SFP28口、QSFP+口或QSFP28口,请检查IRF物理端口是否符合要求。

如果使用的是SFP28口作为IRF物理端口,需要使用25Gbps的SFP28模块或电缆进行IRF物理连接。使用光模块+光纤的连接方式时,请查看链路两端的光模块型号是否一致,光纤是否连接正确。

如果使用的是QSFP+口作为IRF物理端口,请检查插入IRF物理端口的线缆或光模块是否带有40Gbps、QSFP+标记。使用光模块+光纤的连接方式时,请查看链路两端的光模块型号是否一致,光纤是否连接正确。

如果使用的是QSFP28口作为IRF物理端口,可以使用100Gbps的QSFP28模块或线缆进行IRF物理连接。使用光模块+光纤的连接方式时,请查看链路两端的光模块型号是否一致,光纤是否连接正确。还可以使用QSFP28 to SFP28电缆建立25GE IRF物理连接。

5. IRF链路状态是否正常

执行display irf topology命令,查看显示信息中的Link字段,可以判断IRF端口的链路状态:

·     如果Link字段显示UP,表示IRF链路状态正常,请执行步骤6。

·     如果Link字段显示DOWN,表示IRF链路状态异常,请执行display irf link命令查看IRF物理端口的状态,注意观察Status字段:

¡     如果与IRF端口绑定的所有IRF物理端口的当前状态均为DOWN或ADM(Administratively DOWN),请检查物理连接状态或使用undo shutdown命令开启该端口,使之变为UP状态。

¡     如果与IRF端口绑定的IRF物理端口中至少有一个处于UP状态,请在保存当前配置后,在系统视图下执行irf-port-configuration active命令来激活IRF端口的配置。

说明

irf-port-configuration active命令用于激活IRF端口的配置,该操作会使被选举为从设备的设备自动重启以加入IRF。因此,在执行该命令前,请在各成员设备上使用save命令保存当前配置,避免设备重启后因IRF配置丢失造成无法成功建立IRF。

 

6. 各设备上运行的软件版本差异是否过大

用户可通过display version命令查看各设备上运行的软件版本,如果两台设备上使用的软件版本差异过大,则不能组成IRF,出现这种现象时,建议采用将低版本升级到高版本的方式解决。

说明

IRF的启动文件自动加载功能(irf auto-update enable命令)可以自动同步IRF中各成员设备的版本。但是当成员设备使用的软件版本间差异过大时,该功能可能无法实现自动同步,此时请手工升级较低的版本。

 

7. 各成员设备上关键功能的配置是否一致

在建立IRF之前,各成员设备上的一些关键功能的配置需要保持一致。这些关键功能包括:

·     系统工作模式(通过system-working-mode命令配置)。

·     表项容量(通过hardware-resource switch-mode命令配置)。

·     最大等价路由条数(通过max-ecmp-num命令配置)。

·     IPv4等价路由增强模式(通过ecmp mode命令配置)。

·     前缀大于64位的IPv6路由功能(通过hardware-resource routing-mode命令配置)。

·     VXLAN的硬件资源模式(通过hardware-resource vxlan命令配置)

8. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

4.2  故障诊断命令

命令

说明

display version

显示系统版本信息

display irf

显示本IRF的相关信息

display irf topology

显示IRF的拓扑信息

display irf configuration

显示本IRF中所有设备的配置信息

irf-port-configuration active

激活设备上所有IRF端口下的配置

 

5 聚合相关特性故障处理

5.1  聚合不成功故障处理

5.1.1  故障描述

用户配置链路聚合功能后,发现聚合组中的成员端口不能被选中,聚合失败。

5.1.2  故障处理流程

图4     聚合不成功故障处理流程图

 

5.1.3  故障处理步骤

1. 物理连线是否正确

根据聚合规划进行线路检查,检查物理链接线路是否完全按照规划进行连接。

2. 聚合组中成员端口是否UP

通过display interface命令查看聚合组中的成员端口是否处于UP状态,如果没有UP,可按照端口不UP故障流程处理,具体请参见6 端口相关故障处理

3. 本端口的操作key和属性类配置与参考端口是否相同

在本设备上通过执行display current-configuration interface查看聚合接口及本端Unselected端口(通过display link-aggregation verbose命令查看端口是否为Selected状态,只有Selected状态的端口才可以在该聚合组中正常工作)的操作key和属性类配置与参考端口是否相同,如果不同,则将其配置相同。

4. 是否为动态聚合

若不是动态聚合,则直接到步骤6,否则进行步骤5。

5. 本端口的对端端口的操作key和属性类配置与参考端口的对端端口是否相同

在与本端Unselected端口相连接设备上执行display current-configuration interface命令查看对端Unselected端口的属操作key和属性类配置与参考端口的对端端口是否相同,如果不同,则将其配置相同。

6. 聚合成员端口数量是否超过上限

可在聚合接口视图下通过link-aggregation selected-port maximum命令配置聚合组中的最大选中端口数。通过display link-aggregation verbose命令查看聚合组中成员端口是否超过上限,如果超过上限,则多出来的端口为Unselected状态。Selected端口按照端口编号从小到大排序,可以在成员端口视图下使用undo port link-aggregation group命令将Selected端口中不适用的端口从聚合组中删除,以使必须使用的端口为Selected状态。

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

5.1.4  故障诊断命令

命令

说明

display current-configuration interface

显示接口当前生效的配置

display interface

显示以太网接口的相关信息

display link-aggregation verbose

显示系统上已有聚合接口所对应的聚合组的详细信息

link-aggregation selected-port maximum

配置聚合组中的最大选中端口数

 

6 端口相关故障处理

6.1  1GE SFP、10GE SFP+、40GE QSFP+或100GE QSFP28光口不UP故障处理

6.1.1  故障描述

1GE SFP、10GE SFP+、40GE QSFP+或100GE QSFP28光口不UP。

6.1.2  故障处理流程

图5     光口不UP故障处理流程图

 

6.1.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

3. 检查两端端口是否正常

对于SFP+/QSFP+/QSFP28端口,可以使用SFP+电缆/QSFP+电缆/QSFP28电缆将本端端口与设备上其他同类型端口直接互连。查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口来检查故障是否解决。

4. 检查光模块、线缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块线缆)来检查故障是否排除。关于光模块线缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配。

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两的光模块波长、距离等参数是否一致。

需要注意的是,对于40GE的QSFP+光口,如果使用QSFP+ to SFP+电缆连接时,由于QSFP+光模块发送光功率超过了SFP+模块要求接收的光功率上限,在使用时需要加光衰。

5. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

6. 寻求技术支持

如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.1.4  故障诊断命令

命令

说明

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface brief

显示端口的概要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

 

6.2  25GE SFP28光口不UP故障处理

6.2.1  故障描述

25GE SFP28光口不UP。

6.2.2  故障处理流程

图6     25GE光口不UP故障处理流程图

 

6.2.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

25G端口既可以工作于25G速率,也可以工作于10G速率,但不支持速率和双工自协商,需要使用speedduplex命令手动配置两端接口速率、双工状态一致。只有配置的接口速率与光模块/线缆速率一致时,接口状态才可能UP。同一组中的端口速率的配置需要保持一致。

S6820交换机25G端口分组情况如下:

·     S6820-56HF交换机上,在端口编号1~24和33~56这两个范围中,按端口编号由小到大的顺序,每4个连续的端口分为一组。

·     LSWM124TG2H接口模块扩展卡上按端口编号由小到大的顺序,每4个连续的端口分为一组

·     使用using twenty-fivegige命令将一个100GE端口拆分成425GE端口时,拆分的425GE端口为一组

3. 检查两端端口的CL72和FEC协议状态是否一致

25G端口的CL72和FEC标准都还在草案状态,不同厂商的设备间可能不完全兼容。本系列交换机的25G端口下提供port cl72 enableport fec enable命令行,用于控制这两个硬件协议的开关状态,以使设备能够与不同厂商的设备对接。

·     链路两端接口的CL72协商功能开关状态需要保持一致。

·     如果对端支持Base-R FEC,则本端和对端同时开启或同时关闭FEC协商功能都可以互通。

·     如果对端支持RS-FEC,则本端和对端都需要关闭FEC协商功能。当使用电缆互连时,两端还需要关闭CL72协商功能。

4. 检查端口的介质类型配置是否与光模块/线缆匹配

对于S6820-56HF的Twenty-FiveGigE1/0/1~Twenty-FiveGigE1/0/8、Twenty-FiveGigE1/0/49~Twenty-FiveGigE1/0/56,LSWM124TG2H接口模块扩展卡上的25G端口,需要使用port media-type { copper | fiber }命令配置接口的介质类型,使用光模块/光缆时配置为fiber,使用电缆时配置为copper。同一组中的端口的介质类型的配置需要保持一致,在组中任意一个端口上进行配置,配置会自动同步到组中其他端口。

5. 检查两端端口是否正常

端口工作在25GE速率时,将本端端口与设备上其他25G端口用SFP28电缆(适用于短距离连接)直接互连;端口工作在10GE速率时,将本端端口与设备上其他10G端口用SFP+电缆(适用于短距离连接)直接互连。查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口来检查故障是否解决。

6. 检查光模块、线缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块线缆)来检查故障是否排除。关于光模块线缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配。

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两的光模块波长、距离等参数是否一致。

7. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

8. 寻求技术支持

如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.2.4  故障诊断命令

命令

说明

display current-configuration

显示当前配置信息

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface brief

显示端口的概要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

 

6.3  10/100/1000Base-T千兆电口或1/10GBase-T万兆电口不UP故障处理

6.3.1  故障描述

10/100/1000Base-T千兆电口或1/10GBase-T万兆电口不UP。

6.3.2  故障处理流程

图7     电口不UP故障诊断流程图

 

6.3.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查链路情况,网线是否正常

可通过更换网线来检查故障是否排除。

3. 检查本端端口是否正常

可通过更换本端设备端口来检查故障是否排除。

4. 检查对端端口是否正常

可通过更换对端设备端口来检查故障是否排除。

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

6.3.4  故障诊断命令

命令

说明

display interface brief

显示以太网端口的概要信息

 

6.4  光模块上报非H3C合法光模块故障处理

6.4.1  故障描述

通过display logbuffer命令查看系统日志时,发现存在上报H3C合法光模块的相关信息。显示如下:

<Sysname> display logbuffer

   FortyGigE1/0/5: This transceiver is NOT sold by H3C. H3C  therefore shall NOT guarantee the normal function of the device or  assume the maintenance responsibility thereof!

6.4.2  故障处理流程

图8     故障诊断流程图

 

 

6.4.3  故障处理步骤

1. 检查接口上插入的光模块厂家是否是H3C

通过命令display transceiver interface,查看Vendor Name是否是H3C。如果显示的是H3C,则可能是没有电子标签的H3C光模块,也可能不是H3C光模块,需要进一步确认。如果显示的是其它信息,则一定不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。

[Sysname] display transceiver interface fortygige 1/0/1

FortyGigE 1/0/1 transceiver information:

  Transceiver Type              : 40G_BASE_LR4_QSFP_PLUS

  Connector Type                : LC

  Wavelength(nm)                : 1301

  Transfer Distance(km)         : 10(SMF)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

  Ordering Name                 : QSFP-40G-LR4-WDM1300

2. 与H3C的技术支持工程师确认是否是H3C光模块

通过Probe视图下的命令display hardware internal transceiver register interface收集光模块信息。

然后向H3C技术支持工程师反馈光模块上的条码,确认光模块的渠道来源,明确是否是H3C光模块。如果确认不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。

3. 寻求技术支持

如果上述检查完成后确认是H3C光模块,但故障仍无法排除,请联系H3C的技术支持工程师。

6.5  光模块不支持数字诊断故障处理

6.5.1  故障描述

通过display transceiver diagnosis interface命令查看光模块诊断信息时,系统提示光模块不支持数字诊断故障。显示如下:

<Sysname> display transceiver diagnosis interface fortygige 1/0/1

The transceiver does not support this function.

6.5.2  故障处理流程

图9     故障诊断流程图

 

6.5.3  故障处理步骤

1. 检查光模块是否是H3C光模块

(1)     通过display transceiver interface命令,查看Vendor Name是否是H3C

(2)     通过display transceiver manuinfo interface命令,确认光模块的渠道来源,向H3C返回光模块上的条码,收集光模块的信息,明确是否是H3C光模块。

2. 查看光模块是否支持数字诊断功能

通过display transceiver interface命令,查看Digital Diagnostic Monitoring(对数字诊断功能的支持情况)是否是Yes,并向H3C人员咨询这款光模块是否支持数字诊断功能。

<Sysname> display transceiver interface fortygige 1/0/1

FortyGigE 1/0/1 transceiver information:

  Transceiver Type              : 40G_BASE_LR4_QSFP_PLUS

  Connector Type                : LC

  Wavelength(nm)                : 1301

  Transfer Distance(km)         : 10(SMF)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

  Ordering Name                 : QSFP-40G-LR4-WDM1300

3. 寻求技术支持

如果上述检查完成后确认是H3C光模块,并支持数字诊断功能,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.6  端口存在CRC等错误统计故障处理

6.6.1  故障描述

通过display interface查看到端口存在CRC等错误统计故障。

6.6.2  故障处理流程

图1-1 故障诊断流程图

 

6.6.3  故障处理步骤

1. 查看错误报文统计信息从而判断故障问题

通过display interface命令,查看端口出入方向的错包统计具体是哪项在增长,从而判断故障问题。为方便查看,也可以在用户视图下使用reset counter interface清空端口统计报文再观察。

2. 若是光口,请检查光模块的光功率是否正常

通过display transceiver diagnosis interface查看光口所插光模块的数字诊断参数的当前测量值。若该光模块的光功率不正常,请更换同一型号的正常光模块。

[Sysname] display transceiver diagnosis interface fortygige 1/0/1

FortyGigE1/0/1 transceiver diagnostic information:

  Current diagnostic parameters:

    Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBm)  TX power(dBm)             

    43         3.31        6.23      -6.50          -2.15                    

  Alarm thresholds:                                                           

          Temp(°C)  Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM)        

    High   75         -63        10.50       2.00           1.50              

    Low    -5         2.97        2.00      -13.90         -11        

3. 检查端口配置是否正常

通过display interface brief命令,查看端口配置是否有异常,其中两端的协商状态双工模式,端口速率是否一致。若端口速率不一致或存在半双工模式,请通过speed命令和duplex命令分别配置端口的速率和双工模式。

4. 检查端口及链路介质是否正常

更换到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,可更换光模块测试。

5. 检查端口是否收到大量流控帧

通过display interface命令,查看端口pauses帧计数,如果在不断增长,表明端口发出或者收到了大量的流控帧。检查下端口出入流量是否过大及对端设备的流量处理能力。

6. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.7  端口不接收报文故障处理

6.7.1  故障描述

端口状态为UP,但不接收报文。

6.7.2  故障处理流程

图10     故障诊断流程图

 

 

6.7.3  故障处理步骤

1. 查看端口报文统计结果

检查两端端口状态是否一直UP,并使用display interface 命令查看入方向的报文统计是否增长。为方便查看,也可以使用reset counter interface清空当前端口的报文统计结果再进行观察。同时,查看对端是否有发送报文统计。检查端口错包统计是否持续增长。

2. 检查端口配置是否影响报文的接收

可通过以下步骤检查端口配置是否影响报文的接收:

(1)     通过display interface brief命令,查看端口配置是否有异常。其中包括两端的端口双工模式、端口速率、端口类型以及VLAN等配置。若有异常,请更改端口属性的配置该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令再次查端口是否能恢复正常。

(2)     如果配置了STP功能,通过display stp brief命令,查看端口是否为 discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。

(3)     如果该端口加入了聚合组,通过display link-aggregation summary命令查看该端口是否为Selected选中状态。当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

3. 检查端口及链路介质是否正常

更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,可更换光模块测试。

4. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.8  端口不发送报文故障处理

6.8.1  故障描述

端口状态为UP,但不发送收报文。

6.8.2  故障处理流程

图11     故障诊断流程图

 

 

6.8.3  故障处理步骤

1. 查看端口报文统计结果

检查两端端口状态是否一直UP,并使用display interface 命令查看出方向的报文统计是否增长。为方便查看,也可以使用reset counter interface命令清空端口当前的报文统计结果再进行观察。检查端口错包统计是否持续增长。

2. 检查端口配置是否影响报文的发送

可通过以下步骤检查端口配置是否影响报文的发送:

(1)     通过display interface brief命令,查看端口配置是否有异常。其中包括两端端口的双工模式、端口速率、端口类型以及VLAN等配置。若有异常,请更改端口属性的配置该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令再次查端口是否能恢复正常。

(2)     如果配置了STP功能,使用display stp brief命令查看故障端口是否为discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。

(3)     如果该端口加入了聚合组,使用display link-aggregation summary命令查看该端口是否为Selected选中状态。当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

3. 检查端口及链路介质是否正常

更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接测试。如果为光口,可更换光模块测试。

4. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.8.4  故障诊断命令

命令

说明

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface

显示以太网端口的相关信息

display interface brief

显示接口的概要信息

display link-aggregation summary

显示所有聚合组的摘要信息

display logbuffer

显示系统日志缓冲区的状态和缓冲区记录的日志信息

display stp brief

显示生成树状态和统计的简要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

display transceiver manuinfo interface

显示可插拔接口模块的部分电子标签信息

 

7 EVPN综合组网故障处理

7.1  无法建立EBGP/IBGP邻居

7.1.1  故障描述

EBGP/IBGP邻居状态异常,不能建立邻居。

7.1.2  故障处理流程

图12     故障处理流程图

 

7.1.3  故障处理步骤

1. 检查BGP配置是否正确

通过display bgp peer l2vpn evpn命令检查基础配置是否正确:

·     检查两端配置的AS号是否匹配。如果不匹配,则执行peer as-number命令修改AS号,确保本端设备上配置的对等体的AS号与对等体所在的AS号相同。

·     检查两端的Router ID是否相同。如果相同,则需要执行router-id命令修改其中一端的Router ID。

2. 检查BGP邻居之间的连通性

执行ping命令判断是否可以ping通对端。如果无法ping通,则检查链路是否故障、路由是否可达。

3. 检查设备是否处于内存门限告警状态

通过display memory-threshold命令检查设备的内存情况。设备处于内存门限告警状态时不能建立BGP连接,只有三级门限告警解除10分钟后才能建立BGP连接。如果三级门限告警无法解除,请联系技术支持。

4. 搜集现场信息,联系技术支持

(1)     通过debugging bgp event命令查看无法建立邻居的原因,如本端是否发起连接,连接对端是否成功,连接是否冲突等

(2)     通过debugging bgp open命令查看Open报文的发送和接收是否出错。

(3)     通过debugging tcp packet命令查看TCP报文是否能够交互成功。

(4)     通过display bgp peer l2vpn evpn verbose命令查看邻居的地址族协商情况,报文收发的历史记录。

(5)     通过display bgp peer l2vpn evpn log-info命令查看邻居的up/down记录,主要观察邻居down的原因。

(6)     通过display system internal bgp peer l2vpn evpn session statistics命令查看会话详细状态。

7.2  报文不能进行ECMP转发

7.2.1  故障描述

EVPN组网中,报文不能通过多条等价路由进行ECMP转发。

7.2.2  故障处理流程

图13     故障处理流程图

 

7.2.3  故障处理步骤

1. 检查是否存在到达同一目的网络的多条路由

通过display bgp l2vpn evpn route-distinguisher route-type ip-prefix命令查看是都存在到达同一目的网络RD相同、下一跳不同的多条路由。如果只有一条路由,则无法进行ECMP;如果存在多条路由,则继续进行以下操作。

2. 检查路由的团体属性和扩展团体属性是否一致

通过display bgp l2vpn evpn route-distinguisher route-distinguisher evpn-route route-length命令查看EVPN路由的详细信息。判断到达同一目的网络的多条路由携带的BGP团体属性和扩展团体属性是否相同。如果不同,则修改通过配置修改路由的BGP团体属性和扩展团体属性;否则,无法形成ECMP

3. 检查路由是否携带default-gateway属性

通过display bgp l2vpn evpn route-distinguisher route-distinguisher evpn-route route-length命令查看EVPN路由的详细信息,判断路由中是否携带default-gateway扩展团体属性。若携带该扩展团体属性,则路由之间不能形成ECMP

4. 检查是否存在其他路由协议的路由

通过display ip routing-table vpn-instance命令查看是否存在其他路由协议生成的到达该目的网络的路由。如果存在,请通过preference命令修改BGP路由的优先级,使得BGP路由优于其他路由协议生成的路由(优先级数值越小表明优先级越高)。

5. 检查是否配置进行BGP负载分担的路由条数

通过display bgp routing-table ipv4 vpn-instance命令查看是否存在相同前缀的多条路由,如果存在多条,但是只有一条为最优路由(带有“>”标记),则执行display current-configuration configuration bgp命令检查BGP-VPN IPv4单播地址族视图下是否配置了balance命令。如果没有配置,则执行balance命令配置进行BGP负载分担的路由条数大于1。

7.3  故障诊断命令

命令

说明

display bgp peer l2vpn evpn

显示BGP EVPN对等体的信息

display bgp l2vpn evpn

显示BGP EVPN路由信息

display ip routing-table vpn-instance

显示VPN实例的路由表信息

display bgp routing-table ipv4 vpn-instance

显示VPN实例的BGP IPv4单播路由信息

display evpn auto-discovery

显示EVPN通过BGP自动发现的邻居信息

debugging bgp event

开启BGP的事件调试信息开关

debugging bgp open

开启BGP的Open报文调试信息开关

debugging tcp packet

开启TCP报文调试信息开关

 

8 系统类故障处理

8.1  CPU占用率高问题处理方法

8.1.1  故障描述

设备运行中CPU占用率高。

8.1.2  故障处理流程

图14     故障诊断流程图

 

8.1.3  故障处理步骤

1. 查看CPU占用率

连续使用命令display cpu-usage查看CPU的占用率。如果CPU占用率持续在80%以上,说明某个任务长时间占用CPU,需要确认CPU高的具体原因。

2. 确定CPU占用率高的任务

使用Probe视图下的display process cpu命令观察占用CPU最多的任务。

<Sysname> system-view

[Sysname] probe

[Sysname-probe] display process cpu slot 1                                          

CPU utilization in 5 secs: 3.7%; 1 min: 3.1%; 5 mins: 3.8%                     

    JID      5Sec      1Min      5Min    Name                                  

      1      0.0%      0.0%      0.0%    scmd                                  

      2      0.0%      0.0%      0.0%    [kthreadd]                            

      3      0.0%      0.0%      0.0%    [migration/0]                         

      4      0.0%      0.0%      0.0%    [ksoftirqd/0]                         

      5      0.0%      0.0%      0.0%    [watchdog/0]                          

      6      0.0%      0.0%      0.0%    [migration/1]                         

      7      0.0%      0.0%      0.0%    [ksoftirqd/1]                         

      8      0.0%      0.0%      0.0%    [watchdog/1]                          

      9      0.0%      0.0%      0.0%    [migration/2]                         

     10      0.0%      0.0%      0.0%    [ksoftirqd/2]                         

     11      0.0%      0.0%      0.0%    [watchdog/2]                          

     12      0.0%      0.0%      0.0%    [migration/3]                         

     13      0.0%      0.0%      0.0%    [ksoftirqd/3]                         

     14      0.0%      0.0%      0.0%    [watchdog/3]                          

     15      0.0%      0.0%      0.0%    [migration/4]                         

     16      0.0%      0.0%      0.0%    [ksoftirqd/4]                         

     17      0.0%      0.0%      0.0%    [watchdog/4]                          

     18      0.0%      0.0%      0.0%    [migration/5]                         

     19      0.0%      0.0%      0.0%    [ksoftirqd/5]                         

     20      0.0%      0.0%      0.0%    [watchdog/5]                          

     21      0.0%      0.0%      0.0%    [migration/6]                          

---- More ----                          

各列分别表示某任务平均5sec1min5min实际占用CPU的百分比和任务名。某任务占用率越高,说明相应的任务占用CPU的资源越多。正常情况任务对CPU的占用率一般低于5%,这个命令可以查看明显高出正常占用率的任务。

3. 确认异常任务的调用栈

通过Probe视图下的follow job job-id 命令确认异常任务的调用栈。此处以显示job 14的调用栈为例。

[Sysname-probe] follow job 14                                                      

Attaching to process 14 ([watchdog/3])                                         

Iteration 1 of 5                                                               

------------------------------                                                 

Kernel stack:                                                                  

[<80480754>] schedule+0x954/0x1250                                             

[<8028f720>] watchdog+0xb0/0x410                                               

[<802656d0>] kthread+0x130/0x140                                               

[<8021d730>] kernel_thread_helper+0x10/0x20                                    

                                                                                

Iteration 2 of 5                                                               

------------------------------                                                 

Kernel stack:                                                                   

[<80480754>] schedule+0x954/0x1250                                             

[<8028f720>] watchdog+0xb0/0x410                                               

[<802656d0>] kthread+0x130/0x140                                                

[<8021d730>] kernel_thread_helper+0x10/0x20                                    

                                                                               

Iteration 3 of 5                                                                

------------------------------                                                 

Kernel stack:                                                                  

[<80480754>] schedule+0x954/0x1250                                              

[<8028f720>] watchdog+0xb0/0x410                                               

[<802656d0>] kthread+0x130/0x140                                               

[<8021d730>] kernel_thread_helper+0x10/0x20                                    

                                                                                

Iteration 4 of 5                                                               

------------------------------                                                 

Kernel stack:                                                                   

[<80480754>] schedule+0x954/0x1250                                             

[<8028f720>] watchdog+0xb0/0x410                                               

[<802656d0>] kthread+0x130/0x140                                                

[<8021d730>] kernel_thread_helper+0x10/0x20                                    

                                                                               

Iteration 5 of 5                                                               

------------------------------                                                 

Kernel stack:                                                                  

[<80480754>] schedule+0x954/0x1250                                             

[<8028f720>] watchdog+0xb0/0x410                                               

[<802656d0>] kthread+0x130/0x140                                               

[<8021d730>] kernel_thread_helper+0x10/0x20

4. 收集信息并寻求技术支持

记录上述三步所获得的信息,并使用display diagnostic-information命令收集设备的诊断信息。。将所有信息反馈给H3C技术人员寻求技术支持。

8.2  内存占用率高问题处理方法

8.2.1  故障描述

使用display memory命令查看设备内存信息。如果内存占用率在持续的一段时间内(一般为30分钟)高于60%,那么可能存在内存异常问题,需要关注。

8.2.2  故障处理流程

图15     故障诊断流程图

 

8.2.3  故障处理步骤

1. 确定各内存块使用情况

使用Probe视图下的display system internal kernel memory pool命令查看各块内存使用情况,找出使用率不正常和不断增加的内存模块。

<Sysname> system-view

[Sysname] probe

[Sysname-probe]display system internal kernel memory pool slot 1

Active    Number  Size     Align Slab Pg/Slab ASlabs  NSlabs Name              

2         10      3072     0     10   8       1       1      sgpool-128        

0         0       900      0     34   8       0       0      LFIB_IlmEntryCache

0         0       656      0     23   4       0       0      MFW_FsCache       

2         39      768      0     39   8       1       1      biovec-64         

0         0       96       8     30   1       0       0      cfq_io_context    

0         0       52       0     42   1       0       0      ARP_Static_Entry_Cachep

0         0       432      0     34   4       0       0      LFIB_IlmEntryCache

0         0       80       0     34   1       0       0      LFIB_NhlfeCacheCache

0         0       536      0     28   4       0       0      jffs2_i           

11        92      52       4     46   1       2       2      pktpcb            

1         26      576      0     26   4       1       1      shmem_inode_cache 

515       650     256      8     25   2       24      26     kmalloc-256       

0         0       1936     0     16   8       0       0      MFW_FsCache       

0         42      4096     0     7    8       0       6      names_cache       

0         0       1104     0     28   8       0       0      MFW_FsCache       

0         0       336      4     21   2       0       0      ripcb             

0         0       8        0     85   1       0       0      L2VFIB_Ac_Ctr_Cache

599       680     440      4     34   4       20      20     socket            

0         0       104      0     28   1       0       0      memDSLITE         

0         0       68       0     39   1       0       0      mfib_l2m_source_cache

16        26      108      0     26   1       1       1      ADJ4_Ext_Cachep   

0         0       48       0     46   1       0       0      L2VFIB_LpwEntryCacheName(1)

---- More ----

请重点查看Number列和Size列的统计结果。如果发现某块内存在不停增加,那么表示该块内存在被不断使用。需要注意的是:

·     有些内存块使用率的增加是正常的,所以需要判断该块内存是否真正的异常。Number*Size是某个模块使用的内存大小。判断内存使用率是否正常可能需要持续观察内存增长速度和内存使用的多少综合分析判断。

·     有些内存的泄漏过程比较缓慢,所以需要比较长的时间(甚至是几周的时间)来对比观察。

2. 收集信息并寻求技术支持

通过上述步骤只是确定了出现问题的内存模块,但还需继续收集信息以确定具体是哪些代码有问题。由于后续信息收集要求较高,不建议用户操作,请与H3C的技术支持工程师联系。需要注意的是:此时,不得重启设备,否则设备重启后,由于缺少故障出现时的信息而给故障定位带来困难。

8.3  故障诊断命令

命令

说明

display cpu-usage

显示CPU利用率的统计信息

display process cpu

Probe视图下命令,显示各任务占用CPU的情况

display memory

显示内存使用情况

display system internal kernel memory pool

Probe视图下命令,查看各块内存使用情况

follow job job-id

Probe视图下命令,显示异常任务的调用栈

 

9 其它常见故障处理

9.1  二层流量转发丢包

9.1.1  故障描述

设备二层转发丢包,即源端和目的端在同一二层网络的同一VLAN内,通信过程中有丢包。

9.1.2  故障处理流程

图16     二层流量转发丢包故障诊断流程图

 

9.1.3  故障处理步骤

1. 查看端口下是否有错包

使用display interface命令查看端口下是否有错包。如果有错包,请前往步骤2,如果没有错包,请前往步骤3进行后续步骤的检查。

<Sysname>display interface hundredgige 1/0/32

HundredGigE1/0/32 current state: UP

Line protocol state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 000f-e200-002b

……

Last 300 seconds input:  0 packets/sec 10 bytes/sec 0%

 Last 300 seconds output:  0 packets/sec 10 bytes/sec 0%

 Input (total):  1438 packets, 480292 bytes

          0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses

 Input (normal):  1438 packets, - bytes

          0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses

 Input:  0 input errors, 0 runts, 0 giants, 0 throttles

          0 CRC, 0 frame, - overruns, 0 aborts

          - ignored, - parity errors

 Output (total): 1440 packets, 475200 bytes

          0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses

 Output (normal): 1440 packets, - bytes

          0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses

 Output: 0 output errors, - underruns, - buffer failures

          0 aborts, 0 deferred, 0 collisions, 0 late collisions

          0 lost carrier, - no carrier

2. 端口下有错包

端口下有错包有以下几种可能的故障原因,可使用排除法定位:

·     端口本身硬件故障:通过将连接端口的线缆连接到配置相同且可正常工作的端口查看是否端口本身硬件故障。如果是端口本身硬件故障,请将线缆连接到可正常工作的端口。

·     链路上光模块、光纤或以太网双绞线故障:通过更换完好的光模块、光纤或以太网双绞线定位是否光纤或以太网双绞线故障。如果是光模块、光纤或以太网双绞线故障,请更换完好的光模块、光纤或以太网双绞线。

·     对端配置问题,查看对端速率、双工模式的配置是否和本端一致。如果对端速率和双工模式的配置与本端不一致,请更新配置保证本端和对端速率和双工模式的配置一致。

·     当通过上述方法无法解决错包问题需要联系技术支持时,请先通过如下方法收集信息,然后前往步骤7。

# 使用probe命令进入Probe视图,在Probe视图下使用debug port map命令确认面板端口对应的芯片端口。

[Sysname-probe] debug port map slot 1

 

[Interface] [Unit] [Port] [Name] [Combo?] [Active?] [IfIndex] [MID] [Link] [Pipe

Num] [PhyAddr]

================================================================================

==============

 HGE1/0/1        0    38    ce8     no         no      0x1       64  down     1

       161

 HGE1/0/2        0    34    ce7     no         no      0x6       64  down     1

       160

 WGE1/0/3:1      0    42    xe31    no         no      0xc       64  down     1

       162

 WGE1/0/3:2      0    43    xe32    no         no      0xd       64  down     1

       162

 WGE1/0/3:3      0    44    xe33    no         no      0xe       64  down     1

       162

 WGE1/0/3:4      0    45    xe34    no         no      0xf       64  down     1

       162

 HGE1/0/4        0    46    ce9     no         no      0x10      64  down     1

       163

 HGE1/0/5        0    54    ce11    no         no      0x15      64  down     1

       21

 HGE1/0/6        0    50    ce10    no         no      0x1a      64  down     1

       20

 HGE1/0/7        0    58    ce12    no         no      0x1f      64  down     1

       22

 HGE1/0/8        0    62    ce13    no         no      0x24      64  down     1

       23

 HGE1/0/9        0    72    ce15    no         no      0x29      64  down     2

       1

 HGE1/0/10       0    68    ce14    no         no      0x2e      64  down     2

       0

 HGE1/0/11       0    76    ce16    no         no      0x33      64  down     2

       2

 HGE1/0/12       0    80    ce17    no         no      0x38      64  down     2

       3

 HGE1/0/13       0    88    ce19    no         no      0x3d      64  down     2

       121

 HGE1/0/14       0    84    ce18    no         no      0x42      64  down     2

       120

 HGE1/0/15       0    92    ce20    no         no      0x47      64  down     2

       122

 HGE1/0/16       0    96    ce21    no         no      0x4c      64  down     2

       123

 HGE1/0/17       0    106   ce23    no         no      0x51      64  down     3

       101

 HGE1/0/18       0    102   ce22    no         no      0x56      64  down     3

       100

 HGE1/0/19       0    110   ce24    no         no      0x5b      64  down     3

       102

 HGE1/0/20       0    114   ce25    no         no      0x60      64  down     3

       103

 HGE1/0/21       0    122   ce27    no         no      0x65      64  down     3

       61

 HGE1/0/22       0    118   ce26    no         no      0x6a      64  down     3

       60

 HGE1/0/23       0    126   ce28    no         no      0x6f      64  down     3

       62

 HGE1/0/24       0    130   ce29    no         no      0x74      64  down     3

       63

 HGE1/0/25       0    5     ce1     no         no      0x79      64  down     0

       85

 HGE1/0/26       0    1     ce0     no         no      0x7e      64  down     0

       81

 HGE1/0/27       0    9     ce2     no         no      0x83      64  down     0

       148

 HGE1/0/28       0    13    ce3     no         no      0x88      64  down     0

       149

 HGE1/0/29       0    21    ce5     no         no      0x8d      64  down     0

       41

 HGE1/0/30       0    17    ce4     no         no      0x92      64  down     0

       40

 XGE1/0/31:1     0    25    xe18    no         no      0x98      64  down     0

       42

 XGE1/0/31:2     0    26    xe19    no         no      0x99      64  down     0

       42

 XGE1/0/31:3     0    27    xe20    no         no      0x9a      64  down     0

       42

 XGE1/0/31:4     0    28    xe21    no         no      0x9b      64  down     0

       42

 HGE1/0/32       0    29    ce6     no         no      0x9c      64  down     0

       43

 XGE1/0/33       0    66    xe50    no         no      0xa1      64  up       1

       5c

 XGE1/0/34       0    100   xe75    no         no      0xa2      64  down     2

       58

# 查到HundredGigE1/0/1对应的芯片端口名字为ce8,然后执行下面命令两次或两次以上,查看是否有接收丢包统计(RDBGC)和发送丢包统计(TDBGC)计数。如果有将相关信息反馈技术支持。

[Sysname-probe] bcm slot 1 chip 0 show/c/ce8

RDBGC2.xe0        :                 8,118              +8,118

R511.xe0          :                 8,118              +8,118

RPKT.xe0          :                 8,118              +8,118

RMCA.xe0          :                 8,118              +8,118

RPOK.xe0          :                 8,118              +8,118

RBYT.xe0          :             2,726,553          +2,726,553

T511.xe0          :                 8,208              +8,208

TPOK.xe0          :                 8,208              +8,208

TPKT.xe0          :                 8,208              +8,208

TMCA.xe0          :                 8,208              +8,208

TBYT.xe0          :             2,741,472          +2,741,472

PERQ_PKT(3).xe0   :                 8,208              +8,208

PERQ_BYTE(3).xe0  :             2,741,472          +2,741,472             330/s

3. 报文因匹配ACL被过滤

(1)     检查端口、VLAN以及全局下是否配置了ACL或QoS策略,如果配置了ACL或QoS策略,请检查端口进入的报文是否因匹配了ACL或QoS策略的流分类而被丢弃,包括端口下的packet-filter(使用display packet-filter查看)、qos policy(使用display qos policy查看),vlan policy(使用display qos vlan-policy查看)以及global policy(使用display qos policy global查看)。如果报文因匹配了ACL或QoS策略的流分类而被丢弃,请参考ACL或QoS的配置方法通过更新配置使报文不被丢弃。

(2)     检查是否因匹配一些特性自动创建的的ACL而被过滤,在以太网接口视图下使用display this命令查看端口下是否配置了下面特性或使用特性相关的具体命令查看:

·     端口是否配置ip source bindingip verify source,使用display ip source binding/ display ipv6 source binding可以查看绑定表项信息。如果端口配置了ip source guard且通过上述 display命令发现没有匹配报文的表项,请根据您使用的绑定表项的生成方法进一步排查。

·     查看端口是否配置了Portal认证,没有通过Portal认证的用户,报文会被该端口丢弃。使用display portal interface可以显示指定VLAN接口的Portal配置信息。请用户根据实际情况确定是否可以取消Portal认证。在端口所属VLAN的对应VLAN虚接口下使用undo portal server server-name可以取消Portal认证。

4. 端口被协议设置为block状态

·     使用display stp brief命令查看端口是否被stp设置为discarding状态。如果端口被stp设置为discarding状态,请根据stp的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的stp功能。

·     如果端口属于某个聚合组,使用display link-aggregation verbose命令查看聚合口的详细信息,当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

·     查看端口是否被Smartlink阻塞:使用display smart-link group命令查看端口状态,当State为STANDBY或DOWN时端口不能转发数据。如果State为DOWN,请定为端口成为DOWN状态的原因,如上行链路上的设备配置了Monitor Link功能造成该端口DOWN,或该端口所在链路连接发生故障或端口被shutdown,进一步排查解决;如果State为STANDBY,请将该设备Smart Link组的主、从端口互换。

5. 配置相关丢包

·     在以太网接口视图下使用display this命令查看端口是否在报文所属VLAN中。如果端口不在报文所属VLAN中,请将端口加入该VLAN。

·     使用display mac-address blackhole命令查看是否因为匹配了黑洞MAC地址表项被丢包。请根据实际情况确定是否可以取消该黑洞MAC。如果需要删除该黑洞MAC,请使用undo mac-address blackhole mac-address vlan vlan-id命令删除。

·     使用display qos lr interface查看是否有端口限速的配置。如果端口有限速的配置,请查看令牌生成速度和突发流量配置值是否合理,可以通过使用qos lr { inbound | outbound } cir committed-information-rate [ cbs committed-burst-size ]命令调整令牌生成速度和突发流量配置值定位解决。

·     在以太网接口视图下使用display this命令查看端口是否有风暴抑制相关配置,包括广播风暴抑制比(broadcast-suppression),组播风暴抑制比(multicast-suppression),未知单播风暴抑制比(unicast-suppression)。如果端口下配置了风暴抑制比,可以通过将风暴抑制比的数值调大定位解决。

6. 拥塞丢包

通过display qos queue-statistics interface命令查看端口是否有拥塞丢包。请参考拥塞管理的相关内容定位解决拥塞问题。

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

9.1.4  故障诊断命令

命令

说明

display interface

显示以太网端口的相关信息

display packet-filter

显示ACL在报文过滤中的应用情况

display qos policy

显示用户定义策略的配置信息

display qos policy interface

显示指定端口或所有端口上QoS策略的配置信息和运行情况

display qos vlan-policy

显示基于VLAN应用QoS策略的信息

display qos policy global

显示基于全局应用QoS策略的信息

display this

在以太网接口视图下使用此命令查看接口的当前配置

display ip source binding/ display ipv6 source binding

查看IP Source Guard绑定表项信息

display portal interface

显示指定接口的Portal配置信息

display link-aggregation verbose

查看聚合口的详细信息

display smart-link group

查看Smart Link组的信息

display mac-address blackhole

查看黑洞MAC地址表项信息

display qos lr interface

显示端口限速配置情况

display qos queue-statistics interface

显示端口队列统计信息

 

9.2  三层转发丢包故障

9.2.1  故障描述

设备三层转发丢包,即发送端IP地址和目的端IP地址不在同一网段内,通信过程中有丢包。

9.2.2  故障处理流程

图17     三层转发丢包故障诊断流程图

 

9.2.3  故障处理步骤

1. 检查端口是否有故障

根据9.1  二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):

·     如果是端口故障,请按照9.1  二层流量转发丢包节的故障处理思路进行处理。

·     如果不是端口故障,则执行步骤2。

2. 查看ARP表项是否正确

使用display arp命令查看设备上是否学习到网关设备的ARP表项、学习到的ARP表项是否正确:

·     如果设备上未学习到ARP表项或学习到的表项错误,通过打开debugging arp packet查看设备ARP表项学习情况,来定位ARP问题的原因。对于未学习到ARP表项,可以使用arp static命令手工添加静态ARP表项。

·     使用display mac-address命令查看对应的MAC地址表项的出接口和ARP表项中的出接口是否一致,如果不一致,使用reset命令清除ARP表项,让设备重新学习表项。

·     如果设备上ARP表项学习正确,请执行步骤3。

3. 查看路由表项是否正确

使用display ip routing-table命令查看设备上学习的路由信息是否正确:

·     如果设备上学习到的路由信息不正确,请根据您使用的具体的路由协议进行进一步排查。

·     使用display fib命令查看对应的FIB表项的出接口和路由表项中的出接口是否一致,如果不一致,使用reset命令清除路由表项,让设备重新学习表项。

·     如果设备上的路由信息正确,请执行步骤4。

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

9.2.4  故障诊断命令

命令

说明

debugging arp packet

打开ARP的报文调试信息开关

display arp

显示ARP表项

display ip routing-table

显示路由表中当前激活路由的摘要信息

display mac-address

显示MAC地址表信息

display fib

显示FIB表项的信息

 

9.3  协议震荡故障处理

9.3.1  故障描述

协议震荡一般都是协议报文交互时不通导致的。

9.3.2  故障处理流程

图18     协议震荡故障诊断流程图

 

9.3.3  故障处理步骤

1. 查看二层转发是否丢包

根据9.1  二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):

·     如果是端口故障,请按照9.1  二层流量转发丢包一节的故障处理思路进行处理。

·     如果不是端口故障,则执行步骤2。

2. 查看三层转发是否丢包

根据9.2  三层转发丢包故障一节的故障定位处理方法,定位是否为三层故障(包括ARP表项错误和路由表项错误):

·     如果是三层故障,请按照9.2  三层转发丢包故障一节的故障处理思路进行处理。

·     如果不是三层故障,则执行步骤3。

3. 查看软件收包是否丢包

# 进入Probe视图。

[Sysname-probe] debug rxtx softcar show slot 1

 

ID  Type                RcvPps Rcv_All    DisPkt_All Pps  Dyn Swi Hash ACLmax  

0   ROOT                0      0          0          300  S   On  SMAC 0       

1   ISIS                0      0          0          200  D   On  SMAC 8       

2   ESIS                0      0          0          100  S   On  SMAC 8       

3   CLNP                0      0          0          100  S   On  SMAC 8       

4   VRRP                0      0          0          1024 S   On  SMAC 8       

5   UNKNOWN_IPV4MC      0      0          0          100  S   On  SMAC 8       

6   UNKNOWN_IPV6MC      0      0          0          100  S   On  SMAC 8       

7   IPV4_MC_RIP         0      0          0          150  D   On  SMAC 8       

8   IPV4_BC_RIP         0      0          0          150  D   On  SMAC 8     

......(省略部分显示信息)

如果发现有丢包发生,请收集信息,然后前往步骤4。

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!