国家 / 地区

H3C S5130-HI系列以太网交换机 故障处理手册-6W101

手册下载

H3C S5130-HI故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2015-2017 新华三技术有限公司,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,

并不得以任何形式传播。本文档中的信息可能变动,恕不另行通知。

H3C_彩色.emf

 


 

1 简介·· 1

1.1 故障处理注意事项·· 1

1.2 收集设备运行信息·· 1

1.2.1 logfile日志·· 2

1.2.2 diagfile日志·· 2

1.2.3 诊断信息·· 3

1.3 故障处理求助方式·· 4

2 硬件类故障处理·· 4

2.1 运行过程中设备异常重启故障处理·· 4

2.1.1 故障描述·· 4

2.1.2 故障处理流程·· 5

2.1.3 故障处理步骤·· 5

2.2 电源运行中上报Fault问题处理方法·· 6

2.2.1 故障描述·· 6

2.2.2 故障处理流程·· 6

2.2.3 故障处理步骤·· 6

2.3 新插入电源模块状态异常处理方法·· 7

2.3.1 故障描述·· 7

2.3.2 故障处理流程·· 7

2.3.3 故障处理步骤·· 8

2.4 风扇模块运行中上报Fault或新安装风扇模块后状态异常问题处理方法·· 8

2.4.1 故障描述·· 8

2.4.2 故障处理流程·· 9

2.4.3 故障处理步骤·· 9

2.4.4 故障诊断命令·· 10

3 ACL相关特性故障处理·· 10

3.1 ACL下发失败故障处理·· 10

3.1.1 故障描述·· 10

3.1.2 故障处理流程·· 11

3.1.3 故障处理步骤·· 11

3.1.4 故障诊断命令·· 12

3.2 利用流量统计分析转发故障的方法·· 12

3.3 故障诊断命令·· 15

4 IRF相关特性故障处理·· 15

4.1 IRF建立不成功故障处理·· 15

4.1.1 故障描述·· 15

4.1.2 故障处理流程·· 16

4.1.3 故障处理步骤·· 16

4.2 故障诊断命令·· 18

5 聚合相关特性故障处理·· 18

5.1 聚合不成功故障处理·· 18

5.1.1 故障描述·· 18

5.1.2 故障处理流程·· 19

5.1.3 故障处理步骤·· 19

5.1.4 故障诊断命令·· 20

6 端口相关故障处理·· 21

6.1 光口(千兆SFP口、万兆SFP+QSFP+口)不UP故障处理·· 21

6.1.1 故障描述·· 21

6.1.2 故障处理流程·· 21

6.1.3 故障处理步骤·· 21

6.1.4 故障诊断命令·· 22

6.2 电口(10/100/1000Base-T千兆电口和1/10GBase-T万兆电口)不UP故障处理·· 23

6.2.1 故障描述·· 23

6.2.2 故障处理流程·· 23

6.2.3 故障处理步骤·· 23

6.2.4 故障诊断命令·· 24

6.3 光模块上报非H3C合法光模块故障处理·· 24

6.3.1 故障描述·· 24

6.3.2 故障处理流程·· 24

6.3.3 故障处理步骤·· 25

6.4 光模块不支持数字诊断故障处理·· 26

6.4.1 故障描述·· 26

6.4.2 故障处理流程·· 26

6.4.3 故障处理步骤·· 26

6.5 端口存在CRC等错误统计故障处理·· 27

6.5.1 故障描述·· 27

6.5.2 故障处理流程·· 27

6.5.3 故障处理步骤·· 28

6.6 端口不接收报文故障处理·· 29

6.6.1 故障描述·· 29

6.6.2 故障处理流程·· 29

6.6.3 故障处理步骤·· 29

6.7 端口不发送报文故障处理·· 30

6.7.1 故障描述·· 30

6.7.2 故障处理流程·· 31

6.7.3 故障处理步骤·· 31

6.7.4 故障诊断命令·· 32

7 系统类故障处理·· 32

7.1 CPU占用率高问题处理方法·· 32

7.1.1 故障描述·· 32

7.1.2 故障处理流程·· 33

7.1.3 故障处理步骤·· 33

7.2 内存占用率高问题处理方法·· 35

7.2.1 故障描述·· 35

7.2.2 故障处理流程·· 35

7.2.3 故障处理步骤·· 35

7.3 故障诊断命令·· 36

8 其它常见故障处理·· 37

8.1 二层流量转发丢包·· 37

8.1.1 故障描述·· 37

8.1.2 故障处理流程·· 37

8.1.3 故障处理步骤·· 38

8.1.4 故障诊断命令·· 41

8.2 三层转发丢包故障·· 42

8.2.1 故障描述·· 42

8.2.2 故障处理流程·· 42

8.2.3 故障处理步骤·· 43

8.2.1 故障诊断命令·· 43

8.3 协议震荡故障处理·· 43

8.3.1 故障描述·· 43

8.3.2 故障处理流程·· 44

8.3.3 故障处理步骤·· 44

8.4 风扇异常·· 45

8.4.1 故障描述·· 45

8.4.2 故障处理流程·· 45

8.4.3 故障处理步骤·· 46

8.4.4 故障诊断命令·· 46

 


1 简介

本文档介绍S5130-HI系列以太网交换机软、硬件常见故障的诊断及处理措施。

本文档不严格和具体的软硬件版本对应。

1.1  故障处理注意事项

注意

设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。

 

在进行故障诊断和处理时,请注意以下事项:

·     设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

¡     记录具体的故障现象、故障时间、配置信息。

¡     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡     收集设备的日志信息和诊断信息(收集方法见1.2  收集设备运行信息)。

¡     记录设备故障时指示灯的状态,或给现场设备拍照记录。

¡     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡     记录故障处理过程中配置的所有命令行显示信息。

·     更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

·     故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。

1.2  收集设备运行信息

说明

为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。

 

设备运行过程中会产生logfilediagfile日志信息及记录设备运行状态的诊断信息。这些信息存储在主设备的Flash,可以通过FTPTFTPUSB等方式导出。

如果设备运行过程中发生过主从倒换,则日志文件将保存在设备多个成员设备中,不同成员设备中导出的logfilediagfile、诊断信息文件请按照一定规则存放(如不同的文件夹:slotY),避免不同成员设备的运行信息相互混淆,以方便查询。

表1     设备运行信息介绍

分类

文件名

内容

logfile日志

logfile.log

命令行记录、设备运行中产生的记录信息

diagfile日志

diagfile.log

设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、设备无法启动时的信息、成员设备之间通信异常时的握手信息

诊断信息

XXX.gz

系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

 

1.2.1  logfile日志

(1)     执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在Flashlogfile目录中。

<Sysname> logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log

(2)     查看各成员设备中日志文件名称。

·     主设备logfile日志:

<Sysname> dir flash:/logfile/

Directory of flash:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

524288 KB total (107944 KB free)

 

·     从设备logfile日志:

<Sysname> dir slot2#flash:/logfile/

Directory of slot2#flash:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

524288 KB total (107944 KB free)

 

(3)     使用FTPTFTP或者USB接口将日志文件传输到指定位置。

1.2.2  diagfile日志

(1)     执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在Flashdiagfile目录中。

<Sysname> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file flash:/diagfile/diagfile.log

(2)     查看各成员设备中诊断日志文件的名称。

·     主设备diagfile日志

<Sysname> dir flash:/diagfile/

Directory of flash:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

524288 KB total (107944 KB free)

 

·     从设备diagfile日志

<Sysname> dir slot2#flash:/diagfile/

Directory of slot2#flash:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

524288 KB total (107944 KB free)

 

(3)     使用FTPTFTP或者USB接口将日志文件传输到指定位置。

1.2.3  诊断信息

诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。

需要注意的是,成员设备越多,诊断信息收集的时间越长,信息收集期间不能输入命令,请耐心等待。

说明

通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口或管理口的情况下,建议通过业务网口或管理口登录和传输文件。

 

(1)     执行screen-length disable命令,以避免屏幕输出被打断(如果是将诊断信息保存到文件中,则忽略此步骤)。

<Sysname> screen-length disable

(2)     执行display diagnostic-information命令收集诊断信息。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N] :

(3)     选择将诊断信息保存至文件中,还是将直接在屏幕上显示

·     输入“Y”,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。

Save or display diagnostic information (Y=save, N=display)? [Y/N] : Y

Please input the file name(*.tar.gz)[flash:/diag.tar.gz] :flash:/diag.tar.gz

Diagnostic information is outputting to flash:/diag.tar.gz.

Please wait...

Save successfully.

<Sysname> dir flash:/

Directory of flash:

……

   6 -rw-      898180 Jun 26 2013 09:23:51   diag.tar.gz

 

524288 KB total (107944 KB free)

·     输入“N”,将诊断信息直接显示在屏幕上。(诊断信息的显示随设备型号和版本不同有所差异,请以实际情况为准)

Save or display diagnostic information (Y=save, N=display)? [Y/N] :N

===============================================

  ===============display clock=============== 

05:26:01 UTC Tue 01/01/2015

=================================================

  ===============display version=============== 

H3C Comware Software, Version 7.1.045, Release 1111

Copyright (c) 2004-2017 New H3C Technologies Co., Ltd. All rights reserved.

H3C S5130-54C-PWR-HI uptime is 0 weeks, 0 days, 5 hours, 26 minutes

Last reboot reason : Cold reboot

 

Boot image: flash:/s5130hi-cmw710-boot-r1111.bin

Boot image version: 7.1.045, Release 1111

  Compiled Dec 26 2014 15:34:13

System image: flash:/s5130hi-cmw710-system-r1111.bin

System image version: 7.1.045, Release 1111

  Compiled Dec 26 2014 15:34:13

……

1.3  故障处理求助方式

当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。

用户支持邮箱:service@h3c.com

技术支持热线电话:400-810-0504(手机、固话均可拨打)

2 硬件类故障处理

说明

本章节主要讲述电源、风扇、接口模块扩展卡等部件故障的处理方法。其它部件如光模块、端口故障等问题请参见端口相关故障处理

 

2.1  运行过程中设备异常重启故障处理

2.1.1  故障描述

设备在使用中发生异常重启。

2.1.2  故障处理流程

图1     故障诊断流程图

 

2.1.3  故障处理步骤

1. 收集设备日志信息

设备重启后查看是否能够进入命令行模式,使用display diagnostic-information命令收集设备的日志信息,待收集完成后,将设备信息导出后发给H3C技术支持寻求帮助。

2. 检查设备上的启动文件是否正常

通过Console口登录故障设备,重新启动设备,如果BOOTROM提示CRC错误或者找不到启动文件,请重新加载启动文件。加载后请设置该文件为当前启动文件(在BOOTROM加载过程中,BOOTROM能自动将该文件设置为当前启动文件)。

3. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.2  电源运行中上报Fault问题处理方法

2.2.1  故障描述

电源运行中上报Fault

2.2.2  故障处理流程

图2     故障诊断流程图

 

2.2.3  故障处理步骤

1. 检查是否存在FaultAbsent状态的电源模块

使用display power命令显示电源模块状态,查看是否存在FaultAbsent状态的电源模块。

[Sysname]display power

 Slot 2:

 PowerID State          Mode   Current(A)  Voltage(V)  Power(W)

 1       Normal         --        --          --          --

 2       Absent         --        --          --          --

如果存在Absent状态的电源模块,请执行步骤2

如果存在Fault状态的电源模块,请执行步骤3

2. 检查Absent状态电源模块

如果电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装牢固。

如果电源模块槽位有电源模块在位且显示为Absent,请将电源模块拆卸后重新安装,然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请更换新电源模块

如果更换新电源模块后仍然显示为Absent状态,请执行步骤4

3. 检查Fault状态电源模块

如果设备已安装另一电源模块,但该电源模块没有上电,此时该电源模块的运行状态为fault,此时请为该电源模块上电。

如果存在Fault状态电源模块,表示该电源模块异常,无法供电。

电源处于Fault状态有可能是电源模块本身温度过高导致。如果电源模块上积灰较多可能引起电源模块温度升高。请查看电源模块积灰情况,如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。然后使用display power命令查看对应槽位电源状态是否显示为Normal如果没有恢复Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。如果该电源模块仍然显示为Fault状态,请更换电源模块。

如果更换新电源模块后仍然显示为Fault状态,请执行步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.3  新插入电源模块状态异常处理方法

2.3.1  故障描述

新插入电源模块状态异常。

2.3.2  故障处理流程

图3     故障诊断流程图

 

2.3.3  故障处理步骤

1. 查看电源模块状态

使用display power命令查看电源模块状态。

[Sysname]display power

 Slot 2:

 PowerID State          Mode   Current(A)  Voltage(V)  Power(W)

 1       Normal         --        --          --          --

 2       Absent         --        --          --          --

如果该电源模块显示为Absent状态,请执行步骤2

如果该电源模块显示为Fault状态,请执行步骤3

2. 检查Absent状态电源模块

如果该电源模块显示为Absent状态,表示电源模块没有安装牢固。请将该电源模块拆卸后重新安装,然后查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Absent状态,请执行步骤4

3. 检查Fault状态电源模块

如果该电源模块显示为Fault状态,表示该模块异常,无法供电。请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Fault状态,请执行步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.4  风扇模块运行中上报Fault或新安装风扇模块后状态异常问题处理方法

2.4.1  故障描述

风扇模块运行中上报Fault或新安装风扇模块后状态异常

2.4.2  故障处理流程

图4     故障诊断流程图

 

2.4.3  故障处理步骤

1. 查看风扇模块状态

使用display fan命令查看风扇模块状态。

[Sysname]display fan

 Slot 2:

 Fan 1:

 State    : Normal

 Airflow Direction: Port-to-power

 Prefer Airflow Direction: Port-to-power

 Fan 2:

 State    : Normal

 Airflow Direction: Port-to-power

 Prefer Airflow Direction: Port-to-power

·     如果 Airflow Direction显示的风向与Prefer Airflow Direction显示的风向不一致,请重新安装正确风向的风扇或使用fan prefer-direction命令配置正确的期望风道风向。

·     如果风扇模块工作状态显示为Absent,请执行步骤2

·     如果风扇模块工作状态显示为Fault,请执行步骤3

2. 检查风扇模块是否安装牢固

如果风扇模块工作状态显示为Absent状态,表示风扇模块不在位或者没有安装牢固。如果风扇模块在位,请将该风扇模块拆卸后重新安装,然后查看风扇模块状态是否显示为Normal状态。如果仍然显示为Absent状态,请更换风扇模块。如果更换新风扇模块后仍然显示为Absent状态,请执行步骤4

3. 检查设备的工作温度信息

如果风扇模块工作状态显示Fault状态,表示该风扇模块异常,无法提供通风散热功能。请使用下述步骤进一步定位。

(1)     使用display environment命令查看系统温度是否持续升高。如果系统温度持续升高,建议用手在设备出风口触摸进一步判断出风口是否有出风。

(2)     如果温度持续升高,且出风口无风,可以肯定风扇模块异常。请将风扇模块拆卸后重新安装,然后使用display fan命令查看是否恢复为Normal状态

(3)     如果仍然不能恢复为Normal状态,请更换该风扇模块。如果现场没有风扇模块,不能立即更换,请关闭设备以免温度过高导致电路烧坏(如果有降温措施保证系统工作在60摄氏度以下,也可以继续使用设备)。

(4)     如果更换新的风扇模块仍然不能恢复为Normal状态,请执行步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.4.4  故障诊断命令

命令

说明

dir

用来显示目录或文件信息

display boot-loader

用来显示启动软件包的信息

display environment

显示设备的工作温度信息

display fan

显示设备风扇模块的工作状态

display logbuffer

用来显示系统日志缓冲区记录的日志信息

display power

显示设备电源的信息

 

3 ACL相关特性故障处理

3.1  ACL下发失败故障处理

3.1.1  故障描述

用户下发ACL失败,具体分两种失败情况:

·     执行下发命令后设备提示资源不足。

·     执行下发命令后设备无任何错误提示,但ACL不起作用。

3.1.2  故障处理流程

图5     ACL下发失败故障诊断流程图

 

 

3.1.3  故障处理步骤

1. 查看下发时是否报硬件资源不足

下发ACL配置时如果界面打印出“Reason: Not enough hardware resource”字样,则表明ACL下发失败是由硬件资源不足导致。通过display qos-acl resource命令可以进一步确认ACL硬件资源使用情况。如果显示信息中Remaining条目为0了,则表示ACL硬件资源已用尽,设备无法再下发ACL。如果下发时没有报“Reason: Not enough hardware resource”字样,则根据下发方式进行步骤选择:

·     通过MQCQoS策略)方式下发,请进行步骤2

·     通过包过滤(packet-filter)方式下发,请进行步骤3

2. 检查QoS策略配置是否正确

通过下面命令分别检查不同使用情况下QoS策略的配置情况:

·     显示端口上QoS 策略配置信息,display qos policy interface

·     显示VLANQoS 策略配置信息,display qos vlan-policy

·     显示全局QoS策略配置信息,display qos policy global

·     显示控制平面上QoS策略配置信息,display qos policy control-plane slot slot-number

如果QoS策略中缺少流分类和流行为关联的配置,则补充相应配置。否则可通过以下两个命令分别检查下QoS策略中的类和流行为是否配置正确。

·     显示配置的类信息,display traffic classifier user-defined

·     显示配置的流行为信息,display traffic behavior user-defined

如果没有正确配置,则进行正确配置,否则进行步骤4

3. 检查packet-filter配置是否正确

可以通过display packet-filter命令检查packet-filter配置是否正确,如果不正确,则进行正确配置,否则进行步骤4

4. 检查ACl配置是否正确

可以通过display acl命令检查ACL是否配置正确,如果不正确,则进行正确配置,否则进行步骤5

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

3.1.4  故障诊断命令

命令

说明

display qos-acl resource

显示ACL资源的使用情况

display qos policy interface

显示指定端口或所有端口上QoS策略的配置信息和运行情况

display qos vlan-policy

显示基于VLAN应用QoS策略的信息

display qos policy global

显示基于全局应用QoS策略的信息

display qos policy control-plane

显示控制平面应用QoS策略的信息

display traffic classifier user-defined

显示配置的类信息

display traffic behavior user-defined

显示配置的流行为信息

display packet-filter

显示ACL在报文过滤中的应用情况

3.2  利用流量统计分析转发故障的方法

3.2.1  故障描述

出现丢包或转发故障时可以使用ACL规则进行流量统计,以确认出现丢包或流量转发故障的具体位置。

3.2.2  故障处理流程

图6     故障诊断流程图

 

3.2.3  故障处理步骤

1. 确认流量特征

使用抓包工具抓包,并确认出转发异常的流量特征,如IP地址、MAC地址、所属VLAN等。确认的流量特征应尽可能唯一(如目的IP2.2.2.2),以防止异常流量的特征与系统中其它报文特征重叠。

2. 配置流分类策略并下发到端口

图7     流量路径示意图

 

(1)     根据流量特征(如目的IP2.2.2.2)配置流分类策略

7所示,在Device BDevice C分别创建一个即将到来的时间段t1,并配置流分类策略。在设置时间段起点时,请为后续流分类策略的配置预留时间,以保证在时间段开始前已完成各项配置。此处以Device B为例,具体配置过程如下:

<Sysname> system-view

System View: return to User View with Ctrl+Z.

[Sysname] time-range t1 from 12:00 11/11/2013 to 12:01 11/11/2013

[Sysname] acl number 3000 name geliACL

[Sysname-acl-adv-3000-geliACL] rule 0 permit ip destination 2.2.2.2 0 time-range t1

[Sysname-acl-adv-3000-geliACL] quit

[Sysname] traffic classifier count

[Sysname-classifier-count] if-match acl 3000

[Sysname-classifier-count] quit

[Sysname] traffic behavior count

[Sysname-behavior-count] accounting packet

[Sysname-behavior-count] quit

[Sysname] qos policy count

[Sysname-qospolicy-count] classifier count behavior count

(2)     7所示,将流分类策略下发到流量所经过路径的端口上,此处为Device BGigabitEthernet1/0/1端口入方向上与Device CGigabitEthernet2/0/1端口入方向上。配置过程以Device B为例。

[Sysname-qospolicy-count] quit

[Sysname] interface gigabitethernet 1/0/1

[Sysname-GigabitEthernet1/0/1] qos apply policy count inbound

3. 查看端口流量统计计数

1201之后使用display qos policy interface命令分别查看Device BDevice C上目的IP2.2.2.2的流量统计计数。

[Sysname-GigabitEthernet1/0/1] display qos policy interface gigabitethernet 1/0/1

 

Interface:GigabitEthernet1/0/1

 

  Direction: Inbound

 

  Direction: Inbound

  Policy: count

   Classifier: count

     Operator: AND

     Rule(s) : If-match ACL 3000

     Behavior: count

      Accounting Enable:

        251 (Packets)

 

[Sysname-GigabitEthernet2/0/1] display qos policy interface gigabitethernet 2/0/1

 

Interface:GigabitEthernet2/0/1

 

  Direction: Inbound

 

  Direction: Inbound

  Policy: count

   Classifier: count

     Operator: AND

     Rule(s) : If-match ACL 3000

     Behavior: count

      Accounting Enable:

        50 (Packets)

由流量统计结果可以看出:目的IP2.2.2.2的流量在Device BDevice C之间存在丢包或转发故障。

3.3  故障诊断命令

命令

说明

display acl

显示ACL的配置和运行情况

display diagnostic-information

显示系统当前多个功能模块运行的统计信息

display packet-filter

显示ACL在报文过滤中的应用情况

display qos-acl resource

显示QoSACL资源的使用情况

display qos policy interface

显示接口上QoS策略的配置信息和运行情况

display qos policy user-defined

显示QoS策略的配置信息

display traffic classifier user-defined

显示流分类的配置信息

 

4 IRF相关特性故障处理

4.1  IRF建立不成功故障处理

4.1.1  故障描述

用户规划IRF后,尝试将多台设备配置为一个IRF系统,发现没有成功建立IRF

4.1.2  故障处理流程

图8     IRF故障处理流程图

 

4.1.3  故障处理步骤

1. IRF中的成员数量是否已达到支持的最大值

通过display irf命令可以查看当前IRF中的成员个数,如果当前IRF成员数目已经达到支持的最大值,则其它设备不能再加入该IRFIRF支持的成员数量最多为9台。

2. IRF中各成员的编号是否唯一

执行display irf命令可以查看到IRF中各成员的编号,如果新增设备的编号与IRF中现有成员设备的编号相同,则新增设备无法加入IRF;如果两台IRF中的设备具有相同的成员编号,则将导致IRF合并失败。

3. 物理连接是否正确

根据IRF规划进行线路检查,检查物理线路是否完全按照规划进行连接。通过display irf configuration命令可以查看当前设备上的IRF端口配置,其中一台设备的IRF-Port1端口必须与另外一台设备的IRF-Port2端口相连才能建立IRF,否则IRF建立失败。

需要注意的是,如果选择10Gbps速率的端口作为堆叠口,需要注意端口的分组规则,同一组内的端口必须同时作为IRF物理端口或普通业务端口,这个在配置过程中会有提示。

4. 光模块连接时是否为SFP+模块或QSFP+电缆

检查插入IRF物理端口的模块是否带有10GbpsSFP+QSFP+标记,如果使用堆叠电缆连接,检查堆叠线缆上的标签是否带有10GbpsSFP+QSFP+标记。S5130-HI设备只支持通过10G/20G链路堆叠,所以只有使用10G双绞线、SFP+模块、SFP+电缆/QSFP+电缆才可以用于多台设备之间的堆叠连接。如果使用模块+光纤的连接方式,请查看链路两端的模块型号是否一致,光纤是否连接正确。

5. IRF链路状态是否正常

执行display irf topology命令,查看显示信息中的Link字段,可以判断IRF端口的链路状态:

·     如果Link字段显示UP,表示IRF链路状态正常,请执行步骤6

·     如果Link字段显示DOWN,表示IRF链路状态异常,请执行display irf link命令查看IRF物理端口的状态,注意观察Status字段:

¡     如果与IRF端口绑定的所有IRF物理端口的当前状态均为DOWNADMAdministratively DOWN),请检查物理连接状态或使用undo shutdown命令开启该端口,使之变为UP状态。

¡     如果与IRF端口绑定的IRF物理端口中至少有一个处于UP状态,请在保存当前配置后,在系统视图下执行irf-port-configuration active命令来激活IRF端口的配置。

说明

irf-port-configuration active命令用于激活IRF端口的配置,该操作会使被选举为Slave的设备自动重启以加入IRF。因此,在执行该命令前,请在各成员设备上使用save命令保存当前配置,避免设备重启后因IRF配置丢失造成无法成功建立IRF

 

6. 各设备上运行的软件版本差异是否过大

用户可通过display version命令查看各设备上运行的软件版本,如果两台设备上使用的软件版本差异过大,则不能堆叠在一起,出现这种现象时,建议采用升级低版本的方式解决。

说明

IRF启动文件自动加载功能irf auto-update enable命令)可以自动同步IRF中各成员设备的版本。但是当成员设备使用的软件版本间差异过大时,该功能可能无法实现自动同步,此时请手工升级较低的版本。

 

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

4.2  故障诊断命令

命令

说明

display version

显示系统版本信息

display irf

显示本IRF的相关信息

display irf topology

显示IRF的拓扑信息

display irf configuration

显示本IRF中所有设备的配置信息

irf-port-configuration active

激活设备上所有IRF端口下的配置

 

5 聚合相关特性故障处理

5.1  聚合不成功故障处理

5.1.1  故障描述

用户配置链路聚合功能后,发现聚合组中的成员端口不能被选中,聚合失败。

5.1.2  故障处理流程

图9     聚合不成功故障处理流程图

 

5.1.3  故障处理步骤

1. 物理连线是否正确

根据聚合规划进行线路检查,检查物理链接线路是否完全按照规划进行连接。

2. 聚合组中成员端口是否UP

通过display interface命令查看聚合组中的成员端口是否处于UP状态,如果没有UP,可按照端口不UP故障流程处理,具体请参见端口相关故障处理

3. 本端口的操作key和属性类配置与参考端口是否相同

在本设备上通过执行display current-configuration interface查看聚合接口及本端Unselected端口(通过display link-aggregation verbose命令查看端口是否为Selected状态,只有Selected状态的端口才可以在该聚合组中正常工作)的操作key和属性类配置与参考端口是否相同,如果不同,则将其配置相同。

4. 是否为动态聚合

若不是动态聚合,则直接到步骤6,否则进行步骤5

5. 本端口的对端端口的操作key和属性类配置与参考端口的对端端口是否相同

在与本端Unselected端口相连接设备上执行display current-configuration interface命令查看对端Unselected端口的属操作key和属性类配置与参考端口的对端端口是否相同,如果不同,则将其配置相同。

6. 聚合成员端口数量是否超过上限

可在聚合接口视图下通过link-aggregation selected-port maximum命令配置聚合组中的最大选中端口数。通过display link-aggregation verbose命令查看聚合组中成员端口是否超过上限,如果超过上限,则多出来的端口为Unselected状态。Selected端口按照端口编号从小到大排序,可以在成员端口视图下使用undo port link-aggregation group命令将Selected端口中不适用的端口从聚合组中删除,以使必须使用的端口为Select状态。

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

5.1.4  故障诊断命令

命令

说明

display current-configuration interface

显示接口当前生效的配置

display interface

显示以太网接口的相关信息

display link-aggregation verbose

显示系统上已有聚合接口所对应的聚合组的详细信息

link-aggregation selected-port maximum

配置聚合组中的最大选中端口数

 

6 端口相关故障处理

6.1  光口(千兆SFP口、万兆SFP+QSFP+口)不UP故障处理

6.1.1  故障描述

光口(千兆SFP口、万兆SFP+QSFP+口)不UP故障

6.1.2  故障处理流程

图10     光口不UP故障处理流程图

6.1.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

3. 检查两端端口是否正常

对于千兆SFP光口,在设备的SFP端口上用SFP光模块配合光纤直接互连;对于SFP+口,在本设备上的SFP+端口上用万兆SFP+电缆(适用于短距离连接)直接互连;对于20GEQSFP+在本设备上的20GEQSFP+上用QSFP+电缆(适用于短距离连接)直接互连。查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口来检查故障是否解决。

4. 检查光模块、电缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块电缆)来检查故障是否排除。关于光模块电缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两的光模块波长、距离等参数是否一致。

5. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

6. 寻求技术支持

如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.1.4  故障诊断命令

命令

说明

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface brief

显示端口的概要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

 

6.2  电口(10/100/1000Base-T千兆电口和1/10GBase-T万兆电口)不UP故障处理

6.2.1  故障描述

电口(10/100/1000Base-T千兆电口和1/10GBase-T万兆电口)不UP故障

6.2.2  故障处理流程

图11     电口不UP故障诊断流程图

 

6.2.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

需要注意的是:S5130-HI系列交换机不支持半双工模式。当S5130-HI设备本端(速率双工为auto/auto模式)和对端(例如100M/FULL)协商后需要工作在half duplex,端口也不会link up

2. 检查链路情况,网线是否正常

可通过更换网线来检查故障是否排除。

3. 检查本端端口是否正常

可通过更换本端设备端口来检查故障是否排除。

4. 检查对端端口是否正常

可通过更换对端设备端口来检查故障是否排除。

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

6.2.4  故障诊断命令

命令

说明

display interface brief

显示以太网端口的概要信息

 

6.3  光模块上报非H3C合法光模块故障处理

6.3.1  故障描述

通过display logbuffer命令查看系统日志时,发现存在上报H3C合法光模块的相关信息。显示如下:

<Sysname> display logbuffer

   Ten-GigabitEthernet1/0/25: This transceiver is NOT sold by H3C. H3C  therefore shall NOT guarantee the normal function of the device or  assume the maintenance responsibility thereof!

6.3.2  故障处理流程

图12     故障诊断流程图

 

6.3.3  故障处理步骤

1. 检查接口上插入的光模块厂家是否是H3C

通过命令display transceiver interface,查看Vendor Name是否是H3C。如果显示的是H3C,则可能是没有电子标签的H3C光模块,也可能不是H3C光模块,需要进一步确认。如果显示的是其它信息,则一定不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。

[Sysname] display transceiver interface ten-gigabitethernet 1/0/51

Ten-GigabitEthernet1/0/51 transceiver information:

  Transceiver Type              : 10G_BASE_SR4_SFP

  Connector Type                : MPO

  Wavelength(nm)                : 850

  Transfer Distance(m)          : 100(OM3),150(OM4)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

2. H3C的技术支持工程师确认是否是H3C光模块

通过Probe视图下的命令display hardware internal transceiver register interface收集光模块信息。

然后向H3C技术支持工程师反馈光模块上的条码,确认光模块的渠道来源,明确是否是H3C光模块。如果确认不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。

[Sysname-probe]display hardware internal transceiver register interface Ten-GigabitEthernet 2/0/25 device a0 address 0 le 128

Ten-GigabitEthernet2/0/25 transceiver device a0 register information:

  0000:    03    04    07    00    00    00    02    00

  0008:    00    00    00    03    0d    00    64    00

  0010:    00    00    00    00    48    69    73    65

  0018:    6e    73    65    20    20    20    20    20

  0020:    20    20    20    20    00    00    00    00

  0028:    4c    54    44    31    35    33    31    2d

  0030:    42    43    2b    2d    48    33    43    20

  0038:    57    20    20    20    06    0e    00    d4

  0040:    00    1a    14    14    5a    57    35    30

  0048:    39    43    30    30    30    30    38    20

  0050:    20    20    20    20    30    39    31    32

  0058:    30    31    20    20    68    b0    01    f2

  0060:    48    33    43    00    00    00    00    00

  0068:    00    00    00    00    00    00    00    00

  0070:    00    00    00    00    00    06    0e    05

  0078:    00    00    00    9e    00    89    00    fe

3. 寻求技术支持

如果上述检查完成后确认是H3C光模块,但故障仍无法排除,请联系H3C的技术支持工程师。

6.4  光模块不支持数字诊断故障处理

6.4.1  故障描述

通过display transceiver diagnosis interface命令查看光模块诊断信息时,系统提示光模块不支持数字诊断故障。显示如下:

<Sysname> display transceiver diagnosis interface ten-gigabitethernet 1/0/51

The transceiver does not support this function.

6.4.2  故障处理流程

图13     故障诊断流程图

 

6.4.3  故障处理步骤

1. 检查光模块是否是H3C光模块

(1)     通过display transceiver interface命令,查看Vendor Name是否是H3C

(2)     通过Probe视图下的命令display hardware internal transceiver register interface收集光模块信息确认光模块的渠道来源H3C返回光模块上的条码,收集光模块的信息,明确是否是H3C光模块。

2. 查看光模块是否支持数字诊断功能

通过display transceiver interface命令,查看Digital Diagnostic Monitoring对数字诊断功能的支持情况)是否是Yes,并向H3C人员咨询这款光模块是否支持数字诊断功能。

<Sysname> display transceiver interface ten-gigabitethernet 1/0/51

Ten-GigabitEthernet1/0/51 transceiver information:

  Transceiver Type              : 10G_BASE_SR4_SFP

  Connector Type                : MPO

  Wavelength(nm)                : 850

  Transfer Distance(m)          : 100(OM3),150(OM4)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

3. 寻求技术支持

如果上述检查完成后确认是H3C光模块,并支持数字诊断功能,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.5  端口存在CRC等错误统计故障处理

6.5.1  故障描述

通过display interface查看到端口存在CRC等错误统计故障。

6.5.2  故障处理流程

图1-1 故障诊断流程图

 

6.5.3  故障处理步骤

1. 查看错误报文统计信息从而判断故障问题

通过display interface命令,查看端口出入方向的错包统计具体是哪项在增长,从而判断故障问题。为方便查看,也可以在用户视图下使用reset counter interface清空端口统计报文再观察。

2. 若是光口,请检查光模块的光功率是否正常

通过display transceiver diagnosis interface查看光口所插光模块的数字诊断参数的当前测量值。若该光模块的光功率不正常,请更换同一型号的正常光模块。

[Sysname] display transceiver diagnosis interface ten-gigabitethernet 1/0/51

Ten-GigabitEthernet1/0/51 transceiver diagnostic information:

  Current diagnostic parameters:

    [module]  Temp.(°C)

              1stTX   2ndTX   1stRX   2ndRX

              N/A     N/A     N/A     N/A

              Voltage(V)

              3.3VTX  12VTX   3.3VRX  12VRX

              3.29    N/A     3.40    N/A

    [channel] TX Bias(mA)    RX power(dBm)  TX power(dBm)

    1         6.09           0.91           -0.77

    2         5.95           1.09           -0.16

    3         6.05           1.58           -0.17

    4         5.85           1.58           -0.14

    5         6.07           2.23           -0.30

    6         5.72           2.85           -0.47

    7         6.11           3.01           -0.08

    8         5.50           1.17           -0.02

 

 

  Alarm thresholds:

    [module]  Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM)

    High      0          3.63        10.00     1.58           5.44

    Low       0          2.97        0.50      3.13           -11.61

3. 检查端口配置是否正常

通过display interface brief命令,查看端口配置是否有异常,其中两端的协商状态双工模式,端口速率是否一致。若端口速率不一致或存在半双工模式,请通过speed命令和duplex命令分别配置端口的速率和双工模式。

4. 检查端口及链路介质是否正常

更换到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,更换光模块测试。

5. 检查端口是否收到大量流控帧

通过display interface命令,查看端口pauses帧计数,如果在不断增长,表明端口发出或者收到了大量的流控帧。检查下端口出入流量是否过大及对端设备的流量处理能力。

6. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.6  端口不接收报文故障处理

6.6.1  故障描述

端口状态为UP,但不接收报文。

6.6.2  故障处理流程

图14     故障诊断流程图

 

6.6.3  故障处理步骤

1. 查看端口报文统计结果

检查两端端口状态是否一直UP,并使用display interface 命令查看入方向的报文统计是否增长。为方便查看,也可以使用reset counter interface清空当前端口的报文统计结果再进行观察。同时,查看对端是否有发送报文统计。检查端口错包统计是否持续增长。

2. 检查端口配置是否影响报文的接收

可通过以下步骤检查端口配置是否影响报文的接收:

(1)     通过display interface brief命令,查看端口配置是否有异常。其中包括两端的端口双工模式端口速率端口类型以及VLAN等配置。若有异常,请更改端口属性的配置该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令再次查端口是否能恢复正常。

(2)     如果配置了STP功能,通过display stp brief命令,查看端口是否为 discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。

(3)     如果该端口加入了聚合通过display link-aggregation summary命令查看端口是否为Selected选中状态。当该端口StatusUnselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

3. 检查端口及链路介质是否正常

更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,更换光模块测试。

4. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.7  端口不发送报文故障处理

6.7.1  故障描述

端口状态为UP,但不发送收报文。

6.7.2  故障处理流程

图15     故障诊断流程图

 

6.7.3  故障处理步骤

1. 查看端口报文统计结果

检查两端端口状态是否一直UP,并使用display interface 命令查看出方向的报文统计是否增长。为方便查看,也可以使用reset counter interface命令清空端口当前的报文统计结果再进行观察。检查端口错包统计是否持续增长。

2. 检查端口配置是否影响报文的发送

可通过以下步骤检查端口配置是否影响报文的发送:

(1)     通过display interface brief命令,查看端口配置是否有异常。其中包括两端端口的双工模式、端口速率端口类型以及VLAN等配置。若有异常,请更改端口属性的配置该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令再次查端口是否能恢复正常。

(2)     如果配置了STP功能,使用display stp brief命令查看故障端口是否为discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。

(3)     如果该端口加入了聚合,使用display link-aggregation summary命令查看端口是否为Selected选中状态。当该端口StatusUnselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

3. 检查端口及链路介质是否正常

更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接测试。如果为光口,更换光模块测试。

4. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.7.4  故障诊断命令

命令

说明

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface

显示以太网端口的相关信息

display interface brief

显示接口的概要信息

display link-aggregation summary

显示所有聚合组的摘要信息

display logbuffer

显示系统日志缓冲区的状态和缓冲区记录的日志信息

display stp brief

显示生成树状态和统计的简要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

 

7 系统类故障处理

7.1  CPU占用率高问题处理方法

7.1.1  故障描述

设备运行中CPU占用率高。

7.1.2  故障处理流程

图16     故障诊断流程图

7.1.3  故障处理步骤

1. 查看CPU占用率

连续使用命令display cpu-usage查看CPU的占用率。如果CPU占用率持续在80%以上,说明某个任务长时间占用CPU,需要确认CPU高的具体原因。

2. 确定CPU占用率高的任务

Probe模式下的display process cpu命令观察占用CPU最多的任务。

[Sysname-probe]display process cpu slot 2

CPU utilization in 5 secs: 12.8%; 1 min: 6.2%; 5 mins: 5.9%

    JID      5Sec      1Min      5Min    Name

      1      0.0%      0.0%      0.0%    scmd

      2      0.0%      0.0%      0.0%    [kthreadd]

      3      0.0%      0.0%      0.0%    [migration/0]

      4      0.0%      0.0%      0.0%    [ksoftirqd/0]

      5      0.0%      0.0%      0.0%    [watchdog/0]

      6      0.0%      0.0%      0.0%    [migration/1]

      7      0.0%      0.0%      0.0%    [ksoftirqd/1]

      8      0.0%      0.0%      0.0%    [watchdog/1]

      9      0.0%      0.0%      0.0%    [events/0]

     10      0.0%      0.0%      0.0%    [events/1]

     11      0.0%      0.0%      0.0%    [khelper]

     12      0.0%      0.0%      0.0%    [kblockd/0]

     13      0.0%      0.0%      0.0%    [kblockd/1]

     14      0.0%      0.0%      0.0%    [khubd]

     15      0.0%      0.0%      0.0%    [kseriod]

     16      0.0%      0.0%      0.0%    [kmmcd]

     17      0.0%      0.0%      0.0%    [vzmond]

     18      0.0%      0.0%      0.0%    [pdflush]

     19      0.0%      0.0%      0.0%    [pdflush]

     20      0.0%      0.0%      0.0%    [kswapd0]

     21      0.0%      0.0%      0.0%    [aio/0]

---- More ----

各列分别表示某任务平均5sec1min5min实际占用CPU的百分比和任务名。某任务占用率越高,说明相应的任务占用CPU的资源越多。正常情况任务对CPU的占用率一般5%左右,这个命令可以查看明显高出正常占用率的任务。

3. 确认异常任务的调用栈

Probe模式下follow job job-id 命令确认异常任务的调用栈。例如,显示job 14的调用栈。

[Sysname-probe]follow job 14

Attaching to process 14 ([khubd])

Iteration 1 of 5

------------------------------

Kernel stack:

[<c01d54a8>] hub_thread+0x88c/0xa64

[<c006ce28>] kthread+0xfc/0x12c

[<c00588d0>] do_exit+0x0/0x818

[<ffffffff>] 0xffffffff

 

Iteration 2 of 5

------------------------------

Kernel stack:

[<c01d54a8>] hub_thread+0x88c/0xa64

[<c006ce28>] kthread+0xfc/0x12c

[<c00588d0>] do_exit+0x0/0x818

[<ffffffff>] 0xffffffff

 

Iteration 3 of 5

------------------------------

Kernel stack:

[<c01d54a8>] hub_thread+0x88c/0xa64

[<c006ce28>] kthread+0xfc/0x12c

[<c00588d0>] do_exit+0x0/0x818

[<ffffffff>] 0xffffffff

 

Iteration 4 of 5

------------------------------

Kernel stack:

[<c01d54a8>] hub_thread+0x88c/0xa64

[<c006ce28>] kthread+0xfc/0x12c

[<c00588d0>] do_exit+0x0/0x818

[<ffffffff>] 0xffffffff

 

Iteration 5 of 5

------------------------------

Kernel stack:

[<c01d54a8>] hub_thread+0x88c/0xa64

[<c006ce28>] kthread+0xfc/0x12c

[<c00588d0>] do_exit+0x0/0x818

[<ffffffff>] 0xffffffff

 

[Sysname-probe]

4. 收集信息并寻求技术支持

记录上述三步所获得的信息,并使用display diagnostic-information命令收集设备的诊断信息。。将所有信息反馈给H3C技术人员寻求技术支持。

7.2  内存占用率高问题处理方法

7.2.1  故障描述

使用display memory命令查看设备内存信息。如果内存占用率在持续的一段时间内(一般为30分钟)高于60%,那么可能存在内存异常问题,需要关注。

7.2.2  故障处理流程

图17     故障诊断流程图

 

7.2.3  故障处理步骤

1. 确定各内存块使用情况

使用probe模式下的display system internal kernel memory pool命令查看各块内存使用情况,找出使用率不正常和不断增加的内存模块。

[Sysname-probe]display system internal kernel memory pool slot 2

Active    Number  Size     Align Slab Pg/Slab ASlabs  NSlabs Name

0         15      2048     0     15   8       0       1      mbuf_vdb4

0         0       32       0     102  1       0       0      ND_Vlan_Cache

18        19      524280   0     1    128     18      19     kmalloc-524280

0         0       184      4     21   1       0       0      syncache:1

0         0       52       0     73   1       0       0      mfib_supervlan_iif_cache

0         0       20       0     170  1       0       0      scsi_bidi_sdb

2         19      768      0     19   4       1       1      biovec-64

0         0       56       0     64   1       0       0      FIB_ARPHost_cache

185       204     912      64    17   4       12      12     task_struct

0         0       16       0     170  1       0       0      LFIB_DRV_ReDrvCache

0         0       24       0     128  1       0       0      mfib_l2m_port_cache

0         0       612      0     13   2       0       0      LFIB_IlmEntryCache

0         0       16       0     170  1       0       0      L2VFIB_LPW_ReDrvCache

0         0       288      0     13   1       0       0      LFIB_IlmEntryCache

0         0       24       0     128  1       0       0      LFIB_NHLFE_RefCache

0         0       1232     0     13   4       0       0      MFW_FsCache

0         0       8        0     256  1       0       0      L2VFIB_Ac_Ctr_Cache

350       360     1024     8     15   4       24      24     kmalloc-1024

0         0       656      0     12   2       0       0      MFW_FsCache

0         0       80       0     46   1       0       0      PBR_INSTANCENODE_cachep

0         0       160      4     21   1       0       0      kioctx

0         0       168      0     23   1       0       0      IPCIM_ENTRY_IPV4_cachep

---- More ----

请重点查看Number列和Size列的统计结果。如果发现某块内存在不停增加,那么表示该块内存在被不断使用。需要注意的是:

·     有些内存块使用率的增加是正常的,所以需要判断该块内存是否真正的异常。Number*Size是某个模块使用的内存大小。判断内存使用率是否正常可能需要持续观察内存增长速度和内存使用的多少综合分析判断。

·     有些内存的泄漏过程比较缓慢,所以需要比较长的时间(甚至是几周的时间)来对比观察。

2. 收集信息并寻求技术支持

通过上述步骤只是确定了出现问题的内存模块,但还需继续收集信息以确定具体是哪些代码有问题。由于后续信息收集要求较高,不建议用户操作,请与H3C的技术支持工程师联系。需要注意的是:此时,不得重启设备,否则设备重启后,由于缺少故障出现时的信息而给故障定位带来困难。

7.3  故障诊断命令

命令

说明

display cpu-usage

显示CPU利用率的统计信息

display process cpu

显示各任务占用CPU的情况

display memory

显示内存使用情况

display system internal kernel memory pool

查看各块内存使用情况

follow job job-id

显示异常任务的调用栈


8 其它常见故障处理

8.1  二层流量转发丢包

8.1.1  故障描述

设备二层转发丢包,即源端和目的端在同一二层网络的同一VLAN内,通信过程中有丢包。

8.1.2  故障处理流程

图18     二层流量转发丢包故障诊断流程图

 

8.1.3  故障处理步骤

1. 查看端口下是否有错包

使用display interface命令查看端口下是否有错包。如果有错包,请执行步骤2,如果没有错包,请执行步骤3进行后续步骤的检查。

[Sysname-probe]display interface GigabitEthernet 1/0/17

GigabitEthernet1/0/17

Current state: UP

Line protocol state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 00e0-fc00-5139

Description: GigabitEthernet1/0/17 Interface

Bandwidth: 100000kbps

Loopback is not set

Media type is twisted pair

Port hardware type is 1000_BASE_T

100Mbps-speed mode, full-duplex mode

Link speed type is autonegotiation, link duplex type is autonegotiation

Flow-control is not enabled

The Maximum Frame Length is 10000

Allow jumbo frame to pass

Broadcast MAX-ratio: 100%

Multicast MAX-ratio: 100%

Unicast MAX-ratio: 100%

PVID: 1

Mdi type: automdix

Port link-type: access

 Tagged Vlan:   none

 UnTagged Vlan: 1

Port priority: 0

Last link flapping: 0 hours 0 minutes 6 seconds

Last clearing of counters: Never

 Peak value of input: 3 bytes/sec, at 2013-01-01 01:59:12

 Peak value of output: 0 bytes/sec, at 2013-01-01 00:01:24

 Last 300 seconds input:  0 packets/sec 3 bytes/sec 0%

 Last 300 seconds output:  0 packets/sec 0 bytes/sec 0%

 Input (total):  17 packets, 2344 bytes

          0 unicasts, 4 broadcasts, 13 multicasts, 0 pauses

 Input (normal):  17 packets, - bytes

          0 unicasts, 4 broadcasts, 13 multicasts, 0 pauses

 Input:  0 input errors, 0 runts, 0 giants, 0 throttles

          0 CRC, 0 frame, - overruns, 0 aborts

          - ignored, - parity errors

 Output (total): 0 packets, 0 bytes

          0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

 Output (normal): 0 packets, - bytes

          0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

 Output: 0 output errors, - underruns, - buffer failures

          0 aborts, 0 deferred, 0 collisions, 0 late collisions

          0 lost carrier, - no carrier

2. 端口下有错包

端口下有错包有以下几种可能的故障原因,可使用排除法定位:

·     对端配置问题,查看对端速率、双工模式的配置是否和本端一致。如果对端速率和双工模式的配置与本端不一致,请更新配置保证本端和对端速率和双工模式的配置一致。

·     端口本身硬件故障:通过将连接端口的线缆连接到配置相同且可正常工作的端口查看是否端口本身硬件故障。如果是端口本身硬件故障,请将线缆连接到可正常工作的端口。

·     链路上光模块、光纤或以太网双绞线故障:通过更换完好的光模块、光纤或以太网双绞线定位是否光纤或以太网双绞线故障。如果是光模块、光纤或以太网双绞线故障,请更换完好的光模块、光纤或以太网双绞线。

·     当通过上述方法无法解决错包问题需要联系技术支持时,请先通过如下方法收集信息,然后执行步骤7

Probe视图下,使用debug port mapping命令确认面板端口对应的芯片端口。

[Sysname-probe]debug port mapping slot 1

 

[Interface] [Unit] [Port] [Name] [Combo?] [Active?] [IfIndex]  [MID]  [Link]

===============================================================================

 GE1/0/1         0      2     ge1     no        no      0x40        3     down

 GE1/0/2         0      1     ge0     no        no      0x41        3     down

 GE1/0/3         0      4     ge3     no        no      0x42        3     down

 GE1/0/4         0      3     ge2     no        no      0x43        3     down

 GE1/0/5         0      6     ge5     no        no      0x44        3     down

 GE1/0/6         0      5     ge4     no        no      0x45        3     down

 GE1/0/7         0      8     ge7     no        no      0x46        3     down

 GE1/0/8         0      7     ge6     no        no      0x47        3     down

 GE1/0/9         0      10    ge9     no        no      0x48        3     down

 GE1/0/10        0      9     ge8     no        no      0x49        3     down

 GE1/0/11        0      12    ge11    no        no      0x4a        3     down

 GE1/0/12        0      11    ge10    no        no      0x4b        3     up

 GE1/0/13        0      14    ge13    no        no      0x4c        3     down

 GE1/0/14        0      13    ge12    no        no      0x4d        3     down

 GE1/0/15        0      16    ge15    no        no      0x4e        3     down

 GE1/0/16        0      15    ge14    no        no      0x4f        3     up

 GE1/0/17        0      18    ge17    no        no      0x50        3     down

 GE1/0/18        0      17    ge16    no        no      0x51        3     down

 GE1/0/19        0      20    ge19    no        no      0x52        3     up

 GE1/0/20        0      19    ge18    no        no      0x53        3     down

---- More ----

查到GigabitEthernet1/0/17对应的芯片端口名字为ge17,然后执行下面命令两次或两次以上,查看是否有接收丢包统计(RDBGC)和发送丢包统计(TDBGC)计数。如果有将相关信息反馈技术支持。

[Sysname-probe]bcm slot 1 chip 0 show/c/ge17

RDBGC3.ge17       :                     5                  +5

RDBGC6.ge17       :                     5                  +5

R64.ge17          :                    19                 +19

R127.ge17         :                   163                +163               1/s

R255.ge17         :                    10                 +10

R511.ge17         :                     6                  +6

RPKT.ge17         :                   198                +198               2/s

RMCA.ge17         :                   136                +136               1/s

RBCA.ge17         :                    62                 +62

RPOK.ge17         :                   198                +198               2/s

RBYT.ge17         :                21,392             +21,392             315/s

 

[Sysname-probe]bcm slot 1 chip 0 show/c/ge17

R64.ge17          :                    20                  +1

R127.ge17         :                   168                  +5               2/s

RPKT.ge17         :                   204                  +6               2/s

RMCA.ge17         :                   141                  +5               2/s

RBCA.ge17         :                    63                  +1

RPOK.ge17         :                   204                  +6               2/s

RBYT.ge17         :                21,974                +582             261/s

3. 报文因匹配ACL被过滤

(1)     检查端口、VLAN以及全局下是否配置了ACLQoS策略,如果配置了ACLQoS策略,请检查端口进入的报文是否匹配了ACLQoS策略的流分类而被丢弃,包括端口下的packet-filter(使用display packet-filter查看)qos policy(使用display qos policy查看)vlan policy(使用display qos vlan-policy查看)以及global policy(使用display qos policy global查看)如果报文因匹配了ACLQoS策略的流分类而被丢弃,请参考ACLQoS的配置方法通过更新配置使报文不被丢弃。

(2)     检查是否因匹配一些特性自动创建的的ACL而被过滤在以太网接口视图下使用display this命令查看端口下是否配置了下面特性或使用特性相关的具体命令查看

·     端口是否配置ip source bindingip verify source,使用display ip source binding/ display ipv6 source binding可以查看绑定表项信息。如果端口配置了ip source guard且通过上述 display命令发现没有匹配报文的表项,请根据您使用的绑定表项的生成方法进一步排查。

·     查看端口是否配置了Portal认证,如果配置了Portal认证,则没有通过Portal认证的用户,报文会被该端口丢弃。使用display portal interface可以显示指定VLAN接口的Portal配置信息。请用户根据实际情况确定是否可以取消Portal认证,在端口所属VLAN的对应VLAN虚接口下使用undo portal server server-name可以取消三层Portal认证。

·     使用display dot1x命令查看端口是否使能了EAD快速部署。如果使能了802.1XEAD快速部署功能,那未认证成功的用户访问除Free IP以外的网段时就会丢包。请定位用户是否是未认证成功用户,且未认证成功用户访问的是否是Free IP以外的网段来进一步确认丢包原因。

·     端口所在VLAN是否配置了MFF,使用display mac-forced-forwarding vlan命令显示指定VLANMFF信息,如果显示信息中没有Gateway信息,请根据MFF运行的模式查看ARP Snooping是否正确配置

4. 端口被协议设置为block状态

·     使用display stp brief命令查看端口是否被stp设置为discarding状态。如果端口被stp设置为discarding状态,请根据stp的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的stp功能。

·     如果端口属于某个聚合组,使用display link-aggregation verbose命令查看聚合口的详细信息,当该端口StatusUnselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

·     查看端口是否Smartlink阻塞:使用display smart-link group命令查看端口状态,当StateSTANDBYDOWN时端口不能转发数据如果StateDOWN,请定为端口成为DOWN状态的原因,如上行链路上的设备配置了Monitor Link功能造成该端口DOWN,或该端口所在链路连接发生故障或端口被shutdown,进一步排查解决;如果StateSTANDBY,请将该设备Smart Link组的主、从端口互换。

5. 配置相关丢包

·     在以太网接口视图下使用display this命令查看端口是否在报文所属VLAN。如果端口不在报文所属VLAN中,请将端口加入该VLAN

·     使用display mac-address blackhole命令查看是否因为匹配了黑洞MAC地址表项被丢包。请根据实际情况确定是否可以取消该黑洞MAC。如果需要删除该黑洞MAC,请使用undo mac-address blackhole mac-address vlan vlan-id命令删除。

·     使用display qos lr interface查看是否有端口限速的配置。如果端口有限速的配置,请查看令牌生成速度和突发流量配置值是否合理,可以通过使用qos lr { inbound | outbound } cir committed-information-rate [ cbs committed-burst-size ]命令调整令牌生成速度和突发流量配置值定位解决。

·     在以太网接口视图下使用display this命令查看端口是否有风暴抑制相关配置,包括广播风暴抑制比broadcast-suppression),组播风暴抑制比multicast-suppression),未知单播风暴抑制比unicast-suppression)。如果端口下配置了风暴抑制比,可以通过将风暴抑制比的数值调大定位解决。

6. 拥塞丢包

通过display qos queue-statistics interface命令查看端口是否有拥塞丢包。请参考拥塞管理的相关内容定位解决拥塞问题。

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

8.1.4  故障诊断命令

命令

说明

display interface

显示以太网端口的相关信息

display packet-filter

显示ACL在报文过滤中的应用情况

display qos policy

显示用户定义策略的配置信息

display qos policy interface

显示指定端口或所有端口上QoS策略的配置信息和运行情况

display qos vlan-policy

显示基于VLAN应用QoS策略的信息

display qos policy global

显示基于全局应用QoS策略的信息

display this

在以太网接口视图下使用此命令查看接口的当前配置

display ip source binding/ display ipv6 source binding

查看IP Source Guard绑定表项信息

display portal interface

显示指定接口的Portal配置信息

display dot1x

显示802.1X的会话连接信息、相关统计信息或配置信息

display mac-forced-forwarding vlan

显示指定VLANMFF信息

display link-aggregation verbose

查看聚合口的详细信息

display smart-link group

查看Smart Link组的信息

display mac-address blackhole

查看黑洞MAC地址表项信息

display qos lr interface

显示端口限速配置情况

display qos queue-statistics interface

显示端口队列统计信息

 

8.2  三层转发丢包故障

8.2.1  故障描述

设备三层转发丢包,即发送端IP地址和目的端IP地址不在同一网段内,通信过程中有丢包。

8.2.2  故障处理流程

图19     三层转发丢包故障诊断流程图

8.2.3  故障处理步骤

1. 检查端口是否有故障

根据8.1  二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):

·     如果是端口故障,请按照8.1  二层流量转发丢包节的故障处理思路进行处理。

·     如果不是端口故障,则执行步骤2

2. 查看ARP表项是否正确

使用display arp命令查看设备上是否学习到网关设备的ARP表项、学习到的ARP表项是否正确:

·     如果设备上未学习到ARP表项或学习到的表项错误,通过打开debugging arp packet查看设备ARP表项学习情况,来定位ARP问题的原因。对于未学习到ARP表项,可以使用arp static命令手工添加静态ARP表项

·     使用display mac-address命令查看对应的MAC地址表项的出接口和ARP表项中的出接口是否一致,如果不一致,使用reset命令清除ARP表项,让设备重新学习表项。

·     如果设备上ARP表项学习正确,请执行步骤3

3. 查看路由表项是否正确

使用display ip routing-table命令查看设备上学习的路由信息是否正确:

·     如果设备上学习到的路由信息不正确,请根据您使用的具体的路由协议进行进一步排查。

·     使用display fib命令查看对应的FIB表项的出接口和路由表项中的出接口是否一致,如果不一致,使用reset命令清除路由表项,让设备重新学习表项。

·     如果设备上的路由信息正确,请执行步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

8.2.1  故障诊断命令

命令

说明

debugging arp packet

打开ARP的报文调试信息开关

display arp

显示ARP表项

display ip routing-table

显示路由表中当前激活路由的摘要信息

display mac-address

显示MAC地址表信息

display fib

显示FIB表项的信息

 

8.3  协议震荡故障处理

8.3.1  故障描述

协议震荡一般都是协议报文交互时不通导致的。

8.3.2  故障处理流程

图20     协议震荡故障诊断流程图

8.3.3  故障处理步骤

1. 查看二层转发是否丢包

根据8.1  二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):

·     如果是端口故障,请按照8.1  二层流量转发丢包节的故障处理思路进行处理。

如果不是端口故障,则执行步骤2

2. 查看三层转发是否丢包

根据8.2  层转发丢包故障一节的故障定位处理方法,定位是否为三层故障(包括ARP表项错误和路由表项错误):

·     如果是三层故障,请按照8.2  层转发丢包故障一节的故障处理思路进行处理。

如果不是三层故障,则执行步骤3

3.  查看软件收包是否丢包

# 进入probe视图。

[Sysname-probe]debug rxtx softcar show slot 2

 

ID  Type                RcvPps Rcv_All    DisPkt_All Pps  Dyn Swi Hash ACLmax

0   ROOT                0      0          0          300  S   On  SMAC 0

1   ISIS                0      0          0          200  D   On  SMAC 8

2   ESIS                0      0          0          100  S   On  SMAC 8

3   CLNP                0      0          0          100  S   On  SMAC 8

4   VRRP                0      0          0          1024 S   On  SMAC 8

5   UNKNOWN_IPV4MC      0      0          0          100  S   On  SMAC 8

6   UNKNOWN_IPV6MC      0      0          0          100  S   On  SMAC 8

7   IPV4_MC_RIP         0      0          0          150  D   On  SMAC 8

8   IPV4_BC_RIP         0      0          0          150  D   On  SMAC 8

9   MCAST_NTP           0      0          0          100  S   On  SMAC 8

10  BCAST_NTP           0      0          0          100  S   On  SMAC 8

11  IPV4_MC_OSPF_5      0      0          0          100  S   On  SMAC 8

12  IPV4_MC_OSPF_6      0      0          0          100  S   On  SMAC 8

13  IPV4_UC_OSPF        0      0          0          200  S   On  SMAC 8

14  IPV4_MC_PIM         0      0          0          100  S   On  SMAC 8

15  IPV4_UC_PIM         0      0          0          100  S   On  SMAC 8

16  IPV4_IGMP           0      0          0          100  S   On  SMAC 8

17  LDP                 0      0          0          100  S   On  SMAC 8

如果发现有丢包发生,请收集信息,然后执行步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

8.4  风扇异常

8.4.1  故障描述

设备风扇工作不正常。

8.4.2  故障处理流程

图21     风扇异常故障处理流程图

 

8.4.3  故障处理步骤

1. 查看风扇风向

通过display fan命令查看风扇本身的风向和通过命令行配置的风向是否一致,如果不一致可以通过fan prefer-direction slot slot-number { power-to-port | port-to-power }命令设置风向。

[Sysname]display fan

 Slot 1

      FAN    1

      State    : FanDirectionFault

      Wind Direction    :Port-to-Power

      Prefer Wind Direction    :Power-to-Port

      FAN    2

      State    : FanDirectionFault

      Wind Direction    :Port-to-Power

      Prefer Wind Direction    :Power-to-Port

 

[Sysname] fan prefer-direction slot 1 port-to-power

[Sysname]display fan

 Slot 1

      FAN    1

      State    : Normal

      Wind Direction    :Port-to-Power

      Prefer Wind Direction    :Port-to-Power

      FAN    2

      State    : Normal

      Wind Direction    :Port-to-Power

      Prefer Wind Direction    :Port-to-Power

2. 确认风扇是否损坏。

如果风向问题已经排除,但风扇状态仍显示为fault,请更换风扇。

3. 寻求技术支持

如果故障仍无法排除,请联系H3C的技术支持工程师。

8.4.4  故障诊断命令

命令

说明

display fan

显示风扇的工作状态

fan prefer-direction slot slot-number { power-to-port | port-to-power }

配置用户期望的风扇模块的风道方向