• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

H3C S5800-EI系列以太网交换机 故障处理手册-6W100

整本手册

本章节下载  (770.82 KB)

docurl=/cn/Service/Document_Software/Document_Center/Switches/Catalog/S5800/S5800-EI/Maintenance/Troubleshooting/H3C_S5800-EI_TG-6W100/201708/1020404_30005_0.htm

整本手册

H3C S5800-EI故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2017 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,

并不得以任何形式传播。本文档中的信息可能变动,恕不另行通知。

H3C_彩色.emf

 


  录

1 简介

1.1 故障处理注意事项

1.2 收集设备运行信息

1.2.1 logfile日志

1.2.2 diagfile日志

1.2.3 诊断信息

1.3 故障处理求助方式

2 硬件类故障处理

2.1 运行过程中设备异常重启故障处理

2.1.1 故障描述

2.1.2 故障处理流程

2.1.3 故障处理步骤

2.2 电源运行中上报Fault问题处理方法

2.2.1 故障描述

2.2.2 故障处理步骤

2.3 新插入电源模块状态异常处理方法

2.3.1 故障描述

2.3.2 故障处理步骤

2.4 风扇模块运行中上报Fault或新安装风扇模块后状态异常问题处理方法

2.4.1 故障描述

2.4.2 故障处理步骤

2.4.3 故障诊断命令

3 ACL相关特性故障处理

3.1 ACL下发失败故障处理

3.1.1 故障描述

3.1.2 故障处理流程

3.1.3 故障处理步骤

3.1.4 故障诊断命令

3.2 利用流量统计分析转发故障的方法

3.2.1 故障描述

3.2.2 故障处理流程

3.2.3 故障处理步骤

3.3 故障诊断命令

4 IRF相关特性故障处理

4.1 IRF建立不成功故障处理

4.1.1 故障描述

4.1.2 故障处理流程

4.1.3 故障处理步骤

4.2 故障诊断命令

5 聚合相关特性故障处理

5.1 聚合不成功故障处理

5.1.1 故障描述

5.1.2 故障处理流程

5.1.3 故障处理步骤

5.1.4 故障诊断命令

6 端口相关故障处理

6.1 光口(千兆SFP口、万兆SFP+口、40GE的QSFP+口)不UP故障处理

6.1.1 故障描述

6.1.2 故障处理流程

6.1.3 故障处理步骤

6.1.4 故障诊断命令

6.2 电口(10/100/1000Base-T千兆电口和1/10GBase-T万兆电口)不UP故障处理

6.2.1 故障描述

6.2.2 故障处理流程

6.2.3 故障处理步骤

6.2.4 故障诊断命令

6.3 光模块上报非H3C合法光模块故障处理

6.3.1 故障描述

6.3.2 故障处理流程

6.3.3 故障处理步骤

6.4 光模块不支持数字诊断故障处理

6.4.1 故障描述

6.4.2 故障处理流程

6.4.3 故障处理步骤

6.5 端口存在CRC等错误统计故障处理

6.5.1 故障描述

6.5.2 故障处理流程

6.5.3 故障处理步骤

6.6 端口不接收报文故障处理

6.6.1 故障描述

6.6.2 故障处理流程

6.6.3 故障处理步骤

6.7 端口不发送报文故障处理

6.7.1 故障描述

6.7.2 故障处理流程

6.7.3 故障处理步骤

6.7.4 故障诊断命令

7 系统类故障处理

7.1 CPU占用率高问题处理方法

7.1.1 故障描述

7.1.2 故障处理流程

7.1.3 故障处理步骤

7.2 内存占用率高问题处理方法

7.2.1 故障描述

7.2.2 故障处理流程

7.2.3 故障处理步骤

7.3 故障诊断命令

8 其它常见故障处理

8.1 二层流量转发丢包

8.1.1 故障描述

8.1.2 故障处理流程

8.1.3 故障处理步骤

8.1.4 故障诊断命令

8.2 三层转发丢包故障

8.2.1 故障描述

8.2.2 故障处理流程

8.2.3 故障处理步骤

8.2.4 故障诊断命令

8.3 协议震荡故障处理

8.3.1 故障描述

8.3.2 故障处理流程

8.3.3 故障处理步骤

 


1 简介

本文档介绍S5800-EI系列以太网交换机软、硬件常见故障的诊断及处理措施。

本文档不严格和具体的软硬件版本对应。

1.1  故障处理注意事项

注意

设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。

 

在进行故障诊断和处理时,请注意以下事项:

·     设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

¡     记录具体的故障现象、故障时间、配置信息。

¡     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡     收集设备的日志信息和诊断信息(收集方法见1.2  收集设备运行信息)。

¡     记录设备故障时指示灯的状态,或给现场设备拍照记录。

¡     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡     记录故障处理过程中配置的所有命令行显示信息。

·     更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

·     故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。

1.2  收集设备运行信息

说明

为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。

 

设备运行过程中会产生logfile、diagfile日志信息及记录设备运行状态的诊断信息。这些信息存储在主设备的Flash,可以通过FTP、TFTP、USB等方式导出。

如果设备运行过程中发生过主从倒换,则日志文件将保存在设备多个成员设备中,不同成员设备中导出的logfile、diagfile、诊断信息文件请按照一定规则存放(如不同的文件夹:slotY),避免不同成员设备的运行信息相互混淆,以方便查询。

表1-1 设备运行信息介绍

分类

文件名

内容

logfile日志

logfile.log

命令行记录、设备运行中产生的记录信息

diagfile日志

diagfile.log

设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、设备无法启动时的信息、成员设备之间通信异常时的握手信息

诊断信息

XXX.gz

系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

 

1.2.1  logfile日志

(1)     执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在Flash的logfile目录中。

<Sysname> logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log

(2)     查看各成员设备中日志文件名称。

·     主设备logfile日志:

<Sysname> dir flash:/logfile/

Directory of flash:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

524288 KB total (107944 KB free)

 

·     从设备logfile日志:

<Sysname> dir slot2#flash:/logfile/

Directory of slot2#flash:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

524288 KB total (107944 KB free)

 

(3)     使用FTP、TFTP或者USB接口将日志文件传输到指定位置。

1.2.2  diagfile日志

(1)     执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在Flash的diagfile目录中。

<Sysname> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file flash:/diagfile/diagfile.log

(2)     查看各成员设备中诊断日志文件的名称。

·     主设备diagfile日志:

<Sysname> dir flash:/diagfile/

Directory of flash:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

524288 KB total (107944 KB free)

 

·     从设备diagfile日志:

<Sysname> dir slot2#flash:/diagfile/

Directory of slot2#flash:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

524288 KB total (107944 KB free)

 

(3)     使用FTP、TFTP或者USB接口将日志文件传输到指定位置。

1.2.3  诊断信息

诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。

需要注意的是,成员设备越多,诊断信息收集的时间越长,信息收集期间不能输入命令,请耐心等待。

说明

通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口或管理口的情况下,建议通过业务网口或管理口登录和传输文件。

 

(1)     执行screen-length disable命令,以避免屏幕输出被打断(如果是将诊断信息保存到文件中,则忽略此步骤)。

<Sysname> screen-length disable

(2)     执行display diagnostic-information命令收集诊断信息。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N] :

(3)     选择将诊断信息保存至文件中,还是将直接在屏幕上显示

·     输入“Y”,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。

Save or display diagnostic information (Y=save, N=display)? [Y/N] : Y

Please input the file name(*.tar.gz)[flash:/diag.tar.gz] :flash:/diag.tar.gz

Diagnostic information is outputting to flash:/diag.tar.gz.

Please wait...

Save successfully.

<Sysname> dir flash:/

Directory of flash:

……

   6 -rw-      898180 Jun 26 2013 09:23:51   diag.tar.gz

 

524288 KB total (107944 KB free)

·     输入“N”,将诊断信息直接显示在屏幕上。(诊断信息的显示随设备型号和版本不同有所差异,请以实际情况为准)

Save or display diagnostic information (Y=save, N=display)? [Y/N] :N

===============================================

  ===============display clock=============== 

05:26:01 UTC Tue 01/01/2015

=================================================

  ===============display version=============== 

H3C Comware Software, Version 7.1.045, Release 7122

Copyright (c) 2004-2017 New H3C Technologies Co., Ltd. All rights reserved.

H3C S5800-56C-EI-M uptime is 0 weeks, 0 days, 0 hours, 2 minutes

Last reboot reason : User reboot

Boot image: flash:/s5800ei-cmw710-boot-r7122.bin

Boot image version: 7.1.045, Release 7122

  Compiled Mar 15 2017 16:00:00

System image: flash:/s5800ei-cmw710-system-r7122.bin

System image version: 7.1.045, Release 7122

  Compiled Mar 15 2017 16:00:00

……

1.3  故障处理求助方式

当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。

用户支持邮箱:service@h3c.com

技术支持热线电话:400-810-0504(手机、固话均可拨打)

2 硬件类故障处理

说明

本章节主要讲述电源、风扇、接口模块扩展卡等部件故障的处理方法。其它部件如光模块、端口故障等问题请参见端口相关故障处理

 

2.1  运行过程中设备异常重启故障处理

2.1.1  故障描述

设备在使用中发生异常重启。

2.1.2  故障处理流程

图2-1 故障诊断流程图

 

2.1.3  故障处理步骤

1. 收集设备日志信息

设备重启后查看是否能够进入命令行模式,使用display diagnostic-information命令收集设备的日志信息,待收集完成后,将设备信息导出后发给H3C技术支持寻求帮助。

2. 检查设备上的启动文件是否正常

通过Console口登录故障设备,重新启动设备,如果BOOTROM提示CRC错误或者找不到启动文件,请重新加载启动文件。加载后请设置该文件为当前启动文件(在BOOTROM加载过程中,BOOTROM能自动将该文件设置为当前启动文件)。

3. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.2  电源运行中上报Fault问题处理方法

2.2.1  故障描述

电源运行中上报Fault。

2.2.2  故障处理步骤

1. 检查是否存在Fault或Absent状态的电源模块

使用display power命令显示电源模块状态,查看是否存在Fault或Absent状态的电源模块。

<Sysname> display power

 Slot 2:

 PowerID State          Mode   Current(A)  Voltage(V)  Power(W)

 1       Normal         AC        --          --          --

 2       Absent         --        --          --          --

如果存在Absent状态的电源模块,请执行步骤2。

如果存在Fault状态的电源模块,请执行步骤3。

2. 检查Absent状态电源模块

如果电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装牢固。

如果电源模块槽位有电源模块在位且显示为Absent,请将电源模块拆卸后重新安装,然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请更换新电源模块。

如果更换新电源模块后仍然显示为Absent状态,请执行步骤4。

3. 检查Fault状态电源模块

如果电源模块状态为Fault,表示该电源模块异常,无法供电。

当电源模块没有上电时,该电源模块的运行状态会显示为Fault,此时请为该电源模块上电。

电源处于Fault状态有可能是电源模块本身温度过高导致。如果电源模块上积灰较多可能引起电源模块温度升高。请查看电源模块积灰情况,如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果没有恢复为Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。如果该电源模块仍然显示为Fault状态,请更换电源模块。

如果更换新电源模块后仍然显示为Fault状态,请执行步骤4。

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.3  新插入电源模块状态异常处理方法

2.3.1  故障描述

新插入电源模块状态异常。

2.3.2  故障处理步骤

1. 查看电源模块状态

使用display power命令查看电源模块状态。

<Sysname> display power

 Slot 2:

 PowerID State          Mode   Current(A)  Voltage(V)  Power(W)

 1       Normal         AC        --          --          --

 2       Absent         --        --          --          --

如果该电源模块显示为Absent状态,请执行步骤2。

如果该电源模块显示为Fault状态,请执行步骤3。

2. 检查Absent状态电源模块

如果该电源模块显示为Absent状态,表示电源模块没有安装牢固。请将该电源模块拆卸后重新安装,然后查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Absent状态,请执行步骤4。

3. 检查Fault状态电源模块

如果该电源模块显示为Fault状态,表示该模块异常,无法供电。请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Fault状态,请执行步骤4。

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.4  风扇模块运行中上报Fault或新安装风扇模块后状态异常问题处理方法

2.4.1  故障描述

风扇模块运行中上报Fault或执行display fan命令,风扇的状态不是Normal。

2.4.2  故障处理步骤

1. 查看风扇模块状态

使用display fan命令查看风扇模块状态。

<Sysname> display fan

 Slot 2:

 Fan 1:

 State    : Normal

 Airflow Direction: Port-to-power

 Prefer Airflow Direction: Port-to-power

 Fan 2:

 State    : Normal

 Airflow Direction: Port-to-power

 Prefer Airflow Direction: Port-to-power

·     如果风扇模块工作状态显示为FanDirectionFault,表示风扇的实际风道方向与配置的期望风道风向不一致,请根据机房的风向重新安装正确风向的风扇或使用fan prefer-direction命令配置正确的期望风道风向。

·     如果风扇模块工作状态显示为Absent,请执行步骤2。

·     如果风扇模块工作状态显示为Fault,请执行步骤3。

2. 检查风扇模块是否安装牢固

如果风扇模块工作状态显示为Absent状态,表示风扇模块不在位或者没有安装牢固。如果风扇模块在位,请将该风扇模块拆卸后重新安装,然后查看风扇模块状态是否显示为Normal状态。如果仍然显示为Absent状态,请更换风扇模块。如果更换新风扇模块后仍然显示为Absent状态,请执行步骤4。

3. 检查设备的工作温度信息

如果风扇模块工作状态显示为Fault状态,表示该风扇模块异常,无法提供通风散热功能。请使用下述步骤进一步定位。

(1)     使用display environment命令查看系统温度是否持续升高。如果系统温度持续升高,建议用手在设备出风口触摸进一步判断出风口是否有出风。

(2)     如果温度持续升高,且出风口无风,可以肯定风扇模块异常。请将风扇模块拆卸后重新安装,然后使用display fan命令查看是否恢复为Normal状态。

(3)     如果仍然不能恢复为Normal状态,请更换该风扇模块。如果现场没有风扇模块,不能立即更换,请关闭设备以免温度过高导致电路烧坏(如果有降温措施保证系统工作在60摄氏度以下,也可以继续使用设备)。

(4)     如果更换新的风扇模块仍然不能恢复为Normal状态,请执行步骤4。

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.4.3  故障诊断命令

命令

说明

dir

用来显示目录或文件信息

display boot-loader

用来显示启动软件包的信息

display environment

显示设备的工作温度信息

display fan

显示设备风扇模块的工作状态

display logbuffer

用来显示系统日志缓冲区记录的日志信息

display power

显示设备电源的信息

fan prefer-direction slot slot-number { power-to-port | port-to-power }

配置用户期望的风扇模块的风道方向

 

 

3 ACL相关特性故障处理

3.1  ACL下发失败故障处理

3.1.1  故障描述

用户下发ACL失败,具体分两种失败情况:

·     执行下发命令后设备提示资源不足。

·     执行下发命令后设备无任何错误提示,但ACL不起作用。

3.1.2  故障处理流程

图3-1 ACL下发失败故障诊断流程图

 

3.1.3  故障处理步骤

1. 查看下发时是否报硬件资源不足

下发ACL配置时如果界面打印出“Reason: Not enough hardware resource”字样,则表明ACL下发失败是由硬件资源不足导致。通过display qos-acl resource命令可以进一步确认ACL硬件资源使用情况。如果显示信息中Remaining条目为0了,则表示ACL硬件资源已用尽,设备无法再下发ACL。如果下发时没有报“Reason: Not enough hardware resource”字样,则根据下发方式进行步骤选择:

·     通过MQC(QoS策略)方式下发,请进行步骤2:

·     通过包过滤(packet-filter)方式下发,请进行步骤3。

2. 检查QoS策略配置是否正确

通过下面命令分别检查不同使用情况下QoS策略的配置情况:

·     显示端口上QoS 策略配置信息,display qos policy interface

·     显示VLAN上QoS 策略配置信息,display qos vlan-policy

·     显示全局QoS策略配置信息,display qos policy global

·     显示控制平面上QoS策略配置信息,display qos policy control-plane slot slot-number

如果QoS策略中缺少流分类和流行为关联的配置,则补充相应配置。否则可通过以下两个命令分别检查下QoS策略中的类和流行为是否配置正确。

·     显示配置的类信息,display traffic classifier user-defined

·     显示配置的流行为信息,display traffic behavior user-defined

如果没有正确配置,则进行正确配置,否则进行步骤4。

3. 检查packet-filter配置是否正确

可以通过display packet-filter命令检查packet-filter配置是否正确,如果不正确,则进行正确配置,否则进行步骤4

4. 检查ACl配置是否正确

可以通过display acl命令检查ACL是否配置正确,如果不正确,则进行正确配置,否则进行步骤5。

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

3.1.4  故障诊断命令

命令

说明

display qos-acl resource

显示ACL资源的使用情况

display qos policy interface

显示指定端口或所有端口上QoS策略的配置信息和运行情况

display qos vlan-policy

显示基于VLAN应用QoS策略的信息

display qos policy global

显示基于全局应用QoS策略的信息

display qos policy control-plane

显示控制平面应用QoS策略的信息

display traffic classifier user-defined

显示配置的类信息

display traffic behavior user-defined

显示配置的流行为信息

display packet-filter

显示ACL在报文过滤中的应用情况

 

3.2  利用流量统计分析转发故障的方法

3.2.1  故障描述

出现丢包或转发故障时可以使用ACL规则进行流量统计,以确认出现丢包或流量转发故障的具体位置。

3.2.2  故障处理流程

图3-2 故障诊断流程图

 

3.2.3  故障处理步骤

1. 确认流量特征

使用抓包工具抓包,并确认出转发异常的流量特征,如IP地址、MAC地址、所属VLAN等。确认的流量特征应尽可能唯一(如目的IP为2.2.2.2),以防止异常流量的特征与系统中其它报文特征重叠。

2. 配置流分类策略并下发到端口

图3-3 流量路径示意图

 

(1)     根据流量特征(如目的IP为2.2.2.2)配置流分类策略

图3-3所示,在Device B与Device C分别创建一个即将到来的时间段t1,并配置流分类策略。在设置时间段起点时,请为后续流分类策略的配置预留时间,以保证在时间段开始前已完成各项配置。此处以Device B为例,具体配置过程如下:

<Sysname> system-view

System View: return to User View with Ctrl+Z.

[Sysname] time-range t1 from 12:00 11/11/2013 to 12:01 11/11/2013

[Sysname] acl number 3000 name geliACL

[Sysname-acl-adv-3000-geliACL] rule 0 permit ip destination 2.2.2.2 0 time-range t1

[Sysname-acl-adv-3000-geliACL] quit

[Sysname] traffic classifier count

[Sysname-classifier-count] if-match acl 3000

[Sysname-classifier-count] quit

[Sysname] traffic behavior count

[Sysname-behavior-count] accounting packet

[Sysname-behavior-count] quit

[Sysname] qos policy count

[Sysname-qospolicy-count] classifier count behavior count

(2)     如图3-3所示,将流分类策略下发到流量所经过路径的端口上,此处为Device B的GigabitEthernet1/0/1端口入方向上与Device C的GigabitEthernet2/0/1端口入方向上。配置过程以Device B为例。

[Sysname-qospolicy-count] quit

[Sysname] interface gigabitethernet 1/0/1

[Sysname-GigabitEthernet1/0/1] qos apply policy count inbound

3. 查看端口流量统计计数

在12:01之后使用display qos policy interface命令分别查看Device B和Device C上目的IP为2.2.2.2的流量统计计数。

[Sysname-GigabitEthernet1/0/1] display qos policy interface gigabitethernet 1/0/1

 

Interface:GigabitEthernet1/0/1

 

  Direction: Inbound

 

  Direction: Inbound

  Policy: count

   Classifier: count

     Operator: AND

     Rule(s) : If-match ACL 3000

     Behavior: count

      Accounting Enable:

        251 (Packets)

 

[Sysname-GigabitEthernet2/0/1] display qos policy interface gigabitethernet 2/0/1

 

Interface:GigabitEthernet2/0/1

 

  Direction: Inbound

 

  Direction: Inbound

  Policy: count

   Classifier: count

     Operator: AND

     Rule(s) : If-match ACL 3000

     Behavior: count

      Accounting Enable:

        50 (Packets)

由流量统计结果可以看出:目的IP为2.2.2.2的流量在Device B与Device C之间存在丢包或转发故障。

3.3  故障诊断命令

命令

说明

display acl

显示ACL的配置和运行情况

display diagnostic-information

显示系统当前多个功能模块运行的统计信息

display packet-filter

显示ACL在报文过滤中的应用情况

display qos-acl resource

显示QoS和ACL资源的使用情况

display qos policy interface

显示接口上QoS策略的配置信息和运行情况

display qos policy user-defined

显示QoS策略的配置信息

display traffic classifier user-defined

显示流分类的配置信息

 

4 IRF相关特性故障处理

4.1  IRF建立不成功故障处理

4.1.1  故障描述

用户规划IRF后,尝试将多台设备配置为一个IRF系统,发现没有成功建立IRF。

4.1.2  故障处理流程

图4-1 IRF故障处理流程图

 

4.1.3  故障处理步骤

1. IRF中的成员数量是否已达到支持的最大值

通过display irf命令可以查看当前IRF中的成员个数,如果当前IRF成员数目已经达到支持的最大值,则其它设备不能再加入该IRF。IRF支持的成员数量最多为9台。

2. IRF中各成员的编号是否唯一

执行display irf命令可以查看到IRF中各成员的编号,如果新增设备的编号与IRF中现有成员设备的编号相同,则新增设备无法加入IRF;如果两台IRF中的设备具有相同的成员编号,则将导致IRF合并失败。

3. 物理连接是否正确

根据IRF规划进行线路检查,检查物理线路是否完全按照规划进行连接。通过display irf configuration命令可以查看当前设备上的IRF端口配置,其中一台设备的IRF-Port1端口必须与另外一台设备的IRF-Port2端口相连才能建立IRF,否则IRF建立失败。

需要注意的是,如果选择10Gbps速率的端口作为堆叠口,需要注意端口的分组规则,同一组内的端口必须同时作为IRF物理端口或普通业务端口,这个在配置过程中会有提示。

4. 光模块连接时是否为SFP+模块或QSFP+模块

检查插入IRF物理端口的模块是否带有10Gbps、SFP+或40Gbps、QSFP+标记,如果使用堆叠电缆连接,检查堆叠线缆上的标签是否带有10Gbps、SFP+或40Gbps、QSFP+标记。S5800-EI设备只支持通过10G/40G链路堆叠,所以只有使用10G双绞线、SFP+模块/QSFP+模块、SFP+电缆/QSFP+电缆、或QSFP+ to SFP+电缆才可以用于多台设备之间的堆叠连接。如果使用模块+光纤的连接方式,请查看链路两端的模块型号是否一致,光纤是否连接正确。

5. IRF链路状态是否正常

执行display irf topology命令,查看显示信息中的Link字段,可以判断IRF端口的链路状态:

·     如果Link字段显示UP,表示IRF链路状态正常,请执行步骤6。

·     如果Link字段显示DOWN,表示IRF链路状态异常,请执行display irf link命令查看IRF物理端口的状态,注意观察Status字段:

¡     如果与IRF端口绑定的所有IRF物理端口的当前状态均为DOWN或ADM(Administratively DOWN),请检查物理连接状态或使用undo shutdown命令开启该端口,使之变为UP状态。

¡     如果与IRF端口绑定的IRF物理端口中至少有一个处于UP状态,请在保存当前配置后,在系统视图下执行irf-port-configuration active命令来激活IRF端口的配置。

说明

irf-port-configuration active命令用于激活IRF端口的配置,该操作会使被选举为Slave的设备自动重启以加入IRF。因此,在执行该命令前,请在各成员设备上使用save命令保存当前配置,避免设备重启后因IRF配置丢失造成无法成功建立IRF。

 

6. 各设备上运行的软件版本差异是否过大

用户可通过display version命令查看各设备上运行的软件版本,如果两台设备上使用的软件版本差异过大,则不能堆叠在一起,出现这种现象时,建议采用升级低版本的方式解决。

说明

IRF的启动文件自动加载功能(irf auto-update enable命令)可以自动同步IRF中各成员设备的版本。但是当成员设备使用的软件版本间差异过大时,该功能可能无法实现自动同步,此时请手工升级较低的版本。

 

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

4.2  故障诊断命令

命令

说明

display version

显示系统版本信息

display irf

显示本IRF的相关信息

display irf topology

显示IRF的拓扑信息

display irf configuration

显示本IRF中所有设备的配置信息

irf-port-configuration active

激活设备上所有IRF端口下的配置

 

5 聚合相关特性故障处理

5.1  聚合不成功故障处理

5.1.1  故障描述

用户配置链路聚合功能后,发现聚合组中的成员端口不能被选中,聚合失败。

5.1.2  故障处理流程

图5-1 聚合不成功故障处理流程图

 

5.1.3  故障处理步骤

1. 物理连线是否正确

根据聚合规划进行线路检查,检查物理链接线路是否完全按照规划进行连接。

2. 聚合组中成员端口是否UP

通过display interface命令查看聚合组中的成员端口是否处于UP状态,如果没有UP,可按照端口不UP故障流程处理,具体请参见端口相关故障处理

3. 本端口的操作key和属性类配置与参考端口是否相同

在本设备上通过执行display current-configuration interface查看聚合接口及本端Unselected端口(通过display link-aggregation verbose命令查看端口是否为Selected状态,只有Selected状态的端口才可以在该聚合组中正常工作)的操作key和属性类配置与参考端口是否相同,如果不同,则将其配置相同。

4. 是否为动态聚合

若不是动态聚合,则直接到步骤6,否则进行步骤5。

5. 本端口的对端端口的操作key和属性类配置与参考端口的对端端口是否相同

在与本端Unselected端口相连接设备上执行display current-configuration interface命令查看对端Unselected端口的属操作key和属性类配置与参考端口的对端端口是否相同,如果不同,则将其配置相同。

6. 聚合成员端口数量是否超过上限

可在聚合接口视图下通过link-aggregation selected-port maximum命令配置聚合组中的最大选中端口数。通过display link-aggregation verbose命令查看聚合组中成员端口是否超过上限,如果超过上限,则多出来的端口为Unselected状态。Selected端口按照端口编号从小到大排序,可以在成员端口视图下使用undo port link-aggregation group命令将Selected端口中不适用的端口从聚合组中删除,以使必须使用的端口为Selected状态。

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

5.1.4  故障诊断命令

命令

说明

display current-configuration interface

显示接口当前生效的配置

display interface

显示以太网接口的相关信息

display link-aggregation verbose

显示系统上已有聚合接口所对应的聚合组的详细信息

link-aggregation selected-port maximum

配置聚合组中的最大选中端口数

 

6 端口相关故障处理

6.1  光口(千兆SFP口、万兆SFP+口、40GE的QSFP+口)不UP故障处理

6.1.1  故障描述

光口(千兆SFP口、万兆SFP+口、40GE的QSFP+口)不UP故障。

6.1.2  故障处理流程

图6-1 光口不UP故障处理流程图

 

6.1.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

3. 检查两端端口是否正常

对于千兆SFP光口,在设备的SFP端口上用SFP光模块配合光纤直接互连;对于万兆SFP+光口,在本设备上的万兆SFP+端口上用万兆SFP+电缆(适用于短距离连接)直接互连;对于40GE的QSFP+口,在本设备上的40GE的QSFP+口上用QSFP+电缆(适用于短距离连接)直接互连。查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口来检查故障是否解决。

4. 检查光模块、电缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块、电缆)来检查故障是否排除。关于光模块、电缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配。

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令,检查两端的光模块波长、距离等参数是否一致。

需要注意的是,对于40GE的QSFP+光口,如果使用QSFP+ to SFP+电缆连接时,由于QSFP+光模块发送光功率超过了SFP+模块要求接收的光功率上限,在使用时需要加光衰。

5. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

6. 寻求技术支持

如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information,联系H3C的技术支持工程师。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.1.4  故障诊断命令

命令

说明

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface brief

显示端口的概要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

 

6.2  电口(10/100/1000Base-T千兆电口和1/10GBase-T万兆电口)不UP故障处理

6.2.1  故障描述

电口(10/100/1000Base-T千兆电口和1/10GBase-T万兆电口)不UP故障。

6.2.2  故障处理流程

图6-2 电口不UP故障诊断流程图

 

6.2.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

需要注意的是:S5800-EI系列交换机不支持半双工模式。当S5800-EI设备本端(速率双工为auto/auto模式)和对端(例如100M/FULL)协商后需要工作在half duplex,端口也不会link up。

2. 检查链路情况,网线是否正常

可通过更换网线来检查故障是否排除。

3. 检查本端端口是否正常

可通过更换本端设备端口来检查故障是否排除。

4. 检查对端端口是否正常

可通过更换对端设备端口来检查故障是否排除。

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

6.2.4  故障诊断命令

命令

说明

display interface brief

显示以太网端口的概要信息

 

6.3  光模块上报非H3C合法光模块故障处理

6.3.1  故障描述

通过display logbuffer命令查看系统日志时,发现存在上报非H3C合法光模块的相关信息。显示如下:

<Sysname> display logbuffer

   Ten-GigabitEthernet1/0/25: This transceiver is NOT sold by H3C. H3C  therefore shall NOT guarantee the normal function of the device or  assume the maintenance responsibility thereof!

6.3.2  故障处理流程

图6-3 故障诊断流程图

 

6.3.3  故障处理步骤

1. 检查接口上插入的光模块厂家是否是H3C

通过命令display transceiver interface,查看Vendor Name是否是H3C。如果显示的是H3C,则可能是没有电子标签的H3C光模块,也可能不是H3C光模块,需要进一步确认。如果显示的是其它信息,则一定不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。

[Sysname] display transceiver interface ten-gigabitethernet 1/0/51

Ten-GigabitEthernet1/0/51 transceiver information:

  Transceiver Type              : 10G_BASE_SR4_SFP

  Connector Type                : MPO

  Wavelength(nm)                : 850

  Transfer Distance(m)          : 100(OM3),150(OM4)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

2. 与H3C的技术支持工程师确认是否是H3C光模块

通过Probe视图下的命令display hardware internal transceiver register interface收集光模块信息。

然后向H3C技术支持工程师反馈光模块上的条码,确认光模块的渠道来源,明确是否是H3C光模块。如果确认不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。

[Sysname-probe]display hardware internal transceiver register interface Ten-GigabitEthernet 2/0/25 device a0 address 0 le 128

Ten-GigabitEthernet2/0/25 transceiver device a0 register information:

  0000:    03    04    07    00    00    00    02    00

  0008:    00    00    00    03    0d    00    64    00

  0010:    00    00    00    00    48    69    73    65

  0018:    6e    73    65    20    20    20    20    20

  0020:    20    20    20    20    00    00    00    00

  0028:    4c    54    44    31    35    33    31    2d

  0030:    42    43    2b    2d    48    33    43    20

  0038:    57    20    20    20    06    0e    00    d4

  0040:    00    1a    14    14    5a    57    35    30

  0048:    39    43    30    30    30    30    38    20

  0050:    20    20    20    20    30    39    31    32

  0058:    30    31    20    20    68    b0    01    f2

  0060:    48    33    43    00    00    00    00    00

  0068:    00    00    00    00    00    00    00    00

  0070:    00    00    00    00    00    06    0e    05

  0078:    00    00    00    9e    00    89    00    fe

3. 寻求技术支持

如果上述检查完成后确认是H3C光模块,但故障仍无法排除,请联系H3C的技术支持工程师。

6.4  光模块不支持数字诊断故障处理

6.4.1  故障描述

通过display transceiver diagnosis interface命令查看光模块诊断信息时,系统提示光模块不支持数字诊断故障。显示如下:

<Sysname> display transceiver diagnosis interface ten-gigabitethernet 1/0/51

The transceiver does not support this function.

6.4.2  故障处理流程

图6-4 故障诊断流程图

 

6.4.3  故障处理步骤

1. 检查光模块是否是H3C光模块

(1)     通过display transceiver interface命令,查看Vendor Name是否是H3C。

(2)     通过Probe视图下的命令display hardware internal transceiver register interface收集光模块信息,确认光模块的渠道来源;向H3C返回光模块上的条码,收集光模块的信息,明确是否是H3C光模块。

2. 查看光模块是否支持数字诊断功能

通过display transceiver interface命令,查看Digital Diagnostic Monitoring(对数字诊断功能的支持情况)是否是Yes,并向H3C人员咨询这款光模块是否支持数字诊断功能。

<Sysname> display transceiver interface ten-gigabitethernet 1/0/51

Ten-GigabitEthernet1/0/51 transceiver information:

  Transceiver Type              : 10G_BASE_SR4_SFP

  Connector Type                : MPO

  Wavelength(nm)                : 850

  Transfer Distance(m)          : 100(OM3),150(OM4)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

3. 寻求技术支持

如果上述检查完成后确认是H3C光模块,并支持数字诊断功能,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.5  端口存在CRC等错误统计故障处理

6.5.1  故障描述

通过display interface查看到端口存在CRC等错误统计故障。

6.5.2  故障处理流程

图6-5 故障诊断流程图

 

6.5.3  故障处理步骤

1. 查看错误报文统计信息从而判断故障问题

通过display interface命令,查看端口出入方向的错包统计具体是哪项在增长,从而判断故障问题。为方便查看,也可以在用户视图下使用reset counter interface清空端口统计报文再观察。

2. 若是光口,请检查光模块的光功率是否正常

通过display transceiver diagnosis interface查看光口所插光模块的数字诊断参数的当前测量值。若该光模块的光功率不正常,请更换同一型号的正常光模块。

[Sysname] display transceiver diagnosis interface ten-gigabitethernet 1/0/51

Ten-GigabitEthernet1/0/51 transceiver diagnostic information:

  Current diagnostic parameters:

    [module]  Temp.(°C)

              1stTX   2ndTX   1stRX   2ndRX

              N/A     N/A     N/A     N/A

              Voltage(V)

              3.3VTX  12VTX   3.3VRX  12VRX

              3.29    N/A     3.40    N/A

    [channel] TX Bias(mA)    RX power(dBm)  TX power(dBm)

    1         6.09           0.91           -0.77

    2         5.95           1.09           -0.16

    3         6.05           1.58           -0.17

    4         5.85           1.58           -0.14

    5         6.07           2.23           -0.30

    6         5.72           2.85           -0.47

    7         6.11           3.01           -0.08

    8         5.50           1.17           -0.02

 

 

  Alarm thresholds:

    [module]  Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM)

    High      0          3.63        10.00     1.58           5.44

    Low       0          2.97        0.50      3.13           -11.61

3. 检查端口配置是否正常

通过display interface brief命令,查看端口配置是否有异常,其中两端的协商状态双工模式,端口速率是否一致。若端口速率不一致或存在半双工模式,请通过speed命令和duplex命令分别配置端口的速率和双工模式。

4. 检查端口及链路介质是否正常

更换到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,更换光模块测试。

5. 检查端口是否收到大量流控帧

通过display interface命令,查看端口pauses帧计数,如果在不断增长,表明端口发出或者收到了大量的流控帧。检查下端口出入流量是否过大及对端设备的流量处理能力。

6. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.6  端口不接收报文故障处理

6.6.1  故障描述

端口状态为UP,但不接收报文。

6.6.2  故障处理流程

图6-6 故障诊断流程图

 

6.6.3  故障处理步骤

1. 查看端口报文统计结果

检查两端端口状态是否一直UP,并使用display interface 命令查看入方向的报文统计是否增长。为方便查看,也可以使用reset counter interface清空当前端口的报文统计结果再进行观察。同时,查看对端是否有发送报文统计。检查端口错包统计是否持续增长。

2. 检查端口配置是否影响报文的接收

可通过以下步骤检查端口配置是否影响报文的接收:

(1)     通过display interface brief命令,查看端口配置是否有异常。其中包括两端的端口双工模式、端口速率、端口类型以及VLAN等配置。若有异常,请更改端口属性的配置查看该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令,再次查看端口是否能恢复正常。

(2)     如果配置了STP功能,通过display stp brief命令,查看端口是否为 discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。

(3)     如果该端口加入了聚合组,通过display link-aggregation summary命令查看该端口是否为Selected选中状态。当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

3. 检查端口及链路介质是否正常

更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,更换光模块测试。

4. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.7  端口不发送报文故障处理

6.7.1  故障描述

端口状态为UP,但不发送收报文。

6.7.2  故障处理流程

图6-7 故障诊断流程图

 

6.7.3  故障处理步骤

1. 查看端口报文统计结果

检查两端端口状态是否一直UP,并使用display interface 命令查看出方向的报文统计是否增长。为方便查看,也可以使用reset counter interface命令清空端口当前的报文统计结果再进行观察。检查端口错包统计是否持续增长。

2. 检查端口配置是否影响报文的发送

可通过以下步骤检查端口配置是否影响报文的发送:

(1)     通过display interface brief命令,查看端口配置是否有异常。其中包括两端端口的双工模式、端口速率、端口类型以及VLAN等配置。若有异常,请更改端口属性的配置查看该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令,再次查看端口是否能恢复正常。

(2)     如果配置了STP功能,使用display stp brief命令查看故障端口是否为discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。

(3)     如果该端口加入了聚合组,使用display link-aggregation summary命令查看该端口是否为Selected选中状态。当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

3. 检查端口及链路介质是否正常

更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接测试。如果为光口,更换光模块测试。

4. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.7.4  故障诊断命令

命令

说明

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface

显示以太网端口的相关信息

display interface brief

显示接口的概要信息

display link-aggregation summary

显示所有聚合组的摘要信息

display logbuffer

显示系统日志缓冲区的状态和缓冲区记录的日志信息

display stp brief

显示生成树状态和统计的简要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

 

7 系统类故障处理

7.1  CPU占用率高问题处理方法

7.1.1  故障描述

设备运行中CPU占用率高。

7.1.2  故障处理流程

图7-1 故障诊断流程图

 

7.1.3  故障处理步骤

1. 查看CPU占用率

连续使用命令display cpu-usage查看CPU的占用率。如果CPU占用率持续在80%以上,说明某个任务长时间占用CPU,需要确认CPU高的具体原因。

2. 确定CPU占用率高的任务

在Probe视图下执行display process cpu命令观察占用CPU最多的任务。

<Sysname> system-view

[Sysname] probe

[Sysname-probe] display process cpu slot 2

CPU utilization in 5 secs: 12.8%; 1 min: 6.2%; 5 mins: 5.9%

    JID      5Sec      1Min      5Min    Name

      1      0.0%      0.0%      0.0%    scmd

      2      0.0%      0.0%      0.0%    [kthreadd]

      3      0.0%      0.0%      0.0%    [migration/0]

      4      0.0%      0.0%      0.0%    [ksoftirqd/0]

      5      0.0%      0.0%      0.0%    [watchdog/0]

      6      0.0%      0.0%      0.0%    [migration/1]

      7      0.0%      0.0%      0.0%    [ksoftirqd/1]

      8      0.0%      0.0%      0.0%    [watchdog/1]

      9      0.0%      0.0%      0.0%    [events/0]

     10      0.0%      0.0%      0.0%    [events/1]

     11      0.0%      0.0%      0.0%    [khelper]

     12      0.0%      0.0%      0.0%    [kblockd/0]

     13      0.0%      0.0%      0.0%    [kblockd/1]

     14      0.0%      0.0%      0.0%    [khubd]

     15      0.0%      0.0%      0.0%    [kseriod]

     16      0.0%      0.0%      0.0%    [kmmcd]

     17      0.0%      0.0%      0.0%    [vzmond]

     18      0.0%      0.0%      0.0%    [pdflush]

     19      0.0%      0.0%      0.0%    [pdflush]

     20      0.0%      0.0%      0.0%    [kswapd0]

     21      0.0%      0.0%      0.0%    [aio/0]

---- More ----

各列分别表示某任务平均5秒钟、1分钟、5分钟实际占用CPU的百分比和任务名。某任务占用率越高,说明相应的任务占用CPU的资源越多。正常情况任务对CPU的占用率为5%左右,这个命令可以查看明显高出正常占用率的任务。

3. 确认异常任务的调用栈

Probe模式下的follow job job-id 命令确认异常任务的调用栈。例如,显示job 14的调用栈。

[Sysname-probe]follow job 14

Attaching to process 14 ([khubd])

Iteration 1 of 5

------------------------------

Kernel stack:

[<c01d54a8>] hub_thread+0x88c/0xa64

[<c006ce28>] kthread+0xfc/0x12c

[<c00588d0>] do_exit+0x0/0x818

[<ffffffff>] 0xffffffff

 

Iteration 2 of 5

------------------------------

Kernel stack:

[<c01d54a8>] hub_thread+0x88c/0xa64

[<c006ce28>] kthread+0xfc/0x12c

[<c00588d0>] do_exit+0x0/0x818

[<ffffffff>] 0xffffffff

 

Iteration 3 of 5

------------------------------

Kernel stack:

[<c01d54a8>] hub_thread+0x88c/0xa64

[<c006ce28>] kthread+0xfc/0x12c

[<c00588d0>] do_exit+0x0/0x818

[<ffffffff>] 0xffffffff

 

Iteration 4 of 5

------------------------------

Kernel stack:

[<c01d54a8>] hub_thread+0x88c/0xa64

[<c006ce28>] kthread+0xfc/0x12c

[<c00588d0>] do_exit+0x0/0x818

[<ffffffff>] 0xffffffff

 

Iteration 5 of 5

------------------------------

Kernel stack:

[<c01d54a8>] hub_thread+0x88c/0xa64

[<c006ce28>] kthread+0xfc/0x12c

[<c00588d0>] do_exit+0x0/0x818

[<ffffffff>] 0xffffffff

 

[Sysname-probe]

4. 收集信息并寻求技术支持

记录上述三步所获得的信息,并使用display diagnostic-information命令收集设备的诊断信息。。将所有信息反馈给H3C技术人员寻求技术支持。

7.2  内存占用率高问题处理方法

7.2.1  故障描述

使用display memory命令查看设备内存信息。如果内存占用率在持续的一段时间内(一般为30分钟)高于60%,那么可能存在内存异常问题,需要关注。

7.2.2  故障处理流程

图7-2 故障诊断流程图

 

7.2.3  故障处理步骤

1. 确定各内存块使用情况

使用probe模式下的display system internal kernel memory pool命令查看各块内存使用情况,找出使用率不正常和不断增加的内存模块。

<Sysname> system-view

[Sysname] probe

[Sysname-probe]display system internal kernel memory pool slot 2

Active    Number  Size     Align Slab Pg/Slab ASlabs  NSlabs Name

0         15      2048     0     15   8       0       1      mbuf_vdb4

0         0       32       0     102  1       0       0      ND_Vlan_Cache

18        19      524280   0     1    128     18      19     kmalloc-524280

0         0       184      4     21   1       0       0      syncache:1

0         0       52       0     73   1       0       0      mfib_supervlan_iif_cache

0         0       20       0     170  1       0       0      scsi_bidi_sdb

2         19      768      0     19   4       1       1      biovec-64

0         0       56       0     64   1       0       0      FIB_ARPHost_cache

185       204     912      64    17   4       12      12     task_struct

0         0       16       0     170  1       0       0      LFIB_DRV_ReDrvCache

0         0       24       0     128  1       0       0      mfib_l2m_port_cache

0         0       612      0     13   2       0       0      LFIB_IlmEntryCache

0         0       16       0     170  1       0       0      L2VFIB_LPW_ReDrvCache

0         0       288      0     13   1       0       0      LFIB_IlmEntryCache

0         0       24       0     128  1       0       0      LFIB_NHLFE_RefCache

0         0       1232     0     13   4       0       0      MFW_FsCache

0         0       8        0     256  1       0       0      L2VFIB_Ac_Ctr_Cache

350       360     1024     8     15   4       24      24     kmalloc-1024

0         0       656      0     12   2       0       0      MFW_FsCache

0         0       80       0     46   1       0       0      PBR_INSTANCENODE_cachep

0         0       160      4     21   1       0       0      kioctx

0         0       168      0     23   1       0       0      IPCIM_ENTRY_IPV4_cachep

---- More ----

请重点查看Number列和Size列的统计结果。如果发现某块内存在不停增加,那么表示该块内存在被不断使用。需要注意的是:

·     有些内存块使用率的增加是正常的,所以需要判断该块内存是否真正的异常。Number*Size是某个模块使用的内存大小。判断内存使用率是否正常可能需要持续观察内存增长速度和内存使用的多少综合分析判断。

·     有些内存的泄漏过程比较缓慢,所以需要比较长的时间(甚至是几周的时间)来对比观察。

2. 收集信息并寻求技术支持

通过上述步骤只是确定了出现问题的内存模块,但还需继续收集信息以确定具体是哪些代码有问题。由于后续信息收集要求较高,不建议用户操作,请与H3C的技术支持工程师联系。需要注意的是:此时,不得重启设备,否则设备重启后,由于缺少故障出现时的信息而给故障定位带来困难。

7.3  故障诊断命令

命令

说明

display cpu-usage

显示CPU利用率的统计信息

display process cpu

显示各任务占用CPU的情况

display memory

显示内存使用情况

display system internal kernel memory pool

查看各块内存使用情况

follow job job-id

显示异常任务的调用栈

 


8 其它常见故障处理

8.1  二层流量转发丢包

8.1.1  故障描述

设备二层转发丢包,即源端和目的端在同一二层网络的同一VLAN内,通信过程中有丢包。

8.1.2  故障处理流程

图8-1 二层流量转发丢包故障诊断流程图

 

8.1.3  故障处理步骤

1. 查看端口下是否有错包

使用display interface命令查看端口下是否有错包。如果有错包,请执行步骤2,如果没有错包,请执行步骤3进行后续步骤的检查。

[Sysname-probe] display interface GigabitEthernet 1/0/17

GigabitEthernet1/0/17

Current state: UP

Line protocol state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 00e0-fc00-5139

Description: GigabitEthernet1/0/17 Interface

Bandwidth: 100000kbps

Loopback is not set

Media type is twisted pair

Port hardware type is 1000_BASE_T

100Mbps-speed mode, full-duplex mode

Link speed type is autonegotiation, link duplex type is autonegotiation

Flow-control is not enabled

The Maximum Frame Length is 10000

Allow jumbo frame to pass

Broadcast MAX-ratio: 100%

Multicast MAX-ratio: 100%

Unicast MAX-ratio: 100%

PVID: 1

Mdi type: automdix

Port link-type: access

 Tagged Vlan:   none

 UnTagged Vlan: 1

Port priority: 0

Last link flapping: 0 hours 0 minutes 6 seconds

Last clearing of counters: Never

 Peak value of input: 3 bytes/sec, at 2013-01-01 01:59:12

 Peak value of output: 0 bytes/sec, at 2013-01-01 00:01:24

 Last 300 seconds input:  0 packets/sec 3 bytes/sec 0%

 Last 300 seconds output:  0 packets/sec 0 bytes/sec 0%

 Input (total):  17 packets, 2344 bytes

          0 unicasts, 4 broadcasts, 13 multicasts, 0 pauses

 Input (normal):  17 packets, - bytes

          0 unicasts, 4 broadcasts, 13 multicasts, 0 pauses

 Input:  0 input errors, 0 runts, 0 giants, 0 throttles

          0 CRC, 0 frame, - overruns, 0 aborts

          - ignored, - parity errors

 Output (total): 0 packets, 0 bytes

          0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

 Output (normal): 0 packets, - bytes

          0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

 Output: 0 output errors, - underruns, - buffer failures

          0 aborts, 0 deferred, 0 collisions, 0 late collisions

          0 lost carrier, - no carrier

2. 端口下有错包

端口下有错包有以下几种可能的故障原因,可使用排除法定位:

·     对端配置问题,查看对端速率、双工模式的配置是否和本端一致。如果对端速率和双工模式的配置与本端不一致,请更新配置保证本端和对端速率和双工模式的配置一致。

·     端口本身硬件故障:通过将连接端口的线缆连接到配置相同且可正常工作的端口查看是否端口本身硬件故障。如果是端口本身硬件故障,请将线缆连接到可正常工作的端口。

·     链路上光模块、光纤或以太网双绞线故障:通过更换完好的光模块、光纤或以太网双绞线定位是否光纤或以太网双绞线故障。如果是光模块、光纤或以太网双绞线故障,请更换完好的光模块、光纤或以太网双绞线。

·     当通过上述方法无法解决错包问题需要联系技术支持时,请先通过如下方法收集信息,然后执行步骤7。

Probe视图下,使用debug port mapping命令确认面板端口对应的芯片端口。

[Sysname-probe] debug port mapping slot 1

 

[Interface] [Unit] [Port] [Name] [Combo?] [Active?] [IfIndex]  [MID]  [Link]

===============================================================================

 GE1/0/1         0      2     ge1     no        no      0x40        3     down

 GE1/0/2         0      1     ge0     no        no      0x41        3     down

 GE1/0/3         0      4     ge3     no        no      0x42        3     down

 GE1/0/4         0      3     ge2     no        no      0x43        3     down

 GE1/0/5         0      6     ge5     no        no      0x44        3     down

 GE1/0/6         0      5     ge4     no        no      0x45        3     down

 GE1/0/7         0      8     ge7     no        no      0x46        3     down

 GE1/0/8         0      7     ge6     no        no      0x47        3     down

 GE1/0/9         0      10    ge9     no        no      0x48        3     down

 GE1/0/10        0      9     ge8     no        no      0x49        3     down

 GE1/0/11        0      12    ge11    no        no      0x4a        3     down

 GE1/0/12        0      11    ge10    no        no      0x4b        3     up

 GE1/0/13        0      14    ge13    no        no      0x4c        3     down

 GE1/0/14        0      13    ge12    no        no      0x4d        3     down

 GE1/0/15        0      16    ge15    no        no      0x4e        3     down

 GE1/0/16        0      15    ge14    no        no      0x4f        3     up

 GE1/0/17        0      18    ge17    no        no      0x50        3     down

 GE1/0/18        0      17    ge16    no        no      0x51        3     down

 GE1/0/19        0      20    ge19    no        no      0x52        3     up

 GE1/0/20        0      19    ge18    no        no      0x53        3     down

---- More ----

查到GigabitEthernet1/0/17对应的芯片端口名字为ge17,然后执行下面命令两次或两次以上,查看是否有接收丢包统计(RDBGC)和发送丢包统计(TDBGC)计数。如果有将相关信息反馈技术支持。

[Sysname-probe]bcm slot 1 chip 0 show/c/ge17

RDBGC3.ge17       :                     5                  +5

RDBGC6.ge17       :                     5                  +5

R64.ge17          :                    19                 +19

R127.ge17         :                   163                +163               1/s

R255.ge17         :                    10                 +10

R511.ge17         :                     6                  +6

RPKT.ge17         :                   198                +198               2/s

RMCA.ge17         :                   136                +136               1/s

RBCA.ge17         :                    62                 +62

RPOK.ge17         :                   198                +198               2/s

RBYT.ge17         :                21,392             +21,392             315/s

 

[Sysname-probe]bcm slot 1 chip 0 show/c/ge17

R64.ge17          :                    20                  +1

R127.ge17         :                   168                  +5               2/s

RPKT.ge17         :                   204                  +6               2/s

RMCA.ge17         :                   141                  +5               2/s

RBCA.ge17         :                    63                  +1

RPOK.ge17         :                   204                  +6               2/s

RBYT.ge17         :                21,974                +582             261/s

3. 报文因匹配ACL被过滤

(1)     检查端口、VLAN以及全局下是否配置了ACL或QoS策略,如果配置了ACL或QoS策略,请检查端口进入的报文是否因匹配了ACL或QoS策略的流分类而被丢弃,包括端口下的packet-filter(使用display packet-filter查看)、qos policy(使用display qos policy查看),vlan policy(使用display qos vlan-policy查看)以及global policy(使用display qos policy global查看)。如果报文因匹配了ACL或QoS策略的流分类而被丢弃,请参考ACL或QoS的配置方法通过更新配置使报文不被丢弃。

(2)     检查是否因匹配一些特性自动创建的的ACL而被过滤,在以太网接口视图下使用display this命令查看端口下是否配置了下面特性或使用特性相关的具体命令查看:

·     端口是否配置ip source bindingip verify source,使用display ip source bindingdisplay ipv6 source binding可以查看绑定表项信息。如果端口配置了ip source guard且通过上述 display命令发现没有匹配报文的表项,请根据您使用的绑定表项的生成方法进一步排查。

·     查看端口是否配置了Portal认证,如果配置了Portal认证,则没有通过Portal认证的用户,报文会被该端口丢弃。使用display portal interface可以显示指定VLAN接口的Portal配置信息。请用户根据实际情况确定是否可以取消Portal认证,在端口所属VLAN的对应VLAN虚接口下使用undo portal server server-name可以取消三层Portal认证。

·     使用display dot1x命令查看端口是否使能了EAD快速部署。如果使能了802.1X的EAD快速部署功能,那未认证成功的用户访问除Free IP以外的网段时就会丢包。请定位用户是否是未认证成功用户,且未认证成功用户访问的是否是Free IP以外的网段来进一步确认丢包原因。

·     端口所在VLAN是否配置了MFF,使用display mac-forced-forwarding vlan命令显示指定VLAN的MFF信息,如果显示信息中没有Gateway信息,请查看ARP Snooping是否正确配置。

4. 端口被协议设置为block状态

·     使用display stp brief命令查看端口是否被stp设置为discarding状态。如果端口被stp设置为discarding状态,请根据stp的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的stp功能。

·     如果端口属于某个聚合组,使用display link-aggregation verbose命令查看聚合口的详细信息,当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

·     查看端口是否被Smartlink阻塞:使用display smart-link group命令查看端口状态,当State为STANDBY或DOWN时端口不能转发数据。如果State为DOWN,请定为端口成为DOWN状态的原因,如上行链路上的设备配置了Monitor Link功能造成该端口DOWN,或该端口所在链路连接发生故障或端口被shutdown,进一步排查解决;如果State为STANDBY,请将该设备Smart Link组的主、从端口互换。

5. 配置相关丢包

·     在以太网接口视图下使用display this命令查看端口是否在报文所属VLAN中。如果端口不在报文所属VLAN中,请将端口加入该VLAN。

·     使用display mac-address blackhole命令查看是否因为匹配了黑洞MAC地址表项被丢包。请根据实际情况确定是否可以取消该黑洞MAC。如果需要删除该黑洞MAC,请使用undo mac-address blackhole mac-address vlan vlan-id命令删除。

·     使用display qos lr interface查看是否有端口限速的配置。如果端口有限速的配置,请查看令牌生成速度和突发流量配置值是否合理,可以通过使用qos lr { inbound | outbound } cir committed-information-rate [ cbs committed-burst-size ]命令调整令牌生成速度和突发流量配置值定位解决。

·     在以太网接口视图下使用display this命令查看端口是否有风暴抑制相关配置,包括广播风暴抑制比(broadcast-suppression),组播风暴抑制比(multicast-suppression),未知单播风暴抑制比(unicast-suppression)。如果端口下配置了风暴抑制比,可以通过将风暴抑制比的数值调大定位解决。

6. 拥塞丢包

通过display qos queue-statistics interface命令查看端口是否有拥塞丢包。请参考拥塞管理的相关内容定位解决拥塞问题。

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

8.1.4  故障诊断命令

命令

说明

display interface

显示以太网端口的相关信息

display packet-filter

显示ACL在报文过滤中的应用情况

display qos policy

显示用户定义策略的配置信息

display qos policy interface

显示指定端口或所有端口上QoS策略的配置信息和运行情况

display qos vlan-policy

显示基于VLAN应用QoS策略的信息

display qos policy global

显示基于全局应用QoS策略的信息

display this

在以太网接口视图下使用此命令查看接口的当前配置

display ip source binding

查看IPv4 Source Guard绑定表项信息

display ipv6 source binding

查看IPv6 Source Guard绑定表项信息

display portal interface

显示指定接口的Portal配置信息

display dot1x

显示802.1X的会话连接信息、相关统计信息或配置信息

display mac-forced-forwarding vlan

显示指定VLAN的MFF信息

display link-aggregation verbose

查看聚合口的详细信息

display smart-link group

查看Smart Link组的信息

display mac-address blackhole

查看黑洞MAC地址表项信息

display qos lr interface

显示端口限速配置情况

display qos queue-statistics interface

显示端口队列统计信息

 

8.2  三层转发丢包故障

8.2.1  故障描述

设备三层转发丢包,即发送端IP地址和目的端IP地址不在同一网段内,通信过程中有丢包。

8.2.2  故障处理流程

图8-2 三层转发丢包故障诊断流程图

 

8.2.3  故障处理步骤

1. 检查端口是否有故障

根据8.1  二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):

·     如果是端口故障,请按照8.1  二层流量转发丢包节的故障处理思路进行处理。

·     如果不是端口故障,则执行步骤2。

2. 查看ARP表项是否正确

使用display arp命令查看设备上是否学习到网关设备的ARP表项、学习到的ARP表项是否正确:

·     如果设备上未学习到ARP表项或学习到的表项错误,通过打开debugging arp packet查看设备ARP表项学习情况,来定位ARP问题的原因。对于未学习到ARP表项,可以使用arp static命令手工添加静态ARP表项。

·     使用display mac-address命令查看对应的MAC地址表项的出接口和ARP表项中的出接口是否一致,如果不一致,使用reset命令清除ARP表项,让设备重新学习表项。

·     如果设备上ARP表项学习正确,请执行步骤3。

3. 查看路由表项是否正确

使用display ip routing-table命令查看设备上学习的路由信息是否正确:

·     如果设备上学习到的路由信息不正确,请根据您使用的具体的路由协议进行进一步排查。

·     使用display fib命令查看对应的FIB表项的出接口和路由表项中的出接口是否一致,如果不一致,使用reset命令清除路由表项,让设备重新学习表项。

·     如果设备上的路由信息正确,请执行步骤4。

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

8.2.4  故障诊断命令

命令

说明

debugging arp packet

打开ARP的报文调试信息开关

display arp

显示ARP表项

display ip routing-table

显示路由表中当前激活路由的摘要信息

display mac-address

显示MAC地址表信息

display fib

显示FIB表项的信息

 

8.3  协议震荡故障处理

8.3.1  故障描述

协议震荡一般都是协议报文交互时不通导致的。

8.3.2  故障处理流程

图8-3 协议震荡故障诊断流程图

 

8.3.3  故障处理步骤

1. 查看二层转发是否丢包

根据8.1  二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):

·     如果是端口故障,请按照8.1  二层流量转发丢包节的故障处理思路进行处理。

如果不是端口故障,则执行步骤2。

2. 查看三层转发是否丢包

根据8.2  三层转发丢包故障一节的故障定位处理方法,定位是否为三层故障(包括ARP表项错误和路由表项错误):

·     如果是三层故障,请按照8.2  三层转发丢包故障一节的故障处理思路进行处理。

如果不是三层故障,则执行步骤3。

3.  查看软件收包是否丢包

# 进入probe视图。

[Sysname-probe] debug rxtx softcar show slot 2

 

ID  Type                RcvPps Rcv_All    DisPkt_All Pps  Dyn Swi Hash ACLmax

0   ROOT                0      0          0          300  S   On  SMAC 0

1   ISIS                0      0          0          200  D   On  SMAC 8

2   ESIS                0      0          0          100  S   On  SMAC 8

3   CLNP                0      0          0          100  S   On  SMAC 8

4   VRRP                0      0          0          1024 S   On  SMAC 8

5   UNKNOWN_IPV4MC      0      0          0          100  S   On  SMAC 8

6   UNKNOWN_IPV6MC      0      0          0          100  S   On  SMAC 8

7   IPV4_MC_RIP         0      0          0          150  D   On  SMAC 8

8   IPV4_BC_RIP         0      0          0          150  D   On  SMAC 8

9   MCAST_NTP           0      0          0          100  S   On  SMAC 8

10  BCAST_NTP           0      0          0          100  S   On  SMAC 8

11  IPV4_MC_OSPF_5      0      0          0          100  S   On  SMAC 8

12  IPV4_MC_OSPF_6      0      0          0          100  S   On  SMAC 8

13  IPV4_UC_OSPF        0      0          0          200  S   On  SMAC 8

14  IPV4_MC_PIM         0      0          0          100  S   On  SMAC 8

15  IPV4_UC_PIM         0      0          0          100  S   On  SMAC 8

16  IPV4_IGMP           0      0          0          100  S   On  SMAC 8

17  LDP                 0      0          0          100  S   On  SMAC 8

如果发现有丢包发生,请收集信息,然后执行步骤4。

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们