• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

H3C S6805 & S6825 & S6850 & S9850系列以太网交换机 故障处理手册-6W101

手册下载

H3C S6805 & S6825 & S6850 & S9850系列以太网交换机 故障处理手册-6W101-整本手册.pdf  (725.47 KB)

  • 发布时间:2022/7/29 18:53:58
  • 浏览量:
  • 下载量:

H3C S6805 & S6825 & S6850 & S9850

系列以太网交换机

故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:6W101-20220730

 

Copyright © 2019-2022 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。


 

1 简介··· 1

1.1 故障处理注意事项·· 1

1.2 收集设备运行信息·· 1

2 硬件类故障处理··· 1

2.1 运行过程中设备异常重启故障处理·· 1

2.2 电源运行中上报Fault问题处理方法·· 2

2.3 新插入电源模块状态异常处理方法·· 3

2.4 风扇状态异常处理方法·· 4

3 ACL相关特性故障处理··· 6

3.1 ACL硬件资源不足处理方法·· 6

3.2 下发ACL成功,但是ACL不生效的故障处理方法·· 7

4 IRF相关特性故障处理··· 9

4.1 IRF建立不成功故障处理·· 9

4.2 故障诊断命令·· 12

5 聚合相关特性故障处理··· 13

5.1 聚合不成功故障处理·· 13

6 端口相关故障处理··· 16

6.1 1GE SFP10GE SFP+40GE QSFP+100GE QSFP28光口不UP故障处理·· 16

6.2 25GE SFP28光口不UP故障处理·· 18

6.3 1/10GBase-T万兆电口不UP故障处理·· 21

6.4 光模块上报非H3C合法光模块故障处理·· 23

6.5 光模块不支持数字诊断故障处理·· 24

6.6 端口存在CRC等错误统计故障处理·· 25

6.7 端口不接收报文故障处理·· 27

6.8 端口不发送报文故障处理·· 29

7 EVPN综合组网故障处理··· 31

7.1 无法建立EBGP/IBGP邻居·· 31

7.2 报文不能进行ECMP转发·· 32

7.3 故障诊断命令·· 34

8 系统类故障处理··· 34

8.1 CPU占用率高问题处理方法·· 34

8.2 内存占用率高问题处理方法·· 37

8.3 故障诊断命令·· 38

9 其它常见故障处理··· 39

9.1 二层流量转发丢包·· 39

9.2 三层转发丢包故障·· 45

9.3 协议震荡故障处理·· 47

 


1 简介

本文档介绍S6805S6825S6850S9850系列以太网交换机软、硬件常见故障的诊断及处理措施。

本文档不严格和具体的软硬件版本对应。

1.1  故障处理注意事项

注意

设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。

 

在进行故障诊断和处理时,请注意以下事项:

·     设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

¡     记录具体的故障现象、故障时间、配置信息。

¡     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡     收集设备的日志信息和诊断日志信息(收集方法见1.2  收集设备运行信息)。

¡     记录设备故障时指示灯的状态,或给现场设备拍照记录。

¡     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡     记录故障处理过程中配置的所有命令行显示信息。

·     更换和维护设备部件时,请佩戴防静电腕带,以确保您和设备的安全。

·     故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。

1.2  收集设备运行信息

说明

为方便故障快速定位,请使用命令:

·     info-center enable开启信息中心,缺省情况下,信息中心处于开启状态。

·     info-center logfile enable允许日志信息输出到日志文件。缺省情况下,允许日志信息输出到日志文件。

·     info-center diagnostic-logfile enable开启诊断日志同步保存功能缺省情况下,诊断日志同步保存功能处于开启状态

 

设备运行过程中会产生记录设备日常信息及运行状态的普通日志和诊断日志。普通日志以普通日志文件的形式存储在当前主设备的flash:/logfile文件夹下,诊断日志以诊断日志文件的形式存储在当前主设备的flash:/diagfile文件夹下,这些日志文件可以通过FTPTFTPUSB等方式导出。

如果IRF运行过程中发生过主设备和备设备的角色倒换,则倒换前的主设备和倒换后的主设备上都会存在普通日志文件、诊断日志文件,请按照成员设备编号来命名文件夹,将不同成员设备导出的普通日志文件和诊断日志文件有序的保存至存储路径,以免不同成员设备记录的日志信息相互混淆,影响管理员监控设备运行情况和诊断网络故障。

表1-1 日志文件介绍

分类

文件名

内容

普通日志文件

logfile.log

设备运行中执行的命令行、发生的事件、状态的变化等信息

诊断日志文件

diagfile.log

设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、设备无法启动时的信息、成员设备间通信异常时的握手信息

诊断信息

XXX.tar.gz

系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

 

1.2.2  收集普通日志

(1)     执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在flashlogfile目录中。

<Sysname> logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log

(2)     查看各成员设备中普通日志文件名称。

·     查看主设备普通日志。

<Sysname> dir flash:/logfile/

Directory of flash:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

1048576 KB total (38812 KB free)

·     查看从设备(slot 2)上的普通日志。

<Sysname> dir slot2#flash:/logfile/

Directory of slot2#flash:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

1048576 KB total (38812 KB free)

(3)     使用FTPTFTP或者USB接口将日志文件传输到指定位置。

1.2.3  收集诊断日志

(1)     执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在flashdiagfile目录中。

<Sysname> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file flash:/diagfile/diagfile.log

(2)     查看各成员设备中诊断日志文件的名称。

·     查看主设备诊断日志。

<Sysname> dir flash:/diagfile/

Directory of flash:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

1048576 KB total (38812 KB free)

·     查看从设备(slot 2)上的诊断日志。

<Sysname> dir slot2#flash:/diagfile/

Directory of slot2#flash:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

1048576 KB total (38812 KB free)

(3)     使用FTPTFTP或者USB接口将日志文件传输到指定位置。

1.2.4  收集诊断信息

诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。

需要注意的是,成员设备越多,诊断信息收集的时间越长,信息收集期间不能输入命令,请耐心等待。

说明

通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口或管理口的情况下,建议通过业务网口或管理口登录和传输文件。

 

(1)     执行display diagnostic-information命令收集诊断信息。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N] :

(2)     选择将诊断信息保存至文件中,还是将直接在屏幕上显示。

¡     输入Y,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。

Save or display diagnostic information (Y=save, N=display)? [Y/N] : Y

Please input the file name(*.tar.gz)[flash:/diag_Sysname_20160101-000704.tar.gz] :

Diagnostic information is outputting to flash:/diag_Sysname_20160101-000704.tar.gz.

Please wait...

Save successfully.

<Sysname> dir flash:/

Directory of flash:

……

   6 -rw-      898180 Jun 26 2013 09:23:51   diag.tar.gz

 

1048576 KB total (38812 KB free)

¡     输入N,将诊断信息直接显示在屏幕上。(诊断信息的显示随设备型号和版本不同有所差异,请以实际情况为准)

Save or display diagnostic information (Y=save, N=display)? [Y/N] :N

===============================================

  ===============display clock===============

23:49:53 UTC Tue 01/01/2016

=================================================

其它显示信息略……。

(3)     查看诊断信息文件内容。

¡     解压诊断信息文件。

<Sysname> tar extract archive-file diag_Sysname_20160101-000704.tar.gz

Extracting archive flash:/diag_Sysname_20160101-000704.tar.gz Done.

<Sysname> gunzip diag_Sysname_20160101-000704.gz

Decompressing file flash:/diag_Sysname_20160101-000704.gz.... Done.

¡     查看解压后的诊断信息文件内容。

<Sysname> more diag_Sysname_20160101-000704

===============================================

  ===============display clock===============

23:49:53 UTC Tue 01/01/2016

=================================================

---- More ----

 


2 硬件类故障处理

说明

本章节主要讲述电源、风扇、接口模块扩展卡等部件故障的处理方法。其它部件如光模块、端口故障等问题请参见6 端口相关故障处理

 

2.1  运行过程中设备异常重启故障处理

2.1.1  故障描述

设备在使用中发生异常重启。

2.1.2  故障处理流程

图2-1 故障诊断流程图

 

2.1.3  故障处理步骤

1. 收集设备诊断信息

设备重启后查看是否能够进入命令行模式,使用display diagnostic-information命令收集设备的诊断信息,待收集完成后,将设备信息导出后发给H3C技术支持寻求帮助。

2. 检查设备上的启动文件是否正常

通过Console口登录故障设备,再次重启设备,如果BootWare提示CRC错误或者找不到启动文件,请使用BootWare菜单重新下载启动文件,并设置该文件为当前启动文件。

3. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.2  电源运行中上报Fault问题处理方法

2.2.1  故障描述

电源运行中上报Fault

2.2.2  故障处理步骤

1. 检查是否存在FaultAbsent状态的电源模块

使用display power命令显示电源模块状态,查看是否存在FaultAbsent状态的电源模块。

<H3C> display power

 Slot 1:

 Input Power: 60(W)

 PowerID State         Mode   Current(A)  Voltage(V)  Power(W)  FanDirction

 1       Normal        AC        5.08       11.84        60     PowerToPort

 2       Absent        --        --          --          --     --

2. 查看电源模块指示灯

电源模块指示灯含义如下:

·     绿色常亮:电源模块工作正常

·     绿色闪烁:当前电源模块有电流输入(电源模块输入正常,但未安装到设备上,此时电源模块的指示灯会绿色闪烁)

·     红色常亮:电源模块出现故障或进入保护状态

·     红色/绿色交替闪烁:电源模块告警(电源模块出现了如下情况,但还没有进入保护状态:输出过流、输出功率过载、过温等)

·     红色闪烁:

¡     当前电源模块没有电流输入(设备安装有两块电源模块,如果其中一块电源有电流输入、另一块电源无电流输入,此时无电流输入的电源模块的指示灯会红色闪烁)

¡     输入欠压保护

·     灭:电源模块没有电流输入

3. 检查Absent状态电源模块

如果电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装牢固。

如果电源模块槽位有电源模块在位显示为Absent,电源模块指示灯为绿色闪烁(连接了电源线)或灭(没有连接电源线),请将电源模块拆卸后重新安装,然后使用display power命令查看对应槽位电源状态是否显示为Normal,指示灯是否为绿色常亮。如果问题仍然存在,请更换新电源模块

如果更换新电源模块后问题仍然存在,请前往步骤5.

4. 检查Fault状态电源模块

如果电源模块状态为Fault,表示该电源模块异常,无法供电。

当电源模块没有上电时(电源模块指示灯为红色闪烁),该电源模块的运行状态会显示为Fault,此时请为该电源模块上电。

电源处于Fault状态有可能是电源模块本身温度过高导致(此时电源模块指示灯为红色常亮或红色/绿色交替闪烁)。如果电源模块上积灰较多可能引起电源模块温度升高,请查看电源模块积灰情况。如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。然后使用display power命令查看对应槽位电源状态是否显示为Normal如果没有恢复Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。如果该电源模块仍然显示为Fault状态,请更换电源模块。

如果更换新电源模块后仍然显示为Fault状态,请前往步骤5.

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.3  新插入电源模块状态异常处理方法

2.3.1  故障描述

新插入电源模块状态异常。

2.3.2  故障处理步骤

1. 查看电源模块状态

使用display power命令查看电源模块状态。

<H3C>display power

 Slot 1:

 Input Power: 60(W)

 PowerID State         Mode   Current(A)  Voltage(V)  Power(W)  FanDirction

 1       Normal        AC        5.08       11.84        60     PowerToPort

 2       Absent        --        --          --          --     --

2. 查看电源模块指示灯

电源模块指示灯含义如下:

·     绿色常亮:电源模块工作正常

·     绿色闪烁:当前电源模块有电流输入(电源模块输入正常,但未安装到设备上,此时电源模块的指示灯会绿色闪烁)

·     红色常亮:电源模块出现故障或进入保护状态

·     红色/绿色交替闪烁:电源模块告警(电源模块出现了如下情况,但还没有进入保护状态:输出过流、输出功率过载、过温等)

·     红色闪烁:

¡     当前电源模块没有电流输入(设备安装有两块电源模块,如果其中一块电源有电流输入、另一块电源无电流输入,此时无电流输入的电源模块的指示灯会红色闪烁)

¡     输入欠压保护

·     灭:电源模块没有电流输入

3. 检查Absent状态电源模块

如果该电源模块显示为Absent状态,电源模块指示灯为绿色闪烁(连接了电源线)或灭(没有连接电源线),表示电源模块没有安装牢固。请将该电源模块拆卸后重新安装,然后查看对应槽位电源状态是否显示为Normal,指示灯是否为绿色常亮。如果问题仍然存在,请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态,指示灯是否为绿色常亮。如果问题仍然存在,请前往步骤5.

4. 检查Fault状态电源模块

如果该电源模块显示为Fault状态,表示该模块异常,无法供电。

当电源模块没有上电时(电源模块指示灯为红色闪烁),该电源模块的运行状态会显示为Fault,此时请为该电源模块上电。

如果电源模块指示灯为红色常亮或红色/绿色交替闪烁,则电源模块出现故障或进入告警状态/保护状态,请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态,指示灯是否为绿色常亮。如果问题仍然存在,请前往步骤5.

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.4  风扇状态异常处理方法

2.4.1  故障描述

风扇模块运行中上报Fault或执行display fan命令,风扇的状态不是Normal

2.4.2  故障处理步骤

1. 查看风扇模块状态

使用display fan命令查看风扇模块状态。

<Sysname> display fan

 Slot 1:

 Fan 1:

 State    : FanDirectionFault

 Airflow Direction: Port-to-power

 Prefer Airflow Direction: Power-to-port

 Fan 2:

 State    : FanDirectionFault

 Airflow Direction: Port-to-power

 Prefer Airflow Direction: Power-to-port

如果风扇模块工作状态显示为FanDirectionFault,表示风扇的实际风道方向与配置的期望风道风向不一致,请根据机房的风向重新安装正确风向的风扇或使用fan prefer-direction命令配置正确的期望风道风向。

2. 检查风扇模块是否安装牢固

如果风扇模块工作状态显示为Absent状态,表示风扇模块不在位或者没有安装牢固。如果风扇模块在位,请将该风扇模块拆卸后重新安装,然后查看风扇模块状态是否显示为Normal状态。如果仍然显示为Absent状态,请更换风扇模块。如果更换新风扇模块后仍然显示为Absent状态,请前往步骤4

3. 查看风扇模块告警指示灯状态

风扇模块告警指示灯状态含义如下:

亮:风扇模块运行异常

灭:风扇模块运行正常

4. 检查设备的工作温度信息

如果风扇模块工作状态显示Fault状态,指示灯状态为亮,表示该风扇模块异常,无法提供通风散热功能。请使用下述步骤进一步定位。

(1)     使用display environment命令查看系统温度是否持续升高。如果系统温度持续升高,建议用手在设备出风口触摸进一步判断出风口是否有出风。

(2)     如果温度持续升高,且出风口无风,可以肯定风扇模块异常。请将风扇模块拆卸后重新安装,然后使用display fan命令查看是否恢复为Normal状态,指示灯是否为灭。

(3)     如果仍然不能恢复正常,请更换该风扇模块。如果现场没有风扇模块,不能立即更换,请关闭设备以免温度过高导致电路烧坏(如果有降温措施保证系统工作在60摄氏度以下,也可以继续使用设备)。

(4)     如果更换新的风扇模块状态仍然不能恢复为Normal,指示灯仍然为亮,请前往步骤5.

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

2.4.3  故障诊断命令

命令

说明

dir

用来显示目录或文件信息

display boot-loader

用来显示启动软件包的信息

display environment

显示设备的工作温度信息

display fan

显示设备风扇模块的工作状态

display logbuffer

用来显示系统日志缓冲区记录的日志信息

display power

显示设备电源的信息

fan prefer-direction slot slot-number { power-to-port | port-to-power }

配置用户期望的风扇模块的风道方向

 

3 ACL相关特性故障处理

3.1  ACL硬件资源不足处理方法

3.1.1  故障描述

ACL下发后系统提示Reason: Not enough hardware resource”,表明硬件资源不足

3.1.2  故障处理流程

图3-1 故障诊断流程图

 

3.1.3  故障处理步骤

ACL提示资源不足可能是硬件ACL/Meter/Counter本身资源不足导致。

1. 查看当前设备的ACL资源

使用display qos-acl resource命令查看当前设备使用的ACL资源信息

<Sysname> display qos-acl resource

Interfaces: WGE1/0/1 to WGE1/0/24, HGE1/0/25 to HGE1/0/28 (slot 1)

---------------------------------------------------------------------

 Type             Total      Reserved   Configured Remaining  Usage

---------------------------------------------------------------------

 VFP ACL          1024       257        1          766        25%

 IFP ACL          18432      9220       2          9210       50%

 IFP Meter        3072       97         1          2974       3%

 IFP Counter      9216       4610       1          4605       50%

 EFP ACL          2048       0          0          2048       0%

 EFP Meter        1024       0          0          1024       0%

 EFP Counter      1024       0          0          1024       0%

 

Interfaces: HGE1/0/29 to HGE1/0/32, WGE1/0/33 to WGE1/0/56

            GE1/0/57 to GE1/0/58 (slot 1)

---------------------------------------------------------------------

 Type             Total      Reserved   Configured Remaining  Usage

---------------------------------------------------------------------

 VFP ACL          1024       257        1          766        25%

 IFP ACL          18432      9220       2          9210       50%

 IFP Meter        3072       106        1          2965       3%

 IFP Counter      9216       4610       1          4605       50%

 EFP ACL          2048       0          0          2048       0%

 EFP Meter        1024       0          0          1024       0%

 EFP Counter      1024       0          0          1024       0%

其中IFP为入方向ACL的资源情况,EFP为出方向的ACL使用情况。在下发ACL发现失败时,建议先测算下要下发的ACL的数目与芯片剩余的资源数量进行对比。当要下发的ACL条数大于剩余的数量时,系统会提示当前资源不足。

2. 进一步确认ACL下发失败的原因

当查看系统资源明显充足,但是依旧提示下发失败时,一般是当前下发的ACLASIC芯片的特定算法冲突,导致下发到ASIC的顺序和自动分配有异常导致。此时请联系技术支持。

3. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

3.2  下发ACL成功,但是ACL不生效的故障处理方法

3.2.1  故障描述

ACL下发成功但是不生效

3.2.2  故障处理流程

图3-2 故障诊断流程图

 

3.2.3  故障处理步骤

1. 查看ACL规则是否定义正确

通过display acl命令查看ACL配置的内容,包括各条规则的内容、规则的匹配顺序等。确认规则的内容与报文是否匹配,是否因匹配顺序的原因导致报文没有被匹配上。例如:

ACL number 3100

rule 0 permit ip source 2.2.2.2 0.0.255.255

rule 1 deny ip destination 3.3.3.3 0.0.255.255

如果有报文目的IP3.3.3.3,源IP 地址是2.2.2.2,则只能匹配rule 0,不能匹配rule 1,如果期望达到rule 1的效果,则此ACL未生效。

ACL的规则匹配顺序请参考“ACLQoS配置指导”中的“ACL”。

2. 检查设备上已下发的ACL规则是否存在重叠匹配

通过display packet-filterdisplay qos policy user-defineddisplay traffic classifier user-defineddisplay ip policy-based-route查看已下发的ACL,再通过display acl命令查看已下发ACL中的规则是否存在重叠匹配现象。

例如ACL3100ACL3009

ACL number 3100

rule 0 permit ip source 2.2.2.2 0.0.255.255

ACL number 3009

rule 0 permit ip source 2.2.2.2 0.0.0.255

当流量的源IP地址为2.2.2.2时,就会同时符合ACL number 3100 ACL number 3009的匹配要求,即发生重叠匹配现象。

3. 解决重叠匹配ACL的动作冲突

对于重叠匹配的ACL,只有优先级高的ACL对应的动作可以生效。此时可以考虑是否能够删除重叠匹配的ACL中另一条ACL,或者修改匹配规则避免重叠匹配。

4. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

4 IRF相关特性故障处理

4.1  IRF建立不成功故障处理

4.1.1  故障描述

用户规划IRF后,尝试将多台设备配置为一个IRF系统,发现没有成功建立IRF

说明

·     S6850S9850系列交换机不但可以与本系列内的交换机建立IRF,而且这两个系列的设备之间也能够建立IRF

·     S6805系列交换机只能与同系列的设备组成IRF

·     S6825系列交换机只能与同系列的设备组成IRF

 

4.1.2  故障处理流程

图4-1 IRF故障处理流程图

 

4.1.3  故障处理步骤

1. IRF中的成员数量是否已达到支持的最大值

通过display irf命令可以查看当前IRF中的成员个数,如果当前IRF成员数目已经达到支持的最大值,则其它设备不能再加入该IRFIRF支持的最大成员数量为10台。

2. IRF中各成员的编号是否唯一

执行display irf命令可以查看到IRF中各成员的编号,如果新增设备的编号与IRF中现有成员设备的编号相同,则新增设备无法加入IRF;如果两台IRF中的设备具有相同的成员编号,则将导致IRF合并失败。

3. 物理连接是否正确

根据IRF规划进行线路检查,检查物理线路是否完全按照规划进行连接。通过display irf configuration命令可以查看当前设备上的IRF端口配置,其中一台设备的IRF-Port1端口必须与另外一台设备的IRF-Port2端口相连才能建立IRF,否则IRF建立失败。

4. 连接线缆类型及速率是否正确

IRF物理端口需要为QSFP+口或QSFP28口(除了LSWM18CQMSEC接口模块扩展卡上的端口),请检查IRF物理端口是否符合要求。

如果使用的是QSFP+口作为IRF物理端口,支持使用40GbpsQSFP+模块或线缆连接IRF物理端口,不支持使用QSFP+ to SFP+电缆连接IRF物理端口。请检查插入IRF物理端口的线缆或光模块是否带有40GbpsQSFP+标记。使用光模块+光纤的连接方式时,请查看链路两端的光模块型号是否一致,光纤是否连接正确。

如果使用的是QSFP28口作为IRF物理端口,支持使用100GbpsQSFP28模块或线缆或40GbpsQSFP+模块或线缆连接IRF物理端口,不支持使用QSFP28 to SFP28QSFP+ to SFP+电缆连接IRF物理端口。使用光模块+光纤的连接方式时,请查看链路两端的光模块型号是否一致,光纤是否连接正确。

对于S6850S9850系列交换机,使用QSFP+电缆连接IRF物理端口时需要注意:

·     链路两端需要都是固定端口或者都是接口模块扩展卡上的端口,不支持固定端口和接口模块模块扩展卡上的端口之间连接。

·     接口模块扩展卡上的端口作IRF物理端口时,两端必须使用同一款型的接口模块扩展卡。

·     S6850-2C后面板的固定QSFP28口使用QSFP+电缆进行IRF连接时,对端也必须为S6850-2C后面板的固定QSFP28口。

5. IRF链路状态是否正常

执行display irf topology命令,查看显示信息中的Link字段,可以判断IRF端口的链路状态:

·     如果Link字段显示UP,表示IRF链路状态正常,请执行步骤6

·     如果Link字段显示DOWN,表示IRF链路状态异常,请执行display irf link命令查看IRF物理端口的状态,注意观察Status字段:

¡     如果与IRF端口绑定的所有IRF物理端口的当前状态均为DOWNADMAdministratively DOWN),请检查物理连接状态或使用undo shutdown命令开启该端口,使之变为UP状态。

¡     如果与IRF端口绑定的IRF物理端口中至少有一个处于UP状态,请在保存当前配置后,在系统视图下执行irf-port-configuration active命令来激活IRF端口的配置。

说明

irf-port-configuration active命令用于激活IRF端口的配置,该操作会使被选举为从设备的设备自动重启以加入IRF。因此,在执行该命令前,请在各成员设备上使用save命令保存当前配置,避免设备重启后因IRF配置丢失造成无法成功建立IRF

 

6. 各设备上运行的软件版本差异是否过大

用户可通过display version命令查看各设备上运行的软件版本,如果两台设备上使用的软件版本差异过大,则不能组成IRF,出现这种现象时,建议采用将低版本升级到高版本的方式解决。

说明

IRF的启动文件自动加载功能(irf auto-update enable命令)可以自动同步IRF中各成员设备的版本。但是当成员设备使用的软件版本间差异过大时,该功能可能无法实现自动同步,此时请手工升级较低的版本。

 

7. 各成员设备上关键功能的配置是否一致

在建立IRF之前,各成员设备上的一些关键功能的配置需要保持一致。这些关键功能包括:

·     系统工作模式(通过system-working-mode命令配置)。

·     表项容量(通过hardware-resource switch-mode命令配置)。

·     IPv4等价路由增强模式(通过ecmp mode命令配置)

·     前缀大于64位的IPv6路由功能(通过hardware-resource routing-mode ipv6-128命令配置)。

·     OpenFlow的无丢包模式开启状态(通过openflow lossless enable命令配置)

·     VXLAN的硬件资源模式通过hardware-resource vxlan命令配置)。

8. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

4.2  故障诊断命令

命令

说明

display version

显示系统版本信息

display irf

显示本IRF的相关信息

display irf topology

显示IRF的拓扑信息

display irf configuration

显示本IRF中所有设备的配置信息

irf-port-configuration active

激活设备上所有IRF端口下的配置

 

5 聚合相关特性故障处理

5.1  聚合不成功故障处理

5.1.1  故障描述

用户配置链路聚合功能后,发现聚合组中的成员端口不能被选中,聚合失败。

5.1.2  故障处理流程

图5-1 聚合不成功故障处理流程图

 

5.1.3  故障处理步骤

1. 物理连线是否正确

根据聚合规划进行线路检查,检查物理链接线路是否完全按照规划进行连接。

2. 聚合组中成员端口是否UP

通过display interface命令查看聚合组中的成员端口是否处于UP状态,如果没有UP,可按照端口不UP故障流程处理,具体请参见6 端口相关故障处理

3. 本端口的操作key和属性类配置与参考端口是否相同

在本设备上通过执行display current-configuration interface查看聚合接口及本端Unselected端口(通过display link-aggregation verbose命令查看端口是否为Selected状态,只有Selected状态的端口才可以在该聚合组中正常工作)的操作key和属性类配置与参考端口是否相同,如果不同,则将其配置相同。

4. 是否为动态聚合

若不是动态聚合,则直接到步骤6,否则进行步骤5

5. 本端口的对端端口的操作key和属性类配置与参考端口的对端端口是否相同

在与本端Unselected端口相连接设备上执行display current-configuration interface命令查看对端Unselected端口的属操作key和属性类配置与参考端口的对端端口是否相同,如果不同,则将其配置相同。

6. 聚合成员端口数量是否超过上限

可在聚合接口视图下通过link-aggregation selected-port maximum命令配置聚合组中的最大选中端口数。通过display link-aggregation verbose命令查看聚合组中成员端口是否超过上限,如果超过上限,则多出来的端口为Unselected状态。Selected端口按照端口编号从小到大排序,可以在成员端口视图下使用undo port link-aggregation group命令将Selected端口中不适用的端口从聚合组中删除,以使必须使用的端口为Selected状态。

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

5.1.4  故障诊断命令

命令

说明

display current-configuration interface

显示接口当前生效的配置

display interface

显示以太网接口的相关信息

display link-aggregation verbose

显示系统上已有聚合接口所对应的聚合组的详细信息

link-aggregation selected-port maximum

配置聚合组中的最大选中端口数

 

6 端口相关故障处理

6.1  1GE SFP10GE SFP+40GE QSFP+100GE QSFP28光口不UP故障处理

6.1.1  故障描述

1GE SFP10GE SFP+40GE QSFP+100GE QSFP28光口不UP

6.1.2  故障处理流程

图6-1 光口不UP故障处理流程图

 

 

6.1.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

3. 检查两端端口的FEC模式是否一致

对于100G端口,本系列交换机的端口下提供port fec mode { auto | none | rs-fec }命令行,用于控制FEC的模式,以使不同型号设备之间能够对接。(仅Release 6616及以上版本支持)

链路两端使用的FEC模式必须一致。

4. 检查两端端口是否正常

对于SFP+/QSFP+/QSFP28端口,可以使用SFP+电缆/QSFP+电缆/QSFP28电缆将本端端口与设备上其他同类型端口直接互连。查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口来检查故障是否解决。

5. 检查光模块、线缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块、线缆)来检查故障是否排除。关于光模块和线缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两的光模块波长、距离等参数是否一致。

需要注意的是,对于40GEQSFP+光口,如果使用QSFP+ to SFP+电缆连接时,由于QSFP+光模块发送光功率超过了SFP+模块要求接收的光功率上限,在使用时需要加光衰。

6. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.1.4  故障诊断命令

命令

说明

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface brief

显示端口的概要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

 

6.2  25GE SFP28光口不UP故障处理

6.2.1  故障描述

25GE SFP28光口不UP

6.2.2  故障处理流程

图6-2 25GE光口不UP故障处理流程图

 

6.2.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

25G端口可以工作于25G速率、10G速率、1G速率。S6850S9850设备25GE端口使用10G1G速率时需要使用speed命令强制速率。配置的速率需要与光模块/线缆的速率一致,否则接口无法UPS6825设备25GE端口使用10G1G速率时不需要强制速率。拆分后的25G端口仅支持工作在25G速率下

同一组中的端口速率配置需要保持一致。当用户需要修改某个接口的速率时,该配置会在同一组中的所有接口上生效。当用户使用default命令恢复当前接口的缺省配置时,接口工作速率会重置为缺省值,且该配置会在同一组中的所有接口上生效。

S6850&S9850交换机25G端口分组情况如下:

·     S6850-56HF交换机上,在端口编号1243356这两个范围中,按端口编号由小到大的顺序,每4个连续的端口分为一组

·     LSWM124TG2H接口模块扩展卡上按端口编号由小到大的顺序,每4个连续的端口分为一组

·     使用using twenty-fivegige命令将一个100GE端口拆分成425GE端口时,拆分的425GE端口为一组

另外,请关注25GE端口自协商功能配置限制和指导:

·     S6850-56HFS6825-54HFSFP28口使用SFP28电缆与对端连接时,如果对端不支持自协商,需要在本端配置speedduplex fullport fec mode(配置为非auto模式)命令。speed命令配置的速率必须与光模块/线缆速率一致,否则接口无法UP

·     S6850-56HFSFP28口使用SFP+模块/线缆与对端连接时,需要配置speed 10000,否则接口无法UP

·     LSWM124TG2H接口模块扩展卡的SFP28口不支持自协商:在使用SFP28电缆,对端需要关闭自协商(autonegotiation)功能在使用SFP+模块/线缆时需要配置speed 1000命令,否则接口无法UP

·     SFP28口使用除了SFP-GE-TSFP-GE-T-D之外的其他SFP模块与对端连接时,对端需要关闭自协商(autonegotiation)功能。

3. 检查两端端口的链路补偿功能(也称为TrainingFEC协议状态是否一致

本系列交换机的25G端口下提供port fec mode { auto | base-r | none | rs-fec }port training { disable | enable }命令行,用于控制FEC的模式/开关状态和链路补偿功能的开关状态,以使不同型号设备之间能够对接。

·     链路两端使用的FEC模式、链路补偿功能开启状态必须一致。

·     为了接口可以正常工作,25GE以太网接口在使用电缆连接时请确保链路补偿功能处于开启状态。

·     通常情况下,接口的链路补偿功能由软件控制开启或关闭,不建议用户自行调整。除非接口无法UP时通过本命令调整接口的链路补偿功能的状态。

4. 检查端口的介质类型配置是否与光模块/线缆匹配

对于LSWM124TG2H接口模块扩展卡上的25G端口,需要使用port media-type { copper | fiber }命令配置接口的介质类型,使用光模块/光缆时配置为fiber,使用电缆时配置为copper。同一组中的端口的介质类型的配置需要保持一致,在组中任意一个端口上进行配置,配置会自动同步到组中其他端口。

5. 检查两端端口是否正常

端口工作在25GE速率时将本端端口与设备上其他25G端口用SFP28电缆(适用于短距离连接)直接互连;端口工作在10GE速率时将本端端口与设备上其他10G端口用SFP+电缆(适用于短距离连接)直接互连查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口来检查故障是否解决。

6. 检查光模块、线缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块线缆)来检查故障是否排除。关于光模块线缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两的光模块波长、距离等参数是否一致。

7. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

8. 寻求技术支持

如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.2.4  故障诊断命令

命令

说明

display current-configuration

显示当前配置信息

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface brief

显示端口的概要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

 

6.3  1/10GBase-T万兆电口不UP故障处理

6.3.1  故障描述

1/10GBase-T万兆电口不UP

6.3.2  故障处理流程

图6-3 电口不UP故障诊断流程图

 

6.3.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

本系列设备的1/10GBase-T万兆电口支持10G1G速率,不支持10M/100M速率。

2. 检查链路情况,网线是否正常

可通过更换网线来检查故障是否排除。

3. 检查本端端口是否正常

可通过更换本端设备端口来检查故障是否排除。

4. 检查对端端口是否正常

可通过更换对端设备端口来检查故障是否排除。

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

6.3.4  故障诊断命令

命令

说明

display interface brief

显示以太网端口的概要信息

 

6.4  光模块上报非H3C合法光模块故障处理

6.4.1  故障描述

通过display logbuffer命令查看系统日志时,发现存在上报H3C合法光模块的相关信息。显示如下:

<Sysname> display logbuffer

   Twenty-FiveGigE1/0/5: This transceiver is NOT sold by H3C. H3C  therefore shall NOT guarantee the normal function of the device or  assume the maintenance responsibility thereof!

6.4.2  故障处理流程

图6-4 故障诊断流程图

 

 

6.4.3  故障处理步骤

1. 检查接口上插入的光模块厂家是否是H3C

通过命令display transceiver interface,查看Vendor Name是否是H3C。如果显示的是H3C,则可能是没有电子标签的H3C光模块,也可能不是H3C光模块,需要进一步确认。如果显示的是其它信息,则一定不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。

[Sysname] display transceiver interface twenty-fivegige 1/0/1

Twenty-FiveGigE1/0/1 transceiver information:

  Transceiver Type              : 40G_BASE_LR4_QSFP_PLUS

  Connector Type                : LC

  Wavelength(nm)                : 1301

  Transfer Distance(km)         : 10(SMF)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

  Ordering Name                 : QSFP-40G-LR4-WDM1300

2. H3C的技术支持工程师确认是否是H3C光模块

通过Probe视图下的命令display hardware internal transceiver register interface收集光模块信息。

然后向H3C技术支持工程师反馈光模块上的条码,确认光模块的渠道来源,明确是否是H3C光模块。如果确认不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。

3. 寻求技术支持

如果上述检查完成后确认是H3C光模块,但故障仍无法排除,请联系H3C的技术支持工程师。

6.5  光模块不支持数字诊断故障处理

6.5.1  故障描述

通过display transceiver diagnosis interface命令查看光模块诊断信息时,系统提示光模块不支持数字诊断故障。显示如下:

<Sysname> display transceiver diagnosis interface twenty-fivegige 1/0/1

The transceiver does not support this function.

6.5.2  故障处理流程

图6-5 故障诊断流程图

 

6.5.3  故障处理步骤

1. 检查光模块是否是H3C光模块

(1)     通过display transceiver interface命令,查看Vendor Name是否是H3C

(2)     通过display transceiver manuinfo interface命令,确认光模块的渠道来源,向H3C返回光模块上的条码,收集光模块的信息,明确是否是H3C光模块。

2. 查看光模块是否支持数字诊断功能

通过display transceiver interface命令,查看Digital Diagnostic Monitoring对数字诊断功能的支持情况)是否是Yes,并向H3C人员咨询这款光模块是否支持数字诊断功能。

<Sysname> display transceiver interface twenty-fivegige 1/0/1

Twenty-FiveGigE1/0/1 transceiver information:

  Transceiver Type              : 40G_BASE_LR4_QSFP_PLUS

  Connector Type                : LC

  Wavelength(nm)                : 1301

  Transfer Distance(km)         : 10(SMF)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

  Ordering Name                 : QSFP-40G-LR4-WDM1300

3. 寻求技术支持

如果上述检查完成后确认是H3C光模块,并支持数字诊断功能,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.6  端口存在CRC等错误统计故障处理

6.6.1  故障描述

通过display interface查看到端口存在CRC等错误统计故障。

6.6.2  故障处理流程

图1-1 故障诊断流程图

 

6.6.3  故障处理步骤

1. 查看错误报文统计信息从而判断故障问题

通过display interface命令,查看端口出入方向的错包统计具体是哪项在增长,从而判断故障问题。为方便查看,也可以在用户视图下使用reset counter interface清空端口统计报文后再观察。

2. 若是光口,请检查光模块的光功率是否正常

通过display transceiver diagnosis interface查看光口所插光模块的数字诊断参数的当前测量值。若该光模块的光功率不正常,请更换同一型号的正常光模块。

[Sysname] display transceiver diagnosis interface twenty-fivegige 1/0/1

Twenty-FiveGigE1/0/1 transceiver diagnostic information:

  Current diagnostic parameters:

    Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBm)  TX power(dBm)

    43         3.31        6.23      -6.50          -2.15

  Alarm thresholds:

          Temp(°C)  Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM)

    High   75         -63        10.50       2.00           1.50

    Low    -5         2.97        2.00      -13.90         -11

3. 检查端口配置是否正常

通过display interface brief命令,查看端口配置是否有异常,其中两端的协商状态双工模式,端口速率是否一致。若端口速率不一致或存在半双工模式,请通过speed命令和duplex命令分别配置端口的速率和双工模式。

4. 检查端口及链路介质是否正常

更换到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,可更换光模块测试。

5. 检查端口是否收到大量流控帧

通过display interface命令,查看端口pauses帧计数,如果在不断增长,表明端口发出或者收到了大量的流控帧。检查下端口出入流量是否过大及对端设备的流量处理能力。

6. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.7  端口不接收报文故障处理

6.7.1  故障描述

端口状态为UP,但不接收报文。

6.7.2  故障处理流程

图6-6 故障诊断流程图

 

6.7.3  故障处理步骤

1. 查看端口报文统计结果

检查两端端口状态是否一直UP,并使用display interface 命令查看入方向的报文统计是否增长。为方便查看,也可以使用reset counter interface清空当前端口的报文统计结果再进行观察。同时,查看对端是否有发送报文统计。检查端口错包统计是否持续增长。

2. 检查端口配置是否影响报文的接收

可通过以下步骤检查端口配置是否影响报文的接收:

(1)     通过display interface brief命令,查看端口配置是否有异常。其中包括两端的端口双工模式端口速率端口类型以及VLAN等配置。若有异常,请更改端口属性的配置该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令再次查端口是否能恢复正常。

(2)     如果配置了STP功能,通过display stp brief命令,查看端口是否为 discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。

(3)     如果该端口加入了聚合通过display link-aggregation summary命令查看端口是否为Selected选中状态。当该端口StatusUnselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

3. 检查端口及链路介质是否正常

更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,可更换光模块测试。

4. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.8  端口不发送报文故障处理

6.8.1  故障描述

端口状态为UP,但不发送收报文。

6.8.2  故障处理流程

图6-7 故障诊断流程图

 

6.8.3  故障处理步骤

1. 查看端口报文统计结果

检查两端端口状态是否一直UP,并使用display interface 命令查看出方向的报文统计是否增长。为方便查看,也可以使用reset counter interface命令清空端口当前的报文统计结果再进行观察。检查端口错包统计是否持续增长。

2. 检查端口配置是否影响报文的发送

可通过以下步骤检查端口配置是否影响报文的发送:

(1)     通过display interface brief命令,查看端口配置是否有异常。其中包括两端端口的双工模式、端口速率端口类型以及VLAN等配置。若有异常,请更改端口属性的配置该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令再次查端口是否能恢复正常。

(2)     如果配置了STP功能,使用display stp brief命令查看故障端口是否为discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。

(3)     如果该端口加入了聚合,使用display link-aggregation summary命令查看端口是否为Selected选中状态。当该端口StatusUnselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

3. 检查端口及链路介质是否正常

更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接测试。如果为光口,可更换光模块测试。

4. 寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

6.8.4  故障诊断命令

命令

说明

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface

显示以太网端口的相关信息

display interface brief

显示接口的概要信息

display link-aggregation summary

显示所有聚合组的摘要信息

display logbuffer

显示系统日志缓冲区的状态和缓冲区记录的日志信息

display stp brief

显示生成树状态和统计的简要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

display transceiver manuinfo interface

显示可插拔接口模块的部分电子标签信息

 

7 EVPN综合组网故障处理

7.1  无法建立EBGP/IBGP邻居

7.1.1  故障描述

EBGP/IBGP邻居状态异常,不能建立邻居。

7.1.2  故障处理流程

图7-1 故障处理流程图

 

7.1.3  故障处理步骤

1. 检查BGP配置是否正确

通过display bgp peer l2vpn evpn命令检查基础配置是否正确:

·     检查两端配置的AS号是否匹配。如果不匹配,则执行peer as-number命令修改AS号,确保本端设备上配置的对等体的AS号与对等体所在的AS号相同。

·     检查两端的Router ID是否相同。如果相同,则需要执行router-id命令修改其中一端的Router ID

2. 检查BGP邻居之间的连通性

执行ping命令判断是否可以ping通对端。如果无法ping通,则检查链路是否故障、路由是否可达。

3. 检查设备是否处于内存门限告警状态

通过display memory-threshold命令检查设备的内存情况。设备处于内存门限告警状态时不能建立BGP连接,只有三级门限告警解除10分钟后才能建立BGP连接。如果三级门限告警无法解除,请联系技术支持。

4. 搜集现场信息,联系技术支持

(1)     通过debugging bgp event命令查看无法建立邻居的原因,如本端是否发起连接,连接对端是否成功,连接是否冲突等

(2)     通过debugging bgp open命令查看Open报文的发送和接收是否出错

(3)     通过debugging tcp packet命令查看TCP报文是否能够交互成功

(4)     通过display bgp peer l2vpn evpn verbose命令查看邻居的地址族协商情况,报文收发的历史记录

(5)     通过display bgp peer l2vpn evpn log-info命令查看邻居的up/down记录,主要观察邻居down的原因。

(6)     通过display system internal bgp peer l2vpn evpn session statistics命令查看会话详细状态

7.2  报文不能进行ECMP转发

7.2.1  故障描述

EVPN组网中,报文不能通过多条等价路由进行ECMP转发。

7.2.2  故障处理流程

图7-2 故障处理流程图

 

7.2.3  故障处理步骤

1. 检查是否存在到达同一目的网络的多条路由

通过display bgp l2vpn evpn route-distinguisher route-type ip-prefix命令查看是都存在到达同一目的网络RD相同、下一跳不同的多条路由。如果只有一条路由,则无法进行ECMP;如果存在多条路由,则继续进行以下操作。

2. 检查路由的团体属性和扩展团体属性是否一致

通过display bgp l2vpn evpn route-distinguisher route-distinguisher evpn-route route-length命令查看EVPN路由的详细信息。判断到达同一目的网络的多条路由携带的BGP团体属性和扩展团体属性是否相同。如果不同,则修改通过配置修改路由的BGP团体属性和扩展团体属性;否则,无法形成ECMP

3. 检查路由是否携带default-gateway属性

通过display bgp l2vpn evpn route-distinguisher route-distinguisher evpn-route route-length命令查看EVPN路由的详细信息,判断路由中是否携带default-gateway扩展团体属性。若携带该扩展团体属性,则路由之间不能形成ECMP

4. 检查是否存在其他路由协议的路由

display ip routing-table vpn-instance命令查看是否存在其他路由协议生成的到达该目的网络的路由。如果存在,请通过preference命令修改BGP路由的优先级,使得BGP路由优于其他路由协议生成的路由(优先级数值越小表明优先级越高)

5. 检查是否配置进行BGP负载分担的路由条数

通过display bgp routing-table ipv4 vpn-instance命令查看是否存在相同前缀的多条路由,如果存在多条,但是只有一条为最优路由(带有“>”标记),则执行display current-configuration configuration bgp命令检查BGP-VPN IPv4单播地址族视图下是否配置了balance命令。如果没有配置,则执行balance命令配置进行BGP负载分担的路由条数大于1

7.3  故障诊断命令

命令

说明

display bgp peer l2vpn evpn

显示BGP EVPN对等体的信息

display bgp l2vpn evpn

显示BGP EVPN路由信息

display ip routing-table vpn-instance

显示VPN实例的路由表信息

display bgp routing-table ipv4 vpn-instance

显示VPN实例的BGP IPv4单播路由信息

display evpn auto-discovery

显示EVPN通过BGP自动发现的邻居信息

debugging bgp event

开启BGP的事件调试信息开关

debugging bgp open

开启BGPOpen报文调试信息开关

debugging tcp packet

开启TCP报文调试信息开关

 

8 系统类故障处理

8.1  CPU占用率高问题处理方法

8.1.1  故障描述

设备运行中CPU占用率高。

8.1.2  故障处理流程

图8-1 故障诊断流程图

 

8.1.3  故障处理步骤

1. 查看CPU占用率

连续使用命令display cpu-usage查看CPU的占用率。如果CPU占用率持续在80%以上,说明某个任务长时间占用CPU,需要确认CPU高的具体原因。

2. 确定CPU占用率高的任务

使用Probe视图下的display process cpu命令观察占用CPU最多的任务。

<Sysname> system-view

[Sysname] probe

[Sysname-probe] display process cpu slot 1

CPU utilization in 5 secs: 3.7%; 1 min: 3.1%; 5 mins: 3.8%

    JID      5Sec      1Min      5Min    Name

      1      0.0%      0.0%      0.0%    scmd

      2      0.0%      0.0%      0.0%    [kthreadd]

      3      0.0%      0.0%      0.0%    [migration/0]

      4      0.0%      0.0%      0.0%    [ksoftirqd/0]

      5      0.0%      0.0%      0.0%    [watchdog/0]

      6      0.0%      0.0%      0.0%    [migration/1]

      7      0.0%      0.0%      0.0%    [ksoftirqd/1]

      8      0.0%      0.0%      0.0%    [watchdog/1]

      9      0.0%      0.0%      0.0%    [migration/2]

     10      0.0%      0.0%      0.0%    [ksoftirqd/2]

     11      0.0%      0.0%      0.0%    [watchdog/2]

     12      0.0%      0.0%      0.0%    [migration/3]

     13      0.0%      0.0%      0.0%    [ksoftirqd/3]

     14      0.0%      0.0%      0.0%    [watchdog/3]

     15      0.0%      0.0%      0.0%    [migration/4]

     16      0.0%      0.0%      0.0%    [ksoftirqd/4]

     17      0.0%      0.0%      0.0%    [watchdog/4]

     18      0.0%      0.0%      0.0%    [migration/5]

     19      0.0%      0.0%      0.0%    [ksoftirqd/5]

     20      0.0%      0.0%      0.0%    [watchdog/5]

     21      0.0%      0.0%      0.0%    [migration/6]

---- More ----

各列分别表示某任务平均5sec1min5min实际占用CPU的百分比和任务名。某任务占用率越高,说明相应的任务占用CPU的资源越多。正常情况任务对CPU的占用率一般低于5%,这个命令可以查看明显高出正常占用率的任务。

3. 确认异常任务的调用栈

通过Probe视图下follow job job-id 命令确认异常任务的调用栈。此处以显示job 14的调用栈为例。

[Sysname-probe] follow job 14

Attaching to process 14 ([watchdog/3])

Iteration 1 of 5

------------------------------

Kernel stack:

[<80480754>] schedule+0x954/0x1250

[<8028f720>] watchdog+0xb0/0x410

[<802656d0>] kthread+0x130/0x140

[<8021d730>] kernel_thread_helper+0x10/0x20

 

Iteration 2 of 5

------------------------------

Kernel stack:

[<80480754>] schedule+0x954/0x1250

[<8028f720>] watchdog+0xb0/0x410

[<802656d0>] kthread+0x130/0x140

[<8021d730>] kernel_thread_helper+0x10/0x20

 

Iteration 3 of 5

------------------------------

Kernel stack:

[<80480754>] schedule+0x954/0x1250

[<8028f720>] watchdog+0xb0/0x410

[<802656d0>] kthread+0x130/0x140

[<8021d730>] kernel_thread_helper+0x10/0x20

 

Iteration 4 of 5

------------------------------

Kernel stack:

[<80480754>] schedule+0x954/0x1250

[<8028f720>] watchdog+0xb0/0x410

[<802656d0>] kthread+0x130/0x140

[<8021d730>] kernel_thread_helper+0x10/0x20

 

Iteration 5 of 5

------------------------------

Kernel stack:

[<80480754>] schedule+0x954/0x1250

[<8028f720>] watchdog+0xb0/0x410

[<802656d0>] kthread+0x130/0x140

[<8021d730>] kernel_thread_helper+0x10/0x20

4. 收集信息并寻求技术支持

记录上述三步所获得的信息,并使用display diagnostic-information命令收集设备的诊断信息。将所有信息反馈给H3C技术人员寻求技术支持。

8.2  内存占用率高问题处理方法

8.2.1  故障描述

使用display memory命令查看设备内存信息。如果内存占用率在持续的一段时间内(一般为30分钟)高于60%,那么可能存在内存异常问题,需要关注。

8.2.2  故障处理流程

图8-2 故障诊断流程图

 

8.2.3  故障处理步骤

1. 确定各内存块使用情况

使用Probe视图下的display system internal kernel memory pool命令查看各块内存使用情况,找出使用率不正常和不断增加的内存模块。

<Sysname> system-view

[Sysname] probe

[Sysname-probe]display system internal kernel memory pool slot 1

Active    Number  Size     Align Slab Pg/Slab ASlabs  NSlabs Name

2         10      3072     0     10   8       1       1      sgpool-128

0         0       900      0     34   8       0       0      LFIB_IlmEntryCache

0         0       656      0     23   4       0       0      MFW_FsCache

2         39      768      0     39   8       1       1      biovec-64

0         0       96       8     30   1       0       0      cfq_io_context

0         0       52       0     42   1       0       0      ARP_Static_Entry_Cachep

0         0       432      0     34   4       0       0      LFIB_IlmEntryCache

0         0       80       0     34   1       0       0      LFIB_NhlfeCacheCache

0         0       536      0     28   4       0       0      jffs2_i

11        92      52       4     46   1       2       2      pktpcb

1         26      576      0     26   4       1       1      shmem_inode_cache

515       650     256      8     25   2       24      26     kmalloc-256

0         0       1936     0     16   8       0       0      MFW_FsCache

0         42      4096     0     7    8       0       6      names_cache

0         0       1104     0     28   8       0       0      MFW_FsCache

0         0       336      4     21   2       0       0      ripcb

0         0       8        0     85   1       0       0      L2VFIB_Ac_Ctr_Cache

599       680     440      4     34   4       20      20     socket

0         0       104      0     28   1       0       0      memDSLITE

0         0       68       0     39   1       0       0      mfib_l2m_source_cache

16        26      108      0     26   1       1       1      ADJ4_Ext_Cachep

0         0       48       0     46   1       0       0      L2VFIB_LpwEntryCacheName(1)

---- More ----

请重点查看Number列和Size列的统计结果。如果发现某块内存在不停增加,那么表示该块内存在被不断使用。需要注意的是:

·     有些内存块使用率的增加是正常的,所以需要判断该块内存是否真正的异常。Number*Size是某个模块使用的内存大小。判断内存使用率是否正常可能需要持续观察内存增长速度和内存使用的多少综合分析判断。

·     有些内存的泄漏过程比较缓慢,所以需要比较长的时间(甚至是几周的时间)来对比观察。

2. 收集信息并寻求技术支持

通过上述步骤只是确定了出现问题的内存模块,但还需继续收集信息以确定具体是哪些代码有问题。由于后续信息收集要求较高,不建议用户操作,请与H3C的技术支持工程师联系。需要注意的是:此时,不得重启设备,否则设备重启后,由于缺少故障出现时的信息而给故障定位带来困难。

8.3  故障诊断命令

命令

说明

display cpu-usage

显示CPU利用率的统计信息

display process cpu

Probe视图下命令,显示各任务占用CPU的情况

display memory

显示内存使用情况

display system internal kernel memory pool

Probe视图下命令,查看各块内存使用情况

follow job job-id

Probe视图下命令,显示异常任务的调用栈

 

9 其它常见故障处理

9.1  二层流量转发丢包

9.1.1  故障描述

设备二层转发丢包,即源端和目的端在同一二层网络的同一VLAN内,通信过程中有丢包。

9.1.2  故障处理流程

图9-1 二层流量转发丢包故障诊断流程图

 

9.1.3  故障处理步骤

1. 查看端口下是否有错包

使用display interface命令查看端口下是否有错包。如果有错包,请前往步骤2,如果没有错包,请前往步骤3进行后续步骤的检查。

<Sysname>display interface hundredgige 1/0/32

HundredGigE1/0/32 current state: UP

Line protocol state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 000f-e200-002b

……

Last 300 seconds input:  0 packets/sec 10 bytes/sec 0%

 Last 300 seconds output:  0 packets/sec 10 bytes/sec 0%

 Input (total):  1438 packets, 480292 bytes

          0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses

 Input (normal):  1438 packets, - bytes

          0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses

 Input:  0 input errors, 0 runts, 0 giants, 0 throttles

          0 CRC, 0 frame, - overruns, 0 aborts

          - ignored, - parity errors

 Output (total): 1440 packets, 475200 bytes

          0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses

 Output (normal): 1440 packets, - bytes

          0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses

 Output: 0 output errors, - underruns, - buffer failures

          0 aborts, 0 deferred, 0 collisions, 0 late collisions

          0 lost carrier, - no carrier

2. 端口下有错包

端口下有错包有以下几种可能的故障原因,可使用排除法定位:

·     端口本身硬件故障:通过将连接端口的线缆连接到配置相同且可正常工作的端口查看是否端口本身硬件故障。如果是端口本身硬件故障,请将线缆连接到可正常工作的端口。

·     链路上光模块、光纤或以太网双绞线故障:通过更换完好的光模块、光纤或以太网双绞线定位是否光纤或以太网双绞线故障。如果是光模块、光纤或以太网双绞线故障,请更换完好的光模块、光纤或以太网双绞线。

·     对端配置问题,查看对端速率、双工模式的配置是否和本端一致。如果对端速率和双工模式的配置与本端不一致,请更新配置保证本端和对端速率和双工模式的配置一致。

·     当通过上述方法无法解决错包问题需要联系技术支持时,请先通过如下方法收集信息,然后前往步骤7

# 使用probe命令进入Probe视图,在Probe视图下使用debug port mapping命令确认面板端口对应的芯片端口。

[Sysname-probe] debug port mapping slot 1

 [Interface]       [Unit] [Port] [Name] [Combo?] [Active?] [IfIndex] [MID] [Link]

[PipeNum]

===============================================================================

 WGE1/0/1         0       23     xe3     no        no      0x1       16    down

    0

 WGE1/0/2         0       24     xe4     no        no      0x2       16    down

    0

 WGE1/0/3         0       21     xe1     no        no      0x3       16    down

    0

 WGE1/0/4         0       22     xe2     no        no      0x4       16    down

    0

 WGE1/0/5         0       31     xe7     no        no      0x5       16    down(

shut)     0

 WGE1/0/6         0       32     xe8     no        no      0x6       16    down

    0

 WGE1/0/7         0       29     xe5     no        no      0x7       16    down

    0

 WGE1/0/8         0       30     xe6     no        no      0x8       16    down

    0

 WGE1/0/9         0       35     xe11    no        no      0x9       16    down

    0

 WGE1/0/10        0       36     xe12    no        no      0xa       16    down

    0

 WGE1/0/11        0       33     xe9     no        no      0xb       16    down

    0

 WGE1/0/12        0       34     xe10    no        no      0xc       16    down

    0

 WGE1/0/13        0       43     xe15    no        no      0xd       16    down

    0

 WGE1/0/14        0       44     xe16    no        no      0xe       16    down

    0

 WGE1/0/15        0       41     xe13    no        no      0xf       16    down

    0

 WGE1/0/16        0       42     xe14    no        no      0x10      16    down

    0

 WGE1/0/17        0       51     xe19    no        no      0x11      16    down

    0

 WGE1/0/18        0       52     xe20    no        no      0x12      16    down

    0

 WGE1/0/19        0       49     xe17    no        no      0x13      16    down

    0

 WGE1/0/20        0       50     xe18    no        no      0x14      16    down

    0

 WGE1/0/21        0       59     xe23    no        no      0x15      16    down

    0

 WGE1/0/22        0       60     xe24    no        no      0x16      16    down

    0

 WGE1/0/23        0       57     xe21    no        no      0x17      16    down

    0

 WGE1/0/24        0       58     xe22    no        no      0x18      16    down

    0

 HGE1/0/25        0       1      ce0     no        no      0x19      16    down

    0

 HGE1/0/26        0       5      ce1     no        no      0x1e      16    down

    0

 HGE1/0/27        0       13     ce2     no        no      0x23      16    down

    0

 HGE1/0/28        0       61     ce3     no        no      0x28      16    down

    0

 HGE1/0/29        0       115    ce5     no        no      0x2d      16    down

    1

 HGE1/0/30        0       67     ce4     no        no      0x32      16    down

    1

 HGE1/0/31        0       127    ce7     no        no      0x37      16    down

    1

 HGE1/0/32        0       123    ce6     no        no      0x3c      16    down

    1

 WGE1/0/33        0       73     xe27    no        no      0x41      16    down

    1

 WGE1/0/34        0       74     xe28    no        no      0x42      16    down

    1

 WGE1/0/35        0       71     xe25    no        no      0x43      16    down

    1

 WGE1/0/36        0       72     xe26    no        no      0x44      16    down

    1

 WGE1/0/37        0       81     xe32    no        no      0x45      16    down

    1

 WGE1/0/38        0       82     xe33    no        no      0x46      16    down

    1

 WGE1/0/39        0       79     xe30    no        no      0x47      16    down

    1

 WGE1/0/40        0       80     xe31    no        no      0x48      16    down

    1

 WGE1/0/41        0       89     xe36    no        no      0x49      16    down

    1

 WGE1/0/42        0       90     xe37    no        no      0x4a      16    down

    1

 WGE1/0/43        0       87     xe34    no        no      0x4b      16    down

    1

 WGE1/0/44        0       88     xe35    no        no      0x4c      16    down

    1

 WGE1/0/45        0       97     xe40    no        no      0x4d      16    down

    1

 WGE1/0/46        0       98     xe41    no        no      0x4e      16    down

    1

 WGE1/0/47        0       95     xe38    no        no      0x4f      16    down

    1

 WGE1/0/48        0       96     xe39    no        no      0x50      16    down

    1

 WGE1/0/49        0       101    xe44    no        no      0x51      16    down

    1

 WGE1/0/50        0       102    xe45    no        no      0x52      16    down

    1

 WGE1/0/51        0       99     xe42    no        no      0x53      16    down

    1

 WGE1/0/52        0       100    xe43    no        no      0x54      16    down

    1

 WGE1/0/53        0       109    xe48    no        no      0x55      16    down

    1

 WGE1/0/54        0       110    xe49    no        no      0x56      16    down

    1

 WGE1/0/55        0       107    xe46    no        no      0x57      16    down

    1

 WGE1/0/56        0       108    xe47    no        no      0x58      16    down

    1

 GE1/0/57         0       66     ge0     no        no      0x59      16    down

    1

 GE1/0/58         0       130    ge1     no        no      0x5a      16    down

    1

 M-GE0/0/0        0       136            no        no      0x5a      16    up

    0

 M-GE0/0/1        0       137            no        no      0x5a      16    down

    0

# 查到WGE1/0/1对应的芯片端口名字为xe3,然后执行下面命令两次或两次以上,查看是否有接收丢包统计(RDBGC)和发送丢包统计(TDBGC)计数。如果有将相关信息反馈技术支持。

[Sysname-probe] bcm slot 1 chip 0 show/c/xe3

RDBGC2.xe0        :                 8,118              +8,118

R511.xe0          :                 8,118              +8,118

RPKT.xe0          :                 8,118              +8,118

RMCA.xe0          :                 8,118              +8,118

RPOK.xe0          :                 8,118              +8,118

RBYT.xe0          :             2,726,553          +2,726,553

T511.xe0          :                 8,208              +8,208

TPOK.xe0          :                 8,208              +8,208

TPKT.xe0          :                 8,208              +8,208

TMCA.xe0          :                 8,208              +8,208

TBYT.xe0          :             2,741,472          +2,741,472

PERQ_PKT(3).xe0   :                 8,208              +8,208

PERQ_BYTE(3).xe0  :             2,741,472          +2,741,472             330/s

3. 报文因匹配ACL被过滤

(1)     检查端口、VLAN以及全局下是否配置了ACLQoS策略,如果配置了ACLQoS策略,请检查端口进入的报文是否匹配了ACLQoS策略的流分类而被丢弃,包括端口下的packet-filter(使用display packet-filter查看)qos policy(使用display qos policy查看)vlan policy(使用display qos vlan-policy查看)以及global policy(使用display qos policy global查看)如果报文因匹配了ACLQoS策略的流分类而被丢弃,请参考ACLQoS的配置方法通过更新配置使报文不被丢弃。

(2)     检查是否因匹配一些特性自动创建的的ACL而被过滤在以太网接口视图下使用display this命令查看端口下是否配置了下面特性或使用特性相关的具体命令查看

·     端口是否配置ip source bindingip verify source,使用display ip source binding/ display ipv6 source binding可以查看绑定表项信息。如果端口配置了ip source guard且通过上述 display命令发现没有匹配报文的表项,请根据您使用的绑定表项的生成方法进一步排查。

·     查看端口是否配置了Portal认证,没有通过Portal认证的用户,报文会被该端口丢弃。使用display portal interface可以显示指定VLAN接口的Portal配置信息。请用户根据实际情况确定是否可以取消Portal认证。在端口所属VLAN的对应VLAN虚接口下使用undo portal server server-name可以取消Portal认证。

4. 端口被协议设置为block状态

·     使用display stp brief命令查看端口是否被stp设置为discarding状态。如果端口被stp设置为discarding状态,请根据stp的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的stp功能。

·     如果端口属于某个聚合组,使用display link-aggregation verbose命令查看聚合口的详细信息,当该端口StatusUnselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

·     查看端口是否Smartlink阻塞:使用display smart-link group命令查看端口状态,当StateSTANDBYDOWN时端口不能转发数据如果StateDOWN,请定为端口成为DOWN状态的原因,如上行链路上的设备配置了Monitor Link功能造成该端口DOWN,或该端口所在链路连接发生故障或端口被shutdown,进一步排查解决;如果StateSTANDBY,请将该设备Smart Link组的主、从端口互换。

5. 配置相关丢包

·     在以太网接口视图下使用display this命令查看端口是否在报文所属VLAN。如果端口不在报文所属VLAN中,请将端口加入该VLAN

·     使用display mac-address blackhole命令查看是否因为匹配了黑洞MAC地址表项被丢包。请根据实际情况确定是否可以取消该黑洞MAC。如果需要删除该黑洞MAC,请使用undo mac-address blackhole mac-address vlan vlan-id命令删除。

·     使用display qos lr interface查看是否有端口限速的配置。如果端口有限速的配置,请查看令牌生成速度和突发流量配置值是否合理,可以通过使用qos lr { inbound | outbound } cir committed-information-rate [ cbs committed-burst-size ]命令调整令牌生成速度和突发流量配置值定位解决。

·     在以太网接口视图下使用display this命令查看端口是否有风暴抑制相关配置,包括广播风暴抑制比broadcast-suppression),组播风暴抑制比multicast-suppression),未知单播风暴抑制比unicast-suppression)。如果端口下配置了风暴抑制比,可以通过将风暴抑制比的数值调大定位解决。

6. 拥塞丢包

通过display qos queue-statistics interface命令查看端口是否有拥塞丢包。请参考拥塞管理的相关内容定位解决拥塞问题。

7. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

9.1.4  故障诊断命令

命令

说明

display interface

显示以太网端口的相关信息

display packet-filter

显示ACL在报文过滤中的应用情况

display qos policy

显示用户定义策略的配置信息

display qos policy interface

显示指定端口或所有端口上QoS策略的配置信息和运行情况

display qos vlan-policy

显示基于VLAN应用QoS策略的信息

display qos policy global

显示基于全局应用QoS策略的信息

display this

在以太网接口视图下使用此命令查看接口的当前配置

display ip source binding/ display ipv6 source binding

查看IP Source Guard绑定表项信息

display portal interface

显示指定接口的Portal配置信息

display link-aggregation verbose

查看聚合口的详细信息

display smart-link group

查看Smart Link组的信息

display mac-address blackhole

查看黑洞MAC地址表项信息

display qos lr interface

显示端口限速配置情况

display qos queue-statistics interface

显示端口队列统计信息

 

9.2  三层转发丢包故障

9.2.1  故障描述

设备三层转发丢包,即发送端IP地址和目的端IP地址不在同一网段内,通信过程中有丢包。

9.2.2  故障处理流程

图9-2 三层转发丢包故障诊断流程图

 

9.2.3  故障处理步骤

1. 检查端口是否有故障

根据9.1  二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):

·     如果是端口故障,请按照9.1  二层流量转发丢包节的故障处理思路进行处理。

·     如果不是端口故障,则执行步骤2

2. 查看ARP表项是否正确(IPv4

如果三层转发基于IPv4协议,使用display arp命令查看设备上是否学习到网关设备的ARP表项、学习到的ARP表项是否正确:

·     如果设备上未学习到ARP表项或学习到的表项错误,通过打开debugging arp packet查看设备ARP表项学习情况,来定位ARP问题的原因。对于未学习到ARP表项,可以使用arp static命令手工添加静态ARP表项。

·     使用display mac-address命令查看对应的MAC地址表项的出接口和ARP表项中的出接口是否一致,如果不一致,使用reset arp命令清除ARP表项,让设备重新学习表项。

·     如果设备上ARP表项学习正确,请执行步骤4

3. 查看ND表项是否正确(IPv6

如果三层转发基于IPv6协议,使用display ipv6 neighbors命令查看设备上是否学习到网关设备的ND表项、学习到的ND表项是否正确:

·     如果设备上未学习到ND表项或学习到的表项错误,通过打开debugging ipv6 icmp查看设备ND表项学习情况,来定位ND问题的原因。同时,检查两端MAC地址是否相同,或者是否配置了组播MAC地址。如果都检查无误,对于未学习到ND表项,可以使用ipv6 neighbor命令手工添加静态ND表项。

·     使用display mac-address命令查看对应的MAC地址表项的出接口和ND表项中的与邻居相连接口是否一致,如果不一致,使用reset ipv6 neighbors命令清除ND表项,让设备重新学习表项。

·     如果设备上ND表项学习正确,请执行步骤4

4. 查看路由表项是否正确

使用display ip routing-table命令查看设备上学习的路由信息是否正确:

·     如果设备上学习到的路由信息不正确,请根据您使用的具体的路由协议进行进一步排查。

·     使用display fib命令查看对应的FIB表项的出接口和路由表项中的出接口是否一致,如果不一致,使用reset命令清除路由表项,让设备重新学习表项。

·     如果设备上的路由信息正确,请执行步骤5

5. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

9.2.4  故障诊断命令

命令

说明

debugging arp packet

打开ARP的报文调试信息开关

debugging ipv6 icmp

打开ICMPv6调试信息开关

display arp

显示ARP表项

display ipv6 neighbors

显示邻居信息

display ip routing-table

显示路由表中当前激活路由的摘要信息

display mac-address

显示MAC地址表信息

display fib

显示FIB表项的信息

 

9.3  协议震荡故障处理

9.3.1  故障描述

协议震荡一般都是协议报文交互时不通导致的。

9.3.2  故障处理流程

图9-3 协议震荡故障诊断流程图

 

9.3.3  故障处理步骤

1. 查看二层转发是否丢包

根据9.1  二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):

·     如果是端口故障,请按照9.1  二层流量转发丢包一节的故障处理思路进行处理。

·     如果不是端口故障,则执行步骤2

2. 查看三层转发是否丢包

根据9.2  三层转发丢包故障一节的故障定位处理方法,定位是否为三层故障(包括ARP表项错误和路由表项错误):

·     如果是三层故障,请按照9.2  三层转发丢包故障一节的故障处理思路进行处理。

·     如果不是三层故障,则执行步骤3

3. 查看软件收包是否丢包

# 进入Probe视图。

[Sysname-probe] debug rxtx softcar show slot 1

 

ID  Type                RcvPps PpsMax Rcv_All    DisPkt_All Pps  Dyn Swi Hash AC

Lmax                                                                           

0   ROOT                0      0      0          0          3000 S   On  SMAC 0

1   ISIS                0      0      0          0          2000 D   On  SMAC 8

2   ESIS                0      0      0          0          600  S   On  SMAC 8

3   CLNP                0      0      0          0          1000 S   On  SMAC 8

4   VRRP                0      0      0          0          2000 S   On  SMAC 8

5   UNKNOWN_IPV4MC      0      0      0          0          600  S   On  SMAC 8

6   UNKNOWN_IPV6MC      0      0      0          0          600  S   On  SMAC 8

7   IPV4_MC_RIP         0      0      0          0          1000 D   On  SMAC 8

8   IPV4_BC_RIP         0      0      0          0          1000 D   On  SMAC 8

......(省略部分显示信息)

DisPkt_All为丢包计数,Rcv_All为收包总数,RcvPps为接收速率。如果发现有丢包发生,请收集信息,然后前往步骤4

如果发现有丢包发生,请收集信息,然后前往步骤4

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

 

新华三官网
联系我们