选择区域语言: EN CN HK

H3C S12500故障处理手册-R7328-6W100

手册下载

H3C S12500故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2014 杭州华三通信技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,

并不得以任何形式传播。本文档中的信息可能变动,恕不另行通知。

H3C_彩色.emf

 


 

1 故障处理通用流程··· 1

1.1 故障处理注意事项·· 1

1.2 故障模型及影响分析·· 1

1.3 故障定位和处理·· 3

1.3.1 如何搜集设备运行信息·· 3

1.3.2 故障处理流程·· 6

1.3.3 故障原因分类·· 8

1.3.4 常见的故障恢复措施·· 9

1.4 故障处理求助方式·· 9

2 密码遗忘问题处理··· 1

2.1 遗忘Console口密码·· 1

2.1.1 通过Telnet登录设备修改Console口密码·· 1

2.1.2 通过BootWare菜单修改Console 口密码·· 2

2.2 遗忘Telnet登录密码·· 7

3 使用配置文件恢复配置··· 1

4 硬件类故障处理··· 1

4.1 配置系统故障·· 1

4.1.1 终端无显示故障处理·· 1

4.1.2 终端显示乱码故障处理·· 1

4.2 单板故障·· 1

4.2.1 故障描述·· 1

4.2.2 故障处理步骤·· 4

4.3 电源故障·· 7

4.3.1 故障描述·· 7

4.3.2 故障处理步骤·· 8

4.4 风扇故障·· 10

4.4.1 故障描述·· 10

4.4.2 故障处理步骤·· 11

4.5 温度告警·· 11

4.5.1 故障描述·· 11

4.5.2 故障处理步骤·· 12

4.6 故障诊断命令·· 12

5 链路端口故障处理··· 13

5.1 端口错包·· 13

5.1.1 故障描述·· 13

5.1.2 故障处理步骤·· 14

5.2 端口无法up· 15

5.2.1 故障描述·· 15

5.2.2 故障处理步骤·· 15

5.3 端口由up变成down· 16

5.3.1 故障描述·· 16

5.3.2 故障处理步骤·· 16

5.4 端口频繁up/down· 17

5.4.1 故障描述·· 17

5.4.2 故障处理步·· 17

5.5 光模块故障·· 17

5.5.1 故障描述·· 17

5.5.2 故障处理步骤·· 17

5.6 故障诊断命令·· 21

6 硬件转发故障··· 1

6.1 转发通道故障·· 1

6.1.1 故障描述·· 1

6.1.2 故障处理步骤·· 1

6.2 硬件在线诊断和故障保护·· 2

6.3 故障诊断命令·· 3

7 报文转发故障处理··· 1

7.1 ping不通或丢包·· 1

7.1.1 故障描述·· 1

7.1.2 故障处理步骤·· 1

7.2 L2转发故障·· 2

7.2.1 故障描述·· 2

7.2.2 故障处理步骤·· 2

7.3 L3转发故障·· 4

7.3.1 故障描述·· 4

7.3.2 故障处理步骤·· 5

7.4 MPLS转发故障·· 7

7.4.1 故障描述·· 7

7.4.2 故障处理步骤·· 7

7.5 SPB转发故障·· 10

7.5.1 故障描述·· 10

7.5.2 故障处理步骤·· 10

7.6 QACL业务故障·· 12

7.6.1 故障描述·· 12

7.6.2 故障处理步骤·· 12

7.7 故障诊断命令·· 16

8 IRF类故障处理··· 1

8.1 IRF无法形成·· 1

8.1.1 故障描述·· 1

8.1.2 故障处理步骤·· 1

8.2 IRF出现分裂·· 2

8.2.1 故障描述·· 2

8.2.2 故障处理步骤·· 2

8.3 故障诊断命令·· 5

9 系统管理维护类故障处理··· 6

9.1 CPU占用率高·· 6

9.1.1 故障描述·· 6

9.1.2 故障处理步骤·· 7

9.2 内存占用率高·· 10

9.2.1 故障描述·· 10

9.2.2 故障处理步骤·· 10

9.3 资源不足·· 11

9.3.1 故障描述·· 11

9.3.2 故障处理步骤·· 12

9.4 故障诊断命令·· 13

 


1 故障处理通用流程

1.1  故障处理注意事项

·     更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

·     设备正常运行时,建议您在完成重要功能的配置后,及时保存当前配置,以便设备出现故障后能迅速恢复配置。

·     设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),搜集信息越全面、越详细,越有利于故障的快速定位。

¡     记录具体的故障现象、故障时间、配置信息。

¡     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡     记录故障处理过程中配置的所有命令行显示信息。

¡     搜集设备的logfilediagfile日志信息和diag信息(搜集方法见1.3  故障定位和处理)。

¡     记录抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息。

¡     记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。

·     故障处理过程中,请注意:

¡     明确每项配置操作的影响,保证操作出问题时能够被恢复,故障影响不会扩大。

¡     操作执行后请等待一定时间以确认执行效果。

¡     请不要保存故障处理过程中的配置,特别是出现IRF分裂、单板Fault、单板重启时,否则会引起配置丢失。

¡     更换主控板时,请确保新、老主控板的软件版本一致。

1.2  故障模型及影响分析

1-1是一个典型的网络故障模型,为提高网络的可靠性,便于故障时快速切换恢复,组网中采用双上行链路,两台核心交换机之间互为备份。

图1-1 网络故障模型

 

表1-1 故障点影响分析

故障点

可能现象

影响范围

1(含光模块)

端口down

业务会切换

端口错包增加

影响该链路上的业务(影响范围大)

2

单板fault

业务会切换

单板芯片故障(单板状态正常)

该芯片上的业务异常

交换网板芯片故障会影响整机

软件异常

设备重启,业务会切换

协议模块异常一般会影响业务

3

1

影响该接入层交换机上的业务(影响范围比故障点1小一些)

4

设备down

影响该设备下的业务

单板芯片故障

影响部分端口或整机业务

软件异常

设备重启,影响设备下连业务

协议模块异常一般会影响业务

5

1

影响该链路上服务器涉及的业务

6

网络正常,业务异常

影响该服务器涉及业务

 

1.3  故障定位和处理

网络故障处理的基本步骤是观察现象、收集信息、判断分析、原因排查,其基本思想是系统地将故障的所有可能原因缩减或隔离成几个小的子集,从而使问题的复杂度迅速降低。

设备出现故障时,请按以下步骤进行定位和处理:

(1)     参照1.3.1  如何搜集设备运行信息来搜集设备运行信息。

(2)     参照1.3.2  故障处理流程判断大致的故障类型。

(3)     参照1.3.3  故障原因分类对具体的故障进行定位。

1.3.1  如何搜集设备运行信息

说明

为方便故障快速定位,建议不要关闭设备的信息中心(info-center enable)。缺省情况下信息中心处于开启状态。

 

设备运行过程中会产生logfilediagfile日志信息及记录设备运行状态的diag信息。这些信息存储在主控板的FlashCF卡中,可以通过FTPTFTPUSB等方式导出。不同主控板中导出的logfilediagfilediag文件请按照一定规则存放(如不同的文件夹:chassisXslotY),避免不同主控板的运行信息相互混淆,以方便查询。

表1-2 设备运行信息介绍

分类

文件名

内容

logfile日志

logfileX.log

命令行记录、设备运行中产生的记录信息

diagfile日志

diagfileX.log

设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、单板无法启动时的信息、主控板与接口板通信异常时的握手信息。

diag信息

XXX.gz

系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

 

1. logfile日志

请先执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中(日志文件缺省存储在CF卡的logfile目录中),并将日志搜集完整,具体包括:主用主控板、备用主控板、IRF中主设备/从设备上各主用/备用主控板的日志。如果设备创建了MDC,还需搜集每个MDC对应的日志。

<Sysname> logfile save

The contents in the log file buffer have been saved to the file cfa0:/logfile/lo

gfile4.log

·     主用主控板logfile日志:

<Sysname> dir cfa0:/logfile/

Directory of cfa0:/logfile

   0 -rw-     233116 Apr 27 2013 09:20:44   logfile1.log.gz

   1 -rw-     142919 May 03 2013 14:15:42   logfile2.log.gz

   2 -rw-     193287 May 09 2013 12:28:08   logfile3.log.gz

3 -rw-     1193287 Jun 09 2013 12:28:08   logfile4.log

 

1021808 KB total (259072 KB free)

 

·     备用主控板logfile日志:

<Sysname> dir slot1#cfa0:/logfile/

Directory of slot1#cfa0:/logfile

   0 -rw-     242287 May 13 2013 16:47:46   logfile4.log.gz

   1 -rw-     143837 May 24 2013 22:56:46   logfile5.log.gz

   2 -rw-     149806 Jun 01 2013 13:43:26   logfile6.log.gz

 

1020068 KB total (643264 KB free)

·     IRF下备框主控板logfile日志,如备框有两块主控板,则两块都需要搜集:

<Sysname> dir chassis2#slot0#cfa0:/logfile/

Directory of chassis2#slot0#cfa0:/logfile

   0 -rw-     215316 Jun 03 2013 05:49:20   logfile7.log.gz

   1 -rw-     235163 Jun 21 2013 07:31:54   logfile8.log.gz

   2 -rw-     3256492 Jun 26 2013 09:01:08  logfile9.log

 

1021808 KB total (773424 KB free)

·     MDClogfile日志,每个MDC都需要搜集:

<Sysname> dir cfa0:/mdc/

Directory of cfa0:/mdc

   0 drw-           - Jul 10 2013 14:56:50   mdc2

   1 drw-           - Jul 10 2013 16:48:04   mdc3

   2 drw-           - Jul 10 2013 16:43:20   mdc4

<Sysname> dir cfa0:/mdc/mdc3/logfile/

Directory of cfa0:/mdc/mdc3/logfile

   0 -rw-        8417 Jul 10 2013 18:17:46   logfile1.log

 

1020068 KB total (701636 KB free)

2. diagfile日志

请先执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中(诊断日志文件缺省存储在CF卡的diagfile目录中),并将日志搜集完整,具体包括:主用主控板、备用主控板、IRF中主设备/从设备上各主用/备用主控板的日志。如果设备创建了MDC,还需要搜集每个MDC对应的日志。

<Sysname> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file cfa0:/diagfile/diagfile4.log

·     主用主控板diagfile日志

<Sysname> dir cfa0:/diagfile/

Directory of cfa0:/diagfile

   0 -rw-      332331 Aug 27 2013 23:08:18   diagfile1.log.gz

   1 -rw-      237264 Aug 28 2013 09:30:18   diagfile2.log.gz

   2 -rw-      235521 Aug 28 2013 19:48:18   diagfile3.log.gz

   3 -rw-     1026731 Oct 08 2013 15:07:59   diagfile4.log

 

1021808 KB total (790640 KB free)

·     备用主控板diagfile日志

<Sysname> dir slot1#cfa0:/diagfile/

Directory of slot1#cfa0:/diagfile

   0 -rw-      311953 May 10 2013 20:44:20   diagfile1.log.gz

   1 -rw-      303482 May 10 2013 22:29:14   diagfile2.log.gz

   2 -rw-     5240223 May 11 2013 00:14:20   diagfile3.log

 

1021808 KB total (773424 KB free)

·     IRF各成员设备主控板diagfile日志

如果成员设备有两块主控板,则两块都需要搜集。

<Sysname> dir chassis2#slot0#cfa0:/diagfile/

Directory of chassis2#slot0#cfa0:/diagfile

   0  -rw-     348518 May 11 2013 03:40:18   diagfile8.log.gz

   1  -rw-     352960 May 11 2013 05:23:22   diagfile9.log.gz

   2  -rw-    558495  May 15 2013 17:11:48   diagfile10.log

1021808 KB total (773424 KB free)

 

·     MDCdiagfile日志,每个MDC都需要搜集:

<Sysname> dir cfa0:/mdc/

Directory of cfa0:/mdc

   0 drw-           - Jul 10 2013 14:56:50   mdc2

   1 drw-           - Jul 10 2013 16:48:04   mdc3

   2 drw-           - Jul 10 2013 16:43:20   mdc4

<Sysname> dir cfa0:/mdc/mdc3/diagfile/

Directory of cfa0:/mdc/mdc3/diagfile

   0 -rw-        9417 Jul 10 2013 18:17:46   diagfile1.log

 

1020068 KB total (700636 KB free)

3. diag信息

·     方法一:将diag信息保存到CF卡中

执行display diagnostic-information命令后,输入“Y”,再输入保存diag信息的路径和名称“cfa0:/diag.tar.gz”。

需要注意的是,设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请耐心等待。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:y

Please input the file name(*.tar.gz)[flash:/diag.tar.gz]:cfa0:/diag.tar.gz

Diagnostic information is outputting to cfa0:/diag.tar.gz.

Please wait...

Save successfully.

<H3C> dir cfa0:/

Directory of cfa0:

……

   6 -rw-      898180 Jun 26 2013 09:23:51   diag.tar.gz

 

1021808 KB total (259072 KB free)

·     方法二:将diag信息直接显示在屏幕上(该方法可能会造成信息搜集不全,所以不建议)

先执行screen-length disable命令,以避免屏幕输出被打断;再执行display diagnostic-information命令后,输入“N”。

<Sysname> screen-length disable

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:n

===========================================================

  ===============display alarm===============

No alarm information.

=========================================================

  ===============display boot-loader===============

Software images on slot 0:

Current software images:

  cfa0:/S12500-CMW710-BOOT-R7328_mrpnc.bin

  cfa0:/S12500-CMW710-SYSTEM-R7328_mrpnc.bin

Main startup software images:

  cfa0:/S12500-CMW710-BOOT-R7328_mrpnc.bin

  cfa0:/S12500-CMW710-SYSTEM-R7328_mrpnc.bin

Backup startup software images:

  None

=========================================================

  ===============display counters inbound interface===============

Interface         Total (pkts)   Broadcast (pkts)   Multicast (pkts)  Err (pkts)

BAGG1                        0                  0                  0           0

GE4/0/1                      0                  0                  0           0

GE4/0/2                      2                  2                  0           0

GE4/0/3                      0                  0                  0           0

GE4/0/4                      0                  0                  0           0

GE4/0/5                      0                  0                  0           0

GE4/0/6                      0                  0                  0           0

GE4/0/7                      0                  0                  0           0

GE4/0/8                      0                  0                  0           0

GE4/0/9                      0                  0                  0           0

GE4/0/10                     0                  0                  0           0

……

1.3.2  故障处理流程

1-2为故障处理的一般流程,可以大致判断出故障类型。

图1-2 故障处理流程图

 

故障分析时常用的方法有:

·     端口报文计数

·     报文镜像

·     端口抓包

·     配置QoS策略进行流量统计

·     Debug开关信息

·     对怀疑故障的模块交叉验证(比如:怀疑某个端口光模块异常,可以将其他正常的光模块装在这个端口、将怀疑异常的光模块装到别的端口进行确认;怀疑某个槽位单板异常,可以将别的正常单板安装到这个槽位、将怀疑异常的单板安装到本设备其他槽位或安装到其他S12500上确认)。

1.3.3  故障原因分类

说明

IRF模式下,部分命令需要使用单板的全局槽位号。全局槽位号=(框号-1)*最大槽位数目+本地槽位号(对于S12500,最大槽位数目是29)。比如两台S12518组成IRF,第25号槽位单板全局槽位号为:(2-1)*29+5=34

 

1. 单板故障

如单板出现异常重启、状态异常、无法启动、反复重启,请参照4.2  单板故障处理。

2. 电源故障

如设备电源指示灯异常、不断打印告警信息,请参照4.3  电源故障处理。

3. 风扇故障

如设备风扇指示灯异常、风扇停转、不断打印风扇告警信息,请参照4.4  风扇故障处理。

4. 温度告警

如设备打印温度告警,请参照4.5  温度告警处理。

5. 链路端口故障

如端口出现无法UP、频繁UP/DOWN、端口错包,请参照5 链路端口故障处理

6. 硬件转发故障

如日志不断出现Forwarding faultBoard fault: chassis X slot Y, please check it等打印信息,请参照6 硬件转发故障处理。

7. 报文转发故障

如出现pingtracert丢包或不通、二层丢包或不通、三层丢包或不通、MPLS业务异常等,请参照7 报文转发故障处理

8. IRF故障

如设备无法形成IRFIRF分裂等,请参照8 IRF类故障处理

9. CPU占用率高

如设备单板CPU占用率很高,请参照9.1  CPU占用率高处理。

10. 内存占用率高

如设备单板内存占用率很高,请参照9.2  内存占用率高处理。

11. 资源不足

如设备打印No enough resource资源不足,请参照9.3  资源不足处理。

1.3.4  常见的故障恢复措施

表1-3 常见的故障恢复措施

故障原因

业务恢复动作

故障排除动作

硬件

隔离故障单板;

调整业务流向来隔离故障设备(如可以调整路由的优先级,避免流量经过故障设备,实现流量切换)

更换备件(备件上线应用前应进行必要的测试)

软件

重启故障设备的协议;

调整业务流向来隔离故障设备

升级版本(含补丁版本)

调整组网或配置消除引发故障因素

链路

调整业务流向来隔离故障线路

检修线路

其他

修改错误配置;

正确连接设备端口;

调整业务流向来隔离故障线路

修改错误配置;

正确连接设备端口;

检修机房的电源、空调等支撑系统

 

1.4  故障处理求助方式

当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。

用户支持邮箱:service@h3c.com

技术支持热线电话:400-810-0504(手机、固话均可拨打)


2 密码遗忘问题处理

2.1  遗忘Console口密码

您可以通过如下方法恢复Console口密码。

·     方法一:通过Telnet登录设备修改Console口密码。请优先使用该方法。

·     方法二:通过BootWare菜单修改Console口密码。

2.1.1  通过Telnet登录设备修改Console口密码

使用本方法需满足以下条件:

·     用户可以通过Telnet登录设备(比如忘记了Telnet登录密码,就不符合本条件)

·     用户角色名为network-adminlevel-15

(1)     通过Telnet方式登录设备,并确认当前VTY用户的用户角色名。

# 查看当前正在使用的用户线及用户的相关信息。

<Sysname> display users

  Idx  Line    Idle       Time              Pid     Type

  1    CON 1/1 00:00:36   Oct 08 16:35:09   543

+ 16   VTY 0   00:00:00   Oct 08 17:02:03   566     TEL

 

Following are more details.

VTY 0   :

        Location: 192.168.29.1

 +    : Current operation user.

 F    : Current operation user works in async mode.

以上显示信息表明,当前有两个用户已经登录设备,用户自己使用的是VTY 0用户线,用户的IP地址为192.168.29.1;另一个用户使用的是CON 1/1用户线。

# VTY 0用户视图下查看配置、确认该用户的权限:可看到 VTY 0的用户角色权限为level-15,有权限修改Console口密码。

[Sysname] line vty 0

[Sysname-line-vty0] display this

#

line aux 1/1

 user-role network-operator

#

line con 1/1

 user-role network-admin

#

line vty 0

 authentication-mode none

 user-role level-15

 user-role network-admin

 user-role network-operator

#

return

(2)     修改Console用户的密码(假设认证方式为password方式)。

<Sysname> system-view

[Sysname] line console 0

[Sysname-line-console0] authentication-mode password

[Sysname-line-console0] set authentication password simple 12345678

[Sysname-line-console0] return

(3)     为了防止重启后配置丢失,请保存配置。

<Sysname> save

The current configuration will be written to the device. Are you sure? [Y/N]:y

Please input the file name(*.cfg)[flash:/default.cfg]

(To leave the existing filename unchanged, press the enter key):default.cfg

Validating file. Please wait....

Saved the current configuration to mainboard device successfully.

2.1.2  通过BootWare菜单修改Console 口密码

通过BootWare菜单解决Console口密码遗忘问题的方式与设备上是否使能了密码恢复功能相关,可通过以下方法判断设备是否使能了密码恢复功能:

·     通过进入BootWare主菜单后的显示信息来判断

·     telnet登录当前设备后,通过查看当前设备上的配置信息来判断

# 查看当前设备上的配置信息。

<Sysname> display current-configuration

#

 version 7.1.045, Release 7328

#

mdc Admin id 1

#

 sysname Sysname

#

 command-alias enable

 command-alias mapping undo no

 command-alias mapping quit exit

 command-alias mapping return end

#

system-working-mode bridgee

 password-recovery enable

#

以上显示信息表明,当前设备使能了密码恢复功能。

1. 密码恢复功能处于使能状态

使能密码恢复功能后,设备的BootWare菜单支持配置“Skip Authentication for Console Login”选项,选择该选项并重启设备后,设备以下次启动配置文件启动,登录Console口时会跳过认证密码,进入到命令行操作界面。

注意

·     进入BootWare菜单需要重启设备,会导致业务中断,请视具体情况做好业务备份,并尽量选择业务量较少的时间操作。

·     跳过Console口密码登录后请马上配置新的密码,否则登录超时或重启后,仍需要跳过密码来登录。

·     在此操作过程中不要对设备下电。

 

(1)     用串口线连接配置终端和设备,然后重启设备终端屏幕上出现“Press Ctrl+B to access EXTENDED-BOOTWARE MENU... 3秒钟之内,键入<Ctrl+B>,系统将进入BootWare主菜单

RAM test successful.

System is starting...

Press Ctrl+D to access BASIC-BOOTWARE MENU...

Booting Normal Extended BootWare

The Extended BootWare is self-decompressing...........................Done.

 

****************************************************************************

*                                                                          *

*                   H3C S12500 BootWare, Version 2.18                      *

*                                                                          *

****************************************************************************

Compiled Date         : Mar 27 2013

CPU Type              : P5040

CPU L1 Cache          : 32KB

CPU L2 Cache          : 1024KB

CPU Clock Speed       : 1800MHz

Memory Type           : DDR3 SDRAM

Memory Size           : 8192MB

Memory Speed          : 1066MHz

BootWare Size         : 8MB

Flash Size            : 512MB

cfa0 Size             : 4002MB

NVRAM Size            : 1024KB

BASIC CPLD Version    : 001C

EXTENDED CPLD Version : 001C

PCB Version           : Ver.A

 

 

Board self testing...........................

Board steady testing...                           [ PASS ]

Board SlotNo...                                   [   0  ]

DX246  testing...                                 [ PASS ]

PHY88E1111  testing...                            [ PASS ]

CPLD1 testing...                                  [ PASS ]

CPLD2 testing...                                  [ PASS ]

NS16550 register testing...                       [ PASS ]

The switch's Mac address...                       [00:0F:E2:0E:08:03]

CF Card testing...                                [ PASS ]

BootWare Validating...

Press Ctrl+B to access EXTENDED-BOOTWARE MENU...

(2)     键入“7”并回车,跳过Console口密码登录。

Password recovery capability is enabled.//设备使能了密码恢复功能

Note: The current operating device is cfa0

Enter < Storage Device Operation > to select device.

 

==========================<EXTENDED-BOOTWARE MENU>==========================

|<1> Boot System                                                           |

|<2> Enter Serial SubMenu                                                  |

|<3> Enter Ethernet SubMenu                                                |

|<4> File Control                                                          |

|<5> Restore to Factory Default Configuration                              |

|<6> BootWare Operation Menu                                               |

|<7> Skip Authentication for Console Login                                 |

|<8> Storage Device Operation                                              |

|<0> Reboot                                                                |

============================================================================

Ctrl+Z: Access EXTENDED ASSISTANT MENU

Ctrl+F: Format File System

Enter your choice(0-8): 7

Clear Image Password Success!

(3)     重启设备。

==========================<EXTENDED-BOOTWARE MENU>==========================

|<1> Boot System                                                           |

|<2> Enter Serial SubMenu                                                  |

|<3> Enter Ethernet SubMenu                                                |

|<4> File Control                                                          |

|<5> Restore to Factory Default Configuration                              |

|<6> BootWare Operation Menu                                               |

|<7> Skip Authentication for Console Login                                 |

|<8> Storage Device Operation                                              |

|<0> Reboot                                                                |

============================================================================

Ctrl+Z: Access EXTENDED ASSISTANT MENU

Ctrl+F: Format File System

Enter your choice(0-8): 0

DDR2 SDRAM test successful.

System is starting...

Booting Normal Extend BootWare

The Extend BootWare is self-decompressing.................................

Done.

(4)     完成设备启动后,通过Console口登录时不需要认证。登录后请及时修改Console口密码(假设认证方式为password方式)。

<Sysname> system-view

[Sysname] line console 0

[Sysname-line-console0] authentication-mode password

[Sysname-line-console0] set authentication password simple 12345678

[Sysname-line-console0] return

(5)     为防止重启后配置丢失,请保存配置。

<Sysname> save

The current configuration will be written to the device. Are you sure? [Y/N]:y

Please input the file name(*.cfg)[flash:/default.cfg]

(To leave the existing filename unchanged, press the enter key):default.cfg

Validating file. Please wait....

Saved the current configuration to mainboard device successfully.

2. 密码恢复功能处于关闭状态

密码恢复功能处于关闭状态时,设备的BootWare菜单支持配置“Restore to Factory Default Configuration选项,选择该选项并重启设备后,设备会先自动删除下次启动配置文件,再以出厂配置启动。

 

注意

·     恢复出厂配置后原有配置会丢失,造成业务中断,请谨慎。

·     在此操作过程中不要对设备进行下电。

 

(1)     用串口线连接配置终端和设备,然后重启设备终端屏幕上出现“Press Ctrl+B to access EXTENDED-BOOTWARE MENU... 3秒钟之内,键入<Ctrl+B>,系统将进入BootWare主菜单

RAM test successful.

System is starting...

Press Ctrl+D to access BASIC-BOOTWARE MENU...

Booting Normal Extended BootWare

The Extended BootWare is self-decompressing...........................Done.

 

****************************************************************************

*                                                                          *

*                   H3C S12500 BootWare, Version 2.18                      *

*                                                                          *

****************************************************************************

Compiled Date         : Mar 27 2013

CPU Type              : P5040

CPU L1 Cache          : 32KB

CPU L2 Cache          : 1024KB

CPU Clock Speed       : 1800MHz

Memory Type           : DDR3 SDRAM

Memory Size           : 8192MB

Memory Speed          : 1066MHz

BootWare Size         : 8MB

Flash Size            : 512MB

cfa0 Size             : 4002MB

NVRAM Size            : 1024KB

BASIC CPLD Version    : 001C

EXTENDED CPLD Version : 001C

PCB Version           : Ver.A

 

 

Board self testing...........................

Board steady testing...                           [ PASS ]

Board SlotNo...                                   [   0  ]

DX246  testing...                                 [ PASS ]

PHY88E1111  testing...                            [ PASS ]

CPLD1 testing...                                  [ PASS ]

CPLD2 testing...                                  [ PASS ]

NS16550 register testing...                       [ PASS ]

The switch's Mac address...                       [00:0F:E2:0E:08:03]

CF Card testing...                                [ PASS ]

BootWare Validating...

Press Ctrl+B to access EXTENDED-BOOTWARE MENU...

(2)     键入“5”并回车,恢复出厂默认配置。

Password recovery capability is disabled.//设备关闭了密码恢复功能

Note: The current operating device is cfa0

Enter < Storage Device Operation > to select device.

 

==========================<EXTENDED-BOOTWARE MENU>==========================

|<1> Boot System                                                           |

|<2> Enter Serial SubMenu                                                  |

|<3> Enter Ethernet SubMenu                                                |

|<4> File Control                                                          |

|<5> Restore to Factory Default Configuration                              |

|<6> BootWare Operation Menu                                               |

|<7> Skip Authentication for Console Login                                 |

|<8> Storage Device Operation                                              |

|<0> Reboot                                                                |

============================================================================

Ctrl+Z: Access EXTENDED ASSISTANT MENU

Ctrl+F: Format File System

Enter your choice(0-9): 5

Because the password recovery capability is disabled, this operation can

cause the configuration files to be deleted, and the system will start up

with factory defaults. Are you sure to continue?[Y/N]Y

Setting...Done.

(3)     重启设备,以出厂默认配置启动。

==========================<EXTENDED-BOOTWARE MENU>==========================

|<1> Boot System                                                           |

|<2> Enter Serial SubMenu                                                  |

|<3> Enter Ethernet SubMenu                                                |

|<4> File Control                                                          |

|<5> Restore to Factory Default Configuration                              |

|<6> BootWare Operation Menu                                               |

|<7> Skip Authentication for Console Login                                 |

|<8> Storage Device Operation                                              |

|<0> Reboot                                                                |

============================================================================

Ctrl+Z: Access EXTENDED ASSISTANT MENU

Ctrl+F: Format File System

Enter your choice(0-8): 0

DDR2 SDRAM test successful.

System is starting...

Booting Normal Extend BootWare

The Extend BootWare is self-decompressing.................................

Done.

(4)     设备以出厂默认配置启动后,通过Console口登录时不需要认证。登录后请及时修改Console口密码(假设认证方式为password方式)。

<Sysname> system-view

[Sysname] line console 0

[Sysname-line-console0] authentication-mode password

[Sysname-line-console0] set authentication password simple 12345678

[Sysname-line-console0] return

(5)     为防止重启后配置丢失,请保存配置。

<Sysname> save

The current configuration will be written to the device. Are you sure? [Y/N]:y

Please input the file name(*.cfg)[flash:/default.cfg]

(To leave the existing filename unchanged, press the enter key):default.cfg

Validating file. Please wait....

Saved the current configuration to mainboard device successfully.

2.2  遗忘Telnet登录密码

如果Telnet登录密码丢失,可以通过Console口登录设备后重新配置Telnet登录密码。

(1)     通过Console口登录设备。

(2)     VTY用户(下面以VTY063为例)配置密码123456,并保存配置。

<Sysname> system-view

[Sysname] line vty 0 63

[Sysname-line-vty0-63] authentication-mode password

[Sysname-line-vty0-63] set authentication password simple 12345678

[Sysname-line-vty0-63] return

<Sysname> save

The current configuration will be written to the device. Are you sure? [Y/N]:y

Please input the file name(*.cfg)[flash:/default.cfg]

(To leave the existing filename unchanged, press the enter key):default.cfg

Validating file. Please wait....

Saved the current configuration to mainboard device successfully

 


3 使用配置文件恢复配置

缺省情况下,S12500设备的启动配置文件为flash:/config.cfg设备上电时,从缺省存储路径中读取config.cfg文件进行设备的初始化操作。如果缺省存储路径中没有配置文件,则设备采用缺省参数进行初始化配置。

如果想要将设备当前配置恢复成以前保存过的某个配置,可以通过下面的步骤完成。

(1)     通过FTPTFTP方式将用于恢复的配置文件上传到设备的所有主控板上(以FTP方式举例,上传的配置文件名为config.cfg

# 将用于恢复的配置文件上传到主用主控板。

<Sysname> ftp 192.168.29.1

Press CTRL+C to abort.

Connected to 192.168.29.1 (192.168.29.1).

220 WFTPD 2.0 service (by Texas Imperial Software) ready for new user

User (192.168.29.1:(none)): 1

331 Give me your password, please

Password:

230 Logged in successfully

Remote system type is MSDOS.

ftp> bin

200 Type is Image (Binary)

ftp> get config.cfg

227 Entering Passive Mode (192,168,29,1,209,24)

150 "F:\config.cfg" file ready to send (18494 bytes) in IMAGE / Binary mode

226 Transfer finished successfully.

18494 bytes received in 0.0383 seconds (471.1 kbyte/s)

ftp> quit

221 Windows FTP Server (WFTPD, by Texas Imperial Software) says goodbye

# 将主用主控板的config.cfg配置文件拷贝到备用主控板。

<Sysname> copy config.cfg slot1#cfa0:/config.cfg

Copy cfa0:/config.cfg to slot1#cfa0:/config.cfg?[Y/N]:y

.

%Copy file cfa0:/config.cfg to slot1#cfa0:/config.cfg...Done.

(2)     设置下次启动时使用的配置文件,以便下次启动后设备恢复到此配置。

<Sysname> startup saved-configuration config.cfg

需要注意的是,如果用于恢复的配置文件名为config.cfg(和设备缺省启动的配置文件名相同),则本步骤可选;如果不是config.cfg,则本步骤必选。

(3)     重启设备,重启完成后设备会以上面设置的配置文件恢复配置。

说明

上述步骤的操作过程中,不能进行save命令的操作,否则设备将以当前保存的配置启动。

 


4 硬件类故障处理

说明

关于设备各部件指示灯的详细情况请参见《H3C S12500系列路由交换机安装指导》。

 

4.1  配置系统故障

交换机上电后,如果系统正常,将在配置终端上显示启动信息;如果配置系统出现故障,配置终端可能无显示或者显示乱码。

4.1.1  终端无显示故障处理

如果上电后配置终端无显示信息,首先要做以下检查:

·     电源系统是否正常工作。

·     主控板是否正常工作。

·     是否已将配置电缆接到主控板的配置口(Console口或USB Console)。

如果以上检查未发现问题,很可能有如下原因:

·     配置电缆连接的串口错误(实际选择的串口与终端设置的串口不符)。

·     配置终端参数设置错误(参数要求:设置波特率为9600,数据位为8,奇偶校验为无,停止位为1,流量控制为无,选择终端仿真为VT100)。

·     配置电缆本身有问题,可以尝试更换配置电缆。

4.1.2  终端显示乱码故障处理

如果配置终端上显示乱码,很可能是配置终端参数设置错误(设置波特率为9600,数据位为8,奇偶校验为无,停止位为1,流量控制为无,选择终端仿真为VT100),请进行相应检查。

4.2  单板故障

4.2.1  故障描述

·     单板状态异常(比如状态为AbsentFaultOffOfflineIllegal)。

·     单板出现异常重启、无法启动或不断重启等。

·     单板状态指示灯出现如下情况:

¡     主控板RUN处于灯灭、常亮或红灯闪烁状态;

¡     主控板上业务板状态指示灯LC不处于闪烁状态,或者业务板上的RUN指示灯不处于绿色闪烁状态;

¡     主控板上交换网板状态指示灯LC不处于闪烁状态,交换网板RUN指示灯红色闪烁、灯常亮、灯灭;

说明

假如设备上出现Forwarding faultBoard fault: chassis X slot Y, please check it等日志信息,请参考硬件转发故障处理。

 

1. 单板状态查询

单板状态包括NormalMaster Standby AbsentFaultOffOfflineIllegal

Master Standby分别表示主、备主控板。Normal表示单板处于正常运行状态。

如果发现单板状态出现FaultOffOfflineIllegal,或该槽位存在单板但状态却是Absent的,说明单板可能出现故障,请参考4.2.2  故障处理步骤处理。

<Sysname> display device

Slot No.   Brd Type        Brd Status   Software Version

 1/0       LST1MRPNE1      Master       S12500-CMW710-R7328

 1/1       LST1MRPNE1      Standby      S12500-CMW710-R7328

 1/2       NONE            Absent       NONE

 1/3       NONE            Absent       NONE

 1/4       LST0XP40RFD1    Normal       S12500-CMW710-R7328

 1/5       NONE            Absent       NONE

 1/6       NONE            Absent       NONE

 1/7       NONE            Absent       NONE

 1/8       NONE            Absent       NONE

 1/9       LST1GT48LEC1    Normal       S12500-CMW710-R7328

 1/10      NONE            Absent       NONE

 1/11      NONE            Absent       NONE

 1/12      LST1SF08E1      Normal       S12500-CMW710-R7328

 1/13      NONE            Absent       NONE

 1/14      NONE            Absent       NONE

 1/15      LST1SF08E1      Normal       S12500-CMW710-R7328

 1/16      NONE            Absent       NONE

 1/17      NONE            Absent       NONE

 1/18      NONE            Absent       NONE

2. 单板重启确认

可以通过logfile日志、display versiondisplay kernel reboot查看设备启动后运行时间来确认单板有没有出现过重启,出现过重启的单板运行时间会明显短于设备上其他单板。如果有单板出现过重启,请参考4.2.2  故障处理步骤处理。

<Sysname>display version

H3C Comware Software, Version 7.1.045, Release 7328

Copyright (c) 2004-2013 Hangzhou H3C Tech. Co., Ltd. All rights reserved.

H3C S12504 uptime is 0 weeks, 0 days, 5 hours, 54 minutes

Last reboot reason : Power on

Boot image: cfa0:/S12500-CMW710-BOOT-R7328_mrpnc.bin

Boot image version: 7.1.045P12, Release 7328

  Compiled Jan 07 2014 17:01:20

System image: cfa0:/S12500-CMW710-SYSTEM-R7328_mrpnc.bin

System image version: 7.1.045, Release 7328

  Compiled Jan 07 2014 17:02:33

 

LST2MRPNC1 1:  uptime is 0 weeks, 0 days, 5 hours, 54 minutes

Last reboot reason : Power on

3456    Mbytes SDRAM

1024    Kbytes NVRAM Memory

Type     : LST2MRPNC1

BootRom  : 2.20

Software : S12500-CMW710-R7328

PCB      : Ver.B

Board Cpu:

  Number of Cpld: 2

  Cpld 0:

    SoftWare  : 003

  Cpld 1:

    SoftWare  : 003

PowChipA    : 004

CpuCard

  Type      : LSR1CPA

  PCB       : Ver.C

  Number of Cpld: 1

  Cpld 0:

    SoftWare  : 001

  BootRom   : 2.12

Mbus card

  Type      : LSR1MBCB

  Software  : 115

  PCB       : Ver.B

 

LST1GT48LEC1 3:  uptime is 0 weeks, 0 days, 5 hours, 53 minutes

Last reboot reason : Power on

1024    Mbytes SDRAM

0       Kbytes NVRAM Memory

Type     : LST1GT48LEC1

Software : S12500-CMW710-R7328

PCB      : Ver.A

Board Cpu:

  Number of Cpld: 1

  Cpld 0:

    SoftWare  : 003

PowChipA    : 004

PowChipB    : 004

CpuCard

  Type      : LSR1CPAE

  PCB       : Ver.C

  Number of Cpld: 1

  Cpld 0:

    SoftWare  : 001

  BootRom   : 2.12

Mbus card

  Type      : LSR1MBCB

  Software  : 115

  PCB       : Ver.B

 

LST2SF08C1 8:  uptime is 0 weeks, 0 days, 5 hours, 53 minutes

Last reboot reason : Power on

128     Mbytes SDRAM

0       Kbytes NVRAM Memory

Type     : LST2SF08C1

BootRom  : 2.12

Software : S12500-CMW710-R7328

PCB      : Ver.B

Board Cpu:

  Number of Cpld: 1

  Cpld 0:

    SoftWare  : 001

PowChipA  : 001

 

LST2SF08C1 9:  uptime is 0 weeks, 0 days, 5 hours, 53 minutes

Last reboot reason : Power on

128     Mbytes SDRAM

0       Kbytes NVRAM Memory

Type     : LST2SF08C1

BootRom  : 2.12

Software : S12500-CMW710-R7328

PCB      : Ver.B

Board Cpu:

  Number of Cpld: 1

  Cpld 0:

    SoftWare  : 001

PowChipA  : 001

4.2.2  故障处理步骤

1. 单板状态Absent

(1)     确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重插入。

(2)     将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板故障。

(3)     检查单板面板、内部的指示灯是否发光。

(4)     确认电源模块输出功率是否充足。比如增加电源模块,看该单板状态是否恢复正常。

(5)     确认主机软件版本是否支持该单板

a.     通过display device命令查看主机软件版本

b.     查看该单板对应的单板手册,确认当前主机软件版本是否支持该单板;

c.     如果当前软件版本不支持该单板,建议升级到正确版本。

(6)     如果单板是主控板,通过系统复位键(RESET)进行主控板复位,待主控板启动完成后,再次查看主控板状态指示灯RUN是否恢复正常。

(7)     如果单板是业务板,请先确保主控板处于正常工作状态。

(8)     如果单板是主控板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。

(9)     如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。

2. 单板状态Off

(1)     确认用户有无通过power-supply off命令对单板执行下电操作。如果是用户操作导致,请通过power-supply on命令对单板重新上电。

(2)     否则,单板存在电源故障,请更换单板并将故障信息发送技术支持人员分析。

3. 单板状态Fault

(1)     等待一段时间确认下单板是一直Fault还是Normal后又再次重启。如单板是Normal后又自动重启,请将故障信息发送技术支持人员分析。

(2)     如果单板是主控板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。如下述主控板启动时出现内存读写测试失败而不断重启,需要检查主控板内存条是否插稳。

readed value is 55555555 , expected value is aaaaaaaa

DRAM test fails at: 080ffff8

DRAM test fails at: 080ffff8

Fatal error! Please reboot the board.

(3)     对于接口板还需要确认系统工作模式是否支持该单板正常启动:

a.     查询当前系统工作模式

<Sysname> display system-working-mode

The current system working mode is routee.

The next system working mode is routee.

b.     如果当前系统工作模式不支持该单板启动,设备会打印相关提示信息。示例如下:这里表示EB类接口板在Routee模式下无法启动。

%Jun 26 10:13:04:006 2013 H3C SYSM/1/DRV_SYSM_PROMPT: -MDC=1;

This is not hardware fault, please change mode by command 'system-working-mode' in system view.

%Jun 26 10:13:04:006 2013 H3C SYSM/1/DRV_SYSM_PROMPT: -MDC=1;

chassis 2 slot  2 is an EB type board, and it supports Standard working mode only.

%Jun 26 10:13:04:006 2013 H3C SYSM/1/DRV_SYSM_PROMPT: -MDC=1;

ERROR!!! chassis 2 slot  2 doesn't support the current system working mode, board rebooting!

c.     确认当前系统工作模式不支持单板启动时,请通过system-working-mode命令更改系统工作模式并保存配置,新的系统工作模式将在设备重启后生效。

[Sysname] system-working-mode standard

Do you want to change the system working mode? [Y/N]:y

The system working mode is changed, please save the configuration and reboot the system to make it effective.

[Sysname]save

The current configuration will be written to the device. Are you sure? [Y/N]:y

Please input the file name(*.cfg)[cfa0:/ali0207-V7.cfg]

(To leave the existing filename unchanged, press the enter key):

cfa0:/ali0207-V7.cfg exists, overwrite? [Y/N]:y

Validating file. Please wait...

Saved the current configuration to mainboard device successfully.

(4)     将单板放到别的槽位,进一步确认是不是单板故障。

(5)     如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。

4. 单板状态Offline

(1)     确认用户有没有通过board-offline命令将单板从系统中隔离。设备上安装新的单板后,需要对该单板进行诊断操作(Probe视图下的test diag-offline命令),而在诊断操作前,需要先将单板隔离为Offline状态。如果是用户操作导致,请通过undo board-offline命令将隔离单板重新上线。

(2)     接口板被隔离:说明设备在线诊断模块检测到该单板存在异常,命令行display hardware-failure-detection可以看到对应时间点的记录,请更换接口板并将故障信息发送技术支持人员分析。

<Sysname>display hardware-failure-detection

Current level:

    chip       : isolate

    board      : isolate

    forwarding : isolate

---------------------Chassis 2, Slot  0 executed records:-------------------

Chassis 2, Slot  6:

   1. 2013-06-26, 09:49:15 some auto-down ports on this slot are down by forwarding detection.

---------------------Chassis 2, Slot  0 trapped records:--------------------

Chassis 1, Slot  3:

   1. 2013-06-20, 15:17:44 warned by forwarding detection.

Chassis 2, Slot  6:

   1. 2013-06-26, 09:52:22 warned by forwarding detection.

(3)     网板被隔离,通常会伴随业务检测故障,同时出现Forwarding faultBoard fault: chassis X slot Y, please check it等打印信息,需要确认网板隔离后故障是否消失。可以通过命令行display hardware-failure-detection查看网板隔离的记录。

·     单块网板被隔离:隔离后业务检测故障消失,说明故障为网板引起,请更换单板并将故障信息发送技术支持人员分析;网板隔离后不再参与流量转发,如隔离后业务检测故障仍存在,说明该网板是正常的(多点故障时,设备在线诊断模块还不够智能,可能存在误判的情况),请使用undo board-offline命令将网板恢复正常状态,参考“硬件转发故障”章节处理,搜集故障信息并发送技术支持人员分析。

·     多块网板被隔离,通常为接口板故障导致,请参考“硬件转发故障”章节处理,搜集故障信息并发送技术支持人员分析。

5. 单板状态Illegal

(1)     确认是否是S12500设备使用的单板。

(2)     确认软件版本是否支持,新的单板在较低的软件版本上是无法启动的,请升级版本。

(3)     将单板放到别的槽位确认。

(4)     如果以上原因都不是,请更换单板并搜集故障信息并发送技术支持人员分析。

6. 单板重启

这里的单板重启是指单板出现过重启,而当前单板状态是Normal

(1)     通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行reboot重启或进行单板上下电等操作。

(2)     display version命令支持查询单板最近一次重启的原因。比如4.2.1  2. 单板重启确认中“Last reboot reason表示单板最近一次重启原因是设备上电。

(3)     如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。

(4)     确认日志中重启时有无出现“Slot X need to be rebooted automatically!”提示信息这种情况是不正常的。请更换单板并搜集故障信息并发送技术支持人员分析。

(5)     确认日志中有无Hardware error提示信息,设备运行过程中单板出现Hardware error是不正常的。code031>=100表示单板存在电源故障请更换单板并搜集故障信息并发送技术支持人员分析;其他的code值请搜集信息发送给技术支持人员分析。

%Jul  7 18:10:50:890 2012 H3C DIAG/1/ALERT: -MDC=1; Hardware error! slot=6, code=0

%Jul  7 18:10:50:890 2012 H3C DIAG/1/ALERT: -MDC=1; Hardware error! slot=6, code=1

%Jul  7 18:10:50:890 2012 H3C DIAG/1/ALERT: -MDC=1; Hardware error! slot=6, code=2

(6)     通过命令行display hardware-failure-detection查询,有无对应时间点的重启记录。如存在记录,请搜集故障信息并发送技术支持人员分析。

(7)     如无法确认,请搜集故障信息并发送技术支持人员分析。

4.3  电源故障

4.3.1  故障描述

1. 电源监控模块指示灯异常

当电源监控模块指示灯出现以下状态,表示电源部件可能有故障:

·     RUN指示灯灭,表示电源监控模块有故障;

·     S12504MAJOR指示灯常亮, S12508/S12518ALM灯闪烁或者常亮,可能表示电源模块有故障。

2. 电源模块指示灯异常

电源故障指示灯常亮,表示电源模块出现故障。

3. 交换机打印PSUPMU异常告警信息,如:%Jun 26 10:13:46:233 2013 H3C DEV/2/POWER_MONITOR_FAILED: -MDC=1; Power monitor unit 1 failed.

%Jun  27 18:10:50:890 2013 H3C DEVD/4/DRV_DEV_PSU_CHANGED: -MDC=1;  Chassis 1: PSU ID may be changed, please check it!

4.3.2  故障处理步骤

(1)     PSU是电源模块,PMU是电源监控模块。请检查模块是否在位并插稳,PSUPMU状态指示灯是否正常。如某个模块不正常,请对怀疑的故障模块拔插、与正常的模块更换做交叉验证。

(2)     检查电源线的连接:拔下再重新连接电源线,确认电源线是否松动;更换电源线,然后查看电源模块指示灯是否恢复正常。

(3)     检查交换机连接的供电系统:确认供电系统正常供电,电压正常。

(4)     检查电源模块是否存在输出短路、输出过流、输出过压、输入欠压、温度过热等问题。

(5)     通过display power-supply命令检查PSU Status状态是否是Normal,如果物理上电源模块或者电源监控模块实际是在位的,但是却显示为空或者Absent,则说明存在问题,后面显示了具体的问题原因,其中:Under-vol一般代表没有插电源线或者外部电源接触不良;其他错误情况请对怀疑的故障模块拔插、交叉验证,以确认是模块没有插稳,还是模块自身故障导致。

<Sysname>display power-supply

Power info on chassis 2:

PSU 1/1    state: Normal

PSU 1/2    state: Normal

PSU 1/3    state: Normal

PSU 1/4    state: Normal

PSU 1/5    state: Normal

PSU 1/6    state: Normal

PSU 1/7    state: Normal

PSU 1/8    state: Normal

PSU 1/9    state: Normal

PSU 1/10   state: Normal

PSU 1/11   state: Normal

PSU 1/12   state: Normal

PSU 1/13   state: Normal

PSU 1/14   state: Normal

PSU 1/15   state: Normal

PSU 1/16   state: Normal

(6)     通过display power-supply verbose命令检查PMU信息System power monitoring unit是否能正常显示如无法显示请检查对应PMU模块如拔插、与正常的模块交叉。

(7)     通过display power-supply verbose命令检查Line-card power status,如单板实际在位,但是对应单板状态却显示为以下几种状态,表明电源是存在问题的:

·     Absent:单板不在位,请参照单板状态Absent处理。

·     Wait:由于系统功率不足,单板处于待上电状态,一旦系统功率足够,会自动给单板上电,请检查外部电源、各电源模块是否正常。

·     Off:单板由于用户操作或电源故障等原因被主动下电,这类单板不会自动上电,请参照单板状态Off处理。

<Sysname> display power-supply verbose

Power info on chassis 0:

System power-supply policy: enable

System power-module redundant(configured): 1

System power usable: 4725 Watts

System power redundant(actual): 0 Watts

System power allocated: 2685 Watts

System power available: 2040 Watts

System power used(current): 1338.12 Watts

 

System power monitoring unit 1:

        Software version: 200

 

Type        In/Out  Rated-Vol(V)  Existing  Usable  Redundant(actual)

----------  ------  ------------  --------  ------  -----------------

PSE9000-A   AC/DC   220(default)  2         2       0

 

DC output voltage information:

Tray Value(V)  Upper-Threshold(V)  Lower-Threshold(V)  Status

---- --------  ------------------  ------------------  -------

  1  49.93     52.00               48.00               Normal

 

DC output current information:

Total current(A): 26.80

Branch   Value(A)

------   --------

 1/1       N/A

 1/2       N/A

 1/3       N/A

 1/4       N/A

 1/5       N/A

 1/6       N/A

 1/7       16.40

 1/8       10.40

 

PSU Status:

ID  Status  Input-Err   Output-Err High-Temperature Fan-Err Closed Current-Limit

--- ------- ----------- ---------- ---------------- ------- ------ -------------

1/1  Absent

1/2  Absent

1/3  Absent

1/4  Absent

1/5  Absent

1/6  Absent

1/7  Normal

1/8  Normal

 

Line-card power status:

Slot  Board-Type       Watts  Status

----  ---------------  -----  ------

 2    None             --     Absent

 3    None             --     Absent

 4    None             --     Absent

 5    None             --     Absent

 6    None             --     Absent

 7    None             --     Absent

 8    None             --     Absent

 9    Unknown          190    On

 

PMU 1: normal

    Protocol: 21

    Type: LST1PMUB

    Vendor: H3C

    Current Ver: 200

    Boot Ver: 205

    Low-Area Ver: 200

    High-Area Ver: 290

    Current-Area: Low

    PCB Ver: Ver.A

    Backplane PCB Ver: Ver.A

    Backplane Type: LST19KA2PSB

    PMU Temperature: 25

    PSU Count: 2

    PSU Actual Output: 50V

 

     ID     Temperature Fan 0 Speed Fan 1 Speed Actual Current

    ----    ----------- ----------- ----------- --------------

    Run7     64          37          0           16

    Run8     41          134         133         10

 

      ID    Inp-Vol RatedPower Type             Hardware         SN

    -----   ------- ---------- ---------------- ---------------- --------------

    Info7  220     2725       CP2725AC54TE     1:3C             12KZ33020750

    Info8  220     2000       CP2000AC54PE     1:14             11CS18000957

(8)     PSUPMU模块故障,请更换对应的模块;如故障无法确认,请信息发送给技术支持人员协助分析。

4.4  风扇故障

4.4.1  故障描述

1. 风扇框指示灯异常,

风扇框RUN指示灯灭, ALM灯闪烁或者常亮,表示风扇框出现故障。

2. 设备打印风扇异常信息,如:

%Jun 26 10:12:24:805 2013 H3C DEV/3/FAN_ABSENT: -MDC=1; Chassis 2 Fan 2 is absent.

%Jun 26 10:12:32:805 2013 H3C DEVD/2/DRV_DEV_FAN_CHANGE: -MDC=1;  Chassis 2: Fan communication state changed: Fan 1 changed to fault.

%Jun 26 10:12:42:405 2013 H3C DEV/2/FAN_FAILED: -MDC=1; Chassis 2 Fan 1 failed.

4.4.2  故障处理步骤

(1)     如果所有指示灯都为灭,请确认电源模块是否正常工作,具体请参见“4.3  电源故障”。

(2)     风扇框在位时,用手放在设备出风口,判断是否有出风,如果出风口无风,则风扇异常

(3)     检查风扇的入风口、出风口是否被挡住或积累太多灰尘。

(4)     检查风扇框是否正常在位,各个风扇的状态是否正常、转速是否相差达到50%以上。如存在异常,建议通过风扇框拔插、更换交叉进一步确认。

(5)     如果故障不能恢复,需要更换该风扇框,但当前没有风扇框,请关闭设备以免发生温度高导致单板烧坏;如果有降温措施保证系统工作在50度以下,可以暂时继续使用设备。

(6)     如果通过上述步骤仍然无法排除故障,请联系代理商或当地用服工程师进行处理。

<Sysname>display fan verbose

Fan-tray verbose state on chassis 0:

Fan-tray 1:

Software version: 204

Hardware version: Ver.A

Fan number: 8

Temperature: 33

High temperature alarm threshold: 60

Low speed alarm threshold: 30 %

Fan  Status      Speed(%)

---  ----------  ----------

 1   normal      50 %

 2   normal      50 %

 3   normal      50 %

 4   normal      50 %

 5   normal      50 %

 6   normal      50 %

 7   normal      45 %

 8   normal      45 %

 Type: FCU

 Current Ver: 204

 Boot Ver: 100

 Low-Area Ver: 204

 High-Area Ver: 203

 Current-Area: Low

4.5  温度告警

4.5.1  故障描述

设备打印温度过低、过高等告警信息,如:

%Jun 26 10:13:46:233 2013 H3C DEV/4/TEMPERATURE_WARNING: -MDC=1; Temperature is greater than warning upper limit on Chassis 1 slot 2 sensor inflow 1.

4.5.2  故障处理步骤

(1)     检查环境温度是否正常。如果环境温度较高,请确认原因,比如机房通风不畅、空调制冷故障等。

(2)     检查设备当前的temperature温度是否超出上下的WarningAlarm门限。也可以用手触摸单板,确认单板是不是很烫,如单板温度很高,请立即检查原因。持续处于较高的温度下,可能会导致单板损坏。

·     如果温度过高,请参照4.4  风扇故障确认是否风扇故障导致。

·     如果温度值为error或出现明显不合实际的值,可能是通过I2C总线访问单板温度传感器异常。设备光模块信息访问也是通过相同的I2C总线,请继续检查单板读取光模块信息是否正常。如光模块访问正常,请使用下面命令重新设置单板温度,并通过display environment查看是否设置成功。

[Sysname]temperature-limit chassis 2 slot 0 hotspot 1 -20 85 90

<Sysname>display environment

System temperature information (degree centigrade):

-------------------------------------------------------------------------------

Slot  Sensor    Temperature  LowerLimit  WarningLimit  AlarmLimit ShutdownLimit

2/0   inflow  1       35         -25           70           85          N/A

2/0   outflow 1       40         -20           80           85          N/A

2/0   hotspot 1       43         -20           85           90          N/A

2/2   inflow  1       39         -20           70           85          N/A

2/2   outflow 1       40         -10           80           90          N/A

2/2   hotspot 1       41         -10           80           90          N/A

2/3   inflow  1       41         -20           70           85          N/A

2/3   outflow 1       57          15           80           85          N/A

2/3   hotspot 1       41         -20           75           80          N/A

2/3   hotspot 2       50           0           75           80          N/A

2/4   inflow  1       43         -20           70           85          N/A

2/4   outflow 1       60          15           80           85          N/A

2/4   hotspot 1       43         -20           75           80          N/A

2/4   hotspot 2       54           0           75           80          N/A

(3)     如果仍然无法确认故障原因,搜集信息并发送给技术支持人员协助分析。

 

4.6  故障诊断命令

命令

说明

display device

显示设备信息,检查各单板的状态是否正常

display environment

显示交换机的温度信息,检查环境温度是否正常(是否超出温度告警阈值)

display fan

显示设备内置风扇的工作状态

display hardware-failure-detection

显示交换机的硬件故障检测和修复信息,包括各种故障对应的修复操作,以及系统中每个单板最近十次故障修复的历史信息

display power-supply

显示交换机上的电源系统信息。详细信息包括下列信息:

·     电源管理使能状态

·     电源类型、额定输入电压和额定输出功率

·     冗余电源模块数,各模块可用的、冗余的、已用的、剩余的功率

·     在位电源模块的状态

·     接口板的供电状态

display system-working-mode

显示设备的系统工作模式,确认当前系统工作模式是否支持该单板正常启动

display version

显示系统版本信息、单板的运行时间以及最后一次重启的原因

save

将当前配置保存到指定文件

system-working-mode

配置系统工作模式,以改变系统硬件资源的分配情况。修改系统工作模式后,需保存配置并重启才会生效

temperature-limit

设置设备的温度告警门限

 

5 链路端口故障处理

5.1  端口错包

5.1.1  故障描述

使用display interface命令查询端口的入、出方向流量统计信息发现错包统计计数不为0

<Sysname> display interface GigabitEthernet1/8/0/1

GigabitEthernet1/8/0/1 current state: UP

Line protocol current state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: b8af-67bc-24fa

Description: GigabitEthernet1/8/0/1 Interface

Loopback is not set

Media type is twisted pair, Port hardware type is 1000_BASE_T

1000Mbps-speed mode, full-duplex mode

Link speed type is autonegotiation, link duplex type is autonegotiation

Flow-control is not enabled

The Maximum Frame Length is 9216

Allow jumbo frame to pass

Broadcast MAX-ratio: 100%

Multicast MAX-ratio: 100%

Unicast MAX-ratio: 100%

PVID: 999

Mdi type: automdix

Port link-type: access

 Tagged Vlan:   none

 UnTagged Vlan: 999

Port priority: 2

Last clearing of counters: Never

 Peak value of input: 70 bytes/sec, at 2013-03-19 13:04:15

 Peak value of output: 210 bytes/sec, at 2013-03-19 13:04:15

 Last 300 seconds input:  0 packets/sec 70 bytes/sec 0%

 Last 300 seconds output:  0 packets/sec 210 bytes/sec 0%

 Input (total):  693897 packets, 72834962 bytes

         22196 unicasts, 584504 broadcasts, 87197 multicasts, - pauses

 Input (normal):  693897 packets, 72834962 bytes

         22196 unicasts, 584504 broadcasts, 87197 multicasts, 152536 pauses

 Input:  0 input errors, 0 runts, 0 giants, 0 throttles

         0 CRC, 0 frame, 0 overruns, - aborts

         - ignored, - parity errors

 Output (total): 7515164 packets, 14001669469 bytes

         20811 unicasts, 6228300 broadcasts, 1266053 multicasts, - pauses

 Output (normal): 7515164 packets, 14001669469 bytes

         20811 unicasts, 6228300 broadcasts, 1266053 multicasts, 0 pauses

 Output: 0 output errors, - underruns, - buffer failures

         0 aborts, 0 deferred, 0 collisions, 0 late collisions

         - lost carrier, - no carrier

1. 端口入方向报文计数错误字段解释

·     input errors:端口接收的错误报文的统计值。

·     runts:表示接收到的超小帧个数。超小帧即接收到的报文小于64字节,且包括有效的CRC字段,报文格式正确。

·     giants:接收到的超大帧的数量。超大帧即超过端口设置的最大报文长度的帧。

·     CRC:表示接收到的CRC校验错误报文个数。

·     frame:端口接收时出错的报文。

·     throttles:接收到的不是整数字节(多17bit、不是8的整数倍)的报文。

2. 端口出方向报文计数错误字段解释

·     output errors:各种输出错误的报文总数。

·     aborts:表示发送失败的报文总数。

·     deferred:表示延迟报文的总数。报文延迟是指因延迟过长的周期而导致发送失败的报文,而这些报文由于发送媒质繁忙而等待了超过2倍的最大报文发送时间。

·     collisions:表示冲突帧总数,即在发送过程中检测到冲突而停止发送的报文。

·     late collisions:表示延迟冲突帧,即发送过程中发生延迟冲突超过512bit时间的帧。

5.1.2  故障处理步骤

1. 端口入方向出现CRCframethrottles错包且计数持续增加

(1)     使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。

(2)     如端口使用光模块,参照5.5  光模块故障确认是否光模块故障导致。

(3)     与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现端口相关,应为单板端口故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。

(4)     排查对端设备或者中间的传输设备。

(5)     如故障无法确认,请将故障信息发送技术支持人员分析。

2. 端口入方向出现Overrun错包且计数持续增加

Overrun计数是由于端口输入速率超出本端口处理能力,导致丢包。

(1)     如果只有某一个端口收发包异常,或者某一个端口下挂设备的业务不通,同时这个单板上的其他端口都是正常的,可以多次查询display interface 命令:

·     如果input errors 有增加,且overruns没有增加,请排查光纤/光模块/对端设备;

·     如果input errors有增加,且等于overruns的增加,那么可以怀疑是单板内部拥塞或堵死,请将故障信息发送技术支持人员分析。

(2)     如果仍然无法确认,请将故障信息发送技术支持人员分析。

3. 端口入方向出现giants错包且计数持续增加

(1)     检查两端的jumbo配置是否一致,如jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。

(2)     如果仍然无法确认,请将故障信息发送技术支持人员分析。

4. 端口出方向出现错包且计数持续增加

(1)     检查端口是否配置为半双工模式,如为半双工,请更改为全双工模式。

(2)     如果仍然无法确认,请将故障信息发送技术支持人员分析。

5.2  端口无法up

5.2.1  故障描述

端口无法正常up

5.2.2  故障处理步骤

1. 端口无法up

(1)     测试端口之间网线、光纤链路是否正常,光纤两端的发送/接收端是否错连;更换端口之间的网线、光纤或将网线、光纤放到别的正常端口,以确认是否中间传输链路故障

(2)     通过display interface命令查看端口状态是否为UP,如果不是,请使用undo shutdown命令激活相应的以太网端口

(3)     检查本端、对端端口配置是否正确,如端口是否shutdown,速率、双工、协商模式、MDI是否正确。

[Sysname]display current-configuration interface Ten-gigabitethernet 1/6/0/1

#

interface Ten-GigabitEthernet1/6/0/1

 port link-mode bridge

 port link-type trunk

 port trunk permit vlan 1 3102

 port link-aggregation group 1

#

Return

表5-1 S12500双工支持情况:

Speed

Duplex

100G

40G

10G

1000M

100M

10M

Full

Support

Support

Support

Support

Support

Support

Half

No support

No support

No support

No support

No support

No support

 

(4)       如端口使用光模块,请检查两端光模块类型是否一致,如速率、波长、单模多模状态等;与正常的光模块交叉更换,并参照5.5  光模块故障排除是否为光模块故障导致。

[Sysname]display transceiver interface Ten-gigabitethernet 2/9/0/1

Ten-GigabitEthernet2/9/0/1 transceiver information:

  Transceiver Type              : 10G_BASE_LR_XFP

  Connector Type                : LC

  Wavelength(nm)                : 1310

  Transfer Distance(km)         : 10(SMF)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : FINISAR CORP.

(5)     如确认为光模块故障,请更换光模块,并将故障信息发送技术支持人员分析。

5.3  端口由up变成down

5.3.1  故障描述

端口状态由up变成down

5.3.2  故障处理步骤

(1)     查看本设备及对端设备日志,确认有无端口shutdown操作。

(2)     查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口shutdown。如这里的GE2/6/0/1端口出现“Protect DOWN”,是由于hardware-failure-detection配置为isolate级别,当设备在线诊断模块检测到端口故障时,将端口shutdown隔离,以便流量切换到备份链路。请将故障信息发送技术支持人员分析。

[Sysname] display interface gigabitethernet2/6/0/1

GigabitEthernet2/6/0/1 current state: Protect DOWN

Line protocol current state: DOWN

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0000-e80d-c000

Description: GigabitEthernet2/6/0/1 Interface

Loopback is not set

Media type is optical fiber, Port hardware type is 1000_BASE_SX_SFP

Unknown-speed mode, unknown-duplex mode

Link speed type is autonegotiation, link duplex type is autonegotiation

Flow-control is not enabled

The Maximum Frame Length is 9216

 ……

(3)     参照5.2  端口无法up,排查两端端口配置,网线、光模块、光纤等链路是否正常。

(4)     如仍无法确认,请搜集本端、对端设备信息,并将信息发送技术支持人员分析。

5.4  端口频繁up/down

5.4.1  故障描述

端口频繁up/down

5.4.2  故障处理步骤

(1)     对于光口,请参照5.5  光模块故障确认光模块是否异常。查看光模块alarm信息来排查两端光模块以及中间光纤问题;对于支持诊断功能的光模块可以通过查看diagnosis信息确认光模块的光功率是否处于上下门限临界值。如发送光功率处于临界值,请更换光纤、光模块做交叉验证;如接收光功率处于临界值,请排查对端光模块及中间光纤链路。

(2)     对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。

(3)     如果故障依存在,请排查链路、对端设备、中间设备。

(4)     如仍无法确认,请将故障信息发送技术支持人员分析。

5.5  光模块故障

5.5.1  故障描述

安装光模块的接口不能正常工作。

5.5.2  故障处理步骤

(1)     检查光模块Alarm告警信息。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。

<Sysname>display transceiver alarm interface GigabitEthernet 2/0/1

GigabitEthernet2/0/1 transceiver current alarm information:

  TX fault

  RX power high

表5-2 光模块告警信息说明

字段

描述

SFP/SFP+/CFP/QSFP+

RX loss of signal

接收信号丢失

RX power high

接收光功率高告警

RX power low

接收光功率低告警

TX fault

发送错误

TX bias high

偏置电流高告警

TX bias low

偏置电流低告警

TX power high

发送光功率高告警

TX power low

发送光功率低告警

Temp high

温度高告警

Temp low

温度低告警

Voltage high

电压高告警

Voltage low

电压低告警

Transceiver info I/O error

模块信息读写错误

Transceiver info checksum error

模块信息校验和错误

Transceiver type and port configuration mismatch

模块类型和端口配置不匹配

Transceiver type not supported by port hardware

端口不支持该模块类型

XFP

RX loss of signal

接收信号丢失

RX not ready

接收状态未就绪

RX CDR loss of lock

RX CDR时钟失锁

RX power high

接收光功率高告警

RX power low

接收光功率低告警

TX not ready

发送状态未就绪

TX fault

发送错误

TX CDR loss of lock

TX CDR时钟失锁

TX bias high

偏置电流高告警

TX bias low

偏置电流低告警

TX power high

发送光功率高告警

TX power low

发送光功率低告警

Module not ready

模块状态未就绪

APD supply fault

APDAvalanche Photo Diode,雪崩光电二极管)错误

TEC fault

TECThermoelectric Cooler,热电冷却器)错误

Wavelength unlocked

光信号波长失锁

Temp high

温度高告警

Temp low

温度低告警

Voltage high

电压高告警

Voltage low

电压低告警

Transceiver info I/O error

模块信息读写错误

Transceiver info checksum error

模块信息校验错误

Transceiver type and port configuration mismatch

模块类型和端口配置不匹配

Transceiver type not supported by port hardware

端口不支持该模块类型

 

(2)     检查光模块的接收、发送光功率是否正常(即在该光模块的光功率上下门限值之内)。

对于H3C定制且支持诊断功能的光模块,可以通过命令行查询光模块的接收、发送光功率是否超出其上下门限值;其他光模块可以使用同样命令尝试查询,但有可能查询不到。

a.     查看光模块的电子标签信息,Verdor Name显示为H3C表示是H3C定制光模块。

<Sysname>display transceiver manuinfo interface Ten-gigabitethernet 1/2/0/15

Ten-GigabitEthernet1/2/0/15 transceiver manufacture information:

  Manu. Serial Number : 213410A0000054000251

  Manufacturing Date  : 2012-10-26

  Vendor Name         : H3C

b.     通过下述命令确认光模块是否支持诊断功能,Digital Diagnostic MonitoringYES表示支持诊断功能。

<Sysname>display transceiver interface

Ten-GigabitEthernet1/2/0/15 transceiver information:

  Transceiver Type              : 10G_BASE_LR_XFP

  Connector Type                : LC

  Wavelength(nm)                : 1310

  Transfer Distance(km)         : 10(SMF)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : FINISAR CORP.

c.     通过命令display transceiver diagnosis interface查询光模块的实时接收、发送光功率。

<Sysname>display transceiver diagnosis interface

Ten-GigabitEthernet1/2/0/15 transceiver diagnostic information:

  Current diagnostic parameters:

    Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM)

    41         3.26        42.43     -40.00         -2.20

d.     通过display transceiver interface display transceiver diagnosis interface命令查询光模块的接收发送光功率的上下门限值。

有可能出现通过这两个命令行都可以查询、且查询出来的接收发送光功率上下门限值存在差异的情况,此时请以范围最小的上下门限值为准。

display transceiver diagnosis interface命令还可以查询实时的接收发送光功率、温度及其上下门限值、电压及其上下门限值、偏置电流及其上下门限值,命令行中Current diagnostic parameters下数据表示光模块当前的温度、电压、偏置电流、接收光功率、发送光功率,Alarm thresholdsHighLow数据表示温度、电压、偏置电流、接收光功率、发送光功率的上下门限值。

<Sysname>display transceiver interface Ten-GigabitEthernet 1/2/0/15

Ten-GigabitEthernet1/2/0/15 transceiver information:

  Transceiver Type              : 10G_BASE_LRM_SFP

  Connector Type                : LC

  Wavelength(nm)                : 1310

  Transfer Distance(m)          : 220(OM2),220(OM1),220(OM3)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : FINISAR CORP.

  Max. TX Power(dBm)            : UNKNOWN

  Min. TX Power(dBm)            : UNKNOWN

  Min. RX Power(dBm)            : UNKNOWN

  Max. RX Power(dBm)            : UNKNOWN

  Original Manufacturer         : FINISAR CORP.

  Part Number                   : FTLX1371D3BCL-HC

  Rev Number                    : A

  Serial Number                 : UG903SL

  Product Date                  : 09-09-14

<Sysname>display transceiver diagnosis interface Ten-GigabitEthernet 1/2/0/15

Ten-GigabitEthernet1/2/0/15 transceiver diagnostic information:

  Current diagnostic parameters:

    Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM

    43         3.35        46.33     -3.60          -2.38

  Alarm thresholds:

          Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM

    High  73         3.80        92.40     2.50           3.50

    Low   -3         2.81        1.00      -16.40         -11.20

  Parameters when first used on N/A:

    Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBm)  TX power(dBm)

    N/A        N/A         N/A       N/A            N/A

  Total account of alarms: 0

  Latest occurrence of different alarms:

    Type       Date           Description

    Temp.      N/A            N/A

    Voltage    N/A            N/A

    Bias       N/A            N/A

    RX power   N/A            N/A

    TX power   N/A            N/A

    TX         N/A            N/A

    RX         N/A            N/A

    Others     N/A            N/A

  Latest three alarms:

    Date           Description

    N/A            N/A

    N/A            N/A

    N/A            N/A

 

(3)     对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。

(4)     如仍无法确认,请将故障信息发送技术支持人员分析。

建议尽量使用H3C定制光模块。可通过display transceiver manuinfo命令来查询光模块的定制厂商信息,如果Vendor NameH3C,说明是H3C定制光模块。

5.6  故障诊断命令

命令

说明

display current-configuration

显示设备当前生效的配置,指定interface可以显示指定接口当前生效的配置

display interface

查询端口的入、出方向流量统计信息、端口状态。可查看是否存在错包及错包统计信息。

display transceiver alarm

显示可插拔接口模块的当前故障告警信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值,包括温度、电压、偏置电流、接收光功率、发送光功率

display transceiver interface

显示指定接口可插拔接口模块的主要特征参数。检查两端光模块类型是否一致,如速率、波长、单模多模状态等

display transceiver manuinfo

显示可插拔接口模块的电子标签信息。可用来查询光模块的定制厂商。


6 硬件转发故障

6.1  转发通道故障

6.1.1  故障描述

使能设备的转发通道自动检测功能后(缺省使能),各接口板之间会周期性的发送测试报文,检测各个接口板转发芯片的转发业务是否正常。

[Sysname] forward-path-detection enable

如设备转发异常,设备会不断打印Forwarding faultBoard fault等提示信息,如:

%Jun 26 09:51:53:207 2013 H3C DIAG/1/ALERT: -MDC=1-Chassis=2-Slot=4; Forwarding fault: chassis 2 slot 6 to chassis 2 slot 4

%Jun 26 09:51:57:621 2013 H3C DIAG/1/ALERT: -MDC=1; Board fault: chassis 2 slot 6,please check it

%Jun 26 09:51:59:251 2013 H3C DIAG/1/ALERT: -MDC=1-Chassis=2-Slot=6; Forwarding fault: chassis 2 slot 6 to chassis 2 slot 6

%Jun 26 09:52:05:621 2013 H3C DIAG/1/ALERT: -MDC=1; Board fault: chassis 2 slot 6,please check it

%Jun 26 09:52:12:621 2013 H3C DIAG/1/ALERT: -MDC=1; Board fault: chassis 2 slot 6,please check it

%Jun 26 09:52:22:621 2013 H3C DIAG/1/ALERT: -MDC=1; Board fault: chassis 2 slot 6,please check it

6.1.2  故障处理步骤

S12500设备单板类型有主控板、接口板、交换网板,其中接口板与交换网板负责业务流量转发,流量在多块交换网板之间负载分担,而主控板仅负责控制管理,不参与业务流量转发。

·     如果Forwarding fault打印都是某一块接口板到其他多块接口板的转发故障,则该接口板故障的可能性较大(当然也不排除其他单板故障的可能性,比如有时候某块交换网板故障也可能导致只打印到某块接口板故障)。

如果不确定接口板是否故障,建议先逐块隔离交换网板(确保交换网板数量大于等于2,有冗

余备份),观察交换网板隔离后故障是否消失(交换网板隔离后不再参与流量转发;交换网板 

隔离动作不会引起丢包)。

如果隔离模块交换网板后故障消失,说明该交换网板故障;如果所有交换网板隔离一遍后故

障仍存在,那么应为接口板故障导致,建议把设备接口板上的业务切走后通过隔离或更换接

口板的方式进一步确认。

·     如果多块接口板之间都有Forwarding fault打印,那么交换网板故障可能性大,需要进一步通过上述逐块隔离网板的方式来确认是不是哪块网板故障引起。以S12508为例说明网板隔离步骤,其中1018槽位为网板:

a.     隔离10槽位网板,隔离后等待一段时间,观察故障是否消失。

[Sysname] board-offline slot 10

Caution: This command is only for diagnostic purpose which will cause board normal service unusable. Continue? [Y/N]:y

Config successfully

b.     取消10槽位网板隔离,待网板重启Normal后,隔离11槽位网板并观察故障是否消失。

[Sysname] undo board-offline slot 10

This command will reboot the specified board. Continue? [Y/N]:y

Config successfully

c.     按照上面的方法,依次隔离1218槽位网板,直到所有网板隔离确认一遍。

6.2  硬件在线诊断和故障保护

配置硬件在线诊断和故障保护功能(hardware-failure-detection命令)后,当设备检测到器件、单板和转发层面的硬件故障时,会自动采取用户配置的处理措施,以便降低故障对设备的影响。

用户可配置的处理措施有:

·     off:检测到故障时,设备不进行任何操作。

·     isolate:检测到故障时,设备会自动关闭端口、隔离单板、禁止单板加载或给单板下电,从而尽量减小故障的影响。

·     reset:检测到故障时,设备会自动重启器件/单板以尝试修复故障。

·     warning:检测到故障时,设备发送Trap信息,不会修复故障。

在业务存在备份链路时,建议将设备配置为isolate,以便出现故障时能够自动检测切换,快速恢复业务,配置如下:

[Sysname] hardware-failure-detection chip isolate

Config successfully

[Sysname] hardware-failure-detection board isolate

Config successfully

[Sysname] hardware-failure-detection forwarding isolate

Config successfully

其中chip/board/forwarding参数含义如下:

·     chip:对器件故障进行在线检测,包括单板上各种器件(比如芯片、电容、电阻等)的检测

·     board:对单板故障进行在线检测,包括控制通道检测和单板状态快速检测

·     forwarding:对转发层面的故障进行在线检测,包括业务自动检测和其他转发相关的检测

通过以下命令可以查看设备当前的硬件故障检测和修复信息。

<Sysname> display hardware-failure-detection

Current level:

    chip       : isolate

    board      : isolate

    forwarding : warning

--------------------------Slot  0 executed records:-----------------------------

                 There is no record.

--------------------------Slot  0 trapped records:-----------------------------

                 There is no record.

6.3  故障诊断命令

命令

说明

board-offline

从系统中隔离指定单板

display hardware-failure-detection

显示交换机的硬件故障检测和修复信息,包括各种故障对应的修复操作,以及系统中每个单板最近十次故障修复的历史信息

forward-path-detection enable

使能转发通道自动检测功能。用于检测设备中的数据转发通道是否正常

hardware-failure-detection

配置硬件故障在线检测和故障发生时自动采取的操作,以便出现硬件故障时能够自动检测、快速恢复业务


7 报文转发故障处理

7.1  ping不通或丢包

7.1.1  故障描述

报文转发丢包,ping不通或ping丢包,tracert异常。

<Sysname>ping 10.0.0.5

PING 10.0.0.5 (10.0.0.5): 56 data bytes, press CTRL_C to break

Request time out

Request time out

Request time out

Request time out

Request time out

 

--- 10.0.0.5 ping statistics ---

5 packet(s) transmitted, 0 packet(s) received, 100.0% packet loss

 

7.1.2  故障处理步骤

1. 设备入出报文统计

报文转发异常通常会涉及多台设备,需要逐一排查。为方便排查,排查前建议先明确报文的转发走向,如经过哪些中间设备,在设备的哪些接口进入设备,又会从哪些接口出去。通过镜像抓包或配置ACL规则统计设备有没有收到或发出相应的业务报文,以配置ACL规则统计端口入方向Ping报文为例:

(1)     定义相关的ACL

[Sysname]acl number 3000

[Sysname-acl-adv-3000] rule 1 permit ip destination 1.1.1.1 0

(2)     定义流分类和流行为

[Sysname]traffic classifier  statistic_1

[Sysname-classifier-static] if-match acl 3000

[Sysname] traffic behavior statistic_1

[Sysname-classifier-static] accounting packet

(3)     定义策略

[Sysname] qos policy statistic_1

[Sysname-classifier-static] classifier statistic_1 behavior statistic_1

(4)     将策略应用到端口入方向

[Sysname] interface gigabitehternet 8/0/1

[Sysname-GigabitEthernet8/0/1] qos apply  policy statistic_1 inbound

(5)     检查入方向报文统计计数,可以通过reset counter interface命令清除计数

[Sysname] display qos policy interface gigabitethernet8/0/1

Interface: GigabitEthernet8/0/1

 

  Direction: Inbound

 

  Policy: statistic_1

   Classifier: statistic_1

     Operator: AND

     Rule(s) : If-match acl 3000

     Behavior: statistic_1

      Accounting Enable:

        1000 (Packets)

2. 报文计数分析

如果设备未收到Ping报文,请排查上游的相邻设备;如果设备发送的Ping报文计数正确,建议排查下游的相邻设备;如果Ping报文入出计数不正确,请参照L2转发故障L3转发故障MPLS转发故障继续排查。

7.2  L2转发故障

7.2.1  故障描述

S12500与属于同一个网段、使用相同VLAN的设备之间,二层流量丢包/不通。报文在设备上进行二层转发的条件是报文的目的MAC与交换机自身的MAC不相等。注意:交换机自身 MAC地址有多个,属于同一个地址段,比如下面显示的是交换机VLAN接口的MAC

[Sysname]display interface vlan-interface 10

Vlan-interface10 current state: UP

Line protocol current state: UP

Description: Vlan-interface10 Interface

The Maximum Transmit Unit is 1500

Internet Address is 1.1.1.1/24 Primary

IP Packet Frame Type: PKTFMT_ETHNT_2,  Hardware Address: 00e0-fc00-6503

IPv6 Packet Frame Type: PKTFMT_ETHNT_2,  Hardware Address: 00e0-fc00-6503

Last clearing of counters:  Never

 

7.2.2  故障处理步骤

1. 配置检查

检查二层配置是否正常,如:

·     VLAN/PVID

·     报文过滤

·     报文重定向

·     流量监管(CAR

·     流量整形GTS

·     未知单播/组播/广播报文抑制

2. MAC检查

检查MAC学习的端口是否正确,是否存在环路导致MAC学习到错误端口,必要时可以配置静态MAC来快速恢复业务。

<Sysname>display mac-address

MAC Address      VLAN ID    State            Port/NickName            Aging

0010-9400-0002   10         Learned          GE2/6/0/1                Y

000f-e259-79c0   25         Learned          GE2/15/0/1               Y

00e0-fc12-3456   25         Learned          GE2/15/0/1               Y

0023-8956-7b00   3102       Learned          XGE2/4/0/1               Y

0023-8956-7b00   3202       Learned          XGE2/4/0/8               Y

 

3. L2报文计数检查

·     统计入端口计数

[Sysname]qos traffic-counter inbound counter0 slot 3 interface gigabitehternet 3/0/1

·     多次查询计数观察入端口discarded丢包计数是否增加。如丢包计数持续增加,请参照7-1计数描述检查端口配置是否正确;如丢包无法确认,请将故障信息发送技术支持人员分析。

<Sysname>display qos traffic-counter inbound counter0 slot 3

Slot 3 inbound counter0 mode:

Interface: GigabitEthernet3/0/1

VLAN: all

Traffic-counter summary:

  Summary inbound: 578199 packets

  Dropped of local filtering: 0 packets

  Dropped of VLAN filtering: 0 packets

  Dropped of security filtering: 0 packets

表7-1 入端口统计计数描述表

字段

描述

Slot 3 inbound counter0 mode

3槽位单板上计数器0统计入方向流量的监控对象

Interface

本计数器所统计的接口

VLAN

本计数器所统计的VLAN

Traffic-counter summary

本计数器统计信息汇总

Summary inbound

桥(二层)接收到的报文个数

Dropped of local filtering

桥(二层)丢弃报文个数(除了桥安全过滤和VLAN入方向过滤外的其他原因丢弃的报文数)

Dropped of VLAN filtering

VLAN入方向过滤报文数

Dropped of security filtering

桥(二层)安全过滤报文数

 

·     配置统计出端口计数

[Sysname]qos traffic-counter outbound counter0 slot 4 interface gigabitethernet 4/0/1

·     多次查询计数观察出端口discarded丢包计数是否增加。请参照7-2计数描述检查端口配置是否正确;如丢包无法确认,请将故障信息发送技术支持人员分析。

[Sysname]display qos traffic-counter outbound counter0 slot 4

Slot 4 outbound counter0 mode:

 Interface: GigabitEthernet4/0/1

 VLAN: all

 Local precedence: all

 Drop priority: all

 Traffic-counter summary:

  Unicast: 0 packets

  Multicast: 0 packets

  Broadcast: 0 packets

  Control packets: 18 packets

  Bridge egress filtered packets: 0 packets

  Tail drop packets: 0 packets

  Tail drop multicast packets: 993827 packets

  Forwarding restrictions packets: 0 packets

表7-2 出端口统计计数描述表

字段

描述

Slot 4 outbound counter0 mode

单板上某计数器统计出方向流量的监控对象

Interface

本计数器所统计的接口

VLAN

本计数器所统计的VLAN

Local precedence

本计数器所统计的本地优先级

Drop priority

本计数器所统计的丢弃优先级

Traffic-counter summary

本计数器统计信息汇总

Unicast

单播报文数

Multicast

组播报文数

Broadcast

广播报文数

Control packets

控制报文数

Bridge egress filtered packets

下行桥过滤报文数

Tail drop packets

尾丢弃报文数

Tail drop multicast packets

尾丢弃组播报文数

Forwarding restrictions packets

禁止转发报文数(目前,该项暂不支持)

 

7.3  L3转发故障

7.3.1  故障描述

故障现象通常有三层业务异常、ping/tracert丢包/不通。

注意三层转发的IP路由表并不是真正的IP转发表,路由管理通过各路由协议选择最佳的路由,并将选中的路由发送给软件IP转发表(FIB),FIB再将路由同步到芯片驱动IP转发表,最终实现业务转发,如7-1所示。

图7-1 路由表与转发表关系

7.3.2  故障处理步骤

1. 报文目的MAC检查

报文在交换机上进行三层转发的条件是报文的目的MAC为交换机本身的MAC。通过镜像或抓包确认这个条件是否满足。注意交换机自身的MAC地址有多个,属于同一个地址段,比如下面显示的是VLAN接口的MAC

[Sysname]display interface vlan-interface 10

Vlan-interface10 current state: UP

Line protocol current state: UP

Description: Vlan-interface10 Interface

The Maximum Transmit Unit is 1500

Internet Address is 1.1.1.1/24 Primary

IP Packet Frame Type: PKTFMT_ETHNT_2,  Hardware Address: 00e0-fc00-6503

IPv6 Packet Frame Type: PKTFMT_ETHNT_2,  Hardware Address: 00e0-fc00-6503

Last clearing of counters:  Never

 

2. 路由表检查

检查设备到某一目的IP网段的路由是否存在,如路由不存在,请检查路由协议配置、状态是否正确。

[Sysname]display ip routing-table 1.1.1.0

 

Summary Count : 1

 

Destination/Mask    Proto  Pre  Cost         NextHop         Interface

 

1.1.1.0/24          Static 60   0            20.0.0.2        Vlan20

3. FIB表检查

检查设备到某一目的IP网段的FIB表项是否存在,如路由存在、FIB表项异常,请将故障信息发送技术支持人员分析。

[Sysname]display fib 1.1.1.0

Destination count: 1 FIB entry count: 1

 

Flag:

  U:Useable   G:Gateway   H:Host   B:Blackhole   D:Dynamic   S:Static

  R:Relay     F:FRR

 

Destination/Mask   Nexthop         Flag     OutInterface/Token       Label

1.1.1.0/24         20.0.0.2        USG      Vlan20                   Null

 

4. ARP检查

检查设备ARP学习的接口是否正确,如学习接口不正确,请通过reset arp命令重新学习ARP,必要时可以配置静态ARP。如ARP学习的接口一直不正确,将故障信息发送技术支持人员分析。

[Sysname]display arp 20.0.0.2

Type: S-Static    D-Dynamic    M-Multiport    I-Invalid

IP address      MAC address    VLAN     Interface                Aging Type

20.0.0.2        0000-0000-0001 20       GE2/0/1                  N/A   S

 

5. 路由引擎丢包检查

通过更改绑定模式并读取计数可以确认出具体的丢包类型。确定了丢包类型后,再请排查对应软件模块的问题。如以上检查后仍无法确认,请将故障信息发送技术支持人员分析。

<Sysname>system-view

[Sysname]probe

[Sysname-probe] set hardware internal ipuc dropcnt 2 slot 2

Dropcnt set ok

[Sysname-probe] display hardware internal ipuc cnt 0 slot 2

Pp0 cnt info:

  …

  RouterDropCnt: 0

  …

[Sysname-probe] set hardware internal ipuc dropcnt 5 slot 2

Dropcnt set ok

[Sysname-probe] display hardware internal ipuc cnt 0 slot 2

Pp0 cnt info:

  …

  RouterDropCnt: 3

  …

7.4  MPLS转发故障

7.4.1  故障描述

MPLS常见故障现象有:

·     目的不可达

·     没有相关的路由

·     出现错误信息打印

·     隧道不稳定

·     报文发送接收错误

7.4.2  故障处理步骤

VLLL3VPN是基于LSP建立的。在LSP入节点(即7-2中的PE1)上通过下列方式来检查、确认MPLS网络中哪台设备存在配置错误。

图7-2 MPLS组网图

 

2. MPLS LSP

 

(1)     检查配置的LSP是否存在,如不存在,请检查MPLS  LSP配置是否正确。

[PE1]display mpls lsp

FEC                         Proto    In/Out Label    Interface/Out NHLFE

100.100.100.100/32          LDP      3/-             -

4.4.4.4/32                  LDP      NULL/3          Vlan103

90.0.0.0/24                 LDP      NULL/3          Vlan103

1.1.1.1/32                  LDP      3/NULL          InLoop0

50.0.0.0/24                 LDP      NULL/3          Vlan103

70.0.0.0/24                 LDP      NULL/3          Vlan103

3.3.3.3/32                  LDP      NULL/1025       Vlan103

(2)     检查MPLS LDP会话,如果状态不是Operational,说明会话存在错误,请转步骤(3)、(4);如果MPLS LDP会话正常,请转步骤(5)。

[PE1]display mpls ldp peer

Total number of peers: 1

Peer LDP ID             State         Role     GR   MD5  KA Sent/Rcvd

4.4.4.4:0               Operational   Passive  Off  Off  39/39

(3)     通过display current-configuration configuration ldp命令检查LDP对等体两端md5-password配置是否一致。

<PE1>display current-configuration configuration ldp

#

mpls ldp

md5-authentication 4.4.4.4 cipher $c$3$uNK0ggilqlClQ6Q/CcNQPPqux6mAqU2p

#

return

(4)     通过display mpls ldp interface命令查看LDP接口的相关信息配置信息正确,请检查MPLS LDP配置。

[PE1]display mpls ldp interface

Interface                 MPLS         LDP             Auto-config

Vlan10                    Enabled      Configured      -

GE3/0/2                   Enabled      Configured      -

XGE2/0/6                  Enabled      Configured      -

(5)     检查配置的mpls lsr-id是不是等于Loopback接口IP地址。推荐使用设备上某个Loopback接口的地址作为LSR ID

<PE1>display current-configuration | include lsr-id

 mpls lsr-id 2.2.2.2

<PE1>display ip interface brief

*down: administratively down

(s): spoofing

Interface                    Physical Protocol IP Address      Description

Loop0                        up       up(s)    100.100.100.100 LoopBack0..

Loop2                        up       up(s)    100.100.100.102 LoopBack2..

M-E0/0/0                     up       up       192.168.147.7   M-Etherne..

<PE1>system-view

[PE1]mpls lsr-id 100.100.100.100

(6)     检查在VLAN接口下是否使能MPLSMPLS LDP。如未使能,请使能MPLSMPLS LDP

[PE1]interface vlan-interface 103

[PE1-Vlan-interface103]display this

#

interface Vlan-interface103

 ip address 1.1.1.2 255.255.255.0

 mpls enable

 mpls ldp enable

#

return

3. 路由排查

(1)     检查路由表中PE1PPE2的环回口IP及远端VLAN接口的IP表项是否存在,如不存在,请检查路由协议配置。

[PE1]display ip routing-table

         Destinations : 10       Routes : 10

 

Destination/Mask    Proto  Pre  Cost         NextHop         Interface

 

1.1.1.1/32          Direct 0    0            127.0.0.1       InLoop0

3.3.3.3/32          OSPF   10   2            103.0.0.4       Vlan103

4.4.4.4/32          OSPF   10   1            103.0.0.4       Vlan103

50.0.0.0/24         OSPF   10   2            103.0.0.4       Vlan103

70.0.0.0/24         OSPF   10   2            103.0.0.4       Vlan103

90.0.0.0/24         OSPF   10   2            103.0.0.4       Vlan103

103.0.0.0/24        Direct 0    0            103.0.0.1       Vlan103

103.0.0.1/32        Direct 0    0            127.0.0.1       InLoop0

127.0.0.0/8         Direct 0    0            127.0.0.1       InLoop0

127.0.0.1/32        Direct 0    0            127.0.0.1       InLoop0

(2)     检查路由协议状态是否正常(下面以查看OSPF协议状态为例),如不正常,请检查路由协议配置。

[PE1]display ospf peer

 

                   OSPF Process 1 with Router ID 1.1.1.1

                        Neighbor Brief Information

 

 Area: 0.0.0.0

 Router ID       Address         Pri Dead-Time Interface       State

 4.4.4.4         103.0.0.4       1   37        Vlan103         Full/BDR

(3)     检查协议中环回口、VLAN接口的路由是否通告,LDP接口上是否已使能路由协议,如不正确,请添加配置。

[PE1-ospf-1]display this

#

ospf 1

 area 0.0.0.0

  network 103.0.0.0 0.0.0.255

  network 1.1.1.1 0.0.0.0

#

return

(4)     开启debug开关查看协议报文发送接收是否正常,如不正常,请检查本端、对端设备的路由协议配置。

<PE1>debugging ospf packet

*Mar 5 04:33:09:446 2014 PE1 OSPF/7/DEBUG: -MDC=1; OSPF 1: Sending packe

ts.

*Mar 5 04:33:09:453 2014 PE1 OSPF/7/DEBUG: -MDC=1; Source address: 1.1.1.1

 

*Mar 5 04:33:09:545 2014 PE1 OSPF/7/DEBUG: -MDC=1; Destination address: 224.0.0.5

*Mar 5 04:33:09:618 2022 PE1 OSPF/7/DEBUG: -MDC=1; Version 2, Type: 1, Length: 44.

*Mar 5 04:33:09:699 2014 PE1 OSPF/7/DEBUG: -MDC=1; Router: 192.168.147.7, Area: 0.0.0.0, Checksum: 42732.

*Mar 5 04:33:09:750 2014 PE1 OSPF/7/DEBUG: -MDC=1; Authentication type: 00, Key(ASCII): 0 0 0 0 0 0 0 0.

*Mar 5 04:33:09:820 2014 PE1 OSPF/7/DEBUG: -MDC=1; Network mask: 255.255.255.0, Hello interval: 10, Option: _E_.

*Mar 5 04:33:09:931 2014 PE1 OSPF/7/DEBUG: -MDC=1; Router priority: 1, Dead Interval: 40, DR: 1.1.1.1, BDR: 0.0.0.0.

(5)     如仍无法确认,请将故障信息发送技术支持人员分析。

7.5  SPB转发故障

7.5.1  故障描述

SPB常见故障现象有:

·     邻居无法建立(使用display spbm peer命令查看)

·     无法生成转发表项(使用display l2vpn minm forwarding命令查看)

7.5.2  故障处理步骤

图7-3 SPB组网图

 

(1)     在当前BCB设备或BEB设备上查看SPBM邻居信息。

·     如果连接邻居设备的端口名称不存在,则需要检查该端口和对端的网络连接是否正常。

·     如果State字段不为up,则对应端口连接的邻居设备没有承载流量,请进行下一步检查。

<Sysname> display spbm peer

 

                           Peer information for SPBM

                           -------------------------

 

 System ID         Port                        Circuit ID    State    Holdtime

 000f.e212.3f80    GE1/3/0/11                  2             Up       25s

 000f.e212.3f40    GE1/3/0/5                   2             Up       28s 

(2)     检查本端和对端设备的MST域配置信息,确保邻居间如下字段的值相同。

·     Region name域名。相关配置命令region-name

·     Revision level:修订级别(缺省为0,无需配置)。相关配置命令revision-level

·     VLANs Mapped字段: VLAN映射表(缺省情况下所有VLAN映射到MSTI 0实例)。需要使用命令instance将所有B-VLAN映射到MSTI 4092实例。

<Sysname> display stp region-configuration

 Oper Configuration

   Format selector      : 0

   Region name          : spbm

   Revision level       : 0

   Configuration digest : 0xb0eefe27946a874f0a8d015b0d44dab0

 

   Instance  VLANs Mapped

   0         1 to 6, 13 to 4094

   4092      7 to 12   

(3)     在所有BEB设备上检查SPB VSIVirtual Switch Instance,虚拟交换实例)配置,确保各设备上同一VSII-SIDB-VLANSPBM组播转发模式全部一致。

例如,检查名称为webSPB VSI配置:

[Sysname] vsi web

[Sysname-vsi-web] display this

#

vsi web

 spb i-sid 1000

  b-vlan 9

  multicast replicate-mode tandem

(4)     BEB设备上查看SPB VSI的详细信息。

·     检查对端设备的BMAC是否存在,如果不存在则表示其MAC-in-MAC转发表项没有生成,请将故障信息发送技术支持人员分析。

·     如果ACAttachment Circuit 接入电路)没有up或不存在,请检查BEB设备的用户侧接口是否处于up状态,并确保用户侧接口配置了服务实例与SPB VSI关联。如果一台BEB设备没有任何AC,则其他设备不会生成该BEB设备BMACMAC-in-MAC转发表项。

<Sysname> display l2vpn vsi name web verbose

VSI Name: web

  VSI Index               : 287

  VSI State               : Up

  MTU                     : 1500

  Bandwidth               : 102400 kbps

  Broadcast Restrain      : 5%

  Multicast Restrain      : -

  Unknown Unicast Restrain: -

  MAC Learning            : Enabled

  MAC Table Limit         : Unlimited

  Drop Unknown            : -

  SPB I-SID               : 1000

  SPB Connections:

    BMAC            BVLAN            Link ID    Type

    000f-e212-3f80  9                64         Unicast

    000f-e212-3fc0  9                65         Unicast

    73ca-c900-03e8  9                -          Multicast

  ACs:

    AC                               Link ID    State

    GE1/3/0/1 srv2                   0          Up

(5)     如果以上表项都正常,需要进一步观察MAC-in-MAC转发表项信息。检查对端设备的BMAC是否存在,如果不存在则表示MAC-in-MAC转发表项没有生成。

<Sysname> display l2vpn minm forwarding vsi web

Total number of MinM connections: 3

Types: MC - multicast, UC - unicast

Status Flag: * - inactive

 

VSI name: web

Link ID I-SID     BMAC            BVLAN Owner Type Interface

64      1000      000f-e212-3f80  9     SPB   UC   GE1/3/0/11

65      1000      000f-e212-3fc0  9     SPB   UC   GE1/3/0/5

-       1000      73ca-c900-03e8  9     SPB   MC   GE1/3/0/5

                                                   GE1/3/0/11

(6)     如仍无法确认,请将故障信息发送技术支持人员分析。

 

7.6  QACL业务故障

本节中描述的“QACL业务”是指通过预先配置的规则、对匹配规则的报文进行过滤的各种业务的统称,包括:OpenFlow、报文过滤、策略路由、QoS策略、IP Source GuardPortal

7.6.1  故障描述

用户配置的QACL业务功能没有达到预期的配置效果。

7.6.2  故障处理步骤

当交换机QACL业务出现故障时,请按如下步骤处理。

1. 检查报文是否被高优先级的QACL业务误匹配

交换机支持将多种QACL业务,不同QACL业务的优先级不同,优先级顺序依次为:OpenFlow > 全局应用的报文过滤 > 全局应用的QoS策略 > 全局IP Source Guard > 接口应用的报文过滤 > 接口应用的策略路由 > 接口应用的QoS策略 > 接口应用的IP Source Guard > 接口应用的Portal> VLAN应用的报文过滤 > VLAN应用的策略路由 > VLAN应用的QoS策略 > VLAN应用的IP Source Guard > VLAN应用的Portal

如果某类报文同时匹配了多个不同优先级的QACL业务规则,只有优先级最高的QACL业务规则匹配成功。因此,如果QACL业务下发后,实际功能没有生效,需要排查其他更高优先级的QACL业务规则中是否已匹配了该类报文。对于此类问题,请结合实际需求,修改相关QACL业务的规则,达到预期的匹配效果。

2. 检查ACL硬件模式配置是否正确

如果QACL业务中使用了IPv6 ACL规则来匹配报文,需要检查ACL硬件模式配置是否正确。若ACL硬件模式配置不对,将会导致单板不支持应用IPv6 ACL规则,对应的QACL业务应用失败。对于此类问题的排查步骤如下:

(1)     检查出现QACL业务故障的单板类型。例如当前6号槽位上的QACL业务出现故障:

[Sysname] display device

Slot No.   Brd Type        Brd Status   Software Version

 0         NONE            Absent       NONE

 1         LST1MRPNC1      Master       S12500-CMW710-B737002

 2         NONE            Absent       NONE

 3         NONE            Absent       NONE

 4         NONE            Absent       NONE

 5         NONE            Absent       NONE

 6         LST1GT48LEF1    Normal       S12500-CMW710-B737002

 7         NONE            Absent       NONE

……

(2)     检查出现当前交换机上的ACL硬件模式:

[Sysname] display acl hardware-mode

Current ACL hardware mode:

 Mode: Advanced

 IPv6 status: Disabled

Next startup ACL hardware mode:

 Mode: Advanced

 IPv6 status: Disabled

[Sysname] display packet-filter global inbound slot 6

Global:

 In-bound policy:

  ACL6 2000 (Failed), Hardware-count (Failed)

上面的显示信息说明,由于6号槽位的单板不支持IPv6规则,报文过滤没有应用成功。

(3)     故障处理方法

·     若该单板为EB/EC2/FD类单板,请查看当前ACL硬件模式中的Mode字段。若Mode字段显示为Basic,则EB/EC2/FD类单板不支持IPv6 ACL,需要配置acl hardware-mode advanced命令,保存配置并重启交换机后,EB/EC2/FD类单板才支持IPv6 ACL

·     若该单板为EC1/EF/FG类单板,请查看当前ACL硬件模式中的IPv6 status字段。IPv6 status字段显示为Disabled,则EC1/EF/FG类单板不支持IPv6 ACL,需要配置acl hardware-mode ipv6 enable命令,保存配置并重启交换机后,EC1/EF/FG类单板才支持IPv6 ACL

3. 检查QoS策略的配置是否已正确应用

QoS策略的配置中,有很多配置不支持或配置之间存在冲突。如果在配置过程中,交换机上未开启terminal debuggingterminal monitor功能,即使有冲突的配置下发了,交换机也不会有提示。此时,您可以通过以下两种方法进行排查:

·     在交换机上开启terminal debuggingterminal monitor功能,并重新应用QoS策略(重新应用之前请先执行undo命令取消之前的QoS策略应用),查看交换机是否打印配置冲突或配置不支持的提示信息。

·     通过display命令查看QoS策略应用是否成功。

常见的QoS策略的配置未正确下发的提示信息分为以下几类:

(1)     and类型的类中,定义的规则存在冲突。例如:

<Sysname> terminal debugging

<Sysname> terminal monitor

[Sysname] system-view

[Sysname] undo qos apply policy p1 global inbound

[Sysname] qos apply policy p1 global inbound

[Sysname] %Mar 19 15:44:53:648 2014 Sysname QOS/4/QOS_POLICY_APPLYGLOBAL_CBFAIL:-MDC=1-Slot=6; Failed to apply classifier-behavior c1 in policy p1 to the inbound direction globally. In a classifier with AND operator, you cannot configure multiple ACL match rules.

上例中的提示信息说明and类型的类c1不支持定义多条ACL规则。此时也可以通过display命令也可以查看到当前QoS策略应用失败:

[Sysname] display qos policy global slot 3 inbound

 

  Direction: Inbound

 

  Policy: p1

   Classifier: c1 (Failed)

     Operator: AND

     Rule(s) :

      If-match acl 3000

      If-match acl 3001

     Behavior: b1

      Filter enable: Deny

对于此类问题,应该重新定义该类,并指定该类下的规则之间的逻辑为or

(2)     类中定义的某条规则不支持。例如:

<Sysname> terminal debugging

<Sysname> terminal monitor

[Sysname] system-view

[Sysname] undo qos apply policy p1 global inbound

[Sysname] qos apply policy p1 global inbound

[Sysname] %Aug  3 18:53:41:817 2024 Sysname QOS/4/QOS_POLICY_APPLYGLOBAL_CBFAIL: -MDC=1-Slot=3; Failed to apply classifier-behavior c1 in policy p1 to the inbound direction globally. Customer-VLAN match rule is not supported.

上例中的提示信息说明不支持在全局QoS策略的入方向匹配customer-vlan-id。此时也可以通过display命令也可以查看到当前QoS策略应用失败:

[Sysname] display qos policy global slot 3

 

  Direction: Inbound

 

  Policy: p1

   Classifier: c1 (Failed)

     Operator: AND

     Rule(s) :

      If-match customer-vlan-id 100

      If-match acl 3000

     Behavior: b1

      Marking:

        Remark service-vlan-id 201

对于此类问题,应该删除类中不支持的规则。

(3)     流行为中的动作冲突。例如:

<Sysname> terminal debugging

<Sysname> terminal monitor

[Sysname] system-view

[Sysname] interface gigabitethernet6/0/12

[Sysname-GigabitEthernet6/0/12] undo qos apply policy p1 inbound

[Sysname-GigabitEthernet6/0/12] qos apply policy p1 inbound

[Sysname-GigabitEthernet6/0/12] %Mar 19 16:58:41:624 2014 Sysname QOS/4/QOS_POLICY_APPLYIF_CBFAIL: -MDC=1-Slot=6; Failed to apply classifier-behavior c1 in policy p1 to the inbound direction of interface GigabitEthernet6/0/12. Redirect to CPU conflicts with filter permit.

上例中的提示信息说明流行为中的filter permit动作和redirect to cpu动作冲突。此时也可以通过display命令也可以查看到当前QoS策略应用失败:

[Sysname] display qos policy interface inbound

 

Interface: GigabitEthernet6/0/12

 

  Direction: Inbound

 

  Policy: p1

   Classifier: c1 (Failed)

     Operator: AND

     Rule(s) :

      If-match acl 3000

     Behavior: b1

      Filter enable: Permit

      Redirecting:

        Redirect to the CPU

对于此类问题,应该删除流行为中冲突的动作。

4. 检查规则中的时间段

用户可以通过设置time-range字段来设定规则生效的时间范围。如果发现表项功能不生效,并且表项中带time-range字段,需要检查time-range配置的时间范围是否正确,检查方法介绍如下:

[Sysname] display time-range t1

Current time is 09:59:37 8/14/2013 Wednesday

Time-range: t1 (Inactive)

 09:25 to 09:30 working-day

此时发现时间段t1的状态是Inactive,说明系统当前时间在所设置的时间内未生效,需要修改时间段的时间范围。

5. 检查QoSACL资源的使用情况

通过检查QoSACL资源的使用情况可以用来判断当前功能失效的原因是否是由于资源不足,下面介绍下资源检查的方法:

[Sysname] display qos-acl resource slot 5

Interfaces: GE5/0/1 to GE5/0/24

---------------------------------------------------------------------

 Type             Total      Reserved   Configured Remaining  Usage

---------------------------------------------------------------------

 ACL rule         8192       96         7          8089       1%

 Inbound ACL      8192       96         6          8089       1%

 Outbound ACL     8192       0          1          8089       0%

 IN-MQC-CAR       8192       0          0          8192       0%

 IN-COMM-CAR      7168       0          0          7168       0%

 IN-COUNT         8192       0          33         8159       0%

 OUT-MQC-CAR      8192       0          33         8159       0%

 OUT-COUNT        8192       0          33         8159       0%

 

Interfaces: GE5/0/25 to GE5/0/48

---------------------------------------------------------------------

 Type             Total      Reserved   Configured Remaining  Usage

---------------------------------------------------------------------

 ACL rule         8192       96         7          8089       1%

 Inbound ACL      8192       96         6          8089       1%

 Outbound ACL     8192       0          1          8089       0%

 IN-MQC-CAR       8192       0          0          8192       0%

 IN-COMM-CAR      7168       0          0          7168       0%

 IN-COUNT         8192       0          33         8159       0%

 OUT-MQC-CAR      8192       0          33         8159       0%

 OUT-COUNT        8192       0          33         8159       0%

显示信息中Type表示资源类型,Total表示总的资源数,Configured表示使用资源数,Remaining表示剩余的资源数,Usage表示使用的百分比。

当剩余的资源数为0或者使用的百分比达到100%时,表示该类表项的资源不足。对于此类故障,请直接联系技术支持。

6. 如仍还无法排查,请把故障信息发送给技术支持人员分析

7.7  故障诊断命令

命令

说明

accounting packet

基于包为最小单位为流行为配置流量统计动作

acl

创建ACL,并进入相应的视图

acl hardware-mode ipv6

用来开启或关闭ACL硬件模式下的IPv6功能

classifier behavior

在策略中为类指定采用的流行为

debugging ospf packet

打开OSPF报文调试信息开关。查看OSPF协议报文发送接收是否正常

display acl

显示ACL的配置和运行情况

display acl hardware-mode

显示ACL的硬件模式及其IPv6状态

display arp

显示ARP表项。检查设备ARP学习的接口是否正确

display current-configuration | include lsr-id

显示当前的MPLS LSR ID

display current-configuration configuration ldp

显示当前生效的MPLS LDP配置信息。检查LDPmd5-password配置是否一致

display fib

显示FIB信息。检查设备到某一目的IP网段的FIB表项是否存在

display l2vpn minm forwarding

显示MAC-in-MAC转发表项信息

display l2vpn vsi

显示VSI的信息

display hardware internal ipuc cnt

查看路由引擎计数器信息

display hardware internal pcl pce-entry slot

显示指定规则的内容以及对应的动

display interface

显示指定接口的相关信息

display ip interface brief

显示三层接口的IP基本配置信息

display ip source binding

显示IPv4绑定表项信息

display ipv6 source binding

显示IPv6绑定表项信息

display ip routing-table

显示路由表中当前激活路由的摘要信息。检查设备到某一目的IP网段的路由是否存在

display ipv6 policy-based-route interface

显示接口下转发策略路由的配置信息和统计信息

display mac-address

显示MAC地址表信息。检查MAC学习的端口是否正确,是否存在环路导致MAC学习到错误端口

display mirroring-group

显示镜像组的信息

display mpls ldp interface

显示使能了LDP能力接口的LDP相关信息。检查对应的标签通告模式是否存在

display mpls ldp peer

显示对等体的信息。检查配置的LSP有没有UP

display mpls ldp session

检显示对等体间会话信息

display mpls lsp

显示LSP信息。检查配置的LSP是否存在

display ospf peer

显示OSPF中各区域邻居的信息

display packet-filter

显示ACL在报文过滤中的应用情况

display packet-filter statistics

显示ACL在报文过滤中应用的统计信息以及报文过滤缺省动作的统计信息

display qos-acl resource

显示QoSACL资源的使用情况

display qos policy control-plane

显示控制平面应用QoS策略的信息

display qos policy global

显示基于全局应用QoS策略的信息

display qos policy interface

显示指定接口上QoS策略的配置信息和运行情况

display qos traffic-counter

显示报文统计信息,同时显示该组计数器的配置信息

display spbm peer

显示SPBM邻居信息

display stp region-configuration

显示MST域配置信息

display time-range

显示时间段的配置和状态信息

display this

显示当前视图下生效的配置

if-match

定义匹配数据包的规则

interface

进入接口视图

ipv6 verify source ip-address

配置IPv6接口绑定功能

mpls lsr-id

配置本节点的MPLS LSR ID

ping

检查指定目的端是否可达,并输出相应的统计信息

qos apply policy

将策略应用到指定端口

qos policy

定义一个策略并进入策略视图

qos traffic-counter

使能报文统计功能,并指定统计的流量类型

reboot

重启指定单板或整个设备

rule

ACL创建一条规则

save

将当前配置保存到指定文件

set hardware internal ipuc dropcnt

绑定特定丢弃计数器计数模式

traffic behavior

定义一个流行为并进入流行为视图

traffic classifier

定义一个类并进入类视图


8 IRF类故障处理

8.1  IRF无法形成

8.1.1  故障描述

IRF无法正常建立。

8.1.2  故障处理步骤

通常为配置错误引起,请检查以下配置是否正确。

(1)     确认成员设备的软件版本、主控板类型是否一致。

<Sysname> display device

Slot No.   Brd Type        Brd Status   Software Version

 3/0       NONE            Absent       NONE

 3/1       LST2MRPNC1      Master       S12500-CMW710-R7328

 3/2       NONE            Absent       NONE

 3/3       LST1XP32REB1    Normal       S12500-CMW710-R7328

 3/4       NONE            Absent       NONE

 3/5       NONE            Absent       NONE

 3/6       NONE            Absent       NONE

 3/7       NONE            Absent       NONE

 3/8       NONE            Absent       NONE

 3/9       NONE            Absent       NONE

 3/10      NONE            Absent       NONE

 3/11      NONE            Absent       NONE

 3/12      NONE            Absent       NONE

 3/13      NONE            Absent       NONE

 3/14      NONE            Absent       NONE

 3/15      NONE            Absent       NONE

 3/16      NONE            Absent       NONE

 3/17      LST1SF08E1      Normal       S12500-CMW710-R7328

 3/18      NONE            Absent       NONE

(2)     确认IRF物理端口是否UP

通过display interface查询IRF物理端口状态是否UP

<Sysname> display interface GigabitEthernet2/6/0/1

GigabitEthernet2/6/0/1 current state: UP

Line protocol current state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0000-e80d-c000

Description: GigabitEthernet2/6/0/1 Interface

Loopback is not set

Media type is optical fiber, Port hardware type is 1000_BASE_SX_SFP

……

(3)     确认IRF端口连接是否异常,一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接。

<Sysname> display irf configuration

 MemberID  NewID  IRF-Port1                     IRF-Port2

  1        1      Ten-GigabitEthernet1/8/0/1    disable

                  Ten-GigabitEthernet1/8/0/2

  2        2      disable                       Ten-GigabitEthernet2/12/0/1

                                                Ten-GigabitEthernet2/12/0/2

(4)     确认成员设备的系统工作模式是否一致。

[Sysname] display system-working-mode

The current system working mode is standard.

The next system working mode is standard..

(5)     确认成员设备的如下配置是否一致。

·     acl hardware-mode ipv6配置

·     irf mode enhanced配置

·     MDC配置

[Sysname] display current-configuration

……

 acl hardware-mode ipv6 enable

……

 irf mode enhanced

……

8.2  IRF出现分裂

8.2.1  故障描述

IRF运行过程中出现分裂。

8.2.2  故障处理步骤

(1)     IRF分裂时会打印IRF端口down,可以确定IRF分裂的时间。

%Jun 26 10:13:46:233 2013 H3C STM/2/STM_LINK_STATUS_TIMEOUT: IRF port 1 is down because heartbeat timed out.

%Jun 26 10:13:46:436 2013 H3C STM/3/STM_LINK_STATUS_DOWN: -MDC=1; IRF port 2 is down.

(2)     IRF物理端口所在接口板的状态是否正常,若不正常,请参照请参照4.2  单板故障排查是否单板故障。

<Sysname> display device

Slot No.   Brd Type        Brd Status   Software Version

 3/0       NONE            Absent       NONE

 3/1       LST2MRPNC1      Master       S12500-CMW710-R7328

 3/2       NONE            Absent       NONE

 3/3       LST1XP32REB1    Normal       S12500-CMW710-R7328

 3/4       NONE            Absent       NONE

 3/5       NONE            Absent       NONE

 3/6       NONE            Absent       NONE

 3/7       NONE            Absent       NONE

 3/8       NONE            Absent       NONE

 3/9       NONE            Absent       NONE

 3/10      NONE            Absent       NONE

 3/11      NONE            Absent       NONE

 3/12      NONE            Absent       NONE

 3/13      NONE            Absent       NONE

 3/14      NONE            Absent       NONE

 3/15      NONE            Absent       NONE

 3/16      NONE            Absent       NONE

 3/17      LST1SF08E1      Normal       S12500-CMW710-R7328

 3/18      NONE            Absent       NONE

(3)     检查各个IRF物理端口的状态是否正常。若端口状态不正常,请按照4.6  故障诊断命令确认故障原因。

<Sysname>display interface GigabitEthernet2/6/0/1

GigabitEthernet2/6/0/1

Current state: UP

Line protocol state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0000-e80d-c000

Description: GigabitEthernet2/6/0/1 Interface

Bandwidth: 1000000kbps

Loopback is not set

Media type is optical fiber, Port hardware type is 1000_BASE_SX_SFP

(4)     ……通过设备运行时间或日志检查IRF中各个成员设备及IRF物理端口所在的接口板在IRF分裂时是否重启过,并参照4.3  电源故障确认是否为电源故障导致。

<Sysname> display version

H3C Comware Software, Version 7.1.045, Release 7328

Copyright (c) 2004-2013 Hangzhou H3C Tech. Co., Ltd. All rights reserved.

H3C S12504 uptime is 0 weeks, 0 days, 5 hours, 54 minutes

Last reboot reason : Power on

Boot image: cfa0:/S12500-CMW710-BOOT-R7328_mrpnc.bin

Boot image version: 7.1.045P12, Release 7328

  Compiled Jan 07 2014 17:01:20

System image: cfa0:/S12500-CMW710-SYSTEM-R7328_mrpnc.bin

System image version: 7.1.045, Release 7328

  Compiled Jan 07 2014 17:02:33

 

LST2MRPNC1 1:  uptime is 0 weeks, 0 days, 5 hours, 54 minutes

Last reboot reason : Power on

3456    Mbytes SDRAM

1024    Kbytes NVRAM Memory

Type     : LST2MRPNC1

BootRom  : 2.20

Software : S12500-CMW710-R7328

PCB      : Ver.B

Board Cpu:

  Number of Cpld: 2

  Cpld 0:

    SoftWare  : 003

  Cpld 1:

    SoftWare  : 003

PowChipA    : 004

CpuCard

  Type      : LSR1CPA

  PCB       : Ver.C

  Number of Cpld: 1

  Cpld 0:

    SoftWare  : 001

  BootRom   : 2.12

Mbus card

  Type      : LSR1MBCB

  Software  : 115

  PCB       : Ver.B

 

LST1GT48LEC1 3:  uptime is 0 weeks, 0 days, 5 hours, 53 minutes

Last reboot reason : Power on

1024    Mbytes SDRAM

0       Kbytes NVRAM Memory

Type     : LST1GT48LEC1

Software : S12500-CMW710-R7328

PCB      : Ver.A

Board Cpu:

  Number of Cpld: 1

  Cpld 0:

    SoftWare  : 003

PowChipA    : 004

PowChipB    : 004

CpuCard

  Type      : LSR1CPAE

  PCB       : Ver.C

  Number of Cpld: 1

  Cpld 0:

    SoftWare  : 001

  BootRom   : 2.12

Mbus card

  Type      : LSR1MBCB

  Software  : 115

  PCB       : Ver.B

 

LST2SF08C1 8:  uptime is 0 weeks, 0 days, 5 hours, 53 minutes

Last reboot reason : Power on

128     Mbytes SDRAM

0       Kbytes NVRAM Memory

Type     : LST2SF08C1

BootRom  : 2.12

Software : S12500-CMW710-R7328

PCB      : Ver.B

Board Cpu:

  Number of Cpld: 1

  Cpld 0:

    SoftWare  : 001

PowChipA  : 001

 

LST2SF08C1 9:  uptime is 0 weeks, 0 days, 5 hours, 53 minutes

Last reboot reason : Power on

128     Mbytes SDRAM

0       Kbytes NVRAM Memory

Type     : LST2SF08C1

BootRom  : 2.12

Software : S12500-CMW710-R7328

PCB      : Ver.B

Board Cpu:

  Number of Cpld: 1

  Cpld 0:

    SoftWare  : 001

PowChipA  : 001

 

(5)     如故障确认,可以通过如更换光模块、更换单板的方式使设备重新形成IRF;如故障无法确认,请搜集各个成员设备的信息,并信息发送给技术支持人员协助分析。

8.3  故障诊断命令

命令

说明

display device

显示设备信息。用于检查各成员设备的软件版本、主控板类型是否一致

display interface

显示指定接口的相关信息。用于检查IRF物理端口状态是否UP

display irf configuration

显示所有成员设备的IRF配置信息。用于检查IRF端口连接是否异常,一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接

display system-working-mode

显示设备的系统工作模式。用于检查成员设备的系统工作模式是否一致

display current-configuration

显示当前视图下生效的配置。在系统视图下检查成员设备的如下配置是否一致:

·     acl hardware-mode ipv6配置

·     irf mode enhanced配置

·     MDC配置

display version

显示系统版本信息、单板的运行时间。通过设备运行时间确认IRF中各个成员设备是否重启过,主控板及IRF端口所在接口板是否发生重启

 

9 系统管理维护类故障处理

9.1  CPU占用

9.1.1  故障描述

设备单板CPU占用率持续在60%以上,下发命令时设备反应很慢。

<Sysname>display cpu-usage

Slot 0 CPU usage:

       0% in last 5 seconds

      61% in last 1 minute

       0% in last 5 minutes

 

Slot 0 CPU 1 CPU usage:

       0% in last 5 seconds

       0% in last 1 minute

       0% in last 5 minutes

通过display cpu-usage history命令可以查看单板最近60分钟的cpu占用情况。如横坐标时间为20,则表示20分钟前的CPU使用率。

<Sysname>display cpu-usage history slot 0

100%|

 95%|

 90%|

 85%|

 80%|

 75%|

 70%|

 65%|

 60%|

 55%|

 50%|

 45%|

 40%|

 35%|                             #

 30%|                         #   #

 25%|                         #   #

 20%|           #             #   #                    #

 15%|          ##             #   #                   ##

 10%|          ##             #   #                   ##

  5%|############################################################

     ------------------------------------------------------------

              10        20        30        40        50        60  (minutes)

                   cpu-usage (CPU 0) last 60 minutes (SYSTEM)

 

9.1.2  故障处理步骤

CPU占用率高的原因通常有:

·     路由振荡

·     配置过多的路由策略

·     报文攻击

·     链路环路

 

1. 路由策略排查

通过display route-policy命令可以查看设备配置的路由策略,请检查配置的路由策略是否过多,导致CPU处理的负担增加。

<Sysname> display route-policy

Route-policy: policy1

  permit : 1

          if-match cost 10

          continue: next node 11

          apply comm-list a delete

 

2. 报文攻击排查

(1)     查看CPU Code对应的报文统计

通过如下命令可以查看不同CPU Code对应的上送CPU的报文统计信息。执行此命令时带clear参数表示执行以后,计数清零,系统重新开始计数。每隔一段时间查询一次,可以大致分析出对应CPU Code上送CPU的报文频率,如下面的显示信息表示CPU code5的报文上送CPU较多。

<Sysname>system-view

[Sysname]probe

[Sysname-probe]display hardware internal nst packet-statistic chassis 3 slot 3 cl

ear

Code  Packets     Code  Packets     Code  Packets     Code  Packets

0     0           1     0           2     0           3     0

4     0           5     214         6     0           7     0

8     0           9     0           10    0           11    0

12    0           13    0           14    0           15    0

16    0           17    0           18    0           19    0

20    0           21    0           22    0           23    0

24    0           25    0           26    0           27    0

28    0           29    0           30    0           31    0

32    0           33    0           34    0           35    0

36    0           37    0           38    0           39    0

40    0           41    0           42    0           43    0

44    0           45    0           46    0           47    0

48    0           49    0           50    0           51    0

52    0           53    0           54    0           55    0

……

252   0           253   0           254   0           255   0

表9-1 常用CPU code描述

CPU Code索引

说明

限速(pps

队列

5

ARP广播报文上CPU

600

2

16

RIPv2/RIPng/OSPFv2/v3协议报文上CPU

700

5

17

RIP1报文上CPU

300

5

29

LDP/RS协议报文上CPU

600

4

30

PIM/PIMv6协议报文上CPU

400

4

31

NA/RA协议报文上CPU

400

2

32

DHCP协议报文上CPU

400

2

33

NTP协议报文上CPU

100

4

65

ARP Detection报文通过ICPL重定向到目的端口方式上CPU

600

1

160

主机路由上CPU

150

0

161

网段路由上CPU

500

0

 

(2)     抓包确认攻击源

在设备端口抓包,使用Wireshark等工具分析报文特征,确认攻击源。然后针对攻击源配置报文防攻击。

3. 链路环路

链路存在环路时,可能出现广播风暴和网络振荡,大量的协议报文上送CPU处理可能导致CPU占用率升高,设备很多端口的流量会变得很大,端口使用率达到90%以上:

<Sysname>display interface gigabitethernet2/6/0/1

GigabitEthernet2/6/0/1

Current state: UP

Line protocol current state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0000-e80d-c000

Description: GigabitEthernet2/6/0/1 Interface

Loopback is not set

Media type is optical fiber, Port hardware type is 1000_BASE_SX_SFP

1000Mbps-speed mode, full-duplex mode

……

Last clearing of counters: Never

 Peak value of input: 123241940 bytes/sec, at 2014-02-27 14:33:15

 Peak value of output: 80 bytes/sec, at 2014-02-27 14:13:00

 Last 300 seconds input:  26560 packets/sec 123241940 bytes/sec 99%

 Last 300 seconds output:  0 packets/sec 80 bytes/sec 0%

……

如链路出现环路:

·     排查链路连接、端口配置是否正确

·     是否使能STP协议,配置是否正确

·     邻接设备STP状态是否正常

·     如以上配置均正确,可能为STP协议计算错误或协议计算正确但端口驱动层没有正常Block阻塞,可以shutdown环路上端口、拔插端口让STP重新计算来快速恢复业务,并将故障信息反馈给技术支持人员分析。

4. 进程调用栈搜集

如果通过上述处理还是无法确认具体原因,请再搜集CPU占用率高的进程的调用栈信息,一起发送给技术支持人员分析,搜集方法如下:

(1)     通过display process cpu命令确认CPU占用率高的进程JID,如这里2号成员设备上2槽位单板的DFRS进程CPU占用率较高,其对应的JID28

<Sysname>display process cpu chassis 2 slot 2

CPU utilization in 5 secs: 5.2%; 1 min: 13.9%; 5 mins: 17.1%

    JID      5Sec      1Min      5Min    Name

      1      0.0%      0.0%      0.0%    scmd

……

     17      0.0%      0.0%      0.0%    [DIBC]

     18      0.0%      0.0%      0.0%    [PCHK]

     19      0.0%      0.0%      0.0%    [lipc_topology]

     27      0.0%      1.5%      1.2%    [DFBR]

     28      4.3%     11.5%     15.0%    [DFRS]

     29      0.0%      0.0%      0.0%    [DIAG]

     30      0.0%      0.0%      0.0%    [mdcos_wdg]

……

2)查询JID28DFRS进程的调用栈信息,请查询5次以上,发送给技术支持人员分析,以便于分析该进程具体在做什么处理导致CPU占用率持续升高。

<Sysname>system-view

[Sysname]probe

[Sysname-probe]follow process 28 chassis 3 slot 3

Attaching to process 28 ([EVH0])

Iteration 1 of 5

------------------------------

Kernel stack:

[<c0019d74>] __switch_to+0x74/0xf0

[<c006d5d4>] down_interruptible+0x104/0x110

[<f7be0544>] osSemWait+0x44/0xf0 [cpa]

[<f7958ce0>] cpssEventSelect+0x120/0x2e0 [cpa]

[<f7971380>] appDemoEvHndlr+0x50/0x310 [cpa]

[<c006727c>] kthread+0x12c/0x130

[<c0002ac4>] ppc_kernel_thread+0x44/0x60

 

Iteration 2 of 5

------------------------------

Kernel stack:

[<c0019d74>] __switch_to+0x74/0xf0

[<c006d5d4>] down_interruptible+0x104/0x110

[<f7be0544>] osSemWait+0x44/0xf0 [cpa]

[<f7958ce0>] cpssEventSelect+0x120/0x2e0 [cpa]

[<f7971380>] appDemoEvHndlr+0x50/0x310 [cpa]

[<c006727c>] kthread+0x12c/0x130

[<c0002ac4>] ppc_kernel_thread+0x44/0x60

……

9.2  内存占用率

9.2.1  故障描述

多次查看单板内存占用率,发现内存占用率持续偏高,始终处于70%以上(未使用的内存占用率低于30%)。Total表示总的内存,Used表示当前使用的内存,FreeRatio表示未使用的内存占用率。

<Sysname>display memory chassis 2 slot 2

The statistics about memory is measured in KB:

Chassis 2 Slot 2:

             Total      Used      Free    Shared   Buffers    Cached   FreeRatio

Mem:        774280    591932    182348         0         0      6548       23.6%

-/+ Buffers/Cache:    175800    598480

Swap:           0         0         0

9.2.2  故障处理步骤

这类问题通常为软件问题引起,如内存泄露,也可能是路由数目过多导致。请按照下面步骤进一步搜集信息发送给技术支持人员分析。

1. 查询单板各进程的内存使用信息

通过display process memory命令多次查询单板各进程的内存使用信息。Dynamic类型的内存为设备动态申请的,在内存出现泄露时会变得很大,通过前后比较观察可以确认哪个进程的内存占用持续增加。如果持续增加,说明该进程可能发生了泄露,请记录下进程的JID。下面以查询JID78diagd进程为例说明。

<Sysname>display process memory chassis 2 slot 2

   JID       Text      Data      Stack    Dynamic    Name

     1        168       604         24         64    scmd

     2          0         0          0          0    [kthreadd]

     3          0         0          0          0    [ksoftirqd/0]

……

    78        112      9368         12        320    diagd

    79         76      1040          8          8    mdcagentd

    80        116      8860          8         16    fsd

    81        140       992         16        212    dbmd

    83         72       496          8         20    syslogd

    84        168     41980         16         44    drvdiagd

    85        172     17112         16         12    devd

    94        112      8864         12         12    edev

……

2. 确认哪种字节大小的内存块发生泄露

再进一步确认JID78diagd进程的哪种字节大小的内存块发生泄露。如下命令所示,Size表示内存块的字节大小,Total表示总的申请个数,Used表示使用数目,Free表示未使用的数目,Free Ratio表示未使用的内存块百分比。通过多次查询并比较查询值可以看出哪个Size的内存块Used个数持续增加。查询完毕后,请将搜集到的信息发送给技术支持人员分析。

<Sysname>display process memory heap job 78 verbose

Heap usage:

Size      Free      Used      Total      Free Ratio

16        0         385       385        0.0%

24        2         49        51         3.9%

32        0         13        13         0.0%

40        0         7         7          0.0%

64        0         411       411        0.0%

72        0         4         4          0.0%

80        1         0         1          100.0%

96        1         0         1          100.0%

104       0         8         8          0.0%

136       0         8         8          0.0%

152       0         9         9          0.0%

184       0         1         1          0.0%

368       0         8         8          0.0%

3080      0         1         1          0.0%

8200      1         0         1          100.0%

29376     1         0         1          100.0%

Large Memory Usage:

Used Blocks          :  24

Used Memory(in bytes):  2031616

Free Blocks          :  0

Free Memory(in bytes):  0

Summary:

Total virtual memory heap space(in bytes) :  2113536

Total physical memory heap space(in bytes) :  454656

Total allocated memory(in bytes)          :  2075736

9.3  资源不足

9.3.1  故障描述

资源使用超规格时会打印日志信息和Trap信息:

%Mar 16 20:43:11:218 2014 H3C DRV_L3/4/NO_RESOURCE: -MDC=1-Slot=3; Insufficient system resources!

%Mar 16 20:44:51:259 2014 H3C DRV_L3/4/NO_RESOURCE: -MDC=1-Slot=6; No enough resource!

%Mar 16 20:47:18:712 2014 H3C DRV_L3/4/NO_RESOURCE: -MDC=1-Slot=3; Not enough are available to complete the operation.

典型的系统资源包括:

·     ACL

·     FIB

·     MAC

·     MPLS LSP

·     组播

·     ARP

9.3.2  故障处理步骤

1. ACL资源

下列这些特性会占用ACL资源:

·     QoS策略

·     Packet filter

·     Priority mapping and trust

·     Mirror

·     Protocol packet to CPU

·     灵活QinQVLAN映射

·     Port binding, PORTAL, EAD

·     Broadcast suppression

·     MAC-BASED-VLANVOICE VLANRSPANUDP-Helper

(1)     通过display qos-acl resource命令查看单板ACL资源使用情况,其中Total表示总的资源数,Configured表示使用资源数,Remaining表示剩余的资源数,Usage表示使用的百分比。

<Sysname> display qos-acl resource chassis 3 slot 3

Interfaces: XGE3/3/0/1, XGE3/3/0/3

            XGE3/3/0/5, XGE3/3/0/7

            XGE3/3/0/9, XGE3/3/0/11

            XGE3/3/0/13, XGE3/3/0/15

---------------------------------------------------------------------

 Type             Total      Reserved   Configured Remaining  Usage

---------------------------------------------------------------------

 ACL rule         2048       0          55         1993       2%

 Inbound ACL      2048       0          6          1993       0%

 Outbound ACL     2048       0          49         1993       2%

 IN-MQC-CAR       8192       0          0          8192       0%

 IN-COMM-CAR      7168       0          0          7168       0%

 IN-COUNT         8192       0          82         8110       1%

 OUT-MQC-CAR      8192       0          82         8110       1%

 OUT-COUNT        8192       0          82         8110       1%

……

(2)     如果ACL资源几乎全部使用,请根据具体情况进行优化,比如如删除或合并ACL规则。如果无法优化,请将信息发送给技术支持人员协助分析。

2. FIB资源

(1)     使用命令行查看FIB表项资源使用情况,Ipv4 route prefix表示实际占用的资源Max support ipv4 prefix表示IPv4表项总的资源

[Sysname-probe] display hardware internal ipuc fib number sl 31

  Ipv4 route prefix       : 17

  Ipv6 route prefix       : 2

  Allocated route entry   : 13

  Ipv4Uc allocated nexthop: 4     0     0     0     0     0     0     0     0

  0     0

  Ipv6Uc allocated nexthop: 0     0     0     0     0     1     0     0     0

  0     0

  Ipv4Mc allocated nexthop: 3

  Ipv6Mc allocated nexthop: 0

  Tunnel allocated nexthop: 0

  Ipv4Vn allocated nexthop: 0     0     0     0     0     0     0     0     0

  0     0

  Max support vrf         : 512

  Max support ipv4 prefix : 262144

  Max support ipv6 prefix : 65536

  Max support nexthop     : 13312

(2)     如果FIB资源几乎全部占用,请搜集信息并发送给技术支持人员协助分析

3. MAC资源

MAC资源不足在大型二层网络中容易出现,MAC地址过多,老的MAC还没有老化,导致新的MAC地址学习不到。

<Sysname>display mac-address count

 49 mac address(es) found

建议:

·     减小学习到的MAC的老化时间,便于MAC地址快速老化

·     优化组网,根据不同的业务或部门等划分VLAN,不同VLAN间采用三层互联。

4. MPLS LSP资源

(1)     查看MPLS LSP资源使用情况

<Sysname>display mpls lsp statistics

LSP Type      Ingress/Transit/Egress  Active

Static LSP    0/0/0                   0/0/0

Static CRLSP  0/0/0                   0/0/0

LDP LSP       0/0/1                   0/0/1

RSVP CRLSP    0/0/0                   0/0/0

BGP LSP       0/0/0                   0/0/0

Local LSP     0/0/0                   0/0/0

-----------------------------------------------------

Total         0/0/1                   0/0/1

(2)     MPLS LSP资源使用过多导致资源不足,请搜集信息并发送给技术支持人员协助分析。

5. 其他系统资源

其他系统资源的使用情况需要专业技术支持人员进行分析,请搜集信息并提供给技术支持人员确认。

9.4  故障诊断命令

命令

说明

display cpu-usage

显示CPU利用率的统计信息。用于查询CPU占用率高的任务

display cpu-usage history

以图形方式显示CPU利用率统计历史信息

display hardware internal ipuc fib number

查看指定VRF的单播表项统计计数

display hardware internal nst packet-statistic

显示指定接口板槽位的按照CPU Code统计的报文计数

display interface

显示指定接口的信息。检查接口的流量是否正常

display mac-address

显示MAC地址表信息。检查MAC地址表项的数量是否过多

display memory

显示单板内存占用率

display mpls lsp statistics

查看MPLS LSP资源使用情况

display process cpu

显示所有进程的CPU使用率信息

display process memory

显示单板各进程的内存使用信息。通过多次查询,发现可能存在内存泄露的进程

display process memory heap

显示Dynamic类型内存的详细信息,确认哪种字节大小的内存块发生了泄露

display qos-acl resource

显示ACL资源的使用情况

display route-policy

显示设备配置的路由策略检查配置的路由策略是否过多导致CPU处理的负担增加

follow process

查看指定进程的调用栈信息