选择区域语言: EN CN HK

H3C S12500-X & S12500X-AF系列交换机故障处理手册-6W102

手册下载

H3C S12500-X & S12500X-AF系列交换机

故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:6W102-20190610

 

Copyright © 2019 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。


 

1 简介·· 1

1.1 故障处理注意事项·· 1

1.2 收集设备运行信息·· 1

1.2.2 logfile日志·· 2

1.2.3 diagfile日志·· 3

1.2.4 诊断信息·· 5

1.3 故障处理求助方式·· 8

2 开局自检·· 8

2.1 自检目的·· 8

2.2 开局自检项·· 8

3 硬件类故障处理·· 11

3.1 运行过程中主控板重启故障处理·· 12

3.1.1 故障描述·· 12

3.1.2 故障处理流程·· 12

3.1.3 故障处理步骤·· 12

3.2 新加入主控板无法启动故障处理·· 13

3.2.1 故障描述·· 13

3.2.2 故障处理流程·· 13

3.2.3 故障处理步骤·· 13

3.3 业务板运行过程中发生故障导致无法启动·· 13

3.3.1 故障描述·· 13

3.3.2 故障处理流程·· 14

3.3.3 故障处理步骤·· 14

3.4 新加入业务板无法启动问题处理方法·· 15

3.4.1 故障描述·· 15

3.4.2 故障处理流程·· 16

3.4.3 故障处理步骤·· 16

3.5 电源运行中上报Fault问题处理方法·· 17

3.5.1 故障描述·· 17

3.5.2 故障处理流程·· 18

3.5.3 故障处理步骤·· 18

3.6 新插入电源模块状态异常处理方法·· 19

3.6.1 故障描述·· 19

3.6.2 故障处理流程·· 20

3.6.3 故障处理步骤·· 20

3.7 风扇框运行中上报Fault或新安装风扇框后状态异常问题处理方法·· 21

3.7.1 故障描述·· 21

3.7.2 故障处理流程·· 21

3.7.3 故障处理步骤·· 21

3.8 故障诊断命令·· 23

4 系统类故障处理·· 23

4.1 单板CPU占用率高问题处理方法·· 23

4.1.1 故障描述·· 23

4.1.2 故障处理流程·· 24

4.1.3 故障处理步骤·· 24

4.2 单板内存占用率高问题处理方法·· 26

4.2.1 故障描述·· 26

4.2.2 故障处理流程·· 26

4.2.3 故障处理步骤·· 26

4.3 系统温度告警问题处理方法·· 28

4.3.1 故障描述·· 28

4.3.2 故障处理流程·· 29

4.3.3 故障处理步骤·· 29

4.4 故障诊断命令·· 30

5 端口类故障处理·· 30

5.1 1G/10GBase-T以太网电口不UP故障处理·· 30

5.1.1 故障描述·· 30

5.1.2 故障处理流程·· 31

5.1.3 故障处理步骤·· 31

5.2 千兆SFP光口不UP故障处理·· 32

5.2.1 故障描述·· 32

5.2.2 故障处理流程·· 32

5.2.3 故障处理步骤·· 33

5.3 SFP+UP故障处理·· 33

5.3.1 故障描述·· 33

5.3.2 故障处理流程·· 34

5.3.3 故障处理步骤·· 34

5.4 40GEQSFP+光口UP故障处理·· 35

5.4.1 故障描述·· 35

5.4.2 故障处理流程·· 35

5.4.3 故障处理步骤·· 36

5.5 100GEQSFP28光口UP故障处理·· 36

5.5.1 故障描述·· 36

5.5.2 故障处理流程·· 37

5.5.3 故障处理步骤·· 37

5.6 100GECFP/CFP2光口UP故障处理·· 38

5.6.1 故障描述·· 38

5.6.2 故障处理流程·· 38

5.6.3 故障处理步骤·· 38

5.7 100GECXP光口UP故障处理·· 39

5.7.1 故障描述·· 39

5.7.2 故障处理流程·· 39

5.7.3 故障处理步骤·· 40

5.8 光模块上报非H3C合法光模块故障处理·· 40

5.8.1 故障描述·· 40

5.8.2 故障处理流程·· 41

5.8.3 故障处理步骤·· 41

5.9 光模块不支持数字诊断故障处理·· 41

5.9.1 故障描述·· 41

5.9.2 故障处理流程·· 42

5.9.3 故障处理步骤·· 42

5.10 端口存在CRC等错误统计故障处理·· 42

5.10.1 故障描述·· 42

5.10.2 故障处理流程·· 43

5.10.3 故障处理步骤·· 43

5.11 端口不接收报文故障处理·· 44

5.11.1 故障描述·· 44

5.11.2 故障处理流程·· 45

5.11.3 故障处理步骤·· 45

5.12 端口不发送报文故障处理·· 46

5.12.1 故障描述·· 46

5.12.2 故障处理流程·· 46

5.12.3 故障处理步骤·· 46

5.13 故障诊断命令·· 47

6 QoS/ACL故障处理·· 48

6.1 下发ACL提示失败故障处理方法·· 48

6.1.1 故障描述·· 48

6.1.2 故障处理流程·· 48

6.1.3 故障处理步骤·· 48

6.2 下发ACL成功,但是ACL不生效的故障处理方法·· 50

6.2.1 故障描述·· 50

6.2.2 故障处理流程·· 50

6.2.3 故障处理步骤·· 50

6.3 利用流量统计分析转发故障的方法·· 51

6.3.1 故障描述·· 51

6.3.2 故障处理流程·· 51

6.3.3 故障处理步骤·· 51

6.4 故障诊断命令·· 53

7 IRF故障处理·· 53

7.1 设备无法加入IRF故障处理方法·· 53

7.1.1 故障描述·· 53

7.1.2 故障处理流程·· 54

7.1.3 故障处理步骤·· 55

7.2 IRF分裂故障处理方法·· 57

7.2.1 故障描述·· 57

7.2.2 故障处理流程·· 57

7.2.3 故障处理步骤·· 57

7.3 IRF分裂后BFD MAD无法生效故障处理方法·· 58

7.3.1 故障描述·· 58

7.3.2 故障处理流程·· 59

7.3.3 故障处理步骤·· 59

7.4 IRF分裂后LACP MAD无法生效故障处理方法·· 60

7.4.1 故障描述·· 60

7.4.2 故障处理流程·· 61

7.4.3 故障处理步骤·· 61

7.5 故障诊断命令·· 62

8 MDC故障处理·· 63

8.1 创建MDC提示无可用license故障处理方法·· 63

8.1.1 故障描述·· 63

8.1.2 故障处理流程·· 63

8.1.3 故障处理步骤·· 63

8.2 Location业务板提示失败故障处理方法·· 64

8.2.1 故障描述·· 64

8.2.2 故障处理流程·· 64

8.2.3 故障处理步骤·· 65

8.3 Allocate接口失败故障处理方法(适用于Release 10xx·· 67

8.3.1 故障描述·· 67

8.3.2 故障处理流程·· 68

8.3.3 故障处理步骤·· 68

8.4 Allocate接口失败故障处理方法(适用于Release 11xxRelease 26xxRelease 27xx·· 70

8.4.1 故障描述·· 70

8.4.2 故障处理流程·· 71

8.4.3 故障处理步骤·· 71

8.5 故障诊断命令·· 75


1 简介

本文档介绍H3C S12500-X & S12500X-AF软、硬件常见故障的诊断及处理措施。

1.1  故障处理注意事项

说明: 注意

设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。

 

在进行故障诊断和处理时,请注意以下事项:

·     设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

¡     记录具体的故障现象、故障时间、配置信息。

¡     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡     收集设备的日志信息和诊断信息(收集方法见1.2  收集设备运行信息)。

¡     记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。

¡     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡     记录故障处理过程中配置的所有命令行显示信息。

·     更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

·     故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。

1.2  收集设备运行信息

说明: 说明

为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。

 

设备运行过程中会产生logfilediagfile日志信息及记录设备运行状态的诊断信息。这些信息存储在主用主控板的Flash,可以通过FTPTFTP等方式导出。

如果设备运行过程中发生过主备倒换,则日志文件将保存在设备多个主控板中,不同主控板中导出的logfilediagfile、诊断信息文件请按照一定规则存放(如不同的文件夹:chassisXslotY),避免不同主控板的运行信息相互混淆,以方便查询。

表1-1 设备运行信息介绍

分类

文件名

内容

logfile日志

logfile.log

命令行记录、设备运行中产生的记录信息

diagfile日志

diagfile.log

设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、单板无法启动时的信息、主控板与接口板通信异常时的握手信息

诊断信息

XXX.gz

系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

 

1.2.2  logfile日志

(1)     执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在Flashlogfile目录中。

·     在缺省MDC上收集对应的日志文件。

<Sysname> logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log

·     在非缺省MDC上收集对应的日志文件。

如果设备创建了非缺省MDC,请在每个非缺省MDC下执行logfile save命令收集该MDC对应的日志文件。

# 查看当前创建的非缺省MDC

<Sysname> display mdc

ID         Name            Status

---------------------------------

1          Admin           active

2          mdc2            active

3          mdc3            active

<Sysname> system-view

[Sysname] switchto mdc mdc2

****************************************************************************** 

* Copyright (c) 2004-2018 New H3C Technologies Co., Ltd. All rights reserved.* 

* Without the owner's prior written consent,                                 * 

* no decompiling or reverse-engineering shall be allowed.                    * 

****************************************************************************** 

 

<Sysname> logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log

<Sysname> switchback

[Sysname] switchto mdc 3

****************************************************************************** 

* Copyright (c) 2004-2018 New H3C Technologies Co., Ltd. All rights reserved.* 

* Without the owner's prior written consent,                                 * 

* no decompiling or reverse-engineering shall be allowed.                    * 

****************************************************************************** 

 

<Sysname> logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log

<Sysname> switchback

(2)     查看缺省MDC中主用主控板、备用主控板、IRF中主设备/从设备上各主用/备用主控板的日志文件名称,如果设备创建了非缺省MDC,还需要检查每个非缺省MDC对应的日志文件。

·     缺省MDC主用主控板logfile日志:

<Sysname> dir flash:/logfile/

Directory of flash:/logfile

   0 -rw-       97764 Apr 27 2018 15:55:32   logfile.log                         

                                                                               

503808 KB total (74920 KB free)

 

·     缺省MDC备用主控板logfile日志:

<Sysname> dir slot16#flash:/logfile/

Directory of slot16#flash:/logfile

   0 -rw-       21863 Apr 27 2018 16:00:37   logfile.log

 

1021104 KB total (421552 KB free)

·     缺省MDCIRF备框主控板logfile日志,如备框有两块主控板,则两块都需要检查:

<Sysname> dir chassis2#slot17#flash:/logfile/

Directory of chassis2#slot17#flash:/logfile

   0 -rw-       21863 Apr 27 2018 16:00:37   logfile.log

 

1021104 KB total (421552 KB free)

·     非缺省MDC中的logfile日志,每个非缺省MDC都需要检查

<Sysname> dir flash:/mdc/

Directory of flash:/mdc

   0 drw-           - Apr 27 2018 14:56:50   mdc2

   1 drw-           - Apr 27 2018 16:48:04   mdc3

<Sysname> dir flash:/mdc/mdc2/logfile/

Directory of flash:/mdc/mdc2/logfile

   0 -rw-         465 Apr 27 2018 16:08:51   logfile.log

 

1021104 KB total (421476 KB free)

<Sysname> dir flash:/mdc/mdc3/logfile/

Directory of flash:/mdc/mdc3/logfile

   0 -rw-         465 Apr 27 2018 16:10:39   logfile.log

 

1021104 KB total (421476 KB free)

(3)     使用FTP或者TFTP将日志文件传输到指定位置。

1.2.3  diagfile日志

(1)     执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在Flashdiagfile目录中。

·     在缺省MDC上收集对应的诊断日志文件。

<Sysname> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file flash:/diagfile/diagfile.log

·     在非缺省MDC上收集对应的诊断日志文件。

如果设备创建了非缺省MDC,请在每个非缺省MDC下执行diagnostic-logfile save命令收集该MDC对应的诊断日志文件。

# 查看当前创建的非缺省mdc

<Sysname> display mdc

ID         Name            Status

---------------------------------

1          Admin           active

2          mdc2            active

3          mdc3            active

<Sysname> system-view

[Sysname] switchto mdc mdc2

****************************************************************************** 

* Copyright (c) 2004-2018 New H3C Technologies Co., Ltd. All rights reserved.* 

* Without the owner's prior written consent,                                 * 

* no decompiling or reverse-engineering shall be allowed.                    * 

****************************************************************************** 

 

<Sysname> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file flash:/diagfile/diagfile.log

<Sysname> switchback

[Sysname] switchto mdc 3

****************************************************************************** 

* Copyright (c) 2004-2018 New H3C Technologies Co., Ltd. All rights reserved.* 

* Without the owner's prior written consent,                                 * 

* no decompiling or reverse-engineering shall be allowed.                    * 

****************************************************************************** 

 

<Sysname> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file flash :/diagfile/diagfile.log

<Sysname> switchback

(2)     查看缺省MDC中主用主控板、备用主控板、IRF中主设备/从设备上各主用/备用主控板的诊断日志文件名称,如果设备创建了非缺省MDC,还需要检查每个非缺省MDC对应的日志文件。

·     缺省MDC主用主控板diagfile日志

<Sysname> dir flash:/diagfile/

Directory of flash:/diagfile

   0 -rw-      161321 Apr 27 2018 16:16:00   diagfile.log

 

1021104 KB total (421416 KB free)

 

·     缺省MDC备用主控板diagfile日志

<Sysname> dir slot16#flash:/diagfile/

Directory of slot16#flash:/diagfile

   0 -rw-      161321 Apr 27 2018 16:16:00   diagfile.log

 

1021104 KB total (421416 KB free)

·     缺省MDCIRF各成员设备主控板diagfile日志,如果成员设备有两块主控板,则两块都需要检查:

<Sysname> dir chassis2#slot17#flash:/diagfile/

Directory of chassis2#slot17#flash:/diagfile

   0 -rw-      161321 Apr 27 2018 16:16:00   diagfile.log

 

1021104 KB total (421416 KB free)

·     非缺省MDC中的diagfile日志,每个非缺省MDC都需要检查

<Sysname> dir flash:/mdc/

Directory of flash:/mdc

   0 drw-           - Apr 27 2018 14:56:50   mdc2

   1 drw-           - Apr 27 2018 16:48:04   mdc3

<Sysname>dir flash:/diagfile/

Directory of flash:/diagfile

   0 -rw-         349 Apr 27 2018 16:21:38   diagfile.log

 

1021104 KB total (421352 KB free)

 

<Sysname> dir flash:/diagfile/

Directory of flash:/diagfile

   0 -rw-         349 Apr 27 2018 16:24:41   diagfile.log

 

1021104 KB total (421308 KB free)

(3)     使用FTP或者TFTP将日志文件传输到指定位置。

1.2.4  诊断信息

诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。

需要注意的是,设备上单板越多,诊断信息收集的时间越长,信息收集期间不能输入命令,请耐心等待。

说明: 说明

通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口或管理口的情况下,建议通过业务网口或管理口登录和传输文件。

 

(1)     执行screen-length disable命令,以避免屏幕输出被打断(如果是将诊断信息保存到文件中,则忽略此步骤)。

<Sysname> screen-length disable

(2)     使用display cpu-usagedisplay memory命令查看CPU、内存使用率。确认CPU使用率小于100%,内存使用率小于90%以后再进行下一步

<Sysname> display cpu-usage

显示信息略。

<Sysname> display memory

显示信息略。

(3)     执行display diagnostic-information命令收集诊断信息。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N] :

(4)     选择将诊断信息保存至文件中,还是将直接在屏幕上显示

·     输入“Y”,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。

Save or display diagnostic information (Y=save, N=display)? [Y/N]:y            

Please input the file name(*.tar.gz)[flash:/diag_H3C_20180523-151204.tar.gz]:  

Diagnostic information is outputting to flash:/diag_H3C_20180523-151204.tar.gz.

Please wait...                                                                 

·     Save successfully. 

<Sysname> dir flash:/

Directory of flash:

……

9 -rw-      236011 May 23 2018 14:56:45   diag_H3C_20180523-151204.tar.gz 

 

1021808 KB total (259072 KB free)

·     输入“N”,将诊断信息直接显示在屏幕上。(显示信息与设备的版本有关,请以设备的实际情况为准。)

Save or display diagnostic information (Y=save, N=display)? [Y/N] :N

===============================================

  ===============display clock===============

10:27:16 UTC Wed 05/23/2018

=================================================

  ===============display version===============

H3C Comware Software, Version 7.1.070, Feature 2711P01                         

Copyright (c) 2004-2018 New H3C Technologies Co., Ltd. All rights reserved.    

H3C S12508X-AF uptime is 0 weeks, 0 days, 6 hours, 29 minutes                  

Last reboot reason : Cold reboot                                               

                                                                                

Boot image: flash:/S12500X-CMW710-BOOT-F2711P01.bin                            

Boot image version: 7.1.070P2211, Feature 2711P01                              

  Compiled Apr 20 2018 11:00:00, DEBUG SOFTWARE                                

System image: flash:/S12500X-CMW710-SYSTEM-F2711P01.bin                        

System image version: 7.1.070, Feature 2711P01                                 

  Compiled Apr 20 2018 11:00:00, DEBUG SOFTWARE                                

Feature image(s) list:                                                         

  flash:/S12500X-CMW710-DEVKIT-F2711P01.bin, version: 7.1.070                  

    Compiled Apr 20 2018 11:00:00, DEBUG SOFTWARE                               

  flash:/S12500X-CMW710-MANUFACTURE-F2711P01.bin, version: 7.1.070             

    Compiled Apr 20 2018 11:00:00, DEBUG SOFTWARE                              

                                                                                

                                                                               

MPU(M) Chassis 1 Slot 1:                                                       

Uptime is 0 weeks,0 days,6 hours,29 minutes                                    

H3C S12508X-AF MPU(M) with 1 XLP316 Processor                                  

BOARD TYPE:         LSXM1SUPB1                                                 

DRAM:               8192M bytes                                                

FLASH:              1024M bytes                                                

NVRAM:              512K bytes                                                 

PCB 1 Version:      VER.A                                                      

Bootrom Version:    154                                                        

CPLD 1 Version:     004                                                        

CPLD 2 Version:     004                                                        

CPLD 3 Version:     004                                                         

Release Version:    H3C S12508X-AF-2711P01                                     

Patch Version:      None                                                       

Reboot Cause:       ColdReboot                                                  

                                                                               

LPU Chassis 1 Slot 2:                                                          

Uptime is 0 weeks,0 days,6 hours,24 minutes                                     

H3C S12508X-AF LPU with 1 XLP308 Processor                                     

BOARD TYPE:         LSXM1TGS48C2HB1                                            

DRAM:               8192M bytes                                                 

FLASH:              0M bytes                                                   

NVRAM:              0K bytes                                                   

PCB 1 Version:      VER.A                                                       

PCB 2 Version:      VER.A                                                      

Bootrom Version:    125                                                        

CPLD 1 Version:     000                                                        

CPLD 2 Version:     000                                                        

FPGA 1 Version:     006                                                        

Release Version:    H3C S12508X-AF-2711P01                                     

Patch Version:      None                                                       

Reboot Cause:       ColdReboot                                                 

                                                                               

NPU Chassis 1 Slot 14:                                                         

Uptime is 0 weeks,0 days,6 hours,23 minutes                                    

H3C S12508X-AF NPU with 1 XLP208 Processor                                     

BOARD TYPE:         LSXM1SFH08D1                                               

DRAM:               4096M bytes                                                

FLASH:              0M bytes                                                   

NVRAM:              0K bytes                                                   

PCB 1 Version:      VER.A                                                      

Bootrom Version:    125                                                        

CPLD 1 Version:     001                                                         

Release Version:    H3C S12508X-AF-2711P01                                     

Patch Version:      None                                                       

Reboot Cause:       ColdReboot     

……

1.3  故障处理求助方式

当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。

用户支持邮箱:service@h3c.com

技术支持热线电话:400-810-0504(手机、固话均可拨打)

2 开局自检

2.1  自检目的

针对客户的项目,提供有针对性的开局指导,规范开局配置,提前消除开局隐患,杜绝低级配置错误,保证项目的顺利进行。

另外,由于产品支持多种组网应用,各个局点的配置均不尽相同。本自检表检查一个比较全面的开局组网,实际开局时可以根据具体情况采用实际应用部分进行自检。

2.2  开局自检项

编码

检查项目

检查分项目

检查方法

   

 

1

环境及单板硬件状态检查

环境状况

display environment

□合格

□不合格

□不涉及

设备当前温度应比一般级高温告警门限低20度左右。

风扇状况

display fan

□合格

□不合格

□不涉及

风扇应该显示Normal

电源状况

display power

□合格

□不合格

□不涉及

电源应该显示Normal

指示灯状况

观察所有单板的运行灯及告警灯的运行状况

□合格

□不合格

□不涉及

单板板运行灯慢闪,告警灯常灭。

单板运行状况

display device

□合格

□不合格

□不涉及

所有业务板应该是Normal,主控板为StandbyMaster状态。

2

双主控设备自检

主备板软件版本是否一致?

display boot-loader

□合格

□不合格

□不涉及

确保主备板的软件版本一致。

备用主控板是否保存有配置文件?

使用命令dir

□合格

□不合格

□不涉及

如果不存在配置文件,请执行save命令保存。

3

CPU占用率

CPU的占用率是否忽高忽低?震荡比较大(10%—60%)或者一直高(主控板CPU占用率是否超过60%?业务板CPU占用率是否超过60%?)

多次使用display cpu-usage查看

□合格

□不合格

□不涉及

如果CPU占用率过高,请打开debug ip packet查看上CPU报文,根据报文分析原因。

4

内存占用率

主控板和业务板内存占用率是否在60%以下?

display memory

□合格

□不合格

□不涉及

如果内存占用率高于60%,需要通过Probe视图下的display system internal kernel memory pool slot命令确认哪个模块占用内存过大,以便排查。

5

端口自检

端口是否协商出了半双工?

display interface brief

□合格

□不合格

□不涉及

例如:如果显示某个端口状态为half,需要确认是否两端配置不一致导致。

是否在没有必要启动流控端口配置流控?

查看配置,是否开启flow-control 配置

□合格

□不合格 □不涉及

关闭该端口流控:undo flow-control

端口出/入方向是否有大量的错误报文?

多次执行display interface查看errors部分是否有较大数据,并且在增加

□合格

□不合格

□不涉及

1:检查线路和中间连接的光电转换器。

2:两端配置是否一致?例如,是否一端为强制而对端为协商?

是否有比较频繁的端口UP/DOWN

display logbuffer

□合格

□不合格

□不涉及

1:检查线路和中间连接的光电转换器。

2:千兆端口检查光功率是否处于临界值?

3:检查两端配置是否一致?

6

光口自检

光口两端是否配置一致?

display current-configuration interface

□合格

□不合格

□不涉及

H3C设备与其它厂商设备互连,建议光口速率和双工设置要完全一致。

光口是否有CRC错误?是否在增长?

display interface

□合格

□不合格

□不涉及

检查光功率是否处于临界值?可以通过更换光模块、更换尾纤或清洗光模块连接器的方式解决。

7

Trunk端口的配置自检

端口PVID是否和对端的PVID一致?

display current-configuration interface

□合格

□不合格

□不涉及

两台设备之间互连的Trunk端口允许通过的VLAN配置为一致,并且两端PVID配置为一致。

端口允许通过的VLAN是否和对端允许通过的VLAN一致?

display current-configuration interface

□合格

□不合格

□不涉及

两台设备之间互连的Trunk端口允许通过的VLAN配置为一致,避免一端配置为允许所有VLAN通过,另外一端没有配置允许所有VLAN通过。

两台设备互连的端口是否一端配置成Trunk,另一端配置成Access

display current-configuration interface

□合格

□不合格

□不涉及

根据实际组网情况调整两端的配置到一致状态。

VLAN 1中是否存在环路?

使用display interface命令查看是否所有设备的Trunk端口都允许VLAN 1通过

□合格

□不合格

□不涉及

根据网络实际情况调整,在不需要VLAN 1通过的端口上取消允许VLAN 1通过。

8

STP自检

检查STP时间因子的设置情况?

display current-configuration

□合格

□不合格

□不涉及

查看配置中是否存在stp timer-factor的配置,如果不存在,建议配置stp timer-factor的值在57之间,增加STP的稳定性。

设备连接PC的端口是否配置为边缘端口?

使用display current interface命令查看端口的配置,如果配置了边缘端口,配置中会有stp edged-port enable的显示

□合格

□不合格

□不涉及

建议您将设备连接PC的端口配置为边缘端口或者关闭该端口的STP功能,将设备与不支持STP的设备相连的端口关闭STP,避免这些端口的UP/DOWN状态干扰STP的计算。

是否存在运行MSTP/STP/RSTPH3C设备和运行PVST+的思科设备互通的情况?

检查各个设备上STP的状态计算是否正常

□合格

□不合格

□不涉及

如果存在,建议将H3C设备与思科设备的互连方式改为三层互连,避免MSTP/STP/RSTP和思科私有的PVST+协议互通。

不同生成树实例的拓扑是否存在过多重叠路径?

使用display current-configuration interface查看端口配置

□合格

□不合格

□不涉及

根据实际组网需求合理划分VLANVLAN与实例的映射关系,尽量使不同VLAN的流量沿不同路径转发。避免不同生成树实例的拓扑有过多重叠路径。

是否存在TC攻击,导致端口STP状态不停切换?

使用display stp tcdisplay stp history命令查看端口收发的TC报文计数和STP状态切换时间记录

□合格

□不合格

□不涉及

确认设备和PC连接的端口配置stp edged-port enable或者关闭STP。设备和不支持STP的设备互连的端口关闭STP

9

VRRP自检

握手时间是否设置成3秒?两端的VRRP握手时间是否一致?

display vrrp

□合格

□不合格

□不涉及

如果VRRP组在5个以下可以统一将VRRP握手时间改为3秒,如果VRRP组过多,可以将VRRP分为五个或三个一组,每组的VRRP握手时间分别配置为3秒、5秒、7秒……

10

OSPF自检

是否有设备Router ID设置成相同?

display ospf peer

□合格

□不合格

□不涉及

如果存在这个问题,会导致路由学习错误,需要修改Route ID后,执行reset ospf process命令重启OSPF进程。

是否有大量错误?

display ospf statistics error

□合格

□不合格

□不涉及

如果存在大量的OSPF统计错误信息记录,并且还在不断增加,需要抓取信息进一步分析。

路由是否存在较大震荡?

display ip routing-table statistics 

查看addeddeleted数据与系统运行时间对应是否比较大

□合格

□不合格

□不涉及

如果有,请仔细分析变化的具体路由,然后根据该路由查找到路由的源设备,分析具体震荡原因。可以在出现故障时,使用display ospf lsdb命令多次查看路由的age信息,确认哪条路由在频繁振荡。

OSPF状态是否稳定?

display ospf peer

□合格

□不合格

□不涉及

查看OSPF邻居的UP时间。

11

ARP检查

是否存在大量ARP冲突?

display logbuffer  

□合格

□不合格

□不涉及

检查冲突地址,根据IP地址排除该主机。

12

路由检查

缺省路由是否正常?

是否存在路由环路?

使用tracert 1.1.1.1等明显不存在网段看是否存在路由环路,使用debug ip packet,打印部分报文,看是否存在TTL=1或者=0的报文

□合格

□不合格

□不涉及

如果存在路由环路,请检查对应的设备是否配置正确。调整路由,去掉路由环路。如果存在TTL超时报文,请分析对应网段路由是否正常。

14

攻击检查

是否有大量报文攻击cpu

通过Probe视图下debug rxtx softcar show命令查看单板的报文限速信息记录

□合格

□不合格

□不涉及

某类报文的统计计数不断增长,说明有攻击存在。

15

Local log异常记录查看

检查local log里是否有异常记录?

通过Probe视图下的

local logbuffer display命令查看异常记录

□合格

□不合格

□不涉及

如果存在该信息,需要转相关人员确认是否是异常信息。

升级后注意清除历史记录,相关命令为:local logbuffer clear

 

3 硬件类故障处理

说明: 说明

本章节主要讲述单板、电源、风扇、机框等部件故障的处理方法。其它部件如光模块、端口、温度告警故障等问题请参见“系统类故障处理”和“端口类故障处理”。

 

3.1  运行过程中主控板重启故障处理

3.1.1  故障描述

主控板在使用中发生重启,无法正常启动。

3.1.2  故障处理流程

图3-1 故障诊断流程图

 

3.1.3  故障处理步骤

1. 检查主控板上的启动文件是否正常

通过Console口登录故障主控板,重新启动设备。如果BootWare提示CRC错误或者找不到启动文件,请重新加载启动文件,并确认Flash中文件大小与服务器上的文件是否一致,如不存在或不一致需重新加载启动文件。加载后请设置该文件为当前启动文件(在BootWare加载过程中,BootWare能自动将该文件设置为当前启动文件)。

2. 测试主控板内存单元是否正常

如果确认加载的文件大小正确,且设置为当前启动文件也正常。请重新启动单板,同时立即按住CTRL+T,对内存单元进行检测。如果提示内存错误,请更换单板。

3. 查看Bootware是否依旧提示错误

如果内存检查也正常,但BootWare启动过程中还有错误提示,则根据相关提示初步判断发生故障的器件。检查单板是否插牢。如已插牢则更换单板。

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

3.2  新加入主控板无法启动故障处理

3.2.1  故障描述

设备原有一块主控板,新加入一块主控板作为备用主控板,新加入主控板无法启动。

3.2.2  故障处理流程

图3-2 故障诊断流程图

 

3.2.3  故障处理步骤

1. 检查新加入主控板是否和原主控板型号一致

同一台设备中的两块主控板型号要求一致。检查两块主控板型号是否一致,如果不一致,更换一块型号一致的主控板插入。

2. 检查新加入主控板软件版本是否和原主控板一致

如果新加入主控板和原主控板型号一致,请检查两块主控板的启动文件是否一致。如果两者启动文件版本不一致,升级新加入主控板版本与原主控板一致。

如果两块主控板的启动文件也一致,请检查主用主控板运行状态,并执行步骤3

3. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

3.3  业务板运行过程中发生故障导致无法启动

3.3.1  故障描述

业务板运行过程中发生重启,重启后无法正常启动。

3.3.2  故障处理流程

图3-3 故障诊断流程图

 

3.3.3  故障处理步骤

1. 检查主控板上的启动文件是否正常

通过display boot-loaderdir命令确认启动文件是否存在,文件大小与服务器上的文件是否一致,如不存在或不一致请重新加载启动文件。

<Sysname> display boot-loader

Software images on slot 16:

Current software images:

  flash:/S12500-X-CMW710-BOOT-D1031.bin

  flash:/S12500-X-CMW710-SYSTEM-D1031.bin

Main startup software images:

  flash:/S12500-X-CMW710-BOOT-D1031.bin

  flash:/S12500-X-CMW710-SYSTEM-D1031.bin

Backup startup software images:

  None                              

<Sysname> dir

Directory of flash:

   0 drw-           - Sep 26 2013 16:18:06   core

   1 drw-           - Jun 30 2013 11:32:34   diagfile

   2 -rw-        7122 Dec 23 2013 10:02:46   ifindex.dat

   3 drw-           - Dec 11 2013 19:00:37   license

   4 drw-           - Aug 30 2013 11:51:15   logfile

   5 -rw-    20529152 Dec 22 2013 14:28:40   S12500-X-cmw710-boot-d1031.bin

   6 -rw-   178325504 Dec 22 2013 14:39:02   S12500-X-cmw710-system-d1031.bin

   7 drw-           - Jun 30 2013 11:32:34   seclog

   8 -rw-       17175 Dec 23 2013 10:02:48   startup.cfg

   9 -rw-      276535 Dec 23 2013 10:02:48   startup.mdb

  10 drw-           - Nov 12 2013 11:11:54   versionInfo

 

503808 KB total (125896 KB free)                          

2. 在问题槽位插入新业务板能否正常启动

如果确认业务板加载的启动文件存在且大小正确,在条件允许的情况下,在无法正常启动的业务板槽位插入其它业务板做测试。

如果插入的其它业务板能启动,则排除主控板和背板故障,请执行步骤3

如果插入的其它业务板也不能启动,请更换主控板。如果更换主控板后故障仍未排除,请执行步骤3

3. 检查是否有加载记录

请通过display logbuffer命令检查设备的logbuffer中是否有对应槽位单板的加载的记录。

<Sysname> display logbuffer 

%May  3 13:27:17:086 2013 H3C DEVM/4/BOARD_LOADING: Board is loading file on Chassis 1 Slot 7.

%May  3 13:27:17:647 2013 H3C DEVM/5/LOAD_FINISHED: Board has finished loading file on Chassis 1 Slot 7.

如果logbuffer有对应槽位单板的加载记录,请将业务板更换到其他能正常启动业务板槽位看能否正常启动。

如果logbuffer中没有对应槽位单板的加载记录,请执行步骤4

4. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

3.4  新加入业务板无法启动问题处理方法

3.4.1  故障描述

新加入业务板无法启动。

3.4.2  故障处理流程

图3-4 故障诊断流程图

 

3.4.3  故障处理步骤

1. 检查主控板上的启动文件是否正常

通过display boot-loaderdir命令确认启动文件是否存在,文件大小与服务器上的文件是否一致,如不存在或不一致请重新加载启动文件。

<Sysname> display boot-loader

  Software images on slot 16:

Current software images:

  flash:/S12500-X-CMW710-BOOT-D1031.bin

  flash:/S12500-X-CMW710-SYSTEM-D1031.bin

Main startup software images:

  flash:/S12500-X-CMW710-BOOT-D1031.bin

  flash:/S12500-X-CMW710-SYSTEM-D1031.bin

Backup startup software images:

  None                              

<Sysname> dir

Directory of flash:

   0 drw-           - Sep 26 2013 16:18:06   core

   1 drw-           - Jun 30 2013 11:32:34   diagfile

   2 -rw-        7122 Dec 23 2013 10:02:46   ifindex.dat

   3 drw-           - Dec 11 2013 19:00:37   license

   4 drw-           - Aug 30 2013 11:51:15   logfile

   5 -rw-    20529152 Dec 22 2013 14:28:40   S12500-X-cmw710-boot-d1031.bin

   6 -rw-   178325504 Dec 22 2013 14:39:02   S12500-X-cmw710-system-d1031.bin

   7 drw-           - Jun 30 2013 11:32:34   seclog

   8 -rw-       17175 Dec 23 2013 10:02:48   startup.cfg

   9 -rw-      276535 Dec 23 2013 10:02:48   startup.mdb

  10 drw-           - Nov 12 2013 11:11:54   versionInfo

 

503808 KB total (125896 KB free)                          

2. 检查启动文件是否支持此业务板

如果确认业务板加载的启动文件存在且大小正确,请检查启动文件的软件版本配套资料,确认此版本软件是否支持该业务板。如果不支持,升级到支持此业务板的新软件版本。

3. 在问题槽位插入新业务板能否正常启动

如果故障仍未排除且条件允许,在无法加载的业务板槽位插入其它与软件版本适配的业务板做测试。

如果插入的其它业务板能启动,则排除主控板和背板故障,请执行步骤4

如果插入的其它业务板也不能启动,请更换主控板。如果更换主控板后故障仍未排除,请执行步骤4

4. 检查是否有加载记录

请通过display logbuffer命令检查设备的logbuffer中是否有对应槽位单板的加载的记录。

[Sysname] display logbuffer 

%May  3 13:27:17:086 2013 H3C DEVM/4/BOARD_LOADING: Board is loading file on Chassis 1 Slot 7.

%May  3 13:27:17:647 2013 H3C DEVM/5/LOAD_FINISHED: Board has finished loading file on Chassis 1 Slot 7.

如果logbuffer有对应槽位单板的加载记录,请将业务板更换到其他能正常启动业务板槽位看能否正常启动。

如果logbuffer中没有对应槽位单板的加载记录,请执行步骤5

5. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

3.5  电源运行中上报Fault问题处理方法

3.5.1  故障描述

电源运行中上报Fault

3.5.2  故障处理流程

图3-5 故障诊断流程图

 

3.5.3  故障处理步骤

1. 检查是否存在FaultAbsent状态的电源模块

使用display power命令显示电源模块状态,查看是否存在FaultAbsent状态的电源模块。

<Sysname> display power

PowerID State          Current(A)  Voltage(V)  Power(W)

 1       Normal           7.80       54.02      421.35

 2       Normal           9.20       53.99      496.70

 3       Absent            --          --          --

 4       Absent            --          --          --

 5       Absent            --          --          --

 6       Absent            --          --          --

 7       Absent            --          --          --

 8       Absent            --          --          --  

也可以使用display alarm命令查看电源模块告警信息。

<Sysname> display alarm

Slot   CPU   Level   Info

-      -     INFO    Power 3 is absent.

-      -     INFO    Power 4 is absent.

-      -     INFO    Power 5 is absent.

-      -     INFO    Power 6 is absent.

-      -     INFO    Power 7 is absent.

-      -     INFO    Power 8 is absent..

如果存在Absent状态的电源模块,请执行步骤2

如果存在Fault状态的电源模块,请执行步骤3

2. 检查Absent状态电源模块

如果电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装牢固。

如果电源模块槽位有电源模块在位且显示为Absent,请将电源模块拆卸后重新安装,然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请更换新电源模块

如果更换新电源模块后仍然显示为Absent状态,请执行步骤4

3. 检查Fault状态电源模块

如果存在Fault状态电源模块,表示该电源模块异常,无法供电。

电源处于Fault状态可能有以下原因:

(1)     电源线可能没接稳而脱落。如果电源线脱落,那么电源的电流和电压都会显示为0,电源状态显示为Fault请检查电源是否接线,接线后使用display power命令查看对应槽位电源状态是否显示为Normal如果没有恢复Normal,请执行(2)

<Sysname>display power                                                             

 PowerID State    Mode   Current(A)  Voltage(V)  Power(W)                      

 1       Normal   AC       2.60       53.81      139.90                        

 2       Fault    AC        0          0          0       /*电源没接线状态显示*/

(2)     可能是电源模块本身温度过高导致。如果电源模块上积灰较多可能引起电源模块温度升高。请查看电源模块积灰情况,如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。然后使用display power命令查看对应槽位电源状态是否显示为Normal如果没有恢复Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。如果该电源模块仍然显示为Fault状态,请更换电源模块。如果更换新电源模块后仍然显示为Fault状态,请执行步骤4

4. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

3.6  新插入电源模块状态异常处理方法

3.6.1  故障描述

新插入电源模块状态异常。

3.6.2  故障处理流程

图3-6 故障诊断流程图

 

3.6.3  故障处理步骤

1. 查看电源模块状态

使用display power命令查看电源模块状态。

<Sysname> display power

PowerID State          Current(A)  Voltage(V)  Power(W)

 1       Normal           7.80       54.02      421.35

 2       Normal           8.80       53.99      475.11

 3       Absent            --          --          --

 4       Absent            --          --          --

 5       Absent            --          --          --

 6       Absent            --          --          --

 7       Absent            --          --          --

 8       Absent            --          --          --

也可以使用display alarm命令查看电源模块告警信息。

<Sysname> display alarm

Slot   CPU   Level   Info

-      -     INFO    Power 3 is absent.

-      -     INFO    Power 4 is absent.

-      -     INFO    Power 5 is absent.

-      -     INFO    Power 6 is absent.

-      -     INFO    Power 7 is absent.

-      -     INFO    Power 8 is absent.

如果该电源模块显示为Absent状态,请执行步骤2

如果该电源模块显示为Fault状态,请执行步骤3

2. 检查Absent状态电源模块

如果该电源模块显示为Absent状态,表示电源模块没有安装牢固。请将该电源模块拆卸后重新安装,然后查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态。如果仍然显示为Absent状态,请执行步骤4

3. 检查Fault状态电源模块

如果该电源模块显示为Fault状态,表示该模块异常,无法供电。首先检查是否已接电源线,如果没接电源线,请接入电源线。如果接入电源线,电源状态还非Normal状态,请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态。如果仍然显示为Fault状态,请执行步骤4

4. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

3.7  风扇框运行中上报Fault或新安装风扇框后状态异常问题处理方法

3.7.1  故障描述

风扇框运行中上报Fault或新安装风扇框后状态异常

3.7.2  故障处理流程

图3-7 故障诊断流程图

 

3.7.3  故障处理步骤

1. 查看风扇框状态

使用display fan命令查看风扇框状态。

<Sysname> display fan

 Fan-tray 1:

 Status    : Normal

 Fan number: 5

 Fan mode  : Auto

 Airflow Direction: Front-to-back

 Fan  Status      Speed(rpm)

 ---  ----------  ----------

  1   Normal      3881

  2   Normal      1690

  3   Normal      1693

  4   Normal      1563

  5   Normal      1645

 Fan-tray 2:

 Status    : Absent

也可以使用display alarm命令查看风扇框告警信息。

<Sysname> display alarm

Slot   CPU   Level   Info

-      -     ERROR   Fan 2 is faulty.

-      -     INFO    Power 3 is absent.

-      -     INFO    Power 4 is absent.

-      -     INFO    Power 5 is absent.

-      -     INFO    Power 6 is absent.

-      -     INFO    Power 7 is absent.

-      -     INFO    Power 8 is absent.

如果风扇框工作状态显示为Absent,请执行步骤2

如果风扇框工作状态显示为Fault,请执行步骤3

2. 检查风扇框是否安装牢固

如果风扇框工作状态显示为Absent状态,表示风扇框不在位或者没有安装牢固。如果风扇框在位,请将该风扇框拆卸后重新安装,然后查看风扇框状态是否显示为Normal状态。如果仍然显示为Absent状态,请更换风扇框。如果更换新风扇框后仍然显示为Absent状态,请执行步骤4

3. 检查设备的工作环境信息

如果风扇框工作状态显示Fault状态,表示该风扇框异常,无法提供抽风散热功能。请使用下述步骤进一步定位。

(1)     使用display environment命令查看系统温度是否持续升高。如果系统温度持续升高,建议用手在设备出风口触摸进一步判断出风口是否有出风。如果出风口无风,表示风扇框异常。

(2)     查看风扇转速,即speed字段信息,如果风扇转速小于500/rpm,表示风扇异常。

(3)     如果确定风扇异常,请将风扇框拆卸后重新安装,然后使用display fan命令查看是否恢复为Normal状态。

(4)     如果仍然不能恢复为Normal状态,请更换该风扇框。如果现场没有风扇框,不能立即更换,请关闭设备以免温度过高导致电路烧坏(如果有降温措施保证系统工作在60摄氏度以下,也可以继续使用设备)。

(5)     如果更换新的风扇框仍然不能恢复为Normal状态,请执行步骤4

4. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

3.8  故障诊断命令

命令

说明

probe

进入Probe视图

dir

显示当前文件夹或文件信息

display boot-loader

显示本次启动和下次启动所采用的启动软件包的名称

display environment

显示设备的工作温度信息

display fan

显示设备风扇框的工作状态

display logbuffer

用来显示系统日志缓冲区记录的日志信息

display alarm

显示设备的告警信息

display power

显示设备电源的信息

display process slot slot-id

查看当前运行的进程的编号和名称

 

4 系统类故障处理

4.1  单板CPU占用率高问题处理方法

4.1.1  故障描述

连续使用命令display cpu-usage查看CPU的占用率。如果CPU占用率持续在80%以上,说明有某个任务长时间占用CPU,需要确认CPU高的具体原因。

4.1.2  故障处理流程

图4-1 故障诊断流程图

 

 

4.1.3  故障处理步骤

1. 确定CPU占用率高的任务

通过Probe视图下的display process cpu命令观察占用CPU最多的任务,比如1槽位CPU占用率高。

[H3C-probe] display process cpu slot 1

CPU utilization in 5 secs: 2.4%; 1 min: 2.5%; 5 mins: 2.4%

    JID      5Sec      1Min      5Min    Name

      1      0.0%      0.0%      0.0%    scmd

      2      0.0%      0.0%      0.0%    [kthreadd]

      3      0.0%      0.0%      0.0%    [migration/0]

      4      0.0%      0.0%      0.0%    [ksoftirqd/0]

      5      0.0%      0.0%      0.0%    [watchdog/0]

      6      0.0%      0.0%      0.0%    [migration/1]

      7      0.0%      0.0%      0.0%    [ksoftirqd/1]

      8      0.0%      0.0%      0.0%    [watchdog/1]

      9      0.0%      0.0%      0.0%    [migration/2]

     10      0.0%      0.0%      0.0%    [ksoftirqd/2]

     11      0.0%      0.0%      0.0%    [watchdog/2]

各列分别表示某任务平均5sec1min5min占用CPU的百分比和任务名。某任务占用率越高,说明相应的任务占用CPU的资源越多。正常情况任务对CPU的占用率一般低于5%,这个命令可以查看明显高出正常占用率的任务。

2. 确认异常任务的调用栈

通过Probe视图下的follow job job-id命令确认异常任务的调用栈。

[H3C-probe] follow job 145 slot 1

Attaching to process 145 ([mIPC] )

Iteration 1 of 5

------------------------------

Kernel stack:

[<ffffffff8045e858> ] schedule+0x738/0x1050

[<ffffffff8045f418> ] schedule_timeout+0x98/0xe0

[<ffffffff8030d084> ] ep_poll+0x4b4/0x5e0

[<ffffffffc01e7640> ] drv_mac_async_ipc_process+0x70/0x100 [system]

[<ffffffffc3f4d344> ] thread_boot+0x84/0xa0 [system]

[<ffffffff80260730> ] kthread+0x130/0x140

[<ffffffff8021aec0> ] kernel_thread_helper+0x10/0x20

 

Iteration 2 of 5

------------------------------

Kernel stack:

[<ffffffff8045e858> ] schedule+0x738/0x1050

[<ffffffff8045f418> ] schedule_timeout+0x98/0xe0

[<ffffffff8030d084> ] ep_poll+0x4b4/0x5e0

[<ffffffffc01e7640> ] drv_mac_async_ipc_process+0x70/0x100 [system]

[<ffffffffc3f4d344> ] thread_boot+0x84/0xa0 [system]

[<ffffffff80260730> ] kthread+0x130/0x140

[<ffffffff8021aec0> ] kernel_thread_helper+0x10/0x20

 

Iteration 3 of 5

------------------------------

Kernel stack:

[<ffffffff8045e858> ] schedule+0x738/0x1050

[<ffffffff8045f418> ] schedule_timeout+0x98/0xe0

[<ffffffff8030d084> ] ep_poll+0x4b4/0x5e0

[<ffffffffc01e7640> ] drv_mac_async_ipc_process+0x70/0x100 [system]

[<ffffffffc3f4d344> ] thread_boot+0x84/0xa0 [system]

[<ffffffff80260730> ] kthread+0x130/0x140

[<ffffffff8021aec0> ] kernel_thread_helper+0x10/0x20

 

Iteration 4 of 5

------------------------------

Kernel stack:

[<ffffffff8045e858> ] schedule+0x738/0x1050

[<ffffffff8045f418> ] schedule_timeout+0x98/0xe0

[<ffffffff8030d084> ] ep_poll+0x4b4/0x5e0

[<ffffffffc01e7640> ] drv_mac_async_ipc_process+0x70/0x100 [system]

[<ffffffffc3f4d344> ] thread_boot+0x84/0xa0 [system]

[<ffffffff80260730> ] kthread+0x130/0x140

[<ffffffff8021aec0> ] kernel_thread_helper+0x10/0x20

 

Iteration 5 of 5

------------------------------

Kernel stack:

[<ffffffff8045e858> ] schedule+0x738/0x1050

[<ffffffff8045f418> ] schedule_timeout+0x98/0xe0

[<ffffffff8030d084> ] ep_poll+0x4b4/0x5e0

[<ffffffffc01e7640> ] drv_mac_async_ipc_process+0x70/0x100 [system]

[<ffffffffc3f4d344> ] thread_boot+0x84/0xa0 [system]

[<ffffffff80260730> ] kthread+0x130/0x140

[<ffffffff8021aec0> ] kernel_thread_helper+0x10/0x20

3. 收集信息并寻求技术支持

记录上述步骤所获得的信息,并收集设备的运行信息。将所有信息反馈给H3C技术人员寻求技术支持。

4.2  单板内存占用率高问题处理方法

4.2.1  故障描述

使用display memory命令查看各个单板内存信息。如果单板内存占用率在持续的一段时间内(一般为30分钟)高于60%,那么可能存在内存异常问题,需要关注。

4.2.2  故障处理流程

图4-2 故障诊断流程图

 

4.2.3  故障处理步骤

1. 确定各内存块使用情况

通过Probe视图下的display system internal kernel memory pool命令查看各块内存使用情况。

[Sysname-probe] display system internal kernel memory pool slot 1

Active    Number  Size     Align Slab Pg/Slab ASlabs  NSlabs Name

9126      9248    64       8     32   1       289     289    kmalloc-64

105       112     16328    0     2    8       54      56     kmalloc-16328

14        14      2097096  0     1    512     14      14     kmalloc-2097096

147       225     2048     8     15   8       12      15     kmalloc-2048

7108      7232    192      8     32   2       226     226    kmalloc-192

22        22      524232   0     1    128     22      22     kmalloc-524232

1288      1344    128      8     21   1       64      64     kmalloc-128

0         0       67108808 0     1    16384   0       0      kmalloc-67108808

630       651     4096     8     7    8       93      93     kmalloc-4096

68        70      131016   0     1    32      68      70     kmalloc-131016

1718      2048    8        8     64   1       31      32     kmalloc-8

1         1       16777160 0     1    4096    1       1      kmalloc-16777160

2         15      2048     0     15   8       1       1      sgpool-64

0         0       40       0     42   1       0       0      inotify_event_cache

325       330     16328    8     2    8       165     165    kmalloc_dma-16328

0         0       72       0     30   1       0       0      LFIB_IlmEntryCache

0         0       1080     0     28   8       0       0      LFIB_IlmEntryCache

0         0       1464     0     21   8       0       0      MFW_FsCache

1         20      136      0     20   1       1       1      L2VFIB_Ac_cache

0         0       240      0     25   2       0       0      CCF_JOBDESC

0         0       88       0     26   1       0       0      NS4_Aggre_TosSrcPre

0         0       128      0     21   1       0       0      IPFS_CacheHash_cachep

---- More ----

Active列表示使用中的内存对象数目,Number列表示可使用的内存对象的总个数。如第一行表示分配为64字节一块的内存总共9248个,使用中的9126个。若ActiveNumber的比例不断增加,说明可能存在内存泄漏情况。

2. 确定内存异常的具体模块

通过Probe视图下的view /sys/kernel/slab/<modulename>/alloc_calls查看各内存块的调用情况。此处以显示信息中kmalloc-2048为例

[Sysname-probe]view /sys/kernel/slab/kmalloc-2048/alloc_calls

     23 kque_create+0x58/0x260 age=4262117/4404939/4692659 pid=128-372 cpus=0,2-3

      2 sys_init_module+0x1bdc/0x1e50 age=4746250/4748179/4750108 pid=109-128 cpus=9,12

      4 __vmalloc_area_node+0x154/0x1b0 age=4652363/4677089/4747310 pid=128-166

cpus=0-1,12

     16 percpu_populate+0x3c/0x60 age=4322758/4322758/4322758 pid=128 cpus=0

     21 alloc_pipe_info+0x24/0x60 age=4/3888025/4320768 pid=1-564 cpus=0-4,9,11

     29 alloc_pci_dev+0x18/0x40 age=4758366/4758366/4758368 pid=1 cpus=15

      2 init_dev+0x1c0/0x870 age=510128/2630142/4750157 pid=1-542 cpus=0,2

      1 init_dev+0x4dc/0x870 age=510128 pid=542 cpus=2

      2 kobj_map_init+0x2c/0xd0 age=4758371/4758535/4758700 pid=0-1 cpus=0,15

      2 usb_alloc_dev+0x38/0x200 age=4750540/4750605/4750671 pid=1 cpus=15

      1 usb_create_hcd+0x34/0x120 age=4750540 pid=1 cpus=15

     16 exception_notifier_init+0x298/0x4f8 age=4750380/4750380/4750381 pid=1 cpus=15

      1 drv_port_module_varialbe_init+0x24/0x80 [system] age=4651959 pid=128 cpus=0

      1 DRV_VLAN_BasicFunc_Init+0x1ec/0x700 [system] age=4651871 pid=128 cpus=0

      1 drv_vlan_maccash_init+0x124/0x240 [system] age=4651869 pid=128 cpus=0

      1 drv_ipmc_spec_init+0x54/0x840 [system] age=4650355 pid=128 cpus=0

      1 drv_evb_add_broadcast_group+0x964/0xa50 [system] age=4264182 pid=312 cpus=1

      2 DRV_EVB_MAP_AddRec+0x160/0x2a0 [system] age=4264142/4264175/4264209 pid=288 cpus=9

      1 drv_evi_localmac_init+0x160/0x650 [system] age=4651896 pid=128 cpus=0

      1 DRV_QINQ_Init+0x278/0x890 [system] age=4650270 pid=128 cpus=0

      1 DRV_QINQ_Init+0x478/0x890 [system] age=4650270 pid=128 cpus=0

      1 Drv_Qacl_InitAddUdfTemplate+0x68/0xb30 [system] age=4651968 pid=128 cpus=0

      1 drv_qacl_sal_rsc_init+0xc8/0x210 [system] age=4651968 pid=128 cpus=0

---- More ----

上述显示信息中,第一列表示内存对象个数,后面是内存分配的调用关系。

从上述命令中可以找到分配数量明显不正常的项,或者记录完整的信息给H3C的技术支持工程师以供后续故障定位和排除使用。

3. 收集信息并寻求技术支持

通过上述步骤只是确定了问题的范围,但还需继续收集信息以确定具体是哪些代码有问题。由于后续信息收集要求较高,不建议用户操作,请与H3C的技术支持工程师联系。需要注意的是:此时,不得重启设备,否则设备重启后,由于缺少故障出现时的信息而给故障定位带来困难。

4.3  系统温度告警问题处理方法

4.3.1  故障描述

系统出现温度告警。

4.3.2  故障处理流程

图4-3 故障诊断流程图

 

4.3.3  故障处理步骤

1. 环境温度是否过高

若是环境温度过高(环境温度超过22°C),请增加空调或者采取其他散热措施降低环境温度。

2. 设备温度是否过高

若是设备温度过高(设备温度超过一般级高温告警门限),确认设备风扇是否正常。

使用display fan命令查看风扇框是否运行正常。若显示为“Fault”,请参考《H3C S12500-X 系列交换机 安装手册》或《H3C S12500X-AF 系列交换机 安装手册》中的“6.4 风扇故障定位与处理”排除风扇故障。

3. 检查防尘网是否洁净

如果风扇正常,则检查防尘网是否洁净。清理防尘网后,看温度是否能恢复正常。

4. 重设温度告警门限

使用temperature-limit命令重新设置高温告警单板的温度告警门限值。通过display environment命令可以查看温度告警门限是否设置成功。

·     如果设置不成功,则表明单板温度器件异常,请更换单板。

·     如果设置成功,但高温告警仍未消除,请执行步骤5

5. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系H3C的技术支持工程师。

4.4  故障诊断命令

命令

说明

display cpu-usage

显示CPU利用率的统计信息

display environment

显示设备的温度信息,包括当前温度和设定的温度门限

display fan

显示设备上所有风扇框的工作状态

display process cpu

Probe视图下命令,显示各任务占用CPU的情况

display memory

显示内存使用情况

display system internal kernel memory pool

Probe视图下命令,查看各块内存使用情况

follow job job-id

Probe视图下命令,显示异常任务的调用栈

temperature-limit

设置设备的温度告警门限

view  /sys/kernel/slab/<modulename>/alloc_calls

Probe视图下命令,显示内存分配块数以及调用关系

 

5 端口类故障处理

5.1  1G/10GBase-T以太网电口不UP故障处理

5.1.1  故障描述

1G/10GBase-T以太网电口不UP

5.1.2  故障处理流程

图1-1 故障诊断流程图

 

5.1.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查链路情况,网线是否正常

可通过更换网线来检查故障是否排除。对于10GBase-T以太网电口,请使用6A/7类双绞线进行连接。

3. 检查本端端口是否正常

可通过更换本端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

4. 检查对端端口是否正常

可通过更换对端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

5. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

5.2  千兆SFP光口不UP故障处理

5.2.1  故障描述

千兆SFP光口不UP

5.2.2  故障处理流程

图1-2 故障诊断流程图

 

5.2.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

3. 检查光模块是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块)来检查故障是否排除。关于光模块的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两的光模块波长、距离等参数是否一致。

4. 检查光纤是否正常

可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

5. 检查本端端口是否正常

可通过更换本端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

6. 检查对端端口是否正常

可通过更换对端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

7. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

5.3  SFP+UP故障处理

5.3.1  故障描述

万兆SFP+光口与其它设备互连不UP

5.3.2  故障处理流程

图1-3 故障诊断流程图

 

5.3.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

3. 检查两端端口是否正常

在本单板上的SFP+端口上用万兆SFP+电缆(适用于短距离连接)直接互连,查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否解决。

4. 检查光模块、电缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块电缆)来检查故障是否排除。关于光模块电缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两的光模块波长、距离等参数是否一致。

5. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

6. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师

5.4  40GEQSFP+光口UP故障处理

5.4.1  故障描述

40GEQSFP+光口不UP

5.4.2  故障处理流程

图1-4 故障诊断流程图

 

5.4.3  故障处理步骤

1. 检查两端端口是否正常

在本单板上的40GEQSFP+端口上用QSFP+电缆(适用于短距离连接)直接互连,查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否解决。

2. 检查光模块、电缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(推荐使用H3C光模块、电缆)来检查故障是否排除。关于光模块、电缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两的光模块波长、距离等参数是否一致。

需要注意的是,如果使用QSFP+ to SFP+电缆连接时,由于QSFP+光模块发送光功率超过了SFP+模块要求接收的光功率上限,在使用时需要加光衰。

3. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

4. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师

5.5  100GEQSFP28光口UP故障处理

5.5.1  故障描述

100GEQSFP28光口不UP

5.5.2  故障处理流程

图1-5 故障诊断流程图

 

5.5.3  故障处理步骤

1. 检查两端端口是否正常

在本单板上100GEQSFP28端口上使用QSFP28电缆(适用于短距离连接)直接互连,查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否解决。

2. 检查光模块、电缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(推荐使用H3C光模块、电缆)来检查故障是否排除。关于光模块、电缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两的光模块波长、距离等参数是否一致。

3. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

4. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师

5.6  100GECFP/CFP2光口UP故障处理

5.6.1  故障描述

100GECFP/CFP2光口不UP

5.6.2  故障处理流程

图1-6 故障诊断流程图

 

5.6.3  故障处理步骤

1. 检查光模块是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块)来检查故障是否排除。关于光模块的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令,检查两端的光模块波长、距离等参数是否一致。

2. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

3. 检查本端端口是否正常

可通过更换本端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

4. 检查对端端口是否正常

可通过更换对端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

5. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

5.7  100GECXP光口UP故障处理

5.7.1  故障描述

100GECXP光口不UP

5.7.2  故障处理流程

图1-7 故障诊断流程图

 

5.7.3  故障处理步骤

1. 检查光模块/光缆是否正常

可通过如下步骤检查光模块/光缆是否正常,若不正常可通过更换与光接口匹配的光模块/光缆(请使用H3C光模块/光缆)来检查故障是否排除。关于光模块/光缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令,检查两端的光模块波长、距离等参数是否一致。

2. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

3. 检查本端端口是否正常

可通过更换本端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

4. 检查对端端口是否正常

可通过更换对端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

5. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

5.8  光模块上报非H3C合法光模块故障处理

5.8.1  故障描述

通过display logbuffer命令查看系统日志时,发现存在上报H3C合法光模块的相关信息。显示如下:

<Sysname> display logbuffer

%Oct 17 21:37:24:812 2011 nl-denbo-ro01 OPTMOD/4/PHONY_MODULE:

  -Chassis=2-Slot=3;

   Ten-GigabitEthernet2/3/0/5: This transceiver is NOT sold by H3C. H3C  therefore shall NOT guarantee the normal function of the device or  assume the maintenance responsibility thereof!

5.8.2  故障处理流程

图1-8 故障诊断流程图

 

5.8.3  故障处理步骤

1. 检查接口上插入的光模块厂家是否是H3C

通过命令display transceiver interface,查看Vendor Name是否是H3C。如果显示的是H3C,则可能是没有电子标签的H3C光模块,也可能不是H3C光模块,需要进一步确认。如果显示的是其它信息,则一定不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。

2. H3C的技术支持工程师确认是否是H3C光模块

通过Probe视图下debug port optical-eeprom命令收集光模块信息,向H3C技术支持工程师反馈光模块上的条码,确认光模块的渠道来源,明确是否是H3C光模块。如果确认不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。

3. 收集信息并寻求技术支持

如果上述检查完成后确认是H3C光模块,但故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

5.9  光模块不支持数字诊断故障处理

5.9.1  故障描述

通过display transceiver diagnosis interface命令查看光模块诊断信息时,系统提示光模块不支持数字诊断。显示如下:

<Sysname> display transceiver diagnosis interface ten-gigabitethernet 1/0/1

Error: The transceiver does not support this function.

5.9.2  故障处理流程

图1-9 故障诊断流程图

 

5.9.3  故障处理步骤

1. 检查光模块是否是H3C光模块

(1)     通过display transceiver interface命令,查看Vendor Name是否是H3C

(2)     通过display transceiver manuinfo interface命令,确认光模块的渠道来源,向H3C返回光模块上的条码,收集光模块的信息,明确是否是H3C光模块。

2. 查看光模块是否支持数字诊断功能

通过display transceiver interface命令,查看Digital Diagnostic Monitoring对数字诊断功能的支持情况)是否是Yes,并向H3C人员咨询这款光模块是否支持数字诊断功能。

3. 收集信息并寻求技术支持

如果上述检查完成后确认是H3C光模块,并支持数字诊断功能,但故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师

5.10  端口存在CRC等错误统计故障处理

5.10.1  故障描述

通过display interface查看到端口存在CRC等错误统计。

5.10.2  故障处理流程

图1-10 故障诊断流程图

 

5.10.3  故障处理步骤

1. 查看错误报文统计信息从而判断故障问题

通过display interface命令,查看端口出入方向的错包统计具体是哪项在增长,从而判断故障问题。为方便查看,也可以在用户视图下使用reset counter interface清空端口统计报文再观察。

2. 若是光口,请检查光模块的光功率是否正常

通过Probe视图下的display transceiver diagnosis interface命令查看光口所插光模块的数字诊断参数的当前测量值。若该光模块的光功率不正常,请更换同一型号的正常光模块。

[Sysname-probe] display transceiver diagnosis interface ten-gigabitethernet 1/0/1

Ten-GigabitEthernet1/0/1 transceiver diagnostic information:

  Current diagnostic parameters:

    [module]  Temp.(°C)

              1stTX   2ndTX   1stRX   2ndRX

              N/A     N/A     N/A     N/A

              Voltage(V)

              3.3VTX  12VTX   3.3VRX  12VRX

              3.29    N/A     3.40    N/A

    [channel] TX Bias(mA)    RX power(dBm)  TX power(dBm)

    1         6.09           0.91           -0.77

    2         5.95           1.09           -0.16

    3         6.05           1.58           -0.17

    4         5.85           1.58           -0.14

    5         6.07           2.23           -0.30

    6         5.72           2.85           -0.47

    7         6.11           3.01           -0.08

    8         5.50           1.17           -0.02

    9         5.89           -0.85          -0.17

    10        5.94           -40.00         0.29

    11        6.05           -40.00         0.18

    12        5.78           -40.00         -0.30

 

  Alarm thresholds:

    [module]  Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM)

    High      0          3.63        10.00     1.58           5.44

    Low       0          2.97        0.50      3.13           -11.61

3. 检查端口配置是否正常

通过display interface brief命令,查看端口配置是否有异常,其中两端的协商状态双工模式,端口速率是否一致。若端口速率不一致或存在半双工模式,请通过speed命令和duplex命令分别配置端口的速率和双工模式。

4. 检查端口及链路介质是否正常

更换到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,更换光模块测试。

5. 检查端口是否收到大量流控帧

通过display interface命令,查看端口pauses帧计数,如果在不断增长,表明端口发出或者收到了大量的流控帧。检查下端口出入流量是否过大及对端设备的流量处理能力。

6. 收集信息并寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师

5.11  端口不接收报文故障处理

5.11.1  故障描述

端口状态为UP,但不接收报文。

5.11.2  故障处理流程

图1-11 故障诊断流程图

 

5.11.3  故障处理步骤

1. 查看端口报文统计结果

检查两端端口状态是否一直UP,并使用display interface 命令查看入方向的报文统计是否增长。为方便查看,也可以使用reset counter interface清空当前端口的报文统计结果再进行观察。同时,查看对端是否有发送报文统计。检查端口错包统计是否持续增长。

2. 检查端口配置是否影响报文的接收

可通过以下步骤检查端口配置是否影响报文的接收:

(1)     通过display interface brief命令,查看端口配置是否有异常。其中包括两端的端口双工模式端口速率端口类型以及VLAN等配置。若有异常,请更改端口属性的配置该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令再次查端口是否能恢复正常。

(2)     如果配置了STP功能,通过display stp brief命令,查看端口是否为 discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。

(3)     如果该端口加入了聚合通过display link-aggregation summary命令查看端口是否为Selected选中状态。当该端口StatusUnselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

3. 检查端口及链路介质是否正常

更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,更换光模块测试。

4. 收集信息并寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师

5.12  端口不发送报文故障处理

5.12.1  故障描述

端口状态为UP,但不发送收报文。

5.12.2  故障处理流程

图1-12 故障诊断流程图

 

5.12.3  故障处理步骤

1. 查看端口报文统计结果

检查两端端口状态是否一直UP,并使用display interface 命令查看出方向的报文统计是否增长。为方便查看,也可以使用reset counter interface命令清空端口当前的报文统计结果再进行观察。检查端口错包统计是否持续增长。

2. 检查端口配置是否影响报文的发送

可通过以下步骤检查端口配置是否影响报文的发送:

(1)     通过display interface brief命令,查看端口配置是否有异常。其中包括两端端口的双工模式、端口速率端口类型以及VLAN等配置。若有异常,请更改端口属性的配置该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令再次查端口是否能恢复正常。

(2)     如果配置了STP功能,使用display stp brief命令查看故障端口是否为discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。

(3)     如果该端口加入了聚合,使用display link-aggregation summary命令查看端口是否为Selected选中状态。当该端口StatusUnselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

3. 检查端口及链路介质是否正常

更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接测试。如果为光口,更换光模块测试。

4. 收集信息并寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师

5.13  故障诊断命令

命令

说明

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface

显示以太网端口的相关信息

display interface brief

显示接口的概要信息

display link-aggregation summary

显示所有聚合组的摘要信息

display logbuffer

显示系统日志缓冲区的状态和缓冲区记录的日志信息

display stp brief

显示生成树状态和统计的简要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

 

6 QoS/ACL故障处理

6.1  下发ACL提示失败故障处理方法

6.1.1  故障描述

ACL下发后系统提示硬件资源不足或不支持的提示信息。

6.1.2  故障处理流程

图6-1 故障诊断流程图

 

6.1.3  故障处理步骤

ACL 提示失败一般是由于硬件资源不足或者产品不支持导致的,资源不足可能是硬件ACL/Meter/Counter本身资源不足导致。

1. 检查系统日志信息

在应用ACL时,注意观察系统的提示信息,是否有如下显示,即提示资源不足或者产品不支持。

Error: Slot=2 Fail to apply or refresh packet filter policy 3001 rule 25 on interface Vlan-interface6 due to lack of resources

 

Warning: Classifier-behavior test in policy test applied on vlan 4079 failed in slot 2

Reason: Not enough hardware resource

上述两条显示信息均表示芯片资源不足。

Error: Slot=2 Fail to apply or refresh packet filter policy 3180 rule 5 on interface Vlan-interface20Not supported

上述显示信息表示产品不支持。

如果命令行中有如上提示信息,就可基本确认是由于硬件资源不足或芯片能力导致ACL下发失败。

2. 查看当前设备的ACL资源

使用display qos-acl resource命令查看当前设备使用的ACL资源信息,注意,如果下发的ACL是全局ACL,例如基于VLANACL,则需要查看所有相关的单板的ACL表项信息。

[Sysname] display qos-acl resource

Interfaces: XGE2/1/0/1 to XGE2/1/0/21, XGE2/1/0/22                             

            XGE2/1/0/23 to XGE2/1/0/24                                         

---------------------------------------------------------------------           

 Type             Total      Reserved   Configured Remaining  Usage            

---------------------------------------------------------------------          

 VFP ACL          1024       768        0          256        75%              

 IFP ACL          2048       1792       1          255        87%              

 IFP Meter        1024       896        0          128        87%              

 IFP Counter      1024       896        0          128        87%              

 EFP ACL          1024       0          0          1024       0%               

 EFP Meter        512        0          0          512        0%               

 EFP Counter      512        0          0          512        0%               

                                                                                

Interfaces: XGE2/1/0/25 to XGE2/1/0/48                                         

---------------------------------------------------------------------          

 Type             Total      Reserved   Configured Remaining  Usage            

---------------------------------------------------------------------          

 VFP ACL          1024       768        0          256        75%              

 IFP ACL          2048       1536       1          511        75%              

 IFP Meter        1024       768        0          256        75%              

 IFP Counter      1024       768        0          256        75%              

 EFP ACL          1024       0          0          1024       0%               

 EFP Meter        512        0          0          512        0%               

 EFP Counter      512        0          0          512        0%

其中IFP为入方向ACL的资源情况,EFP为出方向的ACL使用情况。在下发ACL发现失败时,建议先测算下要下发的ACL的数目与芯片剩余的资源数量进行对比。当要下发的ACL条数大于剩余的数量时,系统会提示当前资源不足。

3. 尝试差分下发的ACL规则

当下发ACL失败设备提示“Not supported”时,说明不支持下发当前定义的ACL规则。需要调整规则,通常的做法可以是拆分下发的ACL规则。

4. 进一步确认ACL下发失败的原因

当查看系统资源明显充足,或者下发的ACL规则是合法的规则,但是提供依旧提示下发失败时,一般是当前下发的ACLASIC芯片的特定算法冲突,导致下发到ASIC的顺序和自动分配有异常导致。

5. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

6.2  下发ACL成功,但是ACL不生效的故障处理方法

6.2.1  故障描述

ACL下发成功但是不生效

6.2.2  故障处理流程

图6-2 故障诊断流程图

 

6.2.3  故障处理步骤

1. 检查设备上已下发的ACL规则是否存在重叠匹配

ACL下发成功但不生效,基本是由于ACL配置中出现重叠匹配规则导致的。通过display packet-filterdisplay qos policy user-defined、以及display traffic classifier user-defined查看已下发的ACL,再通过display acl命令查看已下发ACL中的规则是否存在重叠匹配现象。

例如ACL3100ACL3009

ACL number 3100

rule 0 permit ip source 2.2.2.2 0.0.255.255

ACL number 3009

rule 0 permit ip source 2.2.2.2 0.0.0.255

当流量的源IP地址为2.2.2.1时,就会同时符合ACL number 3100 ACL number 3009的匹配要求,即发生重叠匹配现象。

2. 查看重叠匹配的ACL所对应的动作是否出现冲突

当查找到有重叠匹配规则的ACL时,则查找ACL对应的动作,如果出现冲突动作则会出现其中一个ACL不生效:

常见的冲突动作包括:

·     redirect动作和filter permit动作冲突时,执行redirect动作。

·     redirect动作filter deny动作冲突时,执行deny动作

·     permit动作与deny动作冲突时,执行先配置的动作。

3. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

6.3  利用流量统计分析转发故障的方法

6.3.1  故障描述

出现丢包或转发故障时可以使用ACL规则进行流量统计,以确认出现丢包或流量转发故障的具体位置。

6.3.2  故障处理流程

图1     故障诊断流程图

 

6.3.3  故障处理步骤

1. 确认流量特征

使用抓包工具抓包,并确认出转发异常的流量特征,如IP地址、MAC地址、所属VLAN等。确认的流量特征应尽可能唯一(如目的IP2.2.2.2),以防止异常流量的特征与系统中其它报文特征重叠。

2. 配置流分类策略并下发到端口

图2     流量路径示意图

 

(1)     根据流量特征(如目的IP2.2.2.2)配置流分类策略

2所示,在Device BDevice C分别创建一个即将到来的时间段t1,并配置流分类策略。在设置时间段起点时,请为后续流分类策略的配置预留时间,以保证在时间段开始前已完成各项配置。此处以Device B为例,具体配置过程如下:

<Sysname> system-view

System View: return to User View with Ctrl+Z.

[Sysname] time-range t1 from 12:00 11/11/2015 to 12:01 11/11/2015

[Sysname] acl number 3000 name geliACL

[Sysname-acl-adv-3000-geliACL] rule 0 permit ip destination 2.2.2.2 0 time-range t1

[Sysname-acl-adv-3000-geliACL] quit

[Sysname] traffic classifier count

[Sysname-classifier-count] if-match acl 3000

[Sysname-classifier-count] quit

[Sysname] traffic behavior count

[Sysname-behavior-count] accounting

[Sysname-behavior-count] quit

[Sysname] qos policy count

[Sysname-qospolicy-count] classifier count behavior count

(2)     2所示,将流分类策略下发到流量所经过路径的端口上,此处为Device BTen-GigabitEthernet1/0/1端口入方向上与Device CTen-GigabitEthernet2/0/1端口入方向上。配置过程以Device B为例。

[Sysname-qospolicy-count] quit

[Sysname] interface ten-gigabitethernet 1/0/1

[Sysname-Ten-GigabitEthernet1/0/1] qos apply policy count inbound

3. 查看端口流量统计计数

1201之后使用display qos policy interface命令分别查看Device BDevice C上目的IP2.2.2.2的流量统计计数。

[Sysname-Ten-GigabitEthernet1/0/1] display qos policy interface ten-gigabitethernet 1/0/1

 

Interface: Ten-GigabitEthernet1/0/1

 

  Direction: Inbound

 

  Direction: Inbound

  Policy: count

   Classifier: count

     Operator: AND

     Rule(s) : If-match ACL 3000

     Behavior: count

      Accounting Enable:

        251 (Packets)

 

[Sysname-Ten-GigabitEthernet2/0/1] display qos policy interface ten-gigabitethernet 2/0/1

 

Interface: Ten-GigabitEthernet2/0/1

 

  Direction: Inbound

 

  Direction: Inbound

  Policy: count

   Classifier: count

     Operator: AND

     Rule(s) : If-match ACL 3000

     Behavior: count

      Accounting Enable:

        50 (Packets)

由流量统计结果可以看出:目的IP2.2.2.2的流量在Device BDevice C之间存在丢包或转发故障。

6.4  故障诊断命令

命令

说明

display acl

显示ACL的配置和运行情况

display diagnostic-information

显示系统当前多个功能模块运行的统计信息

display packet-filter

显示ACL在报文过滤中的应用情况

display qos-acl resource

显示QoSACL资源的使用情况

display qos policy interface

显示接口上QoS策略的配置信息和运行情况

display qos policy user-defined

显示QoS策略的配置信息

display traffic classifier user-defined

显示流分类的配置信息

 

7 IRF故障处理

7.1  设备无法加入IRF故障处理方法

7.1.1  故障描述

IRF配置完成后,一个或多个成员始终无法加入IRF

7.1.2  故障处理流程

图7-1 故障诊断流程图

 

7.1.3  故障处理步骤

1. 检查IRF成员设备数量是否超过最大限制

S12500-XS12500X-AF系列交换机可用于组建IRF的最大成员设备数量与软件版本有关,请查阅与软件版本对应的配置指导获取该信息。如果您正在向已建立的IRF中增加设备,请使用display irf命令查看当前IRF中的成员设备数量。

2. 检查成员设备的型号是否相同

S12500-X & S12500X-AF系列交换机中,只有相同型号的机型之间可以建立IRF。并且,对于S12500X-AF系列交换机,运行F系列业务板的主机和运行H系列业务板的主机之间不支持建立IRF

3. 检查成员设备是否工作在IRF模式

当成员设备工作在IRF模式时,端口的编号将由三维变为四维,您可以通过执行display interface brief命令查看物理端口的编号,如果编号为四维(例如XGE1/4/0/1),则表示设备当前工作在IRF模式;否则表示设备工作在独立运行模式,您需要执行chassis convert mode irf命令并重启设备,使设备工作在IRF模式。

4. 检查成员编号是否在IRF中唯一

您可以使用display irf命令查看IRF中各成员设备的成员编号。IRF中的各成员设备必须使用不同的编号,编号相同的设备之间不能建立IRF。成员编号除了需要在IRF中唯一外,可能还有更具体的取值要求,请查阅与软件版本对应的配置指导获取该信息。您可以通过irf member renumber命令修改不符合要求的成员编号。

5. 检查IRF物理端口的状态

您可以通过display interface命令查看IRF物理端口的状态。

(1)     如果物理端口状态为“DOWN ( Administratively )”,则表示该端口已经通过shutdown命令关闭,您需要执行undo shutdown命令将其开启。

(2)     如果物理端口的状态为“DOWN”,您需要检查IRF物理端口的光模块/光纤或者电缆是否工作正常。

能够用于IRF连接的模块/电缆可能随着新的软件版本或单板型号发生变化,请查阅最新的安装手册或配置指导手册获取该信息。

 

6. 检查IRF端口的状态

IRF端口是一种专用于IRF连接的逻辑接口,需要与物理端口绑定后才能生效。您可以通过查看display irf topology命令输出信息的“Link”字段来确认IRF端口的状态。如果与IRF端口绑定的物理端口状态为UPIRF端口状态为DOWN,则您需要检查该成员设备的主控板是否发生故障,从而导致IRF packet收发异常,引起IRF端口的故障。

7. 检查IRF端口与物理端口的绑定关系

在连接两台相邻的成员设备时,一台设备上与IRF-Port1绑定的IRF物理端口只能和邻居成员设备IRF-Port2口上绑定的IRF物理端口相连。

(1)     在每台成员设备上通过display irf configuration命令查看IRF端口与IRF物理端口的绑定关系。

(2)     检查IRF物理端口的连接状况,是否满足相邻设备的连接要求。

(3)     如果绑定关系和物理连接不一致,请重新配置绑定关系或重新进行物理连接。

8. 检查各成员设备使用的软件版本

使用display version命令查看每台设备当前运行的软件版本,只有使用相同软件版本的设备才能组成IRF。如果存在成员设备之间软件版本不一致的情况,建议通过软件升级使所有成员设备都使用较高的软件版本。

如果成员设备使用双主控,请同时升级两块主控板,保证所有成员设备的所有主控板上运行相同的软件版本。

说明: 说明

IRF系统启动文件自动加载功能(缺省为开启状态)可以自动将成员设备的软件版本与IRF中主设备进行同步,但是在成员设备与主设备的软件版本差异过大时,自动升级可能不能成功执行。

 

说明: 注意

组成IRF的各成员设备除了需要使用相同的软件版本外,还要求部分软件功能的配置在各成员设备上保持一致,例如IPv4等价路由增强模式的配置(通过ecmp mode enhanced命令配置)。各版本的具体要求请参见版本配套的配置指导。

 

9. 检查各成员设备的桥MAC地址

请通过display interface vlan-interface 1命令查看当前设备的桥MAC地址。

[Sysname] display interface Vlan-interface 1                                        

Vlan-interface1 current state: UP                                              

Line protocol current state: UP                                                

Description: Vlan-interface1 Interface                                         

The Maximum Transmit Unit is 1500                                              

Internet protocol processing : disabled                                        

IP Packet Frame Type: PKTFMT_ETHNT_2,  Hardware Address: 0023-8912-3d07         

IPv6 Packet Frame Type: PKTFMT_ETHNT_2,  Hardware Address: 0023-8912-3d07

具有相同桥MAC的成员设备之间不能组成IRF

10. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师

7.2  IRF分裂故障处理方法

7.2.1  故障描述

设备运行过程中,突然出现IRF分裂。

7.2.2  故障处理流程

图7-2 故障诊断流程图

 

7.2.3  故障处理步骤

1. 检查IRF物理端口工作状态

请使用display trapbuffer命令或者通过查看日志主机存储的信息,查找在IRF分裂的时间点附近是否存在IRF物理端口down的日志。如果存在,请通过display interface命令查看IRF物理端口的统计信息中是否发生过CRC等错误统计。如果IRF物理端口采用光模块和光纤的方式进行连接,需要通过display transceiver diagnosis命令查看光口的接收/发送光功率,并与光模块的规格进行比较,查看是否接近或超过光模块规定的阈值。

2. 检查IRF物理端口所在单板是否发生过重启

请使用display version命令查看IRF物理端口所在单板的运行时间,确认IRF分裂是否由于单板的重启引起。

如果核实是由于IRF物理端口所在单板重启造成IRF分裂,请根据“3.3  业务板运行过程中发生故障导致无法启动”中介绍的方法分析单板重启的原因并排除故障。

3. 检查各成员设备是否发生过重启

请使用display version命令查看成员设备的主控板运行时间,确认是否发生了成员设备整机重启事件,从而导致IRF分裂。

如果核实是由于成员设备整机重启造成IRF分裂,请根据“3.1  运行过程主控板重启故障处理”中介绍的方法分析整机重启的原因并排除故障。

4. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

7.3  IRF分裂后BFD MAD无法生效故障处理方法

7.3.1  故障描述

IRF分裂后,BFD MAD功能未生效,导致网络中存在配置相同的两台设备。

7.3.2  故障处理流程

图7-3 故障诊断流程图

 

7.3.3  故障处理步骤

1. 检查BFD MAD组网是否正确

使用BFD MAD功能时,要求所有成员设备之间必须有一条BFD MAD检测链路,可以通过中间设备,也可以在成员设备之间使用全连接的组网。

2. 检查BFD MAD所使用的物理端口状态

您可以通过display interface命令查看BFD MAD所使用的物理端口的状态。

(1)     如果物理端口状态为“DOWN ( Administratively )”,则表示该端口已经通过shutdown命令关闭,您需要执行undo shutdown命令将其开启。

(2)     如果物理端口的状态为“DOWN”,您需要检查物理端口的连接是否正常。

3. 检查BFD MAD所使用的VLAN和端口配置

用于BFD MAD检测的物理端口上不能开启生成树协议,也不能开启其它任何功能。一个IRF内所有BFD MAD链路上的物理端口必须属于同一个VLAN,该VLANBFD MAD专用,如果使用中间设备的话,中间设备与成员设备相连的端口也必须加入该VLAN。建议用于BFD MAD检测的VLAN中只包含BFD MAD链路上的端口,不要将其它端口加入该VLAN

4. 检查BFD MAD所使用的VLAN接口

使用display mad verbose命令查看用于BFD MAD检测的VLAN接口,该接口不能为VLAN1接口,并且该接口仅用于BFD MAD,即在该接口上不能配置其它任何二层或三层协议,也不能与VPN实例进行绑定。

5. 检查BFD MAD IP地址的配置

使用display mad verbose命令查看用于BFD MAD检测的IP地址,各成员设备的MAD IP地址必须属于同一网段,同时不能为设备上已经存在的IP地址。通过display inteface查看用于BFD MADVLAN接口配置,该接口上不能配置其它IP地址(包括使用ip address命令配置的普通IP地址、VRRP虚拟IP地址等)。

6. 当组网中存在多个IRF时,检查各IRFBFD MAD VLAN

如果网络中存在多个IRF,在配置BFD MAD时,请为每个IRF配置不同的VLAN用于BFD MAD检测。

7. 检查成员设备的日志信息

请使用display trapbuffer命令或者通过查看日志主机存储的信息,查找在IRF分裂的时间点附近是否存在BFD MAD所使用物理端口down的日志。通过该日志判断端口故障的原因,并排除该故障。

8. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师

7.4  IRF分裂后LACP MAD无法生效故障处理方法

7.4.1  故障描述

IRF分裂后,LACP MAD功能未生效,导致网络中存在配置相同的两台设备。

7.4.2  故障处理流程

图7-4 故障诊断流程图

 

7.4.3  故障处理步骤

1. 检查LACP MAD组网是否正确

使用LACP MAD功能时,要求必须使用一台中间设备,所有成员设备与中间设备之间必须均存在物理连接。

2. 检查聚合组和物理端口的状态

您可以通过display interface命令查看LACP MAD所使用的聚合组和物理端口的状态。

(1)     如果物理端口状态为“DOWN ( Administratively )”,则表示该聚合组或物理端口已经通过shutdown命令关闭,您需要执行undo shutdown命令将其开启。

(2)     如果聚合端口的状态为“DOWN”,则表示该聚合组内所有物理端口连接均有问题;如果物理端口的状态为“DOWN”,则表示该端口的物理连接存在问题。请检查物理连接并修复故障。

3. 检查中间设备是否支持扩展LACP选项

由于LACP MAD使用扩展LACP选项实现,因此中间设备必须为能够识别并透传带有扩展LACP选项的LACP报文的H3C设备。

4. 检查聚合组的聚合方式

LACP MAD功能通过LACP报文实现,因此仅有动态聚合组能够用于LACP MAD检测。您可以在聚合接口视图下使用link-aggregation mode dynamic命令将聚合组的工作模式配置为动态聚合。

5. 当组网中存在多个IRF时,检查各IRF的域编号

扩展LACP选项中会包含IRF的域编号,当组网中存在多个IRF时,如果各IRF的域编号相同,则LACP MAD检测功能将不能正常检测到IRF分裂。请确保组网中的每个IRF使用不同的域编号,您可以通过irf domain命令配置IRF的域编号。

6. 检查成员设备的日志信息

请使用display trapbuffer命令或者通过查看日志主机存储的信息,查找在IRF分裂的时间点附近是否存在LACP MAD所使用物理端口或聚合组down的日志。通过该日志判断端口故障的原因,并排除该故障。

7. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

7.5  故障诊断命令

命令

说明

display irf

显示IRF中所有成员设备的相关信息

display interface brief

显示接口的概要信息

display interface

显示接口的相关信息

display irf topology

显示IRF的拓扑信息

display irf configuration

显示所有成员设备的IRF配置信息

display version

显示系统版本信息

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display trapbuffer

显示系统告警缓冲区的状态和缓冲区记录的告警信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值

display mad verbose

显示MAD详细配置信息

 

8 MDC故障处理

8.1  创建MDC提示无可用license故障处理方法

8.1.1  故障描述

创建MDC,提示如下错误信息。

[Sysname]mdc mdcA

The feature MDC has no available license.

8.1.2  故障处理流程

图8-1 故障诊断流程图

 

8.1.3  故障处理步骤

MDC功能的使用,受限于License,需要正确安装License后,才能够使用此功能。

1. 查看当前设备的license资源

使用display license命令查看当前设备使用的License资源信息。

[Sysname] display license

Chassis 3:

No license information to display.

[Sysname] display license feature

Chassis 3:

Total: 4  Usage: 0

Feature         Licensed        State

EVB             N               -

evi             N               -

mdc             N               -

FCoE            N               -

如果没有安装license或者使用的License到期,需要再次申请License并且安装。

2. 安装License

License的申请以及安装,请按照“基础配置指导”中“License”的操作方法进行。

3. 收集信息并寻求技术支持

若完成上述步骤后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

8.2  Location业务板提示失败故障处理方法

8.2.1  故障描述

MDC视图下location业务板,系统提示硬件资源不足或location失败的提示信息。

8.2.2  故障处理流程

图8-2 故障诊断流程图


说明: 说明

·     8-2故障诊断流程图”适用于Release 10xx版本。

·     对于Release 26xxRelease 27xx版本,一块业务板可以分配给多个MDC,所以,当Location业务板失败时,只要进行第一项判断“是否分配有足有资源”即可,不需要再判断“业务板是否属于缺省MDC或其他非缺省MDC”。

本文以Release 10xx为例,提供Location业务板失败的故障处理步骤Release 26xxRelease 27xx版本的故障处理步骤不再赘述。

 

8.2.3  故障处理步骤

Location业务板提示失败一般是由于硬件资源不足或者产品不支持导致的,资源不足可能是硬件本身资源不足或者划分给非缺省MDC的资源门限导致。如果确认是资源不足,需要根据设备实际情况调整配置规避解决。

1. 检查系统硬件资源信息

通过如下命令行查看缺省MDC以及非缺省MDC的可用内存大小,CPU可用值以及Disk的可用大小,如果分配过小,可能会导致location业务板失败。

[Sysname] display mdc resource

Memory:

Chassis 3 Slot 0:

 Used 262.3MB, Free 2409.3MB, Total 2671.6MB:

    ID    Name             Quota(MB)    Used(MB)    Available(MB)

    ----------------------------------------------------------------

    1     Admin            2671.6       211.3        2409.3

    2     mdcA             2671.6       51.0         2409.3

Chassis 3 Slot 3:

 Used 17.1MB, Free 663.6MB, Total 680.7MB:

    ID    Name             Quota(MB)    Used(MB)    Available(MB)

    ----------------------------------------------------------------

    1     Admin            680.7        17.1         663.6

Chassis 3 Slot 4:

 Used 16.9MB, Free 663.8MB, Total 680.7MB:

    ID    Name             Quota(MB)    Used(MB)    Available(MB)

    ----------------------------------------------------------------

    1     Admin            680.7        16.9         663.8

Chassis 3 Slot 5:

 Used 16.9MB, Free 663.8MB, Total 680.7MB:

    ID    Name             Quota(MB)    Used(MB)    Available(MB)

    ----------------------------------------------------------------

    1     Admin            680.7        16.9         663.8

Chassis 3 Slot 9:

 Used 16.9MB, Free 663.9MB, Total 680.8MB:

    ID    Name             Quota(MB)    Used(MB)    Available(MB)

    ----------------------------------------------------------------

    1     Admin            680.8        16.9         663.9

CPU:

Chassis 3 Slot 0:

    ID    Name             Weight       Usage(%)

    -------------------------------------------------

    1     Admin            10           0

    2     mdcA             10           0

Chassis 3 Slot 3:

    ID    Name             Weight       Usage(%)

    -------------------------------------------------

    1     Admin            10           3

Chassis 3 Slot 4:

    ID    Name             Weight       Usage(%)

    -------------------------------------------------

    1     Admin            10           3

Chassis 3 Slot 5:

    ID    Name             Weight       Usage(%)

    -------------------------------------------------

    1     Admin            10           6

Chassis 3 Slot 9:

    ID    Name             Weight       Usage(%)

    -------------------------------------------------

    1     Admin            10           5

Disk:

Chassis 3 Slot 0:

flash:: Used 108.8MB, Free 383.2MB, Total 492.0MB:

    ID    Name             Quota(MB)    Used(MB)     Available(MB)

    --------------------------------------------------------------

    1     Admin            492.0        108.8        383.2

    2     mdcA             492.0        0.0          383.2

2. 查看当前业务板所属MDC

通过如下命令查看当前业务板的所属MDC

[Sysname] display current-configuration configuration mdc

#

mdc Admin id 1

#

mdc mdcA id 2

 location chassis 3 slot 3

 mdc start

#

Return

上述显示信息表示:

·     缺省MDC中没有undo loction的业务板,说明业务板属于缺省MDC。为非缺省MDC分配业务板时,需取消缺省MDC对业务板的使用权限。

·     3号成员设备的3号槽位业务板属于mdcA。为其他非缺省MDC分配业务板时,需取消mdcA对该业务板的使用权限。

3. 取消单板当前归属MDC

此处以业务板属于缺省MDC为例,取消缺省MDC3号成员设备的3号槽位业务板的使用权限。

[Sysname] mdc Admin

[Sysname-mdc-1-Admin] undo location chassis 3 slot 3

The configuration associated with the specified slot of MDC will be lost. Continue? [Y/N] :y

[Sysname-mdc-1-Admin] display this

#

mdc Admin id 1

 undo location chassis 3 slot 3

#

Return

上述信息表示3号成员设备的3号槽位业务板已经不属于MDC Admin

4. 再次下发location操作

确保分配给非缺省MDC的资源合理,且被分配的业务板已经不属于任何MDC后,再次在非缺省MDC中执行location操作。

[Sysname-mdc-2-mdcA] mdc mdcB

[Sysname-mdc-3-mdcB] location chassis 3 slot 3

[Sysname-mdc-3-mdcB] display this

#

mdc mdcB id 3

 location chassis 3 slot 3

 mdc start

#

Return

上述显示信息表示3号成员设备的3号槽位业务板已经分配给了mdcB

5. 收集信息并寻求技术支持

若完成上述步骤后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

8.3  Allocate接口失败故障处理方法(适用于Release 10xx

8.3.1  故障描述

MDC视图下location业务板后,执行allocate接口操作,提示接口分配失败或者在其他MDC的视图下,无法找到需要划分的接口。

8.3.2  故障处理流程

图8-3 故障诊断流程图

 

8.3.3  故障处理步骤

Release 10xx系列软件版本上,一个业务板只能属于一个MDC。为MDC分配物理接口提示失败一般是由于所分配的接口只包含本业务板的部分接口,而一次allocate操作应划分本业务板的所有接口,并且这些接口不属于其他MDC

需要注意的是:缺省MDC中,无须对接口执行undo allocate操作。

下面以一个具体的举例来展示故障处理步骤。

现在需要将接口GigabitEthernet 3/3/0/1GigabitEthernet 3/3/0/24Ten-GigabitEthernet 3/3/0/25Ten-GigabitEthernet 3/3/0/26分配给mdcB。但现在这些接口位于mdcA中。分配步骤如下。

1. 检查系统接口资源信息

通过如下命令行查看MDC的接口列表。

[Sysname] display mdc interface

 MDC Admin's interface(s):

  M-GigabitEthernet1/0/0/0             FortyGigE3/4/0/1

  FortyGigE3/4/0/2                     FortyGigE3/4/0/3

  FortyGigE3/4/0/4                     FortyGigE3/5/0/1

  FortyGigE3/5/0/2                     FortyGigE3/5/0/3

  FortyGigE3/5/0/4

 

 MDC mdcA's interface(s):

  M-GigabitEthernet1/0/0/0             GigabitEthernet3/3/0/1

  GigabitEthernet3/3/0/2               GigabitEthernet3/3/0/3

  GigabitEthernet3/3/0/4               GigabitEthernet3/3/0/5

  GigabitEthernet3/3/0/6               GigabitEthernet3/3/0/7

  GigabitEthernet3/3/0/8               GigabitEthernet3/3/0/9

  GigabitEthernet3/3/0/10              GigabitEthernet3/3/0/11

  GigabitEthernet3/3/0/12              GigabitEthernet3/3/0/13

  GigabitEthernet3/3/0/14              GigabitEthernet3/3/0/15

  GigabitEthernet3/3/0/16              GigabitEthernet3/3/0/17

  GigabitEthernet3/3/0/18              GigabitEthernet3/3/0/19

  GigabitEthernet3/3/0/20              GigabitEthernet3/3/0/21

  GigabitEthernet3/3/0/22              GigabitEthernet3/3/0/23

  GigabitEthernet3/3/0/24              Ten-GigabitEthernet3/3/0/25

  Ten-GigabitEthernet3/3/0/26

 

 MDC mdcB's interface(s):

  M-GigabitEthernet1/0/0/0

 

[Sysname-mdc-2-mdcA] display this

#

mdc mdcA id 2

 location chassis 3 slot 3

 mdc start

 allocate interface GigabitEthernet3/3/0/1 to GigabitEthernet3/3/0/24 Ten-GigabitEthernet3/3/0/25 Ten-GigabitEthernet3/3/0/26

#

return

2. 将接口和接口所属业务板从mdcA中删除

[Sysname-mdc-2-mdcA] undo allocate interface GigabitEthernet 3/3/0/1 to GigabitEthernet 3/3/0/24 Ten-GigabitEthernet 3/3/0/25 Ten-GigabitEthernet 3/3/0/26

Configuration of the interfaces will be lost. Continue? [Y/N] :y

[Sysname-mdc-2-mdcA] undo location chassis 3 slot 3

[Sysname-mdc-2-mdcA] display this

#

mdc mdcA id 2

 mdc start

#

return

3. mdcB分配业务板和物理接口

确保分配给非缺省MDC的资源合理,且将被分配的接口不属于任何MDC,再次在非缺省MDC中执行allocate操作,并保证一次划分业务板上的所有接口。

[Sysname]mdc mdcB

[Sysname-mdc-3-mdcB] allocate interface GigabitEthernet 3/3/0/1 to GigabitEthernet 3/3/0/24

Ten-GigabitEthernet 3/3/0/25 Ten-GigabitEthernet 3/3/0/26

Configuration of the interfaces will be lost. Continue? [Y/N] :y

[Sysname-mdc-3-mdcB] quit

[Sysname-mdc-3-mdcB] location chassis 3 slot 3

[Sysname-mdc-3-mdcB] display this

#

mdc mdcB id 3

 location chassis 3 slot 3

 mdc start

 allocate interface GigabitEthernet3/3/0/1 to GigabitEthernet3/3/0/24  Ten-GigabitEthernet3/3/0/25 to Ten-GigabitEthernet3/3/0/26

#

return

[Sysname-mdc-3-mdcB] quit

[Sysname] display mdc interface

 MDC Admin's interface(s):

  M-GigabitEthernet1/0/0/0             FortyGigE3/4/0/1

  FortyGigE3/4/0/2                     FortyGigE3/4/0/3

  FortyGigE3/4/0/4                     FortyGigE3/5/0/1

  FortyGigE3/5/0/2                     FortyGigE3/5/0/3

  FortyGigE3/5/0/4

 

 MDC mdcA's interface(s):

  M-GigabitEthernet1/0/0/0

 

 MDC mdcB's interface(s):

  M-GigabitEthernet1/0/0/0             GigabitEthernet3/3/0/1

  GigabitEthernet3/3/0/2               GigabitEthernet3/3/0/3

  GigabitEthernet3/3/0/4               GigabitEthernet3/3/0/5

  GigabitEthernet3/3/0/6               GigabitEthernet3/3/0/7

  GigabitEthernet3/3/0/8               GigabitEthernet3/3/0/9

  GigabitEthernet3/3/0/10              GigabitEthernet3/3/0/11

  GigabitEthernet3/3/0/12              GigabitEthernet3/3/0/13

  GigabitEthernet3/3/0/14              GigabitEthernet3/3/0/15

  GigabitEthernet3/3/0/16              GigabitEthernet3/3/0/17

  GigabitEthernet3/3/0/18              GigabitEthernet3/3/0/19

  GigabitEthernet3/3/0/20              GigabitEthernet3/3/0/21

  GigabitEthernet3/3/0/22              GigabitEthernet3/3/0/23

  GigabitEthernet3/3/0/24              Ten-GigabitEthernet3/3/0/25

  Ten-GigabitEthernet3/3/0/26

4. 收集信息并寻求技术支持

若完成上述步骤后故障仍无法排除,请通收集设备的运行信息,并联系H3C的技术支持工程师。

8.4  Allocate接口失败故障处理方法(适用于Release 11xxRelease 26xxRelease 27xx

8.4.1  故障描述

创建MDC后,执行allocate接口操作,无法在该MDC下找到预分配接口或提示失败。

8.4.2  故障处理流程

图8-4 故障诊断流程图

 

8.4.3  故障处理步骤

Release 11xxRelease 26xxRelease 27xx系列软件版本上,同一业务板上的接口可以按组划分给不同的MDC。分配时有如下要求,如果提示失败,可能是因为下面要求没有满足,请根据提示排除失败原因:

·     待分配接口不能属于其他非缺省MDC

·     分配或删除接口时,接口所属业务板不能在缺省MDC和当前MDC中。

·     必须按接口分组整组分配或删除。

下面以一个具体的举例来展示故障处理步骤。

新建MDC test,想将Ten-GigabitEthernet1/6/0/1Ten-GigabitEthernet1/6/0/12分配给MDC test,但是在MDC test的视图下执行allocate interface时无法找到Ten-GigabitEthernet1/6/0/1Ten-GigabitEthernet1/6/0/12接口。

1. 查看待分配物理接口是否已被分配给其他MDC

(1)     查看MDC的接口列表。

[Sysname] display mdc interface

MDC Admin's interface(s):

  M-GigabitEthernet1/0/0/0             Ten-GigabitEthernet1/6/0/25

  Ten-GigabitEthernet1/6/0/26          Ten-GigabitEthernet1/6/0/27

  Ten-GigabitEthernet1/6/0/28          Ten-GigabitEthernet1/6/0/29

  Ten-GigabitEthernet1/6/0/30          Ten-GigabitEthernet1/6/0/31

  Ten-GigabitEthernet1/6/0/32          Ten-GigabitEthernet1/6/0/33

  Ten-GigabitEthernet1/6/0/34          Ten-GigabitEthernet1/6/0/35

  Ten-GigabitEthernet1/6/0/36          Ten-GigabitEthernet1/6/0/37

  Ten-GigabitEthernet1/6/0/38          Ten-GigabitEthernet1/6/0/39

  Ten-GigabitEthernet1/6/0/40          Ten-GigabitEthernet1/6/0/41

  Ten-GigabitEthernet1/6/0/42          Ten-GigabitEthernet1/6/0/43

  Ten-GigabitEthernet1/6/0/44          Ten-GigabitEthernet1/6/0/45

  Ten-GigabitEthernet1/6/0/46          Ten-GigabitEthernet1/6/0/47

  Ten-GigabitEthernet1/6/0/48

 

MDC A's interface(s):

  Ten-GigabitEthernet1/6/0/1           Ten-GigabitEthernet1/6/0/2

  Ten-GigabitEthernet1/6/0/3           Ten-GigabitEthernet1/6/0/4

  Ten-GigabitEthernet1/6/0/5           Ten-GigabitEthernet1/6/0/6

  Ten-GigabitEthernet1/6/0/7           Ten-GigabitEthernet1/6/0/8

  Ten-GigabitEthernet1/6/0/9           Ten-GigabitEthernet1/6/0/10

  Ten-GigabitEthernet1/6/0/11          Ten-GigabitEthernet1/6/0/12

  Ten-GigabitEthernet1/6/0/13          Ten-GigabitEthernet1/6/0/14

  Ten-GigabitEthernet1/6/0/15          Ten-GigabitEthernet1/6/0/16

  Ten-GigabitEthernet1/6/0/17          Ten-GigabitEthernet1/6/0/18

  Ten-GigabitEthernet1/6/0/19          Ten-GigabitEthernet1/6/0/20

  Ten-GigabitEthernet1/6/0/21          Ten-GigabitEthernet1/6/0/22

  Ten-GigabitEthernet1/6/0/23          Ten-GigabitEthernet1/6/0/24

 

MDC test's interface(s):

 

显示信息表示接口Ten-GigabitEthernet1/6/0/1Ten-GigabitEthernet1/6/0/12已经被分配给MDC A,如需将这些接口分配给MDC test,必须先将这些接口从MDC A中删除。

(2)     将需要分配的接口从其他MDC中删除。

[Sysname-mdc-2-A] undo allocate interface Ten-GigabitEthernet1/6/0/1 to Ten-GigabitEthernet1/6/0/12

Configuration of the interfaces will be lost. Continue? [Y/N]:y

Can't allocate the interface(s), Please check Destination mdc 1 and undo location the slot first, then allocate the interface(s)!

对于Release 11xx版本,提示信息为“Can't allocate the interface(s), Please check Destination mdc 1 and undo location the slot first, then allocate the interface(s)!”;对于Release 26xxRelease 27xx版本,提示信息为“Can't allocate the interfaces. Please undo location the interface card to which the interfaces belong in the current MDC or default MDC.”。这两个显示信息均表示待删除接口所在业务板在MDC 1(即MDC Admin)中,不允许删除。我们需要先将该业务板从MDC Admin中删除。

2. 将接口所在业务板从缺省MDCMDC A中删除,将接口从MDC A中删除

(1)     将接口所在业务板从缺省MDC中删除。

[Sysname-mdc-2-A] quit

[Sysname] mdc Admin

[Sysname-mdc-1-Admin] undo location chassis 1 slot 6

The configuration associated with the specified slot of MDC will be lost. Continue? [Y/N]:y

(2)     将接口所在业务板从MDC A中删除。

再次执行将接口Ten-GigabitEthernet1/6/0/1Ten-GigabitEthernet1/6/0/12MDC A中删除。

[Sysname-mdc-1-Admin] quit

[Sysname] mdc A

[Sysname-mdc-2-A] undo allocate interface Ten-GigabitEthernet1/6/0/1 to Ten-GigabitEthernet1/6/0/12

Configuration of the interfaces will be lost. Continue? [Y/N]:y

Can't allocate the interface(s), Please check Source mdc 2 and undo location the  slot first, then allocate the interface(s)!

对于Release 11xx版本,提示信息为“Can't allocate the interface(s), Please check Source mdc 2 and undo location the  slot first, then allocate the interface(s)!”;对于Release 26xxRelease 27xx版本,提示信息为“Can't allocate the interfaces. Please undo location the interface card to which the interfaces belong in the current MDC or default MDC.”。这两个显示信息均表示待删除接口所在业务板在MDC 2(即MDC A自己)中,不允许删除。我们需要先将该业务板从MDC A中删除。

[Sysname-mdc-2-A] undo location chassis 1 slot 6

The configuration associated with the specified slot of MDC will be lost. Contin

ue? [Y/N]:y

(3)     再次执行将接口Ten-GigabitEthernet1/6/0/1Ten-GigabitEthernet1/6/0/12MDC A中删除,删除接口时按照分组整组删除

[Sysname-mdc-2-A] undo allocate interface Ten-GigabitEthernet1/6/0/1 to Ten-GigabitEthernet1/6/0/12

Configuration of the interfaces will be lost. Continue? [Y/N]:y

Group error: all interfaces of one group must be allocated to the same mdc.

  Ten-GigabitEthernet1/6/0/1         Ten-GigabitEthernet1/6/0/2

  Ten-GigabitEthernet1/6/0/3         Ten-GigabitEthernet1/6/0/4

  Ten-GigabitEthernet1/6/0/5         Ten-GigabitEthernet1/6/0/6

  Ten-GigabitEthernet1/6/0/7         Ten-GigabitEthernet1/6/0/8

  Ten-GigabitEthernet1/6/0/9         Ten-GigabitEthernet1/6/0/10

  Ten-GigabitEthernet1/6/0/11        Ten-GigabitEthernet1/6/0/12

 

Port list of group 1:

  Ten-GigabitEthernet1/6/0/1         Ten-GigabitEthernet1/6/0/2

  Ten-GigabitEthernet1/6/0/3         Ten-GigabitEthernet1/6/0/4

  Ten-GigabitEthernet1/6/0/5         Ten-GigabitEthernet1/6/0/6

  Ten-GigabitEthernet1/6/0/7         Ten-GigabitEthernet1/6/0/8

  Ten-GigabitEthernet1/6/0/9         Ten-GigabitEthernet1/6/0/10

  Ten-GigabitEthernet1/6/0/11        Ten-GigabitEthernet1/6/0/12

  Ten-GigabitEthernet1/6/0/13        Ten-GigabitEthernet1/6/0/14

  Ten-GigabitEthernet1/6/0/15        Ten-GigabitEthernet1/6/0/16

  Ten-GigabitEthernet1/6/0/17        Ten-GigabitEthernet1/6/0/18

  Ten-GigabitEthernet1/6/0/19        Ten-GigabitEthernet1/6/0/20

  Ten-GigabitEthernet1/6/0/21        Ten-GigabitEthernet1/6/0/22

  Ten-GigabitEthernet1/6/0/23        Ten-GigabitEthernet1/6/0/24

 

显示信息表示接口必须按组划分,Ten-GigabitEthernet1/6/0/1Ten-GigabitEthernet1/6/0/12所在的组为Ten-GigabitEthernet1/6/0/1Ten-GigabitEthernet1/6/0/24。必须将Ten-GigabitEthernet1/6/0/1Ten-GigabitEthernet1/6/0/24MDC A中删除。

[Sysname-mdc-2-A] undo allocate interface Ten-GigabitEthernet 1/6/0/1 to Ten-GigabitEthernet 1/6/0/24

Configuration of the interfaces will be lost. Continue? [Y/N]:y

说明: 说明

不同型号业务板的分组规律不同,分组信息请参考配置指导或此处提示信息。

 

3. MDC test分配接口和业务板,分配接口时按照分组整组划分

[Sysname-mdc-2-A] quit

[Sysname] mdc test

[Sysname-mdc-3-test] allocate interface Ten-GigabitEthernet1/6/0/1 to Ten-GigabitEthernet1/6/0/24

Configuration of the interfaces will be lost. Continue? [Y/N]:y

Execute the location slot command in this view to make the configuration take effect.

显示信息表示,为MDC分配接口后,还需要将接口所在业务板的使用权限分配给该MDC配置才能生效。

[Sysname-mdc-3-test] location chassis 1 slot 6

[Sysname-mdc-3-test] quit

由于MDC Admin(缺省MDC)中还有chassis 1 slot 6上接口,但我们划分接口时,将chassis 1 slot 6的使用权限从MDC Admin中删除了。因此,我们需要重新配置MDC Admin拥有chassis 1 slot 6的使用权限,否则MDC Admin不能使用接口Ten-GigabitEthernet1/6/0/25 to Ten-GigabitEthernet1/6/0/48

[Sysname] mdc Admin

[Sysname-mdc-1-Admin] location chassis 1 slot 6

[Sysname-mdc-1-Admin] quit

[Sysname] display mdc interface

 MDC Admin's interface(s):

  M-GigabitEthernet1/0/0/0             Ten-GigabitEthernet1/6/0/25

  Ten-GigabitEthernet1/6/0/26          Ten-GigabitEthernet1/6/0/27

  Ten-GigabitEthernet1/6/0/28          Ten-GigabitEthernet1/6/0/29

  Ten-GigabitEthernet1/6/0/30          Ten-GigabitEthernet1/6/0/31

  Ten-GigabitEthernet1/6/0/32          Ten-GigabitEthernet1/6/0/33

  Ten-GigabitEthernet1/6/0/34          Ten-GigabitEthernet1/6/0/35

  Ten-GigabitEthernet1/6/0/36          Ten-GigabitEthernet1/6/0/37

  Ten-GigabitEthernet1/6/0/38          Ten-GigabitEthernet1/6/0/39

  Ten-GigabitEthernet1/6/0/40          Ten-GigabitEthernet1/6/0/41

  Ten-GigabitEthernet1/6/0/42          Ten-GigabitEthernet1/6/0/43

  Ten-GigabitEthernet1/6/0/44          Ten-GigabitEthernet1/6/0/45

  Ten-GigabitEthernet1/6/0/46          Ten-GigabitEthernet1/6/0/47

  Ten-GigabitEthernet1/6/0/48

 

 MDC A's interface(s):

 

 MDC test's interface(s):

  M-GigabitEthernet1/0/0/0             Ten-GigabitEthernet1/6/0/1

  Ten-GigabitEthernet1/6/0/2           Ten-GigabitEthernet1/6/0/3

  Ten-GigabitEthernet1/6/0/4           Ten-GigabitEthernet1/6/0/5

  Ten-GigabitEthernet1/6/0/6           Ten-GigabitEthernet1/6/0/7

  Ten-GigabitEthernet1/6/0/8           Ten-GigabitEthernet1/6/0/9

  Ten-GigabitEthernet1/6/0/10          Ten-GigabitEthernet1/6/0/11

  Ten-GigabitEthernet1/6/0/12          Ten-GigabitEthernet1/6/0/13

  Ten-GigabitEthernet1/6/0/14          Ten-GigabitEthernet1/6/0/15

  Ten-GigabitEthernet1/6/0/16          Ten-GigabitEthernet1/6/0/17

  Ten-GigabitEthernet1/6/0/18          Ten-GigabitEthernet1/6/0/19

  Ten-GigabitEthernet1/6/0/20          Ten-GigabitEthernet1/6/0/21

  Ten-GigabitEthernet1/6/0/22          Ten-GigabitEthernet1/6/0/23

  Ten-GigabitEthernet1/6/0/24

4. 收集信息并寻求技术支持

若完成上述步骤后故障仍无法排除,请通收集设备的运行信息,并联系H3C的技术支持工程师。

8.5  故障诊断命令

命令

说明

allocate interface

MDC分配物理接口

display diagnostic-information

收集设备的诊断信息

display license

显示License的详细信息

display license feature

显示特性的License摘要信息

display mdc interface

显示MDC的接口列表

display mdc resource

显示MDCCPU/磁盘/内存资源的使用情况

location

将业务板的使用权限分配给MDC