国家 / 地区

H3C S12500-S 故障处理手册-R7178-6W100

手册下载

H3C S12500-S系列交换机故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2016 H3C通信技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,

并不得以任何形式传播。本文档中的信息可能变动,恕不另行通知。

H3C_彩色.emf

 


 

1 简介··· 1

1.1 故障处理注意事项·· 1

1.2 收集设备运行信息·· 1

1.2.1 logfile日志·· 2

1.2.2 diagfile日志·· 3

1.2.3 诊断信息·· 5

1.3 故障处理求助方式·· 7

2 密码遗忘问题处理··· 1

2.1 遗忘Console口密码·· 1

2.1.1 通过Telnet登录设备修改Console口密码·· 1

2.1.2 通过BootWare菜单修改Console 口密码·· 2

2.2 遗忘Telnet登录密码·· 7

3 使用配置文件恢复配置··· 1

4 硬件类故障处理··· 1

4.1 配置系统故障·· 1

4.1.1 终端无显示故障处理·· 1

4.1.2 终端显示乱码故障处理·· 1

4.2 运行过程中主控板重启故障处理·· 1

4.2.1 故障描述·· 1

4.2.2 故障处理流程·· 2

4.2.3 故障处理步骤·· 2

4.3 新加入主控板无法启动故障处理·· 3

4.3.1 障描述·· 3

4.3.2 故障处理流程·· 3

4.3.3 故障处理步骤·· 3

4.4 业务板运行过程中发生故障导致无法启动·· 4

4.4.1 故障描述·· 4

4.4.2 故障处理流程·· 5

4.4.3 故障处理步骤·· 5

4.5 新加入业务板无法启动问题处理方法·· 6

4.5.1 故障描述·· 6

4.5.2 故障处理流程·· 7

4.5.3 故障处理步骤·· 7

4.6 单板重启异常问题处理方法·· 9

4.7 电源运行中上报Fault问题处理方法·· 9

4.7.1 故障描述·· 9

4.7.2 故障处理流程·· 9

4.8 新插入电源模块状态异常处理方法·· 11

4.8.1 故障描述·· 11

4.8.2 故障处理流程·· 11

4.8.3 故障处理步骤·· 11

4.9 风扇框状态异常问题处理方法·· 12

4.9.1 故障描述·· 12

4.9.2 故障处理流程·· 12

4.9.3 故障处理步骤·· 12

4.10 故障诊断命令·· 13

5 系统类故障处理··· 1

5.1 单板CPU占用率高问题处理方法·· 1

5.1.1 故障描述·· 1

5.1.2 故障处理流程·· 2

5.1.3 故障处理步骤·· 2

5.2 单板内存占用率高问题处理方法·· 6

5.2.1 故障描述·· 6

5.2.2 故障处理流程·· 7

5.2.3 故障处理步骤·· 7

5.3 系统温度告警问题处理方法·· 9

5.3.1 故障描述·· 9

5.3.2 故障处理流程·· 9

5.3.3 故障处理步骤·· 9

5.4 故障诊断命令·· 10

6 端口类故障处理··· 1

6.1 10/100/1000Base-T千兆以太网电口不UP故障处理·· 1

6.1.1 故障描述·· 1

6.1.2 故障处理流程·· 1

6.1.3 故障处理步骤·· 1

6.2 千兆SFP光口不UP障处理·· 2

6.2.1 故障描述·· 2

6.2.2 故障处理流程·· 3

6.2.3 故障处理步骤·· 3

6.3 万兆SFP+光口不UP故障处理·· 5

6.3.1 故障描述·· 5

6.3.2 故障处理流程·· 5

6.3.3 故障处理步骤·· 6

6.4 40GEQSFP+/CFP光口不UP故障处理·· 6

6.4.1 故障描述·· 6

6.4.2 故障处理流程·· 7

6.4.3 故障处理步骤·· 7

6.5 100GECFP光口UP故障处理·· 8

6.5.1 故障描述·· 8

6.5.2 故障处理流程·· 8

6.5.3 故障处理步骤·· 8

6.6 端口由up变成down· 9

6.6.1 故障描述·· 9

6.6.2 故障处理步骤·· 9

6.7 端口频繁up/down· 9

6.7.1 故障描述·· 9

6.7.2 故障处理步骤·· 9

6.8 光模块故障·· 10

6.8.1 故障处理步骤·· 10

6.9 光模块上报非H3C合法光模块故障处理·· 11

6.9.1 故障描述·· 11

6.9.2 故障处理流程·· 12

6.9.3 故障处理步骤·· 12

6.10 光模块不支持数字诊断故障处理·· 12

6.10.1 故障描述·· 12

6.10.2 故障处理流程·· 13

6.10.3 故障处理步骤·· 13

6.11 端口存在CRC等错误统计故障处理·· 13

6.11.1 故障描述·· 13

6.11.2 故障处理流程·· 15

6.11.3 故障处理步骤·· 15

6.12 端口不接收或发送报文故障处理·· 17

6.12.1 故障描述·· 17

6.12.2 故障处理流程·· 17

6.12.3 故障处理步骤·· 18

6.13 故障诊断命令·· 18

7 QoS/ACL故障处理··· 1

7.1 ACL硬件资源不足处理方法·· 1

7.1.1 故障描述·· 1

7.1.2 故障处理流程·· 1

7.1.3 故障处理步骤·· 1

7.2 ACL规则不支持处理方法·· 2

7.2.1 故障描述·· 2

7.2.2 故障处理流程·· 3

7.2.3 故障处理步骤·· 3

7.3 下发ACL成功,但是ACL不生效的故障处理方法·· 3

7.3.1 故障描述·· 3

7.3.2 故障处理流程·· 4

7.3.3 故障处理步骤·· 4

7.4 故障诊断命令·· 5

8 IRF故障处理··· 1

8.1 设备无法加入IRF故障处理方法·· 1

8.1.1 故障描述·· 1

8.1.2 故障处理流程·· 1

8.1.3 故障处理步骤·· 2

8.2 IRF分裂故障处理方法·· 4

8.2.1 故障描述·· 4

8.2.2 故障处理流程·· 4

8.2.3 故障处理步骤·· 4

8.3 IRF分裂后BFD MAD无法生效故障处理方法·· 5

8.3.1 故障描述·· 5

8.3.2 故障处理流程·· 6

8.3.3 故障处理步骤·· 6

8.4 IRF分裂后LACP MAD无法生效故障处理方法·· 7

8.4.1 故障描述·· 7

8.4.2 故障处理流程·· 8

8.4.3 故障处理步骤·· 8

8.5 PEX设备无法加入IRF3故障处理方法·· 9

8.5.1 故障描述·· 9

8.5.2 故障处理流程·· 10

8.5.3 故障处理步骤·· 11

8.6 PEX设备从IRF3系统中分裂故障处理方法·· 16

8.6.1 故障描述·· 16

8.6.2 故障处理流程·· 16

8.6.3 故障处理步骤·· 17

8.7 故障诊断命令·· 17

9 MDC故障处理··· 1

9.1 创建MDC提示无可用license故障处理方法·· 1

9.1.1 故障描述·· 1

9.1.2 故障处理流程·· 1

9.1.3 故障处理步骤·· 1

9.2 Location业务板提示失败故障处理方法·· 2

9.2.1 故障描述·· 2

9.2.2 故障处理流程·· 2

9.2.3 故障处理步骤·· 3

9.3 Allocate接口失败故障处理方法·· 5

9.3.1 故障描述·· 5

9.3.2 故障处理流程·· 5

9.3.3 故障处理步骤·· 6

9.4 故障诊断命令·· 8

 


1 简介

本文档介绍H3C S12500-S软、硬件常见故障的诊断及处理措施。

本文档适用于Release S12500-S-CMW710-R7178

1.1  故障处理注意事项

注意

设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。

 

在进行故障诊断和处理时,请注意以下事项:

·     设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

¡     记录具体的故障现象、故障时间、配置信息。

¡     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡     收集设备的日志信息和诊断信息(收集方法见1.2  收集设备运行信息)。

¡     记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。

¡     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡     记录故障处理过程中配置的所有命令行显示信息。

·     更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

·     故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。

1.2  收集设备运行信息

说明

为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。

 

设备运行过程中会产生logfilediagfile日志信息及记录设备运行状态的诊断信息。这些信息存储在主用主控板的Flash,可以通过FTPTFTP等方式导出。

如果设备运行过程中发生过主备倒换,则日志文件将保存在设备多个主控板中,不同主控板中导出的logfilediagfile、诊断信息文件请按照一定规则存放(如不同的文件夹:chassisXslotY),避免不同主控板的运行信息相互混淆,以方便查询。

表1     设备运行信息介绍

分类

文件名

内容

logfile日志

logfile.log

命令行记录、设备运行中产生的记录信息

diagfile日志

diagfile.log

设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、单板无法启动时的信息、主控板与接口板通信异常时的握手信息

诊断信息

XXX.gz

系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

 

1.2.1  logfile日志

(1)     执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在Flashlogfile目录中。

·     在缺省MDC上收集对应的日志文件。

<Sysname> logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log

·     在非缺省MDC上收集对应的日志文件。

如果设备创建了非缺省MDC,请在每个非缺省MDC下执行logfile save命令收集该MDC对应的日志文件。

# 查看当前创建的非缺省MDC

<Sysname> display mdc

ID         Name            Status

---------------------------------

1          Admin           active

2          mdc2            active

3          mdc3            active

<Sysname> system-view

[Sysname] switchto mdc mdc2

******************************************************************************

* Copyright (c) 2004-2015 Hangzhou H3C Tech. Co., Ltd. All rights reserved.  *

* Without the owner's prior written consent,                                 *

* no decompiling or reverse-engineering shall be allowed.                    *

******************************************************************************

 

<H3C> logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log

<H3C> switchback

[Sysname] switchto mdc mdc3

******************************************************************************

* Copyright (c) 2004-2015 Hangzhou H3C Tech. Co., Ltd. All rights reserved.  *

* Without the owner's prior written consent,                                 *

* no decompiling or reverse-engineering shall be allowed.                    *

******************************************************************************

 

<H3C> logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log

<H3C> switchback

(2)     查看缺省MDC中主用主控板、备用主控板、IRF中主设备/从设备上各主用/备用主控板的日志文件名称,如果设备创建了非缺省MDC,还需要检查每个非缺省MDC对应的日志文件。

·     缺省MDC主用主控板logfile日志:

<Sysname> dir flash:/logfile/

Directory of flash:/logfile

   0 -rw-      213339 Nov 10 2014 14:18:54   logfile.log

 

503808 KB total (173812 KB free)

 

·     缺省MDC备用主控板logfile日志:

<Sysname> dir slot1#flash:/logfile/

Directory of slot1#flash:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

1021104 KB total (421552 KB free)

·     缺省MDCIRF备框主控板logfile日志,如备框有两块主控板,则两块都需要检查:

<Sysname> dir chassis2#slot0#flash:/logfile/

Directory of chassis2#slot0#flash:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

1021104 KB total (421552 KB free)

·     非缺省MDC中的logfile日志,每个非缺省MDC都需要检查

<Sysname> dir flash:/mdc/

Directory of flash:/mdc

   0 drw-           - Jul 10 2013 14:56:50   mdc2

   1 drw-           - Jul 10 2013 16:48:04   mdc3

<Sysname> dir flash:/mdc/mdc2/logfile/

Directory of flash:/mdc/mdc2/logfile

   0 -rw-         465 Jul 11 2013 16:08:51   logfile.log

 

1021104 KB total (421476 KB free)

<Sysname> dir flash:/mdc/mdc3/logfile/

Directory of flash:/mdc/mdc3/logfile

   0 -rw-         465 Jul 11 2013 16:10:39   logfile.log

 

1021104 KB total (421476 KB free)

(3)     使用FTP或者TFTP将日志文件传输到指定位置。

1.2.2  diagfile日志

(1)     执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在Flashdiagfile目录中。

·     在缺省MDC上收集对应的诊断日志文件。

<Sysname> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file flash:/diagfile/diagfile.log

·     在非缺省MDC上收集对应的诊断日志文件。

如果设备创建了非缺省MDC,请在每个非缺省MDC下执行diagnostic-logfile save命令收集该MDC对应的诊断日志文件。

# 查看当前创建的非缺省mdc

<Sysname> display mdc

ID         Name            Status

---------------------------------

1          Admin           active

2          mdc2            active

3          mdc3            active

<Sysname> system-view

[Sysname] switchto mdc mdc2

******************************************************************************

* Copyright (c) 2004-2015 Hangzhou H3C Tech. Co., Ltd. All rights reserved.  *

* Without the owner's prior written consent,                                 *

* no decompiling or reverse-engineering shall be allowed.                    *

******************************************************************************

 

<H3C> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file flash:/diagfile/diagfile.log

<H3C> switchback

[Sysname] switchto mdc mdc3

******************************************************************************

* Copyright (c) 2004-2015 Hangzhou H3C Tech. Co., Ltd. All rights reserved.  *

* Without the owner's prior written consent,                                 *

* no decompiling or reverse-engineering shall be allowed.                    *

******************************************************************************

 

<H3C> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file flash :/diagfile/diagfile.log

<H3C> switchback

(2)     查看缺省MDC中主用主控板、备用主控板、IRF中主设备/从设备上各主用/备用主控板的诊断日志文件名称,如果设备创建了非缺省MDC,还需要检查每个非缺省MDC对应的日志文件。

·     缺省MDC主用主控板diagfile日志

<Sysname> dir flash:/diagfile/

Directory of flash:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

1021104 KB total (421416 KB free)

 

·     缺省MDC备用主控板diagfile日志

<Sysname> dir slot1#flash:/diagfile/

Directory of slot1#flash:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

1021104 KB total (421416 KB free)

·     缺省MDCIRF各成员设备主控板diagfile日志,如果成员设备有两块主控板,则两块都需要检查:

<Sysname> dir chassis2#slot0#flash:/diagfile/

Directory of chassis2#slot0#flash:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

1021104 KB total (421416 KB free)

·     非缺省MDC中的diagfile日志,每个非缺省MDC都需要检查

<Sysname> dir flash:/mdc/

Directory of flash:/mdc

   0 drw-           - Jul 10 2013 14:56:50   mdc2

   1 drw-           - Jul 10 2013 16:48:04   mdc3

<Sysname>dir flash:/diagfile/

Directory of flash:/diagfile

   0 -rw-         349 Jul 11 2013 16:21:38   diagfile.log

 

1021104 KB total (421352 KB free)

 

<Sysname> dir flash:/diagfile/

Directory of flash:/diagfile

   0 -rw-         349 Jul 11 2013 16:24:41   diagfile.log

 

1021104 KB total (421308 KB free)

(3)     使用FTP或者TFTP将日志文件传输到指定位置。

1.2.3  诊断信息

诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。

需要注意的是,设备上单板越多,诊断信息收集的时间越长,信息收集期间不能输入命令,请耐心等待。

说明

通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口或管理口的情况下,建议通过业务网口或管理口登录和传输文件。

 

(1)     执行screen-length disable命令,以避免屏幕输出被打断(如果是将诊断信息保存到文件中,则忽略此步骤)。

<Sysname>  screen-length disable

(2)     执行display diagnostic-information命令收集诊断信息。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N] :

(3)     选择将诊断信息保存至文件中,还是将直接在屏幕上显示

·     输入“Y”,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。

Save or display diagnostic information (Y=save, N=display)? [Y/N] : Y

Please input the file name(*.tar.gz)[flash:/diag_S12500-S_20141110-142231.tar.gz]:

flash:/diag.tar.gz

Diagnostic information is outputting to flash:/diag.tar.gz.

Please wait...

Save successfully.

<Sysname> dir flash:/

Directory of flash:

……

   6 -rw-      898180 Jun 26 2013 09:23:51   diag.tar.gz

 

1021808 KB total (259072 KB free)

·     输入“N”,将诊断信息直接显示在屏幕上。

Save or display diagnostic information (Y=save, N=display)? [Y/N] :n

===============================================

  ===============display clock===============

10:28:57 UTC Mon 11/06/2015

=================================================

  ===============display version===============

H3C Comware Software, Version 7.1.045, Release R7168

Copyright (c) 2004-2015 Hangzhou H3C Tech. Co., Ltd. All rights reserved.

H3C S12504-S uptime is 0 weeks, 0 days, 1 hour, 38 minutes

Last reboot reason : Cold reboot

 

Boot image: flash:/S12500-S-CMW710-SYSTEM-R7168.bin

Boot image version: 7.1.045P22, Release R7168

  Compiled Feb 27 2015 12:24:56

System image: flash:/S12500-S-CMW710-SYSTEM-R7168.bin

System image version: 7.1.045, Release R7168

  Compiled Feb 27 2014 12:25:17

 

 

MPU(M) Chassis 2 Slot 1:

Uptime is 0 weeks,0 days,1 hour,38 minutes

BOARD TYPE:         LSXM1SUPD3

DRAM:               8192M bytes

FLASH:              500M bytes

NVRAM:              512K bytes

PCB 1 Version:      VER.A

Bootrom Version:    110

CPLD 1 Version:     001

CPLD 2 Version:     001

CPLD 3 Version:     001

Release Version:    H3C S12504-S-R7168

Patch Version  :    None

Reboot Cause  :     ColdReboot

……

1.3  故障处理求助方式

当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。

用户支持邮箱:service@h3c.com

技术支持热线电话:400-810-0504(手机、固话均可拨打)

 


2 密码遗忘问题处理

2.1  遗忘Console口密码

您可以通过如下方法恢复Console口密码。

·     方法一:通过Telnet登录设备修改Console口密码。请优先使用该方法。

·     方法二:通过BootWare菜单修改Console口密码。

2.1.1  通过Telnet登录设备修改Console口密码

使用本方法需满足以下条件:

·     用户可以通过Telnet登录设备(比如忘记了Telnet登录密码,就不符合本条件)

·     用户角色名为network-adminlevel-15

(1)     通过Telnet方式登录设备,并确认当前VTY用户的用户角色名。

# 查看当前正在使用的用户线及用户的相关信息。

<Sysname> display users

  Idx  Line    Idle       Time              Pid     Type

  1    AUX 1/1 00:00:36   Oct 08 16:35:09   543

+ 16   VTY 0   00:00:00   Oct 08 17:02:03   566     TEL

 

Following are more details.

VTY 0   :

        Location: 192.168.29.1

 +    : Current operation user.

 F    : Current operation user works in async mode.

以上显示信息表明,当前有两个用户已经登录设备,用户自己使用的是VTY 0用户线,用户的IP地址为192.168.29.1;另一个用户使用的是AUX 1/1用户线。

# VTY 0用户视图下查看配置、确认该用户的权限:可看到 VTY 0的用户角色权限为level-15,有权限修改Console口密码。

[Sysname] line vty 0

[Sysname-line-vty0] display this

#

line aux 1/1

 user-role network-operator

#

line vty 0

 authentication-mode none

 user-role level-15

 user-role network-admin

 user-role network-operator

#

return

(2)     修改Console用户的密码(假设认证方式为password方式)。

<Sysname> system-view

[Sysname] line aux 1/1

[Sysname-line-aux1/1] authentication-mode password

[Sysname-line-aux1/1] set authentication password simple 12345678

[Sysname-line-aux1/1] return

(3)     为了防止重启后配置丢失,请保存配置。

<Sysname> save

The current configuration will be written to the device. Are you sure? [Y/N] :y

Please input the file name(*.cfg)[flash:/default.cfg]

(To leave the existing filename unchanged, press the enter key):default.cfg

Validating file. Please wait....

Saved the current configuration to mainboard device successfully.

2.1.2  通过BootWare菜单修改Console 口密码

通过BootWare菜单解决Console口密码遗忘问题的方式与设备上是否使能了密码恢复功能相关,可通过以下方法判断设备是否使能了密码恢复功能:

·     通过进入BootWare主菜单后的显示信息来判断

·     telnet登录当前设备后,通过查看当前设备上的配置信息来判断

# 查看当前设备上的配置信息。

<Sysname> display current-configuration

#

 version 7.1.045, Release 7168

#

mdc Admin id 1

#

 sysname Sysname

#

 command-alias enable

 command-alias mapping undo no

 command-alias mapping quit exit

 command-alias mapping return end

#

password-recovery enable

#

以上显示信息表明,当前设备使能了密码恢复功能。

1. 密码恢复功能处于使能状态

使能密码恢复功能后,设备的BootWare菜单支持配置“Skip Authentication for Console Login”选项,选择该选项并重启设备后,设备以下次启动配置文件启动,登录Console口时会跳过认证密码,进入到命令行操作界面。

注意

·     进入BootWare菜单需要重启设备,会导致业务中断,请视具体情况做好业务备份,并尽量选择业务量较少的时间操作。

·     跳过Console口密码登录后请马上配置新的密码,否则登录超时或重启后,仍需要跳过密码来登录。

·     在此操作过程中不要对设备下电。

 

(1)     用串口线连接配置终端和设备,然后重启设备终端屏幕上出现“Press Ctrl+B to access EXTENDED-BOOTWARE MENU... 3秒钟之内,键入<Ctrl+B>,系统将进入BootWare主菜单

RAM test successful.

Press Ctrl+T to start five-step full RAM test...

Press Ctrl+Y to start nine-step full RAM test...

System is starting...

Press Ctrl+D to access BASIC-BOOTWARE MENU...

Booting Normal Extended BootWare

The Extended BootWare is self-decompressing....Done.

 

****************************************************************************

*                                                                          *

*                         BootWare, Version 1.08                           *

*                                                                          *

****************************************************************************

Compiled Date         : Dec  9 2014

CPU Type              : XLP208

CPU Clock Speed       : 1000MHz

Memory Type           : DDR3 SDRAM

Memory Size           : 8192MB

Memory Speed          : 667MHz

BootWare Size         : 1536KB

Flash Size            : 4MB

BASIC CPLD Version    : 000A

EXTENDED CPLD Version : 003

PCB Version           : Ver.A

 

 

BootWare Validating...

Press Ctrl+B to access EXTENDED-BOOTWARE MENU...

(2)     键入“8”并回车,跳过Console口密码登录。

Password recovery capability is enabled.

Note: The current operating device is flash

Enter < Storage Device Operation > to select device.

 

==========================<EXTENDED-BOOTWARE MENU>==========================

|<1> Boot System                                                           |

|<2> Enter Serial SubMenu                                                  |

|<3> Enter Ethernet SubMenu                                                |

|<4> File Control                                                          |

|<5> Restore to Factory Default Configuration                              |

|<6> Skip Current System Configuration                                     |

|<7> BootWare Operation Menu                                               |

|<8> Skip Authentication for Console Login                                 |

|<9> Storage Device Operation                                              |

|<0> Reboot                                                                |

============================================================================

Ctrl+Z: Access EXTENDED ASSISTANT MENU

Ctrl+F: Format File System

Enter your choice(0-9): 8

Clear Image Password Success!

(3)     重启设备。

==========================<EXTENDED-BOOTWARE MENU>==========================

|<1> Boot System                                                           |

|<2> Enter Serial SubMenu                                                  |

|<3> Enter Ethernet SubMenu                                                |

|<4> File Control                                                          |

|<5> Restore to Factory Default Configuration                              |

|<6> Skip Current System Configuration                                     |

|<7> BootWare Operation Menu                                               |

|<8> Skip Authentication for Console Login                                 |

|<9> Storage Device Operation                                              |

|<0> Reboot                                                                |

============================================================================

Ctrl+Z: Access EXTENDED ASSISTANT MENU

Ctrl+F: Format File System

Enter your choice(0-9): 0

DDR2 SDRAM test successful.

System is starting...

Booting Normal Extend BootWare

The Extend BootWare is self-decompressing.................................

Done.

(4)     完成设备启动后,通过Console口登录时不需要认证。登录后请及时修改Console口密码(假设认证方式为password方式)。

<Sysname> system-view

[Sysname] line aux 1/1

[Sysname-line-aux1/1] authentication-mode password

[Sysname-line-aux1/1] set authentication password simple 12345678

[Sysname-line-aux1/1] return

(5)     为防止重启后配置丢失,请保存配置。

<Sysname> save

The current configuration will be written to the device. Are you sure? [Y/N] :y

Please input the file name(*.cfg)[flash:/default.cfg]

(To leave the existing filename unchanged, press the enter key):default.cfg

Validating file. Please wait....

Saved the current configuration to mainboard device successfully.

2. 密码恢复功能处于关闭状态

密码恢复功能处于关闭状态时,设备的BootWare菜单支持配置“Restore to Factory Default Configuration选项,选择该选项并重启设备后,设备会先自动删除下次启动配置文件,再以出厂配置启动。

注意

·     恢复出厂配置后原有配置会丢失,造成业务中断,请谨慎。

·     在此操作过程中不要对设备进行下电。

 

(1)     用串口线连接配置终端和设备,然后重启设备终端屏幕上出现“Press Ctrl+B to access EXTENDED-BOOTWARE MENU... 3秒钟之内,键入<Ctrl+B>,系统将进入BootWare主菜单

RAM test successful.

Press Ctrl+T to start five-step full RAM test...

Press Ctrl+Y to start nine-step full RAM test...

System is starting...

Press Ctrl+D to access BASIC-BOOTWARE MENU...

Booting Normal Extended BootWare

The Extended BootWare is self-decompressing....Done.

 

****************************************************************************

*                                                                          *

*                         BootWare, Version 1.08                           *

*                                                                          *

****************************************************************************

Compiled Date         : Dec  9 2014

CPU Type              : XLP208

CPU Clock Speed       : 1000MHz

Memory Type           : DDR3 SDRAM

Memory Size           : 8192MB

Memory Speed          : 667MHz

BootWare Size         : 1536KB

Flash Size            : 4MB

BASIC CPLD Version    : 000A

EXTENDED CPLD Version : 003

PCB Version           : Ver.A

 

 

BootWare Validating...

Press Ctrl+B to access EXTENDED-BOOTWARE MENU...

(2)     键入“5”并回车,恢复出厂默认配置。

Password recovery capability is disabled.

Note: The current operating device is flash

Enter < Storage Device Operation > to select device.

 

==========================<EXTENDED-BOOTWARE MENU>==========================

|<1> Boot System                                                           |

|<2> Enter Serial SubMenu                                                  |

|<3> Enter Ethernet SubMenu                                                |

|<4> File Control                                                          |

|<5> Restore to Factory Default Configuration                              |

|<6> Skip Current System Configuration                                     |

|<7> BootWare Operation Menu                                               |

|<8> Skip Authentication for Console Login                                 |

|<9> Storage Device Operation                                              |

|<0> Reboot                                                                |

============================================================================

Ctrl+Z: Access EXTENDED ASSISTANT MENU

Ctrl+F: Format File System

Enter your choice(0-9): 5

Because the password recovery capability is disabled, this operation can

cause the configuration files to be deleted, and the system will start up

with factory defaults. Are you sure to continue?[Y/N] Y

Setting...Done.

(3)     重启设备,以出厂默认配置启动。

==========================<EXTENDED-BOOTWARE MENU>==========================

|<1> Boot System                                                           |

|<2> Enter Serial SubMenu                                                  |

|<3> Enter Ethernet SubMenu                                                |

|<4> File Control                                                          |

|<5> Restore to Factory Default Configuration                              |

|<6> Skip Current System Configuration                                     |

|<7> BootWare Operation Menu                                               |

|<8> Skip Authentication for Console Login                                 |

|<9> Storage Device Operation                                              |

|<0> Reboot                                                                |

============================================================================

Ctrl+Z: Access EXTENDED ASSISTANT MENU

Ctrl+F: Format File System

Enter your choice(0-9): 0

DDR2 SDRAM test successful.

System is starting...

Booting Normal Extend BootWare

The Extend BootWare is self-decompressing.................................

Done.

(4)     设备以出厂默认配置启动后,通过Console口登录时不需要认证。登录后请及时修改Console口密码(假设认证方式为password方式)。

<Sysname> system-view

[Sysname] line aux 1/1

[Sysname-line-aux1/1] authentication-mode password

[Sysname-line-aux1/1] set authentication password simple 12345678

[Sysname-line-aux1/1] return

(5)     为防止重启后配置丢失,请保存配置。

<Sysname> save

The current configuration will be written to the device. Are you sure? [Y/N] :y

Please input the file name(*.cfg)[flash:/default.cfg]

(To leave the existing filename unchanged, press the enter key):default.cfg

Validating file. Please wait....

Saved the current configuration to mainboard device successfully.

2.2  遗忘Telnet登录密码

如果Telnet登录密码丢失,可以通过Console口登录设备后重新配置Telnet登录密码。

(1)     通过Console口登录设备。

(2)     VTY用户(下面以VTY063为例)配置密码123456,并保存配置。

<Sysname> system-view

[Sysname] line vty 0 63

[Sysname-line-vty0-63] authentication-mode password

[Sysname-line-vty0-63] set authentication password simple 12345678

[Sysname-line-vty0-63] return

<Sysname> save

The current configuration will be written to the device. Are you sure? [Y/N] :y

Please input the file name(*.cfg)[flash:/default.cfg]

(To leave the existing filename unchanged, press the enter key):default.cfg

Validating file. Please wait....

Saved the current configuration to mainboard device successfully

 


3 使用配置文件恢复配置

缺省情况下,设备的启动配置文件为flash:/config.cfg设备上电时,从缺省存储路径中读取config.cfg文件进行设备的初始化操作。如果缺省存储路径中没有配置文件,则设备采用缺省参数进行初始化配置。

如果想要将设备当前配置恢复成以前保存过的某个配置,可以通过下面的步骤完成。

(1)     通过FTPTFTP方式将用于恢复的配置文件上传到设备的所有主控板上(以FTP方式举例,上传的配置文件名为config.cfg

# 将用于恢复的配置文件上传到主用主控板。

<Sysname> ftp 192.168.29.1

Press CTRL+C to abort.

Connected to 192.168.29.1 (192.168.29.1).

220 WFTPD 2.0 service (by Texas Imperial Software) ready for new user

User (192.168.29.1:(none)): 1

331 Give me your password, please

Password:

230 Logged in successfully

Remote system type is MSDOS.

ftp> binary

200 Type is Image (Binary)

ftp> get config.cfg flash:/config.cfg

227 Entering Passive Mode (192,168,29,1,209,24)

150 "F:\config.cfg" file ready to send (18494 bytes) in IMAGE / Binary mode

226 Transfer finished successfully.

18494 bytes received in 0.0383 seconds (471.1 kbyte/s)

ftp> quit

221 Windows FTP Server (WFTPD, by Texas Imperial Software) says goodbye

# 将主用主控板的config.cfg配置文件拷贝到备用主控板。

<Sysname> copy config.cfg slot1#flash:/config.cfg

Copy flash:/config.cfg to slot1#flash:/config.cfg?[Y/N] :y

Coping file flash:/config.cfg to slot1#flash:/config.cfg...Done.

(2)     设置下次启动时使用的配置文件,以便下次启动后设备恢复到此配置。

<Sysname> startup saved-configuration config.cfg

需要注意的是,如果用于恢复的配置文件名为config.cfg(和设备缺省启动的配置文件名相同),则本步骤可选;如果不是config.cfg,则本步骤必选。

(3)     重启设备,重启完成后设备会以上面设置的配置文件恢复配置。

说明

上述步骤的操作过程中,不能进行save命令的操作,否则设备将以当前保存的配置启动。

 


4 硬件类故障处理

说明

·     本章节主要讲述单板、电源、风扇、机框等部件故障的处理方法。其它部件如光模块、端口、温度告警故障等问题请参见“系统类故障处理”和“端口类故障处理”。

·     关于设备各部件指示灯的详细情况,请参见《H3C S12500-S系列交换机安装指导》。

 

4.1  配置系统故障

交换机上电后,如果系统正常,将在配置终端上显示启动信息;如果配置系统出现故障,配置终端可能无显示或者显示乱码。

4.1.1  终端无显示故障处理

如果上电后配置终端无显示信息,首先要做以下检查:

·     电源系统是否正常工作。

·     主控板是否正常工作。

·     是否已将配置电缆接到主控板的配置口(Console口或USB Console)。

如果以上检查未发现问题,很可能有如下原因:

·     配置电缆连接的串口错误(实际选择的串口与终端设置的串口不符)。

·     配置终端参数设置错误(参数要求:设置波特率为9600,数据位为8,奇偶校验为无,停止位为1,流量控制为无,选择终端仿真为VT100)。

·     配置电缆本身有问题,可以尝试更换配置电缆。

4.1.2  终端显示乱码故障处理

如果配置终端上显示乱码,很可能是配置终端参数设置错误(设置波特率为9600,数据位为8,奇偶校验为无,停止位为1,流量控制为无,选择终端仿真为VT100),请进行相应检查。

4.2  运行过程中主控板重启故障处理

4.2.1  故障描述

主控板在使用中发生重启,无法正常启动,主控板对应槽位RUNALM灯常亮。

4.2.2  故障处理流程

图1     故障诊断流程图

 

4.2.3  故障处理步骤

1. 检查主控板上的启动文件是否正常

通过Console口登录故障主控板,重新启动设备。如果BootWare提示CRC错误或者找不到启动文件,请重新加载启动文件,并确认Flash中文件大小与服务器上的文件是否一致,如不存在或不一致需重新加载启动文件。加载后请设置该文件为当前启动文件(在BootWare加载过程中,BootWare能自动将该文件设置为当前启动文件)。

2. 测试主控板内存单元是否正常

如果确认加载的文件大小正确,且设置为当前启动文件也正常。请重新启动该主控板,同时立即按住CTRL+T,对内存单元进行检测。如果提示内存错误,请更换主控板。

RAM test successful.

Press Ctrl+T to start five-step full RAM test...

Press Ctrl+Y to start nine-step full RAM test...

Running five-step RAM test...

This operation may take several minutes. Please wait...

RAM dataline testing...                    [ PASS ]

RAM unit testing...                        [ PASS ]

Five-step RAM test succeeded.

3. 查看Bootware是否依旧提示错误

如果内存检查也正常,但BootWare启动过程中还有错误提示,则根据相关提示初步判断发生故障的器件。检查主控板是否插到底。如已插到底则更换单板。

4. 寻求技术支持

如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。

4.3  新加入主控板无法启动故障处理

4.3.1  故障描述

设备原有一块主控板,新加入一块主控板作为备用主控板,新加入主控板无法启动,主控板对应槽位RUNALM灯常亮。

4.3.2  故障处理流程

图2     故障诊断流程图

 

4.3.3  故障处理步骤

1. 检查新主控板是否插稳

重新插拔该主控板,保证主控板已经插稳,如果故障依然存在,请执行步骤2

2. 检查电源模块输出功率是否充足

请使用display power-info命令查看当前Surplus power是否足够,如果功率不足请增加电源模块,查看该单板状态是否恢复正常,如果故障依然存在,请执行步骤3

[Sysname-probe] display power-info

  Device Power: 2500

  Fan Power: 195

  Surplus power: 2089

  Slot No.     Power

   3           60

   6           78      --reserve  for  mainboard

   7           78

Board Exist Reg50: 0xbf  Reg51: 0xf7  Reg52: 0x52

Power  up   Reg5A: 0x 0  Reg5B: 0xc8  Reg5C: 0x5c  Reg15B: 0xc8  Reg15C: 0xff

 

  Power Event Information:

 

POE Power Chassis 0: Fail

3. 检查新加入主控板是否和原主控板型号一致

同一台设备中的两块主控板型号要求一致。检查两块主控板型号是否一致,如果不一致,更换一块型号一致的主控板插入。

4. 检查新加入主控板软件版本是否和原主控板一致

如果新加入主控板和原主控板型号一致,请检查两块主控板的启动文件是否一致。如果两者启动文件版本不一致,升级新加入主控板版本与原主控板一致。

如果两块主控板的启动文件也一致,请检查主用主控板运行状态,并执行步骤5

5. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

4.4  业务板运行过程中发生故障导致无法启动

4.4.1  故障描述

业务板运行过程中发生重启,重启后无法正常启动,主控板对应槽位RUNALM灯常亮。

4.4.2  故障处理流程

图3     故障诊断流程图

 

4.4.3  故障处理步骤

1. 检查主控板上的启动文件是否正常

通过display boot-loaderdir命令确认启动文件是否存在,文件大小与服务器上的文件是否一致,如不存在或不一致请重新加载启动文件。

<Sysname> display boot-loader

  Software images on slot 1:

Current software images:

  flash:/S12500-S-CMW710-BOOT-R7168.bin

  flash:/S12500-S-CMW710-SYSTEM-R7168.bin

Main startup software images:

  flash:/S12500-S-CMW710-BOOT-R7168.bin

  flash:/S12500-S-CMW710-SYSTEM-R7168.bin

Main startup software images:

  flash:/S12500-S-CMW710-BOOT-R7168.bin

  flash:/S12500-S-CMW710-SYSTEM-R7168.bin

Main startup software images:

  flash:/S12500-S-CMW710-BOOT-R7168.bin

  flash:/S12500-S-CMW710-SYSTEM-R7168.bin

Backup startup software images:

  None

<Sysname>dir

Directory of flash:

   0 drw-           - Sep 26 2013 16:18:06   core

   1 drw-           - Jun 30 2013 11:32:34   diagfile

   2 -rw-        7122 Dec 23 2013 10:02:46   ifindex.dat

   3 drw-           - Dec 11 2013 19:00:37   start-zy.cfg

   4 drw-           - Aug 30 2013 11:51:15   logfile

   5 -rw-    20529152 Dec 22 2013 14:28:40   S12500-S-cmw710-boot-R7168.bin

   6 -rw-   178325504 Dec 22 2013 14:39:02   S12500-S-cmw710-system-R7168.bin

   7 drw-           - Jun 30 2013 11:32:34   seclog

   8 -rw-       17175 Dec 23 2013 10:02:48   startup.cfg

   9 -rw-      276535 Dec 23 2013 10:02:48   startup.mdb

  10 drw-           - Nov 12 2013 11:11:54   versionInfo

 

503808 KB total (125896 KB free)

2. 在业务板不能启动的槽位插入能够正常工作的业务板能否正常启动

如果确认业务板加载的启动文件存在且大小正确,在条件允许的情况下,在无法正常启动的业务板槽位插入其它能够正常工作的业务板做测试。

如果插入的其它能够正常工作的业务板能启动,则排除主控板和背板故障,请执行步骤3

如果插入的其它能够正常工作的业务板也不能启动,请更换主控板。如果更换主控板后故障仍未排除,请执行步骤3

3. 检查是否有加载记录

请通过display logbuffer命令检查设备的logbuffer中是否有对应槽位单板的加载的记录。

<Sysname> display logbuffer

%May  3 13:27:17:086 2013 H3C DEVM/4/BOARD_LOADING: Board is loading file on Chassis 1 Slot 7.

%May  3 13:27:17:647 2013 H3C DEVM/5/LOAD_FINISHED: Board has finished loading file on Chassis 1 Slot 7.

如果logbuffer有对应槽位单板的加载记录,请将业务板更换到其他能正常启动业务板槽位看能否正常启动。

如果logbuffer中没有对应槽位单板的加载记录,请执行步骤4

4. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

4.5  新加入业务板无法启动问题处理方法

4.5.1  故障描述

新加入业务板无法启动,主控板对应槽位RUNALM灯常亮

4.5.2  故障处理流程

图4     故障诊断流程图

 

4.5.3  故障处理步骤

1. 检查主控板上的启动文件是否正常

通过display boot-loaderdir命令确认启动文件是否存在,文件大小与服务器上的文件是否一致,如不存在或不一致请重新加载启动文件。

<Sysname> display boot-loader

  Software images on slot 1:

Current software images:

  flash:/S12500-S-CMW710-BOOT-R7168.bin

  flash:/S12500-S-CMW710-SYSTEM-R7168.bin

Main startup software images:

  flash:/S12500-S-CMW710-BOOT-R7168.bin

  flash:/S12500-S-CMW710-SYSTEM-R7168.bin

Backup startup software images:

  None

<Sysname> dir

Directory of flash:

   0 drw-           - Sep 26 2013 16:18:06   core

   1 drw-           - Jun 30 2013 11:32:34   diagfile

   2 -rw-        7122 Dec 23 2013 10:02:46   ifindex.dat

   3 drw-           - Dec 11 2013 19:00:37   start-zy.cfg

   4 drw-           - Aug 30 2013 11:51:15   logfile

   5 -rw-    20529152 Dec 22 2013 14:28:40   S12500-S-cmw710-boot-R7168.bin

   6 -rw-   178325504 Dec 22 2013 14:39:02   S12500-S-cmw710-system-R7168.bin

   7 drw-           - Jun 30 2013 11:32:34   seclog

   8 -rw-       17175 Dec 23 2013 10:02:48   startup.cfg

   9 -rw-      276535 Dec 23 2013 10:02:48   startup.mdb

  10 drw-           - Nov 12 2013 11:11:54   versionInfo

 

503808 KB total (125896 KB free)

2. 检查新业务板是否插稳

重新插拔该业务板,保证业务板已经插稳,如果故障依然存在,请执行步骤3

3. 检查电源模块输出功率是否充足

增加电源模块,查看该单板状态是否恢复正常,如果故障依然存在,请执行步骤4

4. 检查启动文件是否支持此业务板

如果确认业务板加载的启动文件存在且大小正确,请检查启动文件的软件版本版本说明书,确认此版本软件是否支持该业务板。如果不支持,升级到支持此业务板的新软件版本。

5. 在业务板不能启动的槽位插入能够正常工作的业务板能否正常启动

如果故障仍未排除且条件允许,在无法加载的业务板槽位插入其它与软件版本适配的业务板做测试。

如果插入的其它业务板能启动,则排除主控板和背板故障,请执行步骤6

如果插入的其它业务板也不能启动,请更换主控板。如果更换主控板后故障仍未排除,请执行步骤6

6. 检查是否有加载记录

请通过display logbuffer命令检查设备的logbuffer中是否有对应槽位单板的加载的记录。

[Sysname]display logbuffer

%May  3 13:27:17:086 2013 H3C DEVM/4/BOARD_LOADING: Board is loading file on Chassis 1 Slot 7.

%May  3 13:27:17:647 2013 H3C DEVM/5/LOAD_FINISHED: Board has finished loading file on Chassis 1 Slot 7.

如果logbuffer有对应槽位单板的加载记录,请将业务板更换到其他能正常启动业务板槽位看能否正常启动。

如果logbuffer中没有对应槽位单板的加载记录,请执行步骤7

7. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系H3C的技术支持工程师。

4.6  单板重启异常问题处理方法

这里的单板重启是指单板出现过重启,而当前单板状态是Normal

(1)     通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行reboot重启操作。

(2)     display version命令支持查询单板最近一次重启的原因。比如显示信息中“Last reboot reason : USER reboot表示单板最近一次重启原因是用户重启设备。

H3C Comware Software, Version 7.1.045, Release 7168

Copyright (c) 2004-2015 Hangzhou H3C Tech. Co., Ltd. All rights reserved.

H3C S12506-S uptime is 0 weeks, 0 days, 1 hour, 44 minutes

Last reboot reason : USER reboot

……

(3)     如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。

(4)     对于S12506-S设备,请确认处于当前的业务板槽位转发模式时,插入单板的槽位是否支持该单板

(5)     如无法确认,请搜集故障信息并发送技术支持人员分析。

4.7  电源运行中上报Fault问题处理方法

4.7.1  故障描述

电源运行中上报Fault,主控板电源状态指示灯PWR OK指示灯灭和FAIL指示灯常亮

4.7.2  故障处理流程

图5     故障诊断流程图

 

故障处理步骤

1. 检查是否存在FaultAbsent状态的电源模块

使用display power命令显示电源模块状态,查看是否存在FaultAbsent状态的电源模块。

<Sysname> display power

 Power        0 State: Normal

 Power        1 State: Absent

 Power        2 State: Absent

 Power        3 State: Absent

也可以使用display alarm命令查看电源模块告警信息。

<Sysname> display alarm

Slot   CPU   Level   Info

-      -     INFO    Power 1 is absent.

-      -     INFO    Power 2 is absent.

-      -     INFO    Power 3 is absent.

如果存在Absent状态的电源模块,请执行步骤2

如果存在Fault状态的电源模块,请执行步骤3

2. 检查Absent状态电源模块

如果电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装牢固。

如果电源模块槽位有电源模块在位且显示为Absent,请将电源模块拆卸后重新安装,重新插拔电源模块时,请检查模块是否在位并插稳,电源模块状态指示灯是否正常。如果电源模块模块仍不正常,请将该电源模块与正常的电源模块更换槽位做交叉验证。然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请更换新电源模块

如果更换新电源模块后仍然显示为Absent状态,请执行步骤4

3. 检查Fault状态电源模块

如果存在Fault状态电源模块,表示该电源模块异常,无法供电。

电源处于Fault状态可能有以下原因:

(1)     电源线可能没接稳而脱落。如果电源线脱落,那么电源的电流和电压都会显示为0,电源状态显示为Fault请检查电源是否接线,接线后使用display power命令查看对应槽位电源状态是否显示为Normal如果没有恢复Normal,请执行(2)

<Sysname> display power

 Power        0 State: Normal

 Power        1 State: Absent

 Power        2 State: Absent

 Power        3 State: Fault

(2)     可能是电源模块本身温度过高导致。如果电源模块上积灰较多可能引起电源模块温度升高。请查看电源模块积灰情况,如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。然后使用display power命令查看对应槽位电源状态是否显示为Normal如果没有恢复Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。如果该电源模块仍然显示为Fault状态,请更换电源模块。如果更换新电源模块后仍然显示为Fault状态,请执行步骤4

4. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系H3C的技术支持工程师。

4.8  新插入电源模块状态异常处理方法

4.8.1  故障描述

新插入电源模块状态异常,主控板电源状态指示灯PWR OK指示灯灭和FAIL指示灯常亮

4.8.2  故障处理流程

图6     故障诊断流程图

 

4.8.3  故障处理步骤

1. 查看电源模块状态

使用display power命令查看电源模块状态。

<Sysname> display power

 Power        0 State: Normal

 Power        1 State: Absent

 Power        2 State: Absent

 Power        3 State: Absent

也可以使用display alarm命令查看电源模块告警信息。

<Sysname> display alarm

Chassis Slot   CPU   Level   Info

2       -      -     INFO    power 1 is absent.

2       -      -     INFO    power 2 is absent.

2       -      -     INFO    power 3 is absent.

如果该电源模块显示为Absent状态,请执行步骤2

如果该电源模块显示为Fault状态,请执行步骤3

2. 检查Absent状态电源模块

如果该电源模块显示为Absent状态,表示电源模块没有安装牢固。请将该电源模块拆卸后重新安装,然后查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Absent状态,请执行步骤4

3. 检查Fault状态电源模块

如果该电源模块显示为Fault状态,表示该模块异常,无法供电。首先检查是否接电源线,如果没接电源线,请接入电源线。如果接入电源线,电源状态还非Normal状态,请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Fault状态,请执行步骤4

4. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系H3C的技术支持工程师。

4.9  风扇框状态异常问题处理方法

4.9.1  故障描述

风扇框运行中上报Fault或新安装风扇框后状态异常,主控板上的风扇 OK指示灯灭和FAIL指示灯常亮

4.9.2  故障处理流程

图7     故障诊断流程图

 

4.9.3  故障处理步骤

1. 查看风扇框状态

使用display fan命令查看风扇框状态。

<Sysname> display fan

Fan Frame 0  State: Normal

也可以使用display alarm命令查看风扇框告警信息。

<Sysname> display alarm

Chassis Slot   CPU   Level   Info

2       -      -     INFO    fan 1 is absent.

如果风扇框工作状态显示为Absent,请执行步骤2

如果风扇框工作状态显示为Fault,请执行步骤3

2. 检查风扇框是否安装牢固

如果风扇框工作状态显示为Absent状态,表示风扇框不在位或者没有安装牢固。如果风扇框在位,请将该风扇框拆卸后重新安装,然后查看风扇框状态是否显示为Normal状态。如果仍然显示为Absent状态,请更换风扇框。如果更换新风扇框后仍然显示为Absent状态,请执行步骤4

3. 检查设备的工作环境信息

如果风扇框工作状态显示Fault状态,表示该风扇框异常,无法提供抽风散热功能。请使用下述步骤进一步定位。

(1)     使用display environment命令查看系统温度是否持续升高。如果系统温度持续升高,建议用手在设备出风口触摸进一步判断出风口是否有出风。如果温度持续升高,且出风口无风,表示风扇框异常。

(2)     使用Probe视图下的debug sysm fan fan-id get-speed查看风扇转速,即speed字段信息,如果风扇转速小于500/rpm,表示风扇异常。

(3)     如果确定风扇异常,请将风扇框拆卸后重新安装,然后使用display fan命令查看是否恢复为Normal状态。

(4)     如果仍然不能恢复为Normal状态,请更换该风扇框。如果现场没有风扇框,不能立即更换,请关闭设备以免温度过高导致电路烧坏(如果有降温措施保证系统工作在60摄氏度以下,也可以继续使用设备)。

(5)     如果更换新的风扇框仍然不能恢复为Normal状态,请执行步骤4

4. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系H3C的技术支持工程师。

4.10  故障诊断命令

命令

说明

probe

进入Probe视图

debug sysm fan fan-id get-speed

查看风扇转速

dir

显示当前文件夹或文件信息

display boot-loader

显示本次启动和下次启动所采用的启动软件包的名称

display device

查看设备信息

display environment

显示设备的工作温度信息

display fan

显示设备风扇框的工作状态

display logbuffer

用来显示系统日志缓冲区记录的日志信息

display alarm

显示设备的告警信息

display power

显示设备电源的信息


5 系统类故障处理

5.1  单板CPU占用率高问题处理方法

5.1.1  故障描述

连续使用命令display cpu-usage查看CPU的占用率。如果CPU占用率持续在80%以上,说明有某个任务长时间占用CPU,需要确认CPU高的具体原因。

5.1.2  故障处理流程

图8     故障诊断流程图

 

5.1.3  故障处理步骤

CPU占用率高的原因通常有:

·     路由振荡

·     报文攻击

·     链路环路等

1. 路由振荡排查

路由表中条目频繁变化,可能导致CPU占用率过高。记录路由信息并转至7. 收集信息并寻求技术支持

首次查看路由表:

[SwitchA] display ip routing-table

 

         Destinations : 9        Routes : 9

 

Destination/Mask    Proto  Pre  Cost         NextHop         Interface

 

0.0.0.0/32          Direct 0    0            127.0.0.1       InLoop0

10.1.1.0/24         OSPF   150  1            11.2.1.1        Vlan100

127.0.0.0/8         Direct 0    0            127.0.0.1       InLoop0

127.0.0.0/32        Direct 0    0            127.0.0.1       InLoop0

127.0.0.1/32        Direct 0    0            127.0.0.1       InLoop0

127.255.255.255/32  Direct 0    0            127.0.0.1       InLoop0

224.0.0.0/4         Direct 0    0            0.0.0.0         NULL0

224.0.0.0/24        Direct 0    0            0.0.0.0         NULL0

255.255.255.255/32  Direct 0    0            127.0.0.1       InLoop0

再次查看路由表:

[SwitchA] display ip routing-table

 

         Destinations : 8        Routes : 8

 

Destination/Mask    Proto  Pre  Cost         NextHop         Interface

 

0.0.0.0/32          Direct 0    0            127.0.0.1       InLoop0

127.0.0.0/8         Direct 0    0            127.0.0.1       InLoop0

127.0.0.0/32        Direct 0    0            127.0.0.1       InLoop0

127.0.0.1/32        Direct 0    0            127.0.0.1       InLoop0

127.255.255.255/32  Direct 0    0            127.0.0.1       InLoop0

224.0.0.0/4         Direct 0    0            0.0.0.0         NULL0

224.0.0.0/24        Direct 0    0            0.0.0.0         NULL0

255.255.255.255/32  Direct 0    0            127.0.0.1       InLoop0

2. 报文攻击排查

抓包确认攻击源。在设备端口抓包,使用报文捕获工具(如SnifferWiresharkWinNetCap等)分析报文特征,确认攻击源。然后针对攻击源配置报文防攻击。关于报文防攻击的详细介绍和配置,请参见“安全配置指导”中的“攻击检测与防范配置”

3. 链路环路排查

链路存在环路时,可能出现广播风暴和网络振荡,大量的协议报文上送CPU处理可能导致CPU占用率升高,设备很多端口的流量会变得很大,端口使用率达到90%以上:

<Sysname> display interface gigabitethernet3/0/1

GigabitEthernet3/0/1

Current state: UP

Line protocol state: UP

Description: GigabitEthernet3/0/1 Interface

Bandwidth: 1000000 kbps

Maximum transmission unit: 1500

Internet address: 2.1.1.2/24 (primary)

IP packet frame type: Ethernet II, hardware address: 0000-fc00-9276

IPv6 packet frame type: Ethernet II, hardware address: 0000-fc00-9276

Loopback is not set

Media type is twisted pair, port hardware type is 1000_BASE_T

Port priority: 0

1000Mbps-speed mode, full-duplex mode

Link speed type is autonegotiation, link duplex type is autonegotiation

Flow-control is not enabled

Maximum frame length: 9216

Last clearing of counters: Never

 Peak input rate: 8 bytes/sec, at 2015-03-19 09:20:48

 Peak output rate: 1 bytes/sec, at 2015-03-19 09:16:16

 Last 300 second input: 26560 packets/sec 123241940 bytes/sec 99%

 Last 300 second output: 0 packets/sec 0 bytes/sec 0%

……

如链路出现环路:

·     排查链路连接、端口配置是否正确

·     是否使能STP协议,配置是否正确

·     邻接设备STP状态是否正常

·     如以上配置均正确,可能为STP协议计算错误或协议计算正确但端口驱动层没有正常Block阻塞,可以shutdown环路上端口、拔插端口让STP重新计算来快速恢复业务。

4. 确定CPU占用率高的槽位

如果上面的步骤无法解决故障,请连续使用命令display cpu-usage查看CPU的占用率,确定哪个槽位单板CPU占用率高。

5. 确定CPU占用率高的任务

如果通过上述处理还是无法确认具体原因,请通过Probe视图下的display process cpu命令观察占用CPU最多的任务,比如1槽位CPU高。

[Sysname-probe] display process cpu slot 1

CPU utilization in 5 secs: 2.4%; 1 min: 2.5%; 5 mins: 2.4%

    JID      5Sec      1Min      5Min    Name

      1      0.0%      0.0%      0.0%    scmd

      2      0.0%      0.0%      0.0%    [kthreadd]

      3      0.0%      0.0%      0.0%    [migration/0]

      4      0.0%      0.0%      0.0%    [ksoftirqd/0]

      5      0.0%      0.0%      0.0%    [watchdog/0]

      6      0.0%      0.0%      0.0%    [migration/1]

      7      0.0%      0.0%      0.0%    [ksoftirqd/1]

      8      0.0%      0.0%      0.0%    [watchdog/1]

      9      0.0%      0.0%      0.0%    [migration/2]

     10      0.0%      0.0%      0.0%    [ksoftirqd/2]

     11      0.0%      0.0%      0.0%    [watchdog/2]

……

各列分别表示某任务平均5sec1min5min占用CPU的百分比和任务名。某任务占用率越高,说明相应的任务占用CPU的资源越多。正常情况任务对CPU的占用率一般低于5%,这个命令可以查看明显高出正常占用率的任务。

6. 确认异常任务的调用栈

通过Probe视图下的follow job job-id命令确认异常任务的调用栈,请查询5次以上,发送给技术支持人员分析,以便于分析该任务具体在做什么处理导致CPU占用率持续升高。此处以显示信息中JID145为例。

[Sysname-probe] follow job 145 slot 1

Attaching to process 145 ([dGDB])

Iteration 1 of 5

------------------------------

Kernel stack:

[<ffffffff80355290>] schedule+0x570/0xde0

[<ffffffff80355da8>] schedule_timeout+0x98/0xe0

[<ffffffff802047e4>] ep_poll+0x4b4/0x5e0

[<ffffffffc05587a8>] DRV_Sal_EVENT_Read+0x1f8/0x290 [system]

[<ffffffffc07351e4>] drv_sysm_gdb_console+0xc4/0x2d0 [system]

[<ffffffffc1a04114>] thread_boot+0x84/0xa0 [system]

[<ffffffff8015c420>] kthread+0x130/0x140

[<ffffffff801183d0>] kernel_thread_helper+0x10/0x20

 

Iteration 2 of 5

------------------------------

Kernel stack:

[<ffffffff80355290>] schedule+0x570/0xde0

[<ffffffff80355da8>] schedule_timeout+0x98/0xe0

[<ffffffff802047e4>] ep_poll+0x4b4/0x5e0

[<ffffffffc05587a8>] DRV_Sal_EVENT_Read+0x1f8/0x290 [system]

[<ffffffffc07351e4>] drv_sysm_gdb_console+0xc4/0x2d0 [system]

[<ffffffffc1a04114>] thread_boot+0x84/0xa0 [system]

[<ffffffff8015c420>] kthread+0x130/0x140

[<ffffffff801183d0>] kernel_thread_helper+0x10/0x20

 

Iteration 3 of 5

------------------------------

Kernel stack:

[<ffffffff80355290>] schedule+0x570/0xde0

[<ffffffff80355da8>] schedule_timeout+0x98/0xe0

[<ffffffff802047e4>] ep_poll+0x4b4/0x5e0

[<ffffffffc05587a8>] DRV_Sal_EVENT_Read+0x1f8/0x290 [system]

[<ffffffffc07351e4>] drv_sysm_gdb_console+0xc4/0x2d0 [system]

[<ffffffffc1a04114>] thread_boot+0x84/0xa0 [system]

[<ffffffff8015c420>] kthread+0x130/0x140

[<ffffffff801183d0>] kernel_thread_helper+0x10/0x20

 

Iteration 4 of 5

------------------------------

Kernel stack:

[<ffffffff80355290>] schedule+0x570/0xde0

[<ffffffff80355da8>] schedule_timeout+0x98/0xe0

[<ffffffff802047e4>] ep_poll+0x4b4/0x5e0

[<ffffffffc05587a8>] DRV_Sal_EVENT_Read+0x1f8/0x290 [system]

[<ffffffffc07351e4>] drv_sysm_gdb_console+0xc4/0x2d0 [system]

[<ffffffffc1a04114>] thread_boot+0x84/0xa0 [system]

[<ffffffff8015c420>] kthread+0x130/0x140

[<ffffffff801183d0>] kernel_thread_helper+0x10/0x20

 

Iteration 5 of 5

------------------------------

Kernel stack:

[<ffffffff80355290>] schedule+0x570/0xde0

[<ffffffff80355da8>] schedule_timeout+0x98/0xe0

[<ffffffff802047e4>] ep_poll+0x4b4/0x5e0

[<ffffffffc05587a8>] DRV_Sal_EVENT_Read+0x1f8/0x290 [system]

[<ffffffffc07351e4>] drv_sysm_gdb_console+0xc4/0x2d0 [system]

[<ffffffffc1a04114>] thread_boot+0x84/0xa0 [system]

[<ffffffff8015c420>] kthread+0x130/0x140

[<ffffffff801183d0>] kernel_thread_helper+0x10/0x20

记录此步骤获取的信息,并执行下面步骤。

7. 收集信息并寻求技术支持

请收集设备的运行信息、日志信息等。将所有信息反馈给H3C技术人员寻求技术支持。

5.2  单板内存占用率高问题处理方法

5.2.1  故障描述

使用display memory命令查看各个单板内存信息。如果单板内存占用率在持续的一段时间内(一般为30分钟)高于60%,那么可能存在内存异常问题,需要关注。

5.2.2  故障处理流程

图9     故障诊断流程图

 

5.2.3  故障处理步骤

1. 确定各内存块使用情况

通过Probe视图下的display system internal kernel memory pool命令查看各块内存使用情况,找出使用率不正常和不断增加的内存模块。

[Sysname-probe] display system internal kernel memory pool slot 1

Active    Number  Size     Align Slab Pg/Slab ASlabs  NSlabs Name

9126      9248    64       8     32   1       289     289    kmalloc-64

105       112     16328    0     2    8       54      56     kmalloc-16328

14        14      2097096  0     1    512     14      14     kmalloc-2097096

147       225     2048     8     15   8       12      15     kmalloc-2048

7108      7232    192      8     32   2       226     226    kmalloc-192

22        22      524232   0     1    128     22      22     kmalloc-524232

1288      1344    128      8     21   1       64      64     kmalloc-128

0         0       67108808 0     1    16384   0       0      kmalloc-67108808

630       651     4096     8     7    8       93      93     kmalloc-4096

68        70      131016   0     1    32      68      70     kmalloc-131016

1718      2048    8        8     64   1       31      32     kmalloc-8

1         1       16777160 0     1    4096    1       1      kmalloc-16777160

2         15      2048     0     15   8       1       1      sgpool-64

0         0       40       0     42   1       0       0      inotify_event_cache

325       330     16328    8     2    8       165     165    kmalloc_dma-16328

0         0       72       0     30   1       0       0      LFIB_IlmEntryCache

0         0       1080     0     28   8       0       0      LFIB_IlmEntryCache

0         0       1464     0     21   8       0       0      MFW_FsCache

1         20      136      0     20   1       1       1      L2VFIB_Ac_cache

0         0       240      0     25   2       0       0      CCF_JOBDESC

0         0       88       0     26   1       0       0      NS4_Aggre_TosSrcPre

0         0       128      0     21   1       0       0      IPFS_CacheHash_cachep

---- More ----

请重点查看Number列和Size列的统计结果。需要注意的是:

·     有些内存块使用率的增加是正常的,所以需要判断该块内存是否真正的异常。Number*Size是某个模块使用的内存大小。判断内存使用率是否正常可能需要持续观察内存增长速度和内存使用的多少综合分析判断。

·     有些内存的泄漏过程比较缓慢,所以需要比较长的时间(甚至是几周的时间)来对比观察。

2. 确定内存异常的具体模块

通过Probe视图下的view /sys/kernel/slab/<modulename>/alloc_calls命令确定内存泄漏的具体模块。此处以显示信息中kmalloc-2048模块为例

[Sysname-probe] view /sys/kernel/slab/kmalloc-2048/alloc_calls

     23 kque_create+0x58/0x260 age=4262117/4404939/4692659 pid=128-372 cpus=0,2-3

      2 sys_init_module+0x1bdc/0x1e50 age=4746250/4748179/4750108 pid=109-128 cpus=9,12

      4 __vmalloc_area_node+0x154/0x1b0 age=4652363/4677089/4747310 pid=128-166

cpus=0-1,12

     16 percpu_populate+0x3c/0x60 age=4322758/4322758/4322758 pid=128 cpus=0

     21 alloc_pipe_info+0x24/0x60 age=4/3888025/4320768 pid=1-564 cpus=0-4,9,11

     29 alloc_pci_dev+0x18/0x40 age=4758366/4758366/4758368 pid=1 cpus=15

      2 init_dev+0x1c0/0x870 age=510128/2630142/4750157 pid=1-542 cpus=0,2

      1 init_dev+0x4dc/0x870 age=510128 pid=542 cpus=2

      2 kobj_map_init+0x2c/0xd0 age=4758371/4758535/4758700 pid=0-1 cpus=0,15

      2 usb_alloc_dev+0x38/0x200 age=4750540/4750605/4750671 pid=1 cpus=15

      1 usb_create_hcd+0x34/0x120 age=4750540 pid=1 cpus=15

     16 exception_notifier_init+0x298/0x4f8 age=4750380/4750380/4750381 pid=1 cpus=15

      1 drv_port_module_varialbe_init+0x24/0x80 [system] age=4651959 pid=128 cpus=0

      1 DRV_VLAN_BasicFunc_Init+0x1ec/0x700 [system] age=4651871 pid=128 cpus=0

      1 drv_vlan_maccash_init+0x124/0x240 [system] age=4651869 pid=128 cpus=0

      1 drv_ipmc_spec_init+0x54/0x840 [system] age=4650355 pid=128 cpus=0

      1 drv_evb_add_broadcast_group+0x964/0xa50 [system] age=4264182 pid=312 cpus=1

      2 DRV_EVB_MAP_AddRec+0x160/0x2a0 [system] age=4264142/4264175/4264209 pid=288 cpus=9

      1 drv_evi_localmac_init+0x160/0x650 [system] age=4651896 pid=128 cpus=0

      1 DRV_QINQ_Init+0x278/0x890 [system] age=4650270 pid=128 cpus=0

      1 DRV_QINQ_Init+0x478/0x890 [system] age=4650270 pid=128 cpus=0

      1 Drv_Qacl_InitAddUdfTemplate+0x68/0xb30 [system] age=4651968 pid=128 cpus=0

      1 drv_qacl_sal_rsc_init+0xc8/0x210 [system] age=4651968 pid=128 cpus=0

---- More ----

上述显示信息中,第一列表示内存分配块数,后面是内存分配的调用关系。

请将完整的信息提供给H3C的技术支持工程师,以供后续故障定位和排除使用。

3. 收集信息并寻求技术支持

通过上述步骤只是确定了问题的范围,但还需继续收集信息以确定具体的故障。由于后续信息收集要求较高,不建议用户操作,请与H3C的技术支持工程师联系。

需要注意的是,请不要重启设备,否则会将故障信息破坏,给故障定位带来困难。

5.3  系统温度告警问题处理方法

5.3.1  故障描述

系统出现温度告警。

5.3.2  故障处理流程

图10     故障诊断流程图

 

5.3.3  故障处理步骤

1. 确认是设备自身温度过高,还是环境温度过高

·     若是环境温度过高,如超过45 °C,请增加空调或者采取其他散热措施降低环境温度。

·     若是设备温度过高,如超过68 °C,请执行步骤2

2. 确认设备风扇是否正常

使用display fan命令查看风扇框是否运行正常。若显示为“Fault”,请拔插风扇框

3. 检查防尘网是否洁净

如果风扇正常,则检查防尘网是否洁净。清理防尘网后,看温度是否能恢复正常。

4. 重设温度告警门限

根据告警信息确定温度异常的单板,使用temperature-limit命令重新设置高温告警单板的温度告警门限值。通过display environment命令可以查看温度告警门限是否设置成功。

·     如果设置不成功,则表明单板温度器件异常,请更换单板。

·     如果设置成功,但高温告警仍未消除,请执行步骤5

5. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系技术支持工程师。

5.4  故障诊断命令

命令

说明

display cpu-usage

显示CPU利用率的统计信息

display environment

显示设备的温度信息,包括当前温度和设定的温度门限

display fan

显示设备上所有风扇框的工作状态

display process cpu

Probe视图下命令,显示各任务占用CPU的情况

display memory

显示内存使用情况

display system internal kernel memory pool

Probe视图下命令,查看各块内存使用情况

follow job job-id

Probe视图下命令,显示异常任务的调用栈

temperature-limit

设置设备的温度告警门限

view /sys/kernel/slab/<modulename>/alloc_calls

Probe视图下命令,显示内存分配块数以及调用关系

 


6 端口类故障处理

6.1  10/100/1000Base-T千兆以太网电口不UP故障处理

6.1.1  故障描述

10/100/1000Base-T千兆以太网电口不UP故障

6.1.2  故障处理流程

图1-1 故障诊断流程图

 

6.1.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

通过display interface命令查看端口状态是否为UP,如果不是,请使用undo shutdown命令激活相应的端口。执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。需要注意的是,网络管理口目前不支持配置速率和双工模式。

2. 检查链路情况,网线是否正常

可通过更换网线来检查故障是否排除。

3. 检查本端端口是否正常

可通过更换本端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

4. 检查对端端口是否正常

可通过更换对端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

5. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系H3C的技术支持工程师。

6.2  千兆SFP光口不UP故障处理

6.2.1  故障描述

千兆SFP光口不UP故障。

6.2.2  故障处理流程

图1-2 故障诊断流程图

 

6.2.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

通过display interface命令查看端口状态是否为UP,如果不是,请使用undo shutdown命令激活相应的端口。执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

3. 检查光模块是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块)来检查故障是否排除。关于光模块的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;如果是接收有问题,那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常,需要排查本端端口。

<Sysname> display transceiver alarm interface GigabitEthernet 2/0/1

GigabitEthernet2/0/1 transceiver current alarm information:

  TX fault

  RX power high

表2     光模块告警信息说明

字段

描述

SFP/SFP+/CFP/QSFP+

RX loss of signal

接收信号丢失

RX power high

接收光功率高告警

RX power low

接收光功率低告警

TX fault

发送错误

TX bias high

偏置电流高告警

TX bias low

偏置电流低告警

TX power high

发送光功率高告警

TX power low

发送光功率低告警

Temp high

温度高告警

Temp low

温度低告警

Voltage high

电压高告警

Voltage low

电压低告警

Transceiver info I/O error

模块信息读写错误

Transceiver info checksum error

模块信息校验和错误

Transceiver type and port configuration mismatch

模块类型和端口配置不匹配

Transceiver type not supported by port hardware

端口不支持该模块类型

 

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(4)     可通过display transceiver interface命令检查两的光模块波长、距离等参数是否一致。

4. 检查光纤是否正常

可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

5. 检查本端端口是否正常

可通过更换本端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

6. 检查对端端口是否正常

可通过更换对端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

7. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系H3C的技术支持工程师。

6.3  万兆SFP+光口不UP故障处理

6.3.1  故障描述

万兆SFP+光口与其它设备互连不UP故障。

6.3.2  故障处理流程

图1-3 故障诊断流程图

 

6.3.3  故障处理步骤

1. 检查两端端口的速率,双工模式是否匹配

执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

2. 检查端口与光模块的速率,双工模式是否匹配

执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。

3. 检查两端端口是否正常

在本单板上的SFP+端口上用万兆SFP+电缆(适用于短距离连接)直接互连,查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否解决。

4. 检查光模块、电缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块电缆)来检查故障是否排除。关于光模块电缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两的光模块波长、距离等参数是否一致。

5. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

6. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师

6.4  40GEQSFP+/CFP光口不UP故障处理

6.4.1  故障描述

40GEQSFP+/CFP光口不UP故障。

6.4.2  故障处理流程

图1-4 故障诊断流程图

 

6.4.3  故障处理步骤

1. 检查两端端口是否正常

在本单板上的40GEQSFP+端口上用QSFP+电缆(适用于短距离连接)直接互连(没有CFP封装的电缆,可以使用CFP光模块和光纤来进行检查),查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否解决。

2. 检查光模块、电缆是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(推荐使用H3C光模块、电缆)来检查故障是否排除。关于光模块、电缆的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令检查两的光模块波长、距离等参数是否一致。

需要注意的是,如果使用QSFP+ to SFP+电缆连接时,由于QSFP+光模块发送光功率超过了SFP+模块要求接收的光功率上限,在使用时需要加光衰减器。

3. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

4. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师

6.5  100GECFP光口不UP故障处理

6.5.1  故障描述

100GECFP光口不UP故障。

6.5.2  故障处理流程

图1-5 故障诊断流程图

 

6.5.3  故障处理步骤

1. 检查光模块是否正常

可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块)来检查故障是否排除。关于光模块的具体描述请参见产品的安装手册。

(1)     可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配

(2)     可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。

(3)     可通过display transceiver interface命令,检查两端的光模块波长、距离等参数是否一致。

2. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

3. 检查本端端口是否正常

可通过更换本端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

4. 检查对端端口是否正常

可通过更换对端设备端口(如果条件允许,推荐使用其它槽位的同类型单板)来检查故障是否排除。

5. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备运行信息,并联系H3C的技术支持工程师。

6.6  端口由up变成down

6.6.1  故障描述

端口状态由up变成down

6.6.2  故障处理步骤

(1)     查看本设备及对端设备日志,确认有无端口shutdown操作。

(2)     查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口shutdown。请将故障信息发送技术支持人员分析。

(3)     参照端口无法UP故障处理,排查两端端口配置,网线、光模块、光纤等链路是否正常。

(4)     如仍无法确认,请搜集本端、对端设备信息,并将信息发送技术支持人员分析。

6.7  端口频繁up/down

6.7.1  故障描述

端口频繁up/down

6.7.2  故障处理步骤

(1)     对于光口,请确认光模块是否异常。查看光模块alarm信息来排查两端光模块以及中间光纤问题;对于支持诊断功能的光模块可以通过查看diagnosis信息确认光模块的光功率是否处于上下门限临界值。如发送光功率处于临界值,请更换光纤、光模块做交叉验证;如接收光功率处于临界值,请排查对端光模块及中间光纤链路。

(2)     对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。

(3)     如果故障依存在,请排查链路、对端设备、中间设备。

(4)     如仍无法确认,请将故障信息发送技术支持人员分析。

6.8  光模块故障

安装光模块的接口不能正常工作。

6.8.1  故障处理步骤

(1)     检查光模块Alarm告警信息。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。

<Sysname> display transceiver alarm interface GigabitEthernet1/2/0/15

GigabitEthernet1/2/0/15 transceiver current alarm information:

  TX fault

  RX power high

表3     光模块告警信息说明

字段

描述

SFP/SFP+/CFP/QSFP+

RX loss of signal

接收信号丢失

RX power high

接收光功率高告警

RX power low

接收光功率低告警

TX fault

发送错误

TX bias high

偏置电流高告警

TX bias low

偏置电流低告警

TX power high

发送光功率高告警

TX power low

发送光功率低告警

Temp high

温度高告警

Temp low

温度低告警

Voltage high

电压高告警

Voltage low

电压低告警

Transceiver info I/O error

模块信息读写错误

Transceiver info checksum error

模块信息校验和错误

Transceiver type and port configuration mismatch

模块类型和端口配置不匹配

Transceiver type not supported by port hardware

端口不支持该模块类型

 

(2)     检查光模块的接收、发送光功率是否正常(即在该光模块的光功率上下门限值之内)。

a.     通过命令display transceiver diagnosis interface查询光模块的实时接收、发送光功率。

<Sysname> display transceiver diagnosis interface

Ten-GigabitEthernet1/2/0/15 transceiver diagnostic information:

  Current diagnostic parameters:

    Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM)

    41         3.26        42.43     -40.00         -2.20

b.     通过display transceiver interface display transceiver diagnosis interface命令查询光模块的接收发送光功率的上下门限值。

有可能出现通过这两个命令行都可以查询、且查询出来的接收发送光功率上下门限值存在差异的情况,此时请以范围最小的上下门限值为准。

display transceiver diagnosis interface命令还可以查询实时的接收发送光功率、温度及其上下门限值、电压及其上下门限值、偏置电流及其上下门限值,命令行中Current diagnostic parameters下数据表示光模块当前的温度、电压、偏置电流、接收光功率、发送光功率,Alarm thresholdsHighLow数据表示温度、电压、偏置电流、接收光功率、发送光功率的上下门限值。

<Sysname> display transceiver interface Ten-GigabitEthernet 1/2/0/15

Ten-GigabitEthernet1/2/0/15 transceiver information:

  Transceiver Type              : 10G_BASE_SR_SFP

  Connector Type                : LC

  Wavelength(nm)                : 850

  Transfer Distance(km)         : 80(50um),20(62.5um),300(om3)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

  Ordering Name                 : SFP-XG-SX-MM850-A

<Sysname> display transceiver diagnosis interface Ten-GigabitEthernet 1/2/0/15

Ten-GigabitEthernet1/2/0/15 transceiver diagnostic information:

  Current diagnostic parameters:

    Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM

    43         3.35        46.33     -3.60          -2.38

  Alarm thresholds:

          Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM

    High  73         3.80        92.40     2.50           3.50

    Low   -3         2.81        1.00      -16.40         -11.20

(3)     对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。

(4)     如仍无法确认,请将故障信息发送技术支持人员分析。

6.9  光模块上报非H3C合法光模块故障处理

6.9.1  故障描述

通过display logbuffer命令查看系统日志时,发现存在上报H3C合法光模块的相关信息。显示如下:

<Sysname> display logbuffer

%Oct 17 21:37:24:812 2011 nl-denbo-ro01 OPTMOD/4/PHONY_MODULE:

  -Chassis=2-Slot=3;    GigabitEthernet2/3/0/5: This transceiver is NOT sold by H3C. H3C  therefore shall NOT guarantee the normal function of the device or  assume the maintenance responsibility thereof!

6.9.2  故障处理流程

图1-6 故障诊断流程图

 

6.9.3  故障处理步骤

1. 检查接口上插入的光模块厂家是否是H3C

通过命令display transceiver interface,查看Vendor Name是否是H3C。如果显示的是H3C,则可能是没有电子标签的H3C光模块,也可能不是H3C光模块,需要进一步确认。如果显示的是其它信息,则一定不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。

2. H3C的技术支持工程师确认是否是H3C光模块

通过Probe视图下debug port optical-eeprom命令收集光模块信息,向H3C技术支持工程师反馈光模块上的条码,确认光模块的渠道来源,明确是否是H3C光模块。如果确认不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。

3. 收集信息并寻求技术支持

如果上述检查完成后确认是H3C光模块,但故障仍无法排除,请收集设备运行信息,并联系H3C的技术支持工程师。

6.10  光模块不支持数字诊断故障处理

6.10.1  故障描述

通过display transceiver diagnosis interface命令查看光模块诊断信息时,系统提示光模块不支持数字诊断故障。显示如下:

<Sysname> display transceiver diagnosis interface gigabitethernet 1/0/1

Error: The transceiver does not support this function.

6.10.2  故障处理流程

图1-7 故障诊断流程图

 

6.10.3  故障处理步骤

1. 检查光模块是否是H3C光模块

(1)     通过display transceiver interface命令,查看Vendor Name是否是H3C

(2)     通过display transceiver manuinfo interface命令,确认光模块的渠道来源,向H3C返回光模块上的条码,收集光模块的信息,明确是否是H3C光模块。

2. 查看光模块是否支持数字诊断功能

通过display transceiver interface命令,查看Digital Diagnostic Monitoring对数字诊断功能的支持情况)是否是Yes,并向H3C人员咨询这款光模块是否支持数字诊断功能。

3. 收集信息并寻求技术支持

如果上述检查完成后确认是H3C光模块,并支持数字诊断功能,但故障仍无法排除,请收集设备运行信息,并联系H3C的技术支持工程师

6.11  端口存在CRC等错误统计故障处理

6.11.1  故障描述

通过display interface查看到端口存在CRC等错误统计故障。

<Sysname> display interface gigabitethernet3/0/1

GigabitEthernet3/0/1

Current state: DOWN

Line protocol state: DOWN

Description: GigabitEthernet3/0/1 Interface

Bandwidth: 1000000 kbps

Maximum transmission unit: 1500

Internet address: 2.1.1.2/24 (primary)

IP packet frame type: Ethernet II, hardware address: 0000-fc00-9276

IPv6 packet frame type: Ethernet II, hardware address: 0000-fc00-9276

Loopback is not set

Media type is twisted pair, port hardware type is 1000_BASE_T

Port priority: 0

1000Mbps-speed mode, full-duplex mode

Link speed type is autonegotiation, link duplex type is autonegotiation

Flow-control is not enabled

Maximum frame length: 9216

Last clearing of counters: Never

 Peak input rate: 8 bytes/sec, at 2015-03-19 09:20:48

 Peak output rate: 1 bytes/sec, at 2015-03-19 09:16:16

 Last 300 second input: 0 packets/sec 0 bytes/sec -%

 Last 300 second output: 0 packets/sec 0 bytes/sec -%

 Input (total):  2892 packets, 236676 bytes

          24 unicasts, 2 broadcasts, 2866 multicasts, 0 pauses

 Input (normal):  2892 packets, - bytes

          24 unicasts, 2 broadcasts, 2866 multicasts, 0 pauses

 Input:  0 input errors, 0 runts, 0 giants, 0 throttles

          3 CRC, 0 frame, - overruns, 0 aborts

          - ignored, - parity errors

 Output (total): 29 packets, 1856 bytes

          24 unicasts, 5 broadcasts, 0 multicasts, 0 pauses

 Output (normal): 29 packets, - bytes

          24 unicasts, 5 broadcasts, 0 multicasts, 0 pauses

 Output: 0 output errors, - underruns, - buffer failures

          0 aborts, 0 deferred, 0 collisions, 0 late collisions

          0 lost carrier, - no carrier

6.11.2  故障处理流程

图1-8 故障诊断流程图

 

6.11.3  故障处理步骤

1. 查看错误报文统计信息从而判断故障问题

通过display interface命令,查看端口出入方向的错包统计具体是哪项在增长,从而判断故障问题。为方便查看,也可以在用户视图下使用reset counter interface清空端口统计报文再观察。

(1)     端口入方向出现CRCframethrottles错包且计数持续增加

a.     使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。

b.     与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现,应为单板端口故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。

(2)     排查对端设备或者中间的传输设备。检查端口入方向是否出现Overrun错包且计数持续增加

Overrun计数是由于端口输入速率超出本端口处理能力,导致丢包。如果只有某一个端口收发包异常,或者某一个端口下挂设备的业务不通,同时这个单板上的其他端口都是正常的,可以多次查询display interface命令,如果input errors有增加,且等于overruns的增加,那么可以怀疑是单板内部拥塞或堵死,请将故障信息发送技术支持人员分析。

(3)     检查端口入方向是否出现giants错包且计数持续增加

检查两端的jumbo配置是否一致,如jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。如果仍然无法确认,请将故障信息发送技术支持人员分析。

2. 若是光口,请检查光模块的光功率是否正常

通过Probe视图下的display transceiver diagnosis interface命令查看光口所插光模块的数字诊断参数的当前测量值。若该光模块的光功率不正常,请更换同一型号的正常光模块。

[Sysname-probe] display transceiver diagnosis interface ten-gigabitethernet 1/0/1

Ten-GigabitEthernet1/0/1 transceiver diagnostic information:

  Current diagnostic parameters:

    [module]  Temp.(°C)

              1stTX   2ndTX   1stRX   2ndRX

              N/A     N/A     N/A     N/A

              Voltage(V)

              3.3VTX  12VTX   3.3VRX  12VRX

              3.29    N/A     3.40    N/A

    [channel] TX Bias(mA)    RX power(dBm)  TX power(dBm)

    1         6.09           0.91           -0.77

    2         5.95           1.09           -0.16

    3         6.05           1.58           -0.17

    4         5.85           1.58           -0.14

    5         6.07           2.23           -0.30

    6         5.72           2.85           -0.47

    7         6.11           3.01           -0.08

    8         5.50           1.17           -0.02

    9         5.89           -0.85          -0.17

    10        5.94           -40.00         0.29

    11        6.05           -40.00         0.18

    12        5.78           -40.00         -0.30

 

  Alarm thresholds:

    [module]  Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM)

    High      0          3.63        10.00     1.58           5.44

    Low       0          2.97        0.50      3.13           -11.61

3. 检查端口配置是否正常

通过display interface brief命令,查看端口配置是否有异常,其中两端的协商状态双工模式,端口速率是否一致。若端口速率不一致或存在半双工模式,请通过speed命令和duplex命令分别配置端口的速率和双工模式。

4. 检查端口及链路介质是否正常

更换到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,更换光模块测试

5. 检查端口是否收到大量流控帧

通过display interface命令,查看端口pauses帧计数,如果在不断增长,表明端口发出或者收到了大量的流控帧。检查下端口出入流量是否过大及对端设备的流量处理能力。

6. 收集信息并寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,请收集设备运行信息,并联系H3C的技术支持工程师

6.12  端口不接收或发送报文故障处理

6.12.1  故障描述

端口状态为UP,但不接收或发送报文。

6.12.2  故障处理流程

图1-9 故障诊断流程图

 

6.12.3  故障处理步骤

1. 查看端口报文统计结果

检查两端端口状态是否一直UP,并使用display interface 命令查看入/出方向的报文统计是否增长。为方便查看,也可以使用reset counter interface清空当前端口的报文统计结果再进行观察。同时,查看对端是否有发送/接收报文统计。检查端口错包统计是否持续增长。

2. 检查端口配置是否影响报文的接收

可通过以下步骤检查端口配置是否影响报文的发送/接收:

(1)     通过display interface brief命令,查看端口配置是否有异常。其中包括两端的端口双工模式端口速率端口类型以及VLAN等配置。若有异常,请更改端口属性的配置该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令再次查端口是否能恢复正常。

(2)     如果配置了STP功能,通过display stp brief命令,查看端口是否为 discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。

(3)     如果该端口加入了聚合通过display link-aggregation summary命令查看端口是否为Selected选中状态。当该端口StatusUnselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。

3. 检查端口及链路介质是否正常

更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(电口,使用PC替代对接。如果为光口,更换光模块测试

4. 收集信息并寻求技术支持

如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除请收集设备运行信息,并联系H3C的技术支持工程师

6.13  故障诊断命令

命令

说明

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display interface

显示以太网端口的相关信息

display interface brief

显示接口的概要信息

display link-aggregation summary

显示所有聚合组的摘要信息

display logbuffer

显示系统日志缓冲区的状态和缓冲区记录的日志信息

display stp brief

显示生成树状态和统计的简要信息

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值

display transceiver interface

显示接口上插入的可插拔接口模块的主要特征参数

 


7 QoS/ACL故障处理

7.1  ACL硬件资源不足处理方法

7.1.1  故障描述

ACL下发后系统提示硬件资源不足。例如:

Error: Slot=2 Fail to apply or refresh packet filter policy 3001 rule 25 on interface Vlan-interface6 due to lack of resources.

 

Warning: Classifier-behavior test in policy test applied on vlan 4079 failed in slot 2.

Reason: Not enough hardware resource.

上述两条显示信息均表示硬件资源不足。

7.1.2  故障处理流程

图11     故障诊断流程图

 

7.1.3  故障处理步骤

ACL提示资源不足可能是硬件ACL/Meter/Counter本身资源不足导致。

1. 查看当前设备的ACL资源

使用display qos-acl resource命令查看当前设备使用的ACL资源信息,注意,如果下发的ACL是全局ACL,例如基于VLANACL,则需要查看所有相关的单板的ACL表项信息。

[Sysname] display qos-acl resource

Interfaces: XGE2/3/0/1 to XGE2/3/0/4

---------------------------------------------------------------------

 Type             Total      Reserved   Configured Remaining  Usage

---------------------------------------------------------------------

 VFP ACL          2048       1024       0          1024       50%

 IFP ACL          8192       3072       0          5120       37%

 IFP Meter        4096       1536       0          2560       37%

 IFP Counter      4096       1536       0          2560       37%

 EFP ACL          1024       0          0          1024       0%

 EFP Meter        512        0          0          512        0%

 EFP Counter      512        0          0          512        0%

 

Interfaces: XGE2/3/0/5 to XGE2/3/0/8

---------------------------------------------------------------------

 Type             Total      Reserved   Configured Remaining  Usage

---------------------------------------------------------------------

 VFP ACL          2048       1024       0          1024       50%

 IFP ACL          8192       3072       0          5120       37%

 IFP Meter        4096       1536       0          2560       37%

 IFP Counter      4096       1536       0          2560       37%

 EFP ACL          1024       0          0          1024       0%

 EFP Meter        512        0          0          512        0%

 EFP Counter      512        0          0          512        0%

其中IFP为入方向ACL的资源情况,EFP为出方向的ACL使用情况。在下发ACL发现失败时,建议先测算下要下发的ACL的数目与芯片剩余的资源数量进行对比。当要下发的ACL条数大于剩余的数量时,系统会提示当前资源不足。

2. 进一步确认ACL下发失败的原因

当查看系统资源明显充足,但是依旧提示下发失败时,一般是当前下发的ACLASIC芯片的特定算法冲突,导致下发到ASIC的顺序和自动分配有异常导致。

3. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

7.2  ACL规则不支持处理方法

7.2.1  故障描述

ACL下发后系统提示ACL规则不支持。例如:

Error: Slot=2 Fail to apply or refresh packet filter policy 3180 rule 5 on interface Vlan-interface20.Not supported.

7.2.2  故障处理流程

图12     故障诊断流程图

 

7.2.3  故障处理步骤

1. 删除提示不支持的ACL规则

当下发ACL失败设备提示“Not supported”时,说明S12500-S上不支持下发当前定义的ACL规则。可以判断下当前的规则是否可以删除,如果可以删除,尝试删除并重新下发ACL;如果不能删除,请联系H3C的技术支持工程师。

2. 收集信息并寻求技术支持

如果上述检查完成后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

7.3  下发ACL成功,但是ACL不生效的故障处理方法

7.3.1  故障描述

ACL下发成功但是不生效

7.3.2  故障处理流程

图13     故障诊断流程图

 

7.3.3  故障处理步骤

1. 检查设备上已下发的ACL规则是否存在重叠匹配

ACL下发成功但不生效,基本是由于ACL配置中出现重叠匹配规则导致的。通过display packet-filterdisplay qos policy user-defined、以及display traffic classifier user-defined查看已下发的ACL,再通过display acl命令查看已下发ACL中的规则是否存在重叠匹配现象。

例如ACL3100ACL3009

ACL number 3100

rule 0 permit ip source 2.2.2.2 0.0.255.255

ACL number 3009

rule 0 permit ip source 2.2.2.2 0.0.0.255

当流量的源IP地址为2.2.2.1时,就会同时符合ACL number 3100 ACL number 3009的匹配要求,即发生重叠匹配现象。

2. 查看重叠匹配的ACL所对应的动作是否出现冲突

当查找到有重叠匹配规则的ACL时,则查找ACL对应的动作,如果出现冲突动作则会出现其中一个ACL不生效:

常见的冲突动作包括:

·     redirect动作和filter permit动作冲突时,执行redirect动作。

·     redirect动作filter deny动作冲突时,执行deny动作

·     permit动作与deny动作冲突时,执行先配置的动作。

3. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

7.4  故障诊断命令

命令

说明

display acl

显示ACL的配置和运行情况

display diagnostic-information

显示系统当前多个功能模块运行的统计信息

display packet-filter

显示ACL在报文过滤中的应用情况

display qos-acl resource

显示QoSACL资源的使用情况

display qos policy user-defined

显示QoS策略的配置信息

display traffic classifier user-defined

显示流分类的配置信息

 


8 IRF故障处理

8.1  设备无法加入IRF故障处理方法

8.1.1  故障描述

IRF配置完成后,一个或多个成员始终无法加入IRF

8.1.2  故障处理流程

图14     故障诊断流程图

 

8.1.3  故障处理步骤

1. 检查IRF成员设备数量是否超过最大限制

S12500-S系列交换机可用于组建IRF的最大成员设备数量与软件版本有关,请查阅与软件版本对应的配置指导获取该信息。如果您正在向已建立的IRF中增加设备,请使用display irf命令查看当前IRF中的成员设备数量。

2. 检查成员设备是否是同一系列

S12500-S系列交换机中,只有相同系列的机型之间可以建立IRF

3. 检查成员设备是否工作在IRF模式

当成员设备工作在IRF模式时,端口的编号将由三维变为四维,您可以通过执行display interface brief命令查看物理端口的编号,如果编号为四维(例如XGE1/4/0/1),则表示设备当前工作在IRF模式;否则表示设备工作在独立运行模式,您需要执行chassis convert mode irf命令并重启设备,使设备工作在IRF模式。

4. 检查成员编号是否在IRF中唯一

您可以使用display irf命令可以查看IRF中各成员设备的成员编号。IRF中的各成员设备必须使用不同的编号,编号相同的设备之间不能建立IRF,您可以通过irf member renumber命令修改冲突设备的成员编号。

5. 检查IRF物理端口的状态

您可以通过display interface命令查看IRF物理端口的状态。

(1)     如果物理端口状态为“DOWN ( Administratively )”,则表示该端口已经通过shutdown命令关闭,您需要执行undo shutdown命令将其开启。

(2)     如果物理端口的状态为“DOWN”,您需要检查堆叠物理端口的光模块/光纤或者电缆是否工作正常。S12500-S系列交换机仅支持使用SFP+/QSFP+/CFP、光模块(搭配光纤)或者SFP+/QSFP+/CFP电缆来建立成员设备间的物理连接。

说明

能够用于IRF连接的模块/电缆可能随着新的软件版本或单板型号发生变化,请查阅配套的配置指导手册获取该信息。

 

6. 检查IRF端口的状态

IRF端口是一种专用于IRF连接的逻辑接口,需要与物理端口绑定后才能生效。您可以通过查看display irf topology命令输出信息的“Link”字段来确认IRF端口的状态。如果与IRF端口绑定的物理端口状态为UPIRF端口状态为DOWN,则您需要检查该成员设备的主控板是否发生故障,从而导致IRF packet收发异常,引起IRF端口的故障。

7. 检查IRF端口与物理端口的绑定关系

在连接两台相邻的成员设备时,一台设备上与IRF-Port1绑定的IRF物理端口只能和邻居成员设备IRF-Port2口上绑定的IRF物理端口相连。

(1)     在每台成员设备上通过display irf configuration命令查看IRF端口与IRF物理端口的绑定关系。

(2)     检查IRF物理端口的连接状况,是否满足相邻设备的连接要求。

(3)     如果绑定关系和物理连接不一致,请重新配置绑定关系或重新进行物理连接。

8. 检查各成员设备使用的软件版本

使用display version命令查看每台设备当前运行的软件版本,只有使用相同软件版本的设备才能组成IRF。如果存在成员设备之间软件版本不一致的情况,建议通过软件升级使所有成员设备都使用较高的软件版本。

如果成员设备使用双主控,请同时升级两块主控板,保证所有成员设备的所有主控板上运行相同的软件版本。

说明

IRF系统启动文件自动加载功能(缺省为开启状态)可以自动将成员设备的软件版本与IRF中主设备进行同步,但是在成员设备与主设备的软件版本差异过大时,自动升级可能不能成功执行。

 

9. 检查各成员设备的桥MAC地址

请通过display interface vlan-interface 1命令查看当前设备的桥MAC地址。

[Sysname]display interface Vlan-interface 1

Vlan-interface1 current state: UP

Line protocol current state: UP

Description: Vlan-interface1 Interface

The Maximum Transmit Unit is 1500

Internet protocol processing : disabled

IP Packet Frame Type: PKTFMT_ETHNT_2,  Hardware Address: 0023-8912-3d07

IPv6 Packet Frame Type: PKTFMT_ETHNT_2,  Hardware Address: 0023-8912-3d07

具有相同桥MAC的成员设备之间不能组成IRF

10. 检查各成员设备的系统工作模式

请通过display system-working-mode命令查看当前设备的系统工作模式。

[Sysname] display system-working-mode

The current system working mode is advance.

The next system working mode is advance.

所有成员设备的系统工作模式必须相同。

11. 检查各成员设备的最大等价路由数

请通过display max-ecmp-num命令查看当前设备的最大等价路由数。

[Sysname] display max-ecmp-num

  Max-ECMP-Num in use: 17

  Max-ECMP-Num at the next reboot: 17

所有成员设备的最大等价路由数必须相同。

12. 检查各成员设备上PEX设备的工作模式

请通过display pex working-mode命令查看当前设备上PEX设备的工作模式。

[Sysname] display pex working-mode all

PEX device mode Configuration:

  Switch mode at startup:

    None

  PEX mode at startup:

    Chassis 100 slots 0

    Chassis 101 slots 0

所有成员设备上PEX设备的工作模式必须相同。

13. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师

8.2  IRF分裂故障处理方法

8.2.1  故障描述

设备运行过程中,突然出现IRF分裂。

8.2.2  故障处理流程

图15     故障诊断流程图

 

8.2.3  故障处理步骤

1. 检查IRF物理端口工作状态

请使用display trapbuffer命令或者通过查看日志主机存储的信息,查找在IRF分裂的时间点附近是否存在IRF物理端口down的日志。如果存在,请通过display interface命令查看IRF物理端口的统计信息中是否发生过CRC等错误统计。如果IRF物理端口采用光模块和光纤的方式进行连接,需要通过display transceiver diagnosis命令查看SFP+/QSFP+口的接收/发送光功率,并与光模块的规格进行比较,查看是否接近或超过光模块规定的阈值。

2. 检查IRF物理端口所在单板是否发生过重启

请使用display version命令查看IRF物理端口所在单板的运行时间,确认IRF分裂是否由于单板的重启引起。

如果核实是由于IRF物理端口所在单板重启造成IRF分裂,请根据“4.4  业务板运行过程中发生故障导致无法启动”中介绍的方法分析单板重启的原因并排除故障。

3. 检查各成员设备是否发生过重启

请使用display version命令查看成员设备的主控板运行时间,确认是否发生了成员设备整机重启事件,从而导致IRF分裂。

如果核实是由于成员设备整机重启造成IRF分裂,请根据“4.1  配置系统故障”中介绍的方法分析整机重启的原因并排除故障。

4. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

8.3  IRF分裂后BFD MAD无法生效故障处理方法

8.3.1  故障描述

IRF分裂后,BFD MAD功能未生效,导致网络中存在配置相同的两台设备。

8.3.2  故障处理流程

图16     故障诊断流程图

 

8.3.3  故障处理步骤

1. 检查BFD MAD组网是否正确

使用BFD MAD功能时,要求所有成员设备之间必须有一条BFD MAD检测链路,可以通过中间设备,也可以在成员设备之间使用全连接的组网。

2. 检查BFD MAD所使用的物理端口状态

您可以通过display interface命令查看BFD MAD所使用的物理端口的状态。

(1)     如果物理端口状态为“DOWN ( Administratively )”,则表示该端口已经通过shutdown命令关闭,您需要执行undo shutdown命令将其开启。

(2)     如果物理端口的状态为“DOWN”,您需要检查物理端口的连接是否正常。

3. 检查BFD MAD所使用的VLAN和端口配置

用于BFD MAD检测的物理端口上不能开启生成树协议,也不能开启其它任何功能。一个IRF内所有BFD MAD链路上的物理端口必须属于同一个VLAN,该VLANBFD MAD专用,如果使用中间设备的话,中间设备与成员设备相连的端口也必须加入该VLAN。建议用于BFD MAD检测的VLAN中只包含BFD MAD链路上的端口,不要将其它端口加入该VLAN

4. 检查BFD MAD所使用的VLAN接口

使用display mad verbose命令查看用于BFD MAD检测的VLAN接口,该接口不能为VLAN1接口,并且该接口仅用于BFD MAD,即在该接口上不能配置其它任何二层或三层协议,也不能与VPN实例进行绑定。

5. 检查BFD MAD IP地址的配置

使用display mad verbose命令查看用于BFD MAD检测的IP地址,各成员设备的MAD IP地址必须属于同一网段,同时不能为设备上已经存在的IP地址。通过display inteface查看用于BFD MADVLAN接口配置,该接口上不能配置其它IP地址(包括使用ip address命令配置的普通IP地址、VRRP虚拟IP地址等)。

6. 当组网中存在多个IRF时,检查各IRFBFD MAD VLAN

如果网络中存在多个IRF,在配置BFD MAD时,请为每个IRF配置不同的VLAN用于BFD MAD检测。

7. 检查成员设备的日志信息

请使用display trapbuffer命令或者通过查看日志主机存储的信息,查找在IRF分裂的时间点附近是否存在BFD MAD所使用物理端口down的日志。通过该日志判断端口故障的原因,并排除该故障。

8. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师

8.4  IRF分裂后LACP MAD无法生效故障处理方法

8.4.1  故障描述

IRF分裂后,LACP MAD功能未生效,导致网络中存在配置相同的两台设备。

8.4.2  故障处理流程

图17     故障诊断流程图

 

8.4.3  故障处理步骤

1. 检查LACP MAD组网是否正确

使用LACP MAD功能时,要求必须使用一台中间设备,所有成员设备与中间设备之间必须均存在物理连接。

2. 检查聚合组和物理端口的状态

您可以通过display interface命令查看LACP MAD所使用的聚合组和物理端口的状态。

(1)     如果物理端口状态为“DOWN ( Administratively )”,则表示该聚合组或物理端口已经通过shutdown命令关闭,您需要执行undo shutdown命令将其开启。

(2)     如果聚合端口的状态为“DOWN”,则表示该聚合组内所有物理端口连接均有问题;如果物理端口的状态为“DOWN”,则表示该端口的物理连接存在问题。请检查物理连接并修复故障。

3. 检查中间设备是否支持扩展LACP选项

由于LACP MAD使用扩展LACP选项实现,因此中间设备必须能够识别并透传带有扩展LACP选项的LACP报文。

4. 检查聚合组的聚合方式

LACP MAD功能通过LACP报文实现,因此仅有动态聚合组能够用于LACP MAD检测。您可以在聚合接口视图下使用link-aggregation mode dynamic命令将聚合组的工作模式配置为动态聚合。

5. 当组网中存在多个IRF时,检查各IRF的域编号

扩展LACP选项中会包含IRF的域编号,当组网中存在多个IRF时,如果各IRF的域编号相同,则LACP MAD检测功能将不能正常检测到IRF分裂。请确保组网中的每个IRF使用不同的域编号,您可以通过irf domain命令配置IRF的域编号。

6. 检查成员设备的日志信息

请使用display trapbuffer命令或者通过查看日志主机存储的信息,查找在IRF分裂的时间点附近是否存在LACP MAD所使用物理端口或聚合组down的日志。通过该日志判断端口故障的原因,并排除该故障。

7. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

8.5  PEX设备无法加入IRF3故障处理方法

8.5.1  故障描述

IRF3配置完成后,一个或多个PEX设备始终无法加入IRF3

8.5.2  故障处理流程

图18     故障诊断流程图

 

8.5.3  故障处理步骤

1. 检查盒式设备是否支持做PEX

支持做PEX的盒式设备包括S5120HI系列交换机、S5130EI系列交换机、S5130HI系列交换机和S6300系列交换机。S5120HI系列中仅5120-28SC-HI5120-52SC-HI交换机支持,S5130EIS5130HIS6300全系列交换机都支持做PEX

2. IRFPEX数量是否达到系统支持的最大值

S5120HIS5130EI系列交换机最多可以支持30台;S6300S5130HI系列交换机最多可以支持60台;S12500-S的小型模式,都只支持30PEX

所有PEX总和不超过60台。

3. 父设备侧是否设置为PEX模式

缺省情况下,当设备切换为IRF模式后,还不能作为IRF3的父设备,还需要根据设备上安装的单板设置IRF3的支持能力。设备可以工作在以下两种PEX模式:1、增强模式;此模式下,作为父设备的IRF中最多可以包含4台成员设备,最多可连接的PEX设备总数为60台,且PEX设备中包含的S5120-HIS5130EI系列交换机不超过30台。2、小型模式;此模式下,作为父设备的IRF中最多可以包含2台成员设备,最多可连接的PEX设备总数为30台。

4. PEX bootrom版本是否支持PEX模式

PEX设备在从普通模式升级到PEX模式之前,必须要升级Bootrom,较早版本的Bootrom不支持PEX

5. PEX设备工作模式是否切换PEX模式

对于PEX设备,需要将工作模式切换为PEX模式,目前可以通过Boot菜单方式实现模式的切换。

重启PEX设备,并在出现以下界面时按下Ctrl+B,进入Boot菜单。如果您设置了进入Boot菜单的密码,此处请输入正确的密码。

Starting......

Press Ctrl+D to access BASIC BOOT MENU

Press Ctrl+T to start memory test

Press Ctrl+E to start heavy memory test

 

********************************************************************************

*                                                                              *

*                    H3C S5130-52S-EI BOOTROM, Version 130                     *

*                                                                              *

********************************************************************************

Copyright (c) 2004-2015 Hangzhou H3C Technologies Co., Ltd.

 

Creation Date       : Jun 26 2015, 09:31:44

CPU Clock Speed     : 1000MHz

Memory Size         : 1024MB

Flash Size          : 512MB

CPLD Version        : 002

PCB Version         : Ver.B

Mac Address         : 586ab10acdef

 

 

PEX mode is enabled.

Press Ctrl+B to access EXTENDED BOOT MENU...0BootRom password: Not required. Please press Enter to continue.

 

Password recovery capability is enabled.

 

在进入Boot菜单后,请按下Ctrl+Y,改变设备的工作模式为PEX模式。缺省状态下,S5130EI交换机的PEX模式为关闭状态。

   BOOT MENU

 

1. Download application file to flash

2. Select application file to boot

3. Display all files in flash

4. Delete file from flash

5. Restore to factory default configuration

6. Enter BootRom upgrade menu

7. Skip current system configuration

8. Reserved

9. Set switch startup mode

0. Reboot

Ctrl+F: Format File System

Ctrl+P: Skip Super Password

Ctrl+Y: Change Work Mode

Ctrl+R: Download application to SDRAM and Run

Ctrl+Z: Access EXTEND-ASSISTANT MENU

 

Enter your choice(0-9):    0

 

设备提示是否确认切换工作模式为PEX模式,输入Y确认。

PE mode is disabled. Are you sure you want to enable PE mode? [Y/N]Y

Done!

回到Boot菜单后,键入0重启PEX设备。

PEX设备在启动时会打印启动信息,请耐心等待。在启动完成后,用户无法通过串口对该PEX设备进行配置。

PEX启动过程中,父设备上也会输出PEX端口的状态变化,以及PEX注册和启动的日志信息。

6. 是否指定PEX的加载软件包

请先用display boot-loader pex命令查看当前的启动文件是否支持PEX功能。如果当前启动文件不支持,请将PEX设备接入时使用的启动文件包放置到父设备的Flash中,您可以通过FTPTFTP方式完成文件传输。

指定PEX设备为S5130EI时使用的启动文件包,在本例中文件名为S5130EIPEX_S12500-S.ipe。在执行命令后,父设备将验证启动文件包的合法性并进行解压缩。

<Sysname> boot-loader pex PEX-S5130EI file ipe flash:/S5130EIPEX_S12500-S.ipe

 Verifying the IPE file and the images......Done.

 Decompressing file S5130EIPEX_S12500-S-CMW710-BOOT-E1030L16.bin to flash:/S5130EIPEX_ S12500-S-CMW710-BOOT-E1030L16.bin................................Done.

 Decompressing file S5130EIPEX_S12500-S-CMW710-SYSTEM-E1030L16.bin to flash:/S5130EIPEX_S12500-S-CMW710-SYSTEM-E1030L16.bin.................Done.

 

注:还可以通过分别加载boot包和system包的方式来设置启动文件包,作用是一样的。

<Sysname> boot-loader pex PEX-S5130EI file boot flash:/S5130EIPEX_S12500-S-CMW710-BOOT-E1030L16.bin system flash:/S5130EIPEX_S12500-S-CMW710-SYSTEM-E1030L16.bin

执行此命令会将PEX的启动文件向所有的主控板copy一份,以备原主控板失效时,新的PEX设备可以正常加载。

可以看到设置已成功。

<Sysname> display boot-loader pex

Startup software image files for PEXs to load from the parent device:

PEX model: PEX-S5130EI

  flash:/S5130EIPEX_S12500-S-CMW710-BOOT-E1030L16.bin

  flash:/S5130EIPEX_S12500-S-CMW710-SYSTEM-E1030L16.bin

PEX model: PEX-S6300

 None

7. 检查PEX物理端口状态

您可以通过display interface命令查看PEX物理端口的状态。

<Sysname> display interface Pex

Pex101/0/0/29

Current state: UP

Line protocol state: UP

IP packet frame type: Ethernet II, hardware address: 5cdd-70b2-8758

Description: Pex101/0/0/29 Interface

Bandwidth: 10000000 kbps

Loopback is not set

Media type is optical fiber, port hardware type is 10G_BASE_SR_SFP

10Gbps-speed mode, full-duplex mode

Link speed type is autonegotiation, link duplex type is autonegotiation

Maximum frame length: 9216

MDI type: Automdix

Last clearing of counters: Never

 Peak input rate: 5635 bytes/sec, at 2015-03-06 03:53:32

 Peak output rate: 4555 bytes/sec, at 2015-03-06 03:53:58

 Last 300 second input: 8 packets/sec 1433 bytes/sec 0%

 Last 300 second output: 7 packets/sec 1624 bytes/sec 0%

 Input (total):  18619 packets, 3705456 bytes

          11023 unicasts, 0 broadcasts, 7596 multicasts, 0 pauses

 Input (normal):  18619 packets, - bytes

          11023 unicasts, 0 broadcasts, 7596 multicasts, 0 pauses

 Input:  0 input errors, 0 runts, 0 giants, 0 throttles

          0 CRC, 0 frame, - overruns, 0 aborts

          - ignored, - parity errors

 Output (total): 17300 packets, 3250852 bytes

          12468 unicasts, 0 broadcasts, 4832 multicasts, 0 pauses

 Output (normal): 17300 packets, - bytes

          12468 unicasts, 0 broadcasts, 4832 multicasts, 0 pauses

 Output: 0 output errors, - underruns, - buffer failures

          0 aborts, 0 deferred, 0 collisions, 0 late collisions

          0 lost carrier, - no carrier

 

Pex101/0/0/30

Current state: DOWN

Line protocol state: DOWN

IP packet frame type: Ethernet II, hardware address: 5cdd-70b2-8759

Description: Pex101/0/0/30 Interface

Bandwidth: 10000000 kbps

Loopback is not set

Media type is not sure, port hardware type is no connector

Unknown-speed mode, unknown-duplex mode

Link speed type is autonegotiation, link duplex type is autonegotiation

Maximum frame length: 9216

MDI type: Automdix

Last clearing of counters: Never

 Peak input rate: 0 bytes/sec, at 2015-03-06 03:49:23

 Peak output rate: 0 bytes/sec, at 2015-03-06 03:49:23

 Last 300 second input: 0 packets/sec 0 bytes/sec -%

 Last 300 second output: 0 packets/sec 0 bytes/sec -%

 Input (total):  0 packets, 0 bytes

          0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

 Input (normal):  0 packets, - bytes

          0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

 Input:  0 input errors, 0 runts, 0 giants, 0 throttles

          0 CRC, 0 frame, - overruns, 0 aborts

          - ignored, - parity errors

 Output (total): 0 packets, 0 bytes

          0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

 Output (normal): 0 packets, - bytes

          0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

 Output: 0 output errors, - underruns, - buffer failures

          0 aborts, 0 deferred, 0 collisions, 0 late collisions

          0 lost carrier, - no carrier

(1)     如果物理端口状态为“DOWN ( Administratively )”,则表示该端口已经通过shutdown命令关闭,您需要执行undo shutdown命令将其开启。

(2)     如果物理端口的状态为“DOWN”,您需要检查堆叠物理端口的光模块/光纤或者电缆是否工作正常。

说明

能够用于IRF连接的模块/电缆可能随着新的软件版本或单板型号发生变化,请查阅最新的配置指导手册获取该信息。

 

8. 检查父设备和PEX上的端口是否支持配置为PEX物理端口及PEX上行口

·     S12500-S作为父设备,支持PEX单板列表的所有单板的10GE40GE端口都可以配置为PEX端口;

·     S5120HIS5130EI系列交换机作为PEX设备时,可以选择10GE端口作为PEX端口;

·     S5120-52sc的最后两个10GE端口端口号为5152,在PEX模式下只能作为PEX上行口;

·     S5120-28sc最后两个10GE端口端口号为2728PEX模式下只能作为PEX上行口;

·     S5130-28S-EIS5130-28F-EIS5130-28S-PWR-EIS5130-28S-HPWR-EI最后10GE端口端口号为25262728,在PEX模式下只能作为PEX上行口;

·     S5130-52S-EIS5130-52S-PWR-EI最后10GE端口端口号为49505152,在PEX模式下只能作为PEX上行口;

·     S5130-28TP-EIS5130-28TP-PWR-EI10GE端口端口号为2526PEX模式下只能作为PEX上行口;最后210GE端口为电口,端口号为2728不能作为PEX端口;

·     S5130-52TP-EIS5130-52TP-PWR-EI10GE端口端口号为4950PEX模式下只能作为PEX上行口;最后210GE端口为电口,端口号为5152不能作为PEX端口;

·     S5130-54C-HIS5130-54C-PWR-HI的四10GE端口端口号为49505152,在PEX模式下只能作为PEX上行口;

·     S5130-34C-HI的四10GE端口端口号为29303132,在PEX模式下只能作为PEX上行口;

·     S5130-30F-HIS5130-30C-PWR-HIS5130-30C-HI的四10GE端口端口号为25262728,在PEX模式下只能作为PEX上行口;

·     S6300-52QF作为PEX设备时,需要使用最后410GE端口作为PEX上行口,40GE端口支持作为PEX上行口,10GEQSFP+不能同时做PEX上行口;最后四个10GE端口的端口号为4546474840GE端口的端口号为4950515210GE40GE端口不能同时作为PEX上行口;

·     S6300-42QF作为PEX设备时,需要使用最后410GE端口或240GE端口作为PEX上行口,最后两个40GE端口的端口号为4142PEX模式下只能作为PEX上行口;10GE40GE端口不能同时作为PEX上行口;

·     S6300-48S作为PE设备时,可以选择使用最后410GE口作为PEX上行口,最后四个10GE端口的端口号为45464748

·     S6300-42QT作为PEX设备时,需要使用最后240GE端口作为PEX端口,最后两个40GE端口的端口号为4142PEX模式下只能作为PEX上行口;

·     当前版本所有PEX40GE端口作为PEX上行口时,只支持使用光模块,不支持使用电缆;

·     PEX40GE端口作为PEX上行口时不支持端口拆分

9. PEX设备是否采用PEX堆叠接入方式加入IRF3

·     只有5130-EI系列交换机做PEX设备时,支持PEX堆叠接入方式;

·     只有PEX模式为小型模式时,支持PEX堆叠接入方式;

·     直连父设备的PEX设备只能有一个PEX邻居设备,非直连父设备的PEX设备有且最多只能有两个PEX邻居设备;

·     父设备上一个PEX端口连接一台直连PEX设备,即绑定到同一PEX端口的PEX物理端口只能连接到同一个直连PEX设备;同理,直连PEX设备上连接父设备的物理端口只能连接到父设备上同一PEX端口下绑定的PEX物理端口,用户可根据需要,连接一个或多个PEX物理端口;

·     属于不同堆叠的PEX设备之间不能有物理连接。

10. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

8.6  PEX设备从IRF3系统中分裂故障处理方法

8.6.1  故障描述

设备运行过程中,突然出现PEX设备分裂出IRF3系统。

8.6.2  故障处理流程      

图19     故障诊断流程图

 

8.6.3  故障处理步骤

1. 检查PEX物理端口工作状态

请通过查看日志主机存储的信息,查找在PEX分裂的时间点附近是否存在PEX物理端口down的日志。如果存在,请通过display interface命令查看PEX物理端口的统计信息中是否发生过CRC等错误统计。如果PEX物理端口采用光模块和光纤的方式进行连接,需要通过display transceiver diagnosis命令查看接收/发送光功率是否接近或超过光模块规定的阈值。

2. 检查IRF物理端口所在单板是否发生过重启

请使用display version命令查看IRF物理端口所在单板的运行时间,确认PEX分裂是否由于单板的重启引起。

如果核实是由于PEX物理端口所在单板重启造成PEX分裂,请根据“4.4  业务板运行过程中发生故障导致无法启动”中介绍的方法分析单板重启的原因并排除故障。

3. 收集信息并寻求技术支持

如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

8.7  故障诊断命令

命令

说明

display diagnostic-information

显示或保存系统当前多个功能模块运行的统计信息

display irf

显示IRF中所有成员设备的相关信息

display interface brief

显示接口的概要信息

display interface

显示接口的相关信息

display irf topology

显示IRF的拓扑信息

display irf configuration

显示所有成员设备的IRF配置信息

display mad verbose

显示MAD详细配置信息

display max-ecmp-num

显示系统支持最大等价路由的条数

display pex working-mode

显示PEX设备的工作模式

display system-working-mode

显示设备当前的系统工作模式

display trapbuffer

显示系统告警缓冲区的状态和缓冲区记录的告警信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值

display version

显示系统版本信息

 


9 MDC故障处理

9.1  创建MDC提示无可用license故障处理方法

9.1.1  故障描述

创建MDC,提示如下错误信息。

[Sysname]mdc mdcA

The feature MDC has no available license.

9.1.2  故障处理流程

图20     故障诊断流程图

 

9.1.3  故障处理步骤

MDC功能的使用,受限于license,需要正确安装license后,才能够使用此功能。

1. 查看当前设备的license资源

使用display license命令查看当前设备使用的license资源信息。

[Sysname]display license

Chassis 3:

No license information to display.

[Sysname]display license feature

Chassis 3:

Total: 4  Usage: 0

Feature         Licensed        State

EVB             N               -

evi             N               -

mdc             N               -

FCoE            N               -

如果没有安装license或者使用的license到期,需要再次申请license并且安装。

2. 安装License

License的申请以及安装,请按照license的操作方法进行。

3. 收集信息并寻求技术支持

若完成上述步骤后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

9.2  Location业务板提示失败故障处理方法

9.2.1  故障描述

MDC视图下location业务板,系统提示硬件资源不足或location失败的提示信息。

[Sysname-mdc-1-Admin]location chassis 2 slot 1

Authorization failed due to lack of resources.

9.2.2  故障处理流程

图21     故障诊断流程图

 

9.2.3  故障处理步骤

Location业务板提示失败一般是由于硬件资源不足或者产品不支持将一块业务板同时划分给不同的MDC导致的,资源不足可能是硬件本身资源不足或者划分给非缺省MDC的资源门限导致。如果确认是资源不足,需要根据设备实际情况调整配置规避解决。

1. 检查系统硬件资源信息

通过如下命令行查看缺省MDC以及非缺省MDC的可用内存大小,CPU可用值以及Disk的可用大小,如果分配过小,可能会导致location业务板失败。

[Sysname]display mdc resource

Memory:

chassis 3 Slot 3:

 Used 35.2MB, Free 1279.5MB, Total 1314.7MB:

    ID    Name             Quota(MB)    Used(MB)    Available(MB)

    ----------------------------------------------------------------

    1     Admin            1314.7       35.2         1279.5

chassis 3 Slot 6:

 Used 34.0MB, Free 1280.7MB, Total 1314.7MB:

    ID    Name             Quota(MB)    Used(MB)    Available(MB)

    ----------------------------------------------------------------

    1     Admin            1314.7       34.0         1280.7

chassis 3 Slot 7:

 Used 34.0MB, Free 1284.7MB, Total 1318.7MB:

    ID    Name             Quota(MB)    Used(MB)    Available(MB)

    ----------------------------------------------------------------

    1     Admin            1318.7       34.0         1284.7

chassis 3 Slot 0:

 Used 583.5MB, Free 7289.1MB, Total 7872.6MB:

    ID    Name             Quota(MB)    Used(MB)    Available(MB)

    ----------------------------------------------------------------

    1     Admin            7872.6       583.5        7289.1

    2     mdcA             7872.6       0.0          7289.1

CPU:

chassis 3 Slot 3:

    ID    Name             Weight       Usage(%)

    -------------------------------------------------

    1     Admin            10           7

chassis 3 Slot 6:

    ID    Name             Weight       Usage(%)

    -------------------------------------------------

    1     Admin            10           0

chassis 3 Slot 7:

    ID    Name             Weight       Usage(%)

    -------------------------------------------------

    1     Admin            10           1

chassis 3 Slot 0:

    ID    Name             Weight       Usage(%)

    -------------------------------------------------

    1     Admin            10           0

    2     mdcA             10           0

Disk:

chassis 3 Slot 0:

flash:: Used 474.1MB, Free 17.9MB, Total 492.0MB:

    ID    Name             Quota(MB)    Used(MB)     Available(MB)

    --------------------------------------------------------------

    1     Admin            492.0        474.1        17.9

    2     mdcA             492.0        0.0          17.9

2. 查看当前业务板所属MDC

通过如下命令查看当前业务板的所属MDC

[Sysname]mdc Admin

[Sysname-mdc-1-Admin]display this

#

mdc Admin id 1

#

Return

上述显示信息表示缺省MDC中没有undo loction的业务板,说明所有业务板都属于缺省MDC。为非缺省MDC分配业务板时,需取消缺省MDC对业务板的使用权限。

[Sysname-mdc-2-mdcA]display this

#

mdc mdcA id 2

 location chassis 3 slot 3

 mdc start

#

Return

上述显示信息表示3号成员设备的3号槽位业务板属于mdcA。为其他非缺省MDC分配业务板时,需取消mdcA对业务板的使用权限。

3. 取消业务板当前归属MDC

此处以业务板属于缺省MDC为例。

[Sysname-mdc-1-Admin]undo location chassis 3 slot 3

The configuration associated with the specified slot of MDC will be lost. Continue? [Y/N]:y

[Sysname-mdc-1-Admin]display this

#

mdc Admin id 1

 undo location chassis 3 slot 3

#

Return

上述信息表示3号成员设备的3号槽位业务板已经不属于MDC Admin

4. 再次分配业务板归属

确保分配给非缺省MDC资源合理且被分配的业务板已经不属于任何MDC后,再次在非缺省MDC中执行location操作。

[Sysname-mdc-2-mdcA]quit

[Sysname]mdc mdcB

[Sysname-mdc-3-mdcB]location chassis 3 slot 3

[Sysname-mdc-3-mdcB]display this

#

mdc mdcB id 3

 location chassis 3 slot 3

 mdc start

#

Return

上述显示信息表示3号成员设备的3号槽位业务板已经分配给mdcB

5. 收集信息并寻求技术支持

若完成上述步骤后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

9.3  Allocate接口失败故障处理方法

9.3.1  故障描述

MDC视图下location业务板后,执行allocate接口操作,提示接口分配失败或者在其他MDC的视图下,无法找到需要划分的接口。

9.3.2  故障处理流程

图22     故障诊断流程图

 

9.3.3  故障处理步骤

S12500-S产品,一个业务板只能属于一个MDC。为MDC分配物理接口提示失败一般是由于所分配的接口只包含本业务板的部分接口,而一次allocate操作应划分本业务板的所有接口,并且这些接口不属于其他MDC

需要注意的是:缺省MDC中,无须对接口执行undo allocate操作。

1. 检查系统接口资源信息

通过如下命令行查看MDC的接口列表。

[Sysname]display mdc interface

 MDC Admin's interface(s):

  M-GigabitEthernet1/0/0/0

 MDC mdcA's interface(s):

  M-GigabitEthernet1/0/0/0             GigabitEthernet3/3/0/1

  GigabitEthernet3/3/0/2               GigabitEthernet3/3/0/3

  GigabitEthernet3/3/0/4               GigabitEthernet3/3/0/5

  GigabitEthernet3/3/0/6               GigabitEthernet3/3/0/7

  GigabitEthernet3/3/0/8               GigabitEthernet3/3/0/9

  GigabitEthernet3/3/0/10              GigabitEthernet3/3/0/11

  GigabitEthernet3/3/0/12              GigabitEthernet3/3/0/13

  GigabitEthernet3/3/0/14              GigabitEthernet3/3/0/15

  GigabitEthernet3/3/0/16              GigabitEthernet3/3/0/17

  GigabitEthernet3/3/0/18              GigabitEthernet3/3/0/19

  GigabitEthernet3/3/0/20              GigabitEthernet3/3/0/21

  GigabitEthernet3/3/0/22              GigabitEthernet3/3/0/23

  GigabitEthernet3/3/0/24              Ten-GigabitEthernet3/3/0/25

  Ten-GigabitEthernet3/3/0/26

 

 MDC mdcB's interface(s):

  M-GigabitEthernet1/0/0/0

 

[Sysname]mdc mdcA

 

[Sysname-mdc-2-mdcA]display this

#

mdc mdcA id 2

 location chassis 3 slot 3

 mdc start

 allocate interface GigabitEthernet3/3/0/1 to GigabitEthernet3/3/0/24 Ten-GigabitEthernet3/3/0/25 Ten-GigabitEthernet3/3/0/26

#

return

2. 将接口和接口所属业务板从mdcA中删除

[Sysname-mdc-2-mdcA]undo allocate interface GigabitEthernet 3/3/0/1 to GigabitEthernet 3/3/0/24 Ten-GigabitEthernet 3/3/0/25 Ten-GigabitEthernet 3/3/0/26

Configuration of the interfaces will be lost. Continue? [Y/N]:y

[Sysname-mdc-2-mdcA]undo location chassis 3 slot 3

[Sysname-mdc-2-mdcA]display this

#

mdc mdcA id 2

 mdc start

#

return

3. mdcB分配业务板和物理接口

确保分配给非缺省MDC资源合理,且将被分配的接口不属于任何MDC,再次在非缺省MDC中执行allocate操作,并保证一次划分所有接口。

需要注意的是,为非缺省MDC分配业务板和物理接口时,必须先分配物理接口,再分配业务板。

[Sysname] mdc mdcB

[Sysname-mdc-3-mdcB]allocate interface GigabitEthernet 3/3/0/1 to GigabitEthernet 3/3/0/24

Ten-GigabitEthernet 3/3/0/25 Ten-GigabitEthernet 3/3/0/26

Configuration of the interfaces will be lost. Continue? [Y/N]:y

[Sysname-mdc-3-mdcB]location chassis 3 slot 3

[Sysname-mdc-3-mdcB]display this

#

mdc mdcB id 3

 location chassis 3 slot 3

 mdc start

 allocate interface GigabitEthernet3/3/0/1 to GigabitEthernet3/3/0/24  Ten-GigabitEthernet3/3/0/25 to Ten-GigabitEthernet3/3/0/26

#

return

[Sysname-mdc-3-mdcB]quit

[Sysname]display mdc interface

 MDC Admin's interface(s):

  M-GigabitEthernet1/0/0/0

 MDC mdcA's interface(s):

  M-GigabitEthernet1/0/0/0

 

 MDC mdcB's interface(s):

  M-GigabitEthernet1/0/0/0             GigabitEthernet3/3/0/1

  GigabitEthernet3/3/0/2               GigabitEthernet3/3/0/3

  GigabitEthernet3/3/0/4               GigabitEthernet3/3/0/5

  GigabitEthernet3/3/0/6               GigabitEthernet3/3/0/7

  GigabitEthernet3/3/0/8               GigabitEthernet3/3/0/9

  GigabitEthernet3/3/0/10              GigabitEthernet3/3/0/11

  GigabitEthernet3/3/0/12              GigabitEthernet3/3/0/13

  GigabitEthernet3/3/0/14              GigabitEthernet3/3/0/15

  GigabitEthernet3/3/0/16              GigabitEthernet3/3/0/17

  GigabitEthernet3/3/0/18              GigabitEthernet3/3/0/19

  GigabitEthernet3/3/0/20              GigabitEthernet3/3/0/21

  GigabitEthernet3/3/0/22              GigabitEthernet3/3/0/23

  GigabitEthernet3/3/0/24              Ten-GigabitEthernet3/3/0/25

  Ten-GigabitEthernet3/3/0/26

4. 收集信息并寻求技术支持

若完成上述步骤后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。

9.4  故障诊断命令

命令

说明

allocate interface

MDC分配物理接口

display diagnostic-information

收集设备的诊断信息

display license

显示License的详细信息

display license feature

显示特性的License摘要信息

display mdc resource

显示MDCCPU/磁盘/内存资源的使用情况

location

将业务板的使用权限分配给MDC