选择区域语言: EN CN HK

H3C SR6600 SR6600-X 路由器故障处理手册(V7)-R7103-6W101

手册下载

H3C SR6600/SR6600-X 路由器

故障处理手册(V7)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:6W101-20180327

产品版本:R7103

 

 


 

1 简介·· 1

1.1 故障处理注意事项·· 1

1.2 收集设备运行信息·· 1

1.3 故障处理求助方式·· 5

2 CPOS口故障处理·· 1

2.1 CPOS控制口物理DOWN,串口物理DOWN,协议DOWN· 1

2.2 串口协议震荡或流量不通问题·· 2

2.3 故障诊断命令·· 2

3 FIP-600故障处理·· 3

3.1 无法ping通直连设备问题·· 3

3.2 转发不通问题·· 4

3.3 转发丢包问题·· 5

3.4 故障诊断命令·· 5

4 POS口故障处理·· 6

4.1 POS物理口down· 6

4.2 接口物理up,协议down· 6

4.3 故障诊断命令·· 7

5 SAP故障处理·· 7

5.1 SAP板接口不UP· 7

5.2 转发不通问题·· 7

5.3 转发丢包问题·· 8

5.4 故障诊断命令·· 8

6 IRF故障处理·· 8

6.1 两台设备无法组成IRF问题·· 8

6.2 转发不通问题·· 9

6.3 转发丢包问题·· 10

6.4 IRF分裂问题·· 10

6.5 故障诊断命令·· 11

7 单板故障处理·· 11

7.1 主控板无法启动·· 11

7.2 线卡无法启动问题·· 16

7.3 故障诊断命令·· 19

8 光模块故障处理·· 19

8.1 接口down· 19

8.2 打印光模块类型不识别·· 19

8.3 打印告警信息·· 20

8.4 故障诊断命令·· 20

9 以太接口故障处理·· 20

9.1 无法ping通直连设备问题·· 20

9.2 转发不通问题·· 21

9.3 转发丢包问题·· 22

9.4 故障诊断命令·· 23

10 主备倒换故障处理·· 24

10.1 重启主用主控板时备用主控板也重启·· 24

10.2 备用主控板意外升主·· 24

10.3 故障诊断命令·· 24

11 子卡故障处理·· 25

11.1 子卡接口不存在·· 25

11.2 子卡不在位·· 25

11.3 故障诊断命令·· 26

 


1 简介

本文档介绍SR6600/SR6600-X路由器软、硬件常见故障的诊断及处理措施。

1.1  故障处理注意事项

注意

设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。

 

在进行故障诊断和处理时,请注意以下事项:

·     设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

¡     记录具体的故障现象、故障时间、配置信息。

¡     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡     收集设备的日志信息和诊断信息(收集方法见1.2  收集设备运行信息)。

¡     记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。

¡     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡     记录故障处理过程中配置的所有命令行显示信息。

·     更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

·     故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。

1.2  收集设备运行信息

说明

为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。

 

设备运行过程中会产生logfilediagfile日志信息及记录设备运行状态的诊断信息。这些信息存储在设备的FlashCF卡中,可以通过FTPTFTPUSB等方式导出。不同主控板或设备中导出的logfilediagfile、诊断信息文件请按照一定规则存放(如不同的文件夹:chassisXslotY),避免不同主控板或设备的运行信息相互混淆,以方便查询。

表1     设备运行信息介绍

分类

文件名

内容

logfile日志

logfileX.log

命令行记录、设备运行中产生的记录信息

diagfile日志

diagfileX.log

设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、单板无法启动时的信息、主控板与接口板通信异常时的握手信息。

诊断信息

XXX.gz

系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

收集诊断信息会导致设备性能下降,请谨慎使用

 

说明

对于logfile日志和diagfile日志,当日志文件写满,产生新的日志文件时,设备会将旧的日志文件自动压缩成.gz文件。

 

1.2.1  logfile日志

(1)     执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在存储介质的logfile目录中。

<Sysname> logfile save

The contents in the log file buffer have been saved to the file cfa0:/logfile/logfile8.log

(2)     查看主用主控板、备用主控板、IRF中主设备/从设备上各主用/备用主控板的日志文件数目和名称。

·     主用主控板logfile日志:

<Sysname> dir cfa0:/logfile/

Directory of cfa0:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile8.log

 

1021104 KB total (421552 KB free)

·     备用主控板logfile日志:

<Sysname> dir slot1#cfa0:/logfile/

Directory of slot1#cfa0:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile8.log

 

1021104 KB total (421552 KB free)

·     IRF下备框主控板logfile日志,如备框有两块主控板,则两块都需要检查:

<Sysname> dir chassis2#slot0#cfa0:/logfile/

Directory of chassis2#slot0#cfa0:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile8.log

 

1021104 KB total (421552 KB free)

(3)     使用FTPTFTP将日志文件传输到指定位置。

1.2.2  diagfile日志

(1)     执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在存储介质的diagfile目录中。

<Sysname> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file cfa0:/diagfile/diagfile18.log

 

(2)     查看主用主控板、备用主控板、IRF中主设备/从设备上各主用/备用主控板的诊断日志文件数目和名称。

·     主用主控板diagfile日志

<Sysname> dir cfa0:/diagfile/

Directory of cfa0:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile18.log

 

1021104 KB total (421416 KB free)

 

·     备用主控板diagfile日志

<Sysname> dir slot1#cfa0:/diagfile/

Directory of slot1#cfa0:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile18.log

 

1021104 KB total (421416 KB free)

 

·     IRF下各成员设备主控板diagfile日志,如果成员设备有两块主控板,则两块都需要检查:

<Sysname> dir chassis2#slot0#cfa0:/diagfile/

Directory of chassis2#slot0#cfa0:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile18.log

 

1021104 KB total (421416 KB free)

 

(3)     使用FTPTFTP将日志文件传输到指定位置。

1.2.3  诊断信息

诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。

需要注意的是,设备上单板越多,诊断信息收集的时间越长,信息收集期间不能输入命令,请耐心等待。

说明

通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口或管理口的情况下,建议通过业务网口或管理口登录和传输文件。

 

(1)     执行screen-length disable命令,以避免屏幕输出被打断(如果是将诊断信息保存到文件中,则忽略此步骤)。

<Sysname>  screen-length disable

(2)     执行display diagnostic-information命令收集诊断信息。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N] :

(3)     选择将诊断信息保存至文件中,还是将直接在屏幕上显示

·     输入“Y”,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。

Save or display diagnostic information (Y=save, N=display)? [Y/N] : Y

Please input the file name(*.tar.gz)[ cfa0:/diag.tar.gz] :cfa0:/diag.tar.gz

Diagnostic information is outputting to cfa0:/diag.tar.gz.

Please wait...

Save successfully.

<Sysname> dir cfa0:/

Directory of cfa0:

……

   6 -rw-      898180 Jun 26 2013 09:23:51   diag.tar.gz

 

1021808 KB total (259072 KB free)

·     输入“N”,将诊断信息直接显示在屏幕上。

Save or display diagnostic information (Y=save, N=display)? [Y/N] :N

===========================================================

  ===============display alarm===============

No alarm information.

=========================================================

  ===============display boot-loader===============

Software images on slot 0:

Current software images:

  cfa0:/SR6600-X-CMW710-BOOT-R7328_mrpnc.bin

  cfa0:/SR6600-X-CMW710-SYSTEM-R7328_mrpnc.bin

Main startup software images:

  cfa0:/SR6600-X-CMW710-BOOT-R7328_mrpnc.bin

  cfa0:/SR6600-X-CMW710-SYSTEM-R7328_mrpnc.bin

 

Backup startup software images:

  None

=========================================================

  ===============display counters inbound interface===============

Interface         Total (pkts)   Broadcast (pkts)   Multicast (pkts)  Err (pkts)

BAGG1                        0                  0                  0           0

GE4/0/1                      0                  0                  0           0

GE4/0/2                      2                  2                  0           0

GE4/0/3                      0                  0                  0           0

GE4/0/4                      0                  0                  0           0

GE4/0/5                      0                  0                  0           0

GE4/0/6                      0                  0                  0           0

GE4/0/7                      0                  0                  0           0

GE4/0/8                      0                  0                  0           0

GE4/0/9                      0                  0                  0           0

GE4/0/10                     0                  0                  0           0

……

1.3  故障处理求助方式

当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。

用户支持邮箱:service@h3c.com

技术支持热线电话:400-810-0504(手机、固话均可拨打)

 


2 CPOS口故障处理

2.1  CPOS控制口物理DOWN,串口物理DOWN,协议DOWN

2.1.1  故障描述

直连其他设备的CPOS控制口物理DOWN,通道生成的串口物理DOWN,协议DOWN

2.1.2  故障处理步骤

(1)     通过display controller cpos interface-name 命令收集指定控制口信息,查看接口状态是否UP 如果接口状态为down,则查看是否存在段告警信息,如果段告警信息里有LOS LOF

这类的告警,需要检查光纤是否连接正常,接口两端是否至少有一端配置了clock master命令。

(2)     如果控制口UP 串口物理DOWN,则需要通过display controller cpos interface-name命令查看串口所属的通道是否有告警,理论上除了在串口上执行了shutdown命令,否则如果通道是UP的,串口物理即可UP

(3)     如果串口物理UP,协议down,首先通过display interface serial  interface-number命令,收集串口的报文收发统计信息,该统计是基于硬件,确认CPOSHDLC芯片是否正常工

(4)     如果上述步骤无法具体定位故障,则收集如下信息,并联系H3C技术支持人员。

·     打开两个设备上的physical调试开关debugging physical packet,查看报文收发是否存在异常情况。

·     probe视图下,通过display hardware internal module cpos nterface-number statistics命令收集控制口统计信息。

·     probe视图下,通过display hardware internal module cpos interface-number reg 0命令收集接口CPLD信息。

·     probe视图下,通过display hardware internal module cpos interface-number reg 1命令收集接口FPGA信息。

·     probe视图下,通过display hardware internal module cpos interface-number reg 2display hardware internal module cpos interface-number reg 3display hardware internal module cpos interface-number reg 4命令收集接口的芯片寄存器信息

·     probe视图下通过display hardware internal module serial interface-number statistic 命令收集串口的统计信息。

·     如果接口显示的统计信息正常,则probe视图下,通过命令display hardware internal module cpos interface-number statistics 命令查看子卡的FPGA的收发统计是否正常。

·     如果子卡的FPGA的收发正常,则probe视图下,通过display hardware internal module serial interface-number  statistics命令查看串口的CPU软件统计是否正常。

2.2  串口协议震荡或流量不通问题

2.2.1  故障描述

串口协议震荡,或转发不通。

2.2.2  故障处理步骤

(1)     如果串口物理down,处理方法请参见“2.1  CPOS控制口物理DOWN,串口物理DOWN,协议DOWN”。

(2)     如果上述步骤无法具体定位故障,则收集如下信息,并联系H3C技术支持人员。

·     probe视图下通过display hardware internal module interface-number 命令查看串口是否有接收或发送错包统计。

·     打开两个设备上的physical调试开关debugging physical packet,查看报文收发是否存在异常情况。

·     probe视图下,通过display hardware internal module cpos nterface-number statistics命令收集控制口统计信息。

·     probe视图下,通过display hardware internal module cpos interface-number reg 0命令收集接口CPLD信息。

·     probe视图下,通过display hardware internal module cpos interface-number reg 1命令收集接口FPGA信息。

·     probe视图下,通过display hardware internal module cpos interface-number reg 2display hardware internal module cpos interface-number reg 3display hardware internal module cpos interface-number reg 4命令收集接口的芯片寄存器信息

·     probe视图下通过display hardware internal module serial interface-number statistic 命令收集串口的统计信息。

·     如果接口显示的统计信息正常,则probe视图下通过display hardware internal module  cpos interface-number statistics 命令查看子卡的FPGA的收发统计是否正常。

·     如果子卡的FPGA的收发正常,则probe视图下通过display hardware internal module serial interface-number  statistics命令查看串口的CPU软件统计是否正常。

2.3  故障诊断命令

命令

说明

display controller cpos interface-name

显示CPOS物理接口状态信息,以及再生段、复用段和高阶通道的告警及错误信息

clock master

设置CPOS接口的时钟模式为主时钟模式

display interface serial  interface-number

显示Serial接口的相关信息

debugging physical packet

打开设备physical调试开关

display hardware internal module interface-name interface-number statistics

查看接口可维护统计信息

display hardware internal module interface-name interface-number status

查看接口状态信息

display hardware internal module interface-name interface-number message

查看接口配置信息

display hardware internal module interface-name interface-number reg {0 | 1 | 2 |3 | 4}

查看接口硬件寄存器信息

 

3 FIP-600故障处理

3.1  无法ping通直连设备问题

3.1.1  故障描述

无法ping通与FIP-600直连的设备。

3.1.2  故障处理步骤

(1)     通过display interface命令收集指定接口信息,查看:

·     接口状态是否UP

·     接口收发包统计是否正常,有无错包和丢包统计等。如果有错包统计,可以先排除是否线缆问题或接口故障。

(2)     通过display arp all命令查看是否学到直连接口的ARP,如果没有,通过debugging arp packet命令打开两台设备上的ARP调试开关,查看ARP报文收发是否存在异常情况。

(3)     probe视图下,通过debugging hardware  internal fdp cdat slot slot-num debug { ingress | egress }命令查看CPU数据通道接口接收和发送报文的debug信息,前32字节为逻辑互通头信息,后32字节为报文内容。可以通过选择接口或报文长度等参数,对要打印报文进行过滤。可以联系H3C技术支持人员确认流量上送CPU的具体原因。

(4)     probe视图下,通过display hardware internal fdp cdat slot slot-num statistics命令收集CPU数据通道统计信息。该命令可以查看CPU上和逻辑之间的报文收发统计和速率。选择参数4可以查看详细统计信息,包括基于VCPU的各项统计。

(5)     probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 8命令收集CPU和逻辑内部丢包统计信息,如果有丢包计数,请联系H3C技术支持人员确认丢包原因。

(6)     probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 80命令收集逻辑内部统计信息。如果有Drop统计,请联系H3C技术支持人员确认丢包原因。

(7)     probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 100命令收集CPU数据通道接口统计信息。

(8)     probe视图下,通过display hardware internal dpaa slot slot-num bman pool-info命令收集硬件buffer池信息。如果BPID0-3buffer池状态有EmptyDepleted,且不能恢复,请联系H3C技术支持人员定位。

(9)     probe视图下,通过display hardware internal fdp flow slot slot-num statistic命令收集逻辑三层报文上送CPU统计信息,查看Packet Statistics information是否存在存在错包或失败统计,请联系H3C技术支持人员确认丢包原因。    

(10)     probe视图下,通过display hardware internal fdp cdat slot slot-num status 80命令 查看逻辑内部状态信息,无流量情况下,如果FIFO状态非空,说明逻辑FIFO堵塞,请联系H3C技术支持人员定位。

(11)     如果逻辑和CPU之间报文收发正常,需要参照软件转发定位手段,如是否有路由表等。

3.2  转发不通问题

3.2.1  故障描述

FIP-600所在路由器作为中间设备转发流量时,流量转发不通。

3.2.2  故障处理步骤

(1)     确认与直连设备是否可以ping通,如果不通,请参见“3.1  无法ping通直连设备问题”。

(2)     probe视图下,通过display hardware internal fdp cdat slot slot-num statistics命令收集CPU数据通道统计信息。该命令可以查看CPU上和逻辑之间的报文收发统计和速率信息。如果CPU接收报文速率与转发流量速率基本吻合,说明报文被逻辑上送到了CPU转发,此时:

·     如果CPU发送报文速率明显减小,说明报文被软件丢弃或透传到了主控板。

·     如果发送报文速率与接收报文速率基本一致,说明报文没有被软件丢弃,正常转发。

·     如果CPU接收报文速率很小,明显与转发流量速率不符,说明报文没有上送到CPU

(3)     如果报文上送到了CPUprob视图下debugging hardware  internal fdp cdat slot slot-num debug { ingress | egress }命令查看CPU数据通道接口接收和发送报文的debug信息,前32字节为逻辑互通头信息,后32字节为报文内容。可以通过选择接口或报文长度等参数,对要打印报文进行过滤。可以联系H3C技术支持人员确认流量上送CPU的具体原因。

(4)     如果报文被CPU丢弃,在probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 8查看CPU丢包统计;通过display hardware internal fdp flow slot slot-num statistic收集逻辑三层报文上送CPU统计,查看Packet Statistics information中是否存在错包或失败统计,如果有丢包统计,请联系H3C技术支持人员定位

(5)     probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 8命令收集CPU和逻辑内部丢包统计信息,如果有丢包计数,请联系H3C技术支持人员确认丢包原因。

(6)     probe视图下,通过debugging hardware  internal fdp cdat slot slot-num bypass interface命令在转发入接口打开旁路逻辑功能,如果可以正常转发流量,可以确认为逻辑转发问题,请联系H3C技术支持人员定位。

(7)     probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 80命令收集逻辑内部统计信息。如果有Drop统计,请联系H3C技术支持人员确认丢包原因。

(8)     probe视图下,通过display hardware internal fdp cdat slot slot-num status 80命令 查看逻辑内部状态信息,无流量情况下,如果FIFO状态非空,说明逻辑FIFO堵塞,请联系H3C技术支持人员定位。

(9)     如果逻辑和CPU之间报文收发正常,需要参照软件转发定位手段,如是否有路由表等。

3.3  转发丢包问题

3.3.1  故障描述

FIP-600转发流量有丢包问题。

3.3.2  故障处理步骤

(1)     probe视图下display hardware internal fdp cdat slot slot-num statistics收集CPU数据通道统计。该命令可以查看CPU上和逻辑之间的报文收发统计和速率。

·     如果CPU接收报文速率与转发流量速率基本吻合,说明报文被逻辑上送到了CPU转发。

·     如果CPU接收报文速率很小,明显与转发流量速率不符,说明报文在逻辑转发。

(2)     如果报文上送到了CPU,在probe视图下通过debugging hardware  internal fdp cdat slot slot-num debug { ingress | egress }命令查看CPU数据通道接口接收和发送报文的debug信息,前32字节为逻辑互通头信息,后32字节为报文内容。可以通过选择接口或报文长度等参数,对要打印报文进行过滤。可以联系H3C技术支持人员确认流量上送CPU的具体原因。

(3)     如果报文在逻辑内部丢包,在probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 8收集逻辑内部丢包统计信息。如果有丢包计数,请联系H3C技术支持人员确认丢包原因。

(4)     probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 80命令收集逻辑内部统计信息。如果有Drop统计,请联系H3C技术支持人员确认丢包原因。

3.4  故障诊断命令

命令

说明

display hardware internal fdp cdat slot slot-num statistics

显示CPU数据通道统计信息

reset hardware internal fdp cdat slot slot-num statistics

清除CPU数据通道统计信息

display hardware internal fdp cdat slot slot-num status

显示CPU数据通道状态信息

debugging hardware  internal fdp cdat slot slot-num debug

设置CPU数据通道报文Debug开关

display hardware internal fdp flow slot slot-num statistic

显示三层报文驱动接收统计信息

reset hardware internal fdp flow slot slot-num statistic

清除三层报文驱动接收统计信息

debugging hardware  internal fdp cdat slot slot-num bypass

设置旁路逻辑功能

display hardware internal dpaa slot slot-num bman pool-info

显示CPU硬件Buffer池状态

 

4 POS口故障处理

4.1  POS物理口down

4.1.1  故障描述

正常连接光纤后,物理口为down

4.1.2  故障处理步骤

(1)     检查两端接口的时钟配置,必须为一主一从。

(2)     检查接口安装的光模块,确保光模块速率和接口匹配。

(3)     检查两端接口的frame格配置,必须相同。

(4)     如果上述步骤无法具体定位故障,则通过display interface pos interface-number命令来查看接口下的告警信息,

·     如果是AIS的告警,请检查flag的配置是否正常

·     如果是LOS/LOF的告警,请检查对端是否使能了光模块发送,光纤光模块硬件是否正常。

4.2  接口物理up,协议down

4.2.1  故障描述

互通设备的POS接口物理up,协议down

4.2.2  故障处理步骤

POS接口物理up,协议down,主要是因为丢包导致无法正常协商。

(1)     首先查看互通设备两端的报文收发情况,可以通过debugging physical packet all int pos命令来确认是哪端设备的故障。

(2)     确认故障设备后,先在接口下执行reset counters interface命令清除接口统计,再进入probe视图通过命令display hardware internal module pos interface-number statistic 来查看统计信息,该信息中包含了PHY、子卡逻辑、以及各个VCPU的收发统计。

·     如果子卡逻辑有收发,而VCPU无软件统计,此时还需要查看线卡逻辑或者SPI4接口统计,确认丢包的模块和原因。

·     如果子卡PHYFPGA之间有错包或者丢包,则可以通过display hardware internal module pos interface-number  reg 3命令 display hardware internal module pos interface-number  reg 1命令来收集PHYFPGA的配置信息。

4.3  故障诊断命令

命令

说明

display hardware internal module interface-name interface-number statistics

查看接口可维护统计信息

display hardware internal module interface-name interface-number status

查看接口状态信息

display hardware internal module interface-name interface-number message

查看接口配置信息

display hardware internal module interface-name interface-number reg 1

查看接口FPGA信息

display hardware internal module interface-name interface-number reg 3

查看接口PHY信息

 

5 SAP故障处理

5.1  SAP板接口不UP

5.1.1  故障描述

SAP板接口不UP

5.1.2  故障处理步骤

(1)     查看SAP是否正常启动,接口是否被shutdown,可执行undo shutdown命令。

(2)     检查光模块和光纤线缆状态是否正常,有无损坏,是否插反,可调整光纤插头,或反复多插拔几次,看情况是否改善。未改善可检查光模块和光纤型号是否兼容匹配。

5.2  转发不通问题

SAP板流量转发不通。

5.2.1  故障处理步骤

(1)     检查SAP板所在设备是否正常工作。

(2)     确认配置是否正确,出入接口是否都UP。接口不UP,请参见“5.1  SAP板接口不UP”。

(3)     系统视图下,使用display interface 命令查看接口状态和接口收发包统计是否正常,有无错包和丢包统计

(4)     如果收发包统计正常,检查其直连设备流量转发情况。如果直连设备流量转发存在异常,则通过其直连设备的故障处理说明进行处理。

(5)     如果接口收包正常,而发包失败或存在丢包,使用debugging physical packet命令打印上送cpu的报文信息。如果有报文信息打印,则说明报文被上送至CPU

(6)     如果报文上送CPU后被丢弃,请联系H3C技术支持人员查看报文是否正确并定位丢包原因。

(7)     如果报文未上送CPU,进入probe视图,使用bcm <slot> <chip> show/counter命令查看丢包接口和丢包统计信息,并联系H3C技术支持人员进行定位。

(8)     probe视图下,使用bcm <slot> <chip> l3/defip/show 命令查看路由表项是否正确,有无对应路由,路由是否命中等,若不正确则联系H3C技术支持人员进行定位。

5.3  转发丢包问题

5.3.1  故障描述

SAP板转发流量有丢包问题。

5.3.2  故障处理步骤

SAP板仅支持以太网接口,丢包问题故障处理请参见“9.3  转发丢包问题”。

5.4  故障诊断命令

命令

说明

display interface interface-number

显示端口信息

display counters [inbound|outband] interface

显示接口的流量统计信息

reset counters interface

清除接口的流量统计信息

bcm <slot> <chip> show/counter

显示接口流量统计和速率

debugging physical packet [all | input | output ] interface interface-number

显示上送CPU的报文信息

bcm <slot> <chip> l3/l3table/show

显示arp表项

bcm <slot> <chip> l3/defip/show

显示驱动路由表项信息

 

6 IRF故障处理

6.1  两台设备无法组成IRF问题

6.1.1  故障描述

两台设备无法组成IRF

6.1.2  故障处理步骤

(1)     通过display device命令来看两台设备是否都是IRF模式,并且两台设备的成员编号分别为12

(2)     通过display irf configurationl查看两台设备是否都配置了IRF端口,并检查两个IRF端口之间是否是用光纤或网线直连的。

(3)     通过display irf link命令查看两个IRF端口是否都是UP的。

(4)     probe视图下,通过display hardware internal wanirf ipc pkt-info chassis  chassis-number  slot  slot-number  interface-number命令查看两个成员设备间的报文是否能互通,若是没有报文统计,请确认设备上都使能了irf-port-configuration active命令;如果有丢包计数,请联系H3C技术支持人员确认丢包原因。

(5)     probe视图下,通过display hardware internal wanirf topoinfo chassis  chassis-number slot  slot-number命令,查看IRF板状态,若是没有activeIRF板请联系H3C技术支持人员确认原因。

(6)     probe视图下,通过display hardware internal wanirf portinfo chassis chassis-number slot  slot-number命令收集IRF物理端口状态和出接口选口信息,若有异常请联系H3C技术支持人员定位。

(7)     probe视图下,通过display hardware internal wanirf stm debugging chassis chassis-number slot  slot-number all on 命令收集IRF板收发的STM报文打印信息,联系H3C技术支持人员查看内容格式是否正确。

(8)     probe视图下,通过display hardware internal wanirf stm pkt-info chassis chassis-number slot  slot-number命令 查看两台成员设备的主控是否有收发的STM报文。

(9)     若果两个主控之间STM报文收发正常,请联系H3C技术支持人员定位。

6.2  转发不通问题

6.2.1  故障描述

流量跨框转发不通。

6.2.2  故障处理步骤

(1)     两台设备构成IRF跨框转发,请先确认设备配置是否正确,出入接口是否都UP

(2)     执行display ip statistics chassis chassis-number  slot  slot-number命令查看源板的报文是否上送平台并由平台转发,若没有请联系H3C技术支持人员定位。

(3)     probe视图下,通过display hardware internal ibd pkt-info chassis chassis-number  slot  slot-number verbose命令收集源板到本成员设备IRF板的统计,查看本成员设备板间是否有透传过去,若没有请联系H3C技术支持人员定位。

(4)     probe视图下,通过display hardware internal wanirf ibd pkt-info chassis chassis-number  slot  slot-number  interface-number命令查看各成员设备的物理IRF口是否有报文收发统计,若没有请联系H3C技术支持人员定位。

(5)     probe视图下,通过display hardware internal wanirf ibd debugging chassis chassis-number slot  slot-number all on 命令查看通过物理IRF口的IBD报文打印信息,查看报文格式和内容是否正确。

(6)     如果对端IRF口接收正常,再执行(3)过程的命令查看本框的堆叠板是否透传到了目的板。

(7)     probe视图下,通过display hardware internal module interface-name statistics命令查看出接口统计是否正常,若有异常请联系H3C技术支持人员定位。

6.3  转发丢包问题

6.3.1  故障描述

跨框转发流量有丢包问题。

6.3.2  故障处理步骤

按照6.2.2  查看各个环节是否有丢包统计即可,如有问题请联系开发人员定位。

6.4  IRF分裂问题

6.4.1  故障描述

两台IRF设备分裂。

6.4.2  故障处理步骤

IRF分裂是由于两个成员设备的主用主控在20s内收不到包造成的,故障处理可分为如下步骤:

(1)     通过display irf link查看查看IRF链路是否为UP状态,若不是UP状态检查是否为网线松动或者IRF板重启了。

(2)     probe视图下,通过display hardware internal wanirf portinfo chassis chassis-number slot  slot-number命令查看IRF物理端口状态和出接口选口信息是否还正确,若有异常请联系H3C技术支持人员定位。

(3)     通过display cpu-usage命令 查看主控和堆叠板的CPU使用率是否过高,IPC报文是经由堆叠板和主控板的CPU处理的,若是CPU使用率过高会造成其丢包导致分裂。

(4)     probe视图下,通过display hardware internal wanirf ipc pkt-info chassis chassis-number slot  slot-number interface-number命令查看成员设备IRF口发送和接收的各种IPC报文是否有丢包统计,若有统计请联系H3C技术支持人员定位。

(5)     probe视图下,通过display hardware internal wanirf ipc debugging chassis chassis-number slot  slot-number all on 命令查看通过IRF物理口的IPC报文打印信息,查看报文格式和内容是否正确。

(6)     probe视图下,通过display hardware internal wanirf ipc sendpkt chassis chassis-number slot  slot-number unicast chassis-number slot  slot-number  pkt-length  pkt-number 命令测试一下主控到堆叠板的IPC是否是畅通的。

(7)     probe视图下,通过debug stack show globalvariable slot slot-number命令查看主控槽位的IRF报文信息,收集并汇总给H3C技术支持人员。

(8)      probe视图下,通过 display hardware internal wanirf stm pkt-info chassis chassis-number slot slot-number命令详细的查看两框主控收发的相关IRF报文成功还是失败,请联系H3C技术支持人员进一步定位。

 

6.5  故障诊断命令

命令

说明

display hardware internal wanirf ipc/ibd pkt-info chassis chassis-number slot slot-number phyport-num

显示IRF物理端口的IPC/IBD报文统计信息

reset hardware internal wanirf ipc/ibd pkt-info chassis chassis-number slot slot-number  port-num

清除IRF物理端口的IPC/IBD报文统计信息

display hardware internal wanirf stm pkt-info chassis chassis-number slot slot-number

显示主控板IRF报文的收发统计信息

reset hardware internal wanirf stm pkt-info chassis chassis-number slot slot-number

清除主控板IRF报文的收发统计信息

display hardware internal  wanirf  portinfo chassis chassis-number slot slot-number

显示IRF端口的相应信息

display hardware internal  wanirf topoinfo chassis chassis-number slot slot-number

显示拓扑相关的信息

display hardware internal  wanirf  ipc/ibd/stm debugging chassis chassis-number slot slot-number receive/send/all on/off

显示堆叠板IRF口的IPC/IBD/STM的报文内容调试信息

display hardware internal wanirf ibd sendpkt chassis chassis-number slot slot-number unicast chassis chassis-number slot slot-number  pkt-len pkt-num

IRF成员设备间任意两板之间发送IPC测试报文

 

7 单板故障处理

7.1  主控板无法启动

7.1.1  故障描述

主控板(包括RSE-X3RPE-X3SR6602-X)无法启动。

7.1.2  故障处理步骤

(1)     查看主控板运行灯(RUN)状态,设备正常启动后,RUN灯状态为快闪(8Hz频率)。若RUN灯没有点亮表示设备不能上电或者BootWare基本段被破坏。

·     运行灯不亮是指上电后从来没亮过,如果开始闪了一会儿(超过5秒)后续又灭的,则不算此情况。

·     一上电RUN灯就常亮或慢闪(1Hz频率)表示设备硬件故障。

 

(2)     判断设备是否上电。检查风扇是否转动,也可以经过一段时间后,拔出主控板,检验CPU上的散热片是否有热度。如果没有上电,则检查供电、电源模块,设备硬件故障也会导致主控板不能上电。如果设备上电正常,则应该是BootWare基本段被破坏,请联系H3C技术支持人员进一步定位。

(3)     检查Bootware基本段是否运行成功。

·     查看是否有如下信息,是则说明基本段运行成功。

System start booting...

Booting Normal Extend BootWare....

 

**************************************************************************

*                                                                        *

*                   H3C SR6608 BootWare, Version 1.18                    *

*                                                                        *

**************************************************************************

Copyright (c) 2004-2018 New H3C Technologies Co., Ltd.

 

Compiled Date       : Jan 11 2008

CPU Type            : MPC8548E

CPU L1 Cache        : 32KB

CPU Clock Speed     : 1000MHz

Memory Type         : DDR2 SDRAM

Memory Size         : 4096MB

Memory Speed        : 667MHz

BootWare Size       : 1024KB

Flash Size          : 4MB

NVRAM Size          : 128KB

BASIC CPLD Version  : 1.0

EXTEND CPLD Version : 1.0

PCB Version         : Ver.B

 

·     没有任何输出信息表示内存或CPU故障。对于RSE-X3/RPE-X3,可以将内存拔掉,查看启动后是否有如下信息:

RAM initialization failed

Fatal error! Please reboot the board.

若没有则表示在内存没有初始化,可能是CPU问题或焊接问题,请联系H3C技术支持人员进一步定位。若有打印,则说明初始化内存时出现问题,可尝试更换内存条。

对于SR6602-X,由于不能开机箱,请联系H3C技术支持人员进一步定位。

 

·     如果上电后打印如下类似信息,则可能是内存条有问题,可检查内存条是否插紧,或尝试更换内存条。也有可能是内存通道的硬件电路出现问题,请联系H3C技术支持人员进一步定位。

readed value is 75555555 , expected value is 55555555

DRAM test fails at: 5ff80020

Fatal error! Please reboot the board.

以上信息是内存自检失败打印的。有时候系统因为异常发生热启动,内存控制器状态还未恢复,会出现自检失败的情况(极小概率),此时重启设备就可以恢复。

 

·     若打印下面信息,则说明扩展段和备份扩展段都不正确,BootWare无法启动,此时只能手工升级扩展段。

System start booting...

Boot ROM program does not exist.

Now start to download program.

 

======================<BASIC-BOOTWARE MENU(Ver 1.12)>=====================

|<1> Modify Serial Interface Parameter                                   |

|<2> Update Extend BootWare                                              |

|<3> Update Full BootWare                                                |

|<4> Boot Extend BootWare                                                |

|<5> Boot Backup Extend BootWare                                         |

|<0> Reboot                                                              |

==========================================================================

Enter your choice(0-5):

 

·     打印“Booting Normal Extend BootWare........信息后没有反应请联系H3C技术支持人员进一步定位

System start booting...

Booting Normal Extend BootWare........

(4)     查看加载APP是否正常。

·     显示如下信息,说明APP文件加载、解压成功。

**************************************************************************

*                                                                        *

*                   H3C SR6608 BootWare, Version 1.18                    *

*                                                                        *

**************************************************************************

Copyright (c) 2004-2018 New H3C Technologies Co., Ltd.

 

Compiled Date       : Jan 11 2008

CPU Type            : MPC8548E

CPU L1 Cache        : 32KB

CPU Clock Speed     : 1000MHz

Memory Type         : DDR2 SDRAM

Memory Size         : 4096MB

Memory Speed        : 667MHz

BootWare Size       : 1024KB

Flash Size          : 4MB

cfa0 Size           : 1006MB

cfb0 Size           : 999MB

NVRAM Size          : 128KB

BASIC CPLD Version  : 1.0

EXTEND CPLD Version : 1.0

PCB Version         : Ver.B

 

 

BootWare Validating...

Press Ctrl+B to enter extended boot menu...

Starting to get the main application file--cfa0:/system.bin!..........

..........................................................................

The main application file is self-decompressing...........................

..........................................................................

...................................................................Done!

Starting to get the main application file--cfa0:/boot.bin!..........

The main application file is self-decompressing...........................

...................................................................Done!

 

·     显示如下信息,表示APP文件不存在,需要重新下载APP文件。

**************************************************************************

*                                                                        *

*                   H3C SR6608 BootWare, Version 1.18                    *

*                                                                        *

**************************************************************************

Copyright (c) 2004-2018 New H3C Technologies Co., Ltd.

 

Compiled Date       : Jan 11 2008

CPU Type            : MPC8548E

CPU L1 Cache        : 32KB

CPU Clock Speed     : 1000MHz

Memory Type         : DDR2 SDRAM

Memory Size         : 4096MB

Memory Speed        : 667MHz

BootWare Size       : 1024KB

Flash Size          : 4MB

cfa0 Size           : 1006MB

cfb0 Size           : 999MB

NVRAM Size          : 128KB

BASIC CPLD Version  : 1.0

EXTEND CPLD Version : 1.0

PCB Version         : Ver.B

 

BootWare Validating...

Application program does not exist.

Please input BootWare password:

 

·     若显示如下信息,表示获取的APP文件发生校验错,请重新下载文件到CF卡。

**************************************************************************

*                                                                        *

*                   H3C SR6608 BootWare, Version 1.18                    *

*                                                                        *

**************************************************************************

Copyright (c) 2004-2018 New H3C Technologies Co., Ltd.

 

Compiled Date       : Jan 11 2008

CPU Type            : MPC8548E

CPU L1 Cache        : 32KB

CPU Clock Speed     : 1000MHz

Memory Type         : DDR2 SDRAM

Memory Size         : 4096MB

Memory Speed        : 667MHz

BootWare Size       : 1024KB

Flash Size          : 4MB

cfa0 Size           : 1006MB

cfb0 Size           : 999MB

NVRAM Size          : 128KB

BASIC CPLD Version  : 1.0

EXTEND CPLD Version : 1.0

PCB Version         : Ver.B

 

BootWare Validating...

Press Ctrl+B to enter extended boot menu...

Starting to get the main application file--cfa0:/system.bin!................

..........................................................................

..........................................................................

..........................................................................

Something wrong with the file.

(5)     检查APP启动过程

·     没有system包,系统启动之后进入boot界面,对于这种情况,需要重新下载软件版本。

Loading the main image files...

Loading file cfa0:/boot.bin.................................................

...................................Done.

  <boot>

·     提示System image is starting...,一直挂死

·     提示System image is starting...,未进入命令行,反复重启

·     提示Press ENTER to get started,但是无法进入命令行

·     可以进入命令行,但是一段时间之后自动重启。

对于后四类情况,请联系H3C技术支持人员进一步定位。

 

7.2  线卡无法启动问题

7.2.1  故障描述

线卡无法正常启动。

7.2.2  故障处理步骤

(1)     查看线卡运行灯(RUN)是否点亮,线卡正常启动后,RUN灯状态为快闪(8Hz频率)。若RUN灯没有点亮表示设备不能上电或者BootWare基本段被破坏。

说明

·     运行灯不亮是指上电后从来没亮过,如果开始闪了一会儿(超过5秒)后续又灭的,则不算此情况。

·     一上电RUN灯就常亮或慢闪(1Hz频率)表示设备硬件故障。

 

(2)     RUN灯没有点亮,有如下两种情况:

·     线卡不能上电

先通过display device命令查看设备是否上电。

<H3C>display device

 Slot No.  Board type    Status       Primary    SubSlots

 ---------------------------------------------------------------------

 0         RSE-X3        Startup      Standby    0

 1         RSE-X3        Normal       Master     0

 2         N/A           Absent       N/A        N/A

 3         FIP-300       Wait         N/A        1

 

 如果status栏含义为:

¡     Startup:表示已经上电

¡     Wait:系统功率不足无法上电。

probe视图下,通过display hardware internal sysm power-management命令查看功率是否足够。

 [H3C-probe]display hardware internal sysm power-management

System Power Total       : 650  watts

System Power Used        : 150  watts

System Power Available   : 300  watts

System Power Per Unit    : 650  watts

System Power Reserved    : 200  watts

System Power AlarmFlag   : 0x00000000

 

Slot  Board Type  Watts        Priority 

------------------------------------------------------------

0     RSE-X3      0(0)         0(0)     

1     RSE-X3      0(0)         0(0)     

2     NA          0(0)         0(0)     

3     FIP-300     150(0)*      5(-1)    

 

 

如果功率够仍然无法上电,通过display hardware internal sysm fip命令查看详细状态,如果为enable,则可能是线卡硬件存在故障,无法上电,更换槽位重新测试是否可以上电。

¡     Fault:线卡的bom码错误或该线卡在当前设备上不支持。

¡     Disable:失败命令行强制下电了,执行undo remove slot命令给线卡上电

[H3C-probe]display hardware internal sysm fip

Slot No.  State   Errcode   Flags   HwFlags

--------------------------------------------------------------

2         Off     0         0x0     0x0

3         enable  0         0x3     0x43

 

Flags :

    bit0-PowerOn bit1-Present

    bit2-ManuOn  bit3-ManuOff

    bit4-AutoOff bit5-Inserting

bit6-Enable

·     BootWare基本段被破坏

如果设备上电正常,则应该是BootWare基本段被破坏,请联系H3C技术支持人员进一步定位。

(3)     检查Bootware基本段是否运行成功,处理步骤参见“7.1.2  (3)检查Bootware基本段是否运行成功”。

FIP板上也有类似主控板Console口的串口,是一个位于板子内部的RJ45口,称为调试串口。该串口同Console口一样会打印BootWare的启动信息。由于需要连线到板子内部,需要该FIP板的相邻槽位不插板子,留出走线的空间。

 

(4)     查看加载APP是否正常。

·     IPC不通,无法同步信息。

Press Ctrl+B to enter extended boot menu......

Failed. No response received from the active MPU.

 GDSYNC_SendRequest: Start

 GDSYNC_SendRequest: Start

 GDSYNC_SendRequest: Start

 GDSYNC_SendRequest: Start

 GDSYNC_SendRequest: Start

 GDSYNC_Start failed!

 SYNC failed.

一直打印上述信息,说明硬件IPC通道不通,需要更换槽位测试是否能否同步成功。

¡     更换槽位可以成功,在原槽位换入一块新的线卡,看能够同步成功。

-     无法成功,可能是主控或机箱该槽位存在故障。

-     可以成功,将故障单板重新插入该槽位测试。

¡     更换槽位也无法成功,使用新的线卡替代测试。

-     无法成功,可能是主控或机箱存在故障。

-     可以成功,该槽位的IPC通到存在故障。

·     主控板串口反复打印如下信息表示APP加载失败,需要确认当前使用的软件版本是否是正式发布版本,该版本是否支持该线卡。

%Jul 17 14:01:48:947 2014 H3C DEV/3/LOAD_FAILED: -MDC=1; Board in slot 3 failed to load software images.

%Jul 17 14:01:48:948 2014 H3C DEV/3/LOAD_FAILED: -MDC=1; Board in slot 3 failed to load software images.

(5)     检查APP启动过程

·     提示System image is starting...无任何其他输出,一直挂死

·     提示System image is starting...有信息输出,一直挂死

·     提示System image is starting...反复重启

·     提示System image is starting...主控打印线卡Change to Normal之后,线卡反复重启

对于上述情况,请联系H3C技术支持人员进一步定位。

7.3  故障诊断命令

命令

说明

display device

显示设备信息

 

8 光模块故障处理

8.1  接口down

8.1.1  故障描述

光模块安装正确,光纤连接正常,接口物理down 或者协议down

8.1.2  故障处理步骤

(1)     probe视图下,display hardware internal module  interface-type interface-numbe  reg optReg 命令查看光模块在位状态是否正确。

(2)     如果光模块在位,在probe视图下,通过display transceiver information interface命令查看两端的光模块类型是否匹配,如果匹配,查看光模块类型是否与接口类型匹配。光模块必须配对使用,光模块类型必须与接口类型匹配。

(3)     查看光纤类型是否与光模块匹配,光纤光模块有单模多模之分,必须匹配使用。

(4)     通过查看CPLD,判断是否有收发故障,查看是否硬件故障。

(5)     如果上述步骤无法定位故障,请联系H3C技术支持人员。

8.2  打印光模块类型不识别

8.2.1  故障描述

Console口打印光模块类型是Unknow

8.2.2  故障处理步骤

(1)     Probe 视图下,通过display hardware internal module  interface-type interface-numbe  reg optreg查看光模块是否是真模块,是否有电子标签;如果是伪模块,无法正确显示光模块类型,并且display transceiver manuinfo  interfacedisplay transceiver diagnosis interface命令不可用。

(2)     Probe 视图下,通过display hardware internal transceiver  register  interface命令可以读取光模块内部寄存器值,对比查看。

(3)     如果上述步骤无法定位故障,请联系H3C技术支持人员。

8.3  打印告警信息

8.3.1  故障描述

接口打印告警信息,或者不断出现光模块插入拔出信息打印。

8.3.2  故障处理步骤

(1)     查看板卡的CPLD版本,看是否升级到最新版本,特别是HIM-TS8P

(2)     通过display transceiver alarm  interface 命令查看是否有告警,告警是否与打印信息匹配。一般的告警信息,都是从dware统计来的,驱动只负责显示。

8.4  故障诊断命令

命令

说明

display transceiver alarm interface  interface-name interface-number

查看光模块告警信息

display transceiver diagnosis interface  interface-name interface-number

查看光模块诊断

display transceive interface  interface-name interface-number

查看光模块基本信息

display transceiver information interface interface-name interface-number

查看光模块详细信息

display transceiver manuinfo  interface-name interface-number

查看光模块制造信息

display hardware internal module  interface-name interface-number  reg  add

查看光模块驱动维护信息

display hardware internal  transceiver  register  interface  interface-name interface-number device device-index address   length

读取光模块内部寄存器值

 

9 以太接口故障处理

9.1  无法ping通直连设备问题

9.1.1  故障描述

无法ping通与以太网接口直连的设备。

9.1.2  故障处理步骤

(1)     通过display interface命令收集指定接口信息,查看:

·     接口状态是否UP

·     接口两端速率双工是否匹配。

·     接口收发包统计是否正常,有无错包和丢包统计,如果有错包统计,可以先排除线缆问题或接口故障。

·     如果接口是光口查看两端光模块是否匹配。

(2)     通过display arp all命令查看是否学到直连接口的ARP,如果没有,通过debugging arp packet命令打开两个设备上的ARP调试开关,查看ARP收发是否存在异常情况。

(3)     通过debugging ip packet命令打开两台设备上的IP调试开关,查看IP报文收发是否存在异常情况,通过debugging ip icmp命令打开ICMP调试开关,查看ICMP收发是否存在异常情况。

(4)     如果上述步骤无法具体定位故障,则收集如下信息,并联系H3C技术支持人员。

·     probe视图下,通过display hardware internal module interface-name interface-number statistics命令收集接口统计信息。

·     probe视图下,通过display hardware internal module interface-name interface-number status命令收集接口信息。

·     probe视图下,通过display hardware internal module interface-name interface-number reg 1命令收集接口FPGA信息。

·     probe视图下,通过display hardware internal module interface-name interface-number reg 2命令收集接口MAC信息。

·     probe视图下,通过display hardware internal module interface-name interface-number reg 3命令收集接口PHY信息。

·     对于FIP-300/FIP-310/SAP-16EXPprobe视图下,通过display hardware internal nae slot slot-number freein命令收集接口硬件buffer池信息。

·     对于FIP-240/SAP-4EXP,在probe视图下,通过display hardware internal dpaa slot slot-number bman pool-info命令收集硬件buffer池信息。

9.2  转发不通问题

9.2.1  故障描述

以太网接口所在路由器作为中间设备转发流量时,流量转发不通。

9.2.2  故障处理步骤

(1)     在没有流量转发的情况下,确认以太网接口与直连设备是否可以ping通,如果不通,请参见9.1  无法ping通直连设备问题处理。

(2)     通过debugging ip packet命令打开设备上的IP调试开关,查看IP报文收发是否存在异常情况。

(3)     如果上述步骤无法具体定位故障,则收集如下信息,并联系H3C技术支持人员。

·     probe视图下,通过display hardware internal module interface-name interface-number statistics命令收集接口统计信息。

·     probe视图下,通过display hardware internal module interface-name interface-number status命令收集接口信息。

·     probe视图下,通过display hardware internal module interface-name interface-number reg 1命令收集接口FPGA信息。

·     probe视图下,通过display hardware internal module interface-name interface-number reg 2命令收集接口MAC信息。

·     probe视图下,通过display hardware internal module interface-name interface-number reg 3命令收集接口PHY信息。

·     对于FIP-300/FIP-310/SAP-16EXPprobe视图下,通过display hardware internal nae slot slot-number freein命令收集接口硬件buffer池信息。

·     对于FIP-240/SAP-4EXP,在probe视图下,通过display hardware internal dpaa slot slot-number bman pool-info命令收集硬件buffer池信息。

9.3  转发丢包问题

9.3.1  故障描述

以太网接口转发流量有丢包问题。

9.3.2  故障处理步骤

(1)     通过display counters rate inbound interface命令查看入接口速率统计,通过display counters rate outbound interface命令查看出接口速率统计,初步确认丢包的设备。

(2)     通过display interface命令查看接口的流量统计,是否有丢包,确认具体丢包的接口。

(3)     如果上述步骤无法具体定位故障,则收集如下信息,并联系H3C技术支持人员。

·     对于FIP-300/FIP-310/SAP-16EXPprobe视图下,通过display hardware internal poe slot slot-number statistics命令收集统计信息;

·     对于FIP-240 HIM槽位的以太网接口probe视图下,通过display hardware internal himadp slot slot-number cnt命令 收集统计信息。

·     probe视图下,通过display hardware internal module interface-name interface-number statistics命令收集接口统计信息。

·     probe视图下,通过display hardware internal module interface-name interface-number status命令收集接口信息。

·     probe视图下,通过display hardware internal module interface-name interface-number reg 1命令收集接口FPGA信息。

·     probe视图下,通过display hardware internal module interface-name interface-number reg 2命令收集接口MAC信息。

·     probe视图下,通过display hardware internal module interface-name interface-number reg 3命令收集接口PHY信息。

·     有跨板流量转发时probe视图下,通过display hardware internal ibd pkt-info slot slot-number slot-number 命令收集板间统计信息。

9.4  故障诊断命令

命令

说明

display interface

查看接口信息

display arp all

查看所有的ARP表项信息

display counters rate inbound interface

查看入接口速率统计

display counters rate outbound interface

查看出接口速率统计

display hardware internal module interface-name interface-number statistics

查看接口可维护统计信息

display hardware internal module interface-name interface-number status

查看接口状态信息

display hardware internal module interface-name interface-number message

查看接口配置信息

display hardware internal module interface-name interface-number reg 1

查看接口FPGA信息

display hardware internal module interface-name interface-number reg 2

查看接口MAC信息

display hardware internal module interface-name interface-number reg 3

查看接口PHY信息

display hardware internal himadp slot slot-number cnt

查看FIP-240HIM以太网接口维护统计信息

display hardware internal nae slot slot-number freein

查看FIP-300/FIP-310/SAP-16EXP硬件buf信息

display hardware internal poe slot slot-number statistics

查看FIP-300/FIP-310/SAP-16EXP 丢包信息

display hardware internal dpaa slot slot-number bman pool-info

查看FIP-240/FIP-600硬件buf信息

display hardware internal ibd pkt-info slot slot-number slot-number

查看板间统计信息

debugging arp packet

打开ARP的报文调试信息开关

debugging ip packet

打开IP报文调试信息开关

debugging ip icmp

打开ICMP调试信息开关

 

10 主备倒换故障处理

10.1  重启主用主控板时备用主控板也重启

10.1.1  故障描述

reboot slot命令重启主用主控板时,备用主控板也重启。

10.1.2  故障处理步骤

(1)     原主用主控板启动完成后,将其存储介质中logfile目录下最新的logfile文件上传到PC上。

(2)     查看logfilereboot命令日志(类似Command is reboot slot 0)到上次启动开始(类似SYSLOG_RESTART: System restarted)这段时间是否出现过类似Batch backup of standby board in slot 1 has finished字符串。

·     如果没出现过,则表示是在备用主控板未启动完成的情况下,因重启主用主控而被动升主,这种情况下备用主控重启属于正常现象,无需处理。下次重启前注意确保备用主控板批量备份完成(即已经出现过类似Batch backup of standby board in slot 1 has finished日志),再用reboot slot命令重启主用主控板。

·     如果出现过,请联系H3C技术支持人员。

10.2  备用主控板意外升主

10.2.1  故障描述

正常运行过程中,主用主控板重启,备用主控板意外升主。

10.2.2  故障处理步骤

(1)     probe视图下,通过display hardware internal util slot slot-num rbinfo 5 detail查看重启记录。

(2)     如果最近一条记录为slave-rob,则表示是因备用主控板未收到主用主控板的心跳而抢主,这种情况下,等待原主用主控启动完成后,参考产品IPC故障处理手册排除IPC问题。

(3)     如果未出现过slave-rob,则表示是主用主控板自身异常导致重启,这种情况下,会进kdb,请联系H3C技术支持人员定位。

(4)     如果没进kdb,则等待原主用主控启动完成后,在probe视图下,通过display hardware internal util slot slot-num rbinfo 5 detail命令查看重启记录,用display kernel exception 2 verbose slot slot-num查看异常记录,并联系H3C技术支持人员定位。

10.3  故障诊断命令

命令

说明

display kernel exception number slot slot-num

显示异常信息

display hardware internal util slot slot-num rbinfo

显示重启信息

display hardware internal mss slot slot-num information

显示驱动主备倒换模块信息

set hardware internal mss slot slot-num heart-beat rob { disable | enable }

使能或禁止备用主控板抢主

 

11 子卡故障处理

11.1  子卡接口不存在

11.1.1  故障描述

子卡在位,但是接口找不到。

11.1.2  故障处理步骤

(1)     执行display device verbose命令,确认子卡类型以及在位状态。

(2)     确认子卡类型与接口类型一致,查找安装手册或接口卡手册确认所在线卡是否支持该子卡。

(3)     probe视图下通过display hardware internal util slot 3 nvlog 0 100,收集log信息

(4)     重新回到用户试图,输入bashbash视图下执行more /var/log/trace.log,收集log信息。

(5)     请将收集的log信息发给H3C技术支持人员确认原因。

11.2  子卡不在位

11.2.1  故障描述

设备上插有子卡,但是display device verbose却看不到子卡信息。

11.2.2  故障处理步骤

(1)     查找设备安装手册或接口卡手册,确认所在线卡是否支持该子卡。

(2)     probe视图,执行display hardware internal pci device slot slot-num命令例如:不识别的子卡插在slot 5 subslot 2上,执行命令如下:

[H3C-probe]display hardware internal pci device slot 5

… … … …

<02:05.00> pex8624 unit 1 port 5

<09:00.00> tsi384 linking subslot 2

<10:00.00> pci device in subslot 2

<02:06.00> pex8624 unit 1 port 6

<14:00.00> fpga for subslot 2

… … … …            

如果执行结果中,不存在信息“pci device in subslot  子槽位号”,请联系H3C技术支持人员。否则,继续执行下面的步骤。

(3)     在步骤(2)的信息中,找到“pci device in subslot  子槽位号”。拷贝该信息前面<>中的文字。然后执行display hardware internal pci config  拷贝的文字  slot 子槽位号 。例如:步骤(2)中的例子,找到的信息为<10:00.00> pci device in subslot 2,拷贝的文字为10:00.00。执行结果如下:

[H3C-probe]display hardware internal pci config 10:00.00 slot 5

<04:00.00> configuration space:

0000: dc 18 01 48 06 00 a0 02 12 00 80 02 00 ff 00 00

0010: 08 00 00 ec 08 00 00 ef 08 00 00 ed 00 00 00 ee

0020: 00 00 00 00 00 00 00 00 00 00 00 00 dc 18 01 48

… … … …    

执行结果中,如果第一行是0000: ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff,请更换子卡;否则,请联系H3C技术支持人员

11.3  故障诊断命令

命令

说明

display hardware internal util slot slot-num nvlog start num

显示nvlog记录的日志信息

more /var/log/trace.log

Bash视图下,查看设备操作日志。

display hardware internal pci device slot slot-num

查看PCI系统的节点信息

display hardware internal pci config bus:dev.func slot slot-num

查看PCI节点的配置寄存器