手册下载
H3C SR6600-F 路由器故障处理手册-R7607-6W100-整本手册.pdf (403.16 KB)
H3C SR6600-F 路由器
故障处理手册(V7)
资料版本:6W100-20170214
产品版本:R7606
Copyright © 2017 杭州华三通信技术有限公司 版权所有,保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部, 并不得以任何形式传播。本文档中的信息可能变动,恕不另行通知。 |
|
本文档介绍SR6600-F路由器软件和硬件常见故障的诊断及处理措施。
设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。
在进行故障诊断和处理时,请注意以下事项:
· 设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。
¡ 记录具体的故障现象、故障时间、配置信息。
¡ 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
¡ 收集设备的日志信息和诊断信息(收集方法见1.2 收集设备运行信息)。
¡ 记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。
¡ 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
¡ 记录故障处理过程中配置的所有命令行显示信息。
· 更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。
· 故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。
为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。
设备运行过程中会产生logfile、diagfile日志信息及记录设备运行状态的诊断信息。这些信息存储在设备的Flash或CF卡中,可以通过FTP、TFTP、USB等方式导出。不同主控板或设备中导出的logfile、diagfile、诊断信息文件请按照一定规则存放(如不同的文件夹:slotY),避免不同主控板或设备的运行信息相互混淆,以方便查询。
表1-1 设备运行信息介绍
分类 |
文件名 |
内容 |
logfile日志 |
logfileX.log |
命令行记录、设备运行中产生的记录信息 |
diagfile日志 |
diagfileX.log |
设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、单板无法启动时的信息、主控板与接口板通信异常时的握手信息。 |
诊断信息 |
XXX.gz |
系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等 收集诊断信息会导致设备性能下降,请谨慎使用 |
对于logfile日志和diagfile日志,当日志文件写满,产生新的日志文件时,设备会将旧的日志文件自动压缩成.gz文件。
(1) 执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在存储介质的logfile目录中。
<Sysname> logfile save
The contents in the log file buffer have been saved to the file cfa0:/logfile/logfile8.log
(2) 查看主用主控板、备用主控板的日志文件数目和名称。
· 主用主控板logfile日志:
<Sysname> dir cfa0:/logfile/
Directory of cfa0:/logfile
0 -rw- 21863 Jul 11 2013 16:00:37 logfile8.log
1021104 KB total (421552 KB free)
· 备用主控板logfile日志:
<Sysname> dir slot1#cfa0:/logfile/
Directory of slot1#cfa0:/logfile
0 -rw- 21863 Jul 11 2013 16:00:37 logfile8.log
1021104 KB total (421552 KB free)
(3) 使用FTP或TFTP将日志文件传输到指定位置。
(1) 执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在存储介质的diagfile目录中。
<Sysname> diagnostic-logfile save
The contents in the diagnostic log file buffer have been saved to the file cfa0:/diagfile/diagfile18.log
(2) 查看主用主控板、备用主控板的诊断日志文件数目和名称。
· 主用主控板diagfile日志:
<Sysname> dir cfa0:/diagfile/
Directory of cfa0:/diagfile
0 -rw- 161321 Jul 11 2013 16:16:00 diagfile18.log
1021104 KB total (421416 KB free)
· 备用主控板diagfile日志:
<Sysname> dir slot1#cfa0:/diagfile/
Directory of slot1#cfa0:/diagfile
0 -rw- 161321 Jul 11 2013 16:16:00 diagfile18.log
1021104 KB total (421416 KB free)
(3) 使用FTP或TFTP将日志文件传输到指定位置。
诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。
需要注意的是,设备上单板越多,诊断信息收集的时间越长,信息收集期间不能输入命令,请耐心等待。
通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口或管理口的情况下,建议通过业务网口或管理口登录和传输文件。
(1) 执行screen-length disable命令,以避免屏幕输出被打断(如果是将诊断信息保存到文件中,则忽略此步骤)。
<Sysname> screen-length disable
(2) 执行display diagnostic-information命令收集诊断信息。
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N] :
(3) 选择将诊断信息保存至文件中,还是将直接在屏幕上显示
· 输入“Y”,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。
Save or display diagnostic information (Y=save, N=display)? [Y/N] : Y
Please input the file name(*.tar.gz)[ cfa0:/diag.tar.gz] :cfa0:/diag.tar.gz
Diagnostic information is outputting to cfa0:/diag.tar.gz.
Please wait...
Save successfully.
<Sysname> dir cfa0:/
Directory of cfa0:
……
6 -rw- 898180 Jun 26 2013 09:23:51 diag.tar.gz
1021808 KB total (259072 KB free)
· 输入“N”,将诊断信息直接显示在屏幕上。
Save or display diagnostic information (Y=save, N=display)? [Y/N] :N
===========================================================
===============display alarm===============
No alarm information.
=========================================================
===============display boot-loader===============
Software images on slot 0:
Current software images:
cfa0:/SR6600-F-CMW710-BOOT-R7328_mrpnc.bin
cfa0:/SR6600-F-CMW710-SYSTEM-R7328_mrpnc.bin
Main startup software images:
cfa0:/SR6600-F-CMW710-BOOT-R7328_mrpnc.bin
cfa0:/SR6600-F-CMW710-SYSTEM-R7328_mrpnc.bin
Backup startup software images:
None
=========================================================
===============display counters inbound interface===============
Interface Total (pkts) Broadcast (pkts) Multicast (pkts) Err (pkts)
BAGG1 0 0 0 0
GE4/0/1 0 0 0 0
GE4/0/2 2 2 0 0
GE4/0/3 0 0 0 0
GE4/0/4 0 0 0 0
GE4/0/5 0 0 0 0
GE4/0/6 0 0 0 0
GE4/0/7 0 0 0 0
GE4/0/8 0 0 0 0
GE4/0/9 0 0 0 0
GE4/0/10 0 0 0 0
……
当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。
用户支持邮箱:service@h3c.com
技术支持热线电话:400-810-0504(手机、固话均可拨打)
无法ping通与CFIP-610/CFIP-700直连的设备。
(1) 通过display interface命令收集指定接口信息,查看:
· 接口状态是否UP。
· 接口收发包统计是否正常,有无错包和丢包统计等。如果有错包统计,可以先排除是否线缆问题或接口故障。
(2) 通过display arp all命令查看是否学到直连接口的ARP,如果没有,通过debugging arp packet命令打开两台设备上的ARP调试开关,查看ARP报文收发是否存在异常情况。
(3) 在probe视图下,通过debugging hardware internal fdp cdat slot slot-num debug { ingress | egress }命令查看CPU数据通道接口接收和发送报文的debug信息,前32字节为逻辑互通头信息,后32字节为报文内容。可以通过选择接口或报文长度等参数,对要打印报文进行过滤。可以联系H3C技术支持人员确认流量上送CPU的具体原因。
(4) probe视图下,通过display hardware internal fdp cdat slot slot-num statistics命令收集CPU数据通道统计信息。该命令可以查看CPU上和逻辑之间的报文收发统计和速率。选择参数4可以查看详细统计信息,包括基于VCPU的各项统计。
(5) 在probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 8命令收集CPU和逻辑内部丢包统计信息,如果有丢包计数,请联系H3C技术支持人员确认丢包原因。
(6) 在probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 80命令收集逻辑内部统计信息。如果有Drop统计,请联系H3C技术支持人员确认丢包原因。
(7) 在probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 100命令收集CPU数据通道接口统计信息。
(8) 在probe视图下,通过display hardware internal fdp flow slot slot-num statistic命令收集逻辑三层报文上送CPU统计信息,查看Packet Statistics information中是否存在存在错包或失败统计,请联系H3C技术支持人员确认丢包原因。
(9) 在probe视图下,通过display hardware internal fdp cdat slot slot-num status 80命令 查看逻辑内部状态信息,在无流量情况下,如果FIFO状态非空,说明逻辑FIFO堵塞,请联系H3C技术支持人员定位。
(10) 如果逻辑和CPU之间报文收发正常,需要参照软件转发定位手段,如是否有路由表等。
(11) 在probe视图下,通过display hardware internal nae slot slot-num freein命令收集硬件信息,并联系H3C技术支持人员定位。
CFIP-610/CFIP-700所在路由器作为中间设备转发流量时,流量转发不通。
(1) 确认与直连设备是否可以ping通,如果不通,请参见“2.1 无法ping通直连设备问题”。
(2) 在probe视图下,通过display hardware internal fdp cdat slot slot-num statistics命令收集CPU数据通道统计信息。该命令可以查看CPU上和逻辑之间的报文收发统计和速率信息。如果CPU接收报文速率与转发流量速率基本吻合,说明报文被逻辑上送到了CPU转发,此时:
· 如果CPU发送报文速率明显减小,说明报文被软件丢弃或透传到了主控板。
· 如果发送报文速率与接收报文速率基本一致,说明报文没有被软件丢弃,正常转发。
· 如果CPU接收报文速率很小,明显与转发流量速率不符,说明报文没有上送到CPU。
(3) 如果报文上送到了CPU,probe视图下debugging hardware internal fdp cdat slot slot-num debug { ingress | egress }命令查看CPU数据通道接口接收和发送报文的debug信息,前32字节为逻辑互通头信息,后32字节为报文内容。可以通过选择接口或报文长度等参数,对要打印报文进行过滤。可以联系H3C技术支持人员确认流量上送CPU的具体原因。
(4) 如果报文被CPU丢弃,在probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 8查看CPU丢包统计;通过display hardware internal fdp flow slot slot-num statistic收集逻辑三层报文上送CPU统计,查看Packet Statistics information中是否存在错包或失败统计,如果有丢包统计,请联系H3C技术支持人员定位。
(5) 在probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 8命令收集CPU和逻辑内部丢包统计信息,如果有丢包计数,请联系H3C技术支持人员确认丢包原因。
(6) 在probe视图下,通过debugging hardware internal fdp cdat slot slot-num bypass interface命令在转发入接口打开旁路逻辑功能,如果可以正常转发流量,可以确认为逻辑转发问题,请联系H3C技术支持人员定位。
(7) 在probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 80命令收集逻辑内部统计信息。如果有Drop统计,请联系H3C技术支持人员确认丢包原因。
(8) 在probe视图下,通过display hardware internal fdp cdat slot slot-num status 80命令 查看逻辑内部状态信息,在无流量情况下,如果FIFO状态非空,说明逻辑FIFO堵塞,请联系H3C技术支持人员定位。
(9) 如果逻辑和CPU之间报文收发正常,需要参照软件转发定位手段,如是否有路由表等。
CFIP-610/CFIP-700转发流量有丢包问题。
(1) 在probe视图下display hardware internal fdp cdat slot slot-num statistics收集CPU数据通道统计。该命令可以查看CPU上和逻辑之间的报文收发统计和速率。
· 如果CPU接收报文速率与转发流量速率基本吻合,说明报文被逻辑上送到了CPU转发。
· 如果CPU接收报文速率很小,明显与转发流量速率不符,说明报文在逻辑转发。
(2) 如果报文上送到了CPU,在probe视图下通过debugging hardware internal fdp cdat slot slot-num debug { ingress | egress }命令查看CPU数据通道接口接收和发送报文的debug信息,前32字节为逻辑互通头信息,后32字节为报文内容。可以通过选择接口或报文长度等参数,对要打印报文进行过滤。可以联系H3C技术支持人员确认流量上送CPU的具体原因。
(3) 如果报文在逻辑内部丢包,在probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 8收集逻辑内部丢包统计信息。如果有丢包计数,请联系H3C技术支持人员确认丢包原因。
(4) 在probe视图下,通过display hardware internal fdp cdat slot slot-num statistics 80命令收集逻辑内部统计信息。如果有Drop统计,请联系H3C技术支持人员确认丢包原因。
CFIP-700所在路由器作为IPRAN组网B设备时有丢包问题。
(1) 首先观察B设备和转发路径上其他设备,如其他B设备、A设备、ER设备、CE设备环回口是否能够ping通,若ping不通则观察是否有目的IP的路由,若没有路由则需要检查配置情况。
(2) 若有路由则先检查直连下一跳是否能ping通,若无法ping通,请参考“2.1 无法ping通直连设备问题”。若直连下一跳可以ping通,则说明路径上其他设备存在问题,需要依转发路径逐个排查。
(3) 若能ping通转发路径上其他设备的环回口,则请参考“2.1.2 (11)在probe视图下,通过display hardware internal nae slot slot-num freein命令收集硬件信息,并联系H3C技术支持人员定位。
(4) 转发不通问题”和“2.3 转发丢包问题”继续定位。
命令 |
说明 |
display hardware internal fdp cdat slot slot-num statistics |
显示CPU数据通道统计信息 |
reset hardware internal fdp cdat slot slot-num statistics |
清除CPU数据通道统计信息 |
display hardware internal fdp cdat slot slot-num status |
显示CPU数据通道状态信息 |
debugging hardware internal fdp cdat slot slot-num debug |
设置CPU数据通道报文Debug开关 |
display hardware internal fdp flow slot slot-num statistic |
显示三层报文驱动接收统计信息 |
reset hardware internal fdp flow slot slot-num statistic |
清除三层报文驱动接收统计信息 |
debugging hardware internal fdp cdat slot slot-num bypass |
设置旁路逻辑功能 |
display hardware internal nae slot slot-num freein |
显示CPU硬件Buffer池状态 |
主控板无法启动。
(1) 查看主控板运行状态指示灯(RUN灯)状态,设备正常启动后,RUN灯状态为快闪(8Hz)。若RUN灯不亮表示设备无电源输入或者BootWare基本段被破坏。
· 运行状态指示灯不亮是指上电后从来没亮过,如果开始闪了一会儿(超过5秒)后续又灭的,则不算此情况。
· 设备上电后RUN灯就常亮或慢闪(1Hz)表示设备硬件故障。
(2) 判断设备是否上电。检查风扇是否转动,也可以经过一段时间后,拔出主控板,检验CPU上的散热片是否有热度。如果没有上电,则检查供电、电源模块,设备硬件故障也会导致主控板不能上电。如果设备上电正常,则应该是BootWare基本段被破坏,请联系H3C技术支持人员进一步定位。
(3) 检查Bootware基本段是否运行成功。
· 查看是否有如下信息,是则说明基本段运行成功。
System is starting...
Press Ctrl+D to access BASIC-BOOTWARE MENU...
Press Ctrl+T to start memory test
Booting Normal Extended BootWare
The Extended BootWare is self-decompressing........Done.
****************************************************************************
* *
* H3C SR66 BootWare, Version 2.05 *
* *
****************************************************************************
Copyright (c) 2004-2016 Hangzhou H3C Technologies Co., Ltd.
Compiled Date : Jan 18 2016
CPU Type : P2020
CPU L1 Cache : 32KB
CPU Clock Speed : 1000MHz
Memory Type : DDR3 SDRAM
Memory Size : 4096MB
Memory Speed : 667MHz
BootWare Size : 1024KB
Flash Size : 8MB
cfa0 Size : 999MB
NVRAM Size : 128KB
BASIC CPLD Version : 3.0
EXTENDED CPLD Version: 2.0
PCB Version : Ver.B
· 没有任何输出信息表示内存或CPU故障。对于CRSE-X3,可以将内存拔掉,查看启动后是否有如下信息:
RAM initialization failed
Fatal error! Please reboot the board.
若没有上述显示信息,则可能是CPU故障,请联系H3C技术支持人员进一步定位;若有打印,则说明初始化内存时出现问题,可联系H3C技术支持人员更换内存条。
· 如果上电后打印如下类似信息,则可能是内存条有问题,也可能是内存通道的硬件电路出现问题,请联系H3C技术支持人员进一步定位。
readed value is 75555555 , expected value is 55555555
DRAM test fails at: 5ff80020
Fatal error! Please reboot the board.
:
以上信息是内存自检失败打印的。有时候系统因为异常发生热启动,内存控制器状态还未恢复,会出现自检失败的情况(极小概率),此时重启设备就可以恢复。
· 若打印下面信息,则说明BootWare扩展段和备份扩展段不正确,BootWare无法启动,此时请升级扩展段。
System start booting...
Boot ROM program does not exist.
Now start to download program.
======================<BASIC-BOOTWARE MENU(Ver 1.12)>=====================
|<1> Modify Serial Interface Parameter |
|<2> Update Extend BootWare |
|<3> Update Full BootWare |
|<4> Boot Extend BootWare |
|<5> Boot Backup Extend BootWare |
|<0> Reboot |
==========================================================================
Enter your choice(0-5):
· 打印如下信息后没有反应,请联系H3C技术支持人员进一步定位。
System start booting...
Booting Normal Extend BootWare........
(4) 查看加载启动程序是否正常。
· 显示如下信息,说明启动程序文件加载、解压成功。
****************************************************************************
* *
* H3C SR66 BootWare, Version 2.05 *
* *
****************************************************************************
Copyright (c) 2004-2016 Hangzhou H3C Technologies Co., Ltd.
Compiled Date : Jan 18 2016
CPU Type : P2020
CPU L1 Cache : 32KB
CPU Clock Speed : 1000MHz
Memory Type : DDR3 SDRAM
Memory Size : 4096MB
Memory Speed : 667MHz
BootWare Size : 1024KB
Flash Size : 8MB
cfa0 Size : 999MB
NVRAM Size : 128KB
BASIC CPLD Version : 3.0
EXTENDED CPLD Version: 2.0
PCB Version : Ver.B
BootWare Validating...
Press Ctrl+B to access EXTENDED-BOOTWARE MENU...
Loading the main image files...
Loading file flash:/SR6600-cmw710-system-test.bin........................
............................................................................
............................................................................
.........................Done.
Loading file flash:/SR6600-cmw710-boot-test.bin..........................
....Done.
Image file flash:/SR6600-cmw710-boot-test.bin is self-decompressing......
....................................................Done.
System image is starting...
Line aux1 is available.
Press ENTER to get started.
· 显示如下信息,表示启动程序文件不存在,需要重新下载启动程序文件。
****************************************************************************
* *
* H3C SR66 BootWare, Version 2.05 *
* *
****************************************************************************
Copyright (c) 2004-2016 Hangzhou H3C Technologies Co., Ltd.
Compiled Date : Jan 18 2016
CPU Type : P2020
CPU L1 Cache : 32KB
CPU Clock Speed : 1000MHz
Memory Type : DDR3 SDRAM
Memory Size : 4096MB
Memory Speed : 667MHz
BootWare Size : 1024KB
Flash Size : 8MB
cfa0 Size : 999MB
NVRAM Size : 128KB
BASIC CPLD Version : 3.0
EXTENDED CPLD Version: 2.0
PCB Version : Ver.B
BootWare Validating...
Application program does not exist.
Please input BootWare password:
· 若显示如下信息,表示获取的启动程序文件发生校验错,请重新下载启动程序文件到存储介质(如CF卡)中。
****************************************************************************
* *
* H3C SR66 BootWare, Version 2.05 *
* *
****************************************************************************
Copyright (c) 2004-2016 Hangzhou H3C Technologies Co., Ltd.
Compiled Date : Jan 18 2016
CPU Type : P2020
CPU L1 Cache : 32KB
CPU Clock Speed : 1000MHz
Memory Type : DDR3 SDRAM
Memory Size : 4096MB
Memory Speed : 667MHz
BootWare Size : 1024KB
Flash Size : 8MB
cfa0 Size : 999MB
NVRAM Size : 128KB
BASIC CPLD Version : 3.0
EXTENDED CPLD Version: 2.0
PCB Version : Ver.B
BootWare Validating...
Press Ctrl+B to enter extended boot menu...
Starting to get the main application file--cfa0:/system.bin!................
..........................................................................
..........................................................................
..........................................................................
Something wrong with the file.
(5) 检查启动程序启动过程。
· 没有system包,系统启动之后进入boot界面,对于这种情况,需要重新下载软件版本。
Loading the main image files...
Loading file cfa0:/boot.bin.................................................
...................................Done.
<boot>
· 对于以下四类情况,请联系H3C技术支持人员进一步定位。
¡ 提示System image is starting...,无任何其他输出。
¡ 提示System image is starting...,未进入命令行界面,反复重启。
¡ 提示Press ENTER to get started,但是无法进入命令行界面。
¡ 可以进入命令行界面,但是一段时间之后自动重启。
业务板无法正常启动。
(1) 查看业务板运行状态指示灯(RUN灯)是否亮,业务板正常启动后,RUN灯状态为快闪(8Hz)。若RUN灯没有亮表示业务板无电源输入或者业务板故障。
· 运行状态指示灯不亮是指业务板上电后从来没亮过,如果开始闪了一会儿(超过5秒)后续又灭的,则不算此情况。
· 业务板上电后RUN灯就常亮或慢闪(1Hz)表示硬件故障。
(2) 若RUN灯没有点亮,有如下两种情况:
· 业务板不能上电
先通过display device命令查看设备是否上电。
<System> display device
Slot No. Board type Status Primary SubSlots
---------------------------------------------------------------------
0 CRSE-X3 Startup Standby 0
1 CRSE-X3 Normal Master 0
2 N/A Absent N/A N/A
3 CFIP-610 Wait N/A 1
如果Status状态为:Startup表示单板上电,正在启动;Wait表示系统功率不足无法上电。
在probe视图下,通过display hardware internal sysm power-management命令查看功率是否足够。
[System-probe]display hardware internal sysm power-management
System Power Total : 650 watts
System Power Used : 150 watts
System Power Available : 300 watts
System Power Per Unit : 650 watts
System Power Reserved : 200 watts
System Power AlarmFlag : 0x00000000
Slot Board Type Watts Priority
------------------------------------------------------------
0 CRSE-X3 0(0) 0(0)
1 CRSE-X3 0(0) 0(0)
2 NA 0(0) 0(0)
3 CFIP-610 150(0)* 5(-1)
如果功率够仍然无法上电,通过display hardware internal sysm fip命令查看详细状态,如果为enable,则可能是业务板硬件存在故障,无法上电,更换槽位重新测试是否可以上电。
[System-probe]display hardware internal sysm fip
Slot No. State Errcode Flags HwFlags
--------------------------------------------------------------
2 Off 0 0x0 0x0
3 enable 0 0x3 0x43
Flags :
bit0-PowerOn bit1-Present
bit2-ManuOn bit3-ManuOff
bit4-AutoOff bit5-Inserting
bit6-Enable
如果Status状态为:Fault表示业务板bom码错误或该业务板在当前设备上不支持;Disable表示业务板被卸载,可以配置undo remove slot命令取消卸载业务板。
· BootWare基本段被破坏
如果设备上电正常,则应该是BootWare基本段被破坏,请联系H3C技术支持人员进一步定位。
(3) 检查Bootware基本段是否运行成功,处理步骤参见“3.1.2 (3)检查Bootware基本段是否运行成功。”。
FIP板上也有类似主控板Console口的串口,是一个位于单板内部的RJ45口,称为调试串口。该串口同Console口一样会打印BootWare的启动信息。由于需要连线到单板内部,需要该FIP板的相邻槽位不插板子,留出走线的空间。
(4) 查看加载启动文件是否正常。
· IPC不通,无法同步信息。
Press Ctrl+B to enter extended boot menu......
Failed. No response received from the active MPU.
GDSYNC_SendRequest: Start
GDSYNC_SendRequest: Start
GDSYNC_SendRequest: Start
GDSYNC_SendRequest: Start
GDSYNC_SendRequest: Start
GDSYNC_Start failed!
SYNC failed.
一直打印上述信息,说明硬件IPC通道不通,需要更换槽位测试是否能否同步成功。
¡ 更换槽位可以成功,在原槽位换入一块新的业务板,看能够同步成功。如果无法成功,可能是主控板或该业务板槽位存在故障。如果可以成功,将故障单板重新插入该槽位测试。
¡ 更换槽位也无法成功,使用新的业务板替代测试。如果无法成功,可能是主控或该业务板槽位存在故障。如果可以成功,该槽位的IPC通到存在故障。
· 主控板串口反复打印如下信息表示启动文件加载失败,需要确认当前使用的软件版本是否是正式发布版本,该版本是否支持该业务板。
%Jul 17 14:01:48:947 2014 H3C DEV/3/LOAD_FAILED: -MDC=1; Board in slot 3 failed to load software images.
%Jul 17 14:01:48:948 2014 H3C DEV/3/LOAD_FAILED: -MDC=1; Board in slot 3 failed to load software images.
(5) 检查启动文件启动过程,如出现如下情况请联系H3C技术支持人员进一步定位。
· 提示System image is starting...无任何其他输出。
· 提示System image is starting...有信息输出,一直挂死。
· 提示System image is starting...反复重启。
· 提示System image is starting...主控打印业务板Change to Normal信息之后,业务板反复重启。
命令 |
说明 |
display device |
显示设备信息 |
光模块安装正确,光纤连接正常,接口物理down 或者协议down。
(1) 在probe视图下,通过display hardware internal module interface-type interface-numbe reg 6 命令查看光模块在位状态是否正确。
(2) 如果光模块在位,在probe视图下,通过display transceiver information interface命令查看两端的光模块类型是否匹配,如果匹配,查看光模块类型是否与接口类型匹配。光模块必须配对使用,光模块类型必须与接口类型匹配。
(3) 查看光纤类型是否与光模块匹配,光纤光模块有单模多模之分,必须匹配使用。
(4) 通过display hardware internal module interface-type interface-number reg 0查看CPLD,判断是否有收发故障,查看是否硬件故障。
(5) 如果上述步骤无法定位故障,请联系H3C技术支持人员。
Console口打印光模块类型是Unknow。
(1) 在Probe 视图下,通过display hardware internal module interface-type interface-numbe reg 0查看光模块是否是真模块,是否有电子标签;如果是伪模块,无法正确显示光模块类型,并且display transceiver manuinfo interface、display transceiver diagnosis interface命令不可用。
(2) 在Probe 视图下,通过display hardware internal transceiver register interface命令可以读取光模块内部寄存器值,对比查看。
(3) 如果上述步骤无法定位故障,请联系H3C技术支持人员。
接口打印告警信息,或者不断出现光模块插入拔出信息打印。
(1) 查看板卡的CPLD版本,看是否升级到最新版本。
(2) 通过display transceiver alarm interface 命令查看是否有告警,告警是否与打印信息匹配。一般的告警信息,都是从dware统计来的,驱动只负责显示。
命令 |
说明 |
display transceiver alarm interface interface-name interface-number |
查看光模块告警信息 |
display transceiver diagnosis interface interface-name interface-number |
查看光模块诊断 |
display transceive interface interface-name interface-number |
查看光模块基本信息 |
display transceiver information interface interface-name interface-number |
查看光模块详细信息 |
display transceiver manuinfo interface-name interface-number |
查看光模块制造信息 |
display hardware internal module interface-name interface-number reg 6 |
查看光模块驱动维护信息 |
display hardware internal transceiver register interface interface-name interface-number device device-index address address length length |
读取光模块内部寄存器值 |
无法ping通与以太网接口直连的设备。
(1) 通过display interface命令收集指定接口信息,查看:
· 接口状态是否UP。
· 接口两端速率双工是否匹配。
· 接口收发包统计是否正常,有无错包和丢包统计,如果有错包统计,可以先排除线缆问题或接口故障。
· 如果接口是光口查看两端光模块是否匹配。
(2) 通过display arp all命令查看是否学到直连接口的ARP表项,如果没有,通过debugging arp packet命令打开两个设备上的ARP调试开关,查看ARP报文收发是否存在异常情况。
(3) 通过debugging ip packet命令打开两台设备上的IP调试开关,查看IP报文收发是否存在异常情况,通过debugging ip icmp命令打开ICMP调试开关,查看ICMP报文收发是否存在异常情况。
(4) 如果上述步骤无法具体定位故障,则收集如下信息,并联系H3C技术支持人员。
· 在probe视图下,通过display hardware internal module interface-name interface-number statistics命令收集接口统计信息。
· 在probe视图下,通过display hardware internal module interface-name interface-number status命令收集接口信息。
· 在probe视图下,通过display hardware internal module interface-name interface-number reg 1命令收集接口FPGA信息。
· 在probe视图下,通过display hardware internal module interface-name interface-number reg 2命令收集接口MAC信息。
· 在probe视图下,通过display hardware internal module interface-name interface-number reg 3命令收集接口PHY信息。
以太网接口所在路由器作为中间设备转发流量时,流量转发不通。
(1) 在没有流量转发的情况下,确认以太网接口与直连设备是否可以ping通,如果不通,请参见“5.1 无法ping通直连设备问题”处理。
(2) 如果可以ping通,则可以通过debugging ip packet命令打开设备上的IP调试开关,查看IP报文收发是否存在异常情况。
(3) 如果上述步骤无法具体定位故障,则收集如下信息,并联系H3C技术支持人员。
· 在probe视图下,通过display hardware internal module interface-name interface-number statistics命令收集接口统计信息。
· 在probe视图下,通过display hardware internal module interface-name interface-number status命令收集接口信息。
· 在probe视图下,通过display hardware internal module interface-name interface-number reg 1命令收集接口FPGA信息。
· 在probe视图下,通过display hardware internal module interface-name interface-number reg 2命令收集接口MAC信息。
· 在probe视图下,通过display hardware internal module interface-name interface-number reg 3命令收集接口PHY信息。
以太网接口报文转发时发生丢包问题。
(1) 检查两端端口状态是否一直UP,并使用display interface 命令查看入/出方向的报文统计是否增长。为方便查看,也可以使用reset counter interface清空当前端口的报文统计结果再进行观察。同时,查看对端是否有发送/接收报文统计。检查端口错包统计是否持续增长。
(2) 如果上述步骤无法具体定位故障,则收集如下信息,并联系H3C技术支持人员。
· 在probe视图下,通过display hardware internal module interface-name interface-number statistics命令收集接口统计信息。
· 在probe视图下,通过display hardware internal module interface-name interface-number status命令收集接口信息。
· 在probe视图下,通过display hardware internal module interface-name interface-number reg 1命令收集接口FPGA信息。
· 在probe视图下,通过display hardware internal module interface-name interface-number reg 2命令收集接口MAC信息。
· 在probe视图下,通过display hardware internal module interface-name interface-number reg 3命令收集接口PHY信息。
· 有跨板流量转发时,在probe视图下,通过display hardware internal ibd pkt-info slot slot-number slot-number 命令收集板间统计信息。
命令 |
说明 |
display interface |
查看接口信息 |
display arp all |
查看所有的ARP表项信息 |
display counters rate inbound interface |
查看入接口速率统计 |
display counters rate outbound interface |
查看出接口速率统计 |
display hardware internal module interface-name interface-number statistics |
查看接口可维护统计信息 |
display hardware internal module interface-name interface-number status |
查看接口状态信息 |
display hardware internal module interface-name interface-number message |
查看接口配置信息 |
display hardware internal module interface-name interface-number reg 1 |
查看接口FPGA信息 |
display hardware internal module interface-name interface-number reg 2 |
查看接口MAC信息 |
display hardware internal module interface-name interface-number reg 3 |
查看接口PHY信息 |
display hardware internal ibd pkt-info slot slot-number slot-number |
查看业务板之间报文的统计信息 |
debugging arp packet |
打开ARP的报文调试信息开关 |
debugging ip packet |
打开IP报文调试信息开关 |
debugging ip icmp |
打开ICMP调试信息开关 |
用reboot命令重启主用主控板时,备用主控板也重启。
(1) 在原主用主控板启动完成后,使用ftp或tftp命令将存储介质中logfile目录下最新的logfile文件上传到文件服务器。
(2) 查看logfile中reboot命令日志(类似Command is reboot slot 0)到上次启动开始(类似SYSLOG_RESTART: System restarted)这段时间是否出现过类似Batch backup of standby board in slot 1 has finished字符串。
· 如果没出现过,则表示是在原备用主控板未启动完成的情况下,因重启主用主控而被动变成主用主控板,这种情况下备用主控重启属于正常现象,无需处理。下次重启前注意确保备用主控板批量备份完成(即已经出现过类似Batch backup of standby board in slot 1 has finished日志),再用reboot slot命令重启主用主控板。
· 如果出现过,请联系H3C技术支持人员。
正常运行过程中,主用主控板重启,备用主控板意外变成主用主控板。
(1) 在probe视图下,通过display hardware internal util slot slot-num rbinfo 5 detail查看重启记录。
(2) 如果最近一条记录为slave-rob,则表示是因备用主控板未收到主用主控板的报文而切换成主用主控板,请等待原主用主控启动完成后,联系H3C技术支持人员定位。
(3) 如果未出现过slave-rob记录,则表示是主用主控板自身异常导致重启,请在probe视图下,通过display hardware internal util slot slot-num rbinfo 5 detail命令查看重启记录,用display kernel exception 2 verbose slot slot-num查看异常记录,并联系H3C技术支持人员定位。
命令 |
说明 |
display kernel exception number slot slot-num |
显示异常信息 |
display hardware internal util slot slot-num rbinfo |
显示重启信息 |
display hardware internal mss slot slot-num information |
显示驱动主备倒换模块信息 |
set hardware internal mss slot slot-num heart-beat rob { disable | enable } |
使能或禁止备用主控板抢主 |
子卡已经安装,但是display interface brief却看不到子卡上的接口。
(1) 执行display device verbose命令,确认子卡类型以及在位状态。
(2) 确认子卡类型与接口类型一致,查找接口模块手册确认所在业务板是否支持该子卡。
(3) 如果上述操作还是无法解决故障,请通过display hardware internal util slot slot-num nvlog start num收集log信息,并联系H3C技术工程师。
设备上插有子卡,但是display device verbose却看不到子卡信息。
(1) 查找设备接口模块手册,确认所在业务板是否支持该子卡。
(2) 在probe视图下,执行display hardware internal pci device slot slot-num命令,例如:不识别的子卡插在slot 5 subslot 2上,执行命令如下:
[System-probe]display hardware internal pci device slot 5
… … … …
<02:05.00> pex8624 unit 1 port 5
<09:00.00> tsi384 linking subslot 2
<10:00.00> pci device in subslot 2
<02:06.00> pex8624 unit 1 port 6
<14:00.00> fpga for subslot 2
… … … …
如果执行结果中,不存在信息“pci device in subslot 子槽位号”,请联系H3C技术支持人员。否则,继续执行下面的步骤。
(3) 在步骤(2)的信息中,找到“pci device in subslot 子槽位号”。拷贝该信息前面<>中的文字。然后执行display hardware internal pci config命令。例如:步骤(2)中的例子,找到的信息为<10:00.00> pci device in subslot 2,拷贝的文字为10:00.00。执行结果如下:
[System-probe]display hardware internal pci config 10:00.00 slot 5
<04:00.00> configuration space:
0000: dc 18 01 48 06 00 a0 02 12 00 80 02 00 ff 00 00
0010: 08 00 00 ec 08 00 00 ef 08 00 00 ed 00 00 00 ee
0020: 00 00 00 00 00 00 00 00 00 00 00 00 dc 18 01 48
… … … …
执行结果中,如果第一行是0000: ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff ff,表示子卡PCI链路故障,请更换子卡;否则,请联系H3C技术支持人员。
命令 |
说明 |
display hardware internal util slot slot-num nvlog start num |
显示nvlog记录的日志信息 |
display hardware internal pci device slot slot-num |
查看PCI系统的节点信息 |
display hardware internal pci config bus:dev.func slot slot-num |
查看PCI节点的配置寄存器 |
开启NetStream功能的接口存在主备链路,当主链路发生故障切到备,再切回来后,执行display ip netstream cache命令看不到NetStream流缓冲区中有数据流的统计信息。
(1) 确认当前开启NetStream功能的接口所在链路确实有数据流通过。
(2) 执行reset ip fast-forwarding cache命令清除快速转发表中的信息。
(3) 执行display ip netstream cache命令查看NetStream流缓冲区中是否统计到数据流的信息。
(4) 如果上述操作无法解决故障,请通过display current-configuration收集当前设备的配置信息,并联系H3C技术工程师。
命令 |
说明 |
display ip netstream cache |
查看NetStream流缓存区的配置和状态信息。 |
reset ip fast-forwarding cache |
清除快速转发表中的信息。 |
display current-configuration |
显示设备当前生效的配置。 |
开启IPv6 NetStream功能的接口存在主备链路,当主链路发生故障切到备,再切回来后,执行display ipv6 netstream cache命令看不到IPv6 NetStream流缓冲区中有数据流的统计信息。
(1) 确认当前开启IPv6 NetStream功能的接口所在链路确实有数据流通过。
(2) 执行reset ipv6 fast-forwarding cache命令清除IPv6快速转发表中的信息。
(3) 执行display ipv6 netstream cache命令查看IPv6 NetStream流缓冲区中是否统计到数据流的信息。
(4) 如果上述操作无法解决故障,请通过display current-configuration收集当前设备的配置信息,并联系H3C技术工程师。
命令 |
说明 |
display ipv6 netstream cache |
查看IPv6 NetStream流缓存区的配置和状态信息。 |
reset ipv6 fast-forwarding cache |
清除IPv6快速转发表中的信息。 |
display current-configuration |
显示设备当前生效的配置。 |