01-故障处理通用方法
本章节下载 (222.34 KB)
· 更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。
· 设备正常运行时,建议您在完成重要功能的配置后,及时保存当前配置,以便设备出现故障后能迅速恢复配置。
· M9000的故障,包括主控故障、引擎故障、接口板、网板故障。对主控板和接口板的故障,主要通过主控板上的Console口或者Telnet来进行搜集。对引擎故障,主要通过引擎上的Console口来搜集。
· 设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),搜集信息越全面、越详细,越有利于故障的快速定位。
¡ 记录具体的故障现象、故障时间、配置信息。
¡ 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
¡ 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
¡ 记录故障处理过程中配置的所有命令行显示信息。
¡ 搜集设备日志信息和diag信息。
¡ 记录抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息。
¡ 记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。
¡ 引擎故障时,需要单独记录引擎的故障信息。需要连接引擎的串口线搜集信息。
· 故障处理过程中,请注意:
¡ 明确每项配置操作的影响,保证操作出问题时能够被恢复,故障影响不会扩大。
¡ 操作执行后请等待一定时间以确认执行效果。
¡ 请不要保存故障处理过程中的配置,特别是出现IRF分裂、单板Fault、单板重启时,否则会引起配置丢失。
¡ 更换主控板时,请确保新、老主控板的软件版本一致。
为方便故障快速定位,建议不要关闭设备的信息中心(info-center enable),缺省情况下信息中心处于开启状态。
设备运行过程中会产生logfile日志信息及记录设备运行状态的diag信息。这些信息存储在Flash中,可以通过FTP或TFTP等方式导出。不同主控板中导出的logfile、diag文件请按照一定规则存放(如不同的文件夹:chassisXslotY),避免不同主控板的运行信息相互混淆,以方便查询。
表1 设备运行信息介绍
分类 |
文件名 |
内容 |
logfile日志 |
logfileX.log |
命令行记录、Trap信息、设备运行中产生的记录信息 |
diag信息 |
XXX.gz |
设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等 |
请先通过logfile save将设备缓存的logfile日志保存到Flash中,并将日志搜集完整,包括:主用主控板、备用主控板、IRF下主框/备框各主备主控板的日志,如果设备创建Context还需要搜集每个Context对应的日志。
[Device] logfile save
The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log.
主用主控板logfile日志:
<Device> dir slot0#flash:/logfile/
Directory of flash:/logfile
0 -rw- 5233116 Apr 27 2013 09:20:44 logfile1.log
1 -rw- 5142919 May 03 2013 14:15:42 logfile2.log
2 -rw- 5193287 May 09 2013 12:28:08 logfile3.log
1021808 KB total (259072 KB free)
备用主控板logfile日志:
<Device> dir slot1#flash:/logfile/
Directory of slot1#flash:/logfile
0 -rw- 5242287 May 13 2013 16:47:46 logfile4.log
1 -rw- 5143837 May 24 2013 22:56:46 logfile5.log
2 -rw- 5149806 Jun 01 2013 13:43:26 logfile6.log
1020068 KB total (643264 KB free)
IRF下备框主控板logfile日志,如备框有两块主控板,则两块都需要搜集:
<Device> dir chassis2#slot0#flash:/logfile/
Directory of chassis2#slot0#flash:/logfile
0 -rw- 5215316 Jun 03 2013 05:49:20 logfile7.log
1 -rw- 5235163 Jun 21 2013 07:31:54 logfile8.log
2 -rw- 3256492 Jun 26 2013 09:01:08 logfile9.log
1021808 KB total (773424 KB free)
执行display diagnostic-information命令后,请输入“Y”,以选择将diag保存到Flash卡中(选择display会出现信息搜集不全)。设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请耐心等待。
<Device> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:y
Please input the file name(*.gz)[flash:/diag.gz]:
The file already exists,overwirte it?[Y/N]:y
Diagnostic information is outputting to flash:/diag.gz.
Save successfully.
<Device> dir flash:/
Directory of flash:
6 -rw- 898180 Jun 26 2013 09:23:51 diag.gz
1021808 KB total (259072 KB free)
也可以将diag信息直接显示出来(不建议这样搜集),搜集前请先执行screen-length disable,避免屏幕输出被打断,如下:
<Device> screen-length disable
Screen-length configuration is disabled for current user
<Device> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:n
==================================================================
===============display cpu===============
Chassis 2 Slot 0 CPU 0 CPU usage:
4% in last 5 seconds
0% in last 1 minute
0% in last 5 minutes
Chassis 2 Slot 0 CPU 1 CPU usage:
0% in last 5 seconds
0% in last 1 minute
0% in last 5 minutes
设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。
如遇到故障无法确认,请将故障描述连同搜集的信息发送给H3C技术支持人员分析。
图1为故障处理的一般流程,可以大致判断出故障的类型。
故障分析时常用的方法有:
· 端口报文计数。
· 报文镜像。
· 端口抓包。
· 查看会话状态及统计信息。
· 查看L2、L3转发表项及统计。
· 查看Openflow表项下发是否正确。
· Debug开关信息。
如单板出现异常重启、状态异常、无法启动、反复重启,请参照“硬件类故障处理”中的“单板故障”进行处理。
如设备风扇指示灯异常、风扇停转、不断打印风扇告警信息,请参照“硬件类故障处理”中的“风扇故障”进行处理。
如设备打印温度告警,请参照“硬件类故障处理”中的“温度告警”进行处理。
如端口出现无法UP、频繁UP/DOWN、端口错包,请参照“设备转发”中的相关故障案例进行处理。
如出现ping、tracert丢包或不通、二层丢包或不通、三层丢包或不通、业务异常等,请参照“设备转发”中的相关故障案例进行处理。
如设备无法形成IRF、IRF分裂等,请参照“IRF”中的相关故障案例进行处理。
如果出现主备切换异常、冗余口转发异常、冗余口切换异常,请参照“IRF”中的相关故障案例进行处理。
如果出现nat转换异常,不能正常转换,或者alg处理异常,请参照“NAT”中的相关故障案例进行处理。
IPsec出现转发不通、不能正常加解密时,请参照“IPsec”中的相关故障案例进行处理。
如主控设备或引擎的CPU占用率很高,请参照“系统维护”中的相关故障案例进行处理。
如设备单板内存占用率很高,请参照“系统维护”中的相关故障案例进行处理。
图2是一个典型网络故障模型,为提高网络的可靠性,两台Device设备采用IRF模式,可以为双主方式、主备方式,典型网络故障模型如下:
表2 故障点影响分析
故障点 |
可能现象 |
影响范围 |
(1)、(3)(含光模块) |
端口DOWN |
业务会切换 |
端口错包增加 |
影响该链路上的业务(影响范围大) |
|
(2) |
主控单板故障 |
业务会切换 |
引擎单板故障 |
如果链路和该引擎单板track,业务会切换 |
|
接口单板故障 |
业务可能会切换 |
|
(4) |
堆叠链路单条断 |
不影响业务,但可能影响性能 |
堆叠链路2条链路全断 |
堆叠分裂 |
表3 常见的故障恢复措施
故障原因 |
业务恢复动作 |
故障排除动作 |
硬件 |
· 隔离故障单板; · 调整业务流向来隔离故障设备(如可以调整路由的优先级,避免流量经过故障设备,实现流量切换) |
更换备件(备件上线应用前应进行必要的测试) |
软件 |
· 重启故障设备的协议; · 调整业务流向来隔离故障设备。 |
· 升级版本(含补丁版本); · 调整组网或配置消除引发故障因素。 |
链路 |
调整业务流向来隔离故障线路 |
检修线路 |
其它 |
· 修改错误配置; · 正确连接设备端口; · 调整业务流向来隔离故障线路。 |
· 修改错误配置; · 正确连接设备端口; · 检修机房的电源、空调等支撑系统 |
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!