• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

02-故障处理通用方法

01-故障处理通用方法

本章节下载  (222.34 KB)

docurl=/cn/Service/Document_Software/Document_Center/Home/Security/00-Public/Maintenance/Maintenance_Treasure/H3C_SecPath_M9000-5150/02/202208/1663952_30005_0.htm

01-故障处理通用方法

1.1  故障处理注意事项

·     更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

·     设备正常运行时,建议您在完成重要功能的配置后,及时保存当前配置,以便设备出现故障后能迅速恢复配置。

·     M9000的故障,包括主控故障、引擎故障、接口板、网板故障。对主控板和接口板的故障,主要通过主控板上的Console口或者Telnet来进行搜集。对引擎故障,主要通过引擎上的Console口来搜集。

·     设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),搜集信息越全面、越详细,越有利于故障的快速定位。

¡     记录具体的故障现象、故障时间、配置信息。

¡     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡     记录故障处理过程中配置的所有命令行显示信息。

¡     搜集设备日志信息和diag信息。

¡     记录抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息。

¡     记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。

¡     引擎故障时,需要单独记录引擎的故障信息。需要连接引擎的串口线搜集信息。

·     故障处理过程中,请注意:

¡     明确每项配置操作的影响,保证操作出问题时能够被恢复,故障影响不会扩大。

¡     操作执行后请等待一定时间以确认执行效果。

¡     请不要保存故障处理过程中的配置,特别是出现IRF分裂、单板Fault、单板重启时,否则会引起配置丢失。

¡     更换主控板时,请确保新、老主控板的软件版本一致。

1.2  如何搜集设备运行信息

说明

为方便故障快速定位,建议不要关闭设备的信息中心(info-center enable),缺省情况下信息中心处于开启状态。

 

设备运行过程中会产生logfile日志信息及记录设备运行状态的diag信息。这些信息存储在Flash中,可以通过FTP或TFTP等方式导出。不同主控板中导出的logfile、diag文件请按照一定规则存放(如不同的文件夹:chassisXslotY),避免不同主控板的运行信息相互混淆,以方便查询。

表1     设备运行信息介绍

分类

文件名

内容

logfile日志

logfileX.log

命令行记录、Trap信息、设备运行中产生的记录信息

diag信息

XXX.gz

设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

 

1.2.1  logfile日志

请先通过logfile save将设备缓存的logfile日志保存到Flash中,并将日志搜集完整,包括:主用主控板、备用主控板、IRF下主框/备框各主备主控板的日志,如果设备创建Context还需要搜集每个Context对应的日志。

[Device] logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log.

主用主控板logfile日志:

<Device> dir slot0#flash:/logfile/

Directory of flash:/logfile

   0 -rw-     5233116 Apr 27 2013 09:20:44   logfile1.log

   1 -rw-     5142919 May 03 2013 14:15:42   logfile2.log

   2 -rw-     5193287 May 09 2013 12:28:08   logfile3.log

1021808 KB total (259072 KB free)

备用主控板logfile日志:

<Device> dir slot1#flash:/logfile/

Directory of slot1#flash:/logfile

   0 -rw-     5242287 May 13 2013 16:47:46   logfile4.log

   1 -rw-     5143837 May 24 2013 22:56:46   logfile5.log

   2 -rw-     5149806 Jun 01 2013 13:43:26   logfile6.log

1020068 KB total (643264 KB free)

IRF下备框主控板logfile日志,如备框有两块主控板,则两块都需要搜集:

<Device> dir chassis2#slot0#flash:/logfile/

Directory of chassis2#slot0#flash:/logfile

   0 -rw-     5215316 Jun 03 2013 05:49:20   logfile7.log

   1 -rw-     5235163 Jun 21 2013 07:31:54   logfile8.log

   2 -rw-     3256492 Jun 26 2013 09:01:08   logfile9.log

1021808 KB total (773424 KB free)

1.2.2  diag信息

执行display diagnostic-information命令后,请输入“Y”,以选择将diag保存到Flash卡中(选择display会出现信息搜集不全)。设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请耐心等待。

<Device> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:y

Please input the file name(*.gz)[flash:/diag.gz]:

The file already exists,overwirte it?[Y/N]:y

Diagnostic information is outputting to flash:/diag.gz.

Save successfully.

<Device> dir flash:/

Directory of flash:

   6 -rw-      898180 Jun 26 2013 09:23:51   diag.gz

 

1021808 KB total (259072 KB free)

也可以将diag信息直接显示出来(不建议这样搜集),搜集前请先执行screen-length disable,避免屏幕输出被打断,如下:

<Device> screen-length disable

Screen-length configuration is disabled for current user

<Device> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:n

==================================================================

  ===============display cpu===============

Chassis 2 Slot 0 CPU 0 CPU usage:

       4% in last 5 seconds

       0% in last 1 minute

       0% in last 5 minutes

 

Chassis 2 Slot 0 CPU 1 CPU usage:

       0% in last 5 seconds

       0% in last 1 minute

       0% in last 5 minutes

1.3  故障定位和处理

设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。

如遇到故障无法确认,请将故障描述连同搜集的信息发送给H3C技术支持人员分析。

1.3.1  故障处理流程图

图1为故障处理的一般流程,可以大致判断出故障的类型。

图1     故障处理流程图

 

1.3.2  业务功能故障排查

故障分析时常用的方法有:

·     端口报文计数。

·     报文镜像。

·     端口抓包。

·     查看会话状态及统计信息。

·     查看L2、L3转发表项及统计。

·     查看Openflow表项下发是否正确。

·     Debug开关信息。

1.3.3  故障原因分类

1. 单板故障

如单板出现异常重启、状态异常、无法启动、反复重启,请参照“硬件类故障处理”中的“单板故障”进行处理。

2. 风扇故障

如设备风扇指示灯异常、风扇停转、不断打印风扇告警信息,请参照“硬件类故障处理”中的“风扇故障”进行处理。

3. 温度告警

如设备打印温度告警,请参照“硬件类故障处理”中的“温度告警”进行处理。

4. 链路端口故障

如端口出现无法UP、频繁UP/DOWN、端口错包,请参照“设备转发”中的相关故障案例进行处理。

5. 报文转发故障

如出现ping、tracert丢包或不通、二层丢包或不通、三层丢包或不通、业务异常等,请参照“设备转发”中的相关故障案例进行处理。

6. IRF故障

如设备无法形成IRF、IRF分裂等,请参照“IRF”中的相关故障案例进行处理。

7. IRF双机热备故障

如果出现主备切换异常、冗余口转发异常、冗余口切换异常,请参照“IRF”中的相关故障案例进行处理。

8. NAT/ALG转换故障

如果出现nat转换异常,不能正常转换,或者alg处理异常,请参照“NAT”中的相关故障案例进行处理。

9. IPsec/IKE故障

IPsec出现转发不通、不能正常加解密时,请参照“IPsec”中的相关故障案例进行处理。

10. CPU占用率高

如主控设备或引擎的CPU占用率很高,请参照“系统维护”中的相关故障案例进行处理。

11. 内存占用率高

如设备单板内存占用率很高,请参照“系统维护”中的相关故障案例进行处理。

1.3.4  故障模型及影响分析

图2是一个典型网络故障模型,为提高网络的可靠性,两台Device设备采用IRF模式,可以为双主方式、主备方式,典型网络故障模型如下:

图2     网络故障模型

                                 

 

表2     故障点影响分析

故障点

可能现象

影响范围

(1)、(3)(含光模块)

端口DOWN

业务会切换

端口错包增加

影响该链路上的业务(影响范围大)

(2)

主控单板故障

业务会切换

引擎单板故障

如果链路和该引擎单板track,业务会切换

接口单板故障

业务可能会切换

(4)

堆叠链路单条断

不影响业务,但可能影响性能

堆叠链路2条链路全断

堆叠分裂

 

1.3.5  常见的故障恢复措施

表3     常见的故障恢复措施

故障原因

业务恢复动作

故障排除动作

硬件

·     隔离故障单板;

·     调整业务流向来隔离故障设备(如可以调整路由的优先级,避免流量经过故障设备,实现流量切换)

更换备件(备件上线应用前应进行必要的测试)

软件

·     重启故障设备的协议;

·     调整业务流向来隔离故障设备。

·     升级版本(含补丁版本);

·     调整组网或配置消除引发故障因素。

链路

调整业务流向来隔离故障线路

检修线路

其它

·     修改错误配置;

·     正确连接设备端口;

·     调整业务流向来隔离故障线路。

·     修改错误配置;

·     正确连接设备端口;

·     检修机房的电源、空调等支撑系统

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们