H3C SecPath M9000系列多业务安全网关

故障处理手册(V7)

资料版本：6W401-20220226

产品版本：

M9006/M9010/M9014/M9016-V	R9153P22
M9008-S/M9008-S-6GW/M9008-S-V/M9012-S	R9724P22
M9000-AI-E8/M9000-AI-E16	R9001P22
M9010-GM	E9153P22

非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。

除新华三技术有限公司的商标外，本手册中出现的其它公司的商标、产品标识及商品名称，由各自权利人拥有。

本文档中的信息可能变动，恕不另行通知。

4.2 有NAT转换情况下，ping丢包或不通·· 2

6.1 没有加入冗余组的冗余口直连无法ping通·· 1

6.2 主备模式双机热备故障·· 3

6.3 故障诊断命令·· 6

7 NAT类故障处理··· 1

7.1 动态NAT转换故障(以动态nat outbound为例) 1

7.2 静态NAT444转换故障·· 3

7.3 设备作为出口网关设备割接之后，NAT业务不通，但是接口地址可以ping通·· 6

7.4 故障诊断命令·· 6

8 IPsec/IKE类故障处理··· 1

8.1 IPsec SA可以成功建立，但是IPsec保护的流量不通·· 1

8.2 IPsec的防火墙端为2台M9000主备堆叠，在IRF主设备down掉后，IPsec出现异常·· 4

8.3 故障诊断命令·· 5

9 SSL VPN类故障处理··· 1

9.1 ssl vpn登录，无法打开ssl vpn页面·· 1

9.2 故障诊断命令·· 1

10 负载均衡故障处理··· 2

10.1 四层服务器负载均衡,虚服务和实服务都处于active状态，客户端发往服务器的流量不通·· 2

10.2 CPU/内存较高时对负载均衡的影响·· 5

10.3 故障诊断命令·· 5

10.4 负载分担是否均匀时如何排查优化·· 6

10.5 故障诊断命令·· 6

11 DPI故障处理··· 7

11.1 正常业务流量被IPS误报攻击拦截·· 7

13 策略加速对设备CPU的影响··· 15

13.1 对象策略加速使得CPU升高··· 15

13.2 安全策略自动加速··· 15

14 高可靠性与VRRP 故障处理··· 16

14.1 同一个VRRP备份组内两台防火墙的的VRRP状态都为backup· 16

15 攻击防范故障处理··· 18

15.1 配置FIN的泛洪攻击，设备不报该攻击·· 18

16 无威胁日志问题处理··· 20

16.1 IPS设备无威胁日志·· 20

17 RBM动态路由故障处理··· 22

17.1 上下行接口故障后RBM未进行切换·· 22

17.2 RBM双机配置不一致·· 24

18 AFT类故障处理··· 25

18.1 IPv6访问IPv4（以源地址动态转换，目的地址静态转换为例）·· 25

18.2 故障诊断命令·· 25

19 攻击防范故障处理··· 28

19.1 配置FIN的泛洪攻击，设备不报该攻击·· 28

20 单板隔离导致的板卡下电或重启··· 29

20.1 板件内联口故障对单板的影响·· 29

21 电子标签获取失败故障处理··· 31

21.1 电子标签信息·· 31

22 设备主控、业务板卡版本不一致故障处理··· 33

22.1 查看主控、业务板卡版本信息·· 33

1 简介

1.1 故障处理注意事项

(1) 更换和维护设备部件时，请佩戴防静电手腕，以确保您和设备的安全。

(2) 设备正常运行时，建议您在完成重要功能的配置后，及时保存当前配置，以便设备出现故障后能迅速恢复配置。

(3) M9000的故障，包括主控故障、引擎故障、接口板、网板故障。对主控板和接口板的故障，主要通过主控板上的Console口或者Telnet来进行搜集。对引擎故障，主要通过引擎上的Console口来搜集。

(4) 设备出现故障时，请尽可能全面、详细地记录现场信息（包括但不限于以下内容），搜集信息越全面、越详细，越有利于故障的快速定位。

· 记录具体的故障现象、故障时间、配置信息。

· 记录完整的网络拓扑，包括组网图、端口连接关系、故障位置。

· 记录现场采取的故障处理措施（比如配置操作、插拔线缆、手工重启设备）及实施后的现象效果。

· 记录故障处理过程中配置的所有命令行显示信息。

· 搜集设备日志信息和diag信息。

· 记录抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息。

· 记录设备故障时单板、电源、风扇指示灯的状态，或给现场设备拍照记录。

· 引擎故障时，需要单独记录引擎的故障信息。需要连接引擎的串口线搜集信息。

(5) 故障处理过程中，请注意：

· 明确每项配置操作的影响，保证操作出问题时能够被恢复，故障影响不会扩大。

· 操作执行后请等待一定时间以确认执行效果。

· 请不要保存故障处理过程中的配置，特别是出现IRF分裂、单板Fault、单板重启时，否则会引起配置丢失。

· 更换主控板时，请确保新、老主控板的软件版本一致。

1.2 如何搜集设备运行信息

为方便故障快速定位，建议不要关闭设备的信息中心（info-center enable），缺省情况下信息中心处于开启状态。

设备运行过程中会产生logfile日志信息及记录设备运行状态的diag信息。这些信息存储在Flash中，可以通过FTP或TFTP等方式导出。不同主控板中导出的logfile、diag文件请按照一定规则存放（如不同的文件夹：chassisXslotY），避免不同主控板的运行信息相互混淆，以方便查询。

表1 设备运行信息介绍

分类	文件名	内容
logfile日志	logfileX.log	命令行记录、Trap信息、设备运行中产生的记录信息
diag信息	XXX.gz	设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

1.2.1 logfile日志

请先通过logfile save将设备缓存的logfile日志保存到Flash中，并将日志搜集完整，包括：主用主控板、备用主控板、IRF下主框/备框各主备主控板的日志，如果设备创建Context还需要搜集每个Context对应的日志。

[H3C] logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log.

主用主控板logfile日志：

<H3C> dir slot0#flash:/logfile/

Directory of flash:/logfile

0 -rw- 5233116 Apr 27 2013 09:20:44 logfile1.log

1 -rw- 5142919 May 03 2013 14:15:42 logfile2.log

2 -rw- 5193287 May 09 2013 12:28:08 logfile3.log

1021808 KB total (259072 KB free)

备用主控板logfile日志：

<H3C> dir slot1#flash:/logfile/

Directory of slot1#flash:/logfile

0 -rw- 5242287 May 13 2013 16:47:46 logfile4.log

1 -rw- 5143837 May 24 2013 22:56:46 logfile5.log

2 -rw- 5149806 Jun 01 2013 13:43:26 logfile6.log

1020068 KB total (643264 KB free)

IRF下备框主控板logfile日志，如备框有两块主控板，则两块都需要搜集：

<H3C> dir chassis2#slot0#flash:/logfile/

Directory of chassis2#slot0#flash:/logfile

0 -rw- 5215316 Jun 03 2013 05:49:20 logfile7.log

1 -rw- 5235163 Jun 21 2013 07:31:54 logfile8.log

2 -rw- 3256492 Jun 26 2013 09:01:08 logfile9.log

1021808 KB total (773424 KB free)

1.2.2 diag信息

执行display diagnostic-information命令后，请输入“Y”，以选择将diag保存到Flash卡中（选择display会出现信息搜集不全）。设备上单板越多，diag信息搜集的时间越长，信息搜集期间不能输入命令，请耐心等待。

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:y

Please input the file name(*.gz)[flash:/diag.gz]:

The file already exists,overwirte it?[Y/N]:y

Diagnostic information is outputting to flash:/diag.gz.

Save successfully.

<H3C> dir flash:/

Directory of flash:

6 -rw- 898180 Jun 26 2013 09:23:51 diag.gz

1021808 KB total (259072 KB free)

也可以将diag信息直接显示出来（不建议这样搜集），搜集前请先执行screen-length disable，避免屏幕输出被打断，如下：

<H3C> screen-length disable

Screen-length configuration is disabled for current user

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:n

==================================================================

===============display cpu===============

Chassis 2 Slot 0 CPU 0 CPU usage:

4% in last 5 seconds

0% in last 1 minute

0% in last 5 minutes

Chassis 2 Slot 0 CPU 1 CPU usage:

0% in last 5 seconds

0% in last 1 minute

0% in last 5 minutes

1.3 故障定位和处理

设备出现故障时，请先搜集设备运行的相关信息，判断大致的故障类型，然后参照对应类型的故障处理流程进行确认。

如遇到故障无法确认，请将故障描述连同搜集的信息发送给H3C技术支持人员分析。

1.3.1 故障处理流程图

图1为故障处理的一般流程，可以大致判断出故障的类型。

图1 故障处理流程图

1.3.2 业务功能故障排查

故障分析时常用的方法有：

· 端口报文计数。

· 报文镜像。

· 端口抓包。

· 查看会话状态及统计信息。

· 查看L2、L3转发表项及统计。

· 查看Openflow表项下发是否正确。

· Debug开关信息。

1.3.3 故障原因分类

1. 单板故障

如单板出现异常重启、状态异常、无法启动、反复重启，请参照2.1 单板故障处理。

2. 风扇故障

如设备风扇指示灯异常、风扇停转、不断打印风扇告警信息，请参照2.2 风扇故障处理。

3. 温度告警

如设备打印温度告警，请参照2.3 温度告警处理。

4. 链路端口故障

如端口出现无法UP、频繁UP/DOWN、端口错包，请参照3 链路端口故障处理。

5. 报文转发故障

如出现ping、tracert丢包或不通、二层丢包或不通、三层丢包或不通、业务异常等，请参照4 报文转发故障处理。

6. IRF故障

如设备无法形成IRF、IRF分裂等，请参照5 IRF类故障处理。

7. 双机热备故障

如果出现主备切换异常、冗余口转发异常、冗余口切换异常，请参照6 双机热备故障。

8. NAT/ALG转换故障

如果出现nat转换异常，不能正常转换，或者alg处理异常，请参照7 NAT类故障处理。

9. IPsec/IKE故障

IPsec出现转发不通、不能正常加解密时，请参考8 IPsec/IKE类故障处理。

10. CPU占用率高

如主控设备或引擎的CPU占用率很高，请参照12.1 CPU占用率高。

11. 内存占用率高

如设备单板内存占用率很高，请参照12.2 内存占用率高处理。

1.3.4 故障模型及影响分析

图2是一个典型网络故障模型，为提高网络的可靠性，两台M9000设备采用IRF模式，可以为双主方式、主备方式，典型网络故障模型如下：

图2 网络故障模型

表2 故障点影响分析

故障点	可能现象	影响范围
（1）、（3）（含光模块）	端口down	业务会切换
（1）、（3）（含光模块）	端口错包增加	影响该链路上的业务（影响范围大）
（2）	主控单板故障	业务会切换
	引擎单板故障	如果链路和该引擎单板track，业务会切换
	接口单板故障	业务可能会切换
（4）	堆叠链路单条断	不影响业务，但可能影响性能
（4）	堆叠链路2条链路全断	堆叠分裂

1.3.5 常见的故障恢复措施

表3 常见的故障恢复措施

故障原因	业务恢复动作	故障排除动作
硬件	· 隔离故障单板； · 调整业务流向来隔离故障设备（如可以调整路由的优先级，避免流量经过故障设备，实现流量切换）	更换备件（备件上线应用前应进行必要的测试）
软件	· 重启故障设备的协议； · 调整业务流向来隔离故障设备。	· 升级版本（含补丁版本）； · 调整组网或配置消除引发故障因素。
链路	调整业务流向来隔离故障线路	检修线路
其他	· 修改错误配置； · 正确连接设备端口； · 调整业务流向来隔离故障线路。	· 修改错误配置； · 正确连接设备端口； · 检修机房的电源、空调等支撑系统

2 硬件类故障处理

2.1 单板故障

2.1.1 故障描述

· 单板状态异常（比如状态为Absent、Fault等）。

· 单板出现异常重启、无法启动或不断重启等。

1. 单板状态查询

单板状态包括：Normal、Master 、Standby、Absent和Fault。

Master与Standby分别表示主、备主控板。Normal表示单板处于正常运行状态。

如果发现单板状态出现Fault，或该槽位存在单板但状态却是Absent的，说明单板可能出现故障，请参考2.1.2 故障处理步骤处理。

<H3C>display device

Slot No. Brd Type Brd Status Subslot Sft Ver Patch Ver

0 NSQM1CGQ4TG24SHA0Normal 0 M9016-V-9153P22 None

1 NONE Absent 0 NONE None

2 NSQM1CGQ4TG24SHA0Normal 0 M9016-V-9153P22 None

3 NONE Absent 0 NONE None

4 NSQM1SUPD0 Master 0 M9016-V-9153P22 None

5 NSQM1SUPD0 Standby 0 M9016-V-9153P22 None

6 NSQM1FWEFGA0 Normal 0 M9016-V-9153P22 None

CPU 1 Normal 0 M9016-V-9153P22

7 NONE Absent 0 NONE None

8 NONE Absent 0 NONE None

9 NONE Absent 0 NONE None

10 NSQM1FAB08E0 Normal 0 M9016-V-9153P22 None

11 NSQM1FAB08E0 Normal 0 M9016-V-9153P22 None

12 NSQM1FAB08E0 Normal 0 M9016-V-9153P22 None

13 NSQM1FAB08E0 Normal 0 M9016-V-9153P22 None

2. 单板重启确认

可以通过logfile日志或display version查看设备启动后运行时间来确认单板有没有出现过重启，出现过重启的单板运行时间会明显短于设备上其他单板。请参考2.1.2 故障处理步骤处理。

<H3C>display version

H3C Comware Software, Version 7.1.064, Release 9153P22

H3C SecPath M9016-V uptime is 0 weeks, 4 days, 0 hours, 7 minutes

Last reboot reason : User reboot

Boot image: flash:/M9000-CMW710-BOOT-R9153P22.bin

Boot image version: 7.1.064, Release 9153P22

Compiled Dec 10 2020 14:00:00

System image: flash:/M9000-CMW710-SYSTEM-R9153P22.bin

System image version: 7.1.064, Release 9153P22

Compiled Dec 10 2020 14:00:00

Feature image(s) list:

flash:/M9000-CMW710-DEVKIT-R9153P22.bin, version: 7.1.064

Compiled Dec 10 2020 14:00:00

LPU 0:

Uptime is 0 weeks,4 days,0 hours,3 minutes

H3C SecPath M9016-V LPU with 1 LS1043A Processor

BOARD TYPE: NSQM1CGQ4TG24SHA0

DRAM: 2048M bytes

PCB 1 Version: VER.A

Bootrom Version: 108

CPLD 1 Version: 002

CPLD 2 Version: 001

Release Version: H3C SecPath M9016-V-9153P22

Patch Version : None

Reboot Cause : UserReboot

LPU 2:

Uptime is 0 weeks,4 days,0 hours,3 minutes

H3C SecPath M9016-V LPU with 1 LS1043A Processor

BOARD TYPE: NSQM1CGQ4TG24SHA0

DRAM: 2048M bytes

PCB 1 Version: VER.A

Bootrom Version: 108

CPLD 1 Version: 002

CPLD 2 Version: 001

Release Version: H3C SecPath M9016-V-9153P22

Patch Version : None

Reboot Cause : UserReboot

MPU(M) 4:

Uptime is 0 weeks,4 days,0 hours,7 minutes

H3C SecPath M9016-V MPU(M) with 1 XLP316 Processor

BOARD TYPE: NSQM1SUPD0

DRAM: 8192M bytes

FLASH: 500M bytes

NVRAM: 512K bytes

PCB 1 Version: VER.A

Bootrom Version: 132

CPLD 1 Version: 004

CPLD 2 Version: 003

CPLD 3 Version: 003

Release Version: H3C SecPath M9016-V-9153P22

Patch Version : None

Reboot Cause : UserReboot

MPU(S) 5:

Uptime is 0 weeks,4 days,0 hours,6 minutes

H3C SecPath M9016-V MPU(S) with 1 XLP316 Processor

BOARD TYPE: NSQM1SUPD0

DRAM: 8192M bytes

FLASH: 500M bytes

NVRAM: 512K bytes

PCB 1 Version: VER.A

Bootrom Version: 132

CPLD 1 Version: 001

CPLD 2 Version: 001

CPLD 3 Version: 001

Release Version: H3C SecPath M9016-V-9153P22

Patch Version : None

Reboot Cause : UserReboot

LPU 6:

Uptime is 0 weeks,1 day,17 hours,56 minutes

H3C SecPath M9016-V LPU with 1 XLP308 Processor

BOARD TYPE: NSQM1FWEFGA0

DRAM: 2048M bytes

FLASH: 8M bytes

PCB 1 Version: VER.A

PCB 2 Version: VER.B

Bootrom Version: 100

CPLD 1 Version: 002

CPLD 2 Version: 002

Release Version: H3C SecPath M9016-V-9153P22

Patch Version : None

Reboot Cause : UserReboot

SLOT 6 CPU 1

CPU type: Multi-core CPU

DDR4 : 49152M bytes

FLASH: 7122M bytes

Board PCB Version: Ver.A

CPLD Version: 2.0

Release Version: SecBlade FW Enhanced-9153P22

FPGA 0 Version: B50506

FPGA 0 DATE: 2020.11.27

FPGA 1 Version: B50506

FPGA 1 DATE: 2020.11.27

Basic BootWare Version:1.03

Extend BootWare Version:1.03

NPU 10:

Uptime is 0 weeks,4 days,0 hours,3 minutes

H3C SecPath M9016-V NPU with 1 XLS208 Processor

BOARD TYPE: NSQM1FAB08E0

DRAM: 1024M bytes

PCB 1 Version: VER.B

Bootrom Version: 518

CPLD 1 Version: 005

Release Version: H3C SecPath M9016-V-9153P22

Patch Version : None

Reboot Cause : UserReboot

NPU 11:

Uptime is 0 weeks,3 days,23 hours,46 minutes

H3C SecPath M9016-V NPU with 1 XLS208 Processor

BOARD TYPE: NSQM1FAB08E0

DRAM: 1024M bytes

PCB 1 Version: VER.B

Bootrom Version: 518

CPLD 1 Version: 005

Release Version: H3C SecPath M9016-V-9153P22

Patch Version : None

Reboot Cause : ColdReboot

NPU 12:

Uptime is 0 weeks,3 days,23 hours,44 minutes

H3C SecPath M9016-V NPU with 1 XLS208 Processor

BOARD TYPE: NSQM1FAB08E0

DRAM: 1024M bytes

PCB 1 Version: VER.B

Bootrom Version: 511

CPLD 1 Version: 005

Release Version: H3C SecPath M9016-V-9153P22

Patch Version : None

Reboot Cause : ColdReboot

NPU 13:

Uptime is 0 weeks,3 days,23 hours,44 minutes

H3C SecPath M9016-V NPU with 1 XLS208 Processor

BOARD TYPE: NSQM1FAB08E0

DRAM: 1024M bytes

PCB 1 Version: VER.B

Bootrom Version: 518

CPLD 1 Version: 005

Release Version: H3C SecPath M9016-V-9153P22

Patch Version : None

Reboot Cause : ColdReboot

2.1.2 故障处理步骤

1. 单板状态Absent

(1) 确认单板是否插稳，如检查单板与机框之间是否有空隙，也可以将单板拔出后重新插入。

(2) 将单板放到别的槽位，将框上别的正常的单板放到这个槽位，进一步确认是不是单板或机框槽位故障。

(3) 检查单板面板、内部的指示灯是否发光。

(4) 如果单板是主控板、业务板、网板，请连上串口线，查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。

(5) 如确认为单板故障，请更换单板并将故障信息发送H3C技术支持人员分析。

2. 单板状态Fault

(1) 等待一段时间确认下单板是一直Fault还是Normal后又再次重启。如单板是Normal后又自动重启，请将故障信息发送H3C技术支持人员分析。

(2) 如果单板是主控板、引擎板、网板，请连上串口线，查看配置终端上是否有单板正常启动的显示信息、或单板异常启动信息。如下述主控板启动时出现内存读写测试失败而不断重启，需要检查主控板内存条是否插稳。

(3) 将单板放到别的槽位，进一步确认是不是单板故障。

(4) 如确认为单板故障，请更换单板并将故障信息发送H3C技术支持人员分析。

3. 单板重启

这里的单板重启是指单板出现过重启，而当前单板状态是Normal。

(1) 通过日志或运行时间分析重启的时间段，确认重启的时间点附近有无用户通过命令行reboot重启或进行单板上下电等操作。

(2) 如果所有单板同时出现重启，请检查设备电源模块是否正常，确认外部电源是否出现过停电，电源进线是否插稳、是否出现松动。

(3) 确认日志中重启时有无出现“Slot X need to be rebooted automatically!” ，“Note:the operating device is sda0,it's not online ”提示信息，这种情况是不正常的。请更换单板并搜集故障信息并发送H3C技术支持人员分析。

(4) 如无法确认，请搜集故障信息并发送H3C技术支持人员分析。

2.2 风扇故障

2.2.1 故障描述

风扇框指示灯异常，设备打印风扇异常信息，如：

%Jun 26 10:12:24:805 2013 H3C DEV/3/FAN_ABSENT: -MDC=1; Chassis 2 Fan 2 is absent.

%Jun 26 10:12:32:805 2013 H3C DEVD/2/DRV_DEV_FAN_CHANGE: -MDC=1; Chassis 2: Fan communication state changed: Fan 1 changed to fault.

%Jun 26 10:12:42:405 2013 H3C DEV/2/FAN_FAILED: -MDC=1; Chassis 2 Fan 1 failed.

2.2.2 故障处理步骤

(1) 风扇框在位时，用手放在设备出风口，判断是否有出风，如果出风口无风，则风扇异常。

(2) 检查风扇的入风口、出风口是否被挡住或积累太多灰尘。

(3) 检查风扇框是否正常在位，各个风扇的状态是否正常、转速是否相差达到50%以上。如存在异常，建议通过风扇框拔插、更换交叉进一步确认。

(4) 如果故障不能恢复，需要更换该风扇框，但当前没有风扇框，请关闭设备以免发生温度高导致单板烧坏；如果有降温措施保证系统工作在50度以下，可以暂时继续使用设备。

<H3C> display fan

Chassis 1:

Fan Frame 0 State: Normal

Chassis 2:

Fan Frame 0 State: Normal

2.3 温度告警

2.3.1 故障描述

设备打印温度过低、过高等告警信息，如：

%Jun 26 10:13:46:233 2013 H3C DEV/4/TEMPERATURE_WARNING: -MDC=1; Temperature is greater than warning upper limit on Chassis 1 slot 2 sensor inflow 1.

2.3.2 故障处理步骤

(1) 检查环境温度是否正常。如果环境温度较高，请确认原因，比如机房通风不畅、空调制冷故障等。

(2) 检查设备当前的temperature温度是否超出上下的Warning、Alarm门限。也可以用手触摸单板，确认单板是不是很烫，如单板温度很高，请立即检查原因。持续处于较高的温度下，可能会导致单板损坏。

· 如果温度过高，请参照2.2 风扇故障确认是否风扇故障导致。

· 如果温度值为error或出现明显不合实际的值，可能是通过I2C总线访问单板温度传感器异常（display environment命令）。设备光模块信息访问也是通过I2C总线（display transceiver命令），请继续检查单板读取光模块信息是否正常。如光模块访问正常，请使用temperature-limit命令重新设置单板的温度告警门限值，并通过display environment查看是否设置成功。

[H3C] temperature-limit chassis 2 slot 1 hotspot 1 0 85 90

<H3C> display environment

System temperature information (degree centigrade):

----------------------------------------------------------------------

Chassis Slot Sensor Temperature Lower Warning Alarm Shutdown

1 0 inflow 1 35 0 48 60 NA

1 0 hotspot 1 43 0 80 95 NA

1 1 inflow 1 34 0 48 60 NA

1 1 hotspot 1 38 0 80 95 NA

1 2 hotspot 1 49 0 88 100 110

1 3 hotspot 1 43 0 80 97 NA

1 3 hotspot 2 41 0 80 97 NA

1 4 hotspot 1 42 0 80 97 NA

1 4 hotspot 2 40 0 80 97 NA

1 5 hotspot 1 45 0 80 97 NA

1 5 hotspot 2 41 0 80 97 NA

1 6 hotspot 1 53 0 88 100 110

1 7 hotspot 1 55 0 88 100 110

1 8 hotspot 1 67 0 88 100 110

1 9 hotspot 1 61 0 88 100 110

2 0 inflow 1 34 0 85 90 NA

2 0 hotspot 1 42 0 85 90 NA

2 1 inflow 1 36 0 85 90 NA

2 1 hotspot 1 41 0 85 90 NA

2 2 hotspot 1 56 0 88 100 110

2 3 hotspot 1 47 0 80 97 NA

2 3 hotspot 2 44 0 80 97 NA

(3) 如果仍然无法确认故障原因，请搜集信息并发送给H3C技术支持人员协助分析。

2.4 故障诊断命令

表4 故障诊断命令

命令	说明
display device	显示设备信息，检查各单板的状态是否正常
display environment	显示设备的温度信息，检查环境温度是否正常（是否超出温度告警阈值）
display fan	显示设备内置风扇的工作状态
display power	显示设备上的电源系统信息。详细信息包括下列信息： · 电源管理使能状态 · 电源类型、额定输入电压和额定输出功率 · 在位电源模块的状态
display version	显示系统版本信息、单板的运行时间以及最后一次重启的原因
save	将当前配置保存到指定文件
temperature-limit	设置设备的温度告警门限

3 链路端口故障处理

3.1 端口错包

3.1.1 故障描述

使用display interface命令查询端口的入、出方向流量统计信息，发现错包统计计数不为0。

[H3C] display interface GigabitEthernet 1/4/0/17

GigabitEthernet1/4/0/17

Current state: UP

Line protocol state: UP

Description: GigabitEthernet1/4/0/17 Interface

Bandwidth: 1000000kbps

Maximum Transmit Unit: 1500

Internet protocol processing: disabled

IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5611

IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5611

Media type is twisted pair

Port hardware type is 1000_BASE_T

Last clearing of counters: 16:45:01 Wed 12/11/2013

Peak value of input: 0 bytes/sec, at 2013-12-11 16:45:03

Peak value of output: 12328675 bytes/sec, at 2013-12-11 17:01:56

Last 300 seconds input: 0 packets/sec 0 bytes/sec

Last 300 seconds output: 85491 packets/sec 12069673 bytes/sec

Input (total): 2 packets, 128 bytes

2 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

Input (normal): 2 packets, - bytes

2 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

Input: 4 input errors, 1 runts, 1 giants, 0 throttles

1 CRC, 1 frame, - overruns, 0 aborts

- ignored, - parity errors

Output (total): 202277882 packets, 28751562624 bytes

202277844 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

Output (normal): 202277844 packets, - bytes

202277844 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

Output: 8 output errors, - underruns, - buffer failures

2 aborts, 2 deferred, 2 collisions, 2 late collisions

0 lost carrier, - no carrier

1. 端口入方向报文计数错误字段解释

· input errors：各种输入错误的总数。

· runts：表示接收到的超小帧个数。超小帧即接收到的报文小于64字节，且包括有效的CRC字段，报文格式正确。

· giants：是超过端口设置的Maximum Frame Length的报文个数。

· CRC：表示接收到的CRC校验错误报文个数。

· frame：端口接收时出错的报文。

2. 端口出方向报文计数错误字段解释

· output errors：各种输出错误的总数。

· aborts：表示发送失败的报文总数。

· deferred：表示延迟报文的总数。报文延迟是指因延迟过长的周期而导致发送失败的报文，而这些报文由于发送媒质繁忙而等待了超过2倍的最大报文发送时间。

· collisions：表示冲突帧总数，即在发送过程中发生冲突的报文。

· late collisions：表示延迟冲突帧，即发送过程中发生延迟冲突超过512bit时间的帧。

3.1.2 故障处理步骤

1. 端口入方向出现CRC、frame、throttles错包且计数持续增加

(1) 使用仪器测试链路，链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。

(2) 如端口使用光模块，参照3.4 光模块故障确认是否光模块故障导致。

(3) 与别的正常的端口更换网线或光纤光模块，如端口更换后错包消失，端口更换回来错包又再次出现端口相关，应为单板端口故障，请更换端口并将故障信息发送H3C技术支持人员分析；如更换到其他正常端口仍会出现错包，则对端设备、中间传输链路故障的可能性较大，请排查。

(4) 排查对端设备或者中间的传输设备。

(5) 如故障无法确认，请将故障信息发送H3C技术支持人员分析。

2. 端口入方向出现giants错包且计数持续增加

(1) 检查两端的jumbo配置是否一致，如jumbo是否使能，端口默认的最大报文长度是否一致，允许最大报文长度是否一致。

(2) 如果仍然无法确认，请将故障信息发送技术支持人员分析。

3. 端口出方向出现错包且计数持续增加

(1) 检查端口是否配置为半双工模式，如为半双工，请更改为全双工模式。

(2) 如果仍然无法确认，请将故障信息发送H3C技术支持人员分析。

3.2 端口无法up

3.2.1 故障描述

端口无法正常Up。

3.2.2 故障处理步骤

1. 端口无法Up

(1) 测试端口之间网线、光纤链路是否正常，光纤两端的发送/接收端是否错连；更换端口之间的网线、光纤或将网线、光纤放到别的正常端口，以确认是否中间传输链路故障。

(2) 检查本端、对端端口配置是否正确，如端口是否shutdown，速率、双工、协商模式、MDI是否正确。

(3) 如端口使用光模块，请检查两端光模块类型是否一致，如速率、波长、单模多模状态等；与正常的光模块交叉更换，并参照3.4 光模块故障排除是否为光模块故障导致。

[H3C] display transceiver interface Ten-GigabitEthernet 1/5/0/1

Ten-GigabitEthernet1/5/0/1 transceiver information:

Transceiver Type : 10G_BASE_LR_XFP

Connector Type : LC

Wavelength(nm) : 1310

Transfer Distance(km) : 10(SMF)

Digital Diagnostic Monitoring : YES

Vendor Name : SumitomoElectric

如果确认光模块有问题，需要更换光模块。

3.2.3 故障处理步骤

(1) 查看本设备及对端设备日志，确认有无端口shutdown操作。

(2) 查看两端端口状态，确认是否为协议异常或在线诊断模块检测到异常将端口shutdown。当设备在线诊断模块检测到端口故障时，将端口shutdown隔离，以便流量切换到备份链路。请将故障信息发送H3C技术支持人员分析。

[H3C] display interface GigabitEthernet 1/4/0/1

GigabitEthernet1/4/0/1

Current state: DOWN

Line protocol state: DOWN

Description: GigabitEthernet1/4/0/1 Interface

Bandwidth: 1000000kbps

Maximum Transmit Unit: 1500

Internet protocol processing: disabled

IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5601

IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5601

Media type is not sure,Port hardware type is No connector

Last clearing of counters: 16:45:01 Wed 12/11/2013

Peak value of input: 0 bytes/sec, at 2013-12-11 16:45:03

Peak value of output: 0 bytes/sec, at 2013-12-11 16:45:03

Last 300 seconds input: 0 packets/sec 0 bytes/sec

Last 300 seconds output: 0 packets/sec 0 bytes/sec

(3) 参照3.2 端口无法up，排查两端端口配置，网线、光模块、光纤等链路是否正常。

(4) 如仍无法确认，请搜集本端、对端设备信息，并将信息发送H3C技术支持人员分析。

3.3 端口频繁Up/Down

3.3.1 故障描述

端口频繁Up/Down。

3.3.2 故障处理步骤

(1) 对于光口，请参照3.4 光模块故障确认光模块是否异常。

(2) 对于电口，一般在自协商情况下容易出现协商不稳定，这种情况请尝试设置强制速率双工。

(3) 如果故障依存在，请排查链路、对端设备、中间设备。

(4) 如仍无法确认，请将故障信息发送H3C技术支持人员分析。

3.4 光模块故障

3.4.1 故障描述

安装光模块的接口不能正常up，出现告警信息。

3.4.2 故障处理步骤

(1) 检查光模块Alarm告警信息。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致；如果是发送有问题或者电流、电压异常那就需要排查本端端口。

[H3C] display transceiver alarm interface Ten-GigabitEthernet 1/5/0/1

Ten-GigabitEthernet1/5/0/1 transceiver current alarm information:

None

表5 光模块告警信息说明

字段	描述
SFP/SFP+
RX loss of signal	接收信号丢失
RX power high	接收光功率高告警
RX power low	接收光功率低告警
TX fault	发送错误
TX bias high	偏置电流高告警
TX bias low	偏置电流低告警
TX power high	发送光功率高告警
TX power low	发送光功率低告警
Temp high	温度高告警
Temp low	温度低告警
Voltage high	电压高告警
Voltage low	电压低告警
Transceiver info I/O error	模块信息读写错误
Transceiver info checksum error	模块信息校验和错误
Transceiver type and port configuration mismatch	模块类型和端口配置不匹配
Transceiver type not supported by port hardware	端口不支持该模块类型
XFP
RX loss of signal	接收信号丢失
RX not ready	接收状态未就绪
RX CDR loss of lock	RX CDR时钟失锁
RX power high	接收光功率高告警
RX power low	接收光功率低告警
TX not ready	发送状态未就绪
TX fault	发送错误
TX CDR loss of lock	TX CDR时钟失锁
TX bias high	偏置电流高告警
TX bias low	偏置电流低告警
TX power high	发送光功率高告警
TX power low	发送光功率低告警
Module not ready	模块状态未就绪
APD supply fault	APD（Avalanche Photo Diode，雪崩光电二极管）错误
TEC fault	TEC（Thermoelectric Cooler，热电冷却器）错误
Wavelength unlocked	光信号波长失锁
Temp high	温度高告警
Temp low	温度低告警
Voltage high	电压高告警
Voltage low	电压低告警
Transceiver info I/O error	模块信息读写错误
Transceiver info checksum error	模块信息校验错误
Transceiver type and port configuration mismatch	模块类型和端口配置不匹配
Transceiver type not supported by port hardware	端口不支持该模块类型

(2) 对怀疑故障的光模块进行交叉验证，如更换端口、与正常的光模块互换，确认是光模块本身故障还是相邻设备或中间链路故障。

(3) 如果确认是光模块本身故障，请通过display transceiver diagnosis命令收集光模块当前的数字诊断信息（非H3C定制光模块可能无法查询到数字诊断信息），并发送给H3C技术支持人员分析。

[H3C] display transceiver diagnosis interface Ten-GigabitEthernet 1/5/0/2

Ten-GigabitEthernet1/5/0/2 transceiver diagnostic information:

Current diagnostic parameters:

Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)

48 3.33 39.10 0.13 -1.35

Alarm thresholds:

Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)

High 73 3.63 75.00 2.50 8.16

Low -5 2.97 1.00 -12.30 -11.20

(4) 建议尽量使用H3C定制光模块。可以使用display transceiver manuinfo interface命令来查看光模块制造厂家信息。

[H3C] display transceiver manuinfo interface

Ten-GigabitEthernet1/2/0/1 transceiver manufacture information:

The transceiver does not support this function.

Ten-GigabitEthernet1/2/0/2 transceiver manufacture information:

The transceiver does not support this function.

Ten-GigabitEthernet1/2/0/3 transceiver manufacture information:

The transceiver is absent.

Ten-GigabitEthernet1/2/0/4 transceiver manufacture information:

The transceiver is absent.

Ten-GigabitEthernet1/2/0/5 transceiver manufacture information:

Manu. Serial Number : 210231A0G1X122000082

Manufacturing Date : 2012-02-28

Vendor Name : H3C

Ten-GigabitEthernet1/2/0/6 transceiver manufacture information:

Manu. Serial Number : 210231A0G1X122000083

Manufacturing Date : 2012-02-28

Vendor Name : H3C

3.5 故障诊断命令

表6 故障诊断命令

命令	说明
display current-configuration	显示设备当前生效的配置，指定interface可以显示指定接口当前生效的配置
display interface	查询端口的入、出方向流量统计信息、端口状态，可查看是否存在错包及错包统计信息
display transceiver alarm	显示可插拔接口模块的当前故障告警信息
display transceiver diagnosis	显示可插拔光模块的数字诊断参数的当前测量值，包括温度、电压、偏置电流、接收光功率、发送光功率
display transceiver interface	显示指定接口可插拔接口模块的主要特征参数，检查两端光模块类型是否一致，如速率、波长、单模多模状态等
display transceiver manuinfo	显示可插拔接口模块的电子标签信息，可用来查询光模块的定制厂商

4 报文转发故障处理

4.1 ping不通或丢包

4.1.1 故障描述

报文转发丢包，ping不通或ping丢包，tracert异常。

<H3C> ping 10.0.0.5

PING 10.0.0.5 (10.0.0.5): 56 data bytes, press CTRL_C to break

Request time out

--- 10.0.0.5 ping statistics ---

5 packet(s) transmitted, 0 packet(s) received, 100.0% packet loss

4.1.2 故障处理步骤

1. 确认参与转发的出入端口是否加入到安全域和域间策略

M9000设备，端口默认没有加入到任何安全域，要确认端口是否加入到安全域。

如果端口加入到安全域中，要确认是否配置了安全策略。系统默认情况下，相同安全域、不同安全域之间、安全域与local之间，转发默认是deny的。

2. 设备入出报文统计

报文转发异常通常会涉及多台设备，需要逐一排查。为方便排查，排查前建议先明确报文的转发走向，如经过哪些中间设备，在设备的哪些接口进入设备，又会从哪些接口出去。检查出入接口的报文统计。确认统计是否正确。

检查入方向报文统计计数，可以通过reset counter interface命令清除计数。

3. 报文计数分析

如果设备未收到Ping报文，请排查上游的相邻设备；如果设备发送的Ping报文计数正确，建议排查下游的相邻设备；如果Ping报文入出计数不正确，分下面几种情况进行分析：

· 有入报文统计，没有出报文统计，进行如下排查：

(1) 查看是否在链路层处理有丢包，执行display ethernet statistics命令，如下：

<H3C> display ethernet statistics chassis 1 slot 3

ETH receive packet statistics:

Totalnum : 0 ETHIINum : 0

SNAPNum : 0 RAWNum : 0

LLCNum : 0 UnknownNum : 0

ForwardNum : 0 ARP : 0

MPLS : 0 ISIS : 0

ISIS2 : 0 IP : 0

IPV6 : 0

ETH receive error statistics:

NullPoint : 0 ErrIfindex : 0

ErrIfcb : 0 IfShut : 0

ErrAnalyse : 0 ErrSrcMAC : 0

ErrHdrLen : 0

ETH send packet statistics:

L3OutNum : 0 VLANOutNum : 0

FastOutNum : 0 L2OutNum : 0

ETH send error statistics:

MbufRelayNum : 0 NullMbuf : 0

ErrAdjFwd : 0 ErrPrepend : 0

ErrHdrLen : 0 ErrPad : 0

ErrQosTrs : 0 ErrVLANTrs : 0

ErrEncap : 0 ErrTagVLAN : 0

IfShut : 0 IfErr : 0

(2) 如果链路层处理没有丢包，执行display ip statistics命令，查看IP层丢包原因：

<H3C> display ip statistics

Input: sum 263207520 local 1772

bad protocol 0 bad format 0

bad checksum 0 bad options 0

Output: forwarding 24511617 local 476

dropped 21949 no route 156

compress fails 0

Fragment:input 0 output 0

dropped 0

fragmented 0 couldn't fragment 0

Reassembling:sum 0 timeouts 0

(3) 打开 debugging aspf all、debugging packet-filter packet ip，来确定ASPF是否有丢包。

· 无出、入报文统计

需要分析是否上游没有把报文发送过来。

4.2 有NAT转换情况下，ping丢包或不通

4.2.1 故障描述

处于不同网段的两台PC：PC1和PC2，PC1的地址为10.1.1.1，PC2的地址为220.1.1.2。中间穿越M9000设备互相ping包，M9000设备对PC1的地址静态NAT转换为220.1.1.1；发现PC1 ping PC2不通，查看PC2可以收到PC1的ping报文，但是PC1收不到PC2的回应报文。

4.2.2 故障处理步骤

1. 配置检查

确保PC1和PC2接入的端口加入了安全域，并且配置了安全策略。可以通过display interzone命令来查看是否配置了相关的域间策略：

<H3C>dis security-policy ip

Security-policy ip

rule 0 name 0

action pass

2. 路由表检查

检查设备到某一目的IP网段的路由是否存在，如路由不存在，请检查路由协议配置、状态是否正确。

[H3C] display ip routing-table 10.1.1.0

3. FIB表检查

检查设备到某一目的IP网段的FIB表项是否存在，如路由存在、FIB表项异常，请将故障信息发送H3C技术支持人员分析。

[H3C] display fib 10.1.1.0

4. arp表项检查

查看10.1.1.1的arp表项是否存在：

[H3C] display arp 10.1.1.1

5. 会话

通过display session命令确认会话是否正常建立。

6. ASPF检查

域间策略默认ASPF对所有的报文进行检测。但如果在域间策略中配置了aspf apply policy命令，那么只对策略中配置的detect协议进行ASPF检测，其他协议不进行检测。如果不配置detect icmp，那么如果没有配置反向域间策路，报文就被deny了。可以使用下面命令打开debug：

<H3C> debugging packet-filter packet ip acl ?

INTEGER<2000-2999> Specify a basic ACL

INTEGER<3000-3999> Specify an advanced ACL

来看是否有deny信息，如果有类似下面信息：

*Dec 12 16:49:07:188 2013 H3C FILTER/7/PACKET: -Slot=3.1; The packet is deny. SrcZoneName=tom1, DstZoneName=tom; Packet Info:Src-IP=220.1.1.2, Dst-IP=10.1.1.1, VPN-Instance=none,Src-Port=1024, Dst-Port=1025, Protocol=UDP(17), ACL=none.

说明没有正确配置ASPF策略，导致被反向域间策略deny了。

7. 查看openflow表

如果前面的检查均没有问题。需要查看流表是否有问题。

首先我们要看接口板的流表是否正常。对静态NAT，如下配置：

[H3C] nat static outbound 10.1.1.1 220.1.1.1

然后在接口上使能静态NAT，正常流表应显示如下：

(1) 首先查看接口板流表下刷是否正确

[H3C-probe] display system internal openflow instance inner-redirect flow-table

Instance 4097 Flow Table Information:

Table 200 information:

Table type: Extensibility, flow entry count: 25, total flow entry count: 25

Flow entry rule 6 information:

cookie: 0x0, priority: 7861, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Input interface: RAGG11

Ethernet type: 0x0800

IP Range: IPv4 destination address from 220.1.1.1 to 220.1.1.1

Instruction information:

Write actions:

Output interface: Blade2/10/0/1

Flow entry rule 7 information:

cookie: 0x0, priority: 7840, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Ethernet type: 0x0800

IP Range: IPv4 source address from 10.10.1.1 to 10.10.1.1

VRF index: 0

Instruction information:

Write actions:

Output interface: Blade2/10/0/1

Flow entry rule 8 information:

cookie: 0x0, priority: 7841, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Ethernet type: 0x0800

IP Range: IPv4 destination address from 10.10.1.1 to 10.10.1.1

VRF index: 0

Instruction information:

Write actions:

Output interface: Blade2/10/0/1

上面3个表项，缺少一个都是会引起转发异常的。

(2) 如果接口板的流表没有异常，再查看业务板流表下刷是否正确，执行如下命令：

[H3C-probe]display system internal openflow instance inner flow-table

Instance 4096 Flow Table Information:

Table 200 information:

Table type: Extensibility, flow entry count: 27, total flow entry count: 27

Flow entry rule 6 information:

cookie: 0x0, priority: 7860, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Ethernet type: 0x0800

IP Range: IPv4 destination address from 220.1.1.1 to 220.1.1.1

VRF index: 0

Instruction information:

Write actions:

Output interface: Blade2/10/0/1

Flow entry rule 7 information:

cookie: 0x0, priority: 7840, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Ethernet type: 0x0800

IP Range: IPv4 source address from 10.10.1.1 to 10.10.1.1

VRF index: 0

Instruction information:

Write actions:

Output interface: Blade2/10/0/1

Flow entry rule 8 information:

cookie: 0x0, priority: 7841, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Ethernet type: 0x0800

IP Range: IPv4 destination address from 10.10.1.1 to 10.10.1.1

VRF index: 0

Instruction information:

Write actions:

Output interface: Blade2/10/0/1

8. 如果流表下发都没有问题，请联系H3C相关技术支持人员。

4.3 故障诊断命令

表7 故障诊断命令

命令	说明
display arp	显示ARP表项，检查设备ARP学习的接口是否正确
display current-configuration \| include lsr-id	显示当前的MPLS LSR ID
display current-configuration configuration mpls-ldp	显示当前生效的MPLS LDP配置信息，检查LDP的md5-password配置是否一致
display fib	显示FIB信息，检查设备到某一目的IP网段的FIB表项是否存在
display interface	显示指定接口的相关信息
display ip interface brief	显示三层接口的IP基本配置信息
display ip routing-table	显示路由表中当前激活路由的摘要信息，检查设备到某一目的IP网段的路由是否存在
display session	显示会话信息
display this	显示当前视图下生效的配置
interface	进入接口视图
display system internal openflow instance	查看openflow表项
display nat outbound	查看nat outbound配置信息

5 IRF类故障处理

5.1 IRF无法形成

5.1.1 故障描述

IRF无法正常建立。

5.1.2 故障处理步骤

通常为配置错误引起，请检查以下配置是否正确。

1. 确认成员设备的软件版本、主控板类型是否一致。

<H3C> display device

Chassis Slot Type State Subslot Soft Ver Patch Ver

1 0 NSQ1GT48EA0 Normal 0 M9014-9106 None

1 1 NONE Absent 0 NONE None

1 2 NONE Absent 0 NONE None

1 3 NSQ1TGS8EA0 Normal 0 M9014-9106 None

1 4 NSQ1FWCEA0 Normal 0 M9014-9106 None

1 5 NONE Absent 0 NONE None

1 6 NSQ1SUPB0 Master 0 M9014-9106 None

1 7 NONE Absent 0 NONE None

1 8 NONE Absent 0 NONE None

1 9 NONE Absent 0 NONE None

1 10 NONE Absent 0 NONE None

1 11 NONE Absent 0 NONE None

1 12 NSQ1QGS4SF0 Normal 0 M9014-9106 None

1 13 NSQ1GP48EB0 Normal 0 M9014-9106 None

1 14 NONE Absent 0 NONE None

1 15 NSQ1FAB12D0 Normal 0 M9014-9106 None

1 16 NONE Absent 0 NONE None

1 17 NONE Absent 0 NONE None

……

2. 确认IRF物理端口是否UP。

通过display interface查询IRF物理端口状态是否UP：

<H3C> display interface GigabitEthernet 1/0/0/10

GigabitEthernet1/0/0/10

Current state: UP

Line protocol state: UP

Description: GigabitEthernet1/0/0/10 Interface

Bandwidth: 1000000kbps

Maximum Transmit Unit: 1500

Internet protocol processing: disabled

IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0000-560a

IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0000-560a

Media type is twisted pair

Port hardware type is 1000_BASE_T

Last clearing of counters: Never

Peak value of input: 0 bytes/sec, at 2013-12-13 15:15:02

Peak value of output: 0 bytes/sec, at 2013-12-13 15:15:02

Last 300 seconds input: 0 packets/sec 0 bytes/sec

Last 300 seconds output: 0 packets/sec 0 bytes/sec

3. 确认IRF端口连接是否异常，一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接。

<H3C> display irf configuration

4. 确认成员设备的堆叠口工作模式是否一致。

进入IRF端口视图，使用display this命令，确认IRF的两台设备的工作模式是否正常。

[H3C] irf-port 1/2

[H3C-irf-port1/2] display this

irf-port 1/2

port group interface Ten-GigabitEthernet1/3/0/1 mode enhanced

5.2 IRF出现分裂

5.2.1 故障描述

IRF运行过程中出现分裂。

5.2.2 故障处理步骤

1. IRF分裂时会打印IRF端口down，可以确定IRF分裂的时间。

%Jun 26 10:13:46:233 2013 H3C STM/2/STM_LINK_STATUS_TIMEOUT: IRF port 1 is down because heartbeat timed out.

%Jun 26 10:13:46:436 2013 H3C STM/3/STM_LINK_STATUS_DOWN: -MDC=1; IRF port 2 is down.

2. IRF物理端口所在接口板的状态是否正常，若不正常，请参照2.1 单板故障排查是否单板故障。

<H3C> display device

Chassis Slot Type State Subslot Soft Ver Patch Ver

2 0 NSQ1GT48EA0 Normal 0 M9014-9153P22 None

2 1 NONE Absent 0 NONE None

2 2 NONE Absent 0 NONE None

2 3 NSQ1TGS8EA0 Normal 0 M9014-9153P22 None

2 4 NSQ1FWCEA0 Normal 0 M9014-9153P22 None

2 5 NONE Absent 0 NONE None

2 6 NSQ1SUPB0 Master 0 M9014-9153P22 None

2 7 NSQ1SUPB0 Standby 0 M9014-9153P22 None

2 8 NONE Absent 0 NONE None

2 9 NONE Absent 0 NONE None

2 10 NSQ1FWCEA0 Normal 0 M9014-9153P22 None

2 11 NONE Absent 0 NONE None

2 12 NONE Absent 0 NONE None

2 13 LSU1GP24TXEB0 Normal 0 M9014-9153P22 None

2 14 NONE Absent 0 NONE None

2 15 NSQ1FAB12D0 Normal 0 M9014-9153P22 None

2 16 NSQ1FAB12D0 Normal 0 M9014-9153P22 None

2 17 NSQ1FAB12D0 Normal 0 M9014-9153P22 None

3. 检查各个IRF物理端口的状态是否正常。若端口状态不正常，请按照3 链路端口故障处理确认故障原因。

<H3C> display interface GigabitEthernet2/6/0/1

GigabitEthernet2/6/0/1 current state: UP

Line protocol current state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0000-e80d-c000

Description: GigabitEthernet2/6/0/1 Interface

Loopback is not set

Media type is optical fiber, Port hardware type is 1000_BASE_SX_SFP

……

4. 通过设备运行时间或日志检查IRF中各个成员设备及IRF物理端口所在的接口板在IRF分裂时是否重启过，确认是否为电源故障导致。

<H3C>dis version

H3C Comware Software, Version 7.1.064, Release 9153P22

H3C SecPath M9016-V uptime is 0 weeks, 4 days, 0 hours, 16 minutes

Last reboot reason : User reboot

Boot image: flash:/M9000-CMW710-BOOT-R9153P22.bin

Boot image version: 7.1.064, Release 9153P22

Compiled Dec 10 2020 14:00:00

System image: flash:/M9000-CMW710-SYSTEM-R9153P22.bin

System image version: 7.1.064, Release 9153P22

Compiled Dec 10 2020 14:00:00

Feature image(s) list:

flash:/M9000-CMW710-DEVKIT-R9153P22.bin, version: 7.1.064

Compiled Dec 10 2020 14:00:00

LPU Chassis 1 Slot 0:

Uptime is 0 weeks,1 day,18 hours,32 minutes

H3C SecPath M9014 LPU with 1 XLS408 Processor

BOARD TYPE: NSQ1GT48EA0

DRAM: 1024M bytes

FLASH: 0M bytes

NVRAM: 0K bytes

PCB 1 Version: VER.B

Bootrom Version: 511

CPLD 1 Version: 003

Release Version: H3C SecPath M9014-9153P22

Patch Version : None

Reboot Cause : DEVHandShakeReboot

……

5. 如故障确认，可以通过如更换光模块、更换单板的方式使设备重新形成IRF；如故障无法确认，请搜集各个成员设备的信息，并将信息发送给H3C技术支持人员协助分析。

5.3 故障诊断命令

表8 故障诊断命令

命令	说明
display device	显示设备信息，用于检查各成员设备的软件版本、主控板类型是否一致
display interface	显示指定接口的相关信息，用于检查IRF物理端口状态是否UP
display irf configuration	显示所有成员设备的IRF配置信息，用于检查IRF端口连接是否异常，一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接
display current-configuration	显示当前视图下生效的配置，在系统视图下检查成员设备的如下配置是否一致：irf mode enhanced配置
display version	显示系统版本信息、单板的运行时间，通过设备运行时间确认IRF中各个成员设备是否重启过，主控板及IRF端口所在接口板是否发生重启

6 双机热备故障

6.1 没有加入冗余组的冗余口直连无法ping通

6.1.1 故障描述

未加入冗余组的冗余口具有单独的冗余功能。冗余组只在接口UP/DOWN事件到来时进行激活切换。所有业务逻辑均基于冗余口实现，成员口只负责发送和接受报文。

问题集中在报文收发环节，存在冗余口直连无法ping通的情况。

6.1.2 故障处理步骤

1. 首先判断冗余口是否有报文收发，如果有，报文能够正常上收，问题可能存在转发环节；进行如下操作定位：

(1) 打开debugging ethernet packet 查看冗余口是否有报文上收与发送的调试信息。对冗余口1，采用如下命令：debugging ethernet packet interface Reth 1

(2) 打开 arp error debug命令查看是否存在错误信息。采用如下debug命令：

debugging arp error

如果有错误信息，说明ARP学习异常。

(3) 打开 ip error 查看是否有错误信息。采用如下debug命令：

debugging ip error

如果有错误信息，根据此信息来确定丢包的原因。

(4) 查看 display ethernert statistics 查看是否有错误计数随报文收发增长，命令如下：

<H3C> display ethernet statistics chassis 1 slot 0

ETH receive packet statistics:

Totalnum : 48668 ETHIINum : 48668

SNAPNum : 0 RAWNum : 0

LLCNum : 0 UnknownNum : 0

ForwardNum : 48668 ARP : 0

MPLS : 0 ISIS : 0

ISIS2 : 0 IP : 0

IPV6 : 0

ETH receive error statistics:

NullPoint : 0 ErrIfindex : 0

ErrIfcb : 0 IfShut : 0

ErrAnalyse : 0 ErrSrcMAC : 0

ErrHdrLen : 0

ETH send packet statistics:

L3OutNum : 80843 VLANOutNum : 0

FastOutNum : 215 L2OutNum : 0

ETH send error statistics:

MbufRelayNum : 0 NullMbuf : 0

ErrAdjFwd : 0 ErrPrepend : 0

ErrHdrLen : 0 ErrPad : 0

ErrQosTrs : 0 ErrVLANTrs : 0

ErrEncap : 1045 ErrTagVLAN : 0

IfShut : 0 IfErr : 0

2. 如果冗余口没有报文信息，如下进行如下信息的确认

(1) 需要确认是否建立了冗余表项。查看命令如下：

[H3C] display eth-trunk interface RETH-Trunk 1

RETH-Trunk1 :

Physical status : UP

Link status : UP

Number of members : 2

Eth-trunk group : 100

Member Physical status Active status Hold status

RAGG1 UP Active Normal

RAGG5 UP Inactive Normal

<H3C>display reth interface Reth 1

Reth1 :

Redundancy group : 1

Member Physical status Forwarding status Presence status

XGE1/4/0/9 UP Active Normal

XGE2/4/0/9 UP Inactive Normal

要分析Physical status状态，如果都为down，说明系统异常。分析Forwarding status状态，如果都为Inactive状态，说明成员口异常。

(2) 如果表项存在且成员状态正常，即部分报文能够上收，查看表项是否有错误。

(3) 可以通过shutdown冗余口，尝试刷新表项，看表项是否能够重新建立。如果冗余口的成员口为子接口，还需要查看表项是否带tag。

(4) 如果冗余口、arp表项正常，需要确认驱动有没有上发报文，可查看物理接口计数，看报文是否已经上收。

3. 如果上述手段均无法定位，请联系H3C技术支持人员进行分析。

(1) 报文的收发一般都是双向的过程，A-B两端报文需要互通，可以先确定是报文丢在哪一环，再针对某一环节进行定位。如A-B两端，可单pingA->B查看报文是否能通，再单pingB->A查看报文是否能通。若两端都能通，则证明报文收发没问题。某一端不能通，以B->A为例，先看B是否将报文发出，定位方式按照以上步骤来，再看A是否上收，定位方式也是如此。

(2) 查看表项，控制块等常用信息的时候，记得要查看对应blade板的值，报文从哪里上收，从哪里转发，会不会上到主控板，都是需要关注的。有些直接在接口板进行转发的报文，查看主控板的信息，这样查到的信息是不准确的。

6.2 主备模式双机热备故障

6.2.1 故障描述

图3 组网图

1. 组网需求

(1) M9000-1和M9000-2这2台防火墙构成主备方式的IRF设备，冗余口Reth 1为上行口，聚合口Route-Aggregation1和Route-Aggregation2为冗余口Reth1的成员，成员Route-Aggregation1的优先级高。

(2) 冗余口Reth 2为下行口，聚合口Route-Aggregation3和Route-Aggregation4为冗余口Reth 2的成员，成员Route-Aggregation3的优先级高。

(3) 冗余口Reth 1和Reth 2配有IP地址。冗余组1包含冗余口1和冗余口2。

2. 配置步骤

interface Reth 1

ip address 100.1.1.1 255.255.255.0

member interface Route-Aggregation1 priority 100

member interface Route-Aggregation2 priority 1

interface Reth 2

ip address 100.1.1.1 255.255.255.0

member interface Route-Aggregation3 priority 100

member interface Route-Aggregation4 priority 1

track 11 interface Route-Aggregation1

track 12 interface Route-Aggregation2

track 13 interface Route-Aggregation3

track 14 interface Route-Aggregation4

redundancy group 1

member interface Reth1

member interface Reth2

member failover group 1

member failover group 2

node 1

bind chassis 1

priority 100

track 1 interface Blade1/2/0/1

track 3 interface Blade1/3/0/1

track 11 interface Route-Aggregation1

track 13 interface Route-Aggregation3

node 2

bind chassis 2

priority 50

track 2 interface Blade2/2/0/1

track 4 interface Blade2/3/0/1

track 12 interface Route-Aggregation2

track 14 interface Route-Aggregation4

3. 故障描述

通过冗余组进行IRF主备切换时，不能成功进行切换，出现异常。

6.2.2 故障处理步骤

1. 对冗余组的track进行分析

Track 由于是冗余组进行决策的唯一数据来源，所以track 的配置对于冗余组来说非常重要。Track的配置还有配错的风险，配错后会导致group 决策出现错误。

(1) 如遇group频繁进行激活成员切换的情况，有规律的定时的切换，就需要注意观察下是否频繁有track事件上报。对应查看下track 接口的主备关系，于当前track 所在node的主备关系是否一致。

(2) 如果没有问题，还需要查看下track事件与接口状态是否相符。

(3) 如果IRF由主切到备，需要确认track事件相关的端口是否真正处于Positive的状态，如果仍有端口处于Negative状态，说明存在异常。

(4) 如果仍无问题，则查看下track状态与group中的Track状态是否一致。

查看track状态：

<H3C>dis track 5

Track ID: 5

State: Positive

Duration: 0 days 0 hours 0 minutes 6 seconds

Tracked object type: Interface

Notification delay: Positive 0, Negative 0 (in seconds)

Tracked object:

Interface: Route-Aggregation1

Protocol: None

查看冗余组中的track状态：

<H3C>display redundancy group 1

Redundancy group 1 (ID 1):

Node ID Chassis Priority Status Track weight

1 Chassis1 100 Primary 255

2 Chassis2 50 Secondary 255

Preempt delay time remained : 0 min

Preempt delay timer setting : 1 min

Remaining hold-down time : 0 sec

Hold-down timer setting : 1 sec

Manual switchover request : No

Member interfaces:

Reth1

Reth2

Member failover groups:

Node 1:

Track info:

Track Status Reduced weight Interface

1 Positive 255 Blade1/2/0/1

3 Positive 255 Blade1/3/0/1

11 Positive 255 RAGG1

13 Positive 255 RAGG3

Node 2:

Track info:

Track Status Reduced weight Interface

2 Positive 255 Blade2/2/0/1

4 Positive 255 Blade2/3/0/1

12 Positive 255 RAGG2

14 Positive 255 RAGG4

如果不一致，说明track存在问题。

2. 检查IRF主备切换是，冗余组的权重处理是否正确

· 每个冗余组节点都有权重，缺省值为255，每个冗余组节点必须关联至少一个Track项，每个Track项对应一个权重增量。当Track项变为NotReady或Negative状态时，冗余组节点用当前权重减去对应的权重增量获得新的当前权重。当Track项变为Positive时，冗余组节点用当前权重加上对应的权重增量获得新的当前权重。当前权重小于或等于0时，则认为该节点故障，无法正常工作，触发冗余组的倒换/倒回。

举例说明如下：

<H3C>display redundancy group 1

Redundancy group 1 (ID 1):

Node ID Chassis Priority Status Track weight

1 Chassis1 100 Secondary 0

2 Chassis2 50 Primary 255

Preempt delay time remained : 0 min

Preempt delay timer setting : 1 min

Remaining hold-down time : 0 sec

Hold-down timer setting : 1 sec

Manual switchover request : No

Member interfaces:

Reth1

Member failover groups:

Node 1:

Track info:

Track Status Reduced weight Interface

1 Positive 255 Blade1/2/0/1

3 Positive 255 Blade1/3/0/1

11 Negative(Faulty) 255 RAGG11

13 Positive 255 RAGG3

Node 2:

Track info:

Track Status Reduced weight Interface

2 Positive 255 Blade2/2/0/1

4 Positive 255 Blade2/3/0/1

12 Positive 255 RAGG2

14 Positive 255 RAGG4

3. 如果无法定位问题，请联系H3C技术支持人员进行分析。

6.3 故障诊断命令

表9 故障诊断命令

命令	说明
display redundancy group	显示冗余组状态
display track	显示track状态
display reth interface Reth	显示冗余口状态信息
display interface	显示接口信息

7 NAT类故障处理

7.1 动态NAT转换故障(以动态nat outbound为例)

7.1.1 故障描述

图4 组网图

1. 组网需求

PC1访问PC2，在M9000上对PC1的地址进行NAT转换，转换地址池为：4.4.4.25到4.4.4.30。M9000上有2块防火墙业务板。

2. M9000配置

nat address-group 0

address 4.4.4.25 4.4.4.30

interface Route-Aggregation1023

ip binding vpn-instance vpn11

ip address 192.168.1.254 24

interface Route-Aggregation1021

ip address 4.4.4.254 255.255.255.0

nat outbound address-group 0

3. 故障现象

NAT不能正常转换或者NAT转换的报文不能正常转发。

7.1.2 故障处理步骤

1. 首先确认nat outbound的配置是否正确

[H3C] display nat outbound

NAT outbound information:

There are 1 NAT outbound rules.

Interface: Route-Aggregation1021

ACL: --- Address group: 257 Port-preserved: N

NO-PAT: N Reversible: N

2. 打开debugging nat packet，确认debugging信息是否正确，应有类似如下debugging信息：

*Dec 13 09:58:48:082 2013 H3C NAT/7/COMMON: -Chassis=2-Slot=10.1;

PACKET: (Route-Aggregation1021-out) Protocol: TCP

192.168.1.2:13249 - 4.4.4.6: 21(VPN: 16) ------>

4.4.5.11:11000 - 4.4.4.6: 21(VPN: 0)

*Dec 13 09:58:48:083 2013 H3C NAT/7/COMMON: -Chassis=2-Slot=10.1;

PACKET: (Route-Aggregation1021-in) Protocol: TCP

4.4.4.6: 21 - 4.4.5.11:11000(VPN: 0) ------>

4.4.4.6: 21 - 192.168.1.2:13249(VPN: 16)

注： ### 可以看到正向的流量做了NAT转换，从vpn11的域转成了没有vpn的域。

3. 通过display session table ipv4 verbose命令，确认会话是在哪一块引擎上建立的。

<H3C> display session table ipv4 verbose

Slot 0 in chassis 1:

Total sessions found: 0

Slot 3 in chassis 1:

Total sessions found: 0

CPU 0 on slot 4 in chassis 1:

Total sessions found: 0

Slot 6 in chassis 1:

Initiator:

Source IP/port: 192.168.1.2/13790

Destination IP/port: 4.4.4.6/21

DS-Lite tunnel peer: -

VPN instance/VLAN ID/VLL ID: vpn11/-/-

Protocol: TCP(6)

Responder:

Source IP/port: 4.4.4.6/21

Destination IP/port: 4.4.4.27/1060

DS-Lite tunnel peer: -

VPN instance/VLAN ID/VLL ID: vpn12/-/-

Protocol: TCP(6)

State: TCP_ESTABLISHED

Application: FTP

Start time: 2013-12-15 10:49:00 TTL: 3592s

Interface(in) : Route-Aggregation1023

Interface(out): Route-Aggregation1021

Zone(in) : Trust

Zone(out): menglei

Initiator->Responder: 3 packets 128 bytes

Responder->Initiator: 2 packets 130 bytes

4. 查看openflow表项，确认表项是否和会话表项一致。

对于动态NAT，NAT表项会下刷到每一块业务板上，起到分流作用。

[H3C-probe] display system internal openflow instance inner flow-table

Flow entry rule 6 information:

cookie: 0x0, priority: 7301, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Input interface: RAGG1021

Ethernet type: 0x0800

IP Range: IPv4 destination address from 4.4.4.25 to 4.4.4.27

Instruction information:

Write actions:

Output interface: Blade2/4/0/1

Flow entry rule 7 information:

cookie: 0x0, priority: 7301, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Input interface: RAGG1021

Ethernet type: 0x0800

IP Range: IPv4 destination address from 4.4.4.28 to 4.4.4.30

Instruction information:

Write actions:

Output interface: Blade2/10/0/1

5. 如果上述定位手段均不能作出结论，请联系相关技术支持人员协助分析

7.2 静态NAT444转换故障

7.2.1 故障描述

图5 组网图

1. 组网需求

PC1访问PC2，在M9000上对PC 1的地址进行静态NAT444转换，转换公网地址池为：4.4.5.11到4.4.5.13。M9000上有2块防火墙业务板。

2. M9000配置

# 配置NAT444地址池。

nat port-block-group 256

local-ip-address 192.168.1.2 192.168.1.11 vpn-instance vpn11

global-ip-pool 4.4.5.11 4.4.5.12

block-size 1000

port-range 10000 19000

# 配置入接口。

interface Route-Aggregation1023

ip binding vpn-instance vpn11

ip address 192.168.1.254 24

# 配置出接口。

interface Route-Aggregation1021

ip address 4.4.4.254 255.255.255.0

nat outbound port-block-group 256

# 配置vpn-instance到公网之间路由。

略。

3. 故障现象

NAT444不能正常转换、NAT444转换的报文不能正常转发、反向报文无法正常转发。

7.2.2 故障处理步骤

1. 确认NAT444的地址和端口块设置的正确性

<H3C> display nat port-block-group 256

Port block group 256:

Port range: 10000-19000

Block size: 1000

Local IP address information:

Start address End address VPN instance

192.168.1.2 192.168.1.11 vpn11

Global IP pool information:

Start address End address

4.4.5.11 4.4.5.12

2. 确认端口块数和公网地址是否满足私网地址的需求

这里，每一个私网需要的端口块的端口个数为：1000。

私网地址段192.168.1.2-192.168.1.11共有10个私网地址：共需要1个地址块。

端口范围设置为：10000-19999，因此每一个公网地址可以提供9个地址块。

因此，从上面的配置分析，10个私网地址需要2个公网地址，这里的设置满足需求。

3. 通过debugging nat packet，查看nat444转换debugging信息

4. 通过display session table ipv4 verbose命令，查看会话是否正确。

5. 查看openflow表项下发是否正确

[H3C-probe] display system internal openflow instance inner flow-table

Flow entry rule 24 information:

cookie: 0x0, priority: 7521, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Input interface: RAGG1021

Ethernet type: 0x0800

IP Range: IPv4 destination address from 4.4.5.11 to 4.4.5.12

Instruction information:

Write actions:

Output interface: Blade2/10/0/1

Flow entry rule 25 information:

cookie: 0x0, priority: 7500, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Ethernet type: 0x0800

IP Range: IPv4 source address from 192.168.1.2 to 192.168.1.11

VRF index: 16

[H3C] display ip vpn-instance instance-name

Instruction information:

Write actions:

Output interface: Blade2/10/0/1

Flow entry rule 26 information:

cookie: 0x0, priority: 7501, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Ethernet type: 0x0800

IP Range: IPv4 destination address from 192.168.1.2 to 192.168.1.11

VRF index: 16

Instruction information:

Write actions:

Output interface: Blade2/10/0/1

分析：我们可以看到下发了三条openflow，对于静态nat444来说，所有的openflow都是下发到主板卡上去的。

可以通过 display blade-controller-team default 这条命令可以用来查看哪块是主板卡，如下：

<M9KS-2>display blade-controller-team Default

ID: 1 Name: Default

Chassis Slot CPU Status LBGroupID

2 3 1 Normal 1

* 2 4 1 Normal 1

* : Primary blade controller of the team.

下面分析一下三条openflow：

(1) IP Range:IPv4 destination address from 4.4.5.11 to 4.4.5.11

这一条指明了从pc2 回到pc1的流量（经过nat转换之后的地址）该上送到哪块板卡上。

(2) IP Range:IPv4 source address from 192.168.1.2 to 192.168.1.2

这一条指明了从PC1到PC2的流量该上送到哪块板卡上。

(3) IP Range:IPv4 destination address from 192.168.1.2 to 192.168.1.2

大家对这条openflow可能会不理解，觉得这条openflow为什么要下发呢？其实此时如果要是有一个PC3（和pc1同网侧）想要访问PC1，那么PC3访问PC1的流量该上送到哪块板卡呢？由于第二条openflow的存在，PC1的流量肯定上送到主板卡，如果PC3访问PC1的流量没有上送到主板卡，而上送到别的板卡上去了，那么PC1此时就没法访问PC3了。

6. 通过会话和openflow下刷表项的对比，如果存在不一致的地方，NAT444转换可能存在异常。如果这些都解决不了问题。请联系技术支持人员进行分析。

7.3 设备作为出口网关设备割接之后，NAT业务不通，但是接口地址可以ping通

7.3.1 故障描述

M9000作为出口网关设备割接之后，内网部分用户无法上网，外网用户无法访问内网服务器，但是从外网ping出接口的地址可以ping通。

7.3.2 故障处理步骤

1. 确定NAT地址池是否和接口地址是同一个网段：

如果NAT地址池的地址和接口地址不在同一网段，NAT地址池的地址无法响应。如果不在同一网段，要确保对端设置了NAT地址池的路由。

2. 割接后，如果地址池中的地址或nat server地址和接口在同一网段，确认地址池中的地址或者nat server地址是否发送了免费ARP，可以通过直连对端设备进行确认。还需要确认对端学习到的arp的mac地址的正确性：

设备割接时，对端设备需要更新ARP。当两端不是直连，对端设备不能感知到链路Down过，所以不能删除相关ARP表项。当设备上线后，本端接口会发送接口地址的免费ARP，对端设备收到该免费ARP后可以正常更新该ARP表项；但可能存在地址池中的地址ARP没有刷新。

3. debug或者抓包分析，是否ping报文只有发出去的而没有回来的，存在转发异常的情况。

4. 持续地ping nat地址池或者nat server的地址，打开arp的debug开关，确认是否能够收到arp请求报文。

5. 如果无法确认定位，请联系技术支持人员进行分析。

7.4 故障诊断命令

表10 故障诊断命令

命令	说明
display nat outbound	显示nat outbound设置信息
display nat server	显示nat server设置信息及状态
display blade-controller-team Default	显示设备上那块业务板为主业务板
display openflow instance	显示openflow下刷的表项
display session	显示会话信息
save	将当前配置保存到指定文件

8 IPsec/IKE类故障处理

8.1 IPsec SA可以成功建立，但是IPsec保护的流量不通

8.1.1 故障描述

图6 组网图

1. 组网需求

M9000-1和M9000-2 两台防火墙设备之间建立IPsec隧道，对PC1和PC2之间访问的流量进行IPsec保护

配置描述：

· M9000-1上，ike的local-address为：9.9.9.9，remote-address为：9.9.9.19，安全acl规则为：

rule 0 permit ip source 151.1.0.0 0.0.255.255 destination 152.2.0.0 0.0.255.255

· M9000-2上，ike的local-address为：9.9.9.19， remote-address为：9.9.9.9，安全acl规则为：

rule 0 permit ip source 152.2.0.0 0.0.255.255 destination 151.1.0.0 0.0.255.255

2. 故障描述

ike sa和ipsec sa都可以建立，但是PC1 和PC2互相ping，均不能ping通。

8.1.2 故障处理步骤（以分析M9000-1为例）

1. 在M9000-1上，首先查看ike sa和ipsec sa是否正确，如下：

查看ike sa：

[h3c]dis ike sa

Connection-ID Remote Flag DOI

------------------------------------------------------------------

1 9.9.9.9 RD IPsec

Flags:

RD--READY RL--REPLACED FD-FADING RK-REKEY

查看ipsec sa：

[h3c]dis ipsec sa

-------------------------------

Interface: Ten-GigabitEthernet8/2/20

-------------------------------

-----------------------------

IPsec policy: ipsec

Sequence number: 1

Mode: ISAKMP

Flow table status: Active

-----------------------------

Tunnel id: 0

Encapsulation mode: tunnel

Perfect Forward Secrecy:

Inside VPN:

Extended Sequence Numbers enable: N

Traffic Flow Confidentiality enable: N

Path MTU: 1428

Tunnel:

local address: 9.9.9.19

remote address: 9.9.9.9

Flow:

sour addr: 152.2.0.0/255.255.0.0 port: 0 protocol: ip

dest addr: 151.1.0.0/255.255.0.0 port: 0 protocol: ip

[Inbound ESP SAs]

SPI: 42602698 (0x028a10ca)

Connection ID: 4294967296

Transform set: ESP-ENCRYPT-AES-CBC-128 ESP-AUTH-SHA1

SA idle time: 86400

SA duration (kilobytes/sec): 1843200/3600

SA remaining duration (kilobytes/sec): 1843199/3154

Max received sequence-number: 4

Anti-replay check enable: Y

Anti-replay window size: 64

UDP encapsulation used for NAT traversal: N

Status: Active

[Outbound ESP SAs]

SPI: 3182510800 (0xbdb142d0)

Connection ID: 4294967297

Transform set: ESP-ENCRYPT-AES-CBC-128 ESP-AUTH-SHA1

SA idle time: 86400

SA duration (kilobytes/sec): 1843200/3600

SA remaining duration (kilobytes/sec): 1843199/3154

Max sent sequence-number: 4

UDP encapsulation used for NAT traversal: N

Status: Active

2. 查看M9000-2接口板的openflow是否正确下发

[h3c-probe]display system internal openflow instance inner-redirect flow-tab

Instance 4097 flow table information:

Flow entry 41 information:

cookie: 0x0, priority: 8102, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Ethernet type: 0x0800

IP protocol: 50

IPv4 source address: 9.9.9.19, mask: 255.255.255.255

IPv4 destination address: 9.9.9.9, mask: 255.255.255.255

VRF index: 0

Instruction information:

Write actions:

Group: 4026531873

Flow entry 42 information:

cookie: 0x0, priority: 8300, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

IPv4 source address: 151.1.0.0, mask: 255.255.0.0

IPv4 destination address: 152.2.0.0, mask: 255.255.0.0

Instruction information:

Write actions:

Group: 4026531873

IPsec openflow是在一阶段、二阶段后协商成功后才会下发，会下发两条规则，所下的规则如下：

(1) 对于解密方向，只能看到隧道头中的地址，所以要用隧道的源地址和目的地址来下引流规则：

接口索引 + 隧道源地址 + 隧道目的地址。

(2) 对于加密方向，由于是明文，可以知道流的源地址和目的地址，所以用ACL流信息来下引流规则。

如果IPSec SA正常建立，但是IPSec openflow没有正常下发，就会出现ping不通的现象。

3. 如果接口板的openflow表项正常，需要查看业务板openflow下发是否正常

[h3c-probe]display system internal openflow instance inner flow-table

Instance 4096 flow table information:

Flow entry 21 information:

cookie: 0x0, priority: 8102, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Ethernet type: 0x0800

IP protocol: 50

IPv4 source address: 9.9.9.19, mask: 255.255.255.255

IPv4 destination address: 9.9.9.9, mask: 255.255.255.255

VRF index: 0

Instruction information:

Write actions:

Group: 4026531873

Flow entry 22 information:

cookie: 0x0, priority: 8300, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Ethernet type: 0x0800

IPv4 source address: 151.1.0.0, mask: 255.255.0.0

IPv4 destination address: 152.2.0.0, mask: 255.255.0.0

Instruction information:

Write actions:

Group: 4026531873

4. 如果上述都没有发现问题，可以reset ipsec sa、reset ike sa；重新建立SA，看是否正常。如果无法解决问题，请联系技术支持人员。

8.2 IPsec的防火墙端为2台M9000主备堆叠，在IRF主设备down掉后，IPsec出现异常

8.2.1 故障描述

图7 组网图

1. 组网需求

M9000设备M9000-1和M9000-2组成主备堆叠设备，M9000-1为Master。防火墙FW和堆叠设备建立IPsec隧道，保护PC1和PC2之间的交互流量。

2. 故障描述

IPsec加密流量主要走IRF主设备M9000-1，但当M9000-1出故障down掉后，发现PC1和PC2不能再ping通。

8.2.2 故障处理步骤

(1) 在IRF设备M9000-2上，首先查看ike sa和IPsec SA是否正常建立。如果sa没有成功建立，需要在M9000-2设备上查看IPsec相关的openflow表项，通过如下命令：

display system internal openflow instance inner-redirect flow-tab

display system internal openflow instance inner flow-table

如果出现如下信息：

[h3c-probe]display system internal openflow instance inner-redirect flow-tab

Instance 4097 flow table information:

Flow entry 41 information:

cookie: 0x0, priority: 8102, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Ethernet type: 0x0800

IP protocol: 50

IPv4 source address: 9.9.9.19, mask: 255.255.255.255

IPv4 destination address: 9.9.9.9, mask: 255.255.255.255

VRF index: 0

Instruction information:

Write actions:

Group: 4026531873

Flow entry 42 information:

cookie: 0x0, priority: 8300, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

IPv4 source address: 151.1.0.0, mask: 255.255.0.0

IPv4 destination address: 152.2.0.0, mask: 255.255.0.0

Instruction information:

Write actions:

可以看出，IPsec SA虽然没有建立起来，但是，IPsec openflow表项仍存在。说明存在openflow表项存在异常。信息中，Group: 4026531873 表明SA的出端口仍为已经down掉的M9000-1上的端口，说明openflow表项没有随着主设备的down掉而删除，导致无法建立正常的SA。

(2) 对主备切换，如果处理IPsec业务的业务板或者堆叠主机down掉，IPsec SA会重新建立。需要确认当前存在的IPsec SA是否是重新建立的。

(3) 如果SA已经成功建立，并且openflow表项正确下了。可以尝试reset ipsec sa、reset ike sa命令，尝试重新建立IPsec SA。

(4) 打开debugging ipsec、debugging ike相关debug命令，进行调试定位。

(5) 如果上述手段均无法定位，请联系相关技术支持人员进行分析。

8.3 故障诊断命令

表11 故障诊断命令

命令	说明
display ike sa	显示ike sa的信息
display ipsec sa	显示ipsec sa的信息
display system internal openflow instance	显示openflow表项信息
reset ike sa	清除ike sa
reset ipsec sa	清除ipsec sa
save	将当前配置保存到指定文件

9 SSL VPN类故障处理

9.1 ssl vpn登录，无法打开ssl vpn页面

9.1.1 故障描述

客户端可以ping通ssl vpn网关，但是无法打开ssl vpn页面。

9.1.2 故障处理步骤

(1) 首先查看SSL策略视图下是否未引用PKI域，通过以下命令查看，ssl策略下需要引用PKI域

[H3C] ssl server-policy XXX

[H3C-ssl-server-policy-XXX] dis this

ssl server-policy XXX

pki-domain ssl

return

如果pki-domain ssl命令不存在，需要添加。

(2) 查看是否在该PKI域下导入了CA证书，LOCAL证书。并且保证LOCAL证书是CA服务器颁发给服务器的证书，而不是客户端证书，通过以下命令查看

display pki certificate domain XXXX ca

display pki certificate domain XXXX local

(3) 可能是在SSL gateway 的service enable之后，再进行了导入证书的操作，只要导入了证书或者SSL 策略进行了配置变化，就必须在ssl gateway XXX里面进行undo service enable，然后再service enable一下便可，证书和配置才能生效

9.2 故障诊断命令

表12 故障诊断命令

命令	说明
ssl server-policy policy-name	创建SSL服务器端策略，并进入SSL服务器端策略视图
pki-domain domain-name	配置SSL服务器端策略所使用的PKI域
display pki certificate domain domain-name { ca \| local }	显示证书内容
sslvpn gateway gateway-name	创建SSL VPN网关，并进入SSL VPN网关视图
service enable	开启当前的SSL VPN网关

10 负载均衡故障处理

10.1 四层服务器负载均衡,虚服务和实服务都处于active状态，客户端发往服务器的流量不通

10.1.1 故障描述

图8 组网图

1. 组网需求：

三台物理服务器Server A、Server B和Server C均可提供FTP服务，且这三台服务器的硬件配置顺次降低。通过配置负载均衡，在考虑硬件性能的前提下让这三台服务器联合提供FTP服务，并通过健康检测来监控这些服务器是否可达。

(1) 配置实服务组

# 创建ICMP类型的NQA模板t1。

nqa template icmp t1

# 创建实服务组sf，配置其调度算法为加权轮转算法，并指定其健康检测方法为t1。

server-farm sf

probe t1

(2) 配置实服务器

# 创建实服务器rs1，配置其IPv4地址为192.168.1.1、权值为150，并加入实服务组sf。

real-server rs1

ip address 192.168.1.1

weight 150

server-farm sf

# 创建实服务器rs2，配置其IPv4地址为192.168.1.2、权值为120，并加入实服务组sf。

real-server rs2

ip address 192.168.1.2

weight 120

server-farm sf

# 创建实服务器rs3，配置其IPv4地址为192.168.1.3、权值为80，并加入实服务组sf。

real-server rs3

ip address 192.168.1.3

weight 80

server-farm sf

(3) 配置虚服务器

# 创建TCP类型的虚服务器vs，配置其VSIP为61.159.4.100，指定其默认实服务组为sf，并开启此虚服务。

virtual-server vs type tcp

virtual ip address 61.159.4.100

default server-farm sf

service enable

10.1.2 故障描述

虚服务vs和实服务rs1、rs2、rs3都处于active状态，但是host访问虚服务地址不能成功。

10.1.3 故障处理步骤

1. 首先查看LB设备上虚服务是否有统计来确定Host与LB设备之间是否可达，并查看虚服务是否有丢包统计，如下：

如果虚服务没有统计，则客户端到LB设备不可达，确保客户端和LB设备可达后再查看是否正常；如果虚服务有统计且有丢包统计，开启LB的debug或者在客户端抓包分析。

查看虚服务vs统计：

[LB] display virtual-server statistics name vs

Slot 1:

Virtual server: vs

Total connections: 10

Active connections: 3

Max connections: 3

Connections per second: 0

Max connections per second: 1

Client input: 3210 bytes

Client output: 14074 bytes

Throughput: 0 bytes/s

Max throughput: 7554 bytes/s

Received packets: 1365

Sent packets: 2796

Dropped packets: 0

2. 如果上述虚服务统计正常且没有丢包统计，再查看实服务组中所有实服务器是否有丢包统计，如下：

如果实服务器有丢包统计，开启LB的debug或者在响应服务器端抓包分析，以确定相应实服务器和LB设备之间的链路是否可达，相应实服务器的服务或者服务端口是否开启。

查看实服务统计：

[LB] display real-server statistics name rs1

Slot 1:

Real server: rs1

Total connections: 5

Active connections: 1

Max connections: 1

Connections per second: 0

Max connections per second: 1

Server input: 307462 bytes

Server output: 27460 bytes

Throughput: 0 bytes/s

Max throughput: 316457 bytes/s

Received packets: 319

Sent packets: 236

Dropped packets: 0

Received requests: 0

Dropped requests: 0

Sent responses: 0

Dropped responses: 0

[LB]display real-server statistics name rs2

Slot 1:

Real server: rs2

Total connections: 2

Active connections: 1

Max connections: 1

Connections per second: 0

Max connections per second: 1

Server input: 870147 bytes

Server output: 45163 bytes

Throughput: 0 bytes/s

Max throughput: 580348 bytes/s

Received packets: 748

Sent packets: 511

Dropped packets: 0

Received requests: 0

Dropped requests: 0

Sent responses: 0

Dropped responses: 0

[LB]display real-server statistics name rs3

Slot 1:

Real server: rs3

Total connections: 2

Active connections: 1

Max connections: 1

Connections per second: 0

Max connections per second: 1

Server input: 870147 bytes

Server output: 45163 bytes

Throughput: 0 bytes/s

Max throughput: 580348 bytes/s

Received packets: 178

Sent packets: 311

Dropped packets: 0

Received requests: 0

Dropped requests: 0

Sent responses: 0

Dropped responses: 0

3. 如果上述都没有发现问题，可以开启LB的debug，从debug信息来分析出现故障的位置。如果无法解决问题，请联系技术支持人员。

10.2 CPU/内存较高时对负载均衡的影响

10.2.1 故障描述

CPU高，内存高，哪些负载均衡的功能会造成哪些影响。

10.2.2 故障处理步骤

1. 查看实服务的状态，cpu高可能导致NQA探测失败或者震荡，此时虚服务会有丢包。

2. 内存高会导致并发上不去，新请求会失败。

10.3 故障诊断命令

命令	说明
display virtual-server statistics	显示虚服务器的统计信息
display real-server statistics	显示实服务器的统计信息
debugging lb all	开启LB的所有调试信息
debugging lb error	开启LB的错误调试信息
debugging lb event	开启LB的事件调试信息
debugging lb fsm	开启LB的状态机调试信息
debugging lb packet	开启LB的报文调试信息

10.4 负载分担是否均匀时如何排查优化

10.4.1 故障描述

发现负载均衡分担不均匀时，如何排查并进行优化。

10.4.2 故障处理步骤

(1) 可以查看各个实服务的统计信息是否均匀。如果想让各个服务器均匀的分担一般用轮转的调度算法，将客户端请求均匀分担到多个实服务。

(2) LB插卡是多核CPU系统，每个核单独按照自己的表项进行轮转，所以全局来看，有可能出现每个实服务分到的连接数不均衡的问题。请考虑修改调度算法为最小连接或者随机等观察一下。

(3) 源地址HASH算法流量不均匀，请确认源地址个数是否足够。

(4) 通过配置负载均衡策略，进行更精细的分类，将请求进行分类送给哪些服务器，尽量满足用户实际需求: 对于特殊业务，服务器的状态，需要依据实际环境进行调整。

10.5 故障诊断命令

配置	命令
显示实服务器的统计信息	display real-server statistics [ name real-server-name ]
显示虚服务器的统计信息	display virtual-server statistics [ name virtual-server-name ]
清除实服务器的统计信息	reset real-server statistics [ real-server-name ]
清除虚服务器的统计信息	reset virtual-server statistics [ virtual-server-name ]

11 DPI故障处理

11.1 正常业务流量被IPS误报攻击拦截

11.1.1 故障描述

图9 组网图

1. 组网需求：

局域网内PC通过防火墙访问Internet，防火墙上开启IPS业务，保护内外网用户免遭受攻击。

2. 配置描述

域间策略中开启ips检测。

app-profile 3_5_54752_IPv4

ips apply policy default mode protect

object-policy ip Trust-Untrust

rule 54752 inspect 3_5_54752_IPv4

zone-pair security source Trust destination Untrust

object-policy apply ip Trust-Untrust

3. 故障描述

内网用户发起的正常业务流量访问不成功，设备上报ips攻击日志。

11.1.2 故障处理步骤

(1) 首先查看设备上报的IPS攻击日志，源目的IP端口是否为客户端、服务器的IP端口，如果是则记录IPS日志中对应的Attack ID。

(2) 创建IPS策略，将报攻击的IPS特征关闭或者将动作设置为permit加log，并在域间策略中引用。

(3) 抓取客户端访问业务的报文并反馈给研发进行分析，确认是否为误报，如果为误报则修改对应特征，如果非误报则对用户进行解释并在配置中对该条特征进行放行。

11.1.3 故障诊断命令

命令	说明
ips policy policy-name	缺省情况下，存在一个缺省IPS策略，名称为default，且不能被修改和删除
signature override { pre-defined \| user-defined } signature-id { { disable \| enable } [ { block-source \| drop \| permit \| redirect \| reset } \| capture \| logging ] * }	缺省情况下，预定义IPS特征使用系统预定义的状态和动作，自定义IPS特征的动作和状态在管理员导入的特征库文件中定义。缺省IPS策略中的IPS特征的动作属性和生效状态属性不能被修改

命令

说明

ips policy policy-name

缺省情况下，存在一个缺省IPS策略，名称为default，且不能被修改和删除

signature override { pre-defined | user-defined } signature-id { { disable | enable } [ { block-source | drop | permit | redirect | reset } | capture | logging ] * }

缺省情况下，预定义IPS特征使用系统预定义的状态和动作，自定义IPS特征的动作和状态在管理员导入的特征库文件中定义。

缺省IPS策略中的IPS特征的动作属性和生效状态属性不能被修改

12 系统管理维护类故障处理

12.1 CPU占用率高

12.1.1 故障描述

设备CPU占用率持续在60%以上，下发命令时设备反应很慢。

<H3C> display cpu-usage

Chassis 1 Slot 0 CPU 0 CPU usage:

1% in last 5 seconds

2% in last 1 minute

2% in last 5 minutes

Chassis 1 Slot 4 CPU 0 CPU usage:

1% in last 5 seconds

4% in last 1 minute

4% in last 5 minutes

Chassis 1 Slot 7 CPU 0 CPU usage:

84% in last 5 seconds

27% in last 1 minute

27% in last 5 minutes

Chassis 1 Slot 8 CPU 0 CPU usage:

3% in last 5 seconds

6% in last 1 minute

6% in last 5 minutes

Chassis 1 Slot 9 CPU 0 CPU usage:

3% in last 5 seconds

6% in last 1 minute

6% in last 5 minutes

Chassis 2 Slot 0 CPU 0 CPU usage:

0% in last 5 seconds

2% in last 1 minute

2% in last 5 minutes

Chassis 2 Slot 4 CPU 0 CPU usage:

0% in last 5 seconds

4% in last 1 minute

4% in last 5 minutes

Chassis 2 Slot 6 CPU 0 CPU usage:

3% in last 5 seconds

6% in last 1 minute

6% in last 5 minutes

Chassis 2 Slot 7 CPU 0 CPU usage:

3% in last 5 seconds

6% in last 1 minute

6% in last 5 minutes

Chassis 2 Slot 8 CPU 0 CPU usage:

15% in last 5 seconds

6% in last 1 minute

6% in last 5 minutes

Chassis 2 Slot 9 CPU 0 CPU usage:

3% in last 5 seconds

6% in last 1 minute

6% in last 5 minutes

这里，是在IRF环境下，查询的CPU利用率信息。Chassis 1和Chassis 2别表示堆叠的框1和框2。该命令显示的是每个框上每个槽位的CPU利用率。

通过display cpu-usage history可以查看单板最近60分钟的CPU占用情况。如横坐标时间为20，则表示20分钟前的CPU使用率。

<H3C> display cpu-usage history

100%|

95%|

90%|

85%|

80%|

75%|

70%|

65%|

60%|

55%|

50%|

45%|

40%|

35%|

30%|

25%|

20%|

15%|

10%|

5%| #

------------------------------------------------------------

10 20 30 40 50 60 (minutes)

cpu-usage (CPU 0) last 60 minutes (SYSTEM)

12.1.2 故障处理步骤

CPU占用率高的原因通常有：

· 路由振荡。

· 配置过多的路由策略。

· 报文攻击。

· 链路环路。

· 报文没有走快转。

· 接口没有加入安全域或者没有安全策略，大量报文在设备上丢弃。

· 是否打开了debugging命令。

1. 路由策略排查

通过display route-policy命令可以查看设备配置的路由策略，请检查配置的路由策略是否过多，导致CPU处理的负担增加。

<H3C> display route-policy

Route-policy: policy1

permit : 1

if-match cost 10

continue: next node 11

apply comm-list a delete

2. 链路环路排查

链路成环时，网络振荡，大量的协议报文上送CPU处理也可能导致CPU占用率升高。存在环路时流量成环，可能会出现广播，设备很多端口的流量会变得很大，端口使用率达到90％以上：

<H3C>display interface Ten-GigabitEthernet6/0/11

Ten-GigabitEthernet6/0/11

Current state: UP

Line protocol state: UP

Description: Ten-GigabitEthernet6/0/11 Interface

Bandwidth: 10000000 kbps

Maximum transmission unit: 1500

Allow jumbo frames to pass

Broadcast max-ratio: 100%

Multicast max-ratio: 100%

Unicast max-ratio: 100%

Internet protocol processing: Disabled

IP packet frame type: Ethernet II, hardware address: 1234-660e-0012

IPv6 packet frame type: Ethernet II, hardware address: 1234-660e-0012

Media type is optical fiber,Port hardware type is 10G_BASE_SR_SFP

Output queue - Urgent queuing: Size/Length/Discards 0/1024/0

Output queue - Protocol queuing: Size/Length/Discards 0/500/0

Output queue - FIFO queuing: Size/Length/Discards 0/75/0

10Gbps-speed mode, Full-duplex mode

Link speed type is autonegotiation, link duplex type is autonegotiation

Flow-control is not enabled

The Maximum Frame Length is 9216

Last link flapping: 1 hours 31 minutes 7 seconds

Last clearing of counters: 09:48:08 Mon 12/28/2020

Current system time:2020-12-28 11:06:14 Beijing+08:00:00

Last time when physical state changed to up:2020-12-28 09:35:07 Beijing+08:00:00

Last time when physical state changed to down:2020-12-28 09:34:55 Beijing+08:00:00

Peak input rate: 29 bytes/sec, at 2020-12-28 09:54:00

Peak output rate: 373 bytes/sec, at 2020-12-28 10:40:17

Last 300 second input: 0 packets/sec 24 bytes/sec 0%

Last 300 second output: 2 packets/sec 212 bytes/sec 0%

Input (total): 785 packets, 116898 bytes

5 unicasts, 0 broadcasts, 780 multicasts, 0 pauses

Input (normal): 785 packets, - bytes

5 unicasts, 0 broadcasts, 780 multicasts, 0 pauses

Input: 0 input errors, 0 runts, 0 giants, 0 throttles

0 CRC, 0 frame, - overruns, 0 aborts

- ignored, - parity errors

Output (total): 10296 packets, 1119042 bytes

772 unicasts, 0 broadcasts, 9524 multicasts, 0 pauses

Output (normal): 10296 packets, - bytes

772 unicasts, 0 broadcasts, 9524 multicasts, 0 pauses

Output: 0 output errors, - underruns, - buffer failures

0 aborts, 0 deferred, 0 collisions, 0 late collisions

0 lost carrier, - no carrier

如链路出现环路：

· 排查链路连接、端口配置是否正确。

· 设备对接的交换机是否使能STP协议，配置是否正确。

· 设备路由是否设置正确，是否存在路由环路。

3. 报文是否走快转排查

可以通过display ip fast-forwarding cache命令来确定报文是否走快转，如果cache表项中不存在某条流，说明报文没有走快转。

<H3C> display ip fast-forwarding cache

Total number of fast-forwarding entries: 10

SIP SPort DIP DPort Pro Input_If Output_If Flg

192.168.96.39 162 192.168.210.20 11586 17 M-GE1/0/0/0 InLoop0 1

192.168.96.18 162 192.168.210.20 11585 17 M-GE1/0/0/0 InLoop0 1

192.168.96.16 162 192.168.210.20 11584 17 M-GE1/0/0/0 InLoop0 1

12.1.1.1 3784 12.1.1.2 49216 17 N/A InLoop0 1

192.168.210.20 11585 192.168.96.18 162 17 InLoop0 M-GE1/0/0/0 1

192.168.210.20 11584 192.168.96.16 162 17 InLoop0 M-GE1/0/0/0 1

192.168.210.20 11586 192.168.96.39 162 17 InLoop0 M-GE1/0/0/0 1

12.1.1.2 49216 12.1.1.1 3784 17 InLoop0 N/A 1

192.168.96.40 50356 192.168.210.20 23 6 M-GE1/0/0/0 InLoop0 1

192.168.210.20 23 192.168.96.40 50356 6 InLoop0 M-GE1/0/0/0 1

可以根据某一个地址进行确认以该地址为源或目的IP报文是否走快转，命令如下：

<H3C> display ip fast-forwarding cache 12.1.1.1

Total number of fast-forwarding entries: 2

SIP SPort DIP DPort Pro Input_If Output_If Flg

12.1.1.2 49216 12.1.1.1 3784 17 InLoop0 N/A 1

12.1.1.1 3784 12.1.1.2 49216 17 RAGG5.3101 InLoop0 1

4. 如果仍然无法排除故障，请将display cpu-usage命令显示信息及搜集的其他信息反馈给H3C技术支持人员分析。

12.2 内存占用率高

12.2.1 故障描述

多次查看单板内存占用率，发现内存占用率持续偏高，始终处于70％以上（未使用的内存占用率低于30%）。Total表示总的内存，Used表示当前使用的内存，FreeRatio表示未使用的内存占用率。

12.2.2 故障处理步骤

<H3C> display memory chassis 1 slot 2

Memory statistics are measured in KB:

Chassis 1 Slot 2:

Total Used Free Shared Buffers Cached FreeRatio

Mem: 984640 313232 671408 0 0 26568 68.2%

-/+ Buffers/Cache: 286664 697976

Swap: 0 0 0

Chassis 1 Slot 2 CPU 1:

Total Used Free Shared Buffers Cached FreeRatio

Mem: 14834944 3342376 11492568 0 600 124500 77.5%

-/+ Buffers/Cache: 3217276 11617668

Swap: 0 0 0

这类问题通常为软件问题引起，如内存泄露，也可能是由于会话数目、路由数目过多导致。请按照下面步骤进一步搜集信息发送给H3C技术支持人员分析。

1. 查询单板各进程的内存使用信息

通过display process memory命令多次查询单板各进程的内存使用信息。Dynamic类型的内存为设备动态申请的，在内存出现泄露时会变得很大，通过前后比较观察可以确认哪个进程的内存占用持续增加。如果持续增加，说明该进程可能发生了泄露，请记录下进程的JID。下面以查询JID为78的diagd进程为例说明。

<H3C> display process memory chassis 2 slot 2

JID Text Data Stack Dynamic Name

1 168 604 24 64 scmd

2 0 0 0 0 [kthreadd]

3 0 0 0 0 [ksoftirqd/0]

……

78 112 9368 12 320 diagd

79 76 1040 8 8 mdcagentd

80 116 8860 8 16 fsd

81 140 992 16 212 dbmd

83 72 496 8 20 syslogd

84 168 41980 16 44 drvdiagd

85 172 17112 16 12 devd

94 112 8864 12 12 edev

……

2. 确认哪种字节大小的内存块发生泄露

再进一步确认JID为78的diagd进程的哪种字节大小的内存块发生泄露。如下命令所示，Size表示内存块的字节大小，Total表示总的申请个数，Used表示使用数目，Free表示未使用的数目，Free Ratio表示未使用的内存块百分比。通过多次查询并比较查询值可以看出哪个Size的内存块Used个数持续增加。查询完毕后，请将搜集到的信息发送H3C给技术支持人员分析。

<Sysname> display process memory heap job 78 verbose

Heap usage:

Size Free Used Total Free Ratio

16 0 385 385 0.0%

24 2 49 51 3.9%

32 0 13 13 0.0%

40 0 7 7 0.0%

64 0 411 411 0.0%

72 0 4 4 0.0%

80 1 0 1 100.0%

96 1 0 1 100.0%

104 0 8 8 0.0%

136 0 8 8 0.0%

152 0 9 9 0.0%

184 0 1 1 0.0%

368 0 8 8 0.0%

3080 0 1 1 0.0%

8200 1 0 1 100.0%

29376 1 0 1 100.0%

Large Memory Usage:

Used Blocks : 24

Used Memory(in bytes): 2031616

Free Blocks : 0

Free Memory(in bytes): 0

Summary:

Total virtual memory heap space(in bytes) : 2113536

Total physical memory heap space(in bytes) : 454656

Total allocated memory(in bytes) : 2075736

12.3 故障诊断命令

表13 故障诊断命令

命令	说明
display cpu-usage	显示CPU利用率的统计信息，用于查询CPU占用率高的任务
display cpu-usage history	以图形方式显示CPU利用率统计历史信息
display interface	显示指定接口的信息，检查接口的流量是否正常
display memory	显示单板内存占用率
display process memory	显示单板各进程的内存使用信息，通过多次查询，发现可能存在内存泄露的进程
display process memory heap	显示Dynamic类型内存的详细信息，确认哪种字节大小的内存块发生了泄露
display route-policy	显示设备配置的路由策略，检查配置的路由策略是否过多，导致CPU处理的负担增加

13 策略加速对设备CPU的影响

13.1 对象策略加速使得CPU升高

13.1.1 故障描述

流量下，由于新建或者修改一条对象策略规则会加速一次，所以短时间内持续下刷或更改策略规则配置会使得设备CPU持续升高的现象。

13.1.2 故障排查

升级策略加速优化版本，支持对象策略延迟加速功能，即等连续几条对象策略配置下发完成后再进行一次加速，可以避免当前刷配置导致cpu高的现象。

延迟加速功能版本支持情况：

D032SP版本支持情况：D032SP26及后续版本；

D045SP版本支持情况：D045SP07及后续版本。

13.2 安全策略自动加速

13.2.1 故障描述

流量下，安全策略不支持加速的时候走满匹配，多策略配置会消耗cpu。

13.2.2 故障排查

升级安全策略加速功能版本，并支持安全策略自动加速功能，即新建和更改策略项配置时2秒后（策略不大于100条时）进行策略加速，或20秒后（策略总数大于100条）进行策略加速。

安全策略加速功能版本支持情况：

D032SP版本支持情况：都支持；

D045SP版本支持情况：都支持。

14 高可靠性与VRRP 故障处理

14.1 同一个VRRP备份组内两台防火墙的的VRRP状态都为backup

14.1.1 故障描述

图10 组网图

1. 组网需求

两台Device上下行分别接入二层交换机，Device的上下行接口工作在三层模式。

两台Device之间建立一条RBM通道。

两台Device上下行分别配置两个VRRP备份组，并与RBM关联，具体如下：

¡ Device A上下行业务接口的VRRP备份组1和3加入Active group；Device A上下行业务接口的VRRP备份组2和4加入Standby group。

¡ Device B上下行业务接口的VRRP备份组1和3加入Standby group；Device B上下行业务接口的VRRP备份组2和4加入Active group。

两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址（此示例中为2.1.1.15）。

Router上需要将去往Host A路由的下一跳指定为VRRP备份组1的虚拟IP地址（此示例中为2.1.1.3）。

Router上需要将去往Host B路由的下一跳指定为VRRP备份组2的虚拟IP地址（此示例中为2.1.1.4）。

Host A上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址（此示例中为10.1.1.3）。

Host B上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址（此示例中为10.1.1.4）。

Switch A需要将连接Device和Router的接口加入相同的VLAN。

Switch B需要将连接Device和Host的接口加入相同的VLAN。

2. 故障描述

观察发现，两台防火墙的VRRP状态都为Backup。

14.1.2 故障处理步骤

(1) 检查RBM控制通道连接是否正常，使用命令行display remote-backup-group status

RBM_P[M9012_1]dis remote-backup-group status

Remote backup group information:

Backup mode: Dual-active

Device management role: Primary

Device running status: Active

Data channel interface: Route-Aggregation1023

Local IP: 30.24.0.1

Remote IP: 30.24.0.2 Destination port: 60164

Control channel status: Connected

Keepalive interval: 1s

Keepalive count: 10

Configuration consistency check interval: 1 hour

Configuration consistency check result: Consistent(2020-12-17 10:55:15)

Configuration backup status: Auto sync enabled

Session backup status: Hot backup enabled

Delay-time: 1 min

Control channel status如果显示为Connected 则表示正常。如果显示未disconnected，则表示状态断连，需要检查RBM控制通道使用的接口的物料状态。

(2) 检查业务板是否为选中状态，使用命令行display link-aggregation verbose Blade-Aggregation

RBM_P[M9012_1]dis link-aggregation verbose Blade-Aggregation

Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing

Port Status: S -- Selected, U -- Unselected, I -- Individual

Port: A -- Auto port

Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,

D -- Synchronization, E -- Collecting, F -- Distributing,

G -- Defaulted, H -- Expired

Aggregate Interface: Blade-Aggregation1

Aggregation Mode: Static

Loadsharing Type: Shar

Port Status Priority Oper-Key

--------------------------------------------------------------------------------

Blade4/0/1 S 32768 4

Blade7/0/1 S 32768 4

Aggregate Interface: Blade-Aggregation257

Aggregation Mode: Static

Loadsharing Type: Shar

Port Status Priority Oper-Key

--------------------------------------------------------------------------------

Blade4/0/2 S 32768 5

Blade7/0/2 S 32768 5

Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U，或者无引擎口显示，请排查业务引擎版状态。

(3) 如果上述都没有发现问题，但是两台防火墙的VRRP状态都为BackUP，请联系技术支持人员。

15 攻击防范故障处理

15.1 配置FIN的泛洪攻击，设备不报该攻击

15.1.1 故障描述

图11 组网图

1. 组网需求：

外网设备通过防火墙访问sever，防火墙上开启攻击防范业务，保护内网server免受攻击。

2. 配置描述

配置攻击防范策略，对fin的泛洪进行检测

attack-defense policy 1

fin-flood detect non-specific

fin-flood action logging drop client-verify

在入方向安全域下应用攻击防范策略

security-zone name Untrust

attack-defense apply policy 1

3. 故障描述

外网用户向server发起fin的泛洪攻击，防火墙设备没有报日志，流量也没有转发出去。

15.1.2 故障处理步骤

(1) 首先排查配置问题，攻击防范策略是否配置在入方向的安全域上，对于fin的攻击是否进行配置。

(2) 使用命令行display attack-defense malformed-packet statistics排查是否是畸形报文丢包了。（fin是畸形报文的一种）

(3) 检查流量进来的目的地址是否唯一，对于唯一的目的地址的阈值是否达到阈值门限

(4) 如果上述都没有发现问题，请联系技术支持人员。

15.1.3 故障诊断命令

命令	说明
display attack-defense policy {name}	显示攻击防范配置
display attack-defense statistics security-zone{ zone }	显示攻击防范丢包统计
display blacklist { ip \| ipv6 }	显示黑名单统计

16 无威胁日志问题处理

16.1 IPS设备无威胁日志

16.1.1 故障描述

图12 组网图

1. 组网需求：

PC访问Internet的流量由PC---Switch---Internet进行转发，T9012-S旁挂在交换机上并接收镜像流量做IPS处理，这种组网为最常见的旁挂部署方式。

2. 配置描述

配置交换机镜像组和镜像源目的接口；

配置IDS设备inline黑洞模式的Bridge实例并添加接口；

配置安全域并添加接口；

安全策略中引用IPS策略；

3. 故障描述

网络流量中有攻击报文，设备长时间不报威胁日志。

16.1.2 故障处理步骤

1. 整体处理思路：

2. 会话判断：

display session table ipv4 verbose

查看设备是否存在会话，以及会话是否正常，主要从会话状态，应用，以及是否是单向流判断。

Initiator:

Source IP/port: 8:7:6:5:4:3:2:2/6158

Destination IP/port: 1:2:3:4:5:6:7:7/110

VPN instance/VLAN ID/Inline ID: -/-/-

Protocol: TCP(6)

Inbound interface: Ten-GigabitEthernet2/2/0/10

Source security zone: Untrust

Responder:

Source IP/port: 1:2:3:4:5:6:7:7/110

Destination IP/port: 8:7:6:5:4:3:2:2/6158

VPN instance/VLAN ID/Inline ID: -/-/-

Protocol: TCP(6)

Inbound interface: Ten-GigabitEthernet2/2/0/9

Source security zone: Trust

State: TCP_ESTABLISHED //如果状态有问题，三次握手不全，无法检测，无法产生ips日志

Application: POP3 //如果应用不识别，无法产生ips日志

Rule ID: 0

Rule name: v6

Start time: 2018-12-27 18:49:14 TTL: 1199s

Initiator->Responder: 5 packets 406 bytes

Responder->Initiator: 4 packets 303 bytes

//如果是单向流，特征不完全，检测失败，无法产生ips日志

3. 无会话：

display counters rate inbound interface

判断相应接口是否有流量被镜像过来，如果没有，需检查交换机镜像配置。

4. 判断设备是否有丢包：

display system internal ip packet-drop statistics

display system internal aspf statistics zone-pair ipv4

有些环境因为配置等问题，报文还未走到DPI模块就被丢弃了，自然无法产生IPS日志。

5. 有会话，但会话不全：

这种情况多数为交换机镜像过来的正反向报文没有从同一个物理口或逻辑口进入设备，需要注意黑洞模式的接口对配置。

6. 会话正常：

会话正常的情况下，查看license和特征库版本，display security-policy ip，查看安全策略配置，确认内容安全是否引用了ips策略，以及安全策略的命中情况，以确保流量是命中了开启内容安全的那条安全策略。

display inspect status

查看是否处于bypass状态，当处于bypass状态时，设备不做dpi检测。

dis inspect status

Chassis 1 Slot 0:

Running status: normal

display system internal inspect hit-statistics

确认报文是否经过DPI检测，如下所示，设备进行了DPI检测，但是报文仅仅命中部分AC，没有完整命中特征，所以不会产生日志。Rule hits下不为0时，表示有报文命中了规则。

display system internal inspect hit-statistics

Rule ID Module Rule hits AC hits PCRE try PCRE hits

1855 IPS 0 1 0 0

17 RBM动态路由故障处理

17.1 上下行接口故障后RBM未进行切换

17.1.1 故障描述

FW设备上行或下行接口故障，但是流量仍然上送到本设备，RBM未进行切换。

17.1.2 故障处理步骤

分别登陆两台设备查看RBM详细配置，RBM默认会检测本框中业务板的个数，但是接口类故障需要手工配置track检测。

配置主：

track 1 interface Route-Aggregation1

track 2 interface Route-Aggregation11

RBM_P[M9016_1-remote-backup-group]display this

remote-backup group

backup-mode dual-active

data-channel interface Route-Aggregation1000

delay-time 1

adjust-cost bgp enable absolute 10000

adjust-cost ospf enable absolute 10000

adjust-cost ospfv3 enable absolute 10000

track 1

track 2

local-ip 192.168.195.9

remote-ip 192.168.195.10

device-role primary

配置备：

track 1 interface Route-Aggregation1

track 2 interface Route-Aggregation11

RBM_S[M9016_2-remote-backup-group]display this

remote-backup group

backup-mode dual-active

data-channel interface Route-Aggregation1000

delay-time 1

adjust-cost bgp enable absolute 10000

adjust-cost ospf enable absolute 10000

adjust-cost ospfv3 enable absolute 10000

track 1

track 2

local-ip 192.168.195.10

remote-ip 192.168.195.9

device-role secondary

RBM检测track的状态(通过display track all命令查询)，当track的结果为positive时，RBM认为本机状态正常；当track结果为negative时，RBM模块认为本机异常触发RBM切换，进而调整相应的路由开销，引导流量全部走到另外一台FW设备。

初始开局时，确保两台FW的RBM中绑定track，并增加路由开销联动。RBM中的配置不会同步，每台FW需分别手动添加。

17.2 RBM双机配置不一致

17.2.1 故障描述

RBM默认每隔24h进行配置一致性检查，由于某些原因造成的配置不一致时，系统会上报不一致告警，并携带相关模块。

RBM_P[M9016_1]%Dec 17 14:25:43:191 2020 M9016_1 RBM/6/RBM_CFG_COMPARE_START: Started configuration consistency check.

%Dec 17 14:25:44:775 2020 M9016_1 RBM/6/RBM_CFG_COMPARE_RESULT: The following modules have inconsistent configuration: acl.

%Dec 17 14:25:44:775 2020 M9016_1 RBM/6/RBM_CFG_COMPARE_FINISH: Finished configuration consistency check.

17.2.2 故障处理步骤

首先根据告警提示信息检查对应模块不一致的地方，例如系统检测到acl模块存在差异，建议比对当前两台FW的acl配置，存在2种情况：

Ø 配置备上存在acl 3000，配置主上没有，

1) 若确认acl 3000需要保留，直接在配置主上增加acl 3000，系统自动进行配置同步，然后保存2台设备的配置

2) 若确认acl 3000无需保留，在配置主上执行configuration manual-sync命令，系统自动进行配置同步，配置备acl 3000自动删除，然后保存2台设备的配置

Ø 配置主上存在acl 3000,配置备上没有

1) 若确认acl 3000需要保留，在配置主上执行configuration manual-sync命令，系统自动进行配置同步，然后保存2台设备的配置

2) 若确认acl 3000无需保留，在配置主上删除acl 3000，并执行configuration manual-sync命令，系统自动进行配置同步，然后保存2台设备的配置

18 AFT类故障处理

18.1 IPv6访问IPv4（以源地址动态转换，目的地址静态转换为例）

18.1.1 故障描述

1. 组网需求

PC1访问PC2。在M9000上，通过IPv4到IPv6源地址静态转换策略，为目的IPv4地址指定一个对应的IPv6地址23::1。PC1访问该IPv6地址便可以访问PC2。

对于PC1，通过IPv6到IPv4的源地址动态转换策略，将IPv6发送过来的IPV6报文源地址转换为IPv4地址30.30.40.100。

2. M9000配置

acl ipv6 number 2000

rule 0 permit source 1:1::1/128

aft address-group 0

address 30.30.40.100 30.30.40.100

aft v6tov4 source acl ipv6 number 2000 address-group 0

aft v4tov6 source 1.1.1.1 23::1

interface Route-Aggregation10.900

aft enable

interface Route-Aggregation10.901

aft enable

3. 故障现象

AFT不能正常转换或者AFT转换的报文不能正常转发。

18.1.2 故障处理步骤

18.2 故障诊断命令

1. 首先确认AFT配置是否正确

Display aft configuration查看设备上AFT的配置。在M9000上，流量入接口和出接口都需要开启aft功能（aft enable）。

[H3C]dis aft configuration

aft address-group 0

address 30.30.40.100 30.30.40.100

aft v6tov4 source acl ipv6 number 2000 address-group 0

aft v4tov6 source 1.1.1.1 23::1

interface Route-Aggregation10.900

aft enable

interface Route-Aggregation10.901

aft enable

AFT ALG:

DNS : Enabled

FTP : Enabled

HTTP : Enabled

ICMP-ERROR : Enabled

RTSP : Enabled

SIP : Enabled

2. Debugging AFT 事件查看AFT是否正常转换

<H3C>debugging aft packet ip

Dec 16 15:08:22:697 2020 H3C AFT/7/COMMON: -Slot=6.1;

PACKET: (Route-Aggregation10.900) Protocol: UDP

1.1.1.1/69 - 30.30.40.100/1128(VPN:0) ------>

23::1/69 – 1:1::1/35017(VPN:0)

或

<H3C>debugging aft packet ipv6

Dec 16 15:09:13:696 2020 H3C AFT/7/COMMON: -Slot=6.1;

PACKET: (Route-Aggregation10.901) Protocol: UDP

1:1::1/6677 - 23::1/5060(VPN:0) ------>

30.30.40.100/1149 - 1.1.1.1/5060(VPN:0)

注：如果以上信息，表示IPv4和IPv6已经进行了AFT转换。

3. 查看openflow表项，确认流表下发是否正常

[H3C-probe]dis system internal openflow instance inner-redirect flow-table

Flow entry 3305 information:

cookie: 0x0, priority: 5045, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Input interface: RAGG10

VLAN ID: 900, mask: 0xfff

IP Range: IPv4 destination address from 30.30.40.100 to 30.30.40.100

Instruction information:

Write actions:

Group: 4026531857

Flow entry 3306 information:

cookie: 0x0, priority: 5045, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Input interface: RAGG10

VLAN ID: 4094, mask: 0xfff

IP Range: IPv4 destination address from 30.30.40.100 to 30.30.40.100

Instruction information:

Write actions:

Group: 4026531857

Flow entry 3307 information:

cookie: 0x0, priority: 5080, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

IPv4 source address: 1.1.1.1, mask: 255.255.255.255

Instruction information:

Write actions:

Group: 4026531865

Flow entry 3308 information:

cookie: 0x0, priority: 5085, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

IPv4 destination address: 1.1.1.1, mask: 255.255.255.255

Instruction information:

Write actions:

Group: 4026531865

Flow entry 3309 information:

cookie: 0x0, priority: 7085, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Input interface: RAGG10

VLAN ID: 900, mask: 0xfff

IPv6 destination address: 23::1

IPv6 destination address mask: FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF

Instruction information:

Write actions:

Group: 4026531865

Flow entry 3310 information:

cookie: 0x0, priority: 7085, hard time: 0, idle time: 0, flags: check_overlap

|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

Input interface: RAGG10

VLAN ID: 4094, mask: 0xfff

IPv6 destination address: 23::1

IPv6 destination address mask: FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF

Instruction information:

Write actions:

Group: 4026531865

注：对于AFT静态转换，需要关注流表下发是否正常。

4. 如果上述定位手段均不能作出结论，请联系相关技术支持人员协助分析

19 攻击防范故障处理

19.1 配置FIN的泛洪攻击，设备不报该攻击

19.1.1 故障描述

图13 组网图

1. 组网需求：

外网设备通过防火墙访问sever，防火墙上开启攻击防范业务，保护内网server免受攻击。

2. 配置描述

配置攻击防范策略，对fin的泛洪进行检测

attack-defense policy 1

fin-flood detect non-specific

fin-flood action logging drop client-verify

在入方向安全域下应用攻击防范策略

security-zone name Untrust

attack-defense apply policy 1

3. 故障描述

外网用户向server发起fin的泛洪攻击，防火墙设备没有报日志，流量也没有转发出去。

19.1.2 故障处理步骤

(1) 首先排查配置问题，攻击防范策略是否配置在入方向的安全域上，对于fin的攻击是否进行配置。

(2) 使用命令行display attack-defense malformed-packet statistics排查是否是畸形报文丢包了。（fin是畸形报文的一种）

(3) 检查流量进来的目的地址是否唯一，对于唯一的目的地址的阈值是否达到阈值门限

19.1.3 故障诊断命令

命令	说明
display attack-defense policy {name}	显示攻击防范配置
display attack-defense statistics security-zone{ zone }	显示攻击防范丢包统计
display blacklist { ip \| ipv6 }	显示黑名单统计

20 单板隔离导致的板卡下电或重启

20.1 板件内联口故障对单板的影响

20.1.1 故障描述

单板出现异常重启或者下电

20.1.2 故障处理步骤

1. 单板异常重启

查看diagfile.log日志

<M9k>more diagfile/diagfile.log

查看设备diagfile.log日志，如果有单板间的hg口故障日志，表明单板间的内联口出现故障，而裁决单板重启，若单板重启后，内联口恢复正常，将日志发给技术支持人员进行分析。

%@12527^Dec 19 16:10:56:906 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.

%@12528^Dec 19 16:10:56:640 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=13; Chassis 1 Slot 13 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 8: The source port went down.

%@12529^Dec 19 16:10:57:376 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=11; Chassis 1 Slot 11 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 3: The source port went down.

%@12530^Dec 19 16:10:56:740 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=12; Chassis 1 Slot 12 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 6: The source port went down.

%@12554^Dec 19 16:11:11:959 2020 M9k DRV/3/FAULT_MONITOR_BITMAP:

Fault PhySlot List: 3

Fault Reason BitMap:

slot : 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

-----------------------------------------------------

Fabric1 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5

Fabric2 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5

Fabric3 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5

Fabric4 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5

-----------------------------------------------------

IO board: 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

Fault Reason: 0-RFCS, 1-RERPKT, 2-DOWN, 3-UNRESP, 4-1bit, 5-NORMAL

%@12555^Dec 19 16:11:11:960 2020 M9k DRV/3/FAULT_MONITOR_REBOOT: Chassis 1 Slot 3: The card will be restarted due to a hardware failure.

查看logfile.log日志

<M9k>more logfile/logfile.log

查看设备logfile.log日志，如果有单板间的hg口故障日志，表明单板间的内联口出现故障，而裁决单板重启，若单板重启后，内联口恢复正常，将日志发给技术支持人员进行分析。

%@4387931%Dec 19 16:10:56:906 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.

%@4387932%Dec 19 16:10:56:640 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=13; Chassis 1 Slot 13 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 8: The connectivity of the internal port failed.

%@4387933%Dec 19 16:10:57:376 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=11; Chassis 1 Slot 11 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 3: The connectivity of the internal port failed.

%@4387934%Dec 19 16:10:56:740 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=12; Chassis 1 Slot 12 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 6: The connectivity of the internal port failed.

%@4387947%Dec 19 16:11:11:960 2020 M9k DRV/3/FAULT_MONITOR_REBOOT: Chassis 1 Slot 3: The card will be restarted due to a hardware failure.

%@4387948%Dec 19 16:11:12:151 2020 M9k DEV/2/BOARD_STATE_FAULT: Board state changed to Fault on chassis 1 slot 3, type is NSQM1FWEFGA0.

2. 单板异常下电

查看diagfile.log日志

<M9k>more diagfile/diagfile.log

查看设备diagfile.log日志，如果半小时内出现3次单板间的hg口故障而导致到重启，最后出现“The card will be isolated due to a hardware failure”日志时，表明单板间的内联口出现故障并且无法通过重启恢复，而裁决单板下电隔离，此时可查看日志将hg口故障涉及到单板进行更换，并将日志发给技术支持人员进行分析。

%@12574^Dec 19 17:15:53:091 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.

%@12584^Dec 19 17:23:57:002 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.

%@12605^Dec 19 17:32:34:001 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.

%@12615^Dec 19 17:32:54:996 2020 M9k DRV/3/FAULT_MONITOR_BITMAP:

Fault PhySlot List: 10

Fault Reason BitMap:

slot : 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

-----------------------------------------------------

Fabric1 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5

Fabric2 : 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

Fabric3 : 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

Fabric4 : 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

-----------------------------------------------------

IO board: 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

Fault Reason: 0-RFCS, 1-RERPKT, 2-DOWN, 3-UNRESP, 4-1bit, 5-NORMAL

%@12616^Dec 19 17:32:54:996 2020 M9k DRV/3/FAULT_MONITOR_ISOLATE: Chassis 1 Slot 10: The card will be isolated due to a hardware failure.

查看logfile.log日志

<M9k>more logfile/logfile.log

查看设备logfile.log日志，如果半小时内出现3次单板间的hg口故障而导致到重启，最后出现“The card will be isolated due to a hardware failure”日志时，表明单板间的内联口出现故障并且无法通过重启恢复，而裁决单板下电隔离，此时可查看日志将hg口故障涉及到单板进行更换，并将日志发给技术支持人员进行分析。

%@4388208%Dec 19 17:15:40:345 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.

%@4388291%Dec 19 17:23:57:002 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.

%@4388385%Dec 19 17:32:34:001 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.

%@4388389%Dec 19 17:32:54:996 2020 M9k DRV/3/FAULT_MONITOR_ISOLATE: Chassis 1 Slot 10: The card will be isolated due to a hardware failure.

21 电子标签获取失败故障处理

21.1 电子标签信息

电子标签信息也可以称为永久配置数据或档案信息等，在硬件的调测（调试、测试）过程中被写入到设备的存储器件中，包括硬件的名称、生产序列号、MAC地址、制造商、产品代码等信息。电子标签作用是获取设备SN和DID信息。设备的SN和DID申请激活文件，并将激活文件安装在该设备上。该设备才能获得授权，可以运行指定的特性。

21.1.1 故障描述

display device manuinfo显示电子标签丢失，无法获取SN和DID信息，不能进一步进行Lincense授权。

21.1.2 故障处理步骤

1. 日志定位

(1) 如果是主备倒换导致电子标签丢失，因为主备倒换需要重启设备，可以通过locallogbuf（locallogbuffer是驱动记录的底层信息）日志查看异常情况。

[B-probe]local logbuffer 10 display 查看到异常打印信息

举例说明，日志异常打印：

Sep 08 2020 16:54:36:488937:

LINE:152-TASK:ofpd-FUNC:BSP_E2PROM_Read_OnSelec:

get I2C MutexSem1 fail.

Sep 08 2020 16:54:36:596761:

LINE:2077-TASK:TEMP-FUNC:drv_sysm_get_power_size_75X:

get I2C MutexSem1 fail.

Sep 08 2020 16:54:37:489907:

LINE:5780-TASK:ofpd-FUNC:DRV_SYSM_SysGetManufactureInfo:

In function:BSP_E2PROM_Read_OnSelec, Read manual infoerror

Sep 08 2020 16:54:37:489967:

LINE:6089-TASK:ofpd-FUNC:DRV_SYSM_ManuInfoResolve:

Read manufacture information Fail!

Sep 08 2020 16:54:37:490005:

LINE:12303-TASK:ofpd-FUNC:DRV_DEVM_GetManuInfo:

get chassis manu info failed!

2. 解决措施

在电子标签读取失败的情况下，查询上述日志信息后，请将搜集到的信息发送给H3C技术支持人员分析。

21.1.3 故障诊断命令

# 显示设备的电子标签信息。（分布式设备－独立运行模式）（集中式IRF设备）

<Sysname> display device manuinfo

Slot 1 CPU 0:

DEVICE_NAME : XXXX

DEVICE_SERIAL_NUMBER : XXXXXXXXXXXXXXXXXXXX

MAC_ADDRESS : XXXX-XXXX-XXXX

MANUFACTURING_DATE : XXXX-XX-XX

VENDOR_NAME : H3C

PRODUCT ID : XX-XXXX-XX

Subslot 1:

DEVICE_NAME : XXXX

DEVICE_SERIAL_NUMBER : XXXXXXXXXXXXXXXXXXXX

MANUFACTURING_DATE : XXXX-XX-XX

VENDOR_NAME : H3C

Fan 1:

DEVICE_NAME : XXXX

DEVICE_SERIAL_NUMBER : XXXXXXXXXX

MANUFACTURING_DATE : XXXX-XX-XX

VENDOR_NAME : H3C

Fan 2:

DEVICE_NAME : XXXX

DEVICE_SERIAL_NUMBER : XXXXXXXXXX

MANUFACTURING_DATE : XXXX-XX-XX

VENDOR_NAME : H3C

Power 1:

DEVICE_NAME : XXXX

DEVICE_SERIAL_NUMBER : XXXXXXXXXXXXXXXXXXXX

MANUFACTURING_DATE : XXXX-XX-XX

VENDOR_NAME : H3C

表14 表1-9 display device manuinfo命令信息显示描述表

字段	描述
Slot 1 CPU 0:	表示设备的电子标签信息，包括： · DEVICE_NAME：表示设备的名称 · DEVICE_SERIAL_NUMBER：表示设备的序列号 · MAC_ADDRESS：表示设备出厂MAC地址 · MANUFACTURING_DATE：表示设备的调测日期 · VENDOR_NAME：表示设备制造商的名称 · PRODUCT ID：表示产品代码
Subslot 1:	表示子卡的电子标签信息
Fan 1:	表示风扇的电子标签信息
Power 1:	表示电源的电子标签信息

22 设备主控、业务板卡版本不一致故障处理

22.1 查看主控、业务板卡版本信息

高端防火墙设备M9000系列可以通过任一视图下display device、dis version和probe视图下display system internal version查看状态正常的设备的版本情况。

22.1.1 故障描述

设备的主控版本、业务版本都应该取自相同的版本路径。否则会导致主控、业务板卡版本不一致，使得业务板卡fault状态（比如主控取45SP分支版本，业务板取32SP分支版本，业务板会fault启动不了）

22.1.2 故障处理步骤

1. 主控、业务板卡取的分支不同导致板卡fault启动不了

如果主控、业务板卡取的分支不同导致板卡fault，启动不了，会有两种情况。一种是板卡一直fault，板卡一直在重启状态；一种是板卡fault卡住不动。针对上述情况，bootlooder和web升级版本解决问题不在适用，只能通过bootware（Ctrl+B）方式升级版本解决板卡fault问题。板卡fault卡住不动需要插拔板卡让板卡重启，手动连续按Ctrl+B，使得板卡进入bootware升级界面，通过bootware方式升级版本解决板卡fault问题。

2. 故障诊断相关命令

<H3C>display boot-loader

Software images on chassis 1 slot 0:

Current software images:

flash:/M9000-CMW710-BOOT-R9153P22.bin

flash:/M9000-CMW710-SYSTEM-R9153P22.bin

flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

flash:/M9000-CMW710-BOOT-R9153P22.bin

flash:/M9000-CMW710-SYSTEM-R9153P22.bin

flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

None

Software images on chassis 1 slot 1:

Current software images:

flash:/M9000-CMW710-BOOT-R9153P22.bin

flash:/M9000-CMW710-SYSTEM-R9153P22.bin

flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

flash:/M9000-CMW710-BOOT-R9153P22.bin

flash:/M9000-CMW710-SYSTEM-R9153P22.bin

flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

None

Software images on chassis 1 slot 2.1:

Current software images:

sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

None

Software images on chassis 1 slot 3.1:

Current software images:

sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

None

Software images on chassis 2 slot 0:

Current software images:

flash:/M9000-CMW710-BOOT-R9153P22.bin

flash:/M9000-CMW710-SYSTEM-R9153P22.bin

flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

flash:/M9000-CMW710-BOOT-R9153P22.bin

flash:/M9000-CMW710-SYSTEM-R9153P22.bin

flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

None

Software images on chassis 2 slot 1:

Current software images:

flash:/M9000-CMW710-BOOT-R9153P22.bin

flash:/M9000-CMW710-SYSTEM-R9153P22.bin

flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

flash:/M9000-CMW710-BOOT-R9153P22.bin

flash:/M9000-CMW710-SYSTEM-R9153P22.bin

flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

None

Software images on chassis 2 slot 2.1:

Current software images:

sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

None

Software images on chassis 2 slot 3.1:

Current software images:

sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

None

<H3C>

热门推荐

热门推荐

H3C服务器

HPE服务器

热门推荐

H3C存储

HPE存储

热门推荐

商用台式机

商用笔记本

商用显示器

配件

热门推荐

热门推荐

智能终端

技术解决方案

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

专业安全服务

安全运营服务

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

技术支持

自助服务

热门推荐

热门推荐

热门推荐

热门推荐

合作伙伴培训与认证

热门推荐

热门推荐

公司刊物

加入我们

国家/地区

H3C SecPath M9000系列多业务安全网关 故障处理手册-6W401

目录

1.2.1 logfile日志

1.2.2 diag信息

1.3 故障定位和处理

1.3.1 故障处理流程图

1.3.2 业务功能故障排查

1. 单板故障

2. 风扇故障

3. 温度告警

4. 链路端口故障

5. 报文转发故障

6. IRF故障

7. 双机热备故障

8. NAT/ALG转换故障

9. IPsec/IKE故障

10. CPU占用率高

11. 内存占用率高

1.3.4 故障模型及影响分析

1. 单板状态查询

2. 单板重启确认

2.1.2 故障处理步骤

2. 单板状态Fault

3. 单板重启

3.1 端口错包

1. 端口入方向报文计数错误字段解释

2. 端口出方向报文计数错误字段解释

1. 端口入方向出现CRC、frame、throttles错包且计数持续增加

2. 端口入方向出现giants错包且计数持续增加

3. 端口出方向出现错包且计数持续增加

3.2.2 故障处理步骤

1. 端口无法Up

4.1 ping不通或丢包

1. 确认参与转发的出入端口是否加入到安全域和域间策略

2. 设备入出报文统计

3. 报文计数分析

4.2 有NAT转换情况下，ping丢包或不通

1. 配置检查

H3C SecPath M9000系列多业务安全网关故障处理手册-6W401