• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C 安全产品 故障处理手册(V7)-6W101

手册下载

H3C 安全产品 故障处理手册(V7)-6W101-整本手册.pdf  (1.93 MB)

  • 发布时间:2025/5/21 21:18:33
  • 浏览量:
  • 下载量:

H3C 安全产品

故障处理手册(V7)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2024新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。


 

1 简介·· 1

1.1 故障处理注意事项·· 1

1.2 收集设备运行信息·· 1

1.3 故障定位和处理·· 3

2 硬件类故障处理·· 7

2.1 主机故障·· 7

2.2 单板故障·· 8

2.3 风扇故障·· 12

2.4 温度告警·· 13

2.5 故障诊断命令·· 14

3 端口故障处理·· 14

3.1 端口错包·· 14

3.2 端口无法UP· 16

3.3 端口频繁UP/Down· 17

3.4 光模块故障·· 18

3.5 故障诊断命令·· 20

4 报文转发故障处理·· 21

4.1 PC与设备直连,无法访问Ping通设备·· 21

4.2 PC通过设备与其他终端连接,无法互相访问·· 22

4.3 PC通过设备与其他终端连接,已配置在同一安全域,无法互相访问·· 23

4.4 ping不通或丢包·· 23

4.5 NAT转换情况下,ping丢包或不通·· 25

4.6 设备在转发过程中,有丢包现象·· 28

4.7 故障诊断命令·· 30

5 IRF类故障处理·· 30

5.1 IRF无法形成·· 30

5.2 IRF出现分裂·· 35

5.3 故障诊断命令·· 37

6 RBM类故障处理·· 38

6.1 RBM无法形成·· 38

6.2 RBM出现分裂·· 42

6.3 RBM动态路由故障处理·· 43

7 双机热备故障处理·· 45

7.1 没有加入冗余组的冗余口直连无法ping·· 45

7.2 主备模式双机热备故障·· 47

8 策略NAT故障处理·· 50

8.1 内网用户无法访问外网·· 50

8.2 NAT源地址转换不生效·· 51

8.3 NAT目的地址转换不生效·· 52

8.4 NAT源地址转换与NAT目的地址转换配合使用,NAT目的地址转换不生效·· 53

8.5 NATIPsec配合使用,IPsec配置不生效·· 54

8.6 配置策略NAT后,内网用户无法访问设备·· 55

8.7 配置NAT源地址转换后,外网用户无法访问设备·· 56

8.8 配置NAT目的地址转换后,外网用户无法访问设备·· 57

9 接口NAT故障处理·· 58

9.1 内网用户无法访问外网·· 58

9.2 NAT源地址转换不生效·· 59

9.3 NAT目的地址转换不生效·· 60

9.4 NAT源地址转换与NAT目的地址转换配合使用,NAT目的地址转换不生效·· 60

9.5 NATIPsec配合使用,IPsec配置不生效·· 62

9.6 配置NAT源地址转换后,外网用户无法访问设备·· 62

9.7 配置NAT目的地址转换后,外网用户无法访问设备·· 63

9.8 动态NAT转换故障(以动态nat outbound为例) 64

9.9 静态NAT444转换故障·· 66

9.10 设备作为出口网关设备,NAT业务不通,但是接口地址可以ping·· 68

9.11 故障诊断命令·· 69

10 AFT类故障处理·· 69

10.1 IPv6访问IPv4(以源地址动态转换,目的地址静态转换为例)·· 69

10.2 故障诊断命令·· 70

11 IPsec/IKE类故障处理·· 72

11.1 IPsec SA可以成功建立,但是IPsec保护的流量不通·· 72

11.2 IPsec的防火墙端为2M9000主备堆叠,在IRF主设备down掉后,IPsec出现异常·· 76

11.3 IKE SA可以成功建立,但是IPsec SA未能建立成功·· 78

11.4 故障诊断命令·· 78

11.5 IKE SA未能成功建立·· 79

11.6 故障诊断命令·· 79

11.7 IPsec智能选路,链路不检测·· 80

11.8 故障诊断命令·· 81

11.9 IPsec隧道保护隧道接口上的报文,隧道未建立成功·· 82

11.10 故障诊断命令·· 83

12 负载均衡故障处理·· 84

12.1 四层服务器负载均衡,虚服务和实服务都处于active状态,客户端发往服务器的流量不通·· 84

12.2 CPU/内存较高时对负载均衡的影响·· 87

12.3 故障诊断命令·· 87

12.4 负载分担不均匀时如何排查优化·· 88

12.5 故障诊断命令·· 88

13 系统管理维护类故障处理·· 88

13.1 CPU占用率高·· 88

13.2 内存占用率高·· 92

13.3 故障诊断命令·· 94

14 SSL VPN 类故障处理·· 94

14.1 SSL VPN登录,无法打开SSL VPN页面·· 94

14.2 浏览器无法登录SSL VPN网关·· 95

14.3 浏览器无法访问内网资源·· 97

14.4 iNode客户端无法获取SSL VPN网关信息·· 99

14.5 iNode客户端无法登录SSL VPN网关·· 100

14.6 iNode客户端无法访问内网资源·· 102

14.7 iNode用户无法老化下线·· 103

14.8 配置用户过滤、监控、绑定IP地址等功能不生效·· 103

14.9 用户曾经登录SSL VPN网关成功,再次登录时失败·· 104

14.10 用户配置企业微信认证失败·· 105

15 DPI故障处理·· 106

15.1 正常业务流量被IPS/AV误报攻击拦截·· 106

15.2 IPS/WAF攻击流量不能被阻断,设备不报攻击日志·· 108

15.3 特定应用限速不生效·· 112

15.4 文件过滤/数据过滤不生效,且没有产生日志·· 114

15.5 开启SSL卸载,Web页面没有成功卸载·· 118

15.6 应用审计没有生效,且没有产生日志·· 124

15.7 指定的网页设备没有阻断,且没有产生日志·· 126

15.8 服务器发出异常外联行为,设备没有输出告警日志·· 129

15.9 具有风险的IP与本地用户连接成功,无告警日志·· 130

15.10 数据中心无日志or日志长时间不更新·· 132

16 策略加速对设备CPU的影响·· 134

16.1 对象策略加速使得CPU升高··· 134

16.2 安全策略自动加速·· 135

17 高可靠性与VRRP 故障处理·· 136

17.1 同一个VRRP备份组内两台防火墙的VRRP状态都为backup· 136

18 攻击防范故障处理·· 138

18.1 配置FIN的泛洪攻击,设备不报该攻击·· 138

19 无威胁日志问题处理·· 140

19.1 IPS设备无威胁日志·· 140

20 单板隔离导致的板卡下电或重启·· 142

20.1 板件内联口故障对单板的影响·· 142

21 电子标签获取失败故障处理·· 145

21.1 电子标签信息·· 145

22 设备主控、业务板卡版本不一致故障处理·· 147

22.1 查看主控、业务板卡版本信息·· 147

23 负载均衡故障处理·· 149

23.1 引用TCP类型健康检查后,实服务器状态为Probe-failed状态·· 149

23.2 引用HTTP健康检查后,实服务器状态为Probe-failed状态·· 152

23.3 引用UDP健康检查后,实服务器状态为Probe-failed状态·· 155

23.4 PKI与导入证书提示缺少key· 158

23.5 虚服务器业务配置完毕后,虚服务器处于Inactive状态·· 159

23.6 TCP类型虚服务器HTTP业务访问失败·· 160

23.7 HTTP类型虚服务器,X-Forward-For功能失效·· 162

23.8 全局负载均衡DNS域名解析失败·· 164

23.9 出链路负载均衡按照预期前置条件转发失败·· 168

23.10 RBM组网通道建立失败·· 170

 


1 简介

本文档介绍防火墙产品软、硬件常见故障的诊断及处理措施。

1.1  故障处理注意事项

·              更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

·              设备正常运行时,建议您在完成重要功能的配置后,及时保存当前配置,以便设备出现故障后能迅速恢复配置。

·              设备的故障,包括主控故障、引擎故障、接口板、网板故障。对主控板和接口板的故障,主要通过主控板上的Console口或者Telnet来进行搜集。对引擎故障,主要通过引擎上的Console口来搜集。(适用于分布式设备)

·              设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),搜集信息越全面、越详细,越有利于故障的快速定位。

¡  记录具体的故障现象、故障时间、配置信息。

¡  记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡  记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡  记录故障处理过程中配置的所有命令行显示信息。

¡  搜集设备日志信息和诊断信息。

¡  记录抓取的报文信息、系统输出的Debug信息、主控板与网板持续异常重启的输出信息。

¡  记录设备故障时单板、电源指示灯的状态,或给现场设备拍照记录。

·              引擎故障时,需要单独记录引擎的故障信息。需要连接引擎的串口线搜集信息。

·              故障处理过程中,请注意:

¡  明确每项配置操作的影响,保证操作出问题时能够被恢复,故障影响不会扩大。

¡  操作执行后请等待一定时间以确认执行效果。

¡  请不要保存故障处理过程中的配置,特别是出现IRF分裂,否则会引起配置丢失。

1.2  收集设备运行信息

说明

为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。

 

设备运行过程中会产生logfile日志信息及记录设备运行状态的诊断信息。这些信息存储在Flash中,可以通过FTPTFTP等方式导出。不同主控板中导出的logfilediag文件请按照一定规则存放(如不同的文件夹:chassisXslotY),避免不同主控板的运行信息相互混淆,以方便查询。

日志在保存到日志文件前,先保存在日志文件缓冲区。系统会按照指定的频率将日志文件缓冲区的内容写入日志文件,用户也可以手工触发立即保存。诊断日志在保存到诊断日志文件前,先保存在诊断日志文件缓冲区。系统会按照指定的频率将诊断日志文件缓冲区的内容写入诊断日志文件,用户也可以手工触发立即保存。

在任意视图下执行logfile save命令,手动将日志文件缓冲区中的内容保存到日志文件。

在任意视图下执行diagnostic-logfile save命令,手动将诊断日志文件缓冲区中的内容保存到诊断日志文件。

这些日志文件存储在FlashCF卡中,可以通过FTPTFTP等方式导出。

表1  设备运行信息介绍

分类

文件名

内容

logfile日志

logfileX.log

命令行记录、Trap信息、设备运行中产生的记录信息

诊断信息

XXX.gz

设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

 

1.2.1  logfile日志

请先通过logfile save将设备缓存的logfile日志保存在存储介质中,并将日志搜集完整,包括:主用主控板、备用主控板、IRF下主框/备框各主备主控板的日志,如果设备创建Context还需要搜集每个Context对应的日志。

[H3C] logfile save

The contents in the log file buffer have been saved to the file flash:/logfile/l

ogfile.log.

设备的logfile日志:

<sysname> dir flash:/logfile/

Directory of flash:/logfile

   0 -rw-    10483632 Jul 08 2014 15:05:22   logfile.log

 

253156 KB total (77596 KB free)

1.2.2  诊断信息

执行display diagnostic-information命令后,请输入“Y”,以选择将诊断保存到Flash中(选择display会出现信息搜集不全)。设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请耐心等待。

<sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:y

Please input the file name(*.gz)[flash:/diag.gz]:flash:/diag.gz

Diagnostic information is outputting to flash:/diag.gz.

Save successfully.

<sysname> dir flash:/

Directory of flash:

……

   6 -rw-      898180 Jun 26 2013 09:23:51   diag.gz

 

1021808 KB total (259072 KB free)

也可以将诊断信息直接显示出来(不建议这样搜集),搜集前请先执行screen-length disable,避免屏幕输出被打断,如下:

<sysname> screen-length disable

% Screen-length configuration is disabled for current user.

<sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:N

==================================================================

  ===============display cpu===============

Slot 1 CPU 0 CPU usage:

       6% in last 5 seconds

       6% in last 1 minute

       6% in last 5 minutes

 

===========================================================

=================================================================

  ===============display cpu-usage history slot 1 ===============

100%|

 95%|

 90%|

 85%|

 80%|

 75%|

 70%|

 65%|

 60%|

 55%|

 50%|

 45%|

 40%|

 35%|

 30%|

 25%|

 20%|

 15%|

 10%|

  5%|############################################################

     ------------------------------------------------------------

              10        20        30        40        50        60  (minutes)

                   cpu-usage (Slot 1 CPU 0) last 60 minutes (SYSTEM)

……………………………………

1.3  故障定位和处理

设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。

如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。

1.3.1  故障处理流程图

1为故障处理的一般流程,可以大致判断出故障的类型。

图1  故障处理流程图

 

1.3.1  业务功能故障排查

故障分析时常用的方法有:

·              端口报文计数。

·              报文镜像。

·              端口抓包。

·              查看会话状态及统计信息。

·              查看L2L3转发表项及统计。

·              查看Openflow表项下发是否正确。

1.3.2  故障原因分类

1. 主机故障

如主机出现异常重启、状态异常、无法启动、反复重启,请参照2.1  主机故障

2. 单板故障

如单板出现异常重启、状态异常、无法启动、反复重启,请参照2.2  单板故障

3. 温度告警

如设备打印温度告警,请参照2.4  温度告警

4. 链路端口故障

5. 如端口出现无法UP、频繁UP/DOWN、端口错包,请参照2 硬件类故障处理

如出现pingtracert丢包或不通、二层丢包或不通、三层丢包或不通、业务异常等,请参照4 报文转发故障处理

6. IRF故障

如设备无法形成IRFIRF分裂等,请参照5 IRF类故障处理

7. 双机热备故障

如果出现主备切换异常、冗余口转发异常、冗余口切换异常,请参照7 双机热备故障处理

8. 负载均衡故障处理

主要是4层负载均衡的故障处理、7层负载均衡的故障处理。请参照12 负载均衡故障处理

9. CPU占用率高

如主控设备或引擎的CPU占用率很高,请参照13.1  CPU占用率高

10. 内存占用率高

如设备单板内存占用率很高,请参照13.2  内存占用率高

11. NAT/ALG转换故障

如果出现NAT转换异常,不能正常转换,或者ALG处理异常,请参照8 策略NAT故障处理9 接口NAT故障处理10 AFT类故障处理

12. IPsec/IKE故障

IPsec出现转发不通、不能正常加解密时,请参考11 IPsec/IKE类故障处理

13. CPU占用率高

如设备、主控设备或引擎的CPU占用率很高,请参照13.1  CPU占用率高

14. 内存占用率高

如设备或者单板内存占用率很高,请参照13.2  内存占用率高

1.3.3  故障模型及影响分析

2是一个典型网络故障模型,为提高网络的可靠性,两台设备采用IRF模式,可以为双主方式、主备方式,典型网络故障模型如下:

图2  网络故障模型

 

表2  故障点影响分析

故障点

可能现象

影响范围

1)、(3)(含光模块)

端口down

业务会切换

端口错包增加

影响该链路上的业务(影响范围大)

2

主控单板故障

业务会切换

引擎单板故障

如果链路和该引擎单板track,业务会切换

接口单板故障

业务可能会切换

4

堆叠链路单条断

不影响业务,但可能影响性能

堆叠链路2条链路全断

堆叠分裂

 

1.3.4  常见的故障恢复措施

表3  常见的故障恢复措施

故障原因

业务恢复动作

故障排除动作

硬件

隔离故障单板

调整业务流向来隔离故障设备(如可以调整路由的优先级,避免流量经过故障设备,实现流量切换)

更换备件(备件上线应用前应进行必要的测试)

软件

重启故障设备的协议

调整业务流向来隔离故障设备

升级版本(含补丁版本)

调整组网或配置,消除引发故障因素

链路

调整业务流向来隔离故障线路

检修线路

其他

修改错误配置

正确连接设备端口

调整业务流向来隔离故障线路

修改错误配置

正确连接设备端口

检修机房的电源、空调等支撑系统

2 硬件类故障处理

2.1  主机故障

2.1.1  故障描述

主机重启

2.1.2  故障处理步骤

当主机出现重启,请查看重启原因,如果是软件异常导致设备重启请搜集主机的诊断信息,并发给研发处理。

<sysname>display version

H3C Comware Software, Version 7.1.064, Ess 8601P08

Copyright (c) 2004-2019 New H3C Technologies Co., Ltd. All rights reserved.

H3C SecPath F1090 uptime is 0 weeks, 0 days, 0 hours, 5 minutes

Last reboot reason: User reboot

 

Boot image: flash:/F1090FW-CMW710-BOOT-E8601P08.bin

Boot image version: 7.1.064, Ess 8601P08

  Compiled Sep 10 2019 15:00:00

System image: flash:/F1090FW-CMW710-SYSTEM-E8601P08.bin

System image version: 7.1.064, Ess 8601P08

  Compiled Sep 10 2019 15:00:00

 

SLOT 1

CPU type:           Multi-core CPU

DDR4 SDRAM Memory:   8192M bytes

FLASH:              7296M bytes

CPLD_A           Version:  1.0

CPLD_B           Version:  1.0

Release          Version:SecPath F1090-8601P08

Basic  BootWare  Version:0.30

Extend BootWare  Version:1.01

BuckleBoard Version:Ver.A

BackBoard1 Version:Ver.A

BackBoard2 Version:Ver.A

HD_BackBoard Version:Ver.D

Pcb Version:Ver.A

[SUBCARD 0] NSQ1F1MSPUOTXA(Hardware)Ver.A, (Driver)1.0, (Cpld)1.0

Boot Type: Warm

[H3C]display  system internal  version

H3C SecPath F1090 V800R006B01D645SP08

Comware V700R001B64D045SP08

2.2  单板故障

2.2.1  故障描述

·              单板状态异常(比如状态为AbsentFault等)。

·              单板出现异常重启、无法启动或不断重启等。

1. 单板状态查询

单板状态包括:NormalMaster StandbyAbsentFault

MasterStandby分别表示主、备主控板。Normal表示单板处于正常运行状态。

如果发现单板状态出现Fault,或该槽位存在单板但状态却是Absent的,说明单板可能出现故障,请参考2.2.2  故障处理步骤处理。

<sysname>display device

Slot No. Brd Type         Brd Status   Subslot Sft Ver                Patch Ver

 0       NSQM1CGQ4TG24SHA0Normal       0       M9016-V-9153P22        None

 1       NONE             Absent       0       NONE                   None

 2       NSQM1CGQ4TG24SHA0Normal       0       M9016-V-9153P22        None

 3       NONE             Absent       0       NONE                   None

 4       NSQM1SUPD0       Master       0       M9016-V-9153P22        None

 5       NSQM1SUPD0       Standby      0       M9016-V-9153P22        None

 6       NSQM1FWEFGA0     Normal       0       M9016-V-9153P22        None

         CPU 1            Normal       0       M9016-V-9153P22

 7       NONE             Absent       0       NONE                   None

 8       NONE             Absent       0       NONE                   None

 9       NONE             Absent       0       NONE                   None

 10      NSQM1FAB08E0     Normal       0       M9016-V-9153P22        None

 11      NSQM1FAB08E0     Normal       0       M9016-V-9153P22        None

 12      NSQM1FAB08E0     Normal       0       M9016-V-9153P22        None

 13      NSQM1FAB08E0     Normal       0       M9016-V-9153P22        None

2. 单板重启确认

可以通过logfile日志或display version查看设备启动后运行时间来确认单板有没有出现过重启,出现过重启的单板运行时间会明显短于设备上其他单板。请参考2.2.2  故障处理步骤处理

<sysname>display version

H3C Comware Software, Version 7.1.064, Release 9153P22

Copyright (c) 2004-2020 New H3C Technologies Co., Ltd. All rights reserved.

H3C SecPath M9016-V uptime is 0 weeks, 4 days, 0 hours, 7 minutes

Last reboot reason : User reboot

 

Boot image: flash:/M9000-CMW710-BOOT-R9153P22.bin

Boot image version: 7.1.064, Release 9153P22

  Compiled Dec 10 2020 14:00:00

System image: flash:/M9000-CMW710-SYSTEM-R9153P22.bin

System image version: 7.1.064, Release 9153P22

  Compiled Dec 10 2020 14:00:00

Feature image(s) list:

  flash:/M9000-CMW710-DEVKIT-R9153P22.bin, version: 7.1.064

    Compiled Dec 10 2020 14:00:00

 

 

LPU 0:

Uptime is 0 weeks,4 days,0 hours,3 minutes

H3C SecPath M9016-V LPU with 1 LS1043A Processor

BOARD TYPE:         NSQM1CGQ4TG24SHA0

DRAM:               2048M bytes

PCB 1 Version:      VER.A

Bootrom Version:    108

CPLD 1 Version:     002

CPLD 2 Version:     001

Release Version:    H3C SecPath M9016-V-9153P22

Patch Version  :    None

Reboot Cause  :     UserReboot

 

LPU 2:

Uptime is 0 weeks,4 days,0 hours,3 minutes

H3C SecPath M9016-V LPU with 1 LS1043A Processor

BOARD TYPE:         NSQM1CGQ4TG24SHA0

DRAM:               2048M bytes

PCB 1 Version:      VER.A

Bootrom Version:    108

CPLD 1 Version:     002

CPLD 2 Version:     001

Release Version:    H3C SecPath M9016-V-9153P22

Patch Version  :    None

Reboot Cause  :     UserReboot

 

MPU(M) 4:

Uptime is 0 weeks,4 days,0 hours,7 minutes

H3C SecPath M9016-V MPU(M) with 1 XLP316 Processor

BOARD TYPE:         NSQM1SUPD0

DRAM:               8192M bytes

FLASH:              500M bytes

NVRAM:              512K bytes

PCB 1 Version:      VER.A

Bootrom Version:    132

CPLD 1 Version:     004

CPLD 2 Version:     003

CPLD 3 Version:     003

Release Version:    H3C SecPath M9016-V-9153P22

Patch Version  :    None

Reboot Cause  :     UserReboot

 

MPU(S) 5:

Uptime is 0 weeks,4 days,0 hours,6 minutes

H3C SecPath M9016-V MPU(S) with 1 XLP316 Processor

BOARD TYPE:         NSQM1SUPD0

DRAM:               8192M bytes

FLASH:              500M bytes

NVRAM:              512K bytes

PCB 1 Version:      VER.A

Bootrom Version:    132

CPLD 1 Version:     001

CPLD 2 Version:     001

CPLD 3 Version:     001

Release Version:    H3C SecPath M9016-V-9153P22

Patch Version  :    None

Reboot Cause  :     UserReboot

 

LPU 6:

Uptime is 0 weeks,1 day,17 hours,56 minutes

H3C SecPath M9016-V LPU with 1 XLP308 Processor

BOARD TYPE:         NSQM1FWEFGA0

DRAM:               2048M bytes

FLASH:              8M bytes

PCB 1 Version:      VER.A

PCB 2 Version:      VER.B

Bootrom Version:    100

CPLD 1 Version:     002

CPLD 2 Version:     002

Release Version:    H3C SecPath M9016-V-9153P22

Patch Version  :    None

Reboot Cause  :     UserReboot

SLOT 6 CPU 1

CPU type:           Multi-core CPU

DDR4 :              49152M bytes

FLASH:              7122M bytes

Board PCB Version:  Ver.A

CPLD Version:       2.0

Release Version:    SecBlade FW Enhanced-9153P22

FPGA 0 Version:     B50506

FPGA 0 DATE:        2020.11.27

FPGA 1 Version:     B50506

FPGA 1 DATE:        2020.11.27

Basic  BootWare Version:1.03

Extend BootWare Version:1.03

 

NPU 10:

Uptime is 0 weeks,4 days,0 hours,3 minutes

H3C SecPath M9016-V NPU with 1 XLS208 Processor

BOARD TYPE:         NSQM1FAB08E0

DRAM:               1024M bytes

PCB 1 Version:      VER.B

Bootrom Version:    518

CPLD 1 Version:     005

Release Version:    H3C SecPath M9016-V-9153P22

Patch Version  :    None

Reboot Cause  :     UserReboot

 

NPU 11:

Uptime is 0 weeks,3 days,23 hours,46 minutes

H3C SecPath M9016-V NPU with 1 XLS208 Processor

BOARD TYPE:         NSQM1FAB08E0

DRAM:               1024M bytes

PCB 1 Version:      VER.B

Bootrom Version:    518

CPLD 1 Version:     005

Release Version:    H3C SecPath M9016-V-9153P22

Patch Version  :    None

Reboot Cause  :     ColdReboot

 

NPU 12:

Uptime is 0 weeks,3 days,23 hours,44 minutes

H3C SecPath M9016-V NPU with 1 XLS208 Processor

BOARD TYPE:         NSQM1FAB08E0

DRAM:               1024M bytes

PCB 1 Version:      VER.B

Bootrom Version:    511

CPLD 1 Version:     005

Release Version:    H3C SecPath M9016-V-9153P22

Patch Version  :    None

Reboot Cause  :     ColdReboot

 

NPU 13:

Uptime is 0 weeks,3 days,23 hours,44 minutes

H3C SecPath M9016-V NPU with 1 XLS208 Processor

BOARD TYPE:         NSQM1FAB08E0

DRAM:               1024M bytes

PCB 1 Version:      VER.B

Bootrom Version:    518

CPLD 1 Version:     005

Release Version:    H3C SecPath M9016-V-9153P22

Patch Version  :    None

Reboot Cause  :     ColdReboot

2.2.2  故障处理步骤

1. 单板状态Absent

(1)      确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重新插入。

(2)      将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板或机框槽位故障。

(3)      检查单板面板、内部的指示灯是否发光。

(4)      如果单板是主控板、业务板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。

(5)      如确认为单板故障,请更换单板并将故障信息发送H3C技术支持人员分析。

2. 单板状态Fault

(1)      等待一段时间确认下单板是一直Fault还是Normal后又再次重启。如单板是Normal后又自动重启,请将故障信息发送H3C技术支持人员分析。

(2)      如果单板是主控板、引擎板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板异常启动信息。如下述主控板启动时出现内存读写测试失败而不断重启,需要检查主控板内存条是否插稳。

(3)      将单板放到别的槽位,进一步确认是不是单板故障。

(4)      如确认为单板故障,请更换单板并将故障信息发送H3C技术支持人员分析。

3. 单板重启

这里的单板重启是指单板出现过重启,而当前单板状态是Normal

(1)      通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行reboot重启或进行单板上下电等操作。

(2)      如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。

(3)      确认日志中重启时有无出现“Slot X need to be rebooted automatically! Note:the operating device is sda0,it's not online ”提示信息,这种情况是不正常的。请更换单板并搜集故障信息并发送H3C技术支持人员分析。

(4)      如无法确认,请搜集故障信息并发送H3C技术支持人员分析。

2.3  风扇故障

2.3.1  故障描述

风扇框指示灯异常,设备打印风扇异常信息,如:

%May 06 10:12:24:805 2017 H3C DEV/3/FAN_ABSENT: -MDC=1; Slot 2 Fan 2 is absent.

%May 06 10:12:32:805 2017 H3C DEVD/2/DRV_DEV_FAN_CHANGE: -MDC=1;  Slot 2: Fan communication state changed: Fan 1 changed to fault.

%May 06 10:12:42:405 2017 H3C DEV/2/FAN_FAILED: -MDC=1; Slot 2 Fan 1 failed.

2.3.2  故障处理步骤

(1)      风扇框在位时,用手放在设备出风口,判断是否有出风,如果出风口无风,则风扇异常。

(2)      检查风扇的入风口、出风口是否被挡住或积累太多灰尘。

(3)      通过display fan命令检查风扇框是否正常在位,各个风扇的状态是否正常、转速和正常转速相差达到50%以上。如存在异常,建议通过风扇框拔插、更换交叉进一步确认。

<sysname> display  fan

SLOT 1 Fan 0      Status: Normal  Speed:9500

SLOT 1 Fan 1      Status: Normal  Speed:9500

SLOT 1 Fan 2      Status: Normal  Speed:9500

(4)      如果故障不能恢复,需要更换该风扇框,但当前没有风扇框,请关闭设备以免发生温度高导致单板烧坏;如果有降温措施保证系统工作在50度以下,可以暂时继续使用设备。

2.4  温度告警

2.4.1  故障描述

设备打印温度过低、过高等告警信息,如:

%Mar 18 04:22:05:893 2017 H3C DEV/4/TEMPERATURE_WARNING: -Context=1; Temperature is greater than the high-temperature warning threshold on slot 2 sensor inflow 1. Current temperature is 43 degrees centigrade.

2.4.2  故障处理步骤

(1)      检查环境温度是否正常。如果环境温度较高,请确认原因,比如机房通风不畅、空调制冷故障等。

(2)      检查设备当前的temperature温度是否超出上下的WarningAlarm门限。也可以用手触摸单板,确认单板是不是很烫,如单板温度很高,请立即检查原因。持续处于较高的温度下,可能会导致单板损坏。

a.   如果温度值为error或出现明显不合实际的值,可能是通过I2C总线访问单板温度传感器异常。设备光模块信息访问也是通过I2C总线,请继续检查单板读取光模块信息是否正常。如光模块访问正常,请使用temperature-limit命令重新设置单板的温度告警门限值,并通过display environment查看是否设置成功。

[SYSNAME] temperature-limit slot 1 inflow 1 -5 43 51

[SYSNAME] display environment

System Temperature information (degree centigrade):

--------------------------------------------------------------------------------

---------

 Slot     Sensor   Temperature LowerLimit Warning-UpperLimit  Alarm-UpperLimit S

hutdown-UpperLimit

1      inflow  1      29          -5             43                51

     NA

2      inflow  1      28          -5             48                56

     NA

如果仍然无法确认故障原因,搜集温度告警日志、display environment、环境实际温度等信息并发送给技术支持人员协助分析。

2.5  故障诊断命令

命令

说明

display device

显示设备信息,检查各单板的状态是否正常

display environment

显示设备的温度信息,检查环境温度是否正常(是否超出温度告警阈值)

display fan

显示设备内置风扇的工作状态

display power

显示设备上的电源系统信息。详细信息包括下列信息:

·       电源管理使能状态

·       电源类型、额定输入电压和额定输出功率

·       冗余电源模块数,各模块可用的、冗余的、已用的、剩余的功率

·       在位电源模块的状态

·       接口板的供电状态

display version

显示系统版本信息、单板的运行时间以及最后一次重启的原因

save

将当前配置保存到指定文件

temperature-limit

设置设备的温度告警门限

 

3 端口故障处理

3.1  端口错包

3.1.1  故障描述

使用display interface命令查询端口的入、出方向流量统计信息发现错包统计计数不为0

<sysname>display interface GigabitEthernet 1/0/2

GigabitEthernet1/0/2

Current state: DOWN

Line protocol state: DOWN

Description: GigabitEthernet1/0/2 Interface

Maximum transmission unit: 1500

Internet address: 192.168.2.1/24 (primary)

IP packet frame type: Ethernet II, hardware address: 50da-00dd-1327

IPv6 packet frame type: Ethernet II, hardware address: 50da-00dd-1327

Media type is twisted pair, loopback not set, promiscuous mode not set

Speed Negotiation, Duplex Negotiation, link type is autonegotiation

Output flow-control is disabled, input flow-control is disabled

Last link flapping: Never

Last clearing of counters: Never

 Peak input rate: 0 bytes/sec, at 00-00-00 00:00:00

 Peak output rate: 0 bytes/sec, at 00-00-00 00:00:00

 Last 300 second input: 0 packets/sec 0 bytes/sec -%

 Last 300 second output: 0 packets/sec 0 bytes/sec -%

 Input (total):  0 packets, 0 bytes

          0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

 Input (normal):  0 packets, 0 bytes

          0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

 Input:  0 input errors, 0 runts, 0 giants, - throttles

          0 CRC, 0 frame, 0 overruns, 0 aborts

          0 ignored, - parity errors

 Output (total): 0 packets, 0 bytes

          0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

 Output (normal): 0 packets, 0 bytes

          0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses

 Output: 0 output errors, 0 underruns, - buffer failures

          0 aborts, 0 deferred, 0 collisions, 0 late collisions

          0 lost carrier, 0 no carrier

1. 端口入方向报文计数错误字段解释

·              input errors端口接收的错误报文的统计值

·              runts接收到的超小帧的数量超小帧是指长度小于64字节、格式正确且包含有效的CRC字段的帧

·              giants接收到的超大帧的数量。超大帧是指有效长度大于端口允许通过最大报文长度的帧,对于禁止长帧通过的以太网端口,超大帧是指有效长度大于1518字节(不带VLAN Tag)或大于1522字节(带VLAN Tag报文)的帧;对于允许长帧通过的以太网端口,超大帧是指有效长度大于指定最大长帧长度的帧。

·              throttles接收到的长度为非整数字节的帧的个数。

·              CRC:接收到的CRC校验错误、长度正常的帧的数量。

·              frame接收到的CRC校验错误、且长度不是整字节数的帧的数量

·              overruns当端口的接收速率超过接收队列的处理能力时,导致报文被丢弃。

·              aborts接收到的非法报文总数,非法报文包括:报文碎片、jabber帧、符号错误帧、操作码未知帧、长度错误帧。

·              ignored由于端口接收缓冲区不足等原因而丢弃的报文数量。

·              parity errors接收到的奇偶校验错误的帧的数量

2. 端口出方向报文计数错误字段解释

·              output errors各种发送错误的报文总数

·              underruns当端口的发送速率超过了发送队列的处理能力,导致报文被丢弃,是一种非常少见的硬件异常。

·              buffer failures由于端口发送缓冲区不足而丢弃的报文数量

·              aborts:发送失败的报文总数,即报文已经开始发送,但由于各种原因(如冲突)而导致发送失败

·              deferred延迟报文的数量,延迟报文是指发送前检测到冲突而被延迟发送的报文

·              collisions冲突帧的数量,冲突帧是指在发送过程中检测到冲突的而停止发送的报文

·              late collisions延迟冲突帧的数量,延迟冲突帧是指帧的前512 bits已经被发送,由于检测到冲突,该帧被延迟发送

·              lost carrier载波丢失,一般适用于串行WAN接口,发送过程中,每丢失一个载波,此计数器加一

·              no carrier无载波,一般适用于串行WAN接口,当试图发送帧时,如果没有载波出现,此计数器加一。

3.1.2  故障处理步骤

1. 端口入方向出现CRCframethrottles错包且计数持续增加

(1)      使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。

(2)      如端口使用光模块,参照3.4  光模块故障认是否光模块故障导致。

(3)      与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现端口相关,应为单板端口故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。

(4)      排查对端设备或者中间的传输设备。

(5)      如故障无法确认,请将故障信息发送技术支持人员分析。

2. 端口入方向出现giants错包且计数持续增加

(1)      检查两端的jumbo配置是否一致,如jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。

(2)      如果仍然无法确认,请将故障信息发送技术支持人员分析。

3. 端口出方向出现错包且计数持续增加

(1)      检查端口是否配置为半双工模式,如为半双工,请更改为全双工模式。

(2)      如果仍然无法确认,请将故障信息发送技术支持人员分析。

3.2  端口无法UP

3.2.1  故障描述

端口无法正常UP

3.2.2  故障处理步骤

1. 端口无法UP

(1)      测试端口之间网线、光纤链路是否正常,光纤两端的发送/接收端是否错连;更换端口之间的网线、光纤或将网线、光纤放到别的正常端口,以确认是否中间传输链路故障

(2)      检查本端、对端端口配置是否正确,如端口是否shutdown,速率、双工、协商模式、MDI是否正确。

(3)      如端口使用光模块,请检查两端光模块类型是否一致,如速率、波长、单模多模状态等;与正常的光模块交叉更换,并参照3.4  光模块故障排除是否为光模块故障导致。

<sysname>display transceiver interface GigabitEthernet 1/0/17

GigabitEthernet1/0/17 transceiver information:

  Transceiver Type              : 1000_BASE_SX_SFP

  Connector Type                : LC

  Wavelength(nm)                : 850

  Transfer Distance(m)          : 550(OM2),270(OM1)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : JDSU

如果确认光模块有问题,需要更换光模块。

3.2.3  故障处理步骤

(1)      查看本设备及对端设备日志,确认有无端口shutdown操作。

(2)      查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口shutdown。当设备在线诊断模块检测到端口故障时,将端口shutdown隔离,以便流量切换到备份链路。请将故障信息发送技术支持人员分析。

<sysname> display interface GigabitEthernet 1/0/2

GigabitEthernet1/0/2

Current state: DOWN

Line protocol state: DOWN

Description: GigabitEthernet1/4/0/1 Interface

Bandwidth: 1000000kbps

Maximum Transmit Unit: 1500

Internet protocol processing: disabled

IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5601

IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5601

Media type is not sure,Port hardware type is No connector

Last clearing of counters: 16:45:01 Wed 12/11/2013

Peak value of input: 0 bytes/sec, at 2013-12-11 16:45:03

Peak value of output: 0 bytes/sec, at 2013-12-11 16:45:03

Last 300 second input:  0 packets/sec 0 bytes/sec

Last 300 second output:  0 packets/sec 0 bytes/sec

(3)      参照3.2  端口无法,排查两端端口配置,网线、光模块、光纤等链路是否正常。

(4)      如仍无法确认,请搜集本端、对端设备信息,并将信息发送技术支持人员分析。

3.3  端口频繁UP/Down

3.3.1  故障描述

端口频繁UP/Down

3.3.2  故障处理步骤

(1)      对于光口,请参照3.4  光模块故障确认光模块是否异常。

(2)      对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。

(3)      如果故障依存在,请排查链路、对端设备、中间设备。

(4)      如仍无法确认,请将故障信息发送技术支持人员分析。

3.4  光模块故障

3.4.1  故障描述

安装光模块的接口不能正常UP,出现告警信息。

3.4.2  故障处理步骤

(1)      检查是否万兆光口插入了千兆光模块,该使用方式不支持,请对应接口类型选择光模块。

(2)      检查光模块Alarm告警信息。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。

<sysname> display transceiver alarm interface Ten-GigabitEthernet 1/0/25

Ten-GigabitEthernet1/0/25 transceiver current alarm information:

  RX signal loss

表4  光模块告警信息说明

字段

描述

SFP/SFP+

RX loss of signal

接收信号丢失

RX power high

接收光功率高告警

RX power low

接收光功率低告警

TX fault

发送错误

TX bias high

偏置电流高告警

TX bias low

偏置电流低告警

TX power high

发送光功率高告警

TX power low

发送光功率低告警

Temp high

温度高告警

Temp low

温度低告警

Voltage high

电压高告警

Voltage low

电压低告警

Transceiver info I/O error

模块信息读写错误

Transceiver info checksum error

模块信息校验和错误

Transceiver type and port configuration mismatch

模块类型和端口配置不匹配

Transceiver type not supported by port hardware

端口不支持该模块类型

XFP

RX loss of signal

接收信号丢失

RX not ready

接收状态未就绪

RX CDR loss of lock

RX CDR时钟失锁

RX power high

接收光功率高告警

RX power low

接收光功率低告警

TX not ready

发送状态未就绪

TX fault

发送错误

TX CDR loss of lock

TX CDR时钟失锁

TX bias high

偏置电流高告警

TX bias low

偏置电流低告警

TX power high

发送光功率高告警

TX power low

发送光功率低告警

Module not ready

模块状态未就绪

APD supply fault

APDAvalanche Photo Diode,雪崩光电二极管)错误

TEC fault

TECThermoelectric Cooler,热电冷却器)错误

Wavelength unlocked

光信号波长失锁

Temp high

温度高告警

Temp low

温度低告警

Voltage high

电压高告警

Voltage low

电压低告警

Transceiver info I/O error

模块信息读写错误

Transceiver info checksum error

模块信息校验错误

Transceiver type and port configuration mismatch

模块类型和端口配置不匹配

Transceiver type not supported by port hardware

端口不支持该模块类型

 

(3)      对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。

(4)      如果确认是光模块本身故障,请通过display transceiver diagnosis命令收集光模块当前的数字诊断信息(非H3C定制光模块可能无法查询到数字诊断信息),并发送给技术支持人员分析。

<sysname>display transceiver diagnosis interface GigabitEthernet 1/0/17

GigabitEthernet1/0/17 transceiver diagnostic information:

  Current diagnostic parameters:

    Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBm)  TX power(dBm)

    54         3.35        5.39      -5.91          -5.29

  Alarm thresholds:

          Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBm)  TX power(dBm)

    High  73         3.80        11.00     0.00           0.00

    Low   -3         2.81        1.00      -16.99         -12.52

<sysname>

(5)      建议使用H3C定制光模块。可以使用display transceiver manuinfo interface命令来查看光模块制造厂家信息。

<sysname>display  transceiver manuinfo interface

GigabitEthernet1/0/16 transceiver manufacture information:

The transceiver is absent.

GigabitEthernet1/0/17 transceiver manufacture information:

The transceiver does not support this function.

GigabitEthernet1/0/18 transceiver manufacture information:

The transceiver is absent.

GigabitEthernet1/0/19 transceiver manufacture information:

The transceiver is absent.

GigabitEthernet1/0/20 transceiver manufacture information:

The transceiver is absent.

GigabitEthernet1/0/21 transceiver manufacture information:

The transceiver is absent.

GigabitEthernet1/0/22 transceiver manufacture information:

The transceiver is absent.

GigabitEthernet1/0/23 transceiver manufacture information:

The transceiver is absent.

GigabitEthernet2/0/16 transceiver manufacture information:

The transceiver is absent.

GigabitEthernet2/0/17 transceiver manufacture information:

The transceiver does not support this function.

GigabitEthernet2/0/18 transceiver manufacture information:

The transceiver is absent.

GigabitEthernet2/0/19 transceiver manufacture information:

The transceiver is absent.

GigabitEthernet2/0/20 transceiver manufacture information:

The transceiver is absent.

GigabitEthernet2/0/21 transceiver manufacture information:

The transceiver is absent.

GigabitEthernet2/0/22 transceiver manufacture information:

The transceiver is absent.

GigabitEthernet2/0/23 transceiver manufacture information:

The transceiver is absent.

3.5  故障诊断命令

命令

说明

display current-configuration

显示设备当前生效的配置,指定interface可以显示指定接口当前生效的配置

display interface

查询端口的入、出方向流量统计信息、端口状态。可查看是否存在错包及错包统计信息

display transceiver alarm

显示可插拔接口模块的当前故障告警信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值,包括温度、电压、偏置电流、接收光功率、发送光功率

display transceiver interface

显示指定接口可插拔接口模块的主要特征参数。检查两端光模块类型是否一致,如速率、波长、单模多模状态等

display transceiver manuinfo

显示可插拔接口模块的电子标签信息。可用来查询光模块的定制厂商。

 

4 报文转发故障处理

4.1  PC与设备直连,无法访问Ping通设备

4.1.1  故障描述

PC通过网线与设备业务接口相连,IP地址为同一网段,在PC上无法Ping通设备。

4.1.2  故障处理步骤

1. 安全域和安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“网络 > 安全域”。

(3)      单击某个安全域(如Trust)对应的<编辑>按钮,进入“修改安全域”页面。

(4)      选择接口列表中与PC相连的接口,单击<>按钮添加至成员列表中。

(5)      单击<确定>按钮。

(6)      选择“策略 > 安全策略 > 安全策略”。

(7)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面。

(8)      配置安全策略的匹配条件及执行动作:

a.   源安全域:Trust

b.   名称:trust-local

c.   目的安全域:Local

d.   动作:允许

e.   IPv4地址:10.1.1.2

f.    目的IPv4地址:10.1.1.1

(9)    若需要设备主动访问PC,则需要配置反方向放行的安全策略:

a.   名称:local-trust

b.   源安全域:Local

c.   目的安全域:Trust

d.   动作:允许

e.   IPv4地址:10.1.1.1

f.    目的IPv4地址:10.1.1.2

(10)  单击<确定>按钮,完成配置。

4.2  PC通过设备与其他终端连接,无法互相访问

4.2.1  故障描述

PC通过与设备其他终端相连,IP地址与路由已正确配置,但无法互相访问。

4.2.2  故障处理步骤

1. 安全域和安全策略配置检查

(1)    登录设备Web管理页面。

(2)    选择“网络 > 安全域”。

(3)    单击某个安全域(如Trust)对应的<编辑>按钮,进入“修改安全域”页面。

(4)    选择接口列表中与PC相连的接口,单击<>按钮添加至成员列表中。

(5)    单击<确定>按钮。

(6)    采用同样的方法将其他接口加入不同安全域(如Untrust)。

(7)    选择“策略 > 安全策略 > 安全策略”。

(8)    在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面。

(9)    配置安全策略的匹配条件及执行动作(建议配置精确的匹配条件):

a.   名称:trust-untrust

b.   源安全域:Trust

c.   目的安全域:Unturst

d.   动作:允许

e.   IPv4地址:10.1.1.2

f.    目的IPv4地址:20.1.1.2

(10)  若通过设备相连的终端需要互相访问,则需要创建双向放行的安全策略:

a.   名称:untrust-trust

b.   源安全域:Unturst

c.   目的安全域:Trust

d.   动作:允许

e.   IPv4地址:20.1.1.2

f.    目的IPv4地址:10.1.1.2

(11)  单击<确定>按钮,完成配置。

4.3  PC通过设备与其他终端连接,已配置在同一安全域,无法互相访问

4.3.1  故障描述

PC通过与设备其他终端相连,IP地址与路由已正确配置,且已加入相同的安全域,但无法互相访问。

 

4.3.2  故障处理步骤

1. 安全域和安全策略配置检查

(1)    登录设备Web管理页面。

(2)    选择“策略 > 安全策略 > 安全策略”。

(3)    在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面。

(4)    配置安全策略的匹配条件及执行动作(本例中通过设备相连的终端都属于Trust安全域):

a.   名称:trust-trust

b.   源安全域:Trust

c.   目的安全域:Trust

d.   动作:允许

e.   IPv4地址:10.1.1.2,20.1.1.2

f.    目的IPv4地址:20.1.1.2,10.1.1.2

g.   单击<确定>按钮,完成配置。

4.4  ping不通或丢包

4.4.1  故障描述

报文转发丢包,ping不通或ping丢包,tracert异常。

<sysname> ping 10.0.0.5

PING 10.0.0.5 (10.0.0.5): 56 data bytes, press CTRL_C to break

Request time out

Request time out

Request time out

Request time out

Request time out

 

--- 10.0.0.5 ping statistics ---

5 packet(s) transmitted, 0 packet(s) received, 100.0% packet loss

4.4.2  故障处理步骤

1. 确认参与转发的出入端口是否加入到安全域和设置了安全策略

对于有M-GigabitEthernet接口的设备,M-GigabitEthernet接口默认加入到Management域,没有M-GigabitEthernet接口的设备,GigabitEthernet 1/0/0默认加入到Management域,其它端口默认没有加入到任何安全域,要确认端口是否加入到安全域。

执行display  security-zone命令,查看参与转发法的接口是否加入到了安全域内

<sysname>display security-zone

Name: Local

Members:

  None

Name: Trust

Members:

  GigabitEthernet1/0/8

  Reth1

Name: DMZ

Members:

  None

Name: Untrust

Members:

  GigabitEthernet1/0/10

  Reth2

Name: Management

Members:

  GigabitEthernet1/0/0

如果端口加入到安全域中,要确认是否配置了安全策略。

执行display security-policy命令,查看是否配置了安全策略

<sysname>display security-policy ip

Security-policy ip

 rule 0 name 1

  action pass

<sysname>display security-policy ipv6

Security-policy ipv6

 rule 0 name IPv6

  action pass

缺省情况下,创建安全域后,设备上各接口的报文转发遵循以下规则:

·              一个安全域中的接口与一个不属于任何安全域的接口之间的报文,会被丢弃。

·              属于同一个安全域的各接口之间的报文缺省会被丢弃。

·              安全域之间的报文由安全策略进行安全检查,并根据检查结果放行或丢弃。若安全策略不存在或不生效,则报文会被丢弃。

·              非安全域的接口之间的报文被丢弃。

·              目的地址或源地址为本机的报文,缺省会被丢弃,若该报文与安全策略匹配,则由安全策略进行安全检查,并根据检查结果放行或丢弃。

2. 设备入出报文统计

报文转发异常通常会涉及多台设备,需要逐一排查。为方便排查,排查前建议先明确报文的转发走向,如经过哪些中间设备,在设备的哪些接口进入设备,又会从哪些接口出去。检查出入接口的报文统计。确认统计是否正确。

检查入方向报文统计计数,可以通过reset counter interface命令清除计数

3. 报文计数分析

如果设备未收到ping报文,请排查上游的相邻设备;如果设备发送的ping报文计数正确,建议排查下游的相邻设备;如果ping报文入出计数不正确,分下面几种情况进行分析:

·              有入报文统计,没有出报文统计,进行如下排查

a.   如果链路层处理没有丢包,执行display ip statistics命令,查看IP层丢包原因

<sysname> display ip statistics

  Input:   sum            263207520        local             1772

           bad protocol   0                bad format        0

           bad checksum   0                bad options       0

  Output:  forwarding     24511617         local             476

           dropped        21949            no route          156

           compress fails 0

  Fragment:input          0                output            0

           dropped        0

           fragmented     0                couldn't fragment 0

  Reassembling:sum        0                timeouts          0

b.   打开 debugging aspf packet acldebugging aspf event来确定aspf是否有丢包

·              无出、入报文统计

需要查看上游相邻设备出接口报文统计,分析是否上游没有把报文发送过来。

4.5  NAT转换情况下,ping丢包或不通

4.5.1  故障描述

处于不同网段的两台PCPC1PC2PC1的地址为10.1.1.1PC2的地址为220.1.1.2

中间穿越设备互相ping包,设备对PC1的地址静态NAT转换为220.1.1.1发现PC1 ping PC2 不通,查看PC2可以收到PC1ping报文,但是PC1 收不到PC2的回应报文。

4.5.2  故障处理步骤

1. 配置检查

确保PC1PC2接入的端口加入了安全域,并且配置了安全策略。可以通过命令来查看是否配置了相关的安全策略:

<sysname> display security-policy ip

Security-policy ip

 

 rule 0 name tom-tom1

  action pass

  counting enable

  source-zone tom

  destination-zone tom1

 

2. 路由表检查

在设备上检查是否有到PC1的路由表项,如路由不存在,请检查路由协议配置、状态是否正确。

<sysname> display ip routing-table 10.1.1.0

3. FIB表检查

在设备上检查是否有到PC1FIB表项,如路由存在,FIB表项异常,请将故障信息发送技术支持人员分析。

<sysname> display fib 10.1.1.0

4. arp表项检查

在设备上查看10.1.1.1ARP表项是否存在

<sysname> display arp 10.1.1.1

5. 会话表项检查

在设备上通过display session命令确认会话是否正常建立。

6. ASPF检查

安全策略默认ASPF对所有的报文进行检测。但如果在安全策略中配置了aspf apply policy命令,那么只对策略中配置的detect协议进行ASPF检测,其他协议不进行检测。如果不配置detect icmp,也没有配置反向安全策路,报文就被deny了。可以在FW上使用下面命令打开debug

<sysname> debugging security-policy packet ip acl ?

  INTEGER<2000-2999>  Specify a basic ACL

  INTEGER<3000-3999>  Specify an advanced ACL

来看是否有deny信息,如果有类似下面信息:

*Jul 21 11:00:00:838 2017 F1090-IRF FILTER/7/PACKET: -Context=1; The packe

t is deny. Src-Zone=tom1, Dst-Zone=tom;If-In=, If-Out=Reth11(134); Packet Info:Src-IP=220.1.1.2, Dst-IP=10.1.1.1, VPN-Instance=,Src-Port=1024, Dst-Port=1025, Protocol= UDP(17),  ACL=none, Rule-ID=0.

说明没有正确配置aspf策略,导致被反向安全策略deny了。

7. 查看openflow

如果前面的检查均没有问题。需要查看流表是否有问题。

首先我们要看接口板的流表是否正常。对静态NAT,如下配置:

[SYSNAME] nat static outbound 10.1.1.1 220.1.1.1

然后在接口上使能静态NAT,正常流表应显示如下:

(1)      首先查看接口板流表下刷是否正确

[SYSNAME-probe] display system internal openflow instance inner-redirect flow-table

Instance 4097 Flow Table Information:

 

Table 200 information:

 Table type: Extensibility, flow entry count: 25, total flow entry count: 25

 

Flow entry rule 6 information:

 cookie: 0x0, priority: 7861, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Input interface: RAGG11

 Ethernet type: 0x0800

 IP Range: IPv4 destination address from 220.1.1.1 to 220.1.1.1

Instruction information:

 Write actions:

  Output interface: Blade2/10/0/1

 

Flow entry rule 7 information:

 cookie: 0x0, priority: 7840, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Ethernet type: 0x0800

 IP Range: IPv4 source address      from 10.10.1.1 to 10.10.1.1

 VRF index: 0

Instruction information:

 Write actions:

  Output interface: Blade2/10/0/1

 

Flow entry rule 8 information:

 cookie: 0x0, priority: 7841, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Ethernet type: 0x0800

 IP Range: IPv4 destination address from 10.10.1.1 to 10.10.1.1

 VRF index: 0

Instruction information:

 Write actions:

  Output interface: Blade2/10/0/1

上面3个表项,缺少一个都是会引起转发异常的。

(2)      如果接口板的流表没有异常,再查看业务板流表下刷是否正确,执行如下命令:

[SYSNAME-probe]display system internal openflow instance inner flow-table

Instance 4096 Flow Table Information:

 

Table 200 information:

 Table type: Extensibility, flow entry count: 27, total flow entry count: 27

 

Flow entry rule 6 information:

 cookie: 0x0, priority: 7860, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Ethernet type: 0x0800

 IP Range: IPv4 destination address from 220.1.1.1 to 220.1.1.1

 VRF index: 0

Instruction information:

 Write actions:

  Output interface: Blade2/10/0/1

 

Flow entry rule 7 information:

 cookie: 0x0, priority: 7840, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Ethernet type: 0x0800

 IP Range: IPv4 source address      from 10.10.1.1 to 10.10.1.1

 VRF index: 0

Instruction information:

 Write actions:

  Output interface: Blade2/10/0/1

 

Flow entry rule 8 information:

 cookie: 0x0, priority: 7841, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Ethernet type: 0x0800

 IP Range: IPv4 destination address from 10.10.1.1 to 10.10.1.1

 VRF index: 0

Instruction information:

 Write actions:

  Output interface: Blade2/10/0/1

如果流表下发都没有问题,请联系H3C相关技术支持人员

4.6  设备在转发过程中,有丢包现象

4.6.1  故障描述

设备在转发报文过程中,发现存在丢包现象。

4.6.2  故障处理步骤

(1)    执行debugging security-policy packet,确认是否存在丢包

<sysname>*Jan 13 16:06:32:298 2020 8350-2 FILTER/7/PACKET: -Context=1; The packet is denied. Src-Zone=Untrust, Dst-Zone=Trust;If-In=GigabitEthernet1/0/14(17), If-Out=GigabitEthernet1/0/10(13); Packet Info:Src-IP=10.1.1.3, Dst-IP=100.1.1.3, VPN-Instance=, Src-MacAddr=3897-d6a9-1e58,Src-Port=1024, Dst-Port=1024, Protocol=TCP(6), Application=general_tcp(2086),Terminal=invalid(0), SecurityPolicy=r0, Rule-ID=0.

如果存在The packet is denied字段,说明存在由于安全策略导致的丢包。

(2)    打开debugging ip packet调试命令,确认是否有丢包

该命令用来打开ip报文转发调试开关。该报文的调试信息各字段解释如下

字段

描述

Sending

发送报文的操作

Receiving

接收报文的操作

Delivering

IP层将报文送到上层

interface

接收/发送报文的接口

version

IP协议版本号

headlen

报文首部长度

tos

服务类型

pktlen

报文总长度

pktid

标识

offset

片偏移

ttl

生存时间

protocol

协议域

checksum

首部校验和

s

报文源地址

d

报文目的地址

Sending the packet from local at interface-type interface-number

从本地接口发送报文

Receiving IP packet from interface-type interface-number

从接口接收到报文

IP packet is delivering up!

将接收的报文送到上层处理

 

可以通过该信息来分析报文是否丢弃。

(3)    打开调试命令debugging ip errordebug ip info acl查看丢包的原因。

该命令用来打开IP转发错误调试信息开关。调试信息字段描述如下:

字段

描述

The number of queues of reassemble is MAX!

重组队列数目超过了总的重组队列数目

The queue of reassemble is full!

重组队列中分片数目超过了最大值

Reassemble Failed!

重组失败

Get Interface CB failed!

从接口管理获取转发控制块失败

Release MBUF! Phase Num is num, Service ID is id, Bitmap is %#lx!

业务释放报文,业务阶段、顺序号、以及当前业务掩码位

Broadcast NOT allowed to be forwarded!

不允许出接口子网广播报文转发

Error interface is assigned!

上层指定了错误的发送接口

 

通过debugging信息来判断丢包的原因。

4.7  故障诊断命令

命令

说明

display arp

显示ARP表项。检查设备ARP学习的接口是否正确

display current-configuration | include lsr-id

显示当前的MPLS LSR ID

display current-configuration configuration mpls-ldp

显示当前生效的MPLS LDP配置信息,检查LDPmd5-password配置是否一致

display fib

显示FIB信息。检查设备到某一目的IP网段的FIB表项是否存在

display interface

显示指定接口的相关信息

display ip interface brief

显示三层接口的IP基本配置信息

display ip routing-table

显示路由表中当前激活路由的摘要信息。检查设备到某一目的IP网段的路由是否存在

display session

显示会话信息

display this

显示当前视图下生效的配置

interface

进入接口视图

display system internal openflow instance

查看openflow表项

display nat outbound

查看nat outbound配置信息

5 IRF类故障处理

5.1  IRF无法形成

5.1.1  故障描述

IRF无法正常建立。

5.1.2  故障处理步骤

通常为配置错误引起,请检查以下配置是否正确。

1. 确认成员设备型号、主控板型号以及软件版本是否一致。

通过display version查看设备型号是否一致。

<sysname>display version

H3C Comware Software, Version 7.1.064, Release 9071P1313

Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.

H3C SecPath M9000-AI-E8 uptime is 0 weeks, 4 days, 22 hours, 6 minutes

Last reboot reason : Cold reboot

 

Boot image: flash:/M9000E-CMW710-BOOT-R9071P1313.bin

Boot image version: 7.1.064, Release 9071P1313

  Compiled Sep 07 2022 15:00:00

System image: flash:/M9000E-CMW710-SYSTEM-R9071P1313.bin

System image version: 7.1.064, Release 9071P1313

  Compiled Sep 07 2022 15:00:00

 

 

LPU 2:

Uptime is 0 weeks,4 days,22 hours,3 minutes

H3C SecPath M9000-AI-E8 LPU with 1 ARM Processor

BOARD TYPE:         NSQM5MBSHA1

DRAM:               2048M bytes

PCB 1 Version:      VER.A

SUBCARD 1 PCB Version:VER.A

SUBCARD 2 PCB Version:VER.A

Bootrom Version:    100

CPLD 1 Version:     001

SUBCARD 1 CPLD Version:002

SUBCARD 2 CPLD Version:001

Release Version:    H3C SecPath M9000-AI-E8-9071P1313

Patch Version  :    None

Reboot Cause  :     ColdReboot

PowChip Version:    001

SLOT 2 CPU 1

CPU type:           Multi-core CPU

DDR4 :              32752M bytes

FLASH:              7296M bytes

Board PCB Version:  Ver.A

CPLD Version:       2.0

Release Version:    SecBlade AFC Enhanced-9071P1313

Basic  BootWare Version:1.04

Extend BootWare Version:1.04

Reboot Cause:       Warm reboot

SLOT 2 CPU 2

CPU type:           Multi-core CPU

DDR4 :              32752M bytes

FLASH:              7296M bytes

Board PCB Version:  Ver.A

CPLD Version:       2.0

Release Version:    SecBlade FW Enhanced-9071P1313

Basic  BootWare Version:1.04

Extend BootWare Version:1.04

Reboot Cause:       Warm reboot

 

MPU(M) 4:

Uptime is 0 weeks,4 days,22 hours,6 minutes

H3C SecPath M9000-AI-E8 MPU(M) with 1 XLP316 Processor

BOARD TYPE:         NSQM5SUP08A1

DRAM:               8192M bytes

FLASH:              1024M bytes

PCB 1 Version:      VER.A

Bootrom Version:    158

CPLD 1 Version:     003

CPLD 2 Version:     001

Release Version:    H3C SecPath M9000-AI-E8-9071P1313

Patch Version  :    None

Reboot Cause  :     ColdReboot

 

NPU 6:

BOARD TYPE:         NSQM5FAB08A1

PCB Version:        VER.A

CPLD Version:       200

 

NPU 7:

BOARD TYPE:         NSQM5FAB08A1

PCB Version:        VER.A

CPLD Version:       200

2. 确认成员设备数目超过IRF支持的最大成员设备数目

目前设备IRF最多支持两台设备。

3. 确认成员设备的成员编号是否不唯一。

通过display irf命查看设备成员编号MemberID,两台设备的成员编号应不同,否则通过irf member命令修改成员编号。

<sysname>display  irf

MemberID    Role    Priority  CPU-Mac         Description

 *+1        Master  1         00ff-fbec-b003  ---

--------------------------------------------------

 * indicates the device is the master.

 + indicates the device through which the user logs in.

 

 The bridge MAC of the IRF is: 00ff-fbec-b001

 Auto upgrade                : yes

 Mac persistent              : 6 min

Domain ID                   : 0

4. 确认是否选用了不能作为IRF物理端口的端口作为IRF物理端口。

通过查看产品规格限制,确认选用的IRF物理端口是否支持作为IRF物理端口。

5. 确认成员设备的软件版本是否一致,两台设备应使用相同的软件版本。

H3C Comware Software, Version 7.1.064, Release 9071P1313

Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.

H3C SecPath M9000-AI-E8 uptime is 0 weeks, 4 days, 22 hours, 6 minutes

Last reboot reason : Cold reboot

 

Boot image: flash:/M9000E-CMW710-BOOT-R9071P1313.bin

Boot image version: 7.1.064, Release 9071P1313

  Compiled Sep 07 2022 15:00:00

System image: flash:/M9000E-CMW710-SYSTEM-R9071P1313.bin

System image version: 7.1.064, Release 9071P1313

  Compiled Sep 07 2022 15:00:00

 

 

LPU 2:

Uptime is 0 weeks,4 days,22 hours,3 minutes

H3C SecPath M9000-AI-E8 LPU with 1 ARM Processor

BOARD TYPE:         NSQM5MBSHA1

DRAM:               2048M bytes

PCB 1 Version:      VER.A

SUBCARD 1 PCB Version:VER.A

SUBCARD 2 PCB Version:VER.A

Bootrom Version:    100

CPLD 1 Version:     001

SUBCARD 1 CPLD Version:002

SUBCARD 2 CPLD Version:001

Release Version:    H3C SecPath M9000-AI-E8-9071P1313

Patch Version  :    None

Reboot Cause  :     ColdReboot

PowChip Version:    001

SLOT 2 CPU 1

CPU type:           Multi-core CPU

DDR4 :              32752M bytes

FLASH:              7296M bytes

Board PCB Version:  Ver.A

CPLD Version:       2.0

Release Version:    SecBlade AFC Enhanced-9071P1313

Basic  BootWare Version:1.04

Extend BootWare Version:1.04

Reboot Cause:       Warm reboot

SLOT 2 CPU 2

CPU type:           Multi-core CPU

DDR4 :              32752M bytes

FLASH:              7296M bytes

Board PCB Version:  Ver.A

CPLD Version:       2.0

Release Version:    SecBlade FW Enhanced-9071P1313

Basic  BootWare Version:1.04

Extend BootWare Version:1.04

Reboot Cause:       Warm reboot

 

MPU(M) 4:

Uptime is 0 weeks,4 days,22 hours,6 minutes

H3C SecPath M9000-AI-E8 MPU(M) with 1 XLP316 Processor

BOARD TYPE:         NSQM5SUP08A1

DRAM:               8192M bytes

FLASH:              1024M bytes

PCB 1 Version:      VER.A

Bootrom Version:    158

CPLD 1 Version:     003

CPLD 2 Version:     001

Release Version:    H3C SecPath M9000-AI-E8-9071P1313

Patch Version  :    None

Reboot Cause  :     ColdReboot

 

NPU 6:

BOARD TYPE:         NSQM5FAB08A1

PCB Version:        VER.A

CPLD Version:       200

 

NPU 7:

BOARD TYPE:         NSQM5FAB08A1

PCB Version:        VER.A

CPLD Version:       200

6. 确认IRF物理端口是否UP

通过display interface查询IRF物理端口状态是否UP,若端口为DOWN,应先检查端口不UP的原因,请参照3.2  端口无法UP

<sysname> display interface GigabitEthernet 1/0/10

GigabitEthernet1/0/10

Current state: UP

Line protocol state: UP

Description: GigabitEthernet1/0/10 Interface

Bandwidth: 1000000kbps

Maximum Transmit Unit: 1500

Internet protocol processing: disabled

IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0000-560a

IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0000-560a

Media type is twisted pair

Port hardware type is 1000_BASE_T

Last clearing of counters: Never

Peak value of input: 0 bytes/sec, at 2013-12-13 15:15:02

Peak value of output: 0 bytes/sec, at 2013-12-13 15:15:02

Last 300 seconds input:  0 packets/sec 0 bytes/sec

Last 300 seconds output:  0 packets/sec 0 bytes/sec

7. 确认IRF端口连接是否异常,一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接。

<sysname> display irf configuration

8. 确认成员设备的堆叠口工作模式是否一致。

进入IRF端口视图,使用display this命令,确认IRF的两台设备的工作模式是否正常。

[SYSNAME] irf-port 1/2

[SYSNAME-irf-port1/2] display this

  irf-port 1/2

  port group interface Ten-GigabitEthernet1/3/0/1 mode enhanced

5.2  IRF出现分裂

5.2.1  故障描述

IRF运行过程中出现分裂。

5.2.2  故障处理步骤

(1)    IRF分裂时会打印IRF端口down,可以确定IRF分裂的时间。

%Jun 26 10:13:46:233 2013 H3C STM/2/STM_LINK_STATUS_TIMEOUT: IRF port 1 is down because heartbeat timed out.

%Jun 26 10:13:46:436 2013 H3C STM/3/STM_LINK_STATUS_DOWN: -MDC=1; IRF port 2 is down.

(2)      IRF物理端口所在接口板的状态是否正常,若不正常,请参照2.2  单板故障排查是否单板故障。

<sysname> display device

Chassis  Slot Type             State    Subslot  Soft Ver             Patch Ver

2        0    NSQ1GT48EA0      Normal   0        M9014-9153P22           None

2        1    NONE             Absent   0        NONE                    None

2        2    NONE             Absent   0        NONE                    None

2        3    NSQ1TGS8EA0      Normal   0        M9014-9153P22           None

2        4    NSQ1FWCEA0       Normal   0        M9014-9153P22           None

2        5    NONE             Absent   0        NONE                    None

2        6    NSQ1SUPB0        Master   0        M9014-9153P22           None

2        7    NSQ1SUPB0        Standby  0        M9014-9153P22           None

2        8    NONE             Absent   0        NONE                    None

2        9    NONE             Absent   0        NONE                    None

2        10   NSQ1FWCEA0       Normal   0        M9014-9153P22           None

2        11   NONE             Absent   0        NONE                    None

2        12   NONE             Absent   0        NONE                    None

2        13   LSU1GP24TXEB0    Normal   0        M9014-9153P22           None

2        14   NONE             Absent   0        NONE                    None

2        15   NSQ1FAB12D0      Normal   0        M9014-9153P22           None

2        16   NSQ1FAB12D0      Normal   0        M9014-9153P22           None

2        17   NSQ1FAB12D0      Normal   0        M9014-9153P22           None

 

(3)    检查各个IRF物理端口的状态是否正常。若端口状态不正常,请按照2 硬件类故障处理

(4)    确认故障原因。

<sysname> display interface GigabitEthernet1/0/10

GigabitEthernet1/0/10 current state: UP

Line protocol current state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0000-e80d-c000

Description: GigabitEthernet2/6/0/1 Interface

Loopback is not set

Media type is optical fiber, Port hardware type is 1000_BASE_SX_SFP

……

(5)      如果设备存在接口板,通过设备运行时间或日志检查IRF中各个成员设备及IRF物理端口所在的接口板在IRF分裂时是否重启过,确认是否为电源故障导致。

<sysname>dis version

H3C Comware Software, Version 7.1.064, Release 9071P1313

Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.

H3C SecPath M9000-AI-E8 uptime is 0 weeks, 4 days, 22 hours, 6 minutes

Last reboot reason : Cold reboot

 

Boot image: flash:/M9000E-CMW710-BOOT-R9071P1313.bin

Boot image version: 7.1.064, Release 9071P1313

  Compiled Sep 07 2022 15:00:00

System image: flash:/M9000E-CMW710-SYSTEM-R9071P1313.bin

System image version: 7.1.064, Release 9071P1313

  Compiled Sep 07 2022 15:00:00

 

 

LPU 2:

Uptime is 0 weeks,4 days,22 hours,3 minutes

H3C SecPath M9000-AI-E8 LPU with 1 ARM Processor

BOARD TYPE:         NSQM5MBSHA1

DRAM:               2048M bytes

PCB 1 Version:      VER.A

SUBCARD 1 PCB Version:VER.A

SUBCARD 2 PCB Version:VER.A

Bootrom Version:    100

CPLD 1 Version:     001

SUBCARD 1 CPLD Version:002

SUBCARD 2 CPLD Version:001

Release Version:    H3C SecPath M9000-AI-E8-9071P1313

Patch Version  :    None

Reboot Cause  :     ColdReboot

PowChip Version:    001

SLOT 2 CPU 1

CPU type:           Multi-core CPU

DDR4 :              32752M bytes

FLASH:              7296M bytes

Board PCB Version:  Ver.A

CPLD Version:       2.0

Release Version:    SecBlade AFC Enhanced-9071P1313

Basic  BootWare Version:1.04

Extend BootWare Version:1.04

Reboot Cause:       Warm reboot

SLOT 2 CPU 2

CPU type:           Multi-core CPU

DDR4 :              32752M bytes

FLASH:              7296M bytes

Board PCB Version:  Ver.A

CPLD Version:       2.0

Release Version:    SecBlade FW Enhanced-9071P1313

Basic  BootWare Version:1.04

Extend BootWare Version:1.04

Reboot Cause:       Warm reboot

 

MPU(M) 4:

Uptime is 0 weeks,4 days,22 hours,6 minutes

H3C SecPath M9000-AI-E8 MPU(M) with 1 XLP316 Processor

BOARD TYPE:         NSQM5SUP08A1

DRAM:               8192M bytes

FLASH:              1024M bytes

PCB 1 Version:      VER.A

Bootrom Version:    158

CPLD 1 Version:     003

CPLD 2 Version:     001

Release Version:    H3C SecPath M9000-AI-E8-9071P1313

Patch Version  :    None

Reboot Cause  :     ColdReboot

 

NPU 6:

BOARD TYPE:         NSQM5FAB08A1

PCB Version:        VER.A

CPLD Version:       200

 

NPU 7:

BOARD TYPE:         NSQM5FAB08A1

PCB Version:        VER.A

CPLD Version:       200

(6)    如故障确认,可以通过如更换光模块、更换IRF-Port端口的方式使设备重新形成IRF

(7)    如故障无法确认,请搜集各个成员设备的信息,并将信息发送给H3C技术支持人员协助分析。

5.3  故障诊断命令

表5  故障诊断命令

命令

说明

display device

显示设备信息用于检查各成员设备的软件版本、主控板类型是否一致

display interface

显示指定接口的相关信息用于检查IRF物理端口状态是否UP

display irf configuration

显示所有成员设备的IRF配置信息用于检查IRF端口连接是否异常,一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接

display current-configuration

显示当前视图下生效的配置,在系统视图下检查成员设备的如下配置是否一致:irf mode enhanced配置

display version

显示系统版本信息、单板的运行时间通过设备运行时间确认IRF中各个成员设备是否重启过,主控板及IRF端口所在接口板是否发生重启

6 RBM类故障处理

6.1  RBM无法形成

6.1.1  故障描述

RBM无法正常建立。

6.1.2  故障处理步骤

1. 确认设备型号是否一致,两台设备的型号应一致。

通过display version查看设备型号是否一致。

<sysname>display version

H3C Comware Software, Version 7.1.064, Ess 9671P18

Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.

H3C SecPath M9000-X06 uptime is 0 weeks, 1 day, 22 hours, 39 minutes

Last reboot reason : Cold reboot

 

Boot image: flash:/M9000X-CMW710-BOOT-E9671P18.bin

Boot image version: 7.1.064, Ess 9671P18

  Compiled Dec 14 2022 15:00:00

System image: flash:/M9000X-CMW710-SYSTEM-E9671P18.bin

System image version: 7.1.064, Ess 9671P18

  Compiled Dec 14 2022 15:00:00

 

 

LPU 1:

Uptime is 0 weeks,1 day,22 hours,35 minutes

H3C SecPath M9000-X06 LPU with 1 ARM Processor

BOARD TYPE:         NSQM7MBSHA0

DRAM:               2048M bytes

PCB 1 Version:      VER.A

SUBCARD 1 PCB Version:VER.A

SUBCARD 2 PCB Version:VER.A

Bootrom Version:    101

CPLD 1 Version:     001

SUBCARD 1 CPLD Version:002

SUBCARD 2 CPLD Version:002

Release Version:    H3C SecPath M9000-X06-9671P18

Patch Version  :    None

Reboot Cause  :     ColdReboot

PowChip Version:    001

SLOT 1 CPU 3

CPU type:           Multi-core CPU

DDR4 :              98304M bytes

FLASH:              7281M bytes

Board PCB1 Version: Ver.A

Board PCB2 Version: Ver.A

BMC Version:        2.24.03

CPLD1 Version:      2.0

CPLD2 Version:      1.0

CPLD3 Version:      3.0

Release Version:    SecBlade FW Enhanced-9671P18

FPGA Version:       B6001

FPGA DATE:          2022.12.08

Basic  BootWare Version:1.06

Extend BootWare Version:1.06

Reboot Cause:       User reboot

 

MPU(M) 4:

Uptime is 0 weeks,1 day,22 hours,39 minutes

H3C SecPath M9000-X06 MPU(M) with 1 XLP316 Processor

BOARD TYPE:         NSQM7SUPB0

DRAM:               8192M bytes

FLASH:              1024M bytes

PCB 1 Version:      VER.A

Bootrom Version:    100

CPLD 1 Version:     001

CPLD 2 Version:     004

Release Version:    H3C SecPath M9000-X06-9671P18

Patch Version  :    None

Reboot Cause  :     ColdReboot

 

NPU 9:

BOARD TYPE:         NSQM7FAB06A0

PCB Version:        VER.A

CPLD Version:       200                                                        

2. 确认RBM双机热备支持的最大成员设备数目

目前只支持两台设备进行双机热备。

3. 确认成员设备的成员编号是否唯一

通过display irf命查看设备成员编号MemberID,两台设备的成员编号应相同,否则通过irf member命令修改成员编号。

<sysname>display  irf

MemberID    Role    Priority  CPU-Mac         Description

 *+1        Master  1         80e4-55d8-54ae  ---

--------------------------------------------------

 * indicates the device is the master.

 + indicates the device through which the user logs in.

 

 The bridge MAC of the IRF is: 80e4-55d8-54ac

 Auto upgrade                : yes

 Mac persistent              : 6 min

 Domain ID                   : 0

4. 确认是否选用了一致的设备端口作为RBM数据通道和控制通道

通过display interface brief查询设备成员接口,选择成员接口一致的接口作为RBM数据通道和控制通道。

5. 确认成员设备的软件版本是否一致,两台设备应使用相同的软件版本

<sysname>display version

H3C Comware Software, Version 7.1.064, Ess 9671P18

Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.

H3C SecPath M9000-X06 uptime is 0 weeks, 1 day, 22 hours, 39 minutes

Last reboot reason : Cold reboot

 

Boot image: flash:/M9000X-CMW710-BOOT-E9671P18.bin

Boot image version: 7.1.064, Ess 9671P18

  Compiled Dec 14 2022 15:00:00

System image: flash:/M9000X-CMW710-SYSTEM-E9671P18.bin

System image version: 7.1.064, Ess 9671P18

  Compiled Dec 14 2022 15:00:00

 

 

LPU 1:

Uptime is 0 weeks,1 day,22 hours,35 minutes

H3C SecPath M9000-X06 LPU with 1 ARM Processor

BOARD TYPE:         NSQM7MBSHA0

DRAM:               2048M bytes

PCB 1 Version:      VER.A

SUBCARD 1 PCB Version:VER.A

SUBCARD 2 PCB Version:VER.A

Bootrom Version:    101

CPLD 1 Version:     001

SUBCARD 1 CPLD Version:002

SUBCARD 2 CPLD Version:002

Release Version:    H3C SecPath M9000-X06-9671P18

Patch Version  :    None

Reboot Cause  :     ColdReboot

PowChip Version:    001

SLOT 1 CPU 3

CPU type:           Multi-core CPU

DDR4 :              98304M bytes

FLASH:              7281M bytes

Board PCB1 Version: Ver.A

Board PCB2 Version: Ver.A

BMC Version:        2.24.03

CPLD1 Version:      2.0

CPLD2 Version:      1.0

CPLD3 Version:      3.0

Release Version:    SecBlade FW Enhanced-9671P18

FPGA Version:       B6001

FPGA DATE:          2022.12.08

Basic  BootWare Version:1.06

Extend BootWare Version:1.06

Reboot Cause:       User reboot

 

MPU(M) 4:

Uptime is 0 weeks,1 day,22 hours,39 minutes

H3C SecPath M9000-X06 MPU(M) with 1 XLP316 Processor

BOARD TYPE:         NSQM7SUPB0

DRAM:               8192M bytes

FLASH:              1024M bytes

PCB 1 Version:      VER.A

Bootrom Version:    100

CPLD 1 Version:     001

CPLD 2 Version:     004

Release Version:    H3C SecPath M9000-X06-9671P18

Patch Version  :    None

Reboot Cause  :     ColdReboot

 

NPU 9:

BOARD TYPE:         NSQM7FAB06A0

PCB Version:        VER.A

CPLD Version:       200                                                         

6. 确认RBM数据通道和控制通道接口是否UP

通过display interface查询RBM通道接口状态是否UP,若端口为DOWN,应先检查端口不UP的原因,请参照3.2  端口无法UP

<sysname>display interface GigabitEthernet 1/0/1

GigabitEthernet1/0/1

Current state: UP

Line protocol state: UP

Description: GigabitEthernet1/0/1 Interface

Bandwidth: 1000000 kbps

Maximum transmission unit: 1500

Allow jumbo frames to pass

Broadcast max-ratio: 100%

Multicast max-ratio: 100%

Unicast max-ratio: 100%

Internet protocol processing: Disabled

IP packet frame type: Ethernet II, hardware address: 80e4-55d8-54b3

IPv6 packet frame type: Ethernet II, hardware address: 80e4-55d8-54b3

Media type is twisted pair, loopback not set, promiscuous mode not set

1000Mb/s, Full-duplex, link type is autonegotiation

Output flow-control is disabled, input flow-control is disabled

Last link flapping: 1 days 17 hours 29 minutes

Last clearing of counters: Never

Current system time:2021-02-01 08:42:30 Beijing+08:00:00

Last time when physical state changed to up:2021-01-30 15:12:46 Beijing+08:00:00

Last time when physical state changed to down:2021-01-30 15:12:08 Beijing+08:00:00

 Peak input rate: 8499998 bytes/sec, at 2021-01-30 15:18:39

 Peak output rate: 5172061 bytes/sec, at 2021-01-30 15:12:53

 Last 300 second input: 0 packets/sec 22 bytes/sec 0%

 Last 300 second output: 0 packets/sec 25 bytes/sec 0%

7. 确认RBM控制通道连接是否异常,两台设备的控制通道对端端口必须相同

RBM_P[F1090]display remote-backup-group status

Remote backup group information:

  Backup mode: Dual-active

  Device role: Primary

  Data channel interface: Route-Aggregation64

  Local IPv6: 100::1

  Remote IPv6: 100::2    Destination port: 60064

  Control channel status: Connected

  Hot backup status:Enabled

  Auto configuration synchronization: Enable

  Configuration consistency check interval: 1 hour

  Delay-time: 1 min

6.2  RBM出现分裂

6.2.1  故障描述

RBM双机运行过程中出现RBM通道分裂。

6.2.2  故障处理步骤

(1)    RBM分裂时会打印RBM端口down,可以确定RBM分裂的时间。

RBM_P<Device-VRRP-ZHU-1>%Feb  1 07:57:49:310 2021 F1010-VRRP-ZHU-1 LLDP/6/LLDP_DELETE_NEIGHBOR: Nearest bridge agent neighbor deleted

 on port GigabitEthernet1/0/7 (IfIndex 8), neighbor's chassis ID is d461-fe39-d20c, port ID is GigabitEthernet1/0/7.

%Feb  1 07:57:50:487 2021 F1010-VRRP-ZHU-1 IFNET/3/PHY_UPDOWN: Physical state on the interface GigabitEthernet1/0/7 changed to down.

%Feb  1 07:57:50:487 2021 F1010-VRRP-ZHU-1 IFNET/5/LINK_UPDOWN: Line protocol state on the interface GigabitEthernet1/0/7 changed to

 down.

%Feb  1 07:58:00:269 2021 F1010-VRRP-ZHU-1 RBM/6/RBM_CHANNEL: Local IPv6=202::1, remote IPv6=202::2, status=Disconnected

(2)    检查各个RBM物理端口的状态是否正常。若端口状态不正常,请按照2 硬件类故障处理

(3)    确认故障原因。

RBM_P<Device-VRRP-ZHU-1>display interface GigabitEthernet 1/0/7

GigabitEthernet1/0/7

Current state: UP

Line protocol state: UP

Description: link-f1010-bei

Bandwidth: 1000000 kbps

Maximum transmission unit: 1500

Allow jumbo frames to pass

Broadcast max-ratio: 100%

Multicast max-ratio: 100%

Unicast max-ratio: 100%

Internet address: 202.1.1.1/24 (Primary)

IP packet frame type: Ethernet II, hardware address: e8f7-24d9-2875

IPv6 packet frame type: Ethernet II, hardware address: e8f7-24d9-2875

Media type is twisted pair, loopback not set, promiscuous mode not set

1000Mb/s, Full-duplex, link type is autonegotiation

Output flow-control is disabled, input flow-control is disabled

Output queue - Urgent queuing: Size/Length/Discards 0/1024/0

Output queue - Protocol queuing: Size/Length/Discards 0/500/0

Output queue - FIFO queuing: Size/Length/Discards 0/75/0

Last link flapping: 0 hours 0 minutes 19 seconds

Last clearing of counters: Never

Current system time:2021-02-01 08:00:09

Last time when physical state changed to up:2021-02-01 07:59:51

Last time when physical state changed to down:2021-02-01 07:57:50

 Peak input rate: 1694290 bytes/sec, at 2021-01-30 14:35:26

 Peak output rate: 6245465 bytes/sec, at 2021-01-30 14:40:01

 Last 300 second input: 1 packets/sec 132 bytes/sec 0%

 Last 300 second output: 1 packets/sec 132 bytes/sec 0%

 Input (total):  2404856 packets, 808021430 bytes

(4)      如果设备存在接口板,通过设备运行时间或日志检查RBM双机环境中各个成员设备及RBM控制通道端口所在的接口板在RBM分裂时是否重启过,确认是否为电源故障导致。

(5)    如故障确认,可以通过如更换光模块、更换RBM控制通道端口的方式使设备重新形成RBM

(6)    如故障无法确认,请搜集各个成员设备的信息,并将信息发送给H3C技术支持人员协助分析。

6.3  RBM动态路由故障处理

6.3.1  上下行接口故障后RBM未进行切换

1. 故障描述

FW设备上行或下行接口故障,但是流量仍然上送到本设备,RBM未进行切换。

2. 故障处理步骤

分别登录两台设备查看RBM详细配置,RBM默认会检测本框中业务板的个数,但是接口类故障需要手工配置track检测。

配置主:

track 1 interface Route-Aggregation1

track 2 interface Route-Aggregation11

 

 

RBM_P[M9016_1-remote-backup-group]display this

#

remote-backup group

 backup-mode dual-active

 data-channel interface Route-Aggregation1000

 delay-time 1

 adjust-cost bgp enable absolute 10000

 adjust-cost ospf enable absolute 10000

 adjust-cost ospfv3 enable absolute 10000

 track 1

 track 2

local-ip 192.168.195.9

 remote-ip 192.168.195.10

 device-role primary

 

 

配置备:

track 1 interface Route-Aggregation1

track 2 interface Route-Aggregation11

 

 

RBM_S[M9016_2-remote-backup-group]display this

#

remote-backup group

 backup-mode dual-active

 data-channel interface Route-Aggregation1000

 delay-time 1

 adjust-cost bgp enable absolute 10000

 adjust-cost ospf enable absolute 10000

 adjust-cost ospfv3 enable absolute 10000

 track 1

 track 2

local-ip 192.168.195.10

 remote-ip 192.168.195.9

 device-role secondary

RBM检测track的状态(通过display  track all命令查询),当track的结果为positive时,RBM认为本机状态正常;当track结果为negative时,RBM模块认为本机异常触发RBM切换,进而调整相应的路由开销,引导流量全部走到另外一台FW设备。

初始开局时,确保两台FWRBM中绑定track,并增加路由开销联动。RBM中的配置不会同步,每台FW需分别手动添加。

6.3.2  RBM双机配置不一致

1. 故障描述

RBM默认每隔24h进行配置一致性检查,由于某些原因造成的配置不一致时,系统会上报不一致告警,并携带相关模块。

RBM_P[M9016_1]%Dec 17 14:25:43:191 2020 M9016_1 RBM/6/RBM_CFG_COMPARE_START: Started configuration consistency check.

%Dec 17 14:25:44:775 2020 M9016_1 RBM/6/RBM_CFG_COMPARE_RESULT: The following modules have inconsistent configuration: acl.

%Dec 17 14:25:44:775 2020 M9016_1 RBM/6/RBM_CFG_COMPARE_FINISH: Finished configuration consistency check.

2. 故障处理步骤

首先根据告警提示信息检查对应模块不一致的地方,例如系统检测到acl模块存在差异,建议比对当前两台FWacl配置,存在2种情况:

(1)      配置备上存在acl 3000,配置主上没有,

a.   若确认acl 3000需要保留,直接在配置主上增加acl 3000,系统自动进行配置同步,然后保存2台设备的配置。

b.   若确认acl 3000无需保留,在配置主上执行configuration manual-sync命令,系统自动进行配置同步,配置备acl 3000自动删除,然后保存2台设备的配置

(2)      配置主上存在acl 3000,配置备上没有

a.   若确认acl 3000需要保留,在配置主上执行configuration manual-sync命令,系统自动进行配置同步,然后保存2台设备的配置

b.   若确认acl 3000无需保留,在配置主上删除acl 3000,并执行configuration manual-sync命令,系统自动进行配置同步,然后保存2台设备的配置

7 双机热备故障处理

7.1  没有加入冗余组的冗余口直连无法ping

7.1.1  故障描述

未加入冗余组的冗余口具有单独的冗余功能。冗余组只在接口UP/DOWN事件到来时进行激活切换。所有业务逻辑均基于冗余口实现,成员口只负责发送和接收报文。

问题集中在报文收发环节,存在冗余口直连无法ping通的情况。

7.1.2  故障处理步骤

1. 首先判断冗余口是否有报文收发,如果有,问题可能存在转发环节,请按如下操作定位:

(1)      打开debugging ethernet packet查看冗余口是否有报文上收与发送的调试信息对冗余口1,采用如下命令:

debugging ethernet packet interface Reth 1

(2)    打开arp error debug命令查看是否存在错误信息采用如下debug命令:

debugging arp error

如果有错误信息,说明ARP学习异常。

(3)    打开 ip error 查看是否有错误信息采用如下debug命令:

debugging ip error

如果有错误信息,根据此信息来确定丢包的原因。

(4)    查看 display ethernert statistics 查看是否有错误计数随报文收发增长命令如下:

[sysname] display ethernet statistics slot 1

ETH receive packet statistics:

    Totalnum        : 1000888        ETHIINum     : 1000888

    SNAPNum         : 0              RAWNum       : 0

    LLCNum          : 0              UnknownNum   : 0

    ForwardNum      : 884856         ARP          : 0

    MPLS            : 0              ISIS         : 0

    ISIS2           : 0              IP           : 0

    IPV6            : 0

ETH receive error statistics:

    NullPoint       : 0              ErrIfindex   : 3

    ErrIfcb         : 0              IfShut       : 5

    ErrAnalyse      : 0              ErrSrcMAC    : 0

    ErrHdrLen       : 0

 

ETH send packet statistics:

    L3OutNum        : 325126         VLANOutNum   : 0

    FastOutNum      : 92115615       L2OutNum     : 0

ETH send error statistics:

    MbufRelayNum    : 0              NullMbuf     : 0

    ErrAdjFwd       : 0              ErrPrepend   : 0

    ErrHdrLen       : 0              ErrPad       : 0

    ErrQosTrs       : 0              ErrVLANTrs   : 0

    ErrEncap        : 287            ErrTagVLAN   : 0

IfShut          : 0              IfErr        : 0

通过display ethernet statistics slot 2,来查看成员设备的信息。

2. 如果冗余口没有报文信息,如下进行如下信息的确认

(1)      需要确认是否建立了冗余表项。查看命令如下:

<sysname>display reth interface Reth 1

Reth1 :

  Redundancy group  : fqs

  Member           Physical status         Forwarding status   Presence status

  GE1/1/1.500      UP                      Active              Normal

  GE2/0/1.500      UP                      Inactive            Normal

要分析Physical status状态,如果都为down,说明系统异常。分析Forwarding status状态,如果都为Inactive状态,说明成员口异常。

(2)      如果表项存在且成员状态正常,即部分报文能够上收,查看表项是否有错误。

可以通过shutdown冗余口,尝试刷新表项,看表项是否能够重新建立。如果冗余口的成员口为子接口,还需要查看表项是否带tag

(3)      如果冗余口、ARP表项正常,需要确认驱动有没有上发报文,可查看物理接口计数,看报文是否已经上收。

3. 如果上述手段均无法定位,请联系H3C技术支持人员进行分析。

(1)      报文的收发一般都是双向的过程,A-B两端报文需要互通,可以先确定是报文丢在哪一环,再针对某一环节进行定位。如A-B两端,可先ping A->B查看是否能ping通,再ping B->A查看是否能ping通。若两端都能通,则证明报文收发没问题。 某一端不能通, B->A为例,先看B是否将报文发出,定位方式按照以上步骤来,再看A是否上收,定位方式也是如此。

(2)      查看表项,控制块等常用信息的时候,记得要查看对应blade板的值,报文从哪里上收,从哪里转发,会不会上到主控板,都是需要关注的。有些直接在接口板进行转发的报文,查看主控板的信息,这样查到的信息是不准确的。

7.2  主备模式双机热备故障

7.2.1  故障描述

图3  组网图

 

1. 组网需求

(1)      Device 1Device 22台防火墙构成主备方式的IRF设备,冗余口Reth 1为上行口,聚合口Route-Aggregation1Route-Aggregation2为冗余口Reth1的成员,成员Route-Aggregation1的优先级高。

(2)      冗余口Reth 2为下行口,聚合口Route-Aggregation3Route-Aggregation4为冗余口Reth 2的成员,成员Route-Aggregation3的优先级高。

(3)      冗余口Reth 1Reth 2配有IP地址。冗余组1包含冗余口1和冗余口2

2. 配置步骤

interface Reth 1

ip address 100.1.1.1 255.255.255.0

member interface Route-Aggregation1 priority 100

 member interface Route-Aggregation2 priority 1

interface Reth 2

ip address 100.1.1.1 255.255.255.0

member interface Route-Aggregation3 priority 100

 member interface Route-Aggregation4 priority 1

 

track 11 interface Route-Aggregation1

track 12 interface Route-Aggregation2

track 13 interface Route-Aggregation3

track 14 interface Route-Aggregation4

 

redundancy group 1

member interface Reth1

member interface Reth2

 member failover group 1

 member failover group 2

 node 1

  bind chassis 1

  priority 100

  track 1 interface Blade1/2/0/1

  track 3 interface Blade1/3/0/1

track 11 interface Route-Aggregation1

track 13 interface Route-Aggregation3

 

 node 2

  bind chassis 2

  priority 50

  track 2 interface Blade2/2/0/1

  track 4 interface Blade2/3/0/1

track 12 interface Route-Aggregation2

track 14 interface Route-Aggregation4

3. 故障描述

通过冗余组进行IRF主备切换时,不能成功进行切换,出现异常。

7.2.2  故障处理步骤

1. 对冗余组的track进行分析

Track 由于是冗余组进行决策的唯一数据来源,所以track 的配置对于冗余组来说非常重要。Track的配置还有配错的风险,配错后会导致group 决策出现错误。

(1)      如遇group频繁进行激活成员切换的情况,有规律的定时的切换,就需要注意观察下是否频繁有track事件上报。对应查看下track 接口的主备关系,于当前track 所在node的主备关系是否一致。

(2)      如果没有问题,还需要查看下track事件与接口状态是否相符。

(3)      如果IRF由主切到备,需要确认track事件相关的端口是否真正处于Positive的状态,如果仍有端口处于Negative状态,说明存在异常。

(4)      如果仍无问题,则查看下track状态与group中的Track状态是否一致。

查看track状态:

<sysname>dis track 5

Track ID: 5

  State: Positive

  Duration: 0 days 0 hours 0 minutes 6 seconds

  Tracked object type: Interface

  Notification delay: Positive 0, Negative 0 (in seconds)

  Tracked object:

    Interface: Route-Aggregation1

    Protocol: None

查看冗余组中的track状态:

<sysname>display redundancy group 1

Redundancy group 1 (ID 1):

  Node ID      Chassis       Priority   Status        Track weight

  1            Chassis1      100        Primary       255

  2            Chassis2      50         Secondary     255

 

Preempt delay time remained     : 0    min

Preempt delay timer setting     : 1    min

Remaining hold-down time        : 0    sec

Hold-down timer setting         : 1    sec

Manual switchover request       : No

 

Member interfaces:

Reth1

Reth2

Member failover groups:

    1

    2

 

Node 1:

  Track info:

    Track    Status           Reduced weight     Interface

    1        Positive         255                Blade1/2/0/1

    3        Positive         255                Blade1/3/0/1

11       Positive         255                RAGG1

13       Positive         255                RAGG3

Node 2:

  Track info:

    Track    Status           Reduced weight     Interface

    2        Positive         255                Blade2/2/0/1

4        Positive         255                Blade2/3/0/1

12       Positive         255                RAGG2

14       Positive         255                RAGG4

如果不一致,说明track存在问题。

2. 检查IRF主备切换是,冗余组的权重处理是否正确

·              每个冗余组节点都有权重,缺省值为255,每个冗余组节点必须关联至少一个Track项,每个Track项对应一个权重增量。当Track项变为NotReadyNegative状态时,冗余组节点用当前权重减去对应的权重增量获得新的当前权重。当Track项变为Positive时,冗余组节点用当前权重加上对应的权重增量获得新的当前权重。当前权重小于或等于0时,则认为该节点故障,无法正常工作,触发冗余组的倒换/倒回。

举例说明如下:

<sysname>display  redundancy  group 1

Redundancy group 1 (ID 1):

  Node ID      Chassis       Priority   Status        Track weight

  1            Chassis1      100        Secondary     0

  2            Chassis2      50         Primary       255

 

Preempt delay time remained     : 0    min

Preempt delay timer setting     : 1    min

Remaining hold-down time        : 0    sec

Hold-down timer setting         : 1    sec

Manual switchover request       : No

 

Member interfaces:

    Reth1

Member failover groups:

    1

    2

 

Node 1:

  Track info:

    Track    Status           Reduced weight     Interface

    1        Positive         255                Blade1/2/0/1

    3        Positive         255                Blade1/3/0/1

11       Negative(Faulty) 255                RAGG11

13       Positive         255                RAGG3

Node 2:

  Track info:

    Track    Status           Reduced weight     Interface

    2        Positive         255                Blade2/2/0/1

4        Positive         255                Blade2/3/0/1

12       Positive         255                RAGG2

14       Positive         255                RAGG4

如果无法定位问题,请联系H3C技术支持人员进行分析。

8 策略NAT故障处理

8.1  内网用户无法访问外网

8.1.1  故障描述

内网PC A无法通过网关设备Device访问外网PC B

8.1.2  故障处理步骤

1. 安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > 安全策略 > 安全策略”。

(3)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:

a.   名称:secpolicy1

b.   源安全域: Trust

c.   目的安全域:Untrust

d.   动作:允许

e.   IPv4地址:192.168.1.1(此处为PC AIP地址)

f.    目的IPv4地址:10.0.0.2(此处为PC BIP地址)

(4)    单击<确定>,完成安全策略配置。

2. 策略NAT配置检查

(1)    登录设备Web管理页面。

(2)    选择“策略 > NAT > NAT策略”。

(3)    在“NAT策略”页面单击<新建>,新建NAT策略规则,必要的配置项如下:

a.   规则名称:policy1

b.   转换模式:源地址转换

c.   源安全域: Trust

d.   目的安全域:Untrust

e.   IPv4地址:192.168.1.1(此处为PC AIP地址)

f.    目的IPv4地址:10.0.0.2(此处为PC BIP地址)

g.   转换方式:PAT

h.   地址类型:地址组

i.    转换后源地址:用于源IP地址转换的公网NAT地址组

(4)      单击<确定>,完成NAT策略规则配置。

8.2  NAT源地址转换不生效

8.2.1  故障描述

在网关设备Device上配置NAT源地址转换后,内网PC A无法访问外网PC B

8.2.2  故障处理步骤

1. 安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > 安全策略 > 安全策略”。

(3)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:

a.   名称:secpolicy2

b.   源安全域: Trust

c.   目的安全域:Untrust

d.   动作:允许

e.   IPv4地址:192.168.1.1(此处为PC AIP地址)

f.    目的IPv4地址:10.0.0.2(此处为PC BIP地址)

(4)    单击<确定>,完成安全策略配置。

2. 策略NAT配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > NAT > NAT策略 ”。

(3)      在“NAT策略”页面编辑NAT源地址转换规则。

(4)      查看该规则的转换后IP地址、网段、地址对象组或NAT地址组中是否包含不在10.0.0.1/24网段内的地址。

(5)      如存在上述情况,需修改转换后源地址配置,确保回程报文能被转发到Device的外网侧接口GE1/0/2上。

(6)    单击<确定>,完成NAT策略修改

8.3  NAT目的地址转换不生效

8.3.1  故障描述

在网关设备Device上配置NAT目的地址转换后,外网PC B无法访问内网PC A

8.3.2  故障处理步骤

1. 安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > 安全策略 > 安全策略”。

(3)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:

a.   名称:secpolicy3

b.   源安全域: Untrust

c.   目的安全域:Trust

d.   动作:允许

e.   IPv4地址:10.0.0.2(此处为PC BIP地址)

f.    目的IPv4地址:192.168.1.1(此处为PC AIP地址)

(4)    单击<确定>,完成安全策略配置。

2. 策略NAT配置检查

(1)    登录设备Web管理页面。

(2)    选择“策略 > NAT > NAT策略”。

(3)    在“NAT策略”页面编辑NAT目的地址转换规则。

(4)    查看该规则所引用的服务匹配条件是否与实际情况不符。

(5)    如存在上述情况,需修改服务匹配条件,确保与实际情况一致。

(6)    单击<确定>,完成NAT策略修改。

8.4  NAT源地址转换与NAT目的地址转换配合使用,NAT目的地址转换不生效

8.4.1  故障描述

B在网关设备Device上配置NAT源地址转换与NAT目的地址转换(NAT Server)后,外网PC B无法通过外网地址10.0.0.100和目的端口80访问内网PC C

8.4.2  故障处理步骤

1. 安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > 安全策略 > 安全策略”。

(3)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:

a.   名称:secpolicy4

b.   源安全域: Untrust

c.   目的安全域:DMZ

d.   动作:允许

e.   IPv4地址:10.0.0.2(此处为PC BIP地址)

f.    目的IPv4地址:192.168.2.1(此处为PC CIP地址)

(4)    单击<确定>,完成安全策略配置。

2. 策略NAT配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > NAT > NAT策略 ”。

(3)      在“NAT策略”页面查看是否存在转换方式为PAT的源地址转换规则。

(4)      如存在上述规则,单击<编辑>,在修改NAT策略界面查看该规则引用的NAT地址组的端口范围是否包含80

(5)    如包含在内,需要将端口80从端口范围中剔除。

(6)    单击<确定>,完成NAT策略修改。

8.5  NATIPsec配合使用,IPsec配置不生效

8.5.1  故障描述

Device上配置NAT源地址转换和IPsec功能,对PC A访问PC B的报文进行NAT源地址转换后,利用IPsec保护其安全性。PC A主动访问PC B,发现IPsec配置不生效。

8.5.2  故障处理步骤

1. 匹配IPsec策略的报文源和目的IP地址需为NAT转换后的IP地址。

(1)      登录设备Web管理页面。

(2)      选择“网络 > VPN > IPsec > 策略 ”。

(3)      在“IPsec策略”页面编辑IPsec策略配置。

(4)      查看IPsec策略配置中的被保护数据流配置,将被保护数据流的源和目的IP地址改为NAT转换后的IP地址。

8.6  配置策略NAT后,内网用户无法访问设备

8.6.1  故障描述

在网关设备Device上配置策略NAT后,内网PC A无法访问Device

8.6.2  故障处理步骤

1. 安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > 安全策略 > 安全策略”。

(3)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:

a.   名称:secpolicy5

b.   源安全域: Trust

c.   目的安全域:Local

d.   动作:允许

e.   IPv4地址:192.168.1.1(此处为PC AIP地址)

f.    目的IPv4地址:192.168.1.2(此处为Device内网侧接口的IP地址)

(4)    单击<确定>,完成安全策略配置。

2. 策略NAT配置检查

(1)    登录设备Web管理页面。

(2)    选择“策略 > NAT > NAT策略 ”。

(3)    在“NAT策略”页面查看是否存在报文目的安全域匹配条件为ANY的目的地址转换规则。

(4)    如存在上述规则,则需要重新配置该目的地址转换规则的报文匹配条件,具体要求如下:

(5)    目的安全域:不得包含Local安全域

(6)    IPv4地址:不得为192.168.1.1

(7)    目的IPv4地址:不得为192.168.1.2

8.7  配置NAT源地址转换后,外网用户无法访问设备

8.7.1  故障描述

在网关设备Device上配置NAT源地址转换后,外网PC B无法访问Device

8.7.2  故障处理步骤

1. 安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > 安全策略 > 安全策略”。

(3)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:

a.   名称:secpolicy6

b.   源安全域: Untrust

c.   目的安全域:Local

d.   动作:允许

e.   IPv4地址:10.0.0.2(此处为PC BIP地址)

f.    目的IPv4地址:10.0.0.1(此处为Device外网侧接口的IP地址)

(4)    单击<确定>,完成安全策略配置。

2. 策略NAT配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > NAT > NAT策略”。

(3)      在“NAT策略”页面查看是否存在源地址转换方式为NO-PATNAT策略规则。

(4)      如存在上述规则,单击<编辑>,在修改NAT策略界面查看该规则所引用的用于源地址转换的地址对象组或NAT地址组中是否包含Device的外网侧接口IP地址10.0.0.1

(5)    如包含在内,需要把10.0.0.1从该地址对象组或NAT地址组中剔除。

(6)    单击<确定>,完成NAT策略修改。

8.8  配置NAT目的地址转换后,外网用户无法访问设备

8.8.1  故障描述

在网关设备Device上配置NAT目的地址转换后,外网PC B无法访问Device

8.8.2  故障处理步骤

1. 安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > 安全策略 > 安全策略”。

(3)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:

a.   名称:secpolicy7

b.   源安全域: Untrust

c.   目的安全域:Local

d.   动作:允许

e.   IPv4地址:10.0.0.2(此处为PC BIP地址)

f.    目的IPv4地址:10.0.0.1(此处为Device外网侧接口的IP地址)

(4)    单击<确定>,完成安全策略配置。

2. 策略NAT配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > NAT > NAT策略 ”。

(3)      在“NAT策略”页面查看是否存在转换方式为多对一地址转换的目的地址转换规则。

(4)      如存在上述规则,单击<编辑>,在修改策略NAT界面查看目的地址匹配规则中是否包含Device的外网侧接口IP地址10.0.0.1

(5)    如包含在内,继续查看服务匹配规则中是否包含PC B访问Device时使用的服务。

(6)    如包含在内,请根据实际情况选择如下方式进行处理:

a.   改变PC B访问Device时使用的服务。

b.   把该服务从服务匹配规则中剔除,不对该服务进行目的地址转换。

(7)    单击<确定>,完成NAT策略修改。

9 接口NAT故障处理

9.1  内网用户无法访问外网

9.1.1  故障描述

内网PC A无法通过网关设备Device访问外网PC B

9.1.2  故障处理步骤

1. 安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > 安全策略 > 安全策略”。

(3)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:

a.   名称:secpolicy1

b.   源安全域: Trust

c.   目的安全域:Untrust

d.   动作:允许

e.   IPv4地址:192.168.1.1(此处为PC AIP地址)

f.    目的IPv4地址:10.0.0.2(此处为PC BIP地址)

(4)    单击<确定>,完成安全策略配置。

2. 接口NAT配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > NAT > NAT动态转换 > 策略配置”。

(3)      在“NAT出方向动态转换(基于ACL)”页签单击<新建>,新建NAT出方向动态转换,必要的配置项如下:

a.   接口:GE1/0/2

b.   ACL 此处配置为放行PC A访问PC B报文的ACL

c.   转换后源地址:NAT地址组(此处配置为用于源IP地址转换的公网地址组)

d.   转换模式:PAT

(4)    单击<确定>,完成NAT出方向动态转换配置。

9.2  NAT源地址转换不生效

9.2.1  故障描述

在网关设备Device上配置NAT源地址转换后,内网PC A无法访问外网PC B

9.2.2  故障处理步骤

1. 安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > 安全策略 > 安全策略”。

(3)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:

a.   名称:secpolicy2

b.   源安全域: Trust

c.   目的安全域:Untrust

d.   动作:允许

e.   IPv4地址:192.168.1.1(此处为PC AIP地址)

f.    目的IPv4地址:10.0.0.2(此处为PC BIP地址)

(4)    单击<确定>,完成安全策略配置。

(5)    接口NAT配置检查

(6)    登录设备Web管理页面。

(7)    选择“策略 > NAT > NAT动态转换 > 策略配置 ”。

(8)    在右侧页签中编辑NAT源地址转换规则。

(9)      查看该规则的转换后IP地址、网段、地址对象组或NAT地址组中是否包含不在10.0.0.1/24网段内的地址。

(10)   如存在上述情况,需修改转换后源地址配置,确保回程报文能被转发到Device的外网侧接口GE1/0/2上。

(11)   单击<确定>,完成接口NAT修改。

9.3  NAT目的地址转换不生效

9.3.1  故障描述

在网关设备Device上配置NAT目的地址转换后,外网PC B无法访问内网PC A

9.3.2  故障处理步骤

1. 安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > 安全策略 > 安全策略”。

(3)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:

a.   名称:secpolicy3

b.   源安全域: Untrust

c.   目的安全域:Trust

d.   动作:允许

e.   IPv4地址:10.0.0.2(此处为PC BIP地址)

f.    目的IPv4地址:192.168.1.1(此处为PC AIP地址)

(4)    单击<确定>,完成安全策略配置。

2. 接口NAT配置检查

(1)    登录设备Web管理页面。

(2)    选择“策略 > NAT > NAT内部服务器 > 策略配置”。

(3)    查看NAT内部服务器的外网端口是否与实际情况不符。

(4)    如存在上述情况,需修改端口匹配条件,确保与实际情况一致。

(5)    单击<确定>,完成接口NAT修改。

9.4  NAT源地址转换与NAT目的地址转换配合使用,NAT目的地址转换不生效

9.4.1  故障描述

在网关设备Device上配置NAT源地址转换与NAT目的地址转换(NAT Server)后,外网PC B无法通过外网地址10.0.0.100和目的端口80访问内网PC C

9.4.2  故障处理步骤

1. 安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > 安全策略 > 安全策略”。

(3)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:

a.   名称:secpolicy4

b.   源安全域: Untrust

c.   目的安全域:DMZ

d.   动作:允许

e.   IPv4地址:10.0.0.2(此处为PC BIP地址)

f.    目的IPv4地址:192.168.2.1(此处为PC CIP地址)

(4)    单击<确定>,完成安全策略配置。

2. 接口NAT配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > NAT > NAT动态转换 > 策略配置”。

(3)      在“NAT出方向动态转换(基于对象组)”页签中查看是否存在动作为PAT的转换规则。

(4)      如存在上述规则,单击<编辑>,在修改NAT出方向动态转换界面查看转换后源地址处引用的NAT地址组的端口范围是否包含80

(5)      如包含在内,需要将端口80从端口范围中剔除。

(6)      单击<确定>,完成NAT出方向动态转换规则修改。

(7)      在“NAT出方向动态转换(基于ACL)”页签中查看是否存在转换模式为PAT的转换规则。

(8)      如存在上述规则,单击<编辑>,在修改NAT出方向动态转换界面查看转换后源地址处引用的NAT地址组的端口范围是否包含80

(9)      如包含在内,需要将端口80从端口范围中剔除。

(10)   单击<确定>,完成NAT出方向动态转换规则修改。

9.5  NATIPsec配合使用,IPsec配置不生效

9.5.1  故障描述

Device上配置NAT源地址转换和IPsec功能,对PC A访问PC B的报文进行NAT源地址转换后,利用IPsec保护其安全性。PC A主动访问PC B,发现IPsec配置不生效。

9.5.2  故障处理步骤

1. 匹配IPsec策略的报文源和目的IP地址需为NAT转换后的IP地址。

(1)      登录设备Web管理页面。

(2)      选择“网络 > VPN > IPsec > 策略 ”。

(3)      在“IPsec策略”页面编辑IPsec策略配置。

(4)      查看IPsec策略配置中的被保护数据流配置,将被保护数据流的源和目的IP地址改为NAT转换后的IP地址。

9.6  配置NAT源地址转换后,外网用户无法访问设备

9.6.1  故障描述

在网关设备Device上配置NAT源地址转换后,外网PC B无法访问Device

9.6.2  故障处理步骤

1. 安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > 安全策略 > 安全策略”。

(3)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:

a.   名称:secpolicy5

b.   源安全域: Untrust

c.   目的安全域:Local

d.   动作:允许

e.   IPv4地址:10.0.0.2(此处为PC BIP地址)

f.    目的IPv4地址:10.0.0.1(此处为Device外网侧接口的IP地址)

(4)    单击<确定>,完成安全策略配置。

2. 接口NAT配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > NAT > NAT动态转换 > 策略配置”。

(3)      在“NAT出方向动态转换(基于对象组)”页签中查看是否存在动作为NO-PAT的转换规则。

(4)      如存在上述规则,单击<编辑>,在修改NAT出方向动态转换界面查看转换后源地址处引用的NAT地址组中是否包含Device的外网侧接口IP地址10.0.0.1

(5)      如包含在内,需要把10.0.0.1从该NAT地址对象组中剔除。

(6)      单击<确定>,完成NAT出方向动态转换规则修改。

(7)      在“NAT出方向动态转换(基于ACL)”页签中查看是否存在转换模式为NO-PAT的转换规则。

(8)      如存在上述规则,单击<编辑>,进入修改NAT出方向动态转换界面。

(9)      若转换后源地址为NAT地址组,查看所引用的NAT地址组内是否包含Device的外网侧接口IP地址10.0.0.1;若转换后源地址为接口IP地址,查看所引用的接口是否为Device的外网侧接口GE1/0/2

(10)   如出现上述两种情况之一,需要把10.0.0.1从转换后源地址中剔除。

(11)   单击<确定>,完成NAT出方向动态转换规则修改。

9.7  配置NAT目的地址转换后,外网用户无法访问设备

9.7.1  故障描述

在网关设备Device上配置NAT目的地址转换后,外网PC B无法访问Device

9.7.2  故障处理步骤

1. 安全策略配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > 安全策略 > 安全策略”。

(3)      在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:

a.   名称:secpolicy6

b.   源安全域: Untrust

c.   目的安全域:Local

d.   动作:允许

e.   IPv4地址:10.0.0.2(此处为PC BIP地址)

f.    目的IPv4地址:10.0.0.1(此处为Device外网侧接口的IP地址)

(4)    单击<确定>,完成安全策略配置。

2. 接口NAT配置检查

(1)      登录设备Web管理页面。

(2)      选择“策略 > NAT > NAT内部服务器 > 策略配置”。

(3)      查看是否存在外网地址为Device的外网侧接口IP地址10.0.0.1NAT内部服务器规则。

(4)      如存在上述规则,单击<编辑>,在修改NAT内部服务器界面查看外网端口是否为PC B访问Device时使用的端口。

(5)      如该端口确为PC B访问Device时使用的端口,请根据实际情况选择如下方式进行处理:

(6)      改变PC B访问Device时使用的协议或目的端口。

(7)      修改报文匹配规则(ACL)处引用的ACL,不对PC B访问Device的报文进行目的地址转换。

(8)      单击<确定>,完成NAT内部服务器规则修改。

9.8  动态NAT转换故障(以动态nat outbound为例)

9.8.1  故障描述

NAT不能正常转换或者NAT转换的报文不能正常转发。内网PC A无法通过网关设备Device访问外网PC B

9.8.2  故障处理步骤

1. 首先确认nat outbound的配置是否正确

[SYSNAME] display nat outbound

NAT outbound information:

There are 1 NAT outbound rules.

Interface: Route-Aggregation12

  ACL: ---          Address group: 257    Port-preserved: N

  NO-PAT: N         Reversible: N

2. 打开debugging nat packet,确认debugging信息是否正确,应有类似如下debugging信息:

*May 13 09:58:48:083 2017 H3C NAT/7/COMMON: -slot =1;

 PACKET: (Route-Aggregation12-in) Protocol: TCP

         4.4.4.6:   21 -        4.4.5.11:11000(VPN:    0) ------>

            4.4.4.6:   21 -     192.168.1.2:13249(VPN:   0)

注: 可以看到正向的流量做了NAT转换

3. 通过display session table ipv4 verbose命令,确认会话信息是否正确。

<sysname> display session table ipv4 verbose

Initiator:

  Source      IP/port: 192.168.1.2/13790

  Destination IP/port: 4.4.4.6/21

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/VLL ID: -/-/-

  Protocol: TCP(6)

Responder:

  Source      IP/port: 4.4.4.6/21

  Destination IP/port: 4.4.4.27/1060

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/VLL ID: -/-/-

  Protocol: TCP(6)

State: TCP_ESTABLISHED

Application: FTP

Start time: 2013-12-15 10:49:00  TTL: 3592s

Interface(in) : Route-Aggregation11

Interface(out): Route-Aggregation12

Zone(in) : Trust

Zone(out): menglei

Initiator->Responder:            3 packets        128 bytes

Responder->Initiator:            2 packets        130 bytes

4. 查看openflow表项,确认表项是否和会话表项一致。

对于动态NATNAT表项会下刷到每一块业务板上,起到分流作用。

[SYSNAME-probe] display system internal openflow instance inner flow-table

 Flow entry rule 6 information:

 cookie: 0x0, priority: 7301, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Input interface: RAGG1021

 Ethernet type: 0x0800

 IP Range: IPv4 destination address from 4.4.4.25 to 4.4.4.27

Instruction information:

 Write actions:

  Output interface: Blade2/4/0/1

Flow entry rule 7 information:

 cookie: 0x0, priority: 7301, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Input interface: RAGG1021

 Ethernet type: 0x0800

 IP Range: IPv4 destination address from 4.4.4.28 to 4.4.4.30

Instruction information:

 Write actions:

Output interface: Blade2/10/0/1

5. 如果上述定位手段均不能作出结论,请联系相关技术支持人员协助分析

9.9  静态NAT444转换故障

9.9.1  故障描述

图4  组网图

1. 组网需求

PC1访问PC2,在Device上对PC 1的地址进行静态NAT444转换,转换公网地址池为:4.4.5.114.4.5.13Device上有2块防火墙业务板。

2. Device配置

# 配置NAT444地址池。

nat port-block-group 256

 local-ip-address 192.168.1.2 192.168.1.11 vpn-instance vpn11

 global-ip-pool 4.4.5.11 4.4.5.12

 block-size 1000

 port-range 10000 19000

# 配置入接口。

interface Route-Aggregation1023

ip binding vpn-instance vpn11

 ip address 192.168.1.254 24

# 配置出接口。

interface Route-Aggregation1021

 ip address 4.4.4.254 255.255.255.0

nat outbound port-block-group 256

# 配置vpn-instance到公网之间路由。

略。

3. 故障现象

NAT444不能正常转换、NAT444转换的报文不能正常转发、反向报文无法正常转发。

9.9.2  故障处理步骤

1. 确认NAT444的地址和端口块设置的正确性

<sysname> display nat port-block-group 256

  Port block group 256:

    Port range: 10000-19000

    Block size: 1000

    Local IP address information:

      Start address        End address          VPN instance

      192.168.1.2          192.168.1.11         vpn11

    Global IP pool information:

      Start address        End address

      4.4.5.11             4.4.5.12

2. 确认端口块数和公网地址是否满足私网地址的需求

这里,每一个私网需要的端口块的端口个数为:1000

私网地址段192.168.1.2-192.168.1.11共有10个私网地址:共需要1个地址块。

端口范围设置为:10000-19999,因此每一个公网地址可以提供9个地址块。

因此,从上面的配置分析,10个私网地址需要2个公网地址,这里的设置满足需求。

3. 通过debugging nat packet,查看nat444转换debugging信息

通过display session table ipv4 verbose命令,查看会话是否正确。

4. 查看openflow表项下发是否正确

[SYSNAME-probe] display system internal openflow instance inner flow-table

Flow entry rule 24 information:

 cookie: 0x0, priority: 7521, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Input interface: RAGG1021

 Ethernet type: 0x0800

 IP Range: IPv4 destination address from 4.4.5.11 to 4.4.5.12

Instruction information:

 Write actions:

  Output interface: Blade2/10/0/1

 

Flow entry rule 25 information:

 cookie: 0x0, priority: 7500, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Ethernet type: 0x0800

 IP Range: IPv4 source address   from 192.168.1.2 to 192.168.1.11

 VRF index: 16

[SYSNAME] display ip vpn-instance instance-name

Instruction information:

 Write actions:

 Output interface: Blade2/10/0/1

 

Flow entry rule 26 information:

 cookie: 0x0, priority: 7501, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Ethernet type: 0x0800

 IP Range: IPv4 destination address from 192.168.1.2 to 192.168.1.11

 VRF index: 16

Instruction information:

 Write actions:

 Output interface: Blade2/10/0/1

分析:我们可以看到下发了三条openflow,对于静态nat444来说,所有的openflow都是下发到主板卡上去的。

可以通过 display blade-controller-team default 这条命令可以用来查看哪块是主板卡,如下:

 

<M9KS-2>display blade-controller-team Default

ID: 1    Name: Default

  Chassis    Slot    CPU    Status    LBGroupID

  2          3       1      Normal        1

* 2          4       1      Normal        1

 

* : Primary blade controller of the team.

 

下面分析一下三条openflow

(1)      IP Range:IPv4 destination address from 4.4.5.11 to 4.4.5.11

这一条指明了从pc2 回到pc1的流量(经过nat转换之后的地址)该上送到哪块板卡上。

(2)      IP Range:IPv4 source address from 192.168.1.2 to 192.168.1.2

这一条指明了从PC1PC2的流量该上送到哪块板卡上。

(3)      IP Range:IPv4 destination address from 192.168.1.2 to 192.168.1.2

大家对这条openflow可能会不理解,觉得这条openflow为什么要下发呢?其实此时如果要是有一个PC3(和pc1同网侧)想要访问PC1,那么PC3访问PC1的流量该上送到哪块板卡呢?由于第二条openflow的存在,PC1的流量肯定上送到主板卡,如果PC3访问PC1的流量没有上送到主板卡,而上送到别的板卡上去了,那么PC1此时就没法访问PC3了。

通过会话和openflow下刷表项的对比,如果存在不一致的地方,NAT444转换可能存在异常。如果这些都解决不了问题。请联系技术支持人员进行分析。

9.10  设备作为出口网关设备,NAT业务不通,但是接口地址可以ping

9.10.1  故障描述

FW作为出口网关设备,内网部分用户无法上网,外网用户无法访问内网服务器,但是从外网ping出接口的地址可以ping通。

9.10.2  故障处理步骤

(1)      确定NAT地址组是否和接口地址是同一个网段:

(2)      如果NAT地址组的地址和配置NAT的接口地址不在同一网段,NAT地址池的地址无法响应。如果不在同一网段,要确保对端设置了NAT地址组的路由。

(3)      如果地址组中的地址或NAT Server地址和接口在同一网段,确认地址组中的地址或者NAT Server地址是否发送了免费arp,可以通过直连对端设备进行确认。还需要确认对端学习到的arpmac地址的正确性:

(4)      设备上线时,对端设备需要更新ARP。当两端不是直连,对端设备不能感知到链路Down过,所以不能删除相关ARP表项。当设备上线后,本端接口会发送接口地址的免费ARP,对端设备收到该免费ARP后可以正常更新该ARP表项;但可能存在地址池中的地址ARP没有刷新。

(5)      在防火墙上debug或者抓包分析,是否ping报文只有发出去的而没有回来的,存在转发异常的情况。

(6)      在对端设备上持续地ping NAT地址组或者NAT Server的地址,打开arpdebug开关,确认是否没有收到arp请求报文。

(7)      如果无法确认定位,请联系技术支持人员进行分析。

9.11  故障诊断命令

命令

说明

display nat outbound

显示nat outbound设置信息

display nat server

显示nat server设置信息及状态

display session

显示会话信息

save

将当前配置保存到指定文件

 

10 AFT类故障处理

10.1  IPv6访问IPv4(以源地址动态转换,目的地址静态转换为例)

10.1.1  故障描述

1. 组网需求

PC1访问PC2。在Device上,通过IPv4IPv6源地址静态转换策略,为目的IPv4地址指定一个对应的IPv6地址23::1PC1访问该IPv6地址便可以访问PC2

对于PC1,通过IPv6IPv4的源地址动态转换策略,将IPv6发送过来的IPV6报文源地址转换为IPv4地址30.30.40.100

2. Device配置

acl ipv6 number 2000

 rule 0 permit source 1:1::1/128

#

aft address-group 0

 address 30.30.40.100 30.30.40.100

#

aft v6tov4 source acl ipv6 number 2000 address-group 0

#

aft v4tov6 source 1.1.1.1 23::1

#

interface Route-Aggregation10.900

 aft enable

interface Route-Aggregation10.901

 aft enable

3. 故障现象

AFT不能正常转换或者AFT转换的报文不能正常转发。

10.1.2  故障处理步骤

10.2  故障诊断命令

1. 首先确认AFT配置是否正确

Display aft configuration查看设备上AFT的配置。在Device上,流量入接口和出接口都需要开启aft功能(aft enable)。

[SYSNAME]dis aft configuration

aft address-group 0

 address 30.30.40.100 30.30.40.100

 

aft v6tov4 source acl ipv6 number 2000 address-group 0

 

aft v4tov6 source 1.1.1.1 23::1

 

interface Route-Aggregation10.900

 aft enable

interface Route-Aggregation10.901

 aft enable

 

AFT ALG:

  DNS        : Enabled

  FTP        : Enabled

  HTTP       : Enabled

  ICMP-ERROR : Enabled

  RTSP       : Enabled

  SIP        : Enabled

2. Debugging AFT 事件查看AFT是否正常转换

<sysname>debugging aft packet ip

Dec 16 15:08:22:697 2020 H3C AFT/7/COMMON: -Slot=6.1;

 PACKET: (Route-Aggregation10.900) Protocol: UDP

 1.1.1.1/69 - 30.30.40.100/1128(VPN:0) ------>

 23::1/69 – 1:1::1/35017(VPN:0)

<sysname>debugging aft packet ipv6

Dec 16 15:09:13:696 2020 H3C AFT/7/COMMON: -Slot=6.1;

 PACKET: (Route-Aggregation10.901) Protocol: UDP

 1:1::1/6677 - 23::1/5060(VPN:0) ------>

 30.30.40.100/1149 - 1.1.1.1/5060(VPN:0)

注:如果以上信息,表示IPv4IPv6已经进行了AFT转换。

3. 查看openflow表项,确认流表下发是否正常

[SYSNAME-probe]dis system internal openflow instance inner-redirect flow-table

Flow entry 3305 information:

 cookie: 0x0, priority: 5045, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Input interface: RAGG10

 VLAN ID: 900, mask: 0xfff

 IP Range: IPv4 destination address from 30.30.40.100 to 30.30.40.100

Instruction information:

 Write actions:

  Group: 4026531857

 

Flow entry 3306 information:

 cookie: 0x0, priority: 5045, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Input interface: RAGG10

 VLAN ID: 4094, mask: 0xfff

 IP Range: IPv4 destination address from 30.30.40.100 to 30.30.40.100

Instruction information:

 Write actions:

  Group: 4026531857

 

Flow entry 3307 information:

 cookie: 0x0, priority: 5080, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 IPv4 source address: 1.1.1.1, mask: 255.255.255.255

Instruction information:

 Write actions:

  Group: 4026531865

 

Flow entry 3308 information:

 cookie: 0x0, priority: 5085, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 IPv4 destination address: 1.1.1.1, mask: 255.255.255.255

Instruction information:

 Write actions:

  Group: 4026531865

 

Flow entry 3309 information:

 cookie: 0x0, priority: 7085, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Input interface: RAGG10

 VLAN ID: 900, mask: 0xfff

 IPv6 destination address: 23::1

 IPv6 destination address mask: FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF

Instruction information:

 Write actions:

  Group: 4026531865

 

Flow entry 3310 information:

 cookie: 0x0, priority: 7085, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Input interface: RAGG10

 VLAN ID: 4094, mask: 0xfff

 IPv6 destination address: 23::1

 IPv6 destination address mask: FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF

Instruction information:

 Write actions:

  Group: 4026531865

注:对于AFT静态转换,需要关注流表下发是否正常。

如果上述定位手段均不能作出结论,请联系相关技术支持人员协助分析

11 IPsec/IKE类故障处理

11.1  IPsec SA可以成功建立,但是IPsec保护的流量不通

11.1.1  故障描述

图5  组网图

 

1. 组网需求

Device 1Device 2 两台防火墙设备之间建立IPsec隧道,对PC1PC2之间访问的流量进行IPsec保护

(1)    配置描述:

·              Device 1上,ikelocal-address为:9.9.9.9remote-address为:9.9.9.19,安全acl规则为:

rule 0 permit ip source 151.1.0.0 0.0.255.255 destination 152.2.0.0 0.0.255.255

·              Device 2上,ikelocal-address为:9.9.9.19 remote-address为:9.9.9.9,安全acl规则为:

rule 0 permit ip source 152.2.0.0 0.0.255.255 destination 151.1.0.0 0.0.255.255

11.1.2  故障描述

ike saipsec sa都可以建立,但是PC1 PC2互相ping,均不能ping通。

11.1.3  故障处理步骤(以分析M9000-1为例)

1. Device 1上,首先查看ike saipsec sa是否正确,如下:

查看ike sa

[sysname]dis ike sa

    Connection-ID   Remote                Flag         DOI

------------------------------------------------------------------

    1               9.9.9.9               RD           IPsec

Flags:

RD--READY RL--REPLACED FD-FADING RK-REKEY

查看ipsec sa

[sysname]dis ipsec sa

-------------------------------

Interface: Ten-GigabitEthernet8/2/20

-------------------------------

 

  -----------------------------

  IPsec policy: ipsec

  Sequence number: 1

  Mode: ISAKMP

  Flow table status: Active

  -----------------------------

    Tunnel id: 0

    Encapsulation mode: tunnel

    Perfect Forward Secrecy:

    Inside VPN:

    Extended Sequence Numbers enable: N

    Traffic Flow Confidentiality enable: N

    Path MTU: 1428

    Tunnel:

        local  address: 9.9.9.19

        remote address: 9.9.9.9

    Flow:

        sour addr: 152.2.0.0/255.255.0.0  port: 0  protocol: ip

        dest addr: 151.1.0.0/255.255.0.0  port: 0  protocol: ip

 

    [Inbound ESP SAs]

      SPI: 42602698 (0x028a10ca)

      Connection ID: 4294967296

      Transform set: ESP-ENCRYPT-AES-CBC-128 ESP-AUTH-SHA1

      SA idle time: 86400

      SA duration (kilobytes/sec): 1843200/3600

      SA remaining duration (kilobytes/sec): 1843199/3154

      Max received sequence-number: 4

      Anti-replay check enable: Y

      Anti-replay window size: 64

      UDP encapsulation used for NAT traversal: N

      Status: Active

 

    [Outbound ESP SAs]

      SPI: 3182510800 (0xbdb142d0)

      Connection ID: 4294967297

      Transform set: ESP-ENCRYPT-AES-CBC-128 ESP-AUTH-SHA1

      SA idle time: 86400

      SA duration (kilobytes/sec): 1843200/3600

      SA remaining duration (kilobytes/sec): 1843199/3154

      Max sent sequence-number: 4

      UDP encapsulation used for NAT traversal: N

      Status: Active

2. 查看Device 2接口板的openflow是否正确下发

[sysname-probe]display  system internal  openflow  instance  inner-redirect flow-tab

le

Instance 4097 flow table information:

Flow entry 41 information:

 cookie: 0x0, priority: 8102, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Ethernet type: 0x0800

 IP protocol: 50

 IPv4 source address: 9.9.9.19, mask: 255.255.255.255

 IPv4 destination address: 9.9.9.9, mask: 255.255.255.255

 VRF index: 0

Instruction information:

 Write actions:

  Group: 4026531873

 

Flow entry 42 information:

 cookie: 0x0, priority: 8300, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 IPv4 source address: 151.1.0.0, mask: 255.255.0.0

 IPv4 destination address: 152.2.0.0, mask: 255.255.0.0

Instruction information:

 Write actions:

  Group: 4026531873

IPsec openflow是在一阶段、二阶段后协商成功后才会下发,会下发两条规则,所下的规则如下:

(1)      对于解密方向,只能看到隧道头中的地址,所以要用隧道的源地址和目的地址来下引流规则:

接口索引 + 隧道源地址 + 隧道目的地址。

(2)      对于加密方向,由于是明文,可以知道流的源地址和目的地址,所以用ACL流信息来下引流规则。

如果IPSec SA正常建立,但是IPSec openflow没有正常下发,就会出现ping不通的现象。

3. 如果接口板的openflow表项正常,需要查看业务板openflow下发是否正常

[sysname-probe]display  system internal  openflow  instance  inner flow-table

Instance 4096 flow table information:

Flow entry 21 information:

 cookie: 0x0, priority: 8102, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Ethernet type: 0x0800

 IP protocol: 50

 IPv4 source address: 9.9.9.19, mask: 255.255.255.255

 IPv4 destination address: 9.9.9.9, mask: 255.255.255.255

 VRF index: 0

Instruction information:

 Write actions:

  Group: 4026531873

 

Flow entry 22 information:

 cookie: 0x0, priority: 8300, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Ethernet type: 0x0800

 IPv4 source address: 151.1.0.0, mask: 255.255.0.0

 IPv4 destination address: 152.2.0.0, mask: 255.255.0.0

Instruction information:

 Write actions:

  Group: 4026531873

如果上述都没有发现问题,可以reset ipsec sareset ike sa;重新建立SA,看是否正常。如果无法解决问题,请联系技术支持人员。

11.1.4  故障诊断命令

命令

说明

display ike sa

显示IKE SA的信息

display ipsec sa

显示IPsec SA的信息

reset  ike sa

清除IKE SA

reset  ipsec sa

清除IPsec SA

save

将当前配置保存到指定文件

 

11.2  IPsec的防火墙端为2M9000主备堆叠,在IRF主设备down掉后,IPsec出现异常

11.2.1  故障描述

图6  组网图

 

1. 组网需求

Device 1Device 2组成主备堆叠设备,Device 1Master。防火墙FW和堆叠设备建立IPsec隧道,保护PC1PC2之间的交互流量。

2. 故障描述

IPsec加密流量主要走IRF主设备Device 1,但当Device 1出故障down掉后,发现PC1PC2不能再ping通。

11.2.2  故障处理步骤

(1)      IRF设备Device 2上,首先查看ike saIPsec SA是否正常建立。如果sa没有成功建立,需要在Device 2设备上查看IPsec相关的openflow表项,通过如下命令:

display  system internal  openflow  instance  inner-redirect flow-tab

le

display  system internal  openflow  instance  inner flow-table

如果出现如下信息:

[sysname-probe]display  system internal  openflow  instance  inner-redirect flow-tab

le

Instance 4097 flow table information:

Flow entry 41 information:

 cookie: 0x0, priority: 8102, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 Ethernet type: 0x0800

 IP protocol: 50

 IPv4 source address: 9.9.9.19, mask: 255.255.255.255

 IPv4 destination address: 9.9.9.9, mask: 255.255.255.255

 VRF index: 0

Instruction information:

 Write actions:

  Group: 4026531873

 

Flow entry 42 information:

 cookie: 0x0, priority: 8300, hard time: 0, idle time: 0, flags: check_overlap

 |reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --

Match information:

 IPv4 source address: 151.1.0.0, mask: 255.255.0.0

 IPv4 destination address: 152.2.0.0, mask: 255.255.0.0

Instruction information:

 Write actions:

可以看出,IPsec SA虽然没有建立起来,但是,IPsec openflow表项仍存在。说明存在openflow表项存在异常。信息中,Group: 4026531873 表明SA的出端口仍为已经down掉的Device 1上的端口,说明openflow表项没有随着主设备的down掉而删除,导致无法建立正常的SA

(2)      对主备切换,如果处理IPsec业务的业务板或者堆叠主机down掉,IPsec SA会重新建立。需要确认当前存在的IPsec SA是否是重新建立的。

(3)      如果SA已经成功建立,并且openflow表项正确下了。可以尝试reset ipsec sareset ike sa命令,尝试重新建立IPsec SA

(4)      打开debugging ipsecdebugging ike相关debug命令,进行调试定位。

(5)      如果上述手段均无法定位,请联系相关技术支持人员进行分析。

11.2.3  故障诊断命令

命令

说明

display ike sa

显示ike sa的信息

display ipsec sa

显示ipsec sa的信息

display system internal openflow instance

显示openflow表项信息

reset  ike sa

清除ike sa

reset  ipsec sa

清除ipsec sa

save

将当前配置保存到指定文件

 

11.3  IKE SA可以成功建立,但是IPsec SA未能建立成功

11.3.1  故障描述

 

(1)    组网需求:

Device 1Device 2 两台防火墙设备之间建立IPsec隧道,对PC1PC2之间访问的流量进行IPsec保护。

(2)    配置描述:

Device 1上,IKElocal-address为:81.2.0.1 remote-address为:14.5.1.1

安全ACL规则为:

rule 0 permit ip source 81.2.0.0 0.0.0.255 destination 82.2.0.0 0.0.0.255

Device 2上,IKElocal-address为:14.5.1.1 remote-address为:81.2.0.1

安全ACL规则为:

rule 0 permit ip source 82.2.0.0 0.0.0.255 destination 81.2.0.0 0.0.0.255

(3)    故障描述:IKE SA可以建立,但IPsec SA未能建立。

11.3.2  故障处理步骤

(1)      首先查看保护的ACL是否有匹配次数统计来检查ACL是否匹配,和用户要保护的流量是否一致。

(2)      如果保护的ACL有匹配次数,且ACL和用户要保护的流量一致,再检查两端FW的算法是否一致,主要有安全协议、加密和验证算法、封装模式是否一致;若算法一致,请排查是否有错误或不完整的配置,比如:缺少或配错对端地址、缺少或配错ike 策略。

(3)      如果上述都没有发现问题,可以使用命令reset ipsec sareset ike sa清除IPsec SAIKE SA;重新建立SA,看是否正常。如果无法解决问题,请联系技术支持人员。

11.4  故障诊断命令

命令

说明

display ike sa

显示IKE SA的信息

display ipsec sa

显示IPsec SA的信息

reset  ike sa

清除IKE SA

reset  ipsec sa

清除IPsec SA

display ipsec transform-set

显示IPsec安全提议的信息

display ipsec policy 

显示IPsec安全策略的信息

save

将当前配置保存到指定文件

 

11.5  IKE SA未能成功建立

11.5.1  故障描述

 

(1)    组网需求:

Device 1Device 2 两台防火墙设备之间建立IPsec隧道,对PC1PC2之间访问的流量进行IPsec保护。

(2)    配置描述:

Device 1上,IKElocal-address为:81.2.0.1 remote-address为:14.5.1.1

安全ACL规则为:

rule 0 permit ip source 81.2.0.0 0.0.0.255 destination 82.2.0.0 0.0.0.255

Device 2上,IKElocal-address为:14.5.1.1 remote-address为:81.2.0.1

安全ACL规则为:

rule 0 permit ip source 82.2.0.0 0.0.0.255 destination 81.2.0.0 0.0.0.255

(3)    故障描述:IKE SA未能建立。

11.5.2  故障处理步骤

(1)      查看两端FW的提议是否匹配:加密算法和验证算法是否匹配;身份认证方法是否匹配;

(2)      查看身份验证是否成功,主要查看两端FW预共享密钥配置是否相同;若是证书验证的话,关注证书是否过期、证书是否有可信CA、证书是否被吊销、两端证书的密钥是否匹配、两端证书是否为同一个CA签发;还有常见的情况是对端身份冲突,请查看是否有多个ike 策略的remote规则相同。

(3)      如果上述查看未能发现问题所在,无法解决问题,请联系技术支持人员。

11.6  故障诊断命令

命令

说明

display ike sa

显示IKE SA的信息

display ipsec sa

显示IPsec SA的信息

reset  ike sa

清除IKE SA

reset  ipsec sa

清除IPsec SA

display ike proposal

显示所有IKE提议的配置信息

save

将当前配置保存到指定文件

 

11.7  IPsec智能选路,链路不检测

11.7.1  故障描述

 

(1)    组网需求:

企业分支使用IPsec VPN接入企业总部,通过在分支Device A上配置IPsec智能选路功能,实现IPsec隧道在Link 1Link 2两条链路上动态切换,具体需求如下:

a.   Device A首先使用Link1与总部建立IPSec隧道。

b.   当基于Link1建立的IPSec隧道丢包严重或时延过高时,能自动切换到Link2建立新的IPSec隧道。

(2)    配置描述:

分支Device A上:

配置接口IP地址和网关地址,1.1.1.32.2.2.3为本例中的直连下一跳地址:

<DeviceA> system-view

[DeviceA] interface gigabitethernet 1/0/1

[DeviceA-GigabitEthernet1/0/1] ip address 1.1.1.1 24

[DeviceA-GigabitEthernet1/0/1] gateway 1.1.1.3

[DeviceA-GigabitEthernet1/0/1] quit

[DeviceA] interface gigabitethernet 1/0/2

[DeviceA-GigabitEthernet1/0/2] ip address 2.2.2.2 24

[DeviceA-GigabitEthernet1/0/2] gateway 2.2.2.3

[DeviceA-GigabitEthernet1/0/2] quit

配置IPsec智能选路策略

# 配置一个IPsec智能选路策略名称为policy1,添加链路。

[DeviceA] ipsec smart-link policy policy1

[DeviceA-ipsec-smart-link-policy-policy1] link 1 interface gigabitethernet 1/0/1 remote 3.3.3.3

[DeviceA-ipsec-smart-link-policy-policy1] link 2 interface gigabitethernet 1/0/2 remote 3.3.3.3

# 设置链路循环切换的最大次数为4

[DeviceA-ipsec-smart-link-policy-policy1] link-switch cycles 4

# 开启IPsec智能选路功能。

[DeviceA-ipsec-smart-link-policy-policy1] smart-link enable

[DeviceA-ipsec-smart-link-policy-policy1] quit

总部Device B上:

配置接口的IP地址

<DeviceB> system-view

[DeviceB] interface gigabitethernet 1/0/1

[DeviceB-GigabitEthernet1/0/1] ip address 3.3.3.3 24

[DeviceB-GigabitEthernet1/0/1] quit

配置一个IPv4ACL,定义要保护的数据流

[DeviceB] acl advanced 3000

[DeviceB-acl-ipv4-adv-3000] rule permit ip source 10.1.2.0 0.0.0.255 destination 10.1.1.0 0.0.0.255

[DeviceB-acl-ipv4-adv-3000] rule permit ip source 3.3.3.0 0.0.0.255 destination 1.1.1.0 0.0.0.255

[DeviceB-acl-ipv4-adv-3000] rule permit ip source 3.3.3.0 0.0.0.255 destination 2.2.2.0 0.0.0.255

[DeviceB-acl-ipv4-adv-3000] quit

配置到达Device A所在子网的静态路由。3.3.3.1为本例中的直连下一跳地址:

[DeviceB] ip route-static 10.1.1.0 255.255.255.0 gigabitethernet 1/0/1 3.3.3.1

[DeviceB] ip route-static 1.1.1.0 255.255.255.0 gigabitethernet 1/0/1 3.3.3.1

[DeviceB] ip route-static 2.2.2.0 255.255.255.0 gigabitethernet 1/0/1 3.3.3.1

(3)      故障描述:智能选路不探测。

11.7.2  故障处理步骤

(1)      查看是否缺少有效链路,比如接口地址缺少未配、接口DOWNUP

(2)      查看配置是否完整:IPsec策略是否应用智能选路、是否缺少路由下一跳;

(3)      若上述查看未见问题,请继续排查IPsec策略相关配置是否齐全和正确;

(4)      如果问题仍未解决,请调大探测轮数,以排除探测达到最大轮数的原因;

(5)      如果上述查看未能发现问题所在,无法解决问题,请联系技术支持人员。

11.8  故障诊断命令

命令

说明

display ike sa

显示IKE SA的信息

display ipsec sa

显示IPsec SA的信息

reset  ike sa

清除IKE SA

reset  ipsec sa

清除IPsec SA

display ipsec smart-link policy

查看IPsec智能选路策略的配置信息

display ipsec policy

可以查看到IPsec安全策略引用IPsec智能选路策略

display acl 3000

可以查看动态生成的ACL规则

save

将当前配置保存到指定文件

 

11.9  IPsec隧道保护隧道接口上的报文,隧道未建立成功

11.9.1  故障描述

 

(1)      组网需求:

某企业分支和总部均使用固定的IP地址接入Internet

a.   企业分支与企业总部之间的所有流量通过IPsec安全隧道进行传送;

b.   当企业分支的私网IP地址段调整时,不需要改变企业总部网关的IPsec配置。

为实现如上组网需求,可采用如下配置思路实现:

c.   Device ADevice B之间使用IPsec隧道接口建立IPsec连接,将发送给对端私网的数据流路

d.   由到IPsec虚拟隧道接口上,由IPsec虚拟隧道接口上动态协商建立的IPsec安全隧道对分支子网;

e.   10.1.1.0/24)与总部子网(10.1.2.0/24)之间的所有数据流进行安全保护。

(2)      配置描述:

Device A上:

配置IPsec隧道接口

# 创建模式为IPsec隧道的接口Tunnel1

[DeviceA] interface tunnel 1 mode ipsec

# 配置Tunnel1接口的IP地址。

[DeviceA-Tunnel1] ip address 3.3.3.1 255.255.255.0

# 配置Tunnel1接口的源端地址(GE1/0/2接口的IP地址)。

[DeviceA-Tunnel1] source 2.2.2.1

# 配置Tunnel1接口的目的端地址(DeviceBGE1/0/2接口的IP地址)。

[DeviceA-Tunnel1] destination 2.2.3.1

# IPsec隧道接口上应用IPsec安全框架。

[DeviceA-Tunnel1] tunnel protection ipsec profile abc

[DeviceA-Tunnel1] quit

配置Device ADevice B的静态路由。

[DeviceA] ip route-static 10.1.2.0 255.255.255.0 tunnel 1

Device B上:

配置IPsec隧道接口

# 创建模式为IPsec隧道的接口Tunnel1

[DeviceB] interface tunnel 1 mode ipsec

# 配置Tunnel1接口的IP地址。

[DeviceB-Tunnel1] ip address 3.3.3.2 255.255.255.0

# 配置Tunnel1接口的源端地址(GE1/0/2接口的IP地址)。

[DeviceB-Tunnel1] source 2.2.3.1

# 配置Tunnel1接口的目的端地址(DeviceBGE1/0/2接口的IP地址)。

[DeviceB-Tunnel1] destination 2.2.2.1

# IPsec隧道接口上应用IPsec安全框架。

[DeviceB-Tunnel1] tunnel protection ipsec profile abc

[DeviceB-Tunnel1] quit

配置Device BDevice A的静态路由。

[DeviceB] ip route-static 10.1.1.0 255.255.255.0 tunnel 1

(3)      故障描述:IPsec隧道未能建立

11.9.2  故障处理步骤

(1)      查看两端FW中的Tunnel口是否异常,若为DOWN状态,请首先检查Tunnel配置是否完整:是否配置了Source、是否配置了Destination(可能配置时配成了Description)、是否配置了IP地址

(2)      Tunnel口配置无问题,请检查Tunnel源物理口是否UPTunnel目的地址是否可达;

(3)      Tunnel口检查完毕后,若问题依然存在,请排查IPsecIKE基础配置是否正确;

(4)      如果上述操作,未能发现问题所在,无法解决问题,请联系技术支持人员。

11.10  故障诊断命令

命令

说明

display ike sa

显示IKE SA的信息

display ipsec sa

显示IPsec SA的信息

reset  ike sa

清除IKE SA

reset  ipsec sa

清除IPsec SA

display ip interface brief

查看接口状态

display interface Tunnel 1

查看隧道状态

save

将当前配置保存到指定文件

 

12 负载均衡故障处理

12.1  四层服务器负载均衡,虚服务和实服务都处于active状态,客户端发往服务器的流量不通

12.1.1  故障描述

图7  组网图

 

1. 组网需求:

三台物理服务器Server AServer BServer C均可提供FTP服务,且这三台服务器的硬件配置顺次降低。通过配置负载均衡,在考虑硬件性能的前提下让这三台服务器联合提供FTP服务,并通过健康检测来监控这些服务器是否可达。

(1)      配置实服务组

# 创建ICMP类型的NQA模板t1

#

nqa template icmp t1

#

# 创建实服务组sf,配置其调度算法为加权轮转算法,并指定其健康检测方法为t1

#

server-farm sf

 probe t1

#

(2)      配置实服务器

# 创建实服务器rs1,配置其IPv4地址为192.168.1.1、权值为150,并加入实服务组sf

#

real-server rs1

 ip address 192.168.1.1

 weight 150

 server-farm sf

#

# 创建实服务器rs2,配置其IPv4地址为192.168.1.2、权值为120,并加入实服务组sf

#

real-server rs2

 ip address 192.168.1.2

 weight 120

 server-farm sf

#

# 创建实服务器rs3,配置其IPv4地址为192.168.1.3、权值为80,并加入实服务组sf

#

real-server rs3

 ip address 192.168.1.3

 weight 80

 server-farm sf

#

(3)      配置虚服务器

# 创建TCP类型的虚服务器vs,配置其VSIP61.159.4.100,指定其默认实服务组为sf,并开启此虚服务。

#

virtual-server vs type tcp

 virtual ip address 61.159.4.100

 default server-farm sf

 service enable

#

12.1.2  故障描述

虚服务vs和实服务rs1rs2rs3都处于active状态,但是host访问虚服务地址不能成功。

12.1.3  故障处理步骤

(1)      首先查看LB设备上虚服务是否有统计来确定HostLB设备之间是否可达,并查看虚服务是否有丢包统计,如下:

如果虚服务没有统计,则客户端到LB设备不可达,确保客户端和LB设备可达后再查看是否正常;如果虚服务有统计且有丢包统计,开启LBdebug或者在客户端抓包分析。

查看虚服务vs统计:

[LB] display virtual-server statistics name vs

Slot 1:

Virtual server: vs

    Total connections: 10

    Active connections: 3

    Max connections: 3

    Connections per second: 0

    Max connections per second: 1

    Client input: 3210 bytes

    Client output: 14074 bytes

    Throughput: 0 bytes/s

    Max throughput: 7554 bytes/s

    Received packets: 1365

    Sent packets: 2796

Dropped packets: 0

(2)      如果上述虚服务统计正常且没有丢包统计,再查看实服务组中所有实服务器是否有丢包统计,如下:

如果实服务器有丢包统计,开启LBdebug或者在响应服务器端抓包分析,以确定相应实服务器和LB设备之间的链路是否可达,相应实服务器的服务或者服务端口是否开启。

查看实服务统计:

[LB] display real-server statistics name rs1

Slot 1:

Real server: rs1

    Total connections: 5

    Active connections: 1

    Max connections: 1

    Connections per second: 0

    Max connections per second: 1

    Server input: 307462 bytes

    Server output: 27460 bytes

    Throughput: 0 bytes/s

    Max throughput: 316457 bytes/s

    Received packets: 319

    Sent packets: 236

    Dropped packets: 0

    Received requests: 0

    Dropped requests: 0

    Sent responses: 0

Dropped responses: 0

 

[LB]display real-server statistics name rs2

Slot 1:

Real server: rs2

    Total connections: 2

    Active connections: 1

    Max connections: 1

    Connections per second: 0

    Max connections per second: 1

   Server input: 870147 bytes

    Server output: 45163 bytes

    Throughput: 0 bytes/s

    Max throughput: 580348 bytes/s

    Received packets: 748

    Sent packets: 511

    Dropped packets: 0

    Received requests: 0

    Dropped requests: 0

    Sent responses: 0

Dropped responses: 0

 

[LB]display real-server statistics name rs3

Slot 1:

Real server: rs3

    Total connections: 2

    Active connections: 1

    Max connections: 1

    Connections per second: 0

    Max connections per second: 1

   Server input: 870147 bytes

    Server output: 45163 bytes

    Throughput: 0 bytes/s

    Max throughput: 580348 bytes/s

    Received packets: 178

    Sent packets: 311

    Dropped packets: 0

    Received requests: 0

    Dropped requests: 0

    Sent responses: 0

    Dropped responses: 0

如果上述都没有发现问题,可以开启LBdebug,从debug信息来分析出现故障的位置。如果无法解决问题,请联系技术支持人员。

12.2  CPU/内存较高时对负载均衡的影响

12.2.1  故障描述

CPU高,内存高,负载均衡功能影响:虚服务有丢包、NQA探测失败或者震荡、新请求失败、并发性能无法提升。

12.2.2  故障处理步骤

(1)      查看实服务的状态,CPU高可能导致NQA探测失败或者震荡,此时虚服务器会有丢包。

(2)      内存高会导致并发上不去,新请求会失败。

12.3  故障诊断命令

命令

说明

display virtual-server statistics

显示虚服务的统计信息

display real-server statistics

显示实服务器的统计信息

debugging lb all

开启LB的所有调试信息

debugging lb error

开启LB的错误调试信息

debugging lb event

开启LB的事件调试信息

debugging lb fsm

开启LB的状态机调试信息

debugging lb packet

开启LB的报文调试信息

 

12.4  负载分担不均匀时如何排查优化

12.4.1  故障描述

发现负载均衡分担不均匀时,如何排查并进行优化。

12.4.2  故障处理步骤

(1)      可以查看各个实服务器的统计信息是否均匀。如果想让各个服务器均匀的分担一般用轮转的调度算法,将客户端请求均匀分担到多个实服务器。

(2)      LB插卡是多核CPU系统,每个核单独按照自己的表项进行轮转,所以全局来看,有可能出现每个实服务分到的连接数不均衡的问题。请考虑修改调度算法为最小连接或者随机等观察一下。

(3)      源地址HASH算法流量不均匀,请确认源地址个数是否足够。

(4)      通过配置负载均衡策略,进行更精细的分类,将请求进行分类送给哪些服务器,尽量满足用户实际需求:对于特殊业务,服务器的状态,需要依据实际环境进行调整。

12.5  故障诊断命令

配置

命令

显示实服务器的统计信息

display real-server statistics [ name real-server-name ]

显示虚服务器的统计信息

display virtual-server statistics [ name virtual-server-name ]

清除实服务器的统计信息

reset real-server statistics [ real-server-name ]

清除虚服务器的统计信息

reset virtual-server statistics [ virtual-server-name ]

 

13 系统管理维护类故障处理

13.1  CPU占用

13.1.1  故障描述

设备CPU占用率持续在60%以上,下发命令时设备反应很慢。

<sysname> display cpu-usage

Slot 1 CPU 0 CPU usage:

      13% in last 5 seconds

      13% in last 1 minute

      13% in last 5 minutes

通过display cpu-usage history可以查看单板最近60分钟的CPU占用情况。

<sysname> display cpu-usage history

100%|

 95%|

 90%|

 85%|

 80%|

 75%|

 70%|

 65%|

 60%|

 55%|

 50%|

 45%|

 40%|

 35%|

 30%|

 25%|

 20%|

 15%|

 10%|

  5%|    #

     ------------------------------------------------------------

              10        20        30        40        50        60  (minutes)

                   cpu-usage (CPU 0) last 60 minutes (SYSTEM)

13.1.2  故障处理步骤

CPU占用率高的原因通常有:

·              路由震荡

·              配置过多的路由策略

·              报文攻击

·              链路环路

·              报文没有走快转

·              接口没有加入安全域或者没有安全策略,大量报文在设备上丢弃

·              打开了Debugging调试开关

·              对象策略/ACL未开加速

·              对象组地址中存在排除地址或者非连续掩码

·              静态Nat444端口块资源不足

·              大量广播/组播报文上送

·              突发流量导致CPU

1. 路由策略排查

通过display route-policy命令可以查看设备配置的路由策略请检查配置的路由策略是否过多导致CPU处理的负担增加。

<sysname> display route-policy

Route-policy: policy1

  permit : 1

          if-match cost 10

          continue: next node 11

          apply comm-list a delete

2. 链路环路排查

链路成环时,网络震荡,大量的协议报文上送CPU处理也可能导致CPU占用率升高。存在环路时流量成环,可能会出现广播,设备很多端口的流量会变得很大,端口使用率达到90%以上:

<sysname> display interface GigabitEthernet1/0/2

GigabitEthernet1/0/2 current state: UP

Line protocol current state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0000-e80d-c000

Description: GigabitEthernet2/6/0/1 Interface

Loopback is not set

Media type is optical fiber, Port hardware type is 1000_BASE_SX_SFP

1000Mbps-speed mode, full-duplex mode

……

Last clearing of counters: Never

 Peak value of input: 123241940 bytes/sec, at 2013-06-27 14:33:15

 Peak value of output: 80 bytes/sec, at 2013-06-27 14:13:00

 Last 300 second input:  26560 packets/sec 123241940 bytes/sec 99%

 Last 300 second output:  0 packets/sec 80 bytes/sec 0%

……

如链路出现环路:

·              排查链路连接、端口配置是否正确

·              设备对接的交换机是否使能STP协议,配置是否正确

·              设备路由是否设置正确,是否存在路由环路。

3. 报文是否走快转排查

可以通过display ip fast-forwarding cache命令来确定报文是否走快转,如果cache表项中不存在该报文相关的表项,说明报文没有走快转。

<sysname> display ip fast-forwarding cache

Total number of fast-forwarding entries: 78

SIP             SPort DIP             DPort Pro Input_If    Output_If   Flg

40.1.20.2       65535 30.1.2.2        1024  6   Reth4       Reth3       1

192.168.96.40   53342 192.168.205.33  23    6   GE1/0/0     N/A         1

30.1.2.2        1024  40.1.20.2       65535 6   Reth3       Reth4       1

192.168.205.33  23    192.168.96.52   60824 6   InLoop0     GE1/0/0     1

120.0.0.1       1701  120.0.0.2       1701  17  InLoop0     GE1/0/2.120 1

40.1.20.2       65529 30.1.2.2        1024  6   Reth4       Reth3       1

130.2.1.115     1701  130.2.1.1       1701  17  Reth4       N/A         1

30.1.2.2        1024  40.1.20.2       65533 6   Reth3       Reth4       1

40.1.20.2       65526 30.1.2.2        1024  6   Reth4       Reth3       1

50.1.1.2        1024  60.1.1.2        1024  6   Reth1       Tun1        1

192.168.205.33  37932 192.168.100.53  0     1   InLoop0     GE1/0/0     1

30.1.2.2        1024  40.1.20.2       65529 6   Reth3       Reth4       1

30.1.2.2        1024  40.1.20.2       65527 6   Reth3       Reth4       1

60.1.1.2        1024  50.1.1.2        1024  6   Tun1        Reth1       1

40.1.20.2       65532 30.1.2.2        1024  6   Reth4       Reth3       1

可以根据某一个地址进行确认以该地址为源或目的IP报文是否走快转,命令如下:

<sysname> display ip fast-forwarding cache 12.1.1.1

Total number of fast-forwarding entries: 2

SIP             SPort DIP             DPort Pro Input_If    Output_If   Flg

12.1.1.2        49216 12.1.1.1        3784  17  InLoop0     N/A         1

12.1.1.1        3784  12.1.1.2        49216 17  RAGG5.3101  InLoop0     1

如果仍然无法排除故障,请将display cpu-usage命令显示信息及搜集的其他信息反馈给技术支持人员分析。

4. 对象策略/ACL未开加速

#

object-policy ip EXTERNAL-Local

 rule 0 pass vrf external_vpn

rule 1 pass vrf 7tgaklptgb9o19babgnm3kbst8

accelerate

#

如果对象策略或者ACL中存在50条以上的rule规则,但是未开启加速,会导致设备CPU高的现象,可以用命令display object-policy accelerate summary ip display acl accelerate summary 查看当前哪些对象策略和ACL已开启加速。

5. 对象组地址中存在排除地址或者非连续掩码

如果对象组地址中配置了exclude、或者不连续掩码wildcard,会存在加速失败导致设备CPU高的现象,需要删除相关的配置。

6. 静态Nat444端口块资源不足

如果客户网络中配置了静态Nat444,当网络中存在突发流量(报文源端口大量跳变,源目的IP和目的端口号均不变)时会导致Nat444端口资源耗尽。

probe视图查看 display system internal nat statistics chassis X slot X cpu 1 | in failed ,看是否有类似 NAT444 failed to translate port 计数的大量增长

如果存在上述错误计数大量增长的话,用命令 display nat port-block static c 1 s X c 1 查看是哪个地址映射占用了大量端口资源,检查该地址所在的NAT地址组配置,看当前占用的端口资源是否达到了端口资源的上限。

如果确认是端口资源达到上限的话,需要整改现场配置扩大端口块资源。

7. 大量广播/组播报文上送

检查设备物理口是否有大量广播/组播报文进入设备。相关命令如下:

display counters rate inbound interface

在上述命令回显中查看是否有 broadcasts multicasts报文计数的大量增长。

如果确认有大量广播/组播报文进入防火墙设备,需要对该报文进行qos限速,并排查该广播/组播报文的来源。

8. 突发流量导致CPU

如果上送的报文在安全策略中未放通,也会造成设备CPU高的现象。查看设备的aspf packet-drop丢包统计,看是否有大量丢包记录。相关命令如下:

[SYSNAME-probe]display system internal aspf statistics zone-pair ipv4 chassis X slot X cpu 1

[SYSNAME-probe]display system internal ip packet-drop statistics chassis X slot X cpu 1

此时可以通过下面的命令确定报文特征:

debug ip packet

debug ip info

debug aspf packet

确认报文特征后,根据需要对报文进行安全策略放行、配置攻击防范策略、QOS限速等处理。

13.2  内存占用率

13.2.1  故障描述

多次查看单板内存占用率,发现内存占用率持续偏高,始终处于70%以上(FreeRatio低于30%)。Total表示总的内存,Used表示当前使用的内存,FreeRatio表示未使用的内存占用率。

查看内存命令如下:

<sysname> display memory slot 2

The statistics about memory is measured in KB:

Slot 2:

             Total      Used      Free    Shared   Buffers    Cached   FreeRatio

Mem:      16375408   2514664  13860744         0      1396    177968       84.6%

-/+ Buffers/Cache:   2335300  14040108

Swap:           0         0         0

13.2.2  故障处理步骤

这类问题通常为软件问题引起,如内存泄露,也可能是由于会话数目、路由数目过多导致。请按照下面步骤进一步搜集信息发送给技术支持人员分析。

1. 查询单板各进程的内存使用信息

通过display process memory命令多次查询单板各进程的内存使用信息。Dynamic类型的内存为设备动态申请的,在内存出现泄露时会持续增加,通过前后比较观察可以确认哪个进程的内存占用持续增加。如果持续增加,说明该进程可能发生了泄露,请记录下进程的JID。下面以查询JID18919diagd进程为例说明。

<sysname> display process memory slot 2

   JID       Text      Data      Stack    Dynamic    Name

     1        132       700         32        156    scmd

     2          0         0          0          0    [kthreadd]

     3          0         0          0          0    [migration/0]

     4          0         0          0          0    [ksoftirqd/0]

     5          0         0          0          0    [watchdog/0]

     6          0         0          0          0    [migration/1]

     7          0         0          0          0    [ksoftirqd/1]

     8          0         0          0          0    [watchdog/1]

     9          0         0          0          0    [migration/2]

    10          0         0          0          0    [ksoftirqd/2]

    11          0         0          0          0    [watchdog/2]

    12          0         0          0          0    [migration/3]

    13          0         0          0          0    [ksoftirqd/3]

    14          0         0          0          0    [watchdog/3]

    15          0         0          0          0    [migration/4]

    16          0         0          0          0    [ksoftirqd/4]

    17          0         0          0          0    [watchdog/4]

……

    18919        128     76416         64       2240    diagd

……

2. 确认哪种字节大小的内存块发生泄露

再进一步确认JID18919diagd进程的哪种字节大小的内存块发生泄露。如下命令所示,Size表示内存块的字节大小,Total表示总的申请个数,Used表示使用数目,Free表示未使用的数目,Free Ratio表示未使用的内存块百分比。通过多次查询并比较查询值可以看出哪个Size的内存块Used个数持续增加。查询完毕后,请将搜集到的信息发送给技术支持人员分析。

Heap usage:

Size      Free      Used      Total      Free Ratio

32        541       39        580        93.3%

48        6         43        49         12.2%

64        534       32499     33033      1.6%

80        538       47        585        92.0%

112       0         534       534        0.0%

128       0         4         4          0.0%

160       0         4         4          0.0%

176       0         4         4          0.0%

256       0         2         2          0.0%

288       0         1         1          0.0%

304       0         1         1          0.0%

336       0         1         1          0.0%

688       0         4         4          0.0%

1184      0         2         2          0.0%

1456      0         2         2          0.0%

1984      0         1         1          0.0%

2032      0         2         2          0.0%

4144      0         1         1          0.0%

13792     1         0         1          100.0%

Large Memory Usage:

Used Blocks          :  0

Used Memory(in bytes):  0

Free Blocks          :  3

Free Memory(in bytes):  211200

Summary:

Total virtual memory heap space(in bytes)  :  2490368

Total physical memory heap space(in bytes) :  2293760

Total allocated memory(in bytes)           :  2170560

13.3  故障诊断命令

命令

说明

display cpu-usage

显示CPU利用率的统计信息。用于查询CPU占用率高的任务

display cpu-usage history

以图形方式显示CPU利用率统计历史信息

display interface

显示指定接口的信息。检查接口的流量是否正常

display memory

显示单板内存占用率

display process memory

显示单板各进程的内存使用信息。通过多次查询,发现可能存在内存泄露的进程

display process memory heap

显示Dynamic类型内存的详细信息,确认哪种字节大小的内存块发生了泄露

display system internal kernel memory pool

查看内核内存分配情况

 

14 SSL VPN 类故障处理

14.1  SSL VPN登录,无法打开SSL VPN页面

14.1.1  故障描述

客户端可以pingSSL VPN网关,但是无法打开SSL VPN页面。

14.1.2  故障处理步骤

(1)      首先查看SSL服务器端策略视图下是否未引用PKI域,通过以下命令查看,SSL服务器端策略下需要引用PKI域。

[SYSNAME] ssl server-policy XXX

[SYSNAME-ssl-server-policy-XXX] display this

#

ssl server-policy XXX

 pki-domain XXX

#

return

如果pki-domain 命令不存在,需要添加。

(2)      查看是否在SSL服务器策略引用的PKI域下导入了CA证书,LOCAL证书。并且保证LOCAL证书是CA服务器颁发给服务器的证书,而不是客户端证书,通过以下命令查看。

display pki certificate domain XXXX  ca

display pki certificate domain XXXX  local

(3)      如果上述都没有发现问题,可能是在SSL VPN gateway service enable之后,再进行了导入证书的操作,只要导入了证书或者SSL 策略进行了配置变化,就必须在SSL VPN gateway XXX里面进行undo service enable,然后再service enable一下便可,证书和配置才能生效。如果无法解决问题,请联系技术支持人员。

14.1.3  故障诊断命令

表14-1 故障诊断命令

命令

说明

ssl server-policy policy-name

创建SSL服务器端策略,并进入SSL服务器端策略视图

pki-domain domain-name

配置SSL服务器端策略所使用的PKI

display pki certificate domain domain-name { ca | local | peer [ serial serial-num ] }

显示证书内容

sslvpn gateway gateway-name

创建SSL VPN网关,并进入SSL VPN网关视图

service enable

开启当前的SSL VPN网关

 

14.2  浏览器无法登录SSL VPN网关

14.2.1  故障描述

浏览器可以打开SSL VPN网关页面,但是无法登录。

14.2.2  故障处理步骤

(1)      确认SSL VPN网关地址是否可达,设备允许Ping的情况下可通过Ping确认,不允许Ping的情况下可通过抓包确认。

(2)      通过查看SSL VPN网关的显示信息,确认SSL VPN网关的状态:

a.   确认SSL VPN网关是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN网关处于Up状态,否则需要在Web界面单击SSL VPN网关的使能按钮,或者在SSL VPN网关视图下执行service enable命令开启SSL VPN网关;

b.   重新配置或修改SSL服务端策略后,只有执行undo service enable命令关闭SSL VPN网关,并执行service enable命令重新开启SSL VPN网关后,新的策略才会生效

c.   SSL相关配置是否正确,缺省情况下设备使用自带的缺省证书,当需要使用非缺省证书时,可以引用SSL服务端策略。当不需要使用非缺省证书时,删除SSL服务端策略引用即可;

SSL VPN网关的显示信息如下:

[Device] display sslvpn gateway

Gateway name: gw

  Operation state: Up

  IP: 1.1.1.2  Port: 2000

  SSL server policy configured: sslnew

  SSL server policy in use: ssl

  Front VPN instance: Not configured

(3)      通过查看SSL VPN访问实例的显示信息,确认SSL VPN访问实例的状态:

a.   确认SSL VPN访问实例是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN访问实例处于Up状态,否则需要在Web界面单击SSL VPN访问实例的使能按钮,或者在SSL VPN访问实例视图下执行service enable命令开启SSL VPN访问实例

b.   确认SSL VPN访问实例是否引用了SSL VPN网关。通过查看显示信息中Associated SSL VPN gateway字段的值,若有引用的网关名称,则表示成功引用了SSL VPN网关,否则,需要在Web界面SSL VPN访问实例下引用SSL VPN网关,或者在SSL VPN访问实例视图下执行gateway命令,引用SSL VPN网关

SSL VPN访问实例的显示信息如下:

[Device] display sslvpn context

Context name: ctx

  Operation state: Up

  Associated SSL VPN gateway: gw

  SSL client policy configured: sslnew

  SSL client policy in use: ssl

(4)      确认SSL VPN网关地址和端口是否被正确侦听,需要确认每个业务板的侦听端口是否正确开启,TCP代理连接的显示信息如下:

<Device> display tcp-proxy slot 1

Local Addr:port       Foreign Addr:port     State            Service type

1.1.1.2:2000           0.0.0.0:0                    LISTEN       SSLVPN

(5)      确认SSL VPN用户是否配置正确:

a.   本地用户:确保用户类型为网络接入类,服务类型为SSL VPN,且为SSL VPN用户配置资源组。

b.   远程用户:确保远程认证服务器上用户隶属的用户组,已在SSL VPN访问实例中配置对应名称的资源组。

(6)      若开启了客户端和服务器端证书认证,确保两端已正确安装证书。

14.2.3  故障诊断命令

表14-2 故障诊断命令

命令

说明

display tcp-proxy

显示TCP代理连接的简要信息

display sslvpn context

显示SSL VPN访问实例的信息

display sslvpn gateway

显示SSL VPN网关的信息

 

14.3  浏览器无法访问内网资源

14.3.1  故障描述

通过浏览器登录SSL VPN网关后,无法访问内网服务器资源。

14.3.2  故障处理步骤

(1)      确认SSL VPN访问实例下配置了资源,以下方式至少一种:

a.   配置了访问资源的资源列表,如下:

# 创建URL表项urlitem,并配置资源的URL

[Device-sslvpn-context-ctxweb1] url-item urlitem

[Device-sslvpn-context-ctxweb1-url-item-urlitem] url http://20.2.2.2

[Device-sslvpn-context-ctxweb1-url-item-urlitem] quit

# 创建URL列表urllist

[Device-sslvpn-context-ctxweb1] url-list urllist

# 配置URL列表标题为web

[Device-sslvpn-context-ctxweb1-url-list-urllist] heading web

# 配置URL列表引用的URL表项。

[Device-sslvpn-context-ctxweb1-url-list-urllist] resources url-item urlitem

[Device-sslvpn-context-ctxweb1-url-list-urllist] quit

# SSL VPN访问实例ctxweb1下创建策略组resourcegrp1,引用URL列表urllist

[Device-sslvpn-context-ctxweb1] policy-group resourcegrp1

[Device-sslvpn-context-ctxweb1-policy-group-resourcegrp1] resources url-list urllist

[Device-sslvpn-context-ctxweb1-policy-group-resourcegrp1] quit

b.   配置了能够放行通往后台服务器的ACL或者URI ACL规则,并且引用规则已经添加:

[Device-sslvpn-context-ctxweb1] policy-group resourcegrp1

[Device-sslvpn-context-ctxweb1-policy-group-resourcegrp1] filter web-access acl 3000

(2)      SSL VPN网关是否可以Ping通后台资源地址,是否需要在对端设备上添加路由。

(3)      通过查看SSL VPN网关的显示信息,确认SSL VPN网关的状态:

a.   确认SSL VPN网关是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN网关处于Up状态,否则需要在Web界面单击SSL VPN网关的使能按钮,或者在SSL VPN网关视图下执行service enable命令开启SSL VPN网关

b.   重新配置或修改SSL服务端策略后,只有执行undo service enable命令关闭SSL VPN网关,并执行service enable命令重新开启SSL VPN网关后,新的策略才会生效

c.   SSL相关配置是否正确,缺省情况下设备使用自带的缺省证书,当需要使用非缺省证书时,可以引用SSL服务端策略。当不需要使用非缺省证书时,删除SSL服务端策略引用即可

SSL VPN网关的显示信息如下:

[Device] display sslvpn gateway

Gateway name: gw

  Operation state: Up

  IP: 1.1.1.2  Port: 2000

  SSL server policy configured: sslnew

  SSL server policy in use: ssl

  Front VPN instance: Not configured

(4)      通过查看SSL VPN访问实例的显示信息,确认SSL VPN访问实例的状态:

a.   确认SSL VPN访问实例是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN访问实例处于Up状态,否则需要在Web界面单击SSL VPN访问实例的使能按钮,或者在SSL VPN访问实例视图下执行service enable命令开启SSL VPN访问实例

b.   确认SSL VPN访问实例是否引用了SSL VPN网关。通过查看显示信息中Associated SSL VPN gateway字段的值,若有引用的网关名称,则表示成功引用了SSL VPN网关,否则,需要在Web界面SSL VPN访问实例下引用SSL VPN网关,或者在SSL VPN访问实例视图下执行gateway命令,引用SSL VPN网关

SSL VPN访问实例的显示信息如下:

[Device] display sslvpn context

Context name: ctx

  Operation state: Up

  Associated SSL VPN gateway: gw

  SSL client policy configured: sslnew

  SSL client policy in use: ssl

(5)      排查上下行链路是否正常,以下情况会导致上下行链路不通:

a.   SSL VPN网关没有配置到达内网资源的路由,可通过查看设备路由表确认

b.   内网服务器未配置回程路由导致链路不通

c.   地址冲突导致链路不通

d.   配置了策略路由导致链路不通

e.   配置了负载均衡导致链路不通

f.    设备是双主模式,请将设备修改为主备模式,并将上下行接口修改成冗余口

14.3.3  故障诊断命令

表14-3 故障诊断命令

命令

说明

url-item

用来创建URL表项,并进入URL表项视图。如果指定的URL表项已经存在,则直接进入URL表项视图。

url-list

用来创建URL列表并进入URL列表视图。如果指定的URL列表已经存在,则直接进入URL列表视图。

url

用来配置资源的URL

heading

用来配置URL列表标题。

resources url-item

用来配置URL列表引用的URL表项。

policy-group

用来创建策略组,并进入SSL VPN策略组视图。如果指定的策略组已经存在,则直接进入策略组视图。

resources url-list

用来配置策略组引用URL列表。

filter web-access acl

用来配置对Web接入进行高级ACL过滤。

display sslvpn context

显示SSL VPN访问实例的信息

display sslvpn gateway

显示SSL VPN网关的信息

 

14.4  iNode客户端无法获取SSL VPN网关信息

14.4.1  故障描述

在浏览器中输入SSL VPN网关地址,无法打开SSL VPN网关页面,或通过iNode输入SSL VPN网关地址后,提示无法获取SSL VPN网关信息。

14.4.2  故障处理步骤

(1)      确认SSL VPN网关地址是否可达,设备允许Ping的情况下可通过Ping确认,不允许Ping的情况下可通过抓包确认。

(2)      通过查看SSL VPN网关的显示信息,确认SSL VPN网关的状态:

a.   确认SSL VPN网关是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN网关处于Up状态,否则需要在Web界面单击SSL VPN网关的使能按钮,或者在SSL VPN网关视图下执行service enable命令开启SSL VPN网关

b.   重新配置或修改SSL服务端策略后,只有执行undo service enable命令关闭SSL VPN网关,并执行service enable命令重新开启SSL VPN网关后,新的策略才会生效

c.   SSL相关配置是否正确,缺省情况下设备使用自带的缺省证书,当需要使用非缺省证书时,可以引用SSL服务端策略。

SSL VPN网关的显示信息如下:

[Device] display sslvpn gateway

Gateway name: gw

  Operation state: Up

  IP: 1.1.1.2  Port: 2000

  SSL server policy configured: sslnew

  SSL server policy in use: ssl

  Front VPN instance: Not configured

(3)      通过查看SSL VPN访问实例的显示信息,确认SSL VPN访问实例的状态:

a.   确认SSL VPN访问实例是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN访问实例处于Up状态,否则需要在Web界面单击SSL VPN访问实例的使能按钮,或者在SSL VPN访问实例视图下执行service enable命令开启SSL VPN访问实例

b.   确认SSL VPN访问实例是否引用了SSL VPN网关。通过查看显示信息中Associated SSL VPN gateway字段的值,若有引用的网关名称,则表示成功引用了SSL VPN网关,否则,需要在Web界面SSL VPN访问实例下引用SSL VPN网关,或者在SSL VPN访问实例视图下执行gateway命令,引用SSL VPN网关

SSL VPN访问实例的显示信息如下:

[Device] display sslvpn context

Context name: ctx

  Operation state: Up

  Associated SSL VPN gateway: gw

  SSL client policy configured: sslnew

  SSL client policy in use: ssl

(4)      确认网关地址和端口是否被正确侦听,需要确认每个业务板侦听端口是否正确开启。

TCP代理连接的显示信息如下:

<Device> dis tcp-proxy slot 1

Local Addr:port       Foreign Addr:port     State            Service type

1.1.1.2:2000           0.0.0.0:0                    LISTEN       SSLVPN

14.4.3  故障诊断命令

表14-4 故障诊断命令

命令

说明

display tcp-proxy

显示TCP代理连接的简要信息

display sslvpn context

显示SSL VPN访问实例的信息

display sslvpn gateway

显示SSL VPN网关的信息

 

14.5  iNode客户端无法登录SSL VPN网关

14.5.1  故障描述

iNode客户端上输入SSL VPN网关地址后,可以获取SSL VPN网关信息,但是无法登录。

14.5.2  故障处理步骤

(1)      确认SSL VPN网关地址是否可达,设备允许Ping的情况下可通过Ping确认,不允许Ping的情况下可通过抓包确认。

(2)      通过查看SSL VPN网关的显示信息,确认SSL VPN网关的状态:

a.   确认SSL VPN网关是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN网关处于Up状态,否则需要在Web界面单击SSL VPN网关的使能按钮,或者在SSL VPN网关视图下执行service enable命令开启SSL VPN网关

b.   重新配置或修改SSL服务端策略后,只有执行undo service enable命令关闭SSL VPN网关,并执行service enable命令重新开启SSL VPN网关后,新的策略才会生效

c.   SSL相关配置是否正确,缺省情况下设备使用自带的缺省证书,当需要使用非缺省证书时,可以引用SSL服务端策略。当不需要使用非缺省证书时,删除SSL服务端策略引用即可

SSL VPN网关的显示信息如下:

[Device] display sslvpn gateway

Gateway name: gw

  Operation state: Up

  IP: 1.1.1.2  Port: 2000

  SSL server policy configured: sslnew

  SSL server policy in use: ssl

  Front VPN instance: Not configured

(3)      通过查看SSL VPN访问实例的显示信息,确认SSL VPN访问实例的状态:

a.   确认SSL VPN访问实例是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN访问实例处于Up状态,否则需要在Web界面单击SSL VPN访问实例的使能按钮,或者在SSL VPN访问实例视图下执行service enable命令开启SSL VPN访问实例

b.   确认SSL VPN访问实例是否引用了SSL VPN网关。通过查看显示信息中Associated SSL VPN gateway字段的值,若有引用的网关名称,则表示成功引用了SSL VPN网关,否则,需要在Web界面SSL VPN访问实例下引用SSL VPN网关,或者在SSL VPN访问实例视图下执行gateway命令,引用SSL VPN网关

SSL VPN访问实例的显示信息如下:

[Device] display sslvpn context

Context name: ctx

  Operation state: Up

  Associated SSL VPN gateway: gw

  SSL client policy configured: sslnew

  SSL client policy in use: ssl

(4)      确认SSL VPN网关地址和端口是否被正确侦听,需要确认每个业务板的侦听端口是否正确开启。

TCP代理连接的显示信息如下:

<Device> display tcp-proxy slot 1

Local Addr:port       Foreign Addr:port     State            Service type

1.1.1.2:2000           0.0.0.0:0                    LISTEN       SSLVPN

(5)      确认是否配置了SSL VPN AC接口(需要配置IP地址),且在SSL VPN访问实例下引用了该SSL VPN AC接口。

SSL VPN AC接口的配置及显示如下:

[Device] interface SSLVPN-AC 1

[Device-SSLVPN-AC1] ip address 1.1.1.1 24

[Device-SSLVPN-AC1] quit

[Device] sslvpn context ctx

[Device-sslvpn-context-ctx] ip-tunnel interface SSLVPN-AC 1

[Device-sslvpn-context-ctx] quit

[Device] display interface SSLVPN-AC 1 brief

Brief information on interfaces in route mode:

Link: ADM - administratively down; Stby - standby

Protocol: (s) - spoofing

Interface                   Link   Protocol    Primary IP      Description

SSLVPN-AC1           UP    UP            1.1.1.1

(6)      确认是否配置了地址池,并且在SSL VPN访问实例或用户可授权的资源组下引用了该地址池,地址池中不能包含SSL VPN网关地址。

地址池的配置及引用举例如下:

[Device] sslvpn ip address-pool name 1.1.1.1 1.1.1.10

[Device] sslvpn context ctx

[Device-sslvpn-context-ctx] ip-tunnel address-pool name mask 24

(7)      确认SSL VPN用户是否配置正确:

a.   本地用户:确保用户类型为网络接入类,服务类型为SSL VPN,且为用户配置SSL VPN资源组。

b.   远程用户:确保远程认证服务器上用户隶属的用户组,已在SSL VPN访问实例中配置对应名称的SSL VPN资源组。

(8)      若开启了客户端和服务器端证书认证,确保两端已正确安装证书。

(9)      iNode客户端是否为最新版本。

14.5.3  故障诊断命令

表14-5 故障诊断命令

命令

说明

display tcp-proxy

显示TCP代理连接的简要信息

display sslvpn context

显示SSL VPN访问实例的信息

display sslvpn gateway

显示SSL VPN网关的信息

sslvpn ip address-pool

用来创建IPv4地址池

ip-tunnel address-pool

用来配置IP接入引用IPv4地址池。

 

14.6  iNode客户端无法访问内网资源

14.6.1  故障描述

通过iNode客户端登录SSL VPN网关后,无法访问内网服务器资源。

14.6.2  故障处理步骤

(1)      SSL VPN AC接口是否加入了安全域,且被安全策略放行。

(2)      iNode客户端分配到的虚拟网卡IP地址是否被安全策略放行。

(3)      确认是否配置了能够放行通往后台服务器的ACL或者URI ACL规则,并且引用规则已经添加:

[Device-sslvpn-context-ctxip1] policy-group resourcegrp1

[Device-sslvpn-context-ctxip1-policy-group-resourcegrp1] filter web-access acl 3000

(4)      SSL VPN网关是否可以Ping通后台资源地址,是否需要在对端设备上添加路由。

(5)      iNode客户端是否为最新版本。

(6)      排查上下行链路是否正常,以下情况会导致上下行链路不通:

a.   SSL VPN网关没有配置到达内网资源的路由,可通过查看设备路由表确认

b.   内网服务器未配置回程路由导致链路不通

c.   设备是双主模式,请将设备修改为主备模式,并将上下行接口修改成冗余口

d.   地址冲突导致链路不通

e.   配置了策略路由导致链路不通

f.    配置了负载均衡导致链路不通

14.6.3  故障诊断命令

表14-6 故障诊断命令

命令

说明

policy-group

用来创建策略组,并进入SSL VPN策略组视图。如果指定的策略组已经存在,则直接进入策略组视图。

filter web-access acl

用来配置对Web接入进行高级ACL过滤。

 

14.7  iNode用户无法老化下线

14.7.1  故障描述

部分iNode用户,长时间不访问内网资源时,不老化下线,占用License资源。

14.7.2  故障处理步骤

iNode客户端会定时发送保活报文,无法老化下线,可通过配置空闲超时时间,将长时间不访问内网资源用户强制下线

通过配置SSL VPN会话保持空闲状态的流量阈值,对iNode客户端空闲用户进行老化下线。具体配置如下:

<Device> system-view

[Device] sslvpn context ctx1

[Device-sslvpn-context-ctx1] idle-cut traffic-threshold 1000

14.7.3  故障诊断命令

表14-7 故障诊断命令

命令

说明

sslvpn context

用来创建SSL VPN访问实例,并进入SSL VPN访问实例视图。如果指定的SSL VPN访问实例已经存在,则直接进入SSL VPN访问实例视图。

idle-cut traffic-threshold

用来配置SSL VPN会话保持空闲状态的流量阈值。

 

14.8  配置用户过滤、监控、绑定IP地址等功能不生效

14.8.1  故障描述

本地用户在local-user下配置了ACL、监控、绑定IP地址等功能不生效。

14.8.2  故障处理步骤

SSL VPN用户的部分管理配置,需要在SSL VPN访问实例下配置,不能在local-user用户视图下配置。

14.8.3  故障诊断命令

表14-8 故障诊断命令

命令

说明

sslvpn context

用来创建SSL VPN访问实例,并进入SSL VPN访问实例视图。如果指定的SSL VPN访问实例已经存在,则直接进入SSL VPN访问实例视图。

 

14.9  用户曾经登录SSL VPN网关成功,再次登录时失败

14.9.1  故障描述

用户曾经登录SSL VPN网关成功,后续再次登录时失败。

14.9.2  故障处理步骤

(1)      查看SSL VPN访问实例下是否配置了同一用户名登录限制个数。

[Device] sslvpn context ctx

[Device-sslvpn-context-ctx] max-onlines 1

(2)      如果不需要限制同一用户名最大上线数,可删除max-onlines配置,如果确实需要限制,可配置如下功能。开启本功能后,将从该用户的在线连接中选择一个空闲时间最长的,强制其下线,新登录用户上线:

[Device] sslvpn context ctx

[Device-sslvpn-context-ctx] force-logout max-onlines enable

14.9.3  故障诊断命令

表14-9 故障诊断命令

命令

说明

sslvpn context

用来创建SSL VPN访问实例,并进入SSL VPN访问实例视图。如果指定的SSL VPN访问实例已经存在,则直接进入SSL VPN访问实例视图。

force-logout max-onlines enable

用来开启达到最大在线数时的用户强制下线功能。

 

14.10  用户配置企业微信认证失败

14.10.1  故障描述

用户配置企业微信认证功能,使用企业微信客户端访问资源失败

14.10.2  故障处理步骤

(1)      查看设备是否配置DNS服务器。

(2)      确认是够有可信SSL证书。

(3)      SSLVPN访问实例中引用的网关访问方式是否为直接访问网关。

[SYSNAME]sslvpn context ctx

#

[SYSNAME-sslvpn-context-ctx]display this

sslvpn context ctx

 gateway gw domain sslvpn

(4)      确认SSLVPN访问实例中的参数是否配置正确,包括API服务器地址、企业ID、访问密钥、授权策略组字段名,资源组名称,如果配置了授权策略组,资源组的名称需要与企业微信管理平台上用户所在部门ID值一致,如果未配置授权策略组,需要有一个缺省的资源组。

[SYSNAME]sslvpn context ctx

[SYSNAME-sslvpn-context-ctx]display this

#

sslvpn context ctx

 gateway gw domain sslvpn

 wechat-work-authentication enable

 wechat-work-authentication url https://qyapi.weixin.qq.com

 wechat-work-authentication corp-id ww918e2ea10664acd3

 wechat-work-authentication app-secret agZO0L15DmOBw-BBx9s5UmOForvCx-WEtKQWqfBQy

Ts

 wechat-work-authentication authorize-field department

 wechat-work-authentication open-platform-url user-defined https://open.weixin.qq.com

(5)      登录企业微信管理平台,查看应用配置的主页链接是否正确。

14.10.3  故障诊断命令

表14-10 故障诊断命令

命令

说明

sslvpn context

用来创建SSL VPN访问实例,并进入SSL VPN访问实例视图。如果指定的SSL VPN访问实例已经存在,则直接进入SSL VPN访问实例视图。

gateway

命令用来配置SSL VPN访问实例引用SSL VPN网关。

wechat-work-authentication enable

用来开启企业微信认证功能。

wechat-work-authentication url

用来配置企业微信API服务器的URL地址。

wechat-work-authentication corp-id

用来配置企业微信认证使用的企业ID

wechat-work-authentication app-secret

用来配置企业微信认证中企业应用数据的访问密钥。

wechat-work-authentication authorize-field

用来配置企业微信授权策略组字段名。

wechat-work-authentication open-platform-url

用来配置微信开放平台的URL地址。

 

15 DPI故障处理

15.1  正常业务流量被IPS/AV误报攻击拦截

15.1.1  故障描述

 

1. 组网需求:

局域网内PC通过防火墙访问Internet,防火墙上开启IPSAV业务。保护内网用户免遭受攻击。

2. 配置描述

安全策略中开启IPSAV检测。

#

app-profile 0_IPv4

 ips apply policy default mode protect

anti-virus  apply policy default mode protect

#

  security-policy ip

 rule 0 name ips

  action pass

  profile 0_IPv4

#

3. 故障描述

内网用户发起的正常业务流量访问不成功,设备上报IPS/AV攻击日志。

15.1.2  故障处理步骤

(1)    首先观察设备上报的IPS/AV攻击日志,源目的IP端口是否为客户端、服务器的IP端口,如果是则记录IPS/AV日志中对应的AttackID

(2)    如果是IPS误报,创建IPS策略,将报攻击的IPS特征关闭或者将动作设置为permitlog,并在安全策略中引用。

(3)    如果是AV误报,创建AV策略,将报攻击的AV特征设置为例外或者将动作设置为permitlog,并在安全策略中引用。

(4)    抓取客户端访问业务的报文并反馈给研发进行分析,确认是否为误报,如果为误报则修改对应特征,如果非误报则对用户进行解释并在配置中对该条特征进行放行。

15.1.3  故障诊断命令

命令

说明

ips policy policy-name

缺省情况下,存在一个缺省IPS策略,名称为default,且不能被修改和删除

signature override { pre-defined | user-defined } signature-id { { disable | enable } [ { block-source | drop | permit | redirect | reset } | capture | logging ] * }

缺省情况下,预定义IPS特征使用系统预定义的状态和动作,自定义IPS特征的动作和状态在管理员导入的特征库文件中定义。

缺省IPS策略中的IPS特征的动作属性和生效状态属性不能被修改

anti-virus policy policy-name

缺省情况下,存在一个缺省防病毒策略,名称为default,且不能被修改和删除

exception signature signature-id

命令用来配置病毒例外

 

15.2  IPS/WAF攻击流量不能被阻断,设备不报攻击日志

15.2.1  故障描述

 

组网需求:

局域网内PC通过防火墙访问Internet,防火墙上开启IPS/WAF业务。保护内网用户免遭受攻击。

配置描述

安全策略中开启IPSWAF检测。

#

app-profile 0_IPv4

 ips apply policy default mode protect

waf apply policy default mode protect

#

  security-policy ip

 rule 0 name ips

  action pass

  profile 0_IPv4

#

故障描述

攻击者从Internet向局域网发起典型攻击,如跨站脚本攻击,暴力破解攻击等,攻击报文成功通过IPS设备到达靶机服务器,成功破解靶机服务器密码,IPS设备上无日志输出。

15.2.2  故障处理步骤

(1)    检查设备是否安装了License

(2)    查看设备当前的DPI状态,设备运行状态为normal

[SYSNAME]display inspect status

Chassis 0 Slot 1:

Running status: normal

(3)    查看特征库版本是否为发布的最新版本,如果版本较老,请进行特征库升级。

<sysname>display  ips signature  library

IPS signature library information:

Type      SigVersion         ReleaseTime               Size

Current   1.0.81             Thu Oct 31 08:35:05 2019  4639264

Last      1.0.80             Sat Oct 12 07:58:23 2019  4565664

Factory   1.0.0              Fri Dec 28 06:27:33 2018  76496

 

<sysname>display  waf signature library

WAF signature library information:

Type      SigVersion         ReleaseTime               Size(bytes)

Current   1.0.2              Thu Oct 31 03:22:10 2019  1018752

Last      1.0.0              Fri Dec 28 08:53:30 2018  19824

Factory   1.0.0              Fri Dec 28 08:53:30 2018  19824

 

(4)    查看IPS/WAF规则是否下发引擎,如果没有下发IPS/WAF规则,需要在系统视图下执行inspect activate或通过Web激活引擎,重新下发规则。

[SYSNAME-probe]display  system  internal  inspect  dim-rule

Slot 1:

MdcID       MoudleName  Total MD5 rules

0           Anti-Virus  0

 

MdcID       RuleID      ModuleName          L4ProName           uiAppIdL5

 

0           1                IPS                 TCP              HTTP

 

0           2147483649       FFILTER             TCP

 

0           2                IPS                 TCP               HTTP

 

0           2147483650       FFILTER             TCP

 

0           2147483651       FFILTER             TCP

 

0           4                IPS                 TCP              HTTP

 

0           2147483652       FFILTER             TCP

 

0           5                IPS                 TCP            HTTP

 

[SYSNAME-probe]display  system  internal  inspect  dim-rule | include WAF

0           1           WAF                 TCP                 HTTP

 

0           16          WAF                 TCP                 HTTP

 

0           37          WAF                 TCP                 HTTP

 

0           38          WAF                 TCP                 HTTP

 

0           43          WAF                 TCP                 HTTP

 

(5)    查看会话是否建立,确保会话的源目IP在指定的安全域内,并且在该域间启用深度检查功能,引用IPS/WAF策略。

[SYSNAME]display session table ipv4 source-ip 1.1.1.101 verbose

Slot 1:

Initiator:

  Source      IP/port: 1.1.1.101/34679

  Destination IP/port: 2.2.2.12/5190

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet1/0/10

  Source security zone: Trust

Responder:

  Source      IP/port: 2.2.2.12/5190

  Destination IP/port: 1.1.1.101/34679

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet1/0/11

  Source security zone: Untrust

State: TCP_ESTABLISHED

Application: AOL

Start time: 2016-01-21 16:13:16  TTL: 1194s

Initiator->Responder:            3 packets        930 bytes

Responder->Initiator:            1 packets         92 bytes

 

Total sessions found: 1

(6)    查看rule hit情况。

[SYSNAME-probe]display  system  internal inspect  hit-statistics

Slot 1:

Rule ID     Module      Rule hits  AC hits    PCRE try   PCRE hits

5041        APR         0          3          0          0

5126        APR         0          9          0          0

5127        APR         0          9          0          0

8584        IPS         1          2          0          0

9410        APR         0          1          0          0

21768       IPS         0          2          0          0

21852       IPS         1          2          0          0

22114       IPS         0          2          0          0

22406       IPS         1          1          0          0

23089       IPS         2          2          4          2

23213       IPS         0          4          2          2

23271       IPS         0          2          1          0

23341       IPS         1          2          1          1

23722       IPS         2          8          2          2

23804       IPS         0          1          0          0

18096       WAF         0          4          2          0

23311       WAF         1          14         1          1

23791       WAF         0          2          1          0

23915       WAF         0          8          4          0

(7)    如果有rule hits统计,查看该规则是状态是否使能,如果未使能,手工将该条规则使能并设置动作(只有自定义的IPSWAF策略能修改规则状态)。

[SYSNAME]display  ips signature pre-defined 8

 Type        : Pre-defined

 Signature ID: 8

 Status      : Disable

 Action      : Permit & Logging

 Name        : (MS11-015)DVR-MS_Vulnerability

 Protocol    : TCP

 Severity    : Critical

 Fidelity    : Medium

 Direction   : To-client

 Category    : Vulnerability

 Reference   : CVE-2011-0042;MS11-015;

 

[SYSNAME]display  waf  signature  pre-defined 56

 Type        : Pre-defined

 Signature ID: 56

 Status      : Disable

 Action      : Permit & Logging

 Name        : CVE-2012-3351_LongTail_JW_Player_XSS_Vulnerability

 Protocol    : TCP

 Severity    : Medium

 Fidelity    : Medium

 Direction   : To-server

 Category    : Vulnerability

 Reference   : CVE-2012-3351;

创建自定义IPS/WAF策略并在安全策略引用,在自定义IPS/WAF策略中手工将该条规则使能。

[SYSNAME-ips-policy-ips]signature override pre-defined 8 enable reset logging

[SYSNAME-waf-policy-waf]signature override pre-defined 56 enable  reset logging

(8)    前面都检查没有问题后设备还是不能识别,有可能构造的攻击不对或特征库不支持该攻击,此时需要协助抓取对应的攻击交互报文反馈报文给研发进行分析。

15.2.3  故障诊断命令

命令

说明

ips policy policy-name

缺省情况下,存在一个缺省IPS策略,名称为default,且不能被修改和删除

waf policy policy-name

缺省情况下,存在一个缺省WAF策略,名称为default,且不能被修改和删除

signature override { pre-defined | user-defined } signature-id { { disable | enable } [ { block-source | drop | permit | redirect | reset } | capture | logging ] * }

缺省情况下,预定义IPSWAF特征使用系统预定义的状态和动作,自定义IPSWAF特征的动作和状态在管理员导入的特征库文件中定义

缺省IPSWAF策略中的IPSWAF特征的动作属性和生效状态属性不能被修改

inspect activate

缺省情况下,DPI各业务模块自定义的规则或手动离线升级的特征库不生效

display system internal inspect hit-statistics [ module-id ] [ rule-id ] [ slot slot-number [ cpu cpu-number ] ]

显示应用层检测规则命中的统计信息

display inspect status

显示应用层检测引擎的运行状态

 

15.3  特定应用限速不生效

15.3.1  故障描述

 

组网需求:

局域网内PC通过防火墙访问Internet,设备开启带宽管理功能,限制迅雷下载速度。

配置描述

创建AVC策略,对迅雷下载进行限速。

traffic-policy

 rule 1 name Thunder

  action qos profile Thunder_20M

  source-zone Trust

  destination-zone Untrust

  application app-group 1

 profile name thunder_20m

  bandwidth downstream maximum 20000

  bandwidth upstream maximum

故障描述

迅雷下载速度不受带宽管理限制。

15.3.2  故障处理步骤

(1)    查看APR版本信息,是否为最新版本,如果版本较老,请从官网上获取最新版本进行升级。

(2)    查看设备引擎状态,是否bypass,如果进行了手工bypasscpumemory自动bypass,可以通过undo inspect bypss命令重新激活引擎

(3)    查看规则状态是否为使能状态,对应流量是否优先走了其他规则。

[SYSNAME]display traffic-policy statistics bandwidth total per-rule

Slot 1 :

Codes: PP(Passed Packets), PB(Passed Bytes), DP(Dropped Packets), DB(Dropped Byt

es), PR(Passed Rate:kbps), DR(Dropped Rate:kbps), FPP(Final Passed Packets), FPB

(Final Passed Bytes),FPR(Final Passed Rate:kbps)

--------------------------------------------------------------------------------

-------------------------------------------------

 Rule name  State    Profile name PP         PB         DP         DB         PR

         DR         FPP        FPB        FPR

--------------------------------------------------------------------------------

-------------------------------------------------

 Thunder    Enabled  Thunder_20M  0          0          0          0          0.

0        0.0        0          0          0.0

--------------------------------------------------------------------------------

-------------------------------------------------

--------------------------------------------------------------------------------

------------------------------------------

如果流量优先走了其他规则,可以移动迅雷限速规则,将迅雷优先级提前。

[SYSNAME-traffic-policy]rule move Thunder before b

(4)    查看会话信息中的Application信息,将对应的Application加入到自定义应用组中,并配置对应的应用组限速

(5)    如果会话的Application大多数为GENERAL_TCPGENERAL_UDP,有可能是迅雷出现了新的特征,这个时候需要一线协助帮忙转包反馈给研发进行分析

<sysname>display session table ipv4 verbose

Slot 1:

Initiator:

  Source      IP/port: 1.1.1.195/51353

  Destination IP/port: 2.2.2.51/59287

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet1/0/10

  Source security zone: Trust

Responder:

  Source      IP/port: 2.2.2.51/59287

  Destination IP/port: 1.1.1.195/51353

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet1/0/11

  Source security zone: Untrust

State: TCP_SYN_RECV

Application: GENERAL_TCP

Start time: 2016-01-21 17:51:44  TTL: 951s

Initiator->Responder:            1 packets         56 bytes

Responder->Initiator:            1 packets         56 bytes

15.3.3  故障诊断命令

命令

说明

traffic-policy

进入带宽策略视图

rule move rule-name1 { after | before } rule-name2

移动带宽策略规则的排列顺序

display traffic-policy statistics bandwidth { downstream | total | upstream } { per-ip { ipv4 [ ipv4-address ] | ipv6 [ ipv6-address ] } rule rule-name | per-rule [ name rule-name ] | per-user [ user user-name ] rule rule-name }

显示带宽策略规则下流量速率的统计信息(分布式设备-独立运行模式/集中式IRF设备)

 

15.4  文件过滤/数据过滤不生效,且没有产生日志

15.4.1  故障描述

 

组网需求:

局域网内PC通过防火墙访问Internet,防火墙上开启文件过滤/数据过滤业务。保护内外网用户文件&数据传输信息安全。

配置描述

安全策略中开启文件过滤检测。

 #

file-filter policy ffilter

 rule ffilter

  filetype-group ffilter

  application all

  direction both

  action drop logging

#

file-filter filetype-group ffilter

 pattern 0 text pe

 pattern 1 text elf

 pattern 10 text vsdx

 pattern 11 text msg

 pattern 12 text pub

 pattern 13 text zip

 pattern 14 text rar

 pattern 15 text tar.gz

 pattern 16 text tgz

 pattern 2 text doc

 pattern 3 text pdf

 pattern 4 text xls

 pattern 5 text ppt

 pattern 6 text docx

 pattern 7 text xlsx

 pattern 8 text pptx

 pattern 9 text vsd

#

安全策略中开启数据过滤检测。

#

data-filter keyword-group dfilter

 pre-defined-pattern name bank-card-number

 pre-defined-pattern name credit-card-number

 pre-defined-pattern name id-card-number

 pre-defined-pattern name phone-number

#

data-filter policy dfilter

 rule dfilter

  keyword-group dfilter

  application all

  direction both

  action drop logging

#

app-profile 0_IPv4

 file-filter apply policy ffilter

 data-filter apply policy dfilter

#

security-policy ip

 rule 0 name ffilter

  action pass

  profile 0_IPv4

#

故障描述

使用者从局域网向Internet上传机密文件,例如.docx文件和.xls文件等,文件成功上传,且设备无日志。

使用者从局域网向Internet上传含有敏感信息的数据, 例如含有银行卡号和身份证号等数据,数据成功上传,且设备无日志。

15.4.2  故障处理步骤

(1)    查看设备当前的DPI状态,设备运行状态为normal

[SYSNAME]display inspect status

Chassis 0 Slot 1:

Running status: normal

(2)    查看传输的文件类型是否被引用的文件类型组所包含。

(3)    通过抓包查看传输的协议是否为支持的协议类型,目前,文件过滤和数据过滤功能支持对基于HTTPFTPSMTPIMAPNFSPOP3RTMPSMB协议传输的文件进行检测和过滤。

(4)    查看文件过滤规则是否下发引擎,如果没有下发文件过滤和数据过滤规则,ruleid10位数的为预定义文件过滤和数据过滤规则,需要在系统视图下执行inspect activate或通过Web激活引擎,重新下发规则。

[SYSNAME-probe]display  system  internal  inspect dim-rule | include FFILTER

 

 23          FFILTER             TCP                 HTTP

 

0           2147483671  FFILTER             TCP

 

1           24          FFILTER             TCP                 FTP

 

0           2147483672  FFILTER             TCP

 

1           25          FFILTER             TCP                 SMTP

 

0           2147483673  FFILTER             TCP

 

1           26          FFILTER             TCP                 IMAP

 

0           2147483674  FFILTER             TCP

 

1           27          FFILTER             TCP                 POP3

 

0           2147483675  FFILTER             TCP

 

1           28          FFILTER             TCP                 NFS

 

0           2147483676  FFILTER             TCP

 

1           29          FFILTER             TCP                 MICROSOFT-DS

 

1           30          FFILTER             TCP                 RTMP

 

[SYSNAME-probe]display  system  internal  inspect  dim-rule | include DFILTER

1           24          DFILTER             TCP                 HTTP

 

1           25          DFILTER             TCP                 FTP-DATA

 

1           26          DFILTER             TCP                 SMTP

 

1           27          DFILTER             TCP                 IMAP

 

1           28          DFILTER             TCP                 POP3

 

1           29          DFILTER             TCP                 NFS

 

1           30          DFILTER             TCP                 MICROSOFT-DS

 

1           31          DFILTER             TCP                 RTMP

(5)    查看会话是否建立,确保会话的源目IP在指定的安全域内,并且在该域间启用深度检查功能,引用文件过滤策略或数据过滤策略。

[SYSNAME-probe]display  session table ipv4 source-ip 7.0.1.2 verbose

Slot 2:

Initiator:

  Source      IP/port: 7.0.1.2/50779

  Destination IP/port: 7.0.0.2/80

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet2/0/2

  Source security zone: Trust

Responder:

  Source      IP/port: 7.0.0.2/80

  Destination IP/port: 7.0.1.2/50779

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet2/0/3

  Source security zone: Untrust

State: TCP_ESTABLISHED

Application: HTTP

Rule ID: 0

Rule name: ips

Start time: 2019-11-15 11:31:01  TTL: 1197s

Initiator->Responder:            7 packets       1073 bytes

Responder->Initiator:            7 packets       2413 bytes

 

Total sessions found: 1

(6)    查看rule hit情况

[SYSNAME-probe]display system  internal  inspect hit-statistics

Slot 2:

Rule ID     Module      Rule hits  AC hits    PCRE try   PCRE hits

2147483650  FFILTER     2          2          0          0

2147483657  FFILTER     1          1          0          0

2147483669  FFILTER     2          2          0          0

3432        APR         2          2          0          0

如果没有自定义的规则命中,则需要检查传输的文件的真实文件类型与扩展名是否一致,敏感信息是否有误,文件过滤还可以通过如下配置后,观察是否可以拦截,和产生日志。

[SYSNAME]file-filter false-extension action drop

(7)    前面都检查没有问题后设备还是不能识别,有可能此时传输的文件编码方式设备暂不支持,此时需要协助抓取对应的交互报文反馈报文给研发进行分析。

15.4.3  故障诊断命令

命令

说明

file-filter policy policy-name

缺省情况下,存在一个缺省文件过滤策略,名称为default,且不能被修改和删除

filetype-group group-name

文件过滤规则中引用缺省文件类型组。名称为default,且不能被修改和删除

inspect activate

缺省情况下,DPI各业务模块自定义的规则或手动离线升级的特征库不生效

display system internal inspect hit-statistics [ module-id ] [ rule-id ] [ slot slot-number [ cpu cpu-number ] ]

显示应用层检测规则命中的统计信息

display inspect status

显示应用层检测引擎的运行状态

file-filter false-extension action { drop | permit }

配置文件的真实类型与扩展名不一致时执行的动作

data-filter apply policy policy-name

缺省情况下,DPI应用profile中未引用数据过滤策略

data-filter keyword-group keywordgroup-name

数据过滤规则中引用缺省关键字组。名称为default,且不能被修改和删除

inspect activate

缺省情况下,DPI各业务模块自定义的规则或手动离线升级的特征库不生效

display inspect status

显示应用层检测引擎的运行状态

15.5  开启SSL卸载,Web页面没有成功卸载

15.5.1  故障描述

 

组网需求:

局域网内PC通过防火墙访问Internet,防火墙上开启SSL过滤业务和IPS业务。保护内外网用户HTTPS传输安全。

配置描述

安全策略中开启SSL卸载。

#

app-proxy-policy

   rule 1 name ssl-proxy

  action ssl-decrypt

  #

app-profile 0_IPv4

 ips apply policy default mode protect

#

security-policy ip

 rule 0 name ips

  action pass

  profile 0_IPv4

#

故障描述

攻击者从Internet向局域网发起HTTPS加密流量攻击,如跨站脚本攻击,暴力破解攻击等,攻击报文成功通过IPS设备到达靶机服务器,成功破解靶机服务器密码,IPS设备上无日志输出。SSL卸载失效。

15.5.2  故障处理步骤

(1)    使用HTTP非加密流量,查看设备是否拦截,如果依然不能拦截,请参考13.2,排查IPS问题原因。如果能拦截,则依照下面的方法排除原因。

(2)    使用如下命令,查看设备是否成功代理。

[SYSNAME]display  app-proxy server-certificate

Slot 1:

    Total server certificates: 1

    Certificate info: BreakingPoint_serverA_2048.server.int

         Proxy count: 6996

         Most recent proxy time: 2019/11/18 10:23:48

         First proxy at: 2019/11/15 17:21:12

(3)    检查设备组网是否为三层组网。目前SSL卸载不支持二层组网,如果是二层组网,请修改组网。

(4)    查看设备当前的DPI状态,设备运行状态为normal

[SYSNAME]display inspect status

Chassis 0 Slot 1:

Running status: normal

(5)    使用如下命令,查看HTTPSServer是否被加进白名单

[SYSNAME]display  app-proxy ssl whitelist hostname predefined

Chrome HSTS-defined hostnames:

  status      Hostname

  enabled     2mdn.net

  enabled     accounts.firefox.com

  enabled     aclu.org

  enabled     activiti.alfresco.com

  enabled     adamkostecki.de

  enabled     addvocate.com

  enabled     adsfund.org

  enabled     aie.de

……

<sysname>display  app-proxy ssl whitelist ip all

Slot 1:

    IP address            Port

    --------------------------

    9.9.9.5               443

    9.9.9.6               443

    9.9.9.7               443

    9.9.9.8               443

    9.9.9.9               443

    9.9.9.10              443

    9.9.9.11              443

9.9.9.12              443

如果被添加进白名单,可以使用如下命令清除白名单。

[SYSNAME]undo app-proxy ssl whitelis user-defined-hostname

<sysname>reset app-proxy ssl whitelist ip

[SYSNAME]app-proxy ssl whitelist activate

(6)    查看流量是否跨板 ,目前SSL卸载不支持跨板流量。

<sysname>display  session table ipv4 source-ip 7.0.1.2 verbose

Slot 1:

Initiator:

  Source      IP/port: 7.0.1.2/55933

  Destination IP/port: 8.8.8.2/443

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet2/0/2

  Source security zone: Trust

Responder:

  Source      IP/port: 8.8.8.2/443

  Destination IP/port: 7.0.1.2/55933

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: Reth1

  Source security zone: Trust

State: INACTIVE

Application: HTTPS

Rule ID: 0

Rule name: ips

Start time: 2019-11-18 10:59:43  TTL: 299s

Initiator->Responder:            0 packets          0 bytes

Responder->Initiator:            0 packets          0 bytes

 

Initiator:

  Source      IP/port: 7.0.1.2/55852

  Destination IP/port: 8.8.8.2/80

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet2/0/2

  Source security zone: Trust

Responder:

  Source      IP/port: 8.8.8.2/80

  Destination IP/port: 7.0.1.2/55852

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: Reth1

  Source security zone: Trust

State: INACTIVE

Application: HTTP

Rule ID: 0

Rule name: ips

Start time: 2019-11-18 10:59:02  TTL: 257s

Initiator->Responder:            0 packets          0 bytes

Responder->Initiator:            0 packets          0 bytes

 

Initiator:

  Source      IP/port: 7.0.1.2/55932

  Destination IP/port: 8.8.8.2/443

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet2/0/2

  Source security zone: Trust

Responder:

  Source      IP/port: 8.8.8.2/443

  Destination IP/port: 7.0.1.2/55932

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: Reth1

  Source security zone: Trust

State: INACTIVE

Application: HTTPS

Rule ID: 0

Rule name: ips

Start time: 2019-11-18 10:59:43  TTL: 299s

Initiator->Responder:            0 packets          0 bytes

Responder->Initiator:            0 packets          0 bytes

 

Total sessions found: 3

 

Slot 2:

Initiator:

  Source      IP/port: 7.0.1.2/55933

  Destination IP/port: 8.8.8.2/443

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet2/0/2

  Source security zone: Trust

Responder:

  Source      IP/port: 8.8.8.2/443

  Destination IP/port: 7.0.1.2/55933

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: Reth1

  Source security zone: Trust

State: TCP_TIME_WAIT

Application: HTTPS

Rule ID: 0

Rule name: ips

Start time: 2019-11-18 10:59:43  TTL: 0s

Initiator->Responder:            6 packets        776 bytes

Responder->Initiator:            7 packets        899 bytes

 

Initiator:

  Source      IP/port: 7.0.1.2/55852

  Destination IP/port: 8.8.8.2/80

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet2/0/2

  Source security zone: Trust

Responder:

  Source      IP/port: 8.8.8.2/80

  Destination IP/port: 7.0.1.2/55852

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: Reth1

  Source security zone: Trust

State: TCP_ESTABLISHED

Application: HTTP

Rule ID: 0

Rule name: ips

Start time: 2019-11-18 10:59:02  TTL: 1157s

Initiator->Responder:            8 packets       1256 bytes

Responder->Initiator:            9 packets       3456 bytes

 

Initiator:

  Source      IP/port: 7.0.1.2/55932

  Destination IP/port: 8.8.8.2/443

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet2/0/2

  Source security zone: Trust

Responder:

  Source      IP/port: 8.8.8.2/443

  Destination IP/port: 7.0.1.2/55932

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: Reth1

  Source security zone: Trust

State: TCP_TIME_WAIT

Application: HTTPS

Rule ID: 0

Rule name: ips

Start time: 2019-11-18 10:59:43  TTL: 1s

Initiator->Responder:            7 packets        816 bytes

Responder->Initiator:            7 packets        899 bytes

Total sessions found: 3

(7)    前面都检查没有问题后设备还是不能拦截,有可能此时加密攻击设备暂不支持,此时需要协助抓取对应的交互报文反馈报文给研发进行分析。

15.5.3  故障诊断命令

命令

说明

app-proxy-policy

进入代理策略视图

app-proxy ssl whitelist user-defined-hostname host-name

使用host-nameSSL请求报文中携带的服务器证书的“DNS Name”或“Common Name”字段进行匹配,只要含有host-name的域名均会匹配成功。若匹配成功,则透传该SSL连接

display app-proxy ssl whitelist ip { all | ip-address }

显示SSL代理IP地址白名单

display inspect status

显示应用层检测引擎的运行状态

 

15.6  应用审计没有生效,且没有产生日志

15.6.1  故障描述

 

组网需求:

局域网内PC通过防火墙访问Internet,防火墙上开启应用审计业务。保护内外网用户数据传输信息安全。

配置描述

安全策略中开启应用审计检测。

#

uapp-control

 policy name default audit

  rule 1 app-category IM behavior FileTransfer bhcontent any keyword include any

 action deny audit-logging

#

故障描述

使用者从局域网向Internet执行敏感动作, 例如传文件和登录等操作时,动作执行成功,且设备无日志。

15.6.2  故障处理步骤

(1)    查看APR版本信息,是否为最新版本,如果版本较老,请从官网上获取最新版本进行升级。

(2)    查看设备引擎状态,是否bypass,如果进行了手工bypasscpumemory自动bypass,可以通过undo inspect bypss命令重新激活引擎

(3)    查看应用审计与管理策略是否下发引擎,如果没有下发数据过滤规则,需要在系统视图下执行inspect activate或通过Web激活引擎,重新下发规则。

[SYSNAME-probe]display  system  internal  inspect  dim-rule

Slot 1:

MdcID       MoudleName  Total MD5 rules

0           Anti-Virus  0

 

MdcID       RuleID      ModuleName          L4ProName           uiAppIdL5

 

1           1           AUDIT               TCP                 WECHAT_LOGIN_IOS

_TCP_M

0           1           IPS                 TCP                 HTTP

 

0           2147483649  FFILTER             TCP

 

1           2           AUDIT               TCP                 WECHAT_LOGIN_AND

ROID_TCP_M

0           2           IPS                 TCP                 HTTP

 

0           2147483650  FFILTER             TCP

 

1           3           AUDIT               TCP                 WECHAT_SENDTEXT_

WINDOWS_TCP_M

0           2147483651  FFILTER             TCP

 

1           4           AUDIT               TCP                 WECHAT_SENDTEXT_

IOS_TCP_M

0           4           IPS                 TCP                 HTTP

(4)    查看规则状态是否为使能状态,对应流量是否优先走了其他规则。

(5)    查看会话是否建立,确保会话的源目IP在指定的安全域内,并且在该域间启用深度检查功能,引用应用审计与管理策略。

[SYSNAME-probe]display  session table ipv4 source-ip 7.0.1.2 verbose

Slot 2:

Initiator:

  Source      IP/port: 7.0.1.2/50779

  Destination IP/port: 7.0.0.2/80

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet2/0/2

  Source security zone: Trust

Responder:

  Source      IP/port: 7.0.0.2/80

  Destination IP/port: 7.0.1.2/50779

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet2/0/3

  Source security zone: Untrust

State: TCP_ESTABLISHED

Application: HTTP

Rule ID: 0

Rule name: ips

Start time: 2019-11-15 11:31:01  TTL: 1197s

Initiator->Responder:            7 packets       1073 bytes

Responder->Initiator:            7 packets       2413 bytes

 

Total sessions found: 1

(6)    前面都检查没有问题后设备还是不能拦截,有可能此时应用的应用审计设备暂不支持,此时需要协助抓取对应的交互报文反馈报文给研发进行分析。

15.6.3  故障诊断命令

命令

说明

inspect activate

缺省情况下,DPI各业务模块自定义的规则或手动离线升级的特征库不生效

display inspect status

显示应用层检测引擎的运行状态

 

15.7  指定的网页设备没有阻断,且没有产生日志

15.7.1  故障描述

 

组网需求:

局域网内PC通过防火墙访问Internet,防火墙上开启URL过滤业务。保护用户访问网页安全。

配置描述

安全策略中开启URL过滤检测。

#

url-filter policy url

 default-action permit logging

 category Pre-Botnet action reset logging

 category Pre-ChildAbuse action reset logging

 category Pre-CriminalActivity action reset logging

 category Pre-Discrimination action reset logging

 category Pre-Divining action reset logging

 category Pre-Drugs action reset logging

 category Pre-Gamble action reset logging

 category Pre-Hacking action reset logging

 category Pre-IllegalSoftware action reset logging

 category Pre-Lottery action reset logging

 category Pre-MaliciousURL action reset logging

 category Pre-Phishing action reset logging

 category Pre-Pornography action reset logging

 category Pre-Religion action reset logging

 category Pre-SchoolCheating action reset logging

 category Pre-Spam action reset logging

 category Pre-Suicide action reset logging

 category Pre-Violence action reset logging

#

app-profile 0_IPv4

 url-filter apply policy url

#

security-policy ip

 rule 0 name url

  action pass

  counting enable

  profile 0_IPv4

#

故障描述

使用者从局域网向Internet访问有害网页, 例如色情网站等,用户成功访问,且设备无日志。

15.7.2  故障处理步骤

(1)    查看URL特征库版本信息,是否为最新版本,如果版本较老,请从官网上获取最新版本进行升级。

(2)    查看设备引擎状态,是否bypass,如果进行了手工bypasscpumemory自动bypass,可以通过undo inspect bypss命令重新激活引擎

(3)    查看访问页面是否为HTTPS加密网页,如果是加密网页可以开启SSL卸载功能。

(4)    查看URL过滤规则是否下发引擎,如果没有下发URL过滤规则,需要在系统视图下执行inspect activate或通过Web激活引擎,重新下发规则。

[SYSNAME-probe]display  system  internal  inspect  dim-rule

Slot 1:

MdcID       MoudleName  Total MD5 rules

0           Anti-Virus  0

 

MdcID       RuleID      ModuleName          L4ProName           uiAppIdL5

 

0           356581376   UFLT                TCP                 HTTP

 

0           268435456   UFLT                TCP                 HTTP

 

0           356646912   UFLT                TCP                 HTTP

 

0           268435457   UFLT                TCP                 HTTP

 

0           431030273   UFLT                TCP                 HTTP

 

0           384958465   UFLT                TCP                 HTTP

 

0           2147483649  FFILTER             TCP

 

0           447873026   UFLT                TCP                 HTTP

 

0           268435458   UFLT                TCP                 HTTP

(5)    查看会话是否建立,确保会话的源目IP在指定的安全域内,并且在该域间启用深度检查功能,引用URL过滤策略。

[SYSNAME-probe]display  session table ipv4 source-ip 7.0.1.2 verbose

Slot 2:

Initiator:

  Source      IP/port: 7.0.1.2/50779

  Destination IP/port: 7.0.0.2/80

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet2/0/2

  Source security zone: Trust

Responder:

  Source      IP/port: 7.0.0.2/80

  Destination IP/port: 7.0.1.2/50779

  DS-Lite tunnel peer: -

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: GigabitEthernet2/0/3

  Source security zone: Untrust

State: TCP_ESTABLISHED

Application: HTTP

Rule ID: 0

Rule name: ips

Start time: 2019-11-15 11:31:01  TTL: 1197s

Initiator->Responder:            7 packets       1073 bytes

Responder->Initiator:            7 packets       2413 bytes

 

Total sessions found: 1

(6)    如果是自定义URL分类,检查用户使用的URL是否与分类的URL完全匹配。

(7)    前面都检查没有问题后设备还是不能拦截,有可能此时网页URL特征库不支持,此时需要协助抓取对应的交互报文反馈报文给研发进行分析。

15.7.3  故障诊断命令

命令

说明

url-filter apply policy policy-name

缺省情况下,DPI应用profile中未引用URL过滤策略

inspect activate

缺省情况下,DPI各业务模块自定义的规则或手动离线升级的特征库不生效

display inspect status

显示应用层检测引擎的运行状态

15.8  服务器发出异常外联行为,设备没有输出告警日志

15.8.1  故障描述

 

组网需求:

服务器通过防火墙主动连接客户端,防火墙上开启服务器外联防护业务。保护内外网用户免遭受攻击。

配置描述

安全策略中开启服务器外联防护检测。

#

scd policy name default-7.0.0.2

 protected-server 7.0.0.2

 logging enable

 policy enable

 rule 1

  permit-dest-ip 7.0.0.255

  protocol udp port 137 to 138

#

故障描述

开启服务器外联业务,服务器通过设备的异常外联行为, 设备没有日志告警。

15.8.2  故障处理步骤

(1)    检查设备是否开启服务器外联的快速日志。快速日志与系统日志不能同时生成,如果需要系统日志,请关闭服务器外联防护的快速日志。

(2)    查看设备防护策略和日志是否启用protected-serverpermit-dest-ip与服务器异常外联行为的源目IP一致。

<sysname>display scd  policy

Id     Name            Protected server       Rules        Logging     Policy status

1      12                     1.2.2.3           1          Enabled        Enabled

2      default-7.0.0.2        7.0.0.2           1          Enabled        Enabled

(3)    排查设备对应流量是否优先走了其他规则。

(4)    前面都检查没有问题后设备还是不能识别,有可能产生的流量设备暂不支持,此时需要协助抓取对应的攻击交互报文反馈报文给研发进行分析。

15.8.3  故障诊断命令

命令

说明

scd policy name policy-name

创建服务器外联防护策略

display scd policy [ name policy-name ]

显示服务器外联防护策略的配置信息

 

15.9  具有风险的IP与本地用户连接成功,无告警日志

15.9.1  故障描述

组网需求:

局域网内PC通过防火墙访问Internet,防火墙上开启威胁情报业务。保护内外网用户免遭受攻击。

配置描述

安全策略中开启威胁情报检测。

#

ip-reputation

 global enable

 top-hit-statistics enable

 attack-category 1 action deny logging enable

 attack-category 2 action deny logging disable

 attack-category 3 action deny logging enable

 attack-category 4 action deny logging enable

 attack-category 5 action deny logging enable

 attack-category 6 action deny logging enable

 attack-category 7 action deny logging enable

 attack-category 8 action deny logging enable

 attack-category 9 action deny logging enable

 attack-category 10 action deny logging enable

 attack-category 11 action deny logging enable

 attack-category 12 action deny logging enable

 attack-category 13 action deny logging enable

 attack-category 14 action deny logging enable

 attack-category 15 action deny logging enable

 attack-category 16 action deny logging enable

 attack-category 17 action deny logging enable

 attack-category 18 action deny logging enable

 attack-category 19 action deny logging enable

 attack-category 20 action deny logging enable

 attack-category 21 action deny logging enable

 attack-category 22 action deny logging enable

#

故障描述

开启威胁情报业务,具有风险的IP与本地用户连接成功,无告警日志。

15.9.2  故障处理步骤

(1)    检查设备是否安装了License

(2)    检查ip地址是否被设置成IP信誉例外地址。

<sysname>display ip-reputation exception

  IP address

  2.2.2.2

(3)    检查配置动作是否为丢弃告警。

[SYSNAME-ip-reputation]display  ip-reputation attack-category

  Attack id    Attack name          Action    Logging

  ---------------------------------------------------

  1            C&C                  deny      enable

  2            Network_Worm         deny      disable

  3            Risk_Software        deny      enable

  4            Malware              deny      enable

  5            Trojan               deny      enable

  6            Infectious_Virus     deny      enable

(4)    前面都检查没有问题后设备还是不能识别,有可能ip信誉库中还不含有该ip,此时需要协助抓取对应的攻击交互报文反馈报文给研发进行分析。

15.9.3  故障诊断命令

命令

说明

display ip-reputation attack-category

仅在IP信誉功能处于开启状态时,才能查看到IP信誉库中的攻击分类信息。

如果未配置对指定攻击分类执行的动作,则显示特征库中的缺省配置。

display ip-reputation exception

仅在IP信誉功能处于开启状态时,才能查看到IP信誉例外IP地址。

 

15.10  数据中心无日志or日志长时间不更新

15.10.1  故障描述

组网需求:

局域网内PC通过防火墙访问Internet,防火墙上开启DPI业务。保护内外网用户信息安全。

配置描述

安全策略中开启DPI检测。

#

app-profile 0_IPv4

 ips apply policy default mode protect

 data-filter apply policy default

 url-filter apply policy default

 file-filter apply policy default

 anti-virus apply policy default mode protect

#

security-policy ip

 rule 0 name 1

  action pass

  profile 0_IPv4

  source-zone Trust

  source-zone Untrust

  destination-zone Trust

  destination-zone Untrust

#

故障描述

开启DPI业务,数据中心无日志输出,或者数据中心日志长时间不更新

15.10.2  故障处理步骤

(1)    查看设备当前的DPI状态,设备运行状态为normal

[SYSNAME]display inspect status

Chassis 0 Slot 1:

Running status: normal

(2)    查看rule hit情况:

[SYSNAME-probe]display  system  internal  inspect  hit-statistics

Slot 1:

Rule ID     Module      Rule hits  AC hits    PCRE try   PCRE hits

0           FFILTER     0          78225      0          0

0           DFILTER     0          545415     0          0

1           FFILTER     0          78225      0          0

1           DFILTER     0          545415     0          0

2           FFILTER     52341      78225      52341      52341

2           DFILTER     0          545415     0          0

3           FFILTER     0          78225      0          0

3           DFILTER     0          545415     0          0

4           FFILTER     25884      78225      25884      25884

4           DFILTER     0          545415     0          0

2147483652  FFILTER     359139     359139     0          0

5           FFILTER     0          78225      0          0

5           DFILTER     0          545415     0          0

2147483653  FFILTER     9          9          0          0

6           FFILTER     0          78225      0          0

6           DFILTER     0          545415     0          0

2147483654  FFILTER     207554     207554     0          0

7           FFILTER     0          78225      0          0

7           DFILTER     0          545415     0          0

2147483656  FFILTER     159715     159715     0          0

2147483657  FFILTER     985048     985048     0          0

(3)    等待一段时间,查看数据中心是否有日志输出,数据中心日志不能实时更新,需要等待一段时间。

(4)    查看设备时间和日期与本地PC是否一致。

<sysname>display  clock

18:37:21 UTC Tue 11/26/2019

可以使用命令行或者在Web上进行设备时间和日期的修改。

<sysname>clock  datetime 19:52:33 2019/11/26

(5)    流量日志等日志输出需要开启会话统计。

[SYSNAME]session statistics enable

(6)    URL过滤为减少日志输出,将cssgificojpgjspngswfxml默认不输出数据中心日志。使用下面命令可以使之输出。

undo url-filter log except pre-defined { css | gif | ico | jpg | js | png | swf | xml }

(7)    设备日志存储空间达到上限,并且对上限的处理动作为提示。

配置数据分析中心存储空间的命令行为:

dac storage service service-type service-namelimit { hold-time time-value | usage usage-value |action { delete | log-only } }

缺省情况下,数据分析中心各业务存储空间上限为20%、存储空间时间上限为365天、处理动作为删除。

可以对日志存储空间设置恢复为缺省情况。

(8)    前面都检查没有问题后数据中心还是不能输出日志,有可能ntopd有异常,此时需要协助抓取对应的交互报文反馈报文和设备诊断信息给研发进行分析。

15.10.3  故障诊断命令

命令

说明

url-filter log except pre-defined { css | gif | ico | jpg | js | png | swf | xml }

配置URL过滤对预定义类型网页资源的访问不进行日志记录

session statistics enable

开启软件快速转发的会话统计功能

display inspect status

显示应用层检测引擎的工作状态。

dac storage service service-type service-name limit { hold-time time-value | usage usage-value | action { delete | log-only } }

配置数据分析中心存储空间

 

16 策略加速对设备CPU的影响

16.1  对象策略加速使得CPU升高

16.1.1  故障描述

流量下,由于新建或者修改一条对象策略规则会加速一次,所以短时间内持续下刷或更改策略规则配置会使得设备CPU持续升高的现象。

16.1.2  故障排查

升级策略加速优化版本,支持对象策略延迟加速功能,即等连续几条对象策略配置下发完成后再进行一次加速,可以避免当前刷配置导致cpu高的现象。

延迟加速功能版本支持情况:

D032SP版本支持情况:D032SP26及后续版本;

D045SP版本支持情况:D045SP07及后续版本。

16.2  安全策略自动加速

16.2.1  故障描述

流量下,安全策略不支持加速的时候走满匹配,多策略配置会消耗cpu

16.2.2  故障排查

升级安全策略加速功能版本,并支持安全策略自动加速功能,即新建和更改策略项配置时2秒后(策略不大于100条时)进行策略加速,或20秒后(策略总数大于100条)进行策略加速。

安全策略加速功能版本支持情况:

D032SP版本支持情况:都支持;

D045SP版本支持情况:都支持。

17 高可靠性与VRRP 故障处理

17.1  同一个VRRP备份组内两台防火墙的VRRP状态都为backup

17.1.1  故障描述

图8  组网图

 

1. 组网需求

两台Device上下行分别接入二层交换机,Device的上下行接口工作在三层模式。

两台Device之间建立一条RBM通道。

两台Device上下行分别配置两个VRRP备份组,并与RBM关联,具体如下:

¡  Device A上下行业务接口的VRRP备份组13加入Active groupDevice A上下行业务接口的VRRP备份组24加入Standby group

¡  Device B上下行业务接口的VRRP备份组13加入Standby groupDevice B上下行业务接口的VRRP备份组24加入Active group

两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。

Router上需要将去往Host A路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。

Router上需要将去往Host B路由的下一跳指定为VRRP备份组2的虚拟IP地址(此示例中为2.1.1.4)。

Host A上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址(此示例中为10.1.1.3)。

Host B上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址(此示例中为10.1.1.4)。

Switch A需要将连接DeviceRouter的接口加入相同的VLAN

Switch B需要将连接DeviceHost的接口加入相同的VLAN

2. 故障描述

观察发现,两台防火墙的VRRP状态都为Backup

17.1.2  故障处理步骤

(1)      检查RBM控制通道连接是否正常,使用命令行display remote-backup-group  status

RBM_P[M9012_1]dis remote-backup-group  status

Remote backup group information:

  Backup mode: Dual-active

  Device management role: Primary

  Device running status: Active

  Data channel interface: Route-Aggregation1023

  Local IP: 30.24.0.1

  Remote IP: 30.24.0.2    Destination port: 60164

  Control channel status: Connected

  Keepalive interval: 1s

  Keepalive count: 10

  Configuration consistency check interval: 1 hour

  Configuration consistency check result: Consistent(2020-12-17 10:55:15)

  Configuration backup status: Auto sync enabled

  Session backup status: Hot backup enabled

  Delay-time: 1 min

Control channel status如果显示为Connected 则表示正常。如果显示未disconnected,则表示状态断连,需要检查RBM控制通道使用的接口的物料状态。

(2)      检查 业务板是否为选中状态,使用命令行display link-aggregation verbose Blade-Aggregation

RBM_P[M9012_1]dis link-aggregation  verbose  Blade-Aggregation

Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing

Port Status: S -- Selected, U -- Unselected, I -- Individual

Port: A -- Auto port

Flags:  A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,

        D -- Synchronization, E -- Collecting, F -- Distributing,

        G -- Defaulted, H -- Expired

 

Aggregate Interface: Blade-Aggregation1

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/1       S       32768    4

  Blade7/0/1       S       32768    4

 

Aggregate Interface: Blade-Aggregation257

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  Blade4/0/2       S       32768    5

  Blade7/0/2       S       32768    5

Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。

如果上述都没有发现问题,但是两台防火墙的VRRP状态都为BackUP,请联系技术支持人员。

18 攻击防范故障处理

18.1  配置FIN的泛洪攻击,设备不报该攻击

18.1.1  故障描述

图9  组网图

 

1. 组网需求:

外网设备通过防火墙访问sever,防火墙上开启攻击防范业务,保护内网server免受攻击。

2. 配置描述

配置攻击防范策略,对fin的泛洪进行检测

attack-defense policy 1

 fin-flood detect non-specific

 fin-flood action logging drop client-verify

在入方向安全域下应用攻击防范策略

security-zone name Untrust

attack-defense apply policy 1

3. 故障描述

外网用户向server发起fin的泛洪攻击,防火墙设备没有报日志,流量也没有转发出去。

18.1.2  故障处理步骤

(1)      首先排查配置问题,攻击防范策略是否配置在入方向的安全域上,对于fin的攻击是否进行配置。

(2)      使用命令行display attack-defense malformed-packet statistics排查是否是畸形报文丢包了。(fin是畸   形报文的一种)

(3)      检查流量进来的目的地址是否唯一,对于唯一的目的地址的阈值是否达到阈值门限

(4)      如果上述都没有发现问题,请联系技术支持人员。

18.1.3  故障诊断命令

命令

说明

display attack-defense policy {name}

显示攻击防范配置

display  attack-defense statistics security-zone{ zone }

显示攻击防范丢包统计

display blacklist { ip | ipv6 }

显示黑名单统计

 

19 无威胁日志问题处理

19.1  IPS设备无威胁日志

19.1.1  故障描述

图10    组网图

 

1. 组网需求:

PC访问Internet的流量由PC---Switch---Internet进行转发,T9012-S旁挂在交换机上并接收镜像流量做IPS处理,这种组网为最常见的旁挂部署方式。

2. 配置描述

配置交换机镜像组和镜像源目的接口;

配置IDS设备inline黑洞模式的Bridge实例并添加接口;

配置安全域并添加接口;

安全策略中引用IPS策略;

3. 故障描述

网络流量中有攻击报文,设备长时间不报威胁日志。

19.1.2  故障处理步骤

1. 整体处理思路:

 

2. 会话判断:

display session table ipv4 verbose

查看设备是否存在会话,以及会话是否正常,主要从会话状态,应用,以及是否是单向流判断。

Initiator:

  Source      IP/port: 8:7:6:5:4:3:2:2/6158

  Destination IP/port: 1:2:3:4:5:6:7:7/110

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: Ten-GigabitEthernet2/2/0/10

  Source security zone: Untrust

Responder:

  Source      IP/port: 1:2:3:4:5:6:7:7/110

  Destination IP/port: 8:7:6:5:4:3:2:2/6158

  VPN instance/VLAN ID/Inline ID: -/-/-

  Protocol: TCP(6)

  Inbound interface: Ten-GigabitEthernet2/2/0/9

  Source security zone: Trust

State: TCP_ESTABLISHED     //如果状态有问题,三次握手不全,无法检测,无法产生ips日志

Application: POP3          //如果应用不识别,无法产生ips日志

Rule ID: 0

Rule name: v6

Start time: 2018-12-27 18:49:14  TTL: 1199s

Initiator->Responder:            5 packets        406 bytes

Responder->Initiator:            4 packets        303 bytes

//如果是单向流,特征不完全,检测失败,无法产生ips日志

 

3. 无会话:

display counters rate inbound interface

判断相应接口是否有流量被镜像过来,如果没有,需检查交换机镜像配置。

4. 判断设备是否有丢包:

display system internal ip packet-drop statistics

display system internal aspf statistics zone-pair ipv4

有些环境因为配置等问题,报文还未走到DPI模块就被丢弃了,自然无法产生IPS日志。

5. 有会话,但会话不全:

这种情况多数为交换机镜像过来的正反向报文没有从同一个物理口或逻辑口进入设备,需要注意黑洞模式的接口对配置。

6. 会话正常:

会话正常的情况下,查看license和特征库版本,display security-policy ip,查看安全策略配置,确认内容安全是否引用了ips策略,以及安全策略的命中情况,以确保流量是命中了开启内容安全的那条安全策略。

display inspect status

查看是否处于bypass状态,当处于bypass状态时,设备不做dpi检测。

dis inspect status

Chassis 1 Slot 0:

Running status: normal

display system internal inspect hit-statistics

确认报文是否经过DPI检测,如下所示,设备进行了DPI检测,但是报文仅仅命中部分AC,没有完整命中特征,所以不会产生日志。Rule hits下不为0时,表示有报文命中了规则。

display system internal inspect hit-statistics

Rule ID    Module   Rule hits  AC hits    PCRE try   PCRE hits

1855       IPS        0        1         0        0

20 单板隔离导致的板卡下电或重启

20.1  板件内联口故障对单板的影响

20.1.1  故障描述

单板出现异常重启或者下电

20.1.2  故障处理步骤

1. 单板异常重启

查看diagfile.log日志

<M9k>more diagfile/diagfile.log

查看设备diagfile.log日志,如果有单板间的hg口故障日志,表明单板间的内联口出现故障,而裁决单板重启,若单板重启后,内联口恢复正常,将日志发给技术支持人员进行分析。

%@12527^Dec 19 16:10:56:906 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.

%@12528^Dec 19 16:10:56:640 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=13; Chassis 1 Slot 13 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 8: The source port went down.

%@12529^Dec 19 16:10:57:376 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=11; Chassis 1 Slot 11 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 3: The source port went down.

%@12530^Dec 19 16:10:56:740 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=12; Chassis 1 Slot 12 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 6: The source port went down.

%@12554^Dec 19 16:11:11:959 2020 M9k DRV/3/FAULT_MONITOR_BITMAP:

Fault PhySlot List: 3

Fault Reason BitMap:

slot    :  0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17

           -----------------------------------------------------

Fabric1 :  5  5  5  2  5  5  5  5  5  5  5  5  5  5  5  5  5  5

Fabric2 :  5  5  5  2  5  5  5  5  5  5  5  5  5  5  5  5  5  5

Fabric3 :  5  5  5  2  5  5  5  5  5  5  5  5  5  5  5  5  5  5

Fabric4 :  5  5  5  2  5  5  5  5  5  5  5  5  5  5  5  5  5  5

           -----------------------------------------------------

IO board:  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5

 

Fault Reason: 0-RFCS, 1-RERPKT, 2-DOWN, 3-UNRESP, 4-1bit, 5-NORMAL

%@12555^Dec 19 16:11:11:960 2020 M9k DRV/3/FAULT_MONITOR_REBOOT: Chassis 1 Slot 3: The card will be restarted due to a hardware failure.

 

查看logfile.log日志

<M9k>more logfile/logfile.log

查看设备logfile.log日志,如果有单板间的hg口故障日志,表明单板间的内联口出现故障,而裁决单板重启,若单板重启后,内联口恢复正常,将日志发给技术支持人员进行分析。

%@4387931%Dec 19 16:10:56:906 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.

%@4387932%Dec 19 16:10:56:640 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=13; Chassis 1 Slot 13 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 8: The connectivity of the internal port failed.

%@4387933%Dec 19 16:10:57:376 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=11; Chassis 1 Slot 11 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 3: The connectivity of the internal port failed.

%@4387934%Dec 19 16:10:56:740 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=12; Chassis 1 Slot 12 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 6: The connectivity of the internal port failed.

%@4387947%Dec 19 16:11:11:960 2020 M9k DRV/3/FAULT_MONITOR_REBOOT: Chassis 1 Slot 3: The card will be restarted due to a hardware failure.

%@4387948%Dec 19 16:11:12:151 2020 M9k DEV/2/BOARD_STATE_FAULT: Board state changed to Fault on chassis 1 slot 3, type is NSQM1FWEFGA0.

 

2. 单板异常下电

查看diagfile.log日志

<M9k>more diagfile/diagfile.log

查看设备diagfile.log日志,如果半小时内出现3次单板间的hg口故障而导致到重启,最后出现“The card will be isolated due to a hardware failure”日志时,表明单板间的内联口出现故障并且无法通过重启恢复,而裁决单板下电隔离,此时可查看日志将hg口故障涉及到单板进行更换,并将日志发给技术支持人员进行分析。

%@12574^Dec 19 17:15:53:091 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.

%@12584^Dec 19 17:23:57:002 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.

%@12605^Dec 19 17:32:34:001 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.

%@12615^Dec 19 17:32:54:996 2020 M9k DRV/3/FAULT_MONITOR_BITMAP:

Fault PhySlot List: 10

Fault Reason BitMap:

slot    :  0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17

           -----------------------------------------------------

Fabric1 :  5  5  5  2  5  5  5  5  5  5  5  5  5  5  5  5  5  5

Fabric2 :  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5

Fabric3 :  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5

Fabric4 :  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5

           -----------------------------------------------------

IO board:  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5  5

 

Fault Reason: 0-RFCS, 1-RERPKT, 2-DOWN, 3-UNRESP, 4-1bit, 5-NORMAL

%@12616^Dec 19 17:32:54:996 2020 M9k DRV/3/FAULT_MONITOR_ISOLATE: Chassis 1 Slot 10: The card will be isolated due to a hardware failure.

 

查看logfile.log日志

<M9k>more logfile/logfile.log

查看设备logfile.log日志,如果半小时内出现3次单板间的hg口故障而导致到重启,最后出现“The card will be isolated due to a hardware failure”日志时,表明单板间的内联口出现故障并且无法通过重启恢复,而裁决单板下电隔离,此时可查看日志将hg口故障涉及到单板进行更换,并将日志发给技术支持人员进行分析。

%@4388208%Dec 19 17:15:40:345 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.

%@4388291%Dec 19 17:23:57:002 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.

%@4388385%Dec 19 17:32:34:001 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.

%@4388389%Dec 19 17:32:54:996 2020 M9k DRV/3/FAULT_MONITOR_ISOLATE: Chassis 1 Slot 10: The card will be isolated due to a hardware failure.

21 电子标签获取失败故障处理

21.1  电子标签信息

电子标签信息也可以称为永久配置数据或档案信息等,在硬件的调测(调试、测试)过程中被写入到设备的存储器件中,包括硬件的名称、生产序列号、MAC地址、制造商、产品代码等信息。电子标签作用是获取设备SNDID信息。设备的SNDID申请激活文件,并将激活文件安装在该设备上。该设备才能获得授权,可以运行指定的特性。

21.1.1  故障描述

display device manuinfo显示电子标签丢失,无法获取SNDID信息,不能进一步进行Lincense授权。

21.1.2  故障处理步骤

1. 日志定位

(1)      如果是主备倒换导致电子标签丢失,因为主备倒换需要重启设备,可以通过locallogbuflocallogbuffer是驱动记录的底层信息)日志查看异常情况。

[B-probe]local logbuffer 10 display

查看到异常打印信息

举例说明,日志异常打印:

Sep 08 2020 16:54:36:488937:

LINE:152-TASK:ofpd-FUNC:BSP_E2PROM_Read_OnSelec:

Get I2C MutexSem1 fail.

Sep 08 2020 16:54:36:596761:

LINE:2077-TASK:TEMP-FUNC:drv_sysm_get_power_size_75X:

Get I2C MutexSem1 fail.

Sep 08 2020 16:54:37:489907:

LINE:5780-TASK:ofpd-FUNC:DRV_SYSM_SysGetManufactureInfo:

In function:BSP_E2PROM_Read_OnSelec, Read manual infoerror

Sep 08 2020 16:54:37:489967:

LINE:6089-TASK:ofpd-FUNC:DRV_SYSM_ManuInfoResolve:

Read manufacture information Fail!

Sep 08 2020 16:54:37:490005:

LINE:12303-TASK:ofpd-FUNC:DRV_DEVM_GetManuInfo:

Get chassis manu info failed!

2. 解决措施

在电子标签读取失败的情况下,查询上述日志信息后,请将搜集到的信息发送给H3C技术支持人员分析。

21.1.3  故障诊断命令

# 显示设备的电子标签信息。

<Sysname> display device manuinfo

Slot 1 CPU 0:

DEVICE_NAME          : XXXX

DEVICE_SERIAL_NUMBER : XXXXXXXXXXXXXXXXXXXX

MAC_ADDRESS          : XXXX-XXXX-XXXX

MANUFACTURING_DATE   : XXXX-XX-XX

VENDOR_NAME          : H3C

PRODUCT ID           : XX-XXXX-XX

Subslot 1:

DEVICE_NAME          : XXXX

DEVICE_SERIAL_NUMBER : XXXXXXXXXXXXXXXXXXXX

MANUFACTURING_DATE   : XXXX-XX-XX

VENDOR_NAME          : H3C

Fan 1:

DEVICE_NAME          : XXXX

DEVICE_SERIAL_NUMBER : XXXXXXXXXX

MANUFACTURING_DATE   : XXXX-XX-XX

VENDOR_NAME          : H3C

Fan 2:

DEVICE_NAME          : XXXX

DEVICE_SERIAL_NUMBER : XXXXXXXXXX

MANUFACTURING_DATE   : XXXX-XX-XX

VENDOR_NAME          : H3C

Power 1:

DEVICE_NAME          : XXXX

DEVICE_SERIAL_NUMBER : XXXXXXXXXXXXXXXXXXXX

MANUFACTURING_DATE   : XXXX-XX-XX

VENDOR_NAME          : H3C

表6  display device manuinfo命令信息显示描述表

字段

描述

Slot 1 CPU 0:

表示设备的电子标签信息,包括:

·       DEVICE_NAME:表示设备的名称

·       DEVICE_SERIAL_NUMBER:表示设备的序列号

·       MAC_ADDRESS:表示设备出厂MAC地址

·       MANUFACTURING_DATE:表示设备的调测日期

·       VENDOR_NAME:表示设备制造商的名称

·       PRODUCT ID:表示产品代码

Subslot 1:

表示子卡的电子标签信息

Fan 1:

表示风扇的电子标签信息

Power 1:

表示电源的电子标签信息

 

22 设备主控、业务板卡版本不一致故障处理

22.1  查看主控、业务板卡版本信息

通过任一视图下display devicedis versionprobe视图下display system internal version查看状态正常的设备的版本情况。

22.1.1  故障描述

设备的主控版本、业务版本都应该取自相同的版本路径。否则会导致主控、业务板卡版本不一致,使得业务板卡fault状态(比如主控取45SP分支版本,业务板取32SP分支版本,业务板会fault启动不了)

22.1.2  故障处理步骤

1. 主控、业务板卡取的分支不同导致板卡fault启动不了

如果主控、业务板卡取的分支不同导致板卡fault,启动不了,会有两种情况。一种是板卡一直fault,板卡一直在重启状态;一种是板卡fault卡住不动。针对上述情况,bootlooderweb升级版本解决问题不在适用,只能通过bootwareCtrl+B)方式升级版本解决板卡fault问题。板卡fault卡住不动需要插拔板卡让板卡重启,手动连续按Ctrl+B,使得板卡进入bootware升级界面,通过bootware方式升级版本解决板卡fault问题。

2. 故障诊断相关命令

<sysname>display boot-loader

Software images on chassis 1 slot 0:

Current software images:

  flash:/M9000-CMW710-BOOT-R9153P22.bin

  flash:/M9000-CMW710-SYSTEM-R9153P22.bin

  flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

  flash:/M9000-CMW710-BOOT-R9153P22.bin

  flash:/M9000-CMW710-SYSTEM-R9153P22.bin

  flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

    None

Software images on chassis 1 slot 1:

Current software images:

  flash:/M9000-CMW710-BOOT-R9153P22.bin

  flash:/M9000-CMW710-SYSTEM-R9153P22.bin

  flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

  flash:/M9000-CMW710-BOOT-R9153P22.bin

  flash:/M9000-CMW710-SYSTEM-R9153P22.bin

  flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

   None

Software images on chassis 1 slot 2.1:

Current software images:

  sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

  sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

  None

Software images on chassis 1 slot 3.1:

Current software images:

  sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

  sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

  None

Software images on chassis 2 slot 0:

Current software images:

  flash:/M9000-CMW710-BOOT-R9153P22.bin

  flash:/M9000-CMW710-SYSTEM-R9153P22.bin

  flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

  flash:/M9000-CMW710-BOOT-R9153P22.bin

  flash:/M9000-CMW710-SYSTEM-R9153P22.bin

  flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

  None

Software images on chassis 2 slot 1:

Current software images:

  flash:/M9000-CMW710-BOOT-R9153P22.bin

  flash:/M9000-CMW710-SYSTEM-R9153P22.bin

  flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

  flash:/M9000-CMW710-BOOT-R9153P22.bin

  flash:/M9000-CMW710-SYSTEM-R9153P22.bin

  flash:/M9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

  None

Software images on chassis 2 slot 2.1:

Current software images:

  sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

  sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

  None

Software images on chassis 2 slot 3.1:

Current software images:

  sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Main startup software images:

  sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin

  sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin

Backup startup software images:

  None

<sysname>

23 负载均衡故障处理

23.1  引用TCP类型健康检查后,实服务器状态为Probe-failed状态

23.1.1  故障描述

按照点配配置TCP健康检查将其引用后,(实服务器组下)实服务器的状态为Probe-failed状态

23.1.2  故障处理流程

图23-1 流程图:

 

先确定是实服务器组引用健康检查还是实服务器引用健康检查

2. 实服务器组引用健康检查

(1)      实服务器组下的成员是否指定了端口号

(2)      实服务器组下的成员的目的地址是否可达

(3)      实服务器组下的成员的目的端口是否开放

(4)      TCP健康检查内部是否配置了目的地址与目的端口

3. 实服务器引用了健康检查

(1)      实服务器下的成员是否指定了端口号

(2)      实服务器下的成员目的地址是否可达

(3)      对端的服务器其端口是否开放

(4)      TCP健康检查内部是否配置了目的地址与目的端口

23.1.3  故障处理步骤

1. 实服务器组下引用健康检查

(1)      实服务器组下的成员没有指定端口号,其端口号配置成了0,导致健康检查发送不出去修改实服务器组下成员的端口,配置其为真实业务端口

(2)      ping 下实服务器组下的各个成员的地址,确保可以ping 通,达到网络可达的目的跟网络管理员确定网络连接状态正常,负载均衡设备发出的健康检查报文可以明确发送到设备上

(3)      检查实服务器组下的目的端口是否开放,通过在负载均衡设备上执行telnet x.x.x.x port的方式,通过回显观察其端口是否开放

例如:telnet 1.1.1.1 8080

如果其回显为400 bad request,则意味着对端业务端口肯定为开放状态,且网络传输正常

如果没有回显,则意味着需要抓包排查,参考步骤3

(4)      TCP健康检查内部是否配置了目的地址与目的端口,典型配置中TCP的健康检查是不需要配置目的地址与目的端口的,如果配置了,那就是检查其配置中的地址和端口的网络情况和端口开放情况

如果特殊需求,健康检查内部配置了目的地址和端口,那么重复步骤(1)~(3)查其失效原因

2. 实服务器下引用健康检查

重复步骤(1)~(4

3. 抓包排查

当(1)~(3)都排查完毕无法解决时,请抓包排查其失败原因。抓包排查的几种情况如下:

·              报文发出去但是没响应

 

举例:负载均衡设备接口地址是32.253.7.1,服务器地址是10.113.119.1,探测端口为8080

通过报文观察,报文发送出去后,一直没有收到响应,我们设备重传了2次,此时,可以排除非设备原因,排除网络因素,跟网络管理员确定报文是否发到服务器上,服务器收到了报文是否响应,去的路径和回来的路径是否被其他应用层设备阻断。

 

·              报文发出并且收到了rst响应

 

举例:负载均衡设备接口地址是32.253.7.1,服务器地址是10.113.119.1,探测端口为8080

通过报文观察,报文发送出去后,服务器回复了rst,意味着网络传输没问题,有收有发,但是服务器回复rst,代表8080端口没有开放,联系网络管理员放开8080业务端口即可

·              报文发出并且收到了正常的响应

举例:负载均衡设备接口地址是32.253.6.150,服务器地址是10.113.119.1,探测端口为8080

通过报文观察,报文syn发送出去后,服务器回复了syn-ack,然后设备马上发送rst将此连接关闭,这代表健康检查报文发送的整个流程都是正常的,此时实服务器组(实服务器)不该出现probe-failed的状态,如果出现此种情况,请联系技术支持人员

23.1.4  故障诊断命令

此处列出故障处理时可能会用到的命令(包括显示命令、debug命令和probe命令),说明命令的作用。

也可说明命令在故障定位中的用途(可选)

命令按照字母顺序排序。

举例:

命令

说明

display server-farm

显示实服务器组的状态信息

display  real-server

显示实服务器的状态信息

display current-configuration configuration nqa-tplt-tcp

显示TCP类型健康检查的配置信息

display current-configuration configuration server-farm

显示实服务器组的配置信息

display current-configuration configuration real-server

显示实服务器的配置信息

debugging tcp packet acl xxx

开启TCP报文的调试信息

debugging nqa all acl xxx

开启NQA报文的调试信息

23.2  引用HTTP健康检查后,实服务器状态为Probe-failed状态

23.2.1  故障描述

按照点配配置HTTP健康检查将其引用后,(实服务器组下)实服务器的状态为Probe-failed状态

23.2.2  故障处理流程

图23-2 流程图如下:

 

先确定是实服务器组引用健康检查还是实服务器引用健康检查

2. 实服务器组引用健康检查

(1)      实服务器组下的成员是否指定了端口号

(2)      实服务器组下的成员的目的地址是否可达

(3)      实服务器组下的成员的目的端口是否开放

(4)      HTTP健康检查报文内容是否填写正确

3. 实服务器引用了健康检查

(1)      实服务器下的成员是否指定了端口号

(2)      实服务器下的成员目的地址是否可达

(3)      对端的服务器其端口是否开放

(4)      HTTP健康检查报文内容是否填写正确

23.2.3  故障处理步骤

1. 实服务器组下引用健康检查

(1)      实服务器组下成员没有指定端口号,其端口号配置成了0,导致健康检查发送不出去,修改实服务器组下成员的端口,配置其为真实业务的端口。

(2)      ping 下实服务器组下的各个成员的地址,确保可以ping 通,达到网络可达的目的,跟网络管理员确定网络连接状态正常,负载均衡设备发出的健康检查报文可以明确发送到设备上。

(3)      检查实服务器组下的目的端口是否开放,通过在负载均衡设备上执行telnet x.x.x.x port的方式,通过回显观察其端口是否开放。

例如:telnet 1.1.1.1 8080

如果其回显为400 bad request,则意味着对端业务端口肯定为开放状态,且网络传输正常

如果没有回显,则意味着需要抓包排查,参考步骤3

(4)      确认HTTP健康检查发送的报文内容是否填写正确,发送到服务器是服务器是否可以成功处理,此种诊断方式只能通过抓包确认,抓取负载均衡设备上发送出去的报文,抓包诊断参考步骤3

2. 实服务器下引用健康检查

重复步骤(1)~(4)。

3. 抓包排查

当(1)~(3)都配置正常的时候,就需要通过抓包的方式观察健康检查发包流程是否正常

·              报文发送出去答复的状态码为4xx

如下图报文所示:LB地址26.1.1.148,后台server地址为26.1.1.1,当我们发生HTTP请求后,server回复400 Bad,此时原因是我们请求头写的不对,请跟网络管理员确定正确的请求头是什么样子重新配置(对于不同4XX状态码可以网上搜索到具体原因,例如400bad很大原因是host字段写的不对或者是没有携带host字段)。

 

·              报文发送出去答复的状态码为200

如下图报文所示:LB地址26.1.1.148,后台server地址为26.1.1.1,当我们发生HTTP请求后,server回复200OK,如果测试健康检查配置的期待状态码为200expect status 200),则此时的健康检查应该为成功,如果仍旧不成功,请联系技术支持人员。

 

23.2.4  故障诊断命令

命令

说明

display server-farm

显示实服务器组的状态信息

display  real-server

显示实服务器的状态信息

display current-configuration configuration nqa-tplt-http

显示HTTP类型健康检查的配置信息

display current-configuration configuration server-farm

显示实服务器组的配置信息

display current-configuration configuration real-server

显示实服务器的配置信息

debugging tcp packet acl xxx

开启TCP报文的调试信息

debugging nqa all acl xxx

开启NQA报文的调试信息

 

23.3  引用UDP健康检查后,实服务器状态为Probe-failed状态

23.3.1  故障描述

按照点配置UDP健康检查将其引用后(同时也要引用ICMP健康检查,UDP的健康检查必须捆绑ICMP健康检查一同使用),(实服务器组下)实服务器的状态为Probe-failed状态。

23.3.2  故障处理流程

图23-3 流程图

 

先确定是实服务器组引用健康检查还是实服务器引用健康检查。

2. 实服务器组引用健康检查

(1)      健康检查下是否配置了端口检测功能与添加字符串功能。

(2)      实服务器组下的成员是否引用了ICMP的健康检查。

(3)      实服务器组下的成员的目的地址是否可达。

(4)      实服务器组下的成员是否指定了端口号。

(5)      实服务器组下的成员的目的端口是否开放。

3. 实服务器引用了健康检查

(1)      健康检查下是否配置了端口检测功能与添加字符串功能。

(2)      实服务器下的成员是否引用了ICMP的健康检查。

(3)      实服务器下的成员目的地址是否可达。

(4)      实服务器下的成员是否指定了端口。

(5)      对端的服务器其端口是否开放。

23.3.3  故障处理步骤

1. 实服务器组引用健康检查

(1)      优先检查UDP健康检查是否配置了端口检测功能与添加字符串功能,开启UDP模板的端口检测功能用于测试对端UDP服务的端口是否可用。如果在探测超时时间(probe timeout命令配置)内,没有收到任何标识目的端不可达的ICMP差错报文,则认为探测成功,反之则认为探测失败。需要在服务器端开启ICMP目的不可达报文发送功能,如果目的端是H3C设备,需要在设备上执行ip unreachables enable命令。另外,需要配置data-fill string rawhex-data-fill hex raw命令,填充字符串可以是在参数允许范围内的任意值。

(2)      由于UDP协议的特殊性与UDP健康检查的成功机制,请绑定ICMP的健康检查共同使用;ICMP健康检查用来探测链路的可达状态,用来排查ICMP差错报文是否可以返回到负载均衡设备上。

(3)      与(4)的排查方法参考HTTP/TCP健康检查的排查方式

(4)      针对UDP的端口是否开放,只能通过抓包进行排查,详情参考步骤3

2. 实服务器引用了健康检查

排查步骤重复步骤(1)中的流程即可

3. 抓包排查

由于UDP协议的特殊下,再进行抓包排查的时候,同时观察ping报文和udp报文的传输

·              设备上发出报文无响应,但是ping报文有答复

报文实例:

负载均衡地址为26.1.1.148,后台服务器地址26.1.1.1;可以看到UDP报文只有单向,没有答复;但是ICMP报文有交互,有请求也有响应,所以此时的UDP健康检查应该是成功的,如果此时的UDP健康检查还处在失败状态,请联系技术支持人员。

 

·              设备上发出的包有响应(ICMP差错报文),同时ping报文有答复

报文实例:

负载均衡地址为26.1.1.148,后台服务器地址26.1.1.1;可以看到UDP报文发送出去后,收到一个ICMP差错报文(目的端口不可达),所以其UDP健康检查就是失败的,此时需要联系客户管理员确定服务器端UDP的端口是否为开放状态

 

23.3.4  故障诊断命令

命令

说明

display server-farm

显示实服务器组的状态信息

display  real-server

显示实服务器的状态信息

display current-configuration configuration nqa-tplt-udp

显示UDP类型健康检查的配置信息

display current-configuration configuration server-farm

显示实服务器组的配置信息

display current-configuration configuration real-server

显示实服务器的配置信息

debugging udp packet acl xxx

开启UDP报文的调试信息

debugging nqa all acl xxx

开启NQA报文的调试信息

 

23.4  PKI与导入证书提示缺少key

23.4.1  故障描述

进行SSL卸载配置的时候,客户本身已经提供了证书文件,但是再进行导入的时候,导入失败,提示缺少key

23.4.2  故障处理流程

首先要对ssl证书有一定的概念,理解根ca,中间calocal证书以及key文件的概念。

他们之间的关系可如下所示

CA签发中间CA----------中间CA签发给LOCALkey文件用来对local加密

在此基础上,排查方式如下:

1. 客户提供的local证书文件是否包含key文件

(1)      如果是包含key文件,那么请将key文件分离出来后单独导入

(2)      如果不包含key文件,那么请向客户索取key文件后再进行导入

23.4.3  故障处理步骤

(1)      首先先将客户提供的证书转换为pem编码格式(先将非pem编码的格式导入到浏览器中,然后在从浏览器将此证书以pem编码方式导出来),然后以文本形式打开证书文件,观察其内容是否有【BEGIN RSA PRIVATE KEY】关键字段,如果有,则说明客户提供的证书本身是包含key文件的,请单独将【BEGIN RSA PRIVATE KEY】部分的内容以文本形式粘贴出来,保存为.key文件后上传到设备的flash下,通过执行如下命令来看是否能正确加载密钥:public-key local import rsa xxx filename xxx.key如果加载失败,请联系技术支持人员

(2)      如果本身不包含【BEGIN RSA PRIVATE KEY】关键字段,则提供的证书文件不包含key文件,请联系客户索取key文件,如果客户提供单独的.key文件,则重复步骤1.1进行加载处理

23.4.4  故障诊断命令

命令

说明

display pki certificate domain xxx ca

查看PKI域加载的CA证书信息

display pki certificate domain xxx local

查看PKI域加载的Local证书信息

display public-key local rsa public

查看本地设备的密钥信息

 

23.5  虚服务器业务配置完毕后,虚服务器处于Inactive状态

23.5.1  故障描述

按照典型配置手册配置完毕后,虚服务器处于Inactive状态。

23.5.2  故障处理流程

(1)      虚服务器是否引用了实服务器组(或负载均衡策略)。

(2)      虚服务器引用的实服务器组(或负载均衡策略)是否存在。

(3)      虚服务器引用的实服务器组下(或负载均衡策略下的实服务器组)的成员健康检查是否成功。

(4)      虚服务器下是否配置了重定向(或引用的负载均策略下是否配置了重定向)。

 

23.5.3  故障处理步骤

(1)      检查配置,确定虚服务器是否引用了实服务器组(或负载均衡策略),如果没有没引用,虚服务器必然是Inactive状态。

(2)      检查配置,如果引用了实服务器组(或负载均衡策略),请检查引用的实服务器组(或负载均衡策略及策略下的实服务器组)是否存在,如果不存在,虚服务器必然是Inactive状态。

(3)      检查实服务器组的健康检查状态,如果实服务器组下的所有成员其健康检查都为probe-failed状态,虚服务器必然是Inactive状态;如果排查健康检查的故障,请参考(1)~(3.

(4)      检查虚服务器下是否配置了重定向(或引用的负载均衡策略下是否配置了重定向),如果虚服务器下配置了重定向,则虚服务器必然处于Active状态。

(5)      步骤(1)~(4)中排查完毕无异常,问题仍旧没解决,请联系技术支持人员。

23.5.4  故障诊断命令

命令

说明

display server-farm

显示实服务器组的状态信息

display  real-server

显示实服务器的状态信息

display virtual-server

显示虚服务器状态信息

display current-configuration configuration server-farm

显示实服务器组的配置信息

display current-configuration configuration real-server

显示实服务器的配置信息

display current-configuration configuration virtual-server

显示虚服务器的配置信息

 

23.6  TCP类型虚服务器HTTP业务访问失败

23.6.1  故障描述

TCP类型虚服务器按照典配配置完毕后,HTTP业务访问失败

23.6.2  故障处理流程

(1)      虚服务器是否处于Active状态

(2)      客户端的请求流量是否上送到负载均衡设备上

(3)      负载均衡设备上其虚服务器的计数是否双向都有数据

(4)      客户访问前提下,同时抓取负载均衡设备上的报文与服务器侧的报文进行比对排查

23.6.3  故障处理步骤

(1)      先确定虚服务器是否处于Active状态,处于Active的虚服务器才会正常处理业务,如果虚服务器处于Inactive状态,请参考【3.6】排查其故障;

(2)      客户端的请求流量是否上送到负载均衡设备上,通过执行【display virtual-server statistics name xxx】观察其虚服务器的统计计数,如果有请求流量命中,其命令的回显中【Total connections:】会存在计数,如果计数为0,则代表客户端的到负载均衡这一路径传输存在问题,请排查网络传输环境确保流量上传到负载均衡设备上;

(3)      当流量上传到负载均衡设备上后,且虚服务器统计计数项【Total connections:】存在计数,那么请观察【Received packets:】和【Sent packets】是否都存在计数统计,如果【Received packets】有计数,【Sent packets】没有计数,则代表负载均衡设备与后台服务器的连接建立失败,如果健康检查引用的正确且健康检查处于Active状态,则是因为服务器没有将答复流量转发给负载均衡设备,即客户端访问负载均衡设备,负载均衡设备在不做源地址转换的前提下,将客户端的请求转发给服务器,此时服务器答复报文的目的地址是客户端地址,所以需要网络保障此答复报文先回到负载均衡设备上,联系客户网络管理员配置服务器网关为负载均衡设备;或者负载均衡做snat源地址转换,同时规划路由,确保回程流量也能发到负载均衡设备上。

(4)      抓包排查

a.   4.1 负载均衡设备上抓包排查,服务端业务侧无响应报文

报文示例如下:

客户端地址192.168.43.1,虚服务器地址6.6.6.6,后台服务器地址为26.1.1.1,如下图报文所示:客户端(192.168.43.1)访问虚服务器地址(6.6.6.6),负载均衡将客户端请求转发给后台服务器(26.1.1.1);可以看到客户端请求3次,负载均衡也向服务器请求了3次,均没有收到回包,此时需要联系客户网络管理员,排查网络因素(1、报文是否发到服务器上;2、服务器如果收到了报文是否发送了相关响应)

 

b.   负载均衡设备上抓包排查,服务端响应异常关闭:

客户端地址192.168.43.1,虚服务器地址6.6.6.6,后台服务器地址为26.1.1.1,如下图报文所示:客户端(192.168.43.1)访问虚服务器地址(6.6.6.6),负载均衡将客户端请求转发给后台服务器(26.1.1.1);可以看到负载均衡将syn发给后台服务器后,服务器答复了rst,我们将服务器的rst也回归了客户端,连接关闭,所以导致业务不成功;此时需要联系客户的网络管理员,排查服务器端为何回复rst

 

c.   负载均衡设备上抓包排查,服务端响应状态码异常

客户端地址192.168.43.1,虚服务器地址6.6.6.6,后台服务器地址为26.1.1.1,如下图报文所示:客户端(192.168.43.1)访问虚服务器地址(6.6.6.6),负载均衡将客户端请求转发给后台服务器(26.1.1.1);可以看到负载均衡请求转给后台服务器后,后台服务器回的404报文,我们将服务器的404转发给客户端,所以此时仍然需要联系客户的网络管理员,排查服务器端为何回复404

23.6.4  故障诊断命令

命令

说明

display server-farm

显示实服务器组的状态信息

display  real-server

显示实服务器的状态信息

display virtual-server

显示虚服务器状态信息

display current-configuration configuration server-farm

显示实服务器组的配置信息

display current-configuration configuration real-server

显示实服务器的配置信息

display current-configuration configuration virtual-server

显示虚服务器的配置信息

 

23.7  HTTP类型虚服务器,X-Forward-For功能失效

23.7.1  故障描述

按照点配配置完毕后,X-Forward-For功能失效

23.7.2  故障处理流程

1.确定配置是否正确,业务流量是否按照命中指定的Action行为

2.确定客户的业务是长连接还是短连接

3.长连接情况下,确定配置是否开启了逐请求执行动作的命令

23.7.3  故障处理步骤

1.X-Forward行为是配置Action动作下的,确保流量的确命中了指定的Action,如果没命中,请自行检查负载均衡匹配类和组网联通性问题

2.确定客户的业务是长连接还是短连接,这里对长连接和短连接做下解释

短连接:一个TCP连接里面只有一个HTTP请求报文传输,传输完毕后连接关闭

长连接:一个TCP连接里面大于一个HTTP请求报文传输,传输完毕后连接关闭

如果在组网无问题,Action命中无问题情况下,是短连接下X-Forward-For功能失效,请联系技术支持人员

3.如果在组网无问题,Action命中无问题情况下,是长连接下X-Forward-For功能失效,请先引用HTTP类型的参数模板,且模板开启逐请求执行动作的命令【header modify per-request】;

若以上操作问题仍旧没有解决,请联系技术支持人员

4.附上长短连接情况下的报文

4.1 短连接下X-Forward-For功能报文

报文示例:

一个TCP连接下只有一个get请求,处理完毕后连接关闭,所以是短连接,此种情况下X-Forward成功后会在get报文中观察到

 

4.2长连接下X-Forward-For功能报文,首个HTTP请求X-Forward功能成功,后续请求无X-Forward

报文示例如下:

一个TCP连接下发送了2get请求,2个请求处理完毕后TCP连接被关闭,所以属于长连接

长连接中如果第一个get请求进行了X-Forward-For功能:

 

第二个get请求没有进行X-Forward-For功能:

此时引用HTTP类型参数模板,开启逐请求执行动作命令即可

23.7.4  故障诊断命令

命令

说明

display server-farm

显示实服务器组的状态信息

display  real-server

显示实服务器的状态信息

display virtual-server

显示虚服务器状态信息

display loadbalance class

显示负载均衡匹配策略配置信息

display loadbalance action

显示负载均衡转发动作配置信息

display loadbalance policy

显示负载均衡策略配置信息

display current-configuration configuration server-farm

显示实服务器组的配置信息

display current-configuration configuration real-server

显示实服务器的配置信息

display current-configuration configuration virtual-server

显示虚服务器的配置信息

 

23.8  全局负载均衡DNS域名解析失败

23.8.1  故障描述

按照典型配置配置好后,发起DNS请求后DNS解析失败。

23.8.2  故障处理流程

1.网络连通性排查

2. 检查数据中心配置

3.检查全局DNS监听

4.检查虚服务的状态

5. 检查链路

6.检查全局虚服务池状态

7. 检查全局DNS映射

23.8.3  故障处理步骤

1. 网络连通性排查

当解析失败时首先抓包确认是否有DNS应答,如下:

如果DNS有应答且为解析失败,则进行步骤2

如果DNS无应答,优先确认全局DNS监听下配置解析失败的方式如果使用默认的拒绝,则此时网络连通性问题,请排查客户端到监听网络路由。

确保网络联通性正常的情况下仍然解析失败,继续步骤2

2. 排查数据中心是否使能,是否绑定了链路且保证链路状态正常可用,保证配置正确。(链路状态查看参考步骤5

3. 检查全局DNS监听

3.1 首先保证配置正确,排查全局DNS监听是否使能状态,地址是否正确且为本机地址,未使能情况下不进行监听业务失败。

3.2 确认全局DNS监听配置解析失败的处理方式

l  如果DNS监听下使用的默认的解析失败处理方式是拒绝,查看全局DNS监听统计并抓包查看DNS报文,此时全局监听统计RJTR会有统计,抓包排查DNS有请求和应答报文,应答解析失败,如下

查看全局监听统计RJTR有计数::

[sysname]dis loadbalance  global-dns-listener  statistics                         

Chassis 1 Slot 1 CPU 1:                                                         

Global DNS listener: gdl1                                                      

  Received requests: 0                                                         

  Received valid requests: 0                                                   

  Unresponded requests: 0                                                      

  Rejected requests: 0                                                         

  ------------------------------------------------                             

  RCVR - Received requests, RVR - Received valid requests,                     

  UR - Unresponded requests, RJTR - Rejected requests                          

  Type    RCVR                RVR                 UR                  RJTR     

  A            0                        0                      0                    0        

  AAAA     0                        0                      0                    0        

  MX         0                        0                      0                    0        

  NS         0                        0                       0                   0        

  CNAME 0                        0                       0                   0         

  SOA       0                        0                       0                   0        

  PTR       0                        0                       0                    0        

查看报文中有请求和应答,应答解析失败:

 

进行步骤4继续排查。

l  如果DNS监听下配置解析失败的处理方式是不回应时,查看全局DNS监听统计并抓包看下DNS报文,此时全局监听统计UR项会有计数,抓包排查DNS只有发送的请求报文无应答报文,如下:

查看全局监听统计UR有计数:

[sysname]dis loadbalance  global-dns-listener  statistics                         

Chassis 1 Slot 1 CPU 1:                                                        

Global DNS listener: gdl1                                                      

  Received requests: 0                                                         

  Received valid requests: 0                                                   

  Unresponded requests: 0                                                      

  Rejected requests: 0                                                         

  ------------------------------------------------                             

  RCVR - Received requests, RVR - Received valid requests,                     

  UR - Unresponded requests, RJTR - Rejected requests                          

  Type    RCVR                RVR                 UR                  RJTR      

  A            0                        0                      0                    0        

  AAAA     0                        0                      0                    0        

  MX         0                        0                      0                    0        

  NS         0                        0                       0                   0        

  CNAME 0                        0                       0                   0        

  SOA       0                       0                        0                   0        

         PTR       0                        0                       0                    0        

查看报文中只有请求,没有应答:

进行步骤4继续排查。

4.查看虚服务的状态是否正常,如果是inactive则处于不正常状态,请排查虚服务器处于Inactive的原因,优先保证虚服务状态正常(具体请参考健康检查,实服务器probe-failed步骤);如果虚服务状态active,则继续步骤5

5.检查虚服务池下绑定的link状态是否active

l  如果link下配置了健康检查,且健康检查失败link状态为probe-failed,此时需要排查健康检查失败的原因,如果icmp健康检查,一般网络连通性问题,ping下一跳地址排查网络问题即可。保证健康检查正常后确认是否解析成功,如果仍然解析不出来继续步骤6

l  如果link状态为active或者unknown(未配置健康检查时显示unknown)则进行步骤6

[sysname]display loadbalance  link brief

Link            Router IP/Interface  State        VPN instance  Link group     

glb1_link1      10.10.0.254          Active                                    

6.保证虚服务池配置正确,正确的绑定了虚服务和链路后,检查虚服务池下健康检查是否成功,如果健康检查失败,则优先处理健康检查失败的问题。如果健康检查成功则进行步骤7继续排查。

如下查看虚服务池下虚服务的状态,如果健康检查成功则为active,失败则显示inactive

[sysname]display loadbalance  global-virtual-server-pool name  glb1   

Global virtual server pool: glb1_netconf                                       

  Predictor:                                                                   

   Preferred: RR                                                               

   Alternate: --                                                               

   Fallback:  --                                                               

  Bandwidth busy-protection: Disabled                                          

  Total virtual servers: 1                                                   

  Active virtual servers: 1                                                   

  Data center: dc1_gongwang                                                    

   Server: glb1_slb                                                            

    Virtual server list:                                                        

     Name                     State     Address              Port  Weight        Link         

     netconf_vip101_1 Active    30.0.101.1           80    100           glb1_link1

                                                                                 

7. 全局DNS映射配置是否正确,是否使能状态,是否正确引用了所应用的全局虚服务池,如果全局映射未使能或者未引用正确的虚服务池则查看虚服务池下状态时,显示虚服务为inactive状态无法返回DNS应答。

查看全局DNS映射,确认是否使能、引用的全局虚服务池是否正确、domain是否书写正确,如下:

[sysname]display loadbalance  global-dns-map                                           

Global DNS mapping: gdm                                                        

  Service state: Enabled                                                       

  TTL: 3600s                                                                    

  Predictor:                                                                   

   Preferred: round-robin                                                      

   Alternate: --             

Fallback:  --                                                                

  Domain name list: www.glb.com                                                

  Global virtual server pool list:                                             

  Name               Weight                                                     

  gvsp               100  

总结:整个全局负载过程首先要保证用户配置正确(参考典配及其中配置注意事项)、引用关系正确、网络联通性正常的情况下,如果通过以上排查则仍然DNS解析失败则请联系研发协助。

 

23.8.4  故障诊断命令

命令

配置

display loadbalance data-center

显示数据中心的信息

display loadbalance data-center link statistics

显示数据中心出口链路的统计信息

display loadbalance default-syncgroup member

显示缺省同步组成员的信息

display loadbalance global-dns-listener

显示全局DNS监听器的信息

display loadbalance global-dns-listener statistics

显示全局DNS监听器的统计信息

display loadbalance global-dns-map

显示全局DNS映射的信息

display loadbalance global-dns-map statistics

显示全局DNS映射的统计信息

display loadbalance global-virtual-server-pool

显示全局虚服务池的信息

display loadbalance global-virtual-server-pool probe

显示虚服务器或虚IP的健康检测信息

display loadbalance link

显示链路的信息

reset loadbalance global-dns-listener statistics

清除全局DNS监听器的统计信息

reset loadbalance global-dns-map statistics

清除全局DNS映射的统计信息

 

23.9  出链路负载均衡按照预期前置条件转发失败

23.9.1  故障描述

按照点配配置,业务流量没有按照指定的出链路进行转发

23.9.2  故障处理流程

1.链路的健康检查状态是否正确

2.是否命中了预置条件

3.是否存在冲突的预置条件

23.9.3  故障处理步骤

1.先排查链路的健康检查状态是否正确,排查方法请参考本文关于健康检查的排查方式

2.检查配置,确保流量命中了正确的预置条件,只有命中指定预置条件才能确保按照预期链路转发

如果配置繁琐,或者是怕检查有遗漏,请使用网页功能模块【测试负载均衡配置】模块,来判断预期流量是否按照能命中指定预置条件

示例如下:

各参数说明:

【目的IP地址】和【源IP地址】填写实际业务的真实地址

【目的端口】和【源端口】由于是出链路的负载均衡,这两项可以任意填写

【协议层级】四层为必选

【协议名称】一般根据业务的实际情况选取

 

其【开始测试】后即可以看到选择的预置条件,如果其测试结果和预置条件不符,请排查配置,只有配置原因才可以导致此结果

若测试结果是可以名字预置条件,但还是没有按照预期链路进行转发, 请联系技术支持人员

 

3.出链路的典型应用中,都是内网访问外网策略多数是匹配目的地址为运营商地址,然后进行链路的策略分发;外网访问内网的时候,匹配的条件可以是源也可以是目的,但是当内外网的匹配条件如果有重合的情况,则流量转发则是先匹配到哪个就按照哪个的预置条件进行匹配转发,所以请排查是否有多条匹配策略匹配条件重合的情况,此种情况,也是导致没按照预期链路转发的原因之一;如果配置上保证没有重合,即使重合,也是命中了预期条件的前提下,还存在问题的话,请联系技术支持人员

 

23.9.4  故障诊断命令

命令

说明

display loadbalance link

显示链路的状态信息

display loadbalance link-group

显示链路组的状态信息

display virtual-server

显示虚服务器状态信息

display loadbalance class

显示负载均衡匹配策略配置信息

display loadbalance action

显示负载均衡转发动作配置信息

display loadbalance policy

显示负载均衡策略配置信息

display current-configuration configuration link

显示链路的配置信息

display current-configuration configuration link-group

显示链路组配置信息

display current-configuration configuration virtual-server

显示虚服务器的配置信息

 

23.10  RBM组网通道建立失败

23.10.1  故障描述

在两台设备上都完成remote-backup group的基本配置后,查看RBM通道连接状态,其Control channel status状态为DisconnectedRBM通道无法建立,主设备上的会话表项、持续性表项及设备配置等均无法正常同步备份到备设备。

23.10.2  故障处理流程

1.排查设备版本是否一致

2.查看display remote-backup-group status命令,确认设备RBM通道状态以及RBM的其他信息;

3.确认Local-ipRemote-ip以及Destination port

4.确认Device management role

5.确认接口IP地址信息;

6.确认接口链路层和协议层状态;

7.确认RBM通道是通过二层连接还是三层连接;

8.还可以通过查看RBM通道的连接日志辅助进行排查分析。

23.10.3  故障处理步骤

1.确认主备机设备版本

查看两台设备的运行版本,要求版本必须一致;

2.确认RBM状态

查看display remote-backup-group status命令,确认其Control channel status的状态;如果显示为Connected状态,说明其RBM通道连接正常;如果显示为Disconnected状态,说明其RBM通道是断开的,需要排查RBM通道无法建立的原因。

以下的排查步骤以display remote-backup-group status命令的回显信息为基础进行逐步排查。

RBM_P<sysname>display remote-backup-group status                            

Remote backup group information:                                                

  Backup mode: Active/standby                                                  

  Device management role: Primary                                              

  Device running status: Active                                                

Data channel interface: Route-Aggregation1                                   

  Local IP: 1.1.1.1                                                            

  Remote IP: 1.1.1.2    Destination port: 60064                                

  Control channel status: Disconnected                                         

  Keepalive interval: 1s                                                       

  Keepalive count: 10                                                           

  Configuration consistency check interval: 24 hour                            

  Configuration consistency check result: Not Performed                        

  Configuration backup status: Auto sync enabled                               

  Session backup status: Hot backup enabled                                    

  Uptime since last switchover: 0 days, 0 hours, 12 minutes

3.确认Local-ipRemote-ip以及Destination port

通过display remote-backup-group status命令查看主/备设备在remote-backup group下是否都配置了Local-ip以及Remote-ip,且本端设备的Local-ip与对端设备的Remote-ip是否保持一致;这两个IP地址是必配项,且两台设备均要能pingRemote-ip;在可以ping通的前提下,确认主/备设备的Destination port是否一致,主/备设备上配置的对端端口需要保持一致才能建立RBM通道。

4.确认Device management role

确认在主/备设备上是否配置了对应角色Device management role;如果display remote-backup-group status命令下没有Device management roleDevice running statusInitial,说明设备没有配置设备的管理角色,将导致RBM通道连接无法建立。

<sysname>dis remote-backup-group status                                     

Remote backup group information:                                                

  Backup mode: Active/standby                                                  

  Device running status: Initial                                               

Data channel interface: Route-Aggregation1                                    

  Local IP: 1.1.1.1                                                            

  Remote IP: 1.1.1.2    Destination port: 60064                                

  Control channel status: Disconnected                                          

  Keepalive interval: 1s                                                       

  Keepalive count: 10                                                          

  Configuration consistency check interval: 24 hour                            

  Configuration consistency check result: Not Performed                        

  Configuration backup status: Auto sync enabled                               

  Session backup status: Hot backup enabled                                    

  Uptime since last switchover: 0 days, 0 hours, 0 minutes

remote-backup group视图下,通过device-role { primary | secondary }命令来分别指定主/备设备的管理角色,primary对应主管理设备,secondary对应备管理设备,且两台设备不要配置相同的管理角色。

5.确认接口IP地址信息

在主/备设备上分别确认各自的Local-ip对应的IP地址的接口是否存在,通过display interface brief命令查看设备上的接口是否配置了对应IP地址;如果没有配置对应的IP地址,在主/备设备上分别在作为RBM通道的接口下配置对应Local-ip对应的IP地址。

RBM_P<sysname >display interface brief                                       

Brief information on interfaces in route mode:                                 

Link: ADM - administratively down; Stby - standby                              

Protocol: (s) - spoofing                                                       

Interface            Link Protocol Primary IP      Description                 

FGE1/2/3/9           UP   UP       1.1.1.1

经过如上步骤的排查,在Local-ipRemote-ipIP地址可以互相ping通的前提下,且配置有对应IP地址的对应接口并未加入任何安全域或被任何安全策略引用的前提下,Control channel status状态依然为Disconnected,请联系研发进行进一步分析定位。

6.确认接口链路层和协议层状态

找到配置了对应IP地址的接口后,通过display interface brief命令确认其对应接口是物理口还是聚合口,其接口链路层(Link)和协议层(Protocol)状态是否均处于UP状态。

RBM_P<sysname >display interface brief                                       

Brief information on interfaces in route mode:                                 

Link: ADM - administratively down; Stby - standby                              

Protocol: (s) - spoofing                                                       

Interface            Link Protocol Primary IP      Description                 

FGE1/2/3/9           UP   UP       1.1.1.1

如果RBM通道使用的是物理口且状态为DOWN,需要确认本端和对端设备的接口光模块、光纤、接口模式、接口速率、接口硬件等是否正常;

如果RBM通道使用的是聚合口且状态为DOWN,先确认其是否有成员口以及成员口状态是否处于UP状态,然后确认本端与对端设备的聚合口聚合模式是否一致(是否都是静态聚合或动态聚合)。

7.确认RBM通道是二层连接还是三层连接

1)    二层连接

如果RBM通道通过二层连接(即Local-ip以及Remote-ip处于同一网段),确认RBM通道是直连还是通过交换机进行二层连接;

如果RBM通道通过二层连接且直连,Local-ip以及Remote-ip对应的IP地址互相无法ping通,请联系研发进行进一步分析定位;

如果RBM通道通过二层连接且通过交换机进行二层连接,确认主/备设备与交换机相连的口是否是二层模式,是否配置了相同的VLAN;在交换机上配置Vlan-interface,配置与Local-ip以及Remote-ip同网段的IP地址,对Local-ip以及Remote-ip进行ping操作确认是否可以ping通,如果无法ping通,请联系研发进行进一步分析定位。

2)    三层连接

如果RBM通道通过三层连接(即Local-ip以及Remote-ip不处于同一网段),如果无法ping通对端IP地址,通过display ip routing-table命令确认主/备设备上是否都有到Remote-ipIP地址的路由,如果没有,需要手工配置对应路由;确认在交换机上是否可以ping通两台设备对应的IP地址;如果排除了交换机问题依然无法ping通两台设备对应的IP地址,请联系研发进行进一步分析定位。

RBM_P<sysname>display remote-backup-group status                            

Remote backup group information:                                               

  Backup mode: Active/standby                                                  

  Device management role: Primary                                               

  Device running status: Active                                                

Data channel interface: Route-Aggregation1                                   

  Local IP: 1.1.1.1                                                             

  Remote IP: 2.2.2.1    Destination port: 60064                                

  Control channel status: Connected                                            

  Keepalive interval: 1s                                                        

  Keepalive count: 10                                                          

  Configuration consistency check interval: 24 hour                            

  Configuration consistency check result: Not Performed                        

  Configuration backup status: Auto sync enabled                               

  Session backup status: Hot backup enabled                                    

  Uptime since last switchover: 0 days, 0 hours, 4 minutes

RBM_P<sysname>display ip routing-table 2.2.2.1                              

                                                                               

Summary count : 1                                                              

                                                                                

Destination/Mask   Proto   Pre Cost        NextHop         Interface           

2.2.2.1/32         Static  60  0           1.1.1.2         FGE1/2/3/9

8.查看RBM通道的连接日志

如果设备是在稳定运行过程中出现RBM通道断开无法重新连接,可以在logbuffer中搜索是否有如下日志,确认RBM通道连接与断开的情况,特别是是否出现RBM通道反复震荡的情况,便于进一步排查分析。

RBM通道建立成功日志

%Jan 19 10:40:02:951 2022 sysname RBM/1/RBM_KEEPALIVE: Local IP=1.1.1.1, remote IP=1.1.1.2, status=Connected

RBM通道建立失败日志

%Jan 19 10:42:29:172 2022 sysname RBM/1/RBM_KEEPALIVE: Local IP=1.1.1.1, remote IP=1.1.1.2, status=Disconnected

23.10.4  故障诊断命令

命令

说明

display interface brief

显示接口的运行状态和相关信息

display ip routing-table

显示路由表的信息

display remote-backup-group status

显示HA的状态信息

 

新华三官网
联系我们