手册下载
H3C 安全产品 故障处理手册(V7)-6W101-整本手册.pdf (1.93 MB)
H3C 安全产品
故障处理手册(V7)
Copyright © 2024新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
4.3 PC通过设备与其他终端连接,已配置在同一安全域,无法互相访问
8.4 NAT源地址转换与NAT目的地址转换配合使用,NAT目的地址转换不生效
9.4 NAT源地址转换与NAT目的地址转换配合使用,NAT目的地址转换不生效
9.8 动态NAT转换故障(以动态nat outbound为例)
9.10 设备作为出口网关设备,NAT业务不通,但是接口地址可以ping通
10.1 IPv6访问IPv4(以源地址动态转换,目的地址静态转换为例)
11.1 IPsec SA可以成功建立,但是IPsec保护的流量不通
11.2 IPsec的防火墙端为2台M9000主备堆叠,在IRF主设备down掉后,IPsec出现异常
11.3 IKE SA可以成功建立,但是IPsec SA未能建立成功
11.9 IPsec隧道保护隧道接口上的报文,隧道未建立成功
12.1 四层服务器负载均衡,虚服务和实服务都处于active状态,客户端发往服务器的流量不通
14.1 SSL VPN登录,无法打开SSL VPN页面··
14.9 用户曾经登录SSL VPN网关成功,再次登录时失败··
15.2 IPS/WAF攻击流量不能被阻断,设备不报攻击日志
17.1 同一个VRRP备份组内两台防火墙的VRRP状态都为backup
23.1 引用TCP类型健康检查后,实服务器状态为Probe-failed状态
23.2 引用HTTP健康检查后,实服务器状态为Probe-failed状态
23.3 引用UDP健康检查后,实服务器状态为Probe-failed状态
23.5 虚服务器业务配置完毕后,虚服务器处于Inactive状态
23.7 HTTP类型虚服务器,X-Forward-For功能失效
本文档介绍防火墙产品软、硬件常见故障的诊断及处理措施。
· 更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。
· 设备正常运行时,建议您在完成重要功能的配置后,及时保存当前配置,以便设备出现故障后能迅速恢复配置。
· 设备的故障,包括主控故障、引擎故障、接口板、网板故障。对主控板和接口板的故障,主要通过主控板上的Console口或者Telnet来进行搜集。对引擎故障,主要通过引擎上的Console口来搜集。(适用于分布式设备)
· 设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),搜集信息越全面、越详细,越有利于故障的快速定位。
¡ 记录具体的故障现象、故障时间、配置信息。
¡ 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
¡ 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
¡ 记录故障处理过程中配置的所有命令行显示信息。
¡ 搜集设备日志信息和诊断信息。
¡ 记录抓取的报文信息、系统输出的Debug信息、主控板与网板持续异常重启的输出信息。
¡ 记录设备故障时单板、电源指示灯的状态,或给现场设备拍照记录。
· 引擎故障时,需要单独记录引擎的故障信息。需要连接引擎的串口线搜集信息。
· 故障处理过程中,请注意:
¡ 明确每项配置操作的影响,保证操作出问题时能够被恢复,故障影响不会扩大。
¡ 操作执行后请等待一定时间以确认执行效果。
¡ 请不要保存故障处理过程中的配置,特别是出现IRF分裂,否则会引起配置丢失。
为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。
设备运行过程中会产生logfile日志信息及记录设备运行状态的诊断信息。这些信息存储在Flash中,可以通过FTP或TFTP等方式导出。不同主控板中导出的logfile、diag文件请按照一定规则存放(如不同的文件夹:chassisXslotY),避免不同主控板的运行信息相互混淆,以方便查询。
日志在保存到日志文件前,先保存在日志文件缓冲区。系统会按照指定的频率将日志文件缓冲区的内容写入日志文件,用户也可以手工触发立即保存。诊断日志在保存到诊断日志文件前,先保存在诊断日志文件缓冲区。系统会按照指定的频率将诊断日志文件缓冲区的内容写入诊断日志文件,用户也可以手工触发立即保存。
在任意视图下执行logfile save命令,手动将日志文件缓冲区中的内容保存到日志文件。
在任意视图下执行diagnostic-logfile save命令,手动将诊断日志文件缓冲区中的内容保存到诊断日志文件。
这些日志文件存储在Flash或CF卡中,可以通过FTP或TFTP等方式导出。
表1 设备运行信息介绍
分类 |
文件名 |
内容 |
logfile日志 |
logfileX.log |
命令行记录、Trap信息、设备运行中产生的记录信息 |
诊断信息 |
XXX.gz |
设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等 |
请先通过logfile save将设备缓存的logfile日志保存在存储介质中,并将日志搜集完整,包括:主用主控板、备用主控板、IRF下主框/备框各主备主控板的日志,如果设备创建Context还需要搜集每个Context对应的日志。
[H3C] logfile save
The contents in the log file buffer have been saved to the file flash:/logfile/l
ogfile.log.
设备的logfile日志:
<sysname> dir flash:/logfile/
Directory of flash:/logfile
0 -rw- 10483632 Jul 08 2014 15:05:22 logfile.log
253156 KB total (77596 KB free)
执行display diagnostic-information命令后,请输入“Y”,以选择将诊断保存到Flash中(选择display会出现信息搜集不全)。设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请耐心等待。
<sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:y
Please input the file name(*.gz)[flash:/diag.gz]:flash:/diag.gz
Diagnostic information is outputting to flash:/diag.gz.
Save successfully.
<sysname> dir flash:/
Directory of flash:
……
6 -rw- 898180 Jun 26 2013 09:23:51 diag.gz
1021808 KB total (259072 KB free)
也可以将诊断信息直接显示出来(不建议这样搜集),搜集前请先执行screen-length disable,避免屏幕输出被打断,如下:
<sysname> screen-length disable
% Screen-length configuration is disabled for current user.
<sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:N
==================================================================
===============display cpu===============
Slot 1 CPU 0 CPU usage:
6% in last 5 seconds
6% in last 1 minute
6% in last 5 minutes
===========================================================
=================================================================
===============display cpu-usage history slot 1 ===============
100%|
95%|
90%|
85%|
80%|
75%|
70%|
65%|
60%|
55%|
50%|
45%|
40%|
35%|
30%|
25%|
20%|
15%|
10%|
5%|############################################################
------------------------------------------------------------
10 20 30 40 50 60 (minutes)
cpu-usage (Slot 1 CPU 0) last 60 minutes (SYSTEM)
……………………………………
设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。
如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。
图1为故障处理的一般流程,可以大致判断出故障的类型。
故障分析时常用的方法有:
· 端口报文计数。
· 报文镜像。
· 端口抓包。
· 查看会话状态及统计信息。
· 查看L2、L3转发表项及统计。
· 查看Openflow表项下发是否正确。
如主机出现异常重启、状态异常、无法启动、反复重启,请参照2.1 主机故障。
如单板出现异常重启、状态异常、无法启动、反复重启,请参照2.2 单板故障。
如出现ping、tracert丢包或不通、二层丢包或不通、三层丢包或不通、业务异常等,请参照4 报文转发故障处理。
如设备无法形成IRF、IRF分裂等,请参照5 IRF类故障处理。
如果出现主备切换异常、冗余口转发异常、冗余口切换异常,请参照7 双机热备故障处理。
主要是4层负载均衡的故障处理、7层负载均衡的故障处理。请参照12 负载均衡故障处理
如主控设备或引擎的CPU占用率很高,请参照13.1 CPU占用率高。
如果出现NAT转换异常,不能正常转换,或者ALG处理异常,请参照8 策略NAT故障处理、9 接口NAT故障处理和10 AFT类故障处理。
IPsec出现转发不通、不能正常加解密时,请参考11 IPsec/IKE类故障处理。
如设备、主控设备或引擎的CPU占用率很高,请参照13.1 CPU占用率高。
如设备或者单板内存占用率很高,请参照13.2 内存占用率高。
图2是一个典型网络故障模型,为提高网络的可靠性,两台设备采用IRF模式,可以为双主方式、主备方式,典型网络故障模型如下:
表2 故障点影响分析
故障点 |
可能现象 |
影响范围 |
(1)、(3)(含光模块) |
端口down |
业务会切换 |
端口错包增加 |
影响该链路上的业务(影响范围大) |
|
(2) |
主控单板故障 |
业务会切换 |
引擎单板故障 |
如果链路和该引擎单板track,业务会切换 |
|
接口单板故障 |
业务可能会切换 |
|
(4) |
堆叠链路单条断 |
不影响业务,但可能影响性能 |
堆叠链路2条链路全断 |
堆叠分裂 |
表3 常见的故障恢复措施
故障原因 |
业务恢复动作 |
故障排除动作 |
硬件 |
隔离故障单板 调整业务流向来隔离故障设备(如可以调整路由的优先级,避免流量经过故障设备,实现流量切换) |
更换备件(备件上线应用前应进行必要的测试) |
软件 |
重启故障设备的协议 调整业务流向来隔离故障设备 |
升级版本(含补丁版本) 调整组网或配置,消除引发故障因素 |
链路 |
调整业务流向来隔离故障线路 |
检修线路 |
其他 |
修改错误配置 正确连接设备端口 调整业务流向来隔离故障线路 |
修改错误配置 正确连接设备端口 检修机房的电源、空调等支撑系统 |
主机重启
当主机出现重启,请查看重启原因,如果是软件异常导致设备重启请搜集主机的诊断信息,并发给研发处理。
H3C Comware Software, Version 7.1.064, Ess 8601P08
Copyright (c) 2004-2019 New H3C Technologies Co., Ltd. All rights reserved.
H3C SecPath F1090 uptime is 0 weeks, 0 days, 0 hours, 5 minutes
Last reboot reason: User reboot
Boot image: flash:/F1090FW-CMW710-BOOT-E8601P08.bin
Boot image version: 7.1.064, Ess 8601P08
Compiled Sep 10 2019 15:00:00
System image: flash:/F1090FW-CMW710-SYSTEM-E8601P08.bin
System image version: 7.1.064, Ess 8601P08
Compiled Sep 10 2019 15:00:00
SLOT 1
CPU type: Multi-core CPU
DDR4 SDRAM Memory: 8192M bytes
FLASH: 7296M bytes
CPLD_A Version: 1.0
CPLD_B Version: 1.0
Release Version:SecPath F1090-8601P08
Basic BootWare Version:0.30
Extend BootWare Version:1.01
BuckleBoard Version:Ver.A
BackBoard1 Version:Ver.A
BackBoard2 Version:Ver.A
HD_BackBoard Version:Ver.D
Pcb Version:Ver.A
[SUBCARD 0] NSQ1F1MSPUOTXA(Hardware)Ver.A, (Driver)1.0, (Cpld)1.0
Boot Type: Warm
[H3C]display system internal version
H3C SecPath F1090 V800R006B01D645SP08
Comware V700R001B64D045SP08
· 单板状态异常(比如状态为Absent、Fault等)。
· 单板出现异常重启、无法启动或不断重启等。
单板状态包括:Normal、Master 、Standby、Absent和Fault。
Master与Standby分别表示主、备主控板。Normal表示单板处于正常运行状态。
如果发现单板状态出现Fault,或该槽位存在单板但状态却是Absent的,说明单板可能出现故障,请参考2.2.2 故障处理步骤处理。
<sysname>display device
Slot No. Brd Type Brd Status Subslot Sft Ver Patch Ver
0 NSQM1CGQ4TG24SHA0Normal 0 M9016-V-9153P22 None
1 NONE Absent 0 NONE None
2 NSQM1CGQ4TG24SHA0Normal 0 M9016-V-9153P22 None
3 NONE Absent 0 NONE None
4 NSQM1SUPD0 Master 0 M9016-V-9153P22 None
5 NSQM1SUPD0 Standby 0 M9016-V-9153P22 None
6 NSQM1FWEFGA0 Normal 0 M9016-V-9153P22 None
CPU 1 Normal 0 M9016-V-9153P22
7 NONE Absent 0 NONE None
8 NONE Absent 0 NONE None
9 NONE Absent 0 NONE None
10 NSQM1FAB08E0 Normal 0 M9016-V-9153P22 None
11 NSQM1FAB08E0 Normal 0 M9016-V-9153P22 None
12 NSQM1FAB08E0 Normal 0 M9016-V-9153P22 None
13 NSQM1FAB08E0 Normal 0 M9016-V-9153P22 None
可以通过logfile日志或display version查看设备启动后运行时间来确认单板有没有出现过重启,出现过重启的单板运行时间会明显短于设备上其他单板。请参考2.2.2 故障处理步骤处理。
<sysname>display version
H3C Comware Software, Version 7.1.064, Release 9153P22
Copyright (c) 2004-2020 New H3C Technologies Co., Ltd. All rights reserved.
H3C SecPath M9016-V uptime is 0 weeks, 4 days, 0 hours, 7 minutes
Last reboot reason : User reboot
Boot image: flash:/M9000-CMW710-BOOT-R9153P22.bin
Boot image version: 7.1.064, Release 9153P22
Compiled Dec 10 2020 14:00:00
System image: flash:/M9000-CMW710-SYSTEM-R9153P22.bin
System image version: 7.1.064, Release 9153P22
Compiled Dec 10 2020 14:00:00
Feature image(s) list:
flash:/M9000-CMW710-DEVKIT-R9153P22.bin, version: 7.1.064
Compiled Dec 10 2020 14:00:00
LPU 0:
Uptime is 0 weeks,4 days,0 hours,3 minutes
H3C SecPath M9016-V LPU with 1 LS1043A Processor
BOARD TYPE: NSQM1CGQ4TG24SHA0
DRAM: 2048M bytes
PCB 1 Version: VER.A
Bootrom Version: 108
CPLD 1 Version: 002
CPLD 2 Version: 001
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : UserReboot
LPU 2:
Uptime is 0 weeks,4 days,0 hours,3 minutes
H3C SecPath M9016-V LPU with 1 LS1043A Processor
BOARD TYPE: NSQM1CGQ4TG24SHA0
DRAM: 2048M bytes
PCB 1 Version: VER.A
Bootrom Version: 108
CPLD 1 Version: 002
CPLD 2 Version: 001
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : UserReboot
MPU(M) 4:
Uptime is 0 weeks,4 days,0 hours,7 minutes
H3C SecPath M9016-V MPU(M) with 1 XLP316 Processor
BOARD TYPE: NSQM1SUPD0
DRAM: 8192M bytes
FLASH: 500M bytes
NVRAM: 512K bytes
PCB 1 Version: VER.A
Bootrom Version: 132
CPLD 1 Version: 004
CPLD 2 Version: 003
CPLD 3 Version: 003
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : UserReboot
MPU(S) 5:
Uptime is 0 weeks,4 days,0 hours,6 minutes
H3C SecPath M9016-V MPU(S) with 1 XLP316 Processor
BOARD TYPE: NSQM1SUPD0
DRAM: 8192M bytes
FLASH: 500M bytes
NVRAM: 512K bytes
PCB 1 Version: VER.A
Bootrom Version: 132
CPLD 1 Version: 001
CPLD 2 Version: 001
CPLD 3 Version: 001
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : UserReboot
LPU 6:
Uptime is 0 weeks,1 day,17 hours,56 minutes
H3C SecPath M9016-V LPU with 1 XLP308 Processor
BOARD TYPE: NSQM1FWEFGA0
DRAM: 2048M bytes
FLASH: 8M bytes
PCB 1 Version: VER.A
PCB 2 Version: VER.B
Bootrom Version: 100
CPLD 1 Version: 002
CPLD 2 Version: 002
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : UserReboot
SLOT 6 CPU 1
CPU type: Multi-core CPU
DDR4 : 49152M bytes
FLASH: 7122M bytes
Board PCB Version: Ver.A
CPLD Version: 2.0
Release Version: SecBlade FW Enhanced-9153P22
FPGA 0 Version: B50506
FPGA 0 DATE: 2020.11.27
FPGA 1 Version: B50506
FPGA 1 DATE: 2020.11.27
Basic BootWare Version:1.03
Extend BootWare Version:1.03
NPU 10:
Uptime is 0 weeks,4 days,0 hours,3 minutes
H3C SecPath M9016-V NPU with 1 XLS208 Processor
BOARD TYPE: NSQM1FAB08E0
DRAM: 1024M bytes
PCB 1 Version: VER.B
Bootrom Version: 518
CPLD 1 Version: 005
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : UserReboot
NPU 11:
Uptime is 0 weeks,3 days,23 hours,46 minutes
H3C SecPath M9016-V NPU with 1 XLS208 Processor
BOARD TYPE: NSQM1FAB08E0
DRAM: 1024M bytes
PCB 1 Version: VER.B
Bootrom Version: 518
CPLD 1 Version: 005
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : ColdReboot
NPU 12:
Uptime is 0 weeks,3 days,23 hours,44 minutes
H3C SecPath M9016-V NPU with 1 XLS208 Processor
BOARD TYPE: NSQM1FAB08E0
DRAM: 1024M bytes
PCB 1 Version: VER.B
Bootrom Version: 511
CPLD 1 Version: 005
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : ColdReboot
NPU 13:
Uptime is 0 weeks,3 days,23 hours,44 minutes
H3C SecPath M9016-V NPU with 1 XLS208 Processor
BOARD TYPE: NSQM1FAB08E0
DRAM: 1024M bytes
PCB 1 Version: VER.B
Bootrom Version: 518
CPLD 1 Version: 005
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : ColdReboot
(1) 确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重新插入。
(2) 将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板或机框槽位故障。
(3) 检查单板面板、内部的指示灯是否发光。
(4) 如果单板是主控板、业务板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。
(5) 如确认为单板故障,请更换单板并将故障信息发送H3C技术支持人员分析。
(1) 等待一段时间确认下单板是一直Fault还是Normal后又再次重启。如单板是Normal后又自动重启,请将故障信息发送H3C技术支持人员分析。
(2) 如果单板是主控板、引擎板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板异常启动信息。如下述主控板启动时出现内存读写测试失败而不断重启,需要检查主控板内存条是否插稳。
(3) 将单板放到别的槽位,进一步确认是不是单板故障。
(4) 如确认为单板故障,请更换单板并将故障信息发送H3C技术支持人员分析。
这里的单板重启是指单板出现过重启,而当前单板状态是Normal。
(1) 通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行reboot重启或进行单板上下电等操作。
(2) 如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。
(3) 确认日志中重启时有无出现“Slot X need to be rebooted automatically!” ,“Note:the operating device is sda0,it's not online ”提示信息,这种情况是不正常的。请更换单板并搜集故障信息并发送H3C技术支持人员分析。
(4) 如无法确认,请搜集故障信息并发送H3C技术支持人员分析。
风扇框指示灯异常,设备打印风扇异常信息,如:
%May 06 10:12:24:805 2017 H3C DEV/3/FAN_ABSENT: -MDC=1; Slot 2 Fan 2 is absent.
%May 06 10:12:32:805 2017 H3C DEVD/2/DRV_DEV_FAN_CHANGE: -MDC=1; Slot 2: Fan communication state changed: Fan 1 changed to fault.
%May 06 10:12:42:405 2017 H3C DEV/2/FAN_FAILED: -MDC=1; Slot 2 Fan 1 failed.
(1) 风扇框在位时,用手放在设备出风口,判断是否有出风,如果出风口无风,则风扇异常。
(2) 检查风扇的入风口、出风口是否被挡住或积累太多灰尘。
(3) 通过display fan命令检查风扇框是否正常在位,各个风扇的状态是否正常、转速和正常转速相差达到50%以上。如存在异常,建议通过风扇框拔插、更换交叉进一步确认。
<sysname> display fan
SLOT 1 Fan 0 Status: Normal Speed:9500
SLOT 1 Fan 1 Status: Normal Speed:9500
SLOT 1 Fan 2 Status: Normal Speed:9500
(4) 如果故障不能恢复,需要更换该风扇框,但当前没有风扇框,请关闭设备以免发生温度高导致单板烧坏;如果有降温措施保证系统工作在50度以下,可以暂时继续使用设备。
设备打印温度过低、过高等告警信息,如:
%Mar 18 04:22:05:893 2017 H3C DEV/4/TEMPERATURE_WARNING: -Context=1; Temperature is greater than the high-temperature warning threshold on slot 2 sensor inflow 1. Current temperature is 43 degrees centigrade.
(1) 检查环境温度是否正常。如果环境温度较高,请确认原因,比如机房通风不畅、空调制冷故障等。
(2) 检查设备当前的temperature温度是否超出上下的Warning、Alarm门限。也可以用手触摸单板,确认单板是不是很烫,如单板温度很高,请立即检查原因。持续处于较高的温度下,可能会导致单板损坏。
a. 如果温度值为error或出现明显不合实际的值,可能是通过I2C总线访问单板温度传感器异常。设备光模块信息访问也是通过I2C总线,请继续检查单板读取光模块信息是否正常。如光模块访问正常,请使用temperature-limit命令重新设置单板的温度告警门限值,并通过display environment查看是否设置成功。
[SYSNAME] temperature-limit slot 1 inflow 1 -5 43 51
[SYSNAME] display environment
System Temperature information (degree centigrade):
--------------------------------------------------------------------------------
---------
Slot Sensor Temperature LowerLimit Warning-UpperLimit Alarm-UpperLimit S
hutdown-UpperLimit
1 inflow 1 29 -5 43 51
NA
2 inflow 1 28 -5 48 56
NA
如果仍然无法确认故障原因,请搜集温度告警日志、display environment、环境实际温度等信息并发送给技术支持人员协助分析。
命令 |
说明 |
display device |
显示设备信息,检查各单板的状态是否正常 |
display environment |
显示设备的温度信息,检查环境温度是否正常(是否超出温度告警阈值) |
display fan |
显示设备内置风扇的工作状态 |
display power |
显示设备上的电源系统信息。详细信息包括下列信息: · 电源管理使能状态 · 电源类型、额定输入电压和额定输出功率 · 冗余电源模块数,各模块可用的、冗余的、已用的、剩余的功率 · 在位电源模块的状态 · 接口板的供电状态 |
display version |
显示系统版本信息、单板的运行时间以及最后一次重启的原因 |
save |
将当前配置保存到指定文件 |
temperature-limit |
设置设备的温度告警门限 |
使用display interface命令查询端口的入、出方向流量统计信息,发现错包统计计数不为0。
<sysname>display interface GigabitEthernet 1/0/2
GigabitEthernet1/0/2
Current state: DOWN
Line protocol state: DOWN
Description: GigabitEthernet1/0/2 Interface
Maximum transmission unit: 1500
Internet address: 192.168.2.1/24 (primary)
IP packet frame type: Ethernet II, hardware address: 50da-00dd-1327
IPv6 packet frame type: Ethernet II, hardware address: 50da-00dd-1327
Media type is twisted pair, loopback not set, promiscuous mode not set
Speed Negotiation, Duplex Negotiation, link type is autonegotiation
Output flow-control is disabled, input flow-control is disabled
Last link flapping: Never
Last clearing of counters: Never
Peak input rate: 0 bytes/sec, at 00-00-00 00:00:00
Peak output rate: 0 bytes/sec, at 00-00-00 00:00:00
Last 300 second input: 0 packets/sec 0 bytes/sec -%
Last 300 second output: 0 packets/sec 0 bytes/sec -%
Input (total): 0 packets, 0 bytes
0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Input (normal): 0 packets, 0 bytes
0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Input: 0 input errors, 0 runts, 0 giants, - throttles
0 CRC, 0 frame, 0 overruns, 0 aborts
0 ignored, - parity errors
Output (total): 0 packets, 0 bytes
0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Output (normal): 0 packets, 0 bytes
0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Output: 0 output errors, 0 underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
0 lost carrier, 0 no carrier
· input errors:端口接收的错误报文的统计值。
· runts:接收到的超小帧的数量。超小帧是指长度小于64字节、格式正确且包含有效的CRC字段的帧。
· giants:接收到的超大帧的数量。超大帧是指有效长度大于端口允许通过最大报文长度的帧,对于禁止长帧通过的以太网端口,超大帧是指有效长度大于1518字节(不带VLAN Tag)或大于1522字节(带VLAN Tag报文)的帧;对于允许长帧通过的以太网端口,超大帧是指有效长度大于指定最大长帧长度的帧。
· throttles:接收到的长度为非整数字节的帧的个数。
· CRC:接收到的CRC校验错误、长度正常的帧的数量。
· frame:接收到的CRC校验错误、且长度不是整字节数的帧的数量。
· overruns:当端口的接收速率超过接收队列的处理能力时,导致报文被丢弃。
· aborts:接收到的非法报文总数,非法报文包括:报文碎片、jabber帧、符号错误帧、操作码未知帧、长度错误帧。
· ignored:由于端口接收缓冲区不足等原因而丢弃的报文数量。
· parity errors:接收到的奇偶校验错误的帧的数量。
· output errors:各种发送错误的报文总数。
· underruns:当端口的发送速率超过了发送队列的处理能力,导致报文被丢弃,是一种非常少见的硬件异常。
· buffer failures:由于端口发送缓冲区不足而丢弃的报文数量。
· aborts:发送失败的报文总数,即报文已经开始发送,但由于各种原因(如冲突)而导致发送失败。
· deferred:延迟报文的数量,延迟报文是指发送前检测到冲突而被延迟发送的报文。
· collisions:冲突帧的数量,冲突帧是指在发送过程中检测到冲突的而停止发送的报文。
· late collisions:延迟冲突帧的数量,延迟冲突帧是指帧的前512 bits已经被发送,由于检测到冲突,该帧被延迟发送。
· lost carrier:载波丢失,一般适用于串行WAN接口,发送过程中,每丢失一个载波,此计数器加一。
· no carrier:无载波,一般适用于串行WAN接口,当试图发送帧时,如果没有载波出现,此计数器加一。
(1) 使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。
(2) 如端口使用光模块,参照3.4 光模块故障认是否光模块故障导致。
(3) 与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现端口相关,应为单板端口故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。
(4) 排查对端设备或者中间的传输设备。
(5) 如故障无法确认,请将故障信息发送技术支持人员分析。
(1) 检查两端的jumbo配置是否一致,如jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。
(2) 如果仍然无法确认,请将故障信息发送技术支持人员分析。
(1) 检查端口是否配置为半双工模式,如为半双工,请更改为全双工模式。
(2) 如果仍然无法确认,请将故障信息发送技术支持人员分析。
端口无法正常UP。
(1) 测试端口之间网线、光纤链路是否正常,光纤两端的发送/接收端是否错连;更换端口之间的网线、光纤或将网线、光纤放到别的正常端口,以确认是否中间传输链路故障
(2) 检查本端、对端端口配置是否正确,如端口是否shutdown,速率、双工、协商模式、MDI是否正确。
(3) 如端口使用光模块,请检查两端光模块类型是否一致,如速率、波长、单模多模状态等;与正常的光模块交叉更换,并参照3.4 光模块故障排除是否为光模块故障导致。
<sysname>display transceiver interface GigabitEthernet 1/0/17
GigabitEthernet1/0/17 transceiver information:
Transceiver Type : 1000_BASE_SX_SFP
Connector Type : LC
Wavelength(nm) : 850
Transfer Distance(m) : 550(OM2),270(OM1)
Digital Diagnostic Monitoring : YES
Vendor Name : JDSU
如果确认光模块有问题,需要更换光模块。
(1) 查看本设备及对端设备日志,确认有无端口shutdown操作。
(2) 查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口shutdown。当设备在线诊断模块检测到端口故障时,将端口shutdown隔离,以便流量切换到备份链路。请将故障信息发送技术支持人员分析。
<sysname> display interface GigabitEthernet 1/0/2
GigabitEthernet1/0/2
Current state: DOWN
Line protocol state: DOWN
Description: GigabitEthernet1/4/0/1 Interface
Bandwidth: 1000000kbps
Maximum Transmit Unit: 1500
Internet protocol processing: disabled
IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5601
IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5601
Media type is not sure,Port hardware type is No connector
Last clearing of counters: 16:45:01 Wed 12/11/2013
Peak value of input: 0 bytes/sec, at 2013-12-11 16:45:03
Peak value of output: 0 bytes/sec, at 2013-12-11 16:45:03
Last 300 second input: 0 packets/sec 0 bytes/sec
Last 300 second output: 0 packets/sec 0 bytes/sec
(3) 参照3.2 端口无法,排查两端端口配置,网线、光模块、光纤等链路是否正常。
(4) 如仍无法确认,请搜集本端、对端设备信息,并将信息发送技术支持人员分析。
端口频繁UP/Down。
(1) 对于光口,请参照3.4 光模块故障确认光模块是否异常。
(2) 对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。
(3) 如果故障依存在,请排查链路、对端设备、中间设备。
(4) 如仍无法确认,请将故障信息发送技术支持人员分析。
安装光模块的接口不能正常UP,出现告警信息。
(1) 检查是否万兆光口插入了千兆光模块,该使用方式不支持,请对应接口类型选择光模块。
(2) 检查光模块Alarm告警信息。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。
<sysname> display transceiver alarm interface Ten-GigabitEthernet 1/0/25
Ten-GigabitEthernet1/0/25 transceiver current alarm information:
RX signal loss
表4 光模块告警信息说明
字段 |
描述 |
SFP/SFP+ |
|
RX loss of signal |
接收信号丢失 |
RX power high |
接收光功率高告警 |
RX power low |
接收光功率低告警 |
TX fault |
发送错误 |
TX bias high |
偏置电流高告警 |
TX bias low |
偏置电流低告警 |
TX power high |
发送光功率高告警 |
TX power low |
发送光功率低告警 |
Temp high |
温度高告警 |
Temp low |
温度低告警 |
Voltage high |
电压高告警 |
Voltage low |
电压低告警 |
Transceiver info I/O error |
模块信息读写错误 |
Transceiver info checksum error |
模块信息校验和错误 |
Transceiver type and port configuration mismatch |
模块类型和端口配置不匹配 |
Transceiver type not supported by port hardware |
端口不支持该模块类型 |
XFP |
|
RX loss of signal |
接收信号丢失 |
RX not ready |
接收状态未就绪 |
RX CDR loss of lock |
RX CDR时钟失锁 |
RX power high |
接收光功率高告警 |
RX power low |
接收光功率低告警 |
TX not ready |
发送状态未就绪 |
TX fault |
发送错误 |
TX CDR loss of lock |
TX CDR时钟失锁 |
TX bias high |
偏置电流高告警 |
TX bias low |
偏置电流低告警 |
TX power high |
发送光功率高告警 |
TX power low |
发送光功率低告警 |
Module not ready |
模块状态未就绪 |
APD supply fault |
APD(Avalanche Photo Diode,雪崩光电二极管)错误 |
TEC fault |
TEC(Thermoelectric Cooler,热电冷却器)错误 |
Wavelength unlocked |
光信号波长失锁 |
Temp high |
温度高告警 |
Temp low |
温度低告警 |
Voltage high |
电压高告警 |
Voltage low |
电压低告警 |
Transceiver info I/O error |
模块信息读写错误 |
Transceiver info checksum error |
模块信息校验错误 |
Transceiver type and port configuration mismatch |
模块类型和端口配置不匹配 |
Transceiver type not supported by port hardware |
端口不支持该模块类型 |
(3) 对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。
(4) 如果确认是光模块本身故障,请通过display transceiver diagnosis命令收集光模块当前的数字诊断信息(非H3C定制光模块可能无法查询到数字诊断信息),并发送给技术支持人员分析。
<sysname>display transceiver diagnosis interface GigabitEthernet 1/0/17
GigabitEthernet1/0/17 transceiver diagnostic information:
Current diagnostic parameters:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
54 3.35 5.39 -5.91 -5.29
Alarm thresholds:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
High 73 3.80 11.00 0.00 0.00
Low -3 2.81 1.00 -16.99 -12.52
<sysname>
(5) 建议使用H3C定制光模块。可以使用display transceiver manuinfo interface命令来查看光模块制造厂家信息。
<sysname>display transceiver manuinfo interface
GigabitEthernet1/0/16 transceiver manufacture information:
The transceiver is absent.
GigabitEthernet1/0/17 transceiver manufacture information:
The transceiver does not support this function.
GigabitEthernet1/0/18 transceiver manufacture information:
The transceiver is absent.
GigabitEthernet1/0/19 transceiver manufacture information:
The transceiver is absent.
GigabitEthernet1/0/20 transceiver manufacture information:
The transceiver is absent.
GigabitEthernet1/0/21 transceiver manufacture information:
The transceiver is absent.
GigabitEthernet1/0/22 transceiver manufacture information:
The transceiver is absent.
GigabitEthernet1/0/23 transceiver manufacture information:
The transceiver is absent.
GigabitEthernet2/0/16 transceiver manufacture information:
The transceiver is absent.
GigabitEthernet2/0/17 transceiver manufacture information:
The transceiver does not support this function.
GigabitEthernet2/0/18 transceiver manufacture information:
The transceiver is absent.
GigabitEthernet2/0/19 transceiver manufacture information:
The transceiver is absent.
GigabitEthernet2/0/20 transceiver manufacture information:
The transceiver is absent.
GigabitEthernet2/0/21 transceiver manufacture information:
The transceiver is absent.
GigabitEthernet2/0/22 transceiver manufacture information:
The transceiver is absent.
GigabitEthernet2/0/23 transceiver manufacture information:
The transceiver is absent.
命令 |
说明 |
display current-configuration |
显示设备当前生效的配置,指定interface可以显示指定接口当前生效的配置 |
display interface |
查询端口的入、出方向流量统计信息、端口状态。可查看是否存在错包及错包统计信息 |
display transceiver alarm |
显示可插拔接口模块的当前故障告警信息 |
display transceiver diagnosis |
显示可插拔光模块的数字诊断参数的当前测量值,包括温度、电压、偏置电流、接收光功率、发送光功率 |
display transceiver interface |
显示指定接口可插拔接口模块的主要特征参数。检查两端光模块类型是否一致,如速率、波长、单模多模状态等 |
display transceiver manuinfo |
显示可插拔接口模块的电子标签信息。可用来查询光模块的定制厂商。 |
PC通过网线与设备业务接口相连,IP地址为同一网段,在PC上无法Ping通设备。
(1) 登录设备Web管理页面。
(2) 选择“网络 > 安全域”。
(3) 单击某个安全域(如Trust)对应的<编辑>按钮,进入“修改安全域”页面。
(4) 选择接口列表中与PC相连的接口,单击<→>按钮添加至成员列表中。
(5) 单击<确定>按钮。
(6) 选择“策略 > 安全策略 > 安全策略”。
(7) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面。
(8) 配置安全策略的匹配条件及执行动作:
a. 源安全域:Trust
b. 名称:trust-local
c. 目的安全域:Local
d. 动作:允许
e. 源IPv4地址:10.1.1.2
f. 目的IPv4地址:10.1.1.1
(9) 若需要设备主动访问PC,则需要配置反方向放行的安全策略:
a. 名称:local-trust
b. 源安全域:Local
c. 目的安全域:Trust
d. 动作:允许
e. 源IPv4地址:10.1.1.1
f. 目的IPv4地址:10.1.1.2
(10) 单击<确定>按钮,完成配置。
PC通过与设备其他终端相连,IP地址与路由已正确配置,但无法互相访问。
(1) 登录设备Web管理页面。
(2) 选择“网络 > 安全域”。
(3) 单击某个安全域(如Trust)对应的<编辑>按钮,进入“修改安全域”页面。
(4) 选择接口列表中与PC相连的接口,单击<→>按钮添加至成员列表中。
(5) 单击<确定>按钮。
(6) 采用同样的方法将其他接口加入不同安全域(如Untrust)。
(7) 选择“策略 > 安全策略 > 安全策略”。
(8) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面。
(9) 配置安全策略的匹配条件及执行动作(建议配置精确的匹配条件):
a. 名称:trust-untrust
b. 源安全域:Trust
c. 目的安全域:Unturst
d. 动作:允许
e. 源IPv4地址:10.1.1.2
f. 目的IPv4地址:20.1.1.2
(10) 若通过设备相连的终端需要互相访问,则需要创建双向放行的安全策略:
a. 名称:untrust-trust
b. 源安全域:Unturst
c. 目的安全域:Trust
d. 动作:允许
e. 源IPv4地址:20.1.1.2
f. 目的IPv4地址:10.1.1.2
(11) 单击<确定>按钮,完成配置。
PC通过与设备其他终端相连,IP地址与路由已正确配置,且已加入相同的安全域,但无法互相访问。
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面。
(4) 配置安全策略的匹配条件及执行动作(本例中通过设备相连的终端都属于Trust安全域):
a. 名称:trust-trust
b. 源安全域:Trust
c. 目的安全域:Trust
d. 动作:允许
e. 源IPv4地址:10.1.1.2,20.1.1.2
f. 目的IPv4地址:20.1.1.2,10.1.1.2
g. 单击<确定>按钮,完成配置。
报文转发丢包,ping不通或ping丢包,tracert异常。
<sysname> ping 10.0.0.5
PING 10.0.0.5 (10.0.0.5): 56 data bytes, press CTRL_C to break
Request time out
Request time out
Request time out
Request time out
Request time out
--- 10.0.0.5 ping statistics ---
5 packet(s) transmitted, 0 packet(s) received, 100.0% packet loss
对于有M-GigabitEthernet接口的设备,M-GigabitEthernet接口默认加入到Management域,没有M-GigabitEthernet接口的设备,GigabitEthernet 1/0/0默认加入到Management域,其它端口默认没有加入到任何安全域,要确认端口是否加入到安全域。
执行display security-zone命令,查看参与转发法的接口是否加入到了安全域内
<sysname>display security-zone
Name: Local
Members:
None
Name: Trust
Members:
GigabitEthernet1/0/8
Reth1
Name: DMZ
Members:
None
Name: Untrust
Members:
GigabitEthernet1/0/10
Reth2
Name: Management
Members:
GigabitEthernet1/0/0
如果端口加入到安全域中,要确认是否配置了安全策略。
执行display security-policy命令,查看是否配置了安全策略
<sysname>display security-policy ip
Security-policy ip
rule 0 name 1
action pass
<sysname>display security-policy ipv6
Security-policy ipv6
rule 0 name IPv6
action pass
缺省情况下,创建安全域后,设备上各接口的报文转发遵循以下规则:
· 一个安全域中的接口与一个不属于任何安全域的接口之间的报文,会被丢弃。
· 属于同一个安全域的各接口之间的报文缺省会被丢弃。
· 安全域之间的报文由安全策略进行安全检查,并根据检查结果放行或丢弃。若安全策略不存在或不生效,则报文会被丢弃。
· 非安全域的接口之间的报文被丢弃。
· 目的地址或源地址为本机的报文,缺省会被丢弃,若该报文与安全策略匹配,则由安全策略进行安全检查,并根据检查结果放行或丢弃。
报文转发异常通常会涉及多台设备,需要逐一排查。为方便排查,排查前建议先明确报文的转发走向,如经过哪些中间设备,在设备的哪些接口进入设备,又会从哪些接口出去。检查出入接口的报文统计。确认统计是否正确。
检查入方向报文统计计数,可以通过reset counter interface命令清除计数
如果设备未收到ping报文,请排查上游的相邻设备;如果设备发送的ping报文计数正确,建议排查下游的相邻设备;如果ping报文入出计数不正确,分下面几种情况进行分析:
· 有入报文统计,没有出报文统计,进行如下排查
a. 如果链路层处理没有丢包,执行display ip statistics命令,查看IP层丢包原因
<sysname> display ip statistics
Input: sum 263207520 local 1772
bad protocol 0 bad format 0
bad checksum 0 bad options 0
Output: forwarding 24511617 local 476
dropped 21949 no route 156
compress fails 0
Fragment:input 0 output 0
dropped 0
fragmented 0 couldn't fragment 0
Reassembling:sum 0 timeouts 0
b. 打开 debugging aspf packet acl、debugging aspf event来确定aspf是否有丢包
· 无出、入报文统计
需要查看上游相邻设备出接口报文统计,分析是否上游没有把报文发送过来。
处于不同网段的两台PC:PC1和PC2,PC1的地址为10.1.1.1,PC2的地址为220.1.1.2。
中间穿越设备互相ping包,设备对PC1的地址静态NAT转换为220.1.1.1;发现PC1 ping PC2 不通,查看PC2可以收到PC1的ping报文,但是PC1 收不到PC2的回应报文。
确保PC1和PC2接入的端口加入了安全域,并且配置了安全策略。可以通过命令来查看是否配置了相关的安全策略:
<sysname> display security-policy ip
Security-policy ip
rule 0 name tom-tom1
action pass
counting enable
source-zone tom
destination-zone tom1
在设备上检查是否有到PC1的路由表项,如路由不存在,请检查路由协议配置、状态是否正确。
<sysname> display ip routing-table 10.1.1.0
在设备上检查是否有到PC1的FIB表项,如路由存在,FIB表项异常,请将故障信息发送技术支持人员分析。
<sysname> display fib 10.1.1.0
在设备上查看10.1.1.1的ARP表项是否存在
<sysname> display arp 10.1.1.1
在设备上通过display session命令确认会话是否正常建立。
安全策略默认ASPF对所有的报文进行检测。但如果在安全策略中配置了aspf apply policy命令,那么只对策略中配置的detect协议进行ASPF检测,其他协议不进行检测。如果不配置detect icmp,也没有配置反向安全策路,报文就被deny了。可以在FW上使用下面命令打开debug:
<sysname> debugging security-policy packet ip acl ?
INTEGER<2000-2999> Specify a basic ACL
INTEGER<3000-3999> Specify an advanced ACL
来看是否有deny信息,如果有类似下面信息:
*Jul 21 11:00:00:838 2017 F1090-IRF FILTER/7/PACKET: -Context=1; The packe
t is deny. Src-Zone=tom1, Dst-Zone=tom;If-In=, If-Out=Reth11(134); Packet Info:Src-IP=220.1.1.2, Dst-IP=10.1.1.1, VPN-Instance=,Src-Port=1024, Dst-Port=1025, Protocol= UDP(17), ACL=none, Rule-ID=0.
说明没有正确配置aspf策略,导致被反向安全策略deny了。
如果前面的检查均没有问题。需要查看流表是否有问题。
首先我们要看接口板的流表是否正常。对静态NAT,如下配置:
[SYSNAME] nat static outbound 10.1.1.1 220.1.1.1
然后在接口上使能静态NAT,正常流表应显示如下:
(1) 首先查看接口板流表下刷是否正确
[SYSNAME-probe] display system internal openflow instance inner-redirect flow-table
Instance 4097 Flow Table Information:
Table 200 information:
Table type: Extensibility, flow entry count: 25, total flow entry count: 25
Flow entry rule 6 information:
cookie: 0x0, priority: 7861, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG11
Ethernet type: 0x0800
IP Range: IPv4 destination address from 220.1.1.1 to 220.1.1.1
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 7 information:
cookie: 0x0, priority: 7840, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 source address from 10.10.1.1 to 10.10.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 8 information:
cookie: 0x0, priority: 7841, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 destination address from 10.10.1.1 to 10.10.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
上面3个表项,缺少一个都是会引起转发异常的。
(2) 如果接口板的流表没有异常,再查看业务板流表下刷是否正确,执行如下命令:
[SYSNAME-probe]display system internal openflow instance inner flow-table
Instance 4096 Flow Table Information:
Table 200 information:
Table type: Extensibility, flow entry count: 27, total flow entry count: 27
Flow entry rule 6 information:
cookie: 0x0, priority: 7860, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 destination address from 220.1.1.1 to 220.1.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 7 information:
cookie: 0x0, priority: 7840, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 source address from 10.10.1.1 to 10.10.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 8 information:
cookie: 0x0, priority: 7841, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 destination address from 10.10.1.1 to 10.10.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
如果流表下发都没有问题,请联系H3C相关技术支持人员
设备在转发报文过程中,发现存在丢包现象。
(1) 执行debugging security-policy packet,确认是否存在丢包。
<sysname>*Jan 13 16:06:32:298 2020 8350-2 FILTER/7/PACKET: -Context=1; The packet is denied. Src-Zone=Untrust, Dst-Zone=Trust;If-In=GigabitEthernet1/0/14(17), If-Out=GigabitEthernet1/0/10(13); Packet Info:Src-IP=10.1.1.3, Dst-IP=100.1.1.3, VPN-Instance=, Src-MacAddr=3897-d6a9-1e58,Src-Port=1024, Dst-Port=1024, Protocol=TCP(6), Application=general_tcp(2086),Terminal=invalid(0), SecurityPolicy=r0, Rule-ID=0.
如果存在The packet is denied字段,说明存在由于安全策略导致的丢包。
(2) 打开debugging ip packet调试命令,确认是否有丢包。
该命令用来打开ip报文转发调试开关。该报文的调试信息各字段解释如下
IP层将报文送到上层 |
|
接收/发送报文的接口 |
|
IP协议版本号 |
|
Sending the packet from local at interface-type interface-number |
|
可以通过该信息来分析报文是否丢弃。
(3) 打开调试命令debugging ip error,debug ip info acl查看丢包的原因。
该命令用来打开IP转发错误调试信息开关。调试信息字段描述如下:
Release MBUF! Phase Num is num, Service ID is id, Bitmap is %#lx! |
|
通过debugging信息来判断丢包的原因。
命令 |
说明 |
display arp |
显示ARP表项。检查设备ARP学习的接口是否正确 |
display current-configuration | include lsr-id |
显示当前的MPLS LSR ID |
display current-configuration configuration mpls-ldp |
显示当前生效的MPLS LDP配置信息,检查LDP的md5-password配置是否一致 |
display fib |
显示FIB信息。检查设备到某一目的IP网段的FIB表项是否存在 |
display interface |
显示指定接口的相关信息 |
display ip interface brief |
显示三层接口的IP基本配置信息 |
display ip routing-table |
显示路由表中当前激活路由的摘要信息。检查设备到某一目的IP网段的路由是否存在 |
display session |
显示会话信息 |
display this |
显示当前视图下生效的配置 |
interface |
进入接口视图 |
display system internal openflow instance |
查看openflow表项 |
display nat outbound |
查看nat outbound配置信息 |
IRF无法正常建立。
通常为配置错误引起,请检查以下配置是否正确。
通过display version查看设备型号是否一致。
<sysname>display version
H3C Comware Software, Version 7.1.064, Release 9071P1313
Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.
H3C SecPath M9000-AI-E8 uptime is 0 weeks, 4 days, 22 hours, 6 minutes
Last reboot reason : Cold reboot
Boot image: flash:/M9000E-CMW710-BOOT-R9071P1313.bin
Boot image version: 7.1.064, Release 9071P1313
Compiled Sep 07 2022 15:00:00
System image: flash:/M9000E-CMW710-SYSTEM-R9071P1313.bin
System image version: 7.1.064, Release 9071P1313
Compiled Sep 07 2022 15:00:00
LPU 2:
Uptime is 0 weeks,4 days,22 hours,3 minutes
H3C SecPath M9000-AI-E8 LPU with 1 ARM Processor
BOARD TYPE: NSQM5MBSHA1
DRAM: 2048M bytes
PCB 1 Version: VER.A
SUBCARD 1 PCB Version:VER.A
SUBCARD 2 PCB Version:VER.A
Bootrom Version: 100
CPLD 1 Version: 001
SUBCARD 1 CPLD Version:002
SUBCARD 2 CPLD Version:001
Release Version: H3C SecPath M9000-AI-E8-9071P1313
Patch Version : None
Reboot Cause : ColdReboot
PowChip Version: 001
SLOT 2 CPU 1
CPU type: Multi-core CPU
DDR4 : 32752M bytes
FLASH: 7296M bytes
Board PCB Version: Ver.A
CPLD Version: 2.0
Release Version: SecBlade AFC Enhanced-9071P1313
Basic BootWare Version:1.04
Extend BootWare Version:1.04
Reboot Cause: Warm reboot
SLOT 2 CPU 2
CPU type: Multi-core CPU
DDR4 : 32752M bytes
FLASH: 7296M bytes
Board PCB Version: Ver.A
CPLD Version: 2.0
Release Version: SecBlade FW Enhanced-9071P1313
Basic BootWare Version:1.04
Extend BootWare Version:1.04
Reboot Cause: Warm reboot
MPU(M) 4:
Uptime is 0 weeks,4 days,22 hours,6 minutes
H3C SecPath M9000-AI-E8 MPU(M) with 1 XLP316 Processor
BOARD TYPE: NSQM5SUP08A1
DRAM: 8192M bytes
FLASH: 1024M bytes
PCB 1 Version: VER.A
Bootrom Version: 158
CPLD 1 Version: 003
CPLD 2 Version: 001
Release Version: H3C SecPath M9000-AI-E8-9071P1313
Patch Version : None
Reboot Cause : ColdReboot
NPU 6:
BOARD TYPE: NSQM5FAB08A1
PCB Version: VER.A
CPLD Version: 200
NPU 7:
BOARD TYPE: NSQM5FAB08A1
PCB Version: VER.A
CPLD Version: 200
目前设备IRF最多支持两台设备。
通过display irf命查看设备成员编号MemberID,两台设备的成员编号应不同,否则通过irf member命令修改成员编号。
<sysname>display irf
MemberID Role Priority CPU-Mac Description
*+1 Master 1 00ff-fbec-b003 ---
--------------------------------------------------
* indicates the device is the master.
+ indicates the device through which the user logs in.
The bridge MAC of the IRF is: 00ff-fbec-b001
Auto upgrade : yes
Mac persistent : 6 min
Domain ID : 0
通过查看产品规格限制,确认选用的IRF物理端口是否支持作为IRF物理端口。
H3C Comware Software, Version 7.1.064, Release 9071P1313
Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.
H3C SecPath M9000-AI-E8 uptime is 0 weeks, 4 days, 22 hours, 6 minutes
Last reboot reason : Cold reboot
Boot image: flash:/M9000E-CMW710-BOOT-R9071P1313.bin
Boot image version: 7.1.064, Release 9071P1313
Compiled Sep 07 2022 15:00:00
System image: flash:/M9000E-CMW710-SYSTEM-R9071P1313.bin
System image version: 7.1.064, Release 9071P1313
Compiled Sep 07 2022 15:00:00
LPU 2:
Uptime is 0 weeks,4 days,22 hours,3 minutes
H3C SecPath M9000-AI-E8 LPU with 1 ARM Processor
BOARD TYPE: NSQM5MBSHA1
DRAM: 2048M bytes
PCB 1 Version: VER.A
SUBCARD 1 PCB Version:VER.A
SUBCARD 2 PCB Version:VER.A
Bootrom Version: 100
CPLD 1 Version: 001
SUBCARD 1 CPLD Version:002
SUBCARD 2 CPLD Version:001
Release Version: H3C SecPath M9000-AI-E8-9071P1313
Patch Version : None
Reboot Cause : ColdReboot
PowChip Version: 001
SLOT 2 CPU 1
CPU type: Multi-core CPU
DDR4 : 32752M bytes
FLASH: 7296M bytes
Board PCB Version: Ver.A
CPLD Version: 2.0
Release Version: SecBlade AFC Enhanced-9071P1313
Basic BootWare Version:1.04
Extend BootWare Version:1.04
Reboot Cause: Warm reboot
SLOT 2 CPU 2
CPU type: Multi-core CPU
DDR4 : 32752M bytes
FLASH: 7296M bytes
Board PCB Version: Ver.A
CPLD Version: 2.0
Release Version: SecBlade FW Enhanced-9071P1313
Basic BootWare Version:1.04
Extend BootWare Version:1.04
Reboot Cause: Warm reboot
MPU(M) 4:
Uptime is 0 weeks,4 days,22 hours,6 minutes
H3C SecPath M9000-AI-E8 MPU(M) with 1 XLP316 Processor
BOARD TYPE: NSQM5SUP08A1
DRAM: 8192M bytes
FLASH: 1024M bytes
PCB 1 Version: VER.A
Bootrom Version: 158
CPLD 1 Version: 003
CPLD 2 Version: 001
Release Version: H3C SecPath M9000-AI-E8-9071P1313
Patch Version : None
Reboot Cause : ColdReboot
NPU 6:
BOARD TYPE: NSQM5FAB08A1
PCB Version: VER.A
CPLD Version: 200
NPU 7:
BOARD TYPE: NSQM5FAB08A1
PCB Version: VER.A
CPLD Version: 200
通过display interface查询IRF物理端口状态是否UP,若端口为DOWN,应先检查端口不UP的原因,请参照3.2 端口无法UP。
<sysname> display interface GigabitEthernet 1/0/10
GigabitEthernet1/0/10
Current state: UP
Line protocol state: UP
Description: GigabitEthernet1/0/10 Interface
Bandwidth: 1000000kbps
Maximum Transmit Unit: 1500
Internet protocol processing: disabled
IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0000-560a
IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0000-560a
Media type is twisted pair
Port hardware type is 1000_BASE_T
Last clearing of counters: Never
Peak value of input: 0 bytes/sec, at 2013-12-13 15:15:02
Peak value of output: 0 bytes/sec, at 2013-12-13 15:15:02
Last 300 seconds input: 0 packets/sec 0 bytes/sec
Last 300 seconds output: 0 packets/sec 0 bytes/sec
<sysname> display irf configuration
进入IRF端口视图,使用display this命令,确认IRF的两台设备的工作模式是否正常。
[SYSNAME] irf-port 1/2
[SYSNAME-irf-port1/2] display this
irf-port 1/2
port group interface Ten-GigabitEthernet1/3/0/1 mode enhanced
IRF运行过程中出现分裂。
(1) IRF分裂时会打印IRF端口down,可以确定IRF分裂的时间。
%Jun 26 10:13:46:233 2013 H3C STM/2/STM_LINK_STATUS_TIMEOUT: IRF port 1 is down because heartbeat timed out.
%Jun 26 10:13:46:436 2013 H3C STM/3/STM_LINK_STATUS_DOWN: -MDC=1; IRF port 2 is down.
(2) IRF物理端口所在接口板的状态是否正常,若不正常,请参照2.2 单板故障排查是否单板故障。
<sysname> display device
Chassis Slot Type State Subslot Soft Ver Patch Ver
2 0 NSQ1GT48EA0 Normal 0 M9014-9153P22 None
2 1 NONE Absent 0 NONE None
2 2 NONE Absent 0 NONE None
2 3 NSQ1TGS8EA0 Normal 0 M9014-9153P22 None
2 4 NSQ1FWCEA0 Normal 0 M9014-9153P22 None
2 5 NONE Absent 0 NONE None
2 6 NSQ1SUPB0 Master 0 M9014-9153P22 None
2 7 NSQ1SUPB0 Standby 0 M9014-9153P22 None
2 8 NONE Absent 0 NONE None
2 9 NONE Absent 0 NONE None
2 10 NSQ1FWCEA0 Normal 0 M9014-9153P22 None
2 11 NONE Absent 0 NONE None
2 12 NONE Absent 0 NONE None
2 13 LSU1GP24TXEB0 Normal 0 M9014-9153P22 None
2 14 NONE Absent 0 NONE None
2 15 NSQ1FAB12D0 Normal 0 M9014-9153P22 None
2 16 NSQ1FAB12D0 Normal 0 M9014-9153P22 None
2 17 NSQ1FAB12D0 Normal 0 M9014-9153P22 None
(3) 检查各个IRF物理端口的状态是否正常。若端口状态不正常,请按照2 硬件类故障处理
(4) 确认故障原因。
<sysname> display interface GigabitEthernet1/0/10
GigabitEthernet1/0/10 current state: UP
Line protocol current state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0000-e80d-c000
Description: GigabitEthernet2/6/0/1 Interface
Loopback is not set
Media type is optical fiber, Port hardware type is 1000_BASE_SX_SFP
……
(5) 如果设备存在接口板,通过设备运行时间或日志检查IRF中各个成员设备及IRF物理端口所在的接口板在IRF分裂时是否重启过,确认是否为电源故障导致。
<sysname>dis version
H3C Comware Software, Version 7.1.064, Release 9071P1313
Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.
H3C SecPath M9000-AI-E8 uptime is 0 weeks, 4 days, 22 hours, 6 minutes
Last reboot reason : Cold reboot
Boot image: flash:/M9000E-CMW710-BOOT-R9071P1313.bin
Boot image version: 7.1.064, Release 9071P1313
Compiled Sep 07 2022 15:00:00
System image: flash:/M9000E-CMW710-SYSTEM-R9071P1313.bin
System image version: 7.1.064, Release 9071P1313
Compiled Sep 07 2022 15:00:00
LPU 2:
Uptime is 0 weeks,4 days,22 hours,3 minutes
H3C SecPath M9000-AI-E8 LPU with 1 ARM Processor
BOARD TYPE: NSQM5MBSHA1
DRAM: 2048M bytes
PCB 1 Version: VER.A
SUBCARD 1 PCB Version:VER.A
SUBCARD 2 PCB Version:VER.A
Bootrom Version: 100
CPLD 1 Version: 001
SUBCARD 1 CPLD Version:002
SUBCARD 2 CPLD Version:001
Release Version: H3C SecPath M9000-AI-E8-9071P1313
Patch Version : None
Reboot Cause : ColdReboot
PowChip Version: 001
SLOT 2 CPU 1
CPU type: Multi-core CPU
DDR4 : 32752M bytes
FLASH: 7296M bytes
Board PCB Version: Ver.A
CPLD Version: 2.0
Release Version: SecBlade AFC Enhanced-9071P1313
Basic BootWare Version:1.04
Extend BootWare Version:1.04
Reboot Cause: Warm reboot
SLOT 2 CPU 2
CPU type: Multi-core CPU
DDR4 : 32752M bytes
FLASH: 7296M bytes
Board PCB Version: Ver.A
CPLD Version: 2.0
Release Version: SecBlade FW Enhanced-9071P1313
Basic BootWare Version:1.04
Extend BootWare Version:1.04
Reboot Cause: Warm reboot
MPU(M) 4:
Uptime is 0 weeks,4 days,22 hours,6 minutes
H3C SecPath M9000-AI-E8 MPU(M) with 1 XLP316 Processor
BOARD TYPE: NSQM5SUP08A1
DRAM: 8192M bytes
FLASH: 1024M bytes
PCB 1 Version: VER.A
Bootrom Version: 158
CPLD 1 Version: 003
CPLD 2 Version: 001
Release Version: H3C SecPath M9000-AI-E8-9071P1313
Patch Version : None
Reboot Cause : ColdReboot
NPU 6:
BOARD TYPE: NSQM5FAB08A1
PCB Version: VER.A
CPLD Version: 200
NPU 7:
BOARD TYPE: NSQM5FAB08A1
PCB Version: VER.A
CPLD Version: 200
(6) 如故障确认,可以通过如更换光模块、更换IRF-Port端口的方式使设备重新形成IRF。
(7) 如故障无法确认,请搜集各个成员设备的信息,并将信息发送给H3C技术支持人员协助分析。
表5 故障诊断命令
命令 |
说明 |
display device |
显示设备信息用于检查各成员设备的软件版本、主控板类型是否一致 |
display interface |
显示指定接口的相关信息用于检查IRF物理端口状态是否UP |
display irf configuration |
显示所有成员设备的IRF配置信息用于检查IRF端口连接是否异常,一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接 |
display current-configuration |
显示当前视图下生效的配置,在系统视图下检查成员设备的如下配置是否一致:irf mode enhanced配置 |
display version |
显示系统版本信息、单板的运行时间通过设备运行时间确认IRF中各个成员设备是否重启过,主控板及IRF端口所在接口板是否发生重启 |
RBM无法正常建立。
通过display version查看设备型号是否一致。
<sysname>display version
H3C Comware Software, Version 7.1.064, Ess 9671P18
Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.
H3C SecPath M9000-X06 uptime is 0 weeks, 1 day, 22 hours, 39 minutes
Last reboot reason : Cold reboot
Boot image: flash:/M9000X-CMW710-BOOT-E9671P18.bin
Boot image version: 7.1.064, Ess 9671P18
Compiled Dec 14 2022 15:00:00
System image: flash:/M9000X-CMW710-SYSTEM-E9671P18.bin
System image version: 7.1.064, Ess 9671P18
Compiled Dec 14 2022 15:00:00
LPU 1:
Uptime is 0 weeks,1 day,22 hours,35 minutes
H3C SecPath M9000-X06 LPU with 1 ARM Processor
BOARD TYPE: NSQM7MBSHA0
DRAM: 2048M bytes
PCB 1 Version: VER.A
SUBCARD 1 PCB Version:VER.A
SUBCARD 2 PCB Version:VER.A
Bootrom Version: 101
CPLD 1 Version: 001
SUBCARD 1 CPLD Version:002
SUBCARD 2 CPLD Version:002
Release Version: H3C SecPath M9000-X06-9671P18
Patch Version : None
Reboot Cause : ColdReboot
PowChip Version: 001
SLOT 1 CPU 3
CPU type: Multi-core CPU
DDR4 : 98304M bytes
FLASH: 7281M bytes
Board PCB1 Version: Ver.A
Board PCB2 Version: Ver.A
BMC Version: 2.24.03
CPLD1 Version: 2.0
CPLD2 Version: 1.0
CPLD3 Version: 3.0
Release Version: SecBlade FW Enhanced-9671P18
FPGA Version: B6001
FPGA DATE: 2022.12.08
Basic BootWare Version:1.06
Extend BootWare Version:1.06
Reboot Cause: User reboot
MPU(M) 4:
Uptime is 0 weeks,1 day,22 hours,39 minutes
H3C SecPath M9000-X06 MPU(M) with 1 XLP316 Processor
BOARD TYPE: NSQM7SUPB0
DRAM: 8192M bytes
FLASH: 1024M bytes
PCB 1 Version: VER.A
Bootrom Version: 100
CPLD 1 Version: 001
CPLD 2 Version: 004
Release Version: H3C SecPath M9000-X06-9671P18
Patch Version : None
Reboot Cause : ColdReboot
NPU 9:
BOARD TYPE: NSQM7FAB06A0
PCB Version: VER.A
CPLD Version: 200
目前只支持两台设备进行双机热备。
通过display irf命查看设备成员编号MemberID,两台设备的成员编号应相同,否则通过irf member命令修改成员编号。
<sysname>display irf
MemberID Role Priority CPU-Mac Description
*+1 Master 1 80e4-55d8-54ae ---
--------------------------------------------------
* indicates the device is the master.
+ indicates the device through which the user logs in.
The bridge MAC of the IRF is: 80e4-55d8-54ac
Auto upgrade : yes
Mac persistent : 6 min
Domain ID : 0
通过display interface brief查询设备成员接口,选择成员接口一致的接口作为RBM数据通道和控制通道。
<sysname>display version
H3C Comware Software, Version 7.1.064, Ess 9671P18
Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.
H3C SecPath M9000-X06 uptime is 0 weeks, 1 day, 22 hours, 39 minutes
Last reboot reason : Cold reboot
Boot image: flash:/M9000X-CMW710-BOOT-E9671P18.bin
Boot image version: 7.1.064, Ess 9671P18
Compiled Dec 14 2022 15:00:00
System image: flash:/M9000X-CMW710-SYSTEM-E9671P18.bin
System image version: 7.1.064, Ess 9671P18
Compiled Dec 14 2022 15:00:00
LPU 1:
Uptime is 0 weeks,1 day,22 hours,35 minutes
H3C SecPath M9000-X06 LPU with 1 ARM Processor
BOARD TYPE: NSQM7MBSHA0
DRAM: 2048M bytes
PCB 1 Version: VER.A
SUBCARD 1 PCB Version:VER.A
SUBCARD 2 PCB Version:VER.A
Bootrom Version: 101
CPLD 1 Version: 001
SUBCARD 1 CPLD Version:002
SUBCARD 2 CPLD Version:002
Release Version: H3C SecPath M9000-X06-9671P18
Patch Version : None
Reboot Cause : ColdReboot
PowChip Version: 001
SLOT 1 CPU 3
CPU type: Multi-core CPU
DDR4 : 98304M bytes
FLASH: 7281M bytes
Board PCB1 Version: Ver.A
Board PCB2 Version: Ver.A
BMC Version: 2.24.03
CPLD1 Version: 2.0
CPLD2 Version: 1.0
CPLD3 Version: 3.0
Release Version: SecBlade FW Enhanced-9671P18
FPGA Version: B6001
FPGA DATE: 2022.12.08
Basic BootWare Version:1.06
Extend BootWare Version:1.06
Reboot Cause: User reboot
MPU(M) 4:
Uptime is 0 weeks,1 day,22 hours,39 minutes
H3C SecPath M9000-X06 MPU(M) with 1 XLP316 Processor
BOARD TYPE: NSQM7SUPB0
DRAM: 8192M bytes
FLASH: 1024M bytes
PCB 1 Version: VER.A
Bootrom Version: 100
CPLD 1 Version: 001
CPLD 2 Version: 004
Release Version: H3C SecPath M9000-X06-9671P18
Patch Version : None
Reboot Cause : ColdReboot
NPU 9:
BOARD TYPE: NSQM7FAB06A0
PCB Version: VER.A
CPLD Version: 200
通过display interface查询RBM通道接口状态是否UP,若端口为DOWN,应先检查端口不UP的原因,请参照3.2 端口无法UP。
<sysname>display interface GigabitEthernet 1/0/1
GigabitEthernet1/0/1
Current state: UP
Line protocol state: UP
Description: GigabitEthernet1/0/1 Interface
Bandwidth: 1000000 kbps
Maximum transmission unit: 1500
Allow jumbo frames to pass
Broadcast max-ratio: 100%
Multicast max-ratio: 100%
Unicast max-ratio: 100%
Internet protocol processing: Disabled
IP packet frame type: Ethernet II, hardware address: 80e4-55d8-54b3
IPv6 packet frame type: Ethernet II, hardware address: 80e4-55d8-54b3
Media type is twisted pair, loopback not set, promiscuous mode not set
1000Mb/s, Full-duplex, link type is autonegotiation
Output flow-control is disabled, input flow-control is disabled
Last link flapping: 1 days 17 hours 29 minutes
Last clearing of counters: Never
Current system time:2021-02-01 08:42:30 Beijing+08:00:00
Last time when physical state changed to up:2021-01-30 15:12:46 Beijing+08:00:00
Last time when physical state changed to down:2021-01-30 15:12:08 Beijing+08:00:00
Peak input rate: 8499998 bytes/sec, at 2021-01-30 15:18:39
Peak output rate: 5172061 bytes/sec, at 2021-01-30 15:12:53
Last 300 second input: 0 packets/sec 22 bytes/sec 0%
Last 300 second output: 0 packets/sec 25 bytes/sec 0%
RBM_P[F1090]display remote-backup-group status
Remote backup group information:
Backup mode: Dual-active
Device role: Primary
Data channel interface: Route-Aggregation64
Local IPv6: 100::1
Remote IPv6: 100::2 Destination port: 60064
Control channel status: Connected
Hot backup status:Enabled
Auto configuration synchronization: Enable
Configuration consistency check interval: 1 hour
Delay-time: 1 min
RBM双机运行过程中出现RBM通道分裂。
(1) RBM分裂时会打印RBM端口down,可以确定RBM分裂的时间。
RBM_P<Device-VRRP-ZHU-1>%Feb 1 07:57:49:310 2021 F1010-VRRP-ZHU-1 LLDP/6/LLDP_DELETE_NEIGHBOR: Nearest bridge agent neighbor deleted
on port GigabitEthernet1/0/7 (IfIndex 8), neighbor's chassis ID is d461-fe39-d20c, port ID is GigabitEthernet1/0/7.
%Feb 1 07:57:50:487 2021 F1010-VRRP-ZHU-1 IFNET/3/PHY_UPDOWN: Physical state on the interface GigabitEthernet1/0/7 changed to down.
%Feb 1 07:57:50:487 2021 F1010-VRRP-ZHU-1 IFNET/5/LINK_UPDOWN: Line protocol state on the interface GigabitEthernet1/0/7 changed to
down.
%Feb 1 07:58:00:269 2021 F1010-VRRP-ZHU-1 RBM/6/RBM_CHANNEL: Local IPv6=202::1, remote IPv6=202::2, status=Disconnected
(2) 检查各个RBM物理端口的状态是否正常。若端口状态不正常,请按照2 硬件类故障处理
(3) 确认故障原因。
RBM_P<Device-VRRP-ZHU-1>display interface GigabitEthernet 1/0/7
GigabitEthernet1/0/7
Current state: UP
Line protocol state: UP
Description: link-f1010-bei
Bandwidth: 1000000 kbps
Maximum transmission unit: 1500
Allow jumbo frames to pass
Broadcast max-ratio: 100%
Multicast max-ratio: 100%
Unicast max-ratio: 100%
Internet address: 202.1.1.1/24 (Primary)
IP packet frame type: Ethernet II, hardware address: e8f7-24d9-2875
IPv6 packet frame type: Ethernet II, hardware address: e8f7-24d9-2875
Media type is twisted pair, loopback not set, promiscuous mode not set
1000Mb/s, Full-duplex, link type is autonegotiation
Output flow-control is disabled, input flow-control is disabled
Output queue - Urgent queuing: Size/Length/Discards 0/1024/0
Output queue - Protocol queuing: Size/Length/Discards 0/500/0
Output queue - FIFO queuing: Size/Length/Discards 0/75/0
Last link flapping: 0 hours 0 minutes 19 seconds
Last clearing of counters: Never
Current system time:2021-02-01 08:00:09
Last time when physical state changed to up:2021-02-01 07:59:51
Last time when physical state changed to down:2021-02-01 07:57:50
Peak input rate: 1694290 bytes/sec, at 2021-01-30 14:35:26
Peak output rate: 6245465 bytes/sec, at 2021-01-30 14:40:01
Last 300 second input: 1 packets/sec 132 bytes/sec 0%
Last 300 second output: 1 packets/sec 132 bytes/sec 0%
Input (total): 2404856 packets, 808021430 bytes
(4) 如果设备存在接口板,通过设备运行时间或日志检查RBM双机环境中各个成员设备及RBM控制通道端口所在的接口板在RBM分裂时是否重启过,确认是否为电源故障导致。
(5) 如故障确认,可以通过如更换光模块、更换RBM控制通道端口的方式使设备重新形成RBM。
(6) 如故障无法确认,请搜集各个成员设备的信息,并将信息发送给H3C技术支持人员协助分析。
FW设备上行或下行接口故障,但是流量仍然上送到本设备,RBM未进行切换。
分别登录两台设备查看RBM详细配置,RBM默认会检测本框中业务板的个数,但是接口类故障需要手工配置track检测。
配置主:
track 1 interface Route-Aggregation1
track 2 interface Route-Aggregation11
RBM_P[M9016_1-remote-backup-group]display this
#
remote-backup group
backup-mode dual-active
data-channel interface Route-Aggregation1000
delay-time 1
adjust-cost bgp enable absolute 10000
adjust-cost ospf enable absolute 10000
adjust-cost ospfv3 enable absolute 10000
track 1
track 2
local-ip 192.168.195.9
remote-ip 192.168.195.10
device-role primary
配置备:
track 1 interface Route-Aggregation1
track 2 interface Route-Aggregation11
RBM_S[M9016_2-remote-backup-group]display this
#
remote-backup group
backup-mode dual-active
data-channel interface Route-Aggregation1000
delay-time 1
adjust-cost bgp enable absolute 10000
adjust-cost ospf enable absolute 10000
adjust-cost ospfv3 enable absolute 10000
track 1
track 2
local-ip 192.168.195.10
remote-ip 192.168.195.9
device-role secondary
RBM检测track的状态(通过display track all命令查询),当track的结果为positive时,RBM认为本机状态正常;当track结果为negative时,RBM模块认为本机异常触发RBM切换,进而调整相应的路由开销,引导流量全部走到另外一台FW设备。
初始开局时,确保两台FW的RBM中绑定track,并增加路由开销联动。RBM中的配置不会同步,每台FW需分别手动添加。
RBM默认每隔24h进行配置一致性检查,由于某些原因造成的配置不一致时,系统会上报不一致告警,并携带相关模块。
RBM_P[M9016_1]%Dec 17 14:25:43:191 2020 M9016_1 RBM/6/RBM_CFG_COMPARE_START: Started configuration consistency check.
%Dec 17 14:25:44:775 2020 M9016_1 RBM/6/RBM_CFG_COMPARE_RESULT: The following modules have inconsistent configuration: acl.
%Dec 17 14:25:44:775 2020 M9016_1 RBM/6/RBM_CFG_COMPARE_FINISH: Finished configuration consistency check.
首先根据告警提示信息检查对应模块不一致的地方,例如系统检测到acl模块存在差异,建议比对当前两台FW的acl配置,存在2种情况:
(1) 配置备上存在acl 3000,配置主上没有,
a. 若确认acl 3000需要保留,直接在配置主上增加acl 3000,系统自动进行配置同步,然后保存2台设备的配置。
b. 若确认acl 3000无需保留,在配置主上执行configuration manual-sync命令,系统自动进行配置同步,配置备acl 3000自动删除,然后保存2台设备的配置。
(2) 配置主上存在acl 3000,配置备上没有
a. 若确认acl 3000需要保留,在配置主上执行configuration manual-sync命令,系统自动进行配置同步,然后保存2台设备的配置。
b. 若确认acl 3000无需保留,在配置主上删除acl 3000,并执行configuration manual-sync命令,系统自动进行配置同步,然后保存2台设备的配置。
未加入冗余组的冗余口具有单独的冗余功能。冗余组只在接口UP/DOWN事件到来时进行激活切换。所有业务逻辑均基于冗余口实现,成员口只负责发送和接收报文。
问题集中在报文收发环节,存在冗余口直连无法ping通的情况。
(1) 打开debugging ethernet packet查看冗余口是否有报文上收与发送的调试信息对冗余口1,采用如下命令:
debugging ethernet packet interface Reth 1
(2) 打开arp error debug命令查看是否存在错误信息采用如下debug命令:
debugging arp error
如果有错误信息,说明ARP学习异常。
(3) 打开 ip error 查看是否有错误信息采用如下debug命令:
debugging ip error
如果有错误信息,根据此信息来确定丢包的原因。
(4) 查看 display ethernert statistics 查看是否有错误计数随报文收发增长,命令如下:
[sysname] display ethernet statistics slot 1
ETH receive packet statistics:
Totalnum : 1000888 ETHIINum : 1000888
SNAPNum : 0 RAWNum : 0
LLCNum : 0 UnknownNum : 0
ForwardNum : 884856 ARP : 0
MPLS : 0 ISIS : 0
ISIS2 : 0 IP : 0
IPV6 : 0
ETH receive error statistics:
NullPoint : 0 ErrIfindex : 3
ErrIfcb : 0 IfShut : 5
ErrAnalyse : 0 ErrSrcMAC : 0
ErrHdrLen : 0
ETH send packet statistics:
L3OutNum : 325126 VLANOutNum : 0
FastOutNum : 92115615 L2OutNum : 0
ETH send error statistics:
MbufRelayNum : 0 NullMbuf : 0
ErrAdjFwd : 0 ErrPrepend : 0
ErrHdrLen : 0 ErrPad : 0
ErrQosTrs : 0 ErrVLANTrs : 0
ErrEncap : 287 ErrTagVLAN : 0
IfShut : 0 IfErr : 0
通过display ethernet statistics slot 2,来查看成员设备的信息。
(1) 需要确认是否建立了冗余表项。查看命令如下:
<sysname>display reth interface Reth 1
Reth1 :
Redundancy group : fqs
Member Physical status Forwarding status Presence status
GE1/1/1.500 UP Active Normal
GE2/0/1.500 UP Inactive Normal
要分析Physical status状态,如果都为down,说明系统异常。分析Forwarding status状态,如果都为Inactive状态,说明成员口异常。
(2) 如果表项存在且成员状态正常,即部分报文能够上收,查看表项是否有错误。
可以通过shutdown冗余口,尝试刷新表项,看表项是否能够重新建立。如果冗余口的成员口为子接口,还需要查看表项是否带tag。
(3) 如果冗余口、ARP表项正常,需要确认驱动有没有上发报文,可查看物理接口计数,看报文是否已经上收。
(1) 报文的收发一般都是双向的过程,A-B两端报文需要互通,可以先确定是报文丢在哪一环,再针对某一环节进行定位。如A-B两端,可先ping A->B查看是否能ping通,再ping B->A查看是否能ping通。若两端都能通,则证明报文收发没问题。 某一端不能通, 以B->A为例,先看B是否将报文发出,定位方式按照以上步骤来,再看A是否上收,定位方式也是如此。
(2) 查看表项,控制块等常用信息的时候,记得要查看对应blade板的值,报文从哪里上收,从哪里转发,会不会上到主控板,都是需要关注的。有些直接在接口板进行转发的报文,查看主控板的信息,这样查到的信息是不准确的。
图3 组网图
(1) Device 1和Device 2这2台防火墙构成主备方式的IRF设备,冗余口Reth 1为上行口,聚合口Route-Aggregation1和Route-Aggregation2为冗余口Reth1的成员,成员Route-Aggregation1的优先级高。
(2) 冗余口Reth 2为下行口,聚合口Route-Aggregation3和Route-Aggregation4为冗余口Reth 2的成员,成员Route-Aggregation3的优先级高。
(3) 冗余口Reth 1和Reth 2配有IP地址。冗余组1包含冗余口1和冗余口2。
interface Reth 1
ip address 100.1.1.1 255.255.255.0
member interface Route-Aggregation1 priority 100
member interface Route-Aggregation2 priority 1
interface Reth 2
ip address 100.1.1.1 255.255.255.0
member interface Route-Aggregation3 priority 100
member interface Route-Aggregation4 priority 1
track 11 interface Route-Aggregation1
track 12 interface Route-Aggregation2
track 13 interface Route-Aggregation3
track 14 interface Route-Aggregation4
redundancy group 1
member interface Reth1
member interface Reth2
member failover group 1
member failover group 2
node 1
bind chassis 1
priority 100
track 1 interface Blade1/2/0/1
track 3 interface Blade1/3/0/1
track 11 interface Route-Aggregation1
track 13 interface Route-Aggregation3
node 2
bind chassis 2
priority 50
track 2 interface Blade2/2/0/1
track 4 interface Blade2/3/0/1
track 12 interface Route-Aggregation2
track 14 interface Route-Aggregation4
通过冗余组进行IRF主备切换时,不能成功进行切换,出现异常。
Track 由于是冗余组进行决策的唯一数据来源,所以track 的配置对于冗余组来说非常重要。Track的配置还有配错的风险,配错后会导致group 决策出现错误。
(1) 如遇group频繁进行激活成员切换的情况,有规律的定时的切换,就需要注意观察下是否频繁有track事件上报。对应查看下track 接口的主备关系,于当前track 所在node的主备关系是否一致。
(2) 如果没有问题,还需要查看下track事件与接口状态是否相符。
(3) 如果IRF由主切到备,需要确认track事件相关的端口是否真正处于Positive的状态,如果仍有端口处于Negative状态,说明存在异常。
(4) 如果仍无问题,则查看下track状态与group中的Track状态是否一致。
查看track状态:
<sysname>dis track 5
Track ID: 5
State: Positive
Duration: 0 days 0 hours 0 minutes 6 seconds
Tracked object type: Interface
Notification delay: Positive 0, Negative 0 (in seconds)
Tracked object:
Interface: Route-Aggregation1
Protocol: None
查看冗余组中的track状态:
<sysname>display redundancy group 1
Redundancy group 1 (ID 1):
Node ID Chassis Priority Status Track weight
1 Chassis1 100 Primary 255
2 Chassis2 50 Secondary 255
Preempt delay time remained : 0 min
Preempt delay timer setting : 1 min
Remaining hold-down time : 0 sec
Hold-down timer setting : 1 sec
Manual switchover request : No
Member interfaces:
Reth1
Reth2
Member failover groups:
1
2
Node 1:
Track info:
Track Status Reduced weight Interface
1 Positive 255 Blade1/2/0/1
3 Positive 255 Blade1/3/0/1
11 Positive 255 RAGG1
13 Positive 255 RAGG3
Node 2:
Track info:
Track Status Reduced weight Interface
2 Positive 255 Blade2/2/0/1
4 Positive 255 Blade2/3/0/1
12 Positive 255 RAGG2
14 Positive 255 RAGG4
如果不一致,说明track存在问题。
· 每个冗余组节点都有权重,缺省值为255,每个冗余组节点必须关联至少一个Track项,每个Track项对应一个权重增量。当Track项变为NotReady或Negative状态时,冗余组节点用当前权重减去对应的权重增量获得新的当前权重。当Track项变为Positive时,冗余组节点用当前权重加上对应的权重增量获得新的当前权重。当前权重小于或等于0时,则认为该节点故障,无法正常工作,触发冗余组的倒换/倒回。
举例说明如下:
<sysname>display redundancy group 1
Redundancy group 1 (ID 1):
Node ID Chassis Priority Status Track weight
1 Chassis1 100 Secondary 0
2 Chassis2 50 Primary 255
Preempt delay time remained : 0 min
Preempt delay timer setting : 1 min
Remaining hold-down time : 0 sec
Hold-down timer setting : 1 sec
Manual switchover request : No
Member interfaces:
Reth1
Member failover groups:
1
2
Node 1:
Track info:
Track Status Reduced weight Interface
1 Positive 255 Blade1/2/0/1
3 Positive 255 Blade1/3/0/1
11 Negative(Faulty) 255 RAGG11
13 Positive 255 RAGG3
Node 2:
Track info:
Track Status Reduced weight Interface
2 Positive 255 Blade2/2/0/1
4 Positive 255 Blade2/3/0/1
12 Positive 255 RAGG2
14 Positive 255 RAGG4
如果无法定位问题,请联系H3C技术支持人员进行分析。
内网PC A无法通过网关设备Device访问外网PC B
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:
a. 名称:secpolicy1
b. 源安全域: Trust
c. 目的安全域:Untrust
d. 动作:允许
e. 源IPv4地址:192.168.1.1(此处为PC A的IP地址)
f. 目的IPv4地址:10.0.0.2(此处为PC B的IP地址)
(4) 单击<确定>,完成安全策略配置。
(1) 登录设备Web管理页面。
(2) 选择“策略 > NAT > NAT策略”。
(3) 在“NAT策略”页面单击<新建>,新建NAT策略规则,必要的配置项如下:
a. 规则名称:policy1
b. 转换模式:源地址转换
c. 源安全域: Trust
d. 目的安全域:Untrust
e. 源IPv4地址:192.168.1.1(此处为PC A的IP地址)
f. 目的IPv4地址:10.0.0.2(此处为PC B的IP地址)
g. 转换方式:PAT
h. 地址类型:地址组
i. 转换后源地址:用于源IP地址转换的公网NAT地址组
(4) 单击<确定>,完成NAT策略规则配置。
在网关设备Device上配置NAT源地址转换后,内网PC A无法访问外网PC B。
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:
a. 名称:secpolicy2
b. 源安全域: Trust
c. 目的安全域:Untrust
d. 动作:允许
e. 源IPv4地址:192.168.1.1(此处为PC A的IP地址)
f. 目的IPv4地址:10.0.0.2(此处为PC B的IP地址)
(4) 单击<确定>,完成安全策略配置。
(1) 登录设备Web管理页面。
(2) 选择“策略 > NAT > NAT策略 ”。
(3) 在“NAT策略”页面编辑NAT源地址转换规则。
(4) 查看该规则的转换后IP地址、网段、地址对象组或NAT地址组中是否包含不在10.0.0.1/24网段内的地址。
(5) 如存在上述情况,需修改转换后源地址配置,确保回程报文能被转发到Device的外网侧接口GE1/0/2上。
(6) 单击<确定>,完成NAT策略修改
在网关设备Device上配置NAT目的地址转换后,外网PC B无法访问内网PC A。
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:
a. 名称:secpolicy3
b. 源安全域: Untrust
c. 目的安全域:Trust
d. 动作:允许
e. 源IPv4地址:10.0.0.2(此处为PC B的IP地址)
f. 目的IPv4地址:192.168.1.1(此处为PC A的IP地址)
(4) 单击<确定>,完成安全策略配置。
(1) 登录设备Web管理页面。
(2) 选择“策略 > NAT > NAT策略”。
(3) 在“NAT策略”页面编辑NAT目的地址转换规则。
(4) 查看该规则所引用的服务匹配条件是否与实际情况不符。
(5) 如存在上述情况,需修改服务匹配条件,确保与实际情况一致。
(6) 单击<确定>,完成NAT策略修改。
B在网关设备Device上配置NAT源地址转换与NAT目的地址转换(NAT Server)后,外网PC B无法通过外网地址10.0.0.100和目的端口80访问内网PC C。
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:
a. 名称:secpolicy4
b. 源安全域: Untrust
c. 目的安全域:DMZ
d. 动作:允许
e. 源IPv4地址:10.0.0.2(此处为PC B的IP地址)
f. 目的IPv4地址:192.168.2.1(此处为PC C的IP地址)
(4) 单击<确定>,完成安全策略配置。
(1) 登录设备Web管理页面。
(2) 选择“策略 > NAT > NAT策略 ”。
(3) 在“NAT策略”页面查看是否存在转换方式为PAT的源地址转换规则。
(4) 如存在上述规则,单击<编辑>,在修改NAT策略界面查看该规则引用的NAT地址组的端口范围是否包含80。
(5) 如包含在内,需要将端口80从端口范围中剔除。
(6) 单击<确定>,完成NAT策略修改。
在Device上配置NAT源地址转换和IPsec功能,对PC A访问PC B的报文进行NAT源地址转换后,利用IPsec保护其安全性。PC A主动访问PC B,发现IPsec配置不生效。
(1) 登录设备Web管理页面。
(2) 选择“网络 > VPN > IPsec > 策略 ”。
(3) 在“IPsec策略”页面编辑IPsec策略配置。
(4) 查看IPsec策略配置中的被保护数据流配置,将被保护数据流的源和目的IP地址改为NAT转换后的IP地址。
在网关设备Device上配置策略NAT后,内网PC A无法访问Device。
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:
a. 名称:secpolicy5
b. 源安全域: Trust
c. 目的安全域:Local
d. 动作:允许
e. 源IPv4地址:192.168.1.1(此处为PC A的IP地址)
f. 目的IPv4地址:192.168.1.2(此处为Device内网侧接口的IP地址)
(4) 单击<确定>,完成安全策略配置。
(1) 登录设备Web管理页面。
(2) 选择“策略 > NAT > NAT策略 ”。
(3) 在“NAT策略”页面查看是否存在报文目的安全域匹配条件为ANY的目的地址转换规则。
(4) 如存在上述规则,则需要重新配置该目的地址转换规则的报文匹配条件,具体要求如下:
(5) 目的安全域:不得包含Local安全域
(6) 源IPv4地址:不得为192.168.1.1
(7) 目的IPv4地址:不得为192.168.1.2
在网关设备Device上配置NAT源地址转换后,外网PC B无法访问Device。
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:
a. 名称:secpolicy6
b. 源安全域: Untrust
c. 目的安全域:Local
d. 动作:允许
e. 源IPv4地址:10.0.0.2(此处为PC B的IP地址)
f. 目的IPv4地址:10.0.0.1(此处为Device外网侧接口的IP地址)
(4) 单击<确定>,完成安全策略配置。
(1) 登录设备Web管理页面。
(2) 选择“策略 > NAT > NAT策略”。
(3) 在“NAT策略”页面查看是否存在源地址转换方式为NO-PAT的NAT策略规则。
(4) 如存在上述规则,单击<编辑>,在修改NAT策略界面查看该规则所引用的用于源地址转换的地址对象组或NAT地址组中是否包含Device的外网侧接口IP地址10.0.0.1。
(5) 如包含在内,需要把10.0.0.1从该地址对象组或NAT地址组中剔除。
(6) 单击<确定>,完成NAT策略修改。
在网关设备Device上配置NAT目的地址转换后,外网PC B无法访问Device
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:
a. 名称:secpolicy7
b. 源安全域: Untrust
c. 目的安全域:Local
d. 动作:允许
e. 源IPv4地址:10.0.0.2(此处为PC B的IP地址)
f. 目的IPv4地址:10.0.0.1(此处为Device外网侧接口的IP地址)
(4) 单击<确定>,完成安全策略配置。
(1) 登录设备Web管理页面。
(2) 选择“策略 > NAT > NAT策略 ”。
(3) 在“NAT策略”页面查看是否存在转换方式为多对一地址转换的目的地址转换规则。
(4) 如存在上述规则,单击<编辑>,在修改策略NAT界面查看目的地址匹配规则中是否包含Device的外网侧接口IP地址10.0.0.1。
(5) 如包含在内,继续查看服务匹配规则中是否包含PC B访问Device时使用的服务。
(6) 如包含在内,请根据实际情况选择如下方式进行处理:
a. 改变PC B访问Device时使用的服务。
b. 把该服务从服务匹配规则中剔除,不对该服务进行目的地址转换。
(7) 单击<确定>,完成NAT策略修改。
内网PC A无法通过网关设备Device访问外网PC B
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:
a. 名称:secpolicy1
b. 源安全域: Trust
c. 目的安全域:Untrust
d. 动作:允许
e. 源IPv4地址:192.168.1.1(此处为PC A的IP地址)
f. 目的IPv4地址:10.0.0.2(此处为PC B的IP地址)
(4) 单击<确定>,完成安全策略配置。
(1) 登录设备Web管理页面。
(2) 选择“策略 > NAT > NAT动态转换 > 策略配置”。
(3) 在“NAT出方向动态转换(基于ACL)”页签单击<新建>,新建NAT出方向动态转换,必要的配置项如下:
a. 接口:GE1/0/2
b. ACL: 此处配置为放行PC A访问PC B报文的ACL
c. 转换后源地址:NAT地址组(此处配置为用于源IP地址转换的公网地址组)
d. 转换模式:PAT
(4) 单击<确定>,完成NAT出方向动态转换配置。
在网关设备Device上配置NAT源地址转换后,内网PC A无法访问外网PC B。
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:
a. 名称:secpolicy2
b. 源安全域: Trust
c. 目的安全域:Untrust
d. 动作:允许
e. 源IPv4地址:192.168.1.1(此处为PC A的IP地址)
f. 目的IPv4地址:10.0.0.2(此处为PC B的IP地址)
(4) 单击<确定>,完成安全策略配置。
(5) 接口NAT配置检查
(6) 登录设备Web管理页面。
(7) 选择“策略 > NAT > NAT动态转换 > 策略配置 ”。
(8) 在右侧页签中编辑NAT源地址转换规则。
(9) 查看该规则的转换后IP地址、网段、地址对象组或NAT地址组中是否包含不在10.0.0.1/24网段内的地址。
(10) 如存在上述情况,需修改转换后源地址配置,确保回程报文能被转发到Device的外网侧接口GE1/0/2上。
(11) 单击<确定>,完成接口NAT修改。
在网关设备Device上配置NAT目的地址转换后,外网PC B无法访问内网PC A。
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:
a. 名称:secpolicy3
b. 源安全域: Untrust
c. 目的安全域:Trust
d. 动作:允许
e. 源IPv4地址:10.0.0.2(此处为PC B的IP地址)
f. 目的IPv4地址:192.168.1.1(此处为PC A的IP地址)
(4) 单击<确定>,完成安全策略配置。
(1) 登录设备Web管理页面。
(2) 选择“策略 > NAT > NAT内部服务器 > 策略配置”。
(3) 查看NAT内部服务器的外网端口是否与实际情况不符。
(4) 如存在上述情况,需修改端口匹配条件,确保与实际情况一致。
(5) 单击<确定>,完成接口NAT修改。
在网关设备Device上配置NAT源地址转换与NAT目的地址转换(NAT Server)后,外网PC B无法通过外网地址10.0.0.100和目的端口80访问内网PC C。
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:
a. 名称:secpolicy4
b. 源安全域: Untrust
c. 目的安全域:DMZ
d. 动作:允许
e. 源IPv4地址:10.0.0.2(此处为PC B的IP地址)
f. 目的IPv4地址:192.168.2.1(此处为PC C的IP地址)
(4) 单击<确定>,完成安全策略配置。
(1) 登录设备Web管理页面。
(2) 选择“策略 > NAT > NAT动态转换 > 策略配置”。
(3) 在“NAT出方向动态转换(基于对象组)”页签中查看是否存在动作为PAT的转换规则。
(4) 如存在上述规则,单击<编辑>,在修改NAT出方向动态转换界面查看转换后源地址处引用的NAT地址组的端口范围是否包含80。
(5) 如包含在内,需要将端口80从端口范围中剔除。
(6) 单击<确定>,完成NAT出方向动态转换规则修改。
(7) 在“NAT出方向动态转换(基于ACL)”页签中查看是否存在转换模式为PAT的转换规则。
(8) 如存在上述规则,单击<编辑>,在修改NAT出方向动态转换界面查看转换后源地址处引用的NAT地址组的端口范围是否包含80。
(9) 如包含在内,需要将端口80从端口范围中剔除。
(10) 单击<确定>,完成NAT出方向动态转换规则修改。
在Device上配置NAT源地址转换和IPsec功能,对PC A访问PC B的报文进行NAT源地址转换后,利用IPsec保护其安全性。PC A主动访问PC B,发现IPsec配置不生效。
(1) 登录设备Web管理页面。
(2) 选择“网络 > VPN > IPsec > 策略 ”。
(3) 在“IPsec策略”页面编辑IPsec策略配置。
(4) 查看IPsec策略配置中的被保护数据流配置,将被保护数据流的源和目的IP地址改为NAT转换后的IP地址。
在网关设备Device上配置NAT源地址转换后,外网PC B无法访问Device。
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:
a. 名称:secpolicy5
b. 源安全域: Untrust
c. 目的安全域:Local
d. 动作:允许
e. 源IPv4地址:10.0.0.2(此处为PC B的IP地址)
f. 目的IPv4地址:10.0.0.1(此处为Device外网侧接口的IP地址)
(4) 单击<确定>,完成安全策略配置。
(1) 登录设备Web管理页面。
(2) 选择“策略 > NAT > NAT动态转换 > 策略配置”。
(3) 在“NAT出方向动态转换(基于对象组)”页签中查看是否存在动作为NO-PAT的转换规则。
(4) 如存在上述规则,单击<编辑>,在修改NAT出方向动态转换界面查看转换后源地址处引用的NAT地址组中是否包含Device的外网侧接口IP地址10.0.0.1。
(5) 如包含在内,需要把10.0.0.1从该NAT地址对象组中剔除。
(6) 单击<确定>,完成NAT出方向动态转换规则修改。
(7) 在“NAT出方向动态转换(基于ACL)”页签中查看是否存在转换模式为NO-PAT的转换规则。
(8) 如存在上述规则,单击<编辑>,进入修改NAT出方向动态转换界面。
(9) 若转换后源地址为NAT地址组,查看所引用的NAT地址组内是否包含Device的外网侧接口IP地址10.0.0.1;若转换后源地址为接口IP地址,查看所引用的接口是否为Device的外网侧接口GE1/0/2。
(10) 如出现上述两种情况之一,需要把10.0.0.1从转换后源地址中剔除。
(11) 单击<确定>,完成NAT出方向动态转换规则修改。
在网关设备Device上配置NAT目的地址转换后,外网PC B无法访问Device
(1) 登录设备Web管理页面。
(2) 选择“策略 > 安全策略 > 安全策略”。
(3) 在“安全策略”页面单击<新建>按钮,选择新建策略,进入“新建安全策略”页面,必要的配置项如下:
a. 名称:secpolicy6
b. 源安全域: Untrust
c. 目的安全域:Local
d. 动作:允许
e. 源IPv4地址:10.0.0.2(此处为PC B的IP地址)
f. 目的IPv4地址:10.0.0.1(此处为Device外网侧接口的IP地址)
(4) 单击<确定>,完成安全策略配置。
(1) 登录设备Web管理页面。
(2) 选择“策略 > NAT > NAT内部服务器 > 策略配置”。
(3) 查看是否存在外网地址为Device的外网侧接口IP地址10.0.0.1的NAT内部服务器规则。
(4) 如存在上述规则,单击<编辑>,在修改NAT内部服务器界面查看外网端口是否为PC B访问Device时使用的端口。
(5) 如该端口确为PC B访问Device时使用的端口,请根据实际情况选择如下方式进行处理:
(6) 改变PC B访问Device时使用的协议或目的端口。
(7) 修改报文匹配规则(ACL)处引用的ACL,不对PC B访问Device的报文进行目的地址转换。
(8) 单击<确定>,完成NAT内部服务器规则修改。
NAT不能正常转换或者NAT转换的报文不能正常转发。内网PC A无法通过网关设备Device访问外网PC B
[SYSNAME] display nat outbound
NAT outbound information:
There are 1 NAT outbound rules.
Interface: Route-Aggregation12
ACL: --- Address group: 257 Port-preserved: N
NO-PAT: N Reversible: N
*May 13 09:58:48:083 2017 H3C NAT/7/COMMON: -slot =1;
PACKET: (Route-Aggregation12-in) Protocol: TCP
4.4.4.6: 21 - 4.4.5.11:11000(VPN: 0) ------>
4.4.4.6: 21 - 192.168.1.2:13249(VPN: 0)
注: 可以看到正向的流量做了NAT转换
<sysname> display session table ipv4 verbose
Initiator:
Source IP/port: 192.168.1.2/13790
Destination IP/port: 4.4.4.6/21
DS-Lite tunnel peer: -
VPN instance/VLAN ID/VLL ID: -/-/-
Protocol: TCP(6)
Responder:
Source IP/port: 4.4.4.6/21
Destination IP/port: 4.4.4.27/1060
DS-Lite tunnel peer: -
VPN instance/VLAN ID/VLL ID: -/-/-
Protocol: TCP(6)
State: TCP_ESTABLISHED
Application: FTP
Start time: 2013-12-15 10:49:00 TTL: 3592s
Interface(in) : Route-Aggregation11
Interface(out): Route-Aggregation12
Zone(in) : Trust
Zone(out): menglei
Initiator->Responder: 3 packets 128 bytes
Responder->Initiator: 2 packets 130 bytes
对于动态NAT,NAT表项会下刷到每一块业务板上,起到分流作用。
[SYSNAME-probe] display system internal openflow instance inner flow-table
Flow entry rule 6 information:
cookie: 0x0, priority: 7301, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG1021
Ethernet type: 0x0800
IP Range: IPv4 destination address from 4.4.4.25 to 4.4.4.27
Instruction information:
Write actions:
Output interface: Blade2/4/0/1
Flow entry rule 7 information:
cookie: 0x0, priority: 7301, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG1021
Ethernet type: 0x0800
IP Range: IPv4 destination address from 4.4.4.28 to 4.4.4.30
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
图4 组网图
PC1访问PC2,在Device上对PC 1的地址进行静态NAT444转换,转换公网地址池为:4.4.5.11到4.4.5.13。Device上有2块防火墙业务板。
# 配置NAT444地址池。
nat port-block-group 256
local-ip-address 192.168.1.2 192.168.1.11 vpn-instance vpn11
global-ip-pool 4.4.5.11 4.4.5.12
block-size 1000
port-range 10000 19000
# 配置入接口。
interface Route-Aggregation1023
ip binding vpn-instance vpn11
ip address 192.168.1.254 24
# 配置出接口。
interface Route-Aggregation1021
ip address 4.4.4.254 255.255.255.0
nat outbound port-block-group 256
# 配置vpn-instance到公网之间路由。
略。
NAT444不能正常转换、NAT444转换的报文不能正常转发、反向报文无法正常转发。
<sysname> display nat port-block-group 256
Port block group 256:
Port range: 10000-19000
Block size: 1000
Local IP address information:
Start address End address VPN instance
192.168.1.2 192.168.1.11 vpn11
Global IP pool information:
Start address End address
4.4.5.11 4.4.5.12
这里,每一个私网需要的端口块的端口个数为:1000。
私网地址段192.168.1.2-192.168.1.11共有10个私网地址:共需要1个地址块。
端口范围设置为:10000-19999,因此每一个公网地址可以提供9个地址块。
因此,从上面的配置分析,10个私网地址需要2个公网地址,这里的设置满足需求。
通过display session table ipv4 verbose命令,查看会话是否正确。
[SYSNAME-probe] display system internal openflow instance inner flow-table
Flow entry rule 24 information:
cookie: 0x0, priority: 7521, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG1021
Ethernet type: 0x0800
IP Range: IPv4 destination address from 4.4.5.11 to 4.4.5.12
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 25 information:
cookie: 0x0, priority: 7500, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 source address from 192.168.1.2 to 192.168.1.11
VRF index: 16
[SYSNAME] display ip vpn-instance instance-name
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 26 information:
cookie: 0x0, priority: 7501, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 destination address from 192.168.1.2 to 192.168.1.11
VRF index: 16
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
分析:我们可以看到下发了三条openflow,对于静态nat444来说,所有的openflow都是下发到主板卡上去的。
可以通过 display blade-controller-team default 这条命令可以用来查看哪块是主板卡,如下:
<M9KS-2>display blade-controller-team Default
ID: 1 Name: Default
Chassis Slot CPU Status LBGroupID
2 3 1 Normal 1
* 2 4 1 Normal 1
* : Primary blade controller of the team.
下面分析一下三条openflow:
(1) IP Range:IPv4 destination address from 4.4.5.11 to 4.4.5.11
这一条指明了从pc2 回到pc1的流量(经过nat转换之后的地址)该上送到哪块板卡上。
(2) IP Range:IPv4 source address from 192.168.1.2 to 192.168.1.2
这一条指明了从PC1到PC2的流量该上送到哪块板卡上。
(3) IP Range:IPv4 destination address from 192.168.1.2 to 192.168.1.2
大家对这条openflow可能会不理解,觉得这条openflow为什么要下发呢?其实此时如果要是有一个PC3(和pc1同网侧)想要访问PC1,那么PC3访问PC1的流量该上送到哪块板卡呢?由于第二条openflow的存在,PC1的流量肯定上送到主板卡,如果PC3访问PC1的流量没有上送到主板卡,而上送到别的板卡上去了,那么PC1此时就没法访问PC3了。
通过会话和openflow下刷表项的对比,如果存在不一致的地方,NAT444转换可能存在异常。如果这些都解决不了问题。请联系技术支持人员进行分析。
FW作为出口网关设备,内网部分用户无法上网,外网用户无法访问内网服务器,但是从外网ping出接口的地址可以ping通。
(1) 确定NAT地址组是否和接口地址是同一个网段:
(2) 如果NAT地址组的地址和配置NAT的接口地址不在同一网段,NAT地址池的地址无法响应。如果不在同一网段,要确保对端设置了NAT地址组的路由。
(3) 如果地址组中的地址或NAT Server地址和接口在同一网段,确认地址组中的地址或者NAT Server地址是否发送了免费arp,可以通过直连对端设备进行确认。还需要确认对端学习到的arp的mac地址的正确性:
(4) 设备上线时,对端设备需要更新ARP。当两端不是直连,对端设备不能感知到链路Down过,所以不能删除相关ARP表项。当设备上线后,本端接口会发送接口地址的免费ARP,对端设备收到该免费ARP后可以正常更新该ARP表项;但可能存在地址池中的地址ARP没有刷新。
(5) 在防火墙上debug或者抓包分析,是否ping报文只有发出去的而没有回来的,存在转发异常的情况。
(6) 在对端设备上持续地ping NAT地址组或者NAT Server的地址,打开arp的debug开关,确认是否没有收到arp请求报文。
(7) 如果无法确认定位,请联系技术支持人员进行分析。
命令 |
说明 |
display nat outbound |
显示nat outbound设置信息 |
display nat server |
显示nat server设置信息及状态 |
display session |
显示会话信息 |
save |
将当前配置保存到指定文件 |
PC1访问PC2。在Device上,通过IPv4到IPv6源地址静态转换策略,为目的IPv4地址指定一个对应的IPv6地址23::1。PC1访问该IPv6地址便可以访问PC2。
对于PC1,通过IPv6到IPv4的源地址动态转换策略,将IPv6发送过来的IPV6报文源地址转换为IPv4地址30.30.40.100。
acl ipv6 number 2000
rule 0 permit source 1:1::1/128
#
aft address-group 0
address 30.30.40.100 30.30.40.100
#
aft v6tov4 source acl ipv6 number 2000 address-group 0
#
aft v4tov6 source 1.1.1.1 23::1
#
interface Route-Aggregation10.900
aft enable
interface Route-Aggregation10.901
aft enable
AFT不能正常转换或者AFT转换的报文不能正常转发。
Display aft configuration查看设备上AFT的配置。在Device上,流量入接口和出接口都需要开启aft功能(aft enable)。
[SYSNAME]dis aft configuration
aft address-group 0
address 30.30.40.100 30.30.40.100
aft v6tov4 source acl ipv6 number 2000 address-group 0
aft v4tov6 source 1.1.1.1 23::1
interface Route-Aggregation10.900
aft enable
interface Route-Aggregation10.901
aft enable
AFT ALG:
DNS : Enabled
FTP : Enabled
HTTP : Enabled
ICMP-ERROR : Enabled
RTSP : Enabled
SIP : Enabled
<sysname>debugging aft packet ip
Dec 16 15:08:22:697 2020 H3C AFT/7/COMMON: -Slot=6.1;
PACKET: (Route-Aggregation10.900) Protocol: UDP
1.1.1.1/69 - 30.30.40.100/1128(VPN:0) ------>
23::1/69 – 1:1::1/35017(VPN:0)
或
<sysname>debugging aft packet ipv6
Dec 16 15:09:13:696 2020 H3C AFT/7/COMMON: -Slot=6.1;
PACKET: (Route-Aggregation10.901) Protocol: UDP
1:1::1/6677 - 23::1/5060(VPN:0) ------>
30.30.40.100/1149 - 1.1.1.1/5060(VPN:0)
注:如果以上信息,表示IPv4和IPv6已经进行了AFT转换。
[SYSNAME-probe]dis system internal openflow instance inner-redirect flow-table
Flow entry 3305 information:
cookie: 0x0, priority: 5045, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG10
VLAN ID: 900, mask: 0xfff
IP Range: IPv4 destination address from 30.30.40.100 to 30.30.40.100
Instruction information:
Write actions:
Group: 4026531857
Flow entry 3306 information:
cookie: 0x0, priority: 5045, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG10
VLAN ID: 4094, mask: 0xfff
IP Range: IPv4 destination address from 30.30.40.100 to 30.30.40.100
Instruction information:
Write actions:
Group: 4026531857
Flow entry 3307 information:
cookie: 0x0, priority: 5080, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
IPv4 source address: 1.1.1.1, mask: 255.255.255.255
Instruction information:
Write actions:
Group: 4026531865
Flow entry 3308 information:
cookie: 0x0, priority: 5085, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
IPv4 destination address: 1.1.1.1, mask: 255.255.255.255
Instruction information:
Write actions:
Group: 4026531865
Flow entry 3309 information:
cookie: 0x0, priority: 7085, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG10
VLAN ID: 900, mask: 0xfff
IPv6 destination address: 23::1
IPv6 destination address mask: FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF
Instruction information:
Write actions:
Group: 4026531865
Flow entry 3310 information:
cookie: 0x0, priority: 7085, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG10
VLAN ID: 4094, mask: 0xfff
IPv6 destination address: 23::1
IPv6 destination address mask: FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF
Instruction information:
Write actions:
Group: 4026531865
注:对于AFT静态转换,需要关注流表下发是否正常。
如果上述定位手段均不能作出结论,请联系相关技术支持人员协助分析
图5 组网图
Device 1和Device 2 两台防火墙设备之间建立IPsec隧道,对PC1和PC2之间访问的流量进行IPsec保护
(1) 配置描述:
· Device 1上,ike的local-address为:9.9.9.9,remote-address为:9.9.9.19,安全acl规则为:
rule 0 permit ip source 151.1.0.0 0.0.255.255 destination 152.2.0.0 0.0.255.255
· Device 2上,ike的local-address为:9.9.9.19, remote-address为:9.9.9.9,安全acl规则为:
rule 0 permit ip source 152.2.0.0 0.0.255.255 destination 151.1.0.0 0.0.255.255
ike sa和ipsec sa都可以建立,但是PC1 和PC2互相ping,均不能ping通。
查看ike sa:
[sysname]dis ike sa
Connection-ID Remote Flag DOI
------------------------------------------------------------------
1 9.9.9.9 RD IPsec
Flags:
RD--READY RL--REPLACED FD-FADING RK-REKEY
查看ipsec sa:
[sysname]dis ipsec sa
-------------------------------
Interface: Ten-GigabitEthernet8/2/20
-------------------------------
-----------------------------
IPsec policy: ipsec
Sequence number: 1
Mode: ISAKMP
Flow table status: Active
-----------------------------
Tunnel id: 0
Encapsulation mode: tunnel
Perfect Forward Secrecy:
Inside VPN:
Extended Sequence Numbers enable: N
Traffic Flow Confidentiality enable: N
Path MTU: 1428
Tunnel:
local address: 9.9.9.19
remote address: 9.9.9.9
Flow:
sour addr: 152.2.0.0/255.255.0.0 port: 0 protocol: ip
dest addr: 151.1.0.0/255.255.0.0 port: 0 protocol: ip
[Inbound ESP SAs]
SPI: 42602698 (0x028a10ca)
Connection ID: 4294967296
Transform set: ESP-ENCRYPT-AES-CBC-128 ESP-AUTH-SHA1
SA idle time: 86400
SA duration (kilobytes/sec): 1843200/3600
SA remaining duration (kilobytes/sec): 1843199/3154
Max received sequence-number: 4
Anti-replay check enable: Y
Anti-replay window size: 64
UDP encapsulation used for NAT traversal: N
Status: Active
[Outbound ESP SAs]
SPI: 3182510800 (0xbdb142d0)
Connection ID: 4294967297
Transform set: ESP-ENCRYPT-AES-CBC-128 ESP-AUTH-SHA1
SA idle time: 86400
SA duration (kilobytes/sec): 1843200/3600
SA remaining duration (kilobytes/sec): 1843199/3154
Max sent sequence-number: 4
UDP encapsulation used for NAT traversal: N
Status: Active
[sysname-probe]display system internal openflow instance inner-redirect flow-tab
le
Instance 4097 flow table information:
Flow entry 41 information:
cookie: 0x0, priority: 8102, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP protocol: 50
IPv4 source address: 9.9.9.19, mask: 255.255.255.255
IPv4 destination address: 9.9.9.9, mask: 255.255.255.255
VRF index: 0
Instruction information:
Write actions:
Group: 4026531873
Flow entry 42 information:
cookie: 0x0, priority: 8300, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
IPv4 source address: 151.1.0.0, mask: 255.255.0.0
IPv4 destination address: 152.2.0.0, mask: 255.255.0.0
Instruction information:
Write actions:
Group: 4026531873
IPsec openflow是在一阶段、二阶段后协商成功后才会下发,会下发两条规则,所下的规则如下:
(1) 对于解密方向,只能看到隧道头中的地址,所以要用隧道的源地址和目的地址来下引流规则:
接口索引 + 隧道源地址 + 隧道目的地址。
(2) 对于加密方向,由于是明文,可以知道流的源地址和目的地址,所以用ACL流信息来下引流规则。
如果IPSec SA正常建立,但是IPSec openflow没有正常下发,就会出现ping不通的现象。
[sysname-probe]display system internal openflow instance inner flow-table
Instance 4096 flow table information:
Flow entry 21 information:
cookie: 0x0, priority: 8102, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP protocol: 50
IPv4 source address: 9.9.9.19, mask: 255.255.255.255
IPv4 destination address: 9.9.9.9, mask: 255.255.255.255
VRF index: 0
Instruction information:
Write actions:
Group: 4026531873
Flow entry 22 information:
cookie: 0x0, priority: 8300, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IPv4 source address: 151.1.0.0, mask: 255.255.0.0
IPv4 destination address: 152.2.0.0, mask: 255.255.0.0
Instruction information:
Write actions:
Group: 4026531873
如果上述都没有发现问题,可以reset ipsec sa、reset ike sa;重新建立SA,看是否正常。如果无法解决问题,请联系技术支持人员。
命令 |
说明 |
display ike sa |
显示IKE SA的信息 |
display ipsec sa |
显示IPsec SA的信息 |
reset ike sa |
清除IKE SA |
reset ipsec sa |
清除IPsec SA |
save |
将当前配置保存到指定文件 |
图6 组网图
Device 1和Device 2组成主备堆叠设备,Device 1为Master。防火墙FW和堆叠设备建立IPsec隧道,保护PC1和PC2之间的交互流量。
IPsec加密流量主要走IRF主设备Device 1,但当Device 1出故障down掉后,发现PC1和PC2不能再ping通。
(1) 在IRF设备Device 2上,首先查看ike sa和IPsec SA是否正常建立。如果sa没有成功建立,需要在Device 2设备上查看IPsec相关的openflow表项,通过如下命令:
display system internal openflow instance inner-redirect flow-tab
le
display system internal openflow instance inner flow-table
如果出现如下信息:
[sysname-probe]display system internal openflow instance inner-redirect flow-tab
le
Instance 4097 flow table information:
Flow entry 41 information:
cookie: 0x0, priority: 8102, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP protocol: 50
IPv4 source address: 9.9.9.19, mask: 255.255.255.255
IPv4 destination address: 9.9.9.9, mask: 255.255.255.255
VRF index: 0
Instruction information:
Write actions:
Group: 4026531873
Flow entry 42 information:
cookie: 0x0, priority: 8300, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
IPv4 source address: 151.1.0.0, mask: 255.255.0.0
IPv4 destination address: 152.2.0.0, mask: 255.255.0.0
Instruction information:
Write actions:
可以看出,IPsec SA虽然没有建立起来,但是,IPsec openflow表项仍存在。说明存在openflow表项存在异常。信息中,Group: 4026531873 表明SA的出端口仍为已经down掉的Device 1上的端口,说明openflow表项没有随着主设备的down掉而删除,导致无法建立正常的SA。
(2) 对主备切换,如果处理IPsec业务的业务板或者堆叠主机down掉,IPsec SA会重新建立。需要确认当前存在的IPsec SA是否是重新建立的。
(3) 如果SA已经成功建立,并且openflow表项正确下了。可以尝试reset ipsec sa、reset ike sa命令,尝试重新建立IPsec SA。
(4) 打开debugging ipsec、debugging ike相关debug命令,进行调试定位。
(5) 如果上述手段均无法定位,请联系相关技术支持人员进行分析。
命令 |
说明 |
display ike sa |
显示ike sa的信息 |
display ipsec sa |
显示ipsec sa的信息 |
display system internal openflow instance |
显示openflow表项信息 |
reset ike sa |
清除ike sa |
reset ipsec sa |
清除ipsec sa |
save |
将当前配置保存到指定文件 |
(1) 组网需求:
Device 1和Device 2 两台防火墙设备之间建立IPsec隧道,对PC1和PC2之间访问的流量进行IPsec保护。
(2) 配置描述:
Device 1上,IKE的local-address为:81.2.0.1, remote-address为:14.5.1.1
安全ACL规则为:
rule 0 permit ip source 81.2.0.0 0.0.0.255 destination 82.2.0.0 0.0.0.255
Device 2上,IKE的local-address为:14.5.1.1, remote-address为:81.2.0.1
安全ACL规则为:
rule 0 permit ip source 82.2.0.0 0.0.0.255 destination 81.2.0.0 0.0.0.255
(3) 故障描述:IKE SA可以建立,但IPsec SA未能建立。
(1) 首先查看保护的ACL是否有匹配次数统计来检查ACL是否匹配,和用户要保护的流量是否一致。
(2) 如果保护的ACL有匹配次数,且ACL和用户要保护的流量一致,再检查两端FW的算法是否一致,主要有安全协议、加密和验证算法、封装模式是否一致;若算法一致,请排查是否有错误或不完整的配置,比如:缺少或配错对端地址、缺少或配错ike 策略。
(3) 如果上述都没有发现问题,可以使用命令reset ipsec sa、reset ike sa清除IPsec SA和IKE SA;重新建立SA,看是否正常。如果无法解决问题,请联系技术支持人员。
命令 |
说明 |
display ike sa |
显示IKE SA的信息 |
display ipsec sa |
显示IPsec SA的信息 |
reset ike sa |
清除IKE SA |
reset ipsec sa |
清除IPsec SA |
display ipsec transform-set |
显示IPsec安全提议的信息 |
display ipsec policy |
显示IPsec安全策略的信息 |
save |
将当前配置保存到指定文件 |
(1) 组网需求:
Device 1和Device 2 两台防火墙设备之间建立IPsec隧道,对PC1和PC2之间访问的流量进行IPsec保护。
(2) 配置描述:
Device 1上,IKE的local-address为:81.2.0.1, remote-address为:14.5.1.1
安全ACL规则为:
rule 0 permit ip source 81.2.0.0 0.0.0.255 destination 82.2.0.0 0.0.0.255
Device 2上,IKE的local-address为:14.5.1.1, remote-address为:81.2.0.1
安全ACL规则为:
rule 0 permit ip source 82.2.0.0 0.0.0.255 destination 81.2.0.0 0.0.0.255
(3) 故障描述:IKE SA未能建立。
(1) 查看两端FW的提议是否匹配:加密算法和验证算法是否匹配;身份认证方法是否匹配;
(2) 查看身份验证是否成功,主要查看两端FW预共享密钥配置是否相同;若是证书验证的话,关注证书是否过期、证书是否有可信CA、证书是否被吊销、两端证书的密钥是否匹配、两端证书是否为同一个CA签发;还有常见的情况是对端身份冲突,请查看是否有多个ike 策略的remote规则相同。
(3) 如果上述查看未能发现问题所在,无法解决问题,请联系技术支持人员。
命令 |
说明 |
display ike sa |
显示IKE SA的信息 |
display ipsec sa |
显示IPsec SA的信息 |
reset ike sa |
清除IKE SA |
reset ipsec sa |
清除IPsec SA |
display ike proposal |
显示所有IKE提议的配置信息 |
save |
将当前配置保存到指定文件 |
(1) 组网需求:
企业分支使用IPsec VPN接入企业总部,通过在分支Device A上配置IPsec智能选路功能,实现IPsec隧道在Link 1和Link 2两条链路上动态切换,具体需求如下:
a. Device A首先使用Link1与总部建立IPSec隧道。
b. 当基于Link1建立的IPSec隧道丢包严重或时延过高时,能自动切换到Link2建立新的IPSec隧道。
(2) 配置描述:
分支Device A上:
配置接口IP地址和网关地址,1.1.1.3和2.2.2.3为本例中的直连下一跳地址:
<DeviceA> system-view
[DeviceA] interface gigabitethernet 1/0/1
[DeviceA-GigabitEthernet1/0/1] ip address 1.1.1.1 24
[DeviceA-GigabitEthernet1/0/1] gateway 1.1.1.3
[DeviceA-GigabitEthernet1/0/1] quit
[DeviceA] interface gigabitethernet 1/0/2
[DeviceA-GigabitEthernet1/0/2] ip address 2.2.2.2 24
[DeviceA-GigabitEthernet1/0/2] gateway 2.2.2.3
[DeviceA-GigabitEthernet1/0/2] quit
配置IPsec智能选路策略
# 配置一个IPsec智能选路策略名称为policy1,添加链路。
[DeviceA] ipsec smart-link policy policy1
[DeviceA-ipsec-smart-link-policy-policy1] link 1 interface gigabitethernet 1/0/1 remote 3.3.3.3
[DeviceA-ipsec-smart-link-policy-policy1] link 2 interface gigabitethernet 1/0/2 remote 3.3.3.3
# 设置链路循环切换的最大次数为4。
[DeviceA-ipsec-smart-link-policy-policy1] link-switch cycles 4
# 开启IPsec智能选路功能。
[DeviceA-ipsec-smart-link-policy-policy1] smart-link enable
[DeviceA-ipsec-smart-link-policy-policy1] quit
总部Device B上:
配置接口的IP地址
<DeviceB> system-view
[DeviceB] interface gigabitethernet 1/0/1
[DeviceB-GigabitEthernet1/0/1] ip address 3.3.3.3 24
[DeviceB-GigabitEthernet1/0/1] quit
配置一个IPv4的ACL,定义要保护的数据流
[DeviceB] acl advanced 3000
[DeviceB-acl-ipv4-adv-3000] rule permit ip source 10.1.2.0 0.0.0.255 destination 10.1.1.0 0.0.0.255
[DeviceB-acl-ipv4-adv-3000] rule permit ip source 3.3.3.0 0.0.0.255 destination 1.1.1.0 0.0.0.255
[DeviceB-acl-ipv4-adv-3000] rule permit ip source 3.3.3.0 0.0.0.255 destination 2.2.2.0 0.0.0.255
[DeviceB-acl-ipv4-adv-3000] quit
配置到达Device A所在子网的静态路由。3.3.3.1为本例中的直连下一跳地址:
[DeviceB] ip route-static 10.1.1.0 255.255.255.0 gigabitethernet 1/0/1 3.3.3.1
[DeviceB] ip route-static 1.1.1.0 255.255.255.0 gigabitethernet 1/0/1 3.3.3.1
[DeviceB] ip route-static 2.2.2.0 255.255.255.0 gigabitethernet 1/0/1 3.3.3.1
(3) 故障描述:智能选路不探测。
(1) 查看是否缺少有效链路,比如接口地址缺少未配、接口DOWN未UP;
(2) 查看配置是否完整:IPsec策略是否应用智能选路、是否缺少路由下一跳;
(3) 若上述查看未见问题,请继续排查IPsec策略相关配置是否齐全和正确;
(4) 如果问题仍未解决,请调大探测轮数,以排除探测达到最大轮数的原因;
(5) 如果上述查看未能发现问题所在,无法解决问题,请联系技术支持人员。
命令 |
说明 |
display ike sa |
显示IKE SA的信息 |
display ipsec sa |
显示IPsec SA的信息 |
reset ike sa |
清除IKE SA |
reset ipsec sa |
清除IPsec SA |
display ipsec smart-link policy |
查看IPsec智能选路策略的配置信息 |
display ipsec policy |
可以查看到IPsec安全策略引用IPsec智能选路策略 |
display acl 3000 |
可以查看动态生成的ACL规则 |
save |
将当前配置保存到指定文件 |
(1) 组网需求:
某企业分支和总部均使用固定的IP地址接入Internet。
a. 企业分支与企业总部之间的所有流量通过IPsec安全隧道进行传送;
b. 当企业分支的私网IP地址段调整时,不需要改变企业总部网关的IPsec配置。
为实现如上组网需求,可采用如下配置思路实现:
c. 在Device A和Device B之间使用IPsec隧道接口建立IPsec连接,将发送给对端私网的数据流路;
d. 由到IPsec虚拟隧道接口上,由IPsec虚拟隧道接口上动态协商建立的IPsec安全隧道对分支子网;
e. (10.1.1.0/24)与总部子网(10.1.2.0/24)之间的所有数据流进行安全保护。
(2) 配置描述:
在Device A上:
配置IPsec隧道接口
# 创建模式为IPsec隧道的接口Tunnel1。
[DeviceA] interface tunnel 1 mode ipsec
# 配置Tunnel1接口的IP地址。
[DeviceA-Tunnel1] ip address 3.3.3.1 255.255.255.0
# 配置Tunnel1接口的源端地址(GE1/0/2接口的IP地址)。
[DeviceA-Tunnel1] source 2.2.2.1
# 配置Tunnel1接口的目的端地址(DeviceB的GE1/0/2接口的IP地址)。
[DeviceA-Tunnel1] destination 2.2.3.1
# 在IPsec隧道接口上应用IPsec安全框架。
[DeviceA-Tunnel1] tunnel protection ipsec profile abc
[DeviceA-Tunnel1] quit
配置Device A到Device B的静态路由。
[DeviceA] ip route-static 10.1.2.0 255.255.255.0 tunnel 1
在Device B上:
配置IPsec隧道接口
# 创建模式为IPsec隧道的接口Tunnel1。
[DeviceB] interface tunnel 1 mode ipsec
# 配置Tunnel1接口的IP地址。
[DeviceB-Tunnel1] ip address 3.3.3.2 255.255.255.0
# 配置Tunnel1接口的源端地址(GE1/0/2接口的IP地址)。
[DeviceB-Tunnel1] source 2.2.3.1
# 配置Tunnel1接口的目的端地址(DeviceB的GE1/0/2接口的IP地址)。
[DeviceB-Tunnel1] destination 2.2.2.1
# 在IPsec隧道接口上应用IPsec安全框架。
[DeviceB-Tunnel1] tunnel protection ipsec profile abc
[DeviceB-Tunnel1] quit
配置Device B到Device A的静态路由。
[DeviceB] ip route-static 10.1.1.0 255.255.255.0 tunnel 1
(3) 故障描述:IPsec隧道未能建立。
(1) 查看两端FW中的Tunnel口是否异常,若为DOWN状态,请首先检查Tunnel配置是否完整:是否配置了Source、是否配置了Destination(可能配置时配成了Description)、是否配置了IP地址;
(2) 若Tunnel口配置无问题,请检查Tunnel源物理口是否UP、Tunnel目的地址是否可达;
(3) Tunnel口检查完毕后,若问题依然存在,请排查IPsec和IKE基础配置是否正确;
(4) 如果上述操作,未能发现问题所在,无法解决问题,请联系技术支持人员。
命令 |
说明 |
display ike sa |
显示IKE SA的信息 |
display ipsec sa |
显示IPsec SA的信息 |
reset ike sa |
清除IKE SA |
reset ipsec sa |
清除IPsec SA |
display ip interface brief |
查看接口状态 |
display interface Tunnel 1 |
查看隧道状态 |
save |
将当前配置保存到指定文件 |
图7 组网图
三台物理服务器Server A、Server B和Server C均可提供FTP服务,且这三台服务器的硬件配置顺次降低。通过配置负载均衡,在考虑硬件性能的前提下让这三台服务器联合提供FTP服务,并通过健康检测来监控这些服务器是否可达。
(1) 配置实服务组
# 创建ICMP类型的NQA模板t1。
#
nqa template icmp t1
#
# 创建实服务组sf,配置其调度算法为加权轮转算法,并指定其健康检测方法为t1。
#
server-farm sf
probe t1
#
(2) 配置实服务器
# 创建实服务器rs1,配置其IPv4地址为192.168.1.1、权值为150,并加入实服务组sf。
#
real-server rs1
ip address 192.168.1.1
weight 150
server-farm sf
#
# 创建实服务器rs2,配置其IPv4地址为192.168.1.2、权值为120,并加入实服务组sf。
#
real-server rs2
ip address 192.168.1.2
weight 120
server-farm sf
#
# 创建实服务器rs3,配置其IPv4地址为192.168.1.3、权值为80,并加入实服务组sf。
#
real-server rs3
ip address 192.168.1.3
weight 80
server-farm sf
#
(3) 配置虚服务器
# 创建TCP类型的虚服务器vs,配置其VSIP为61.159.4.100,指定其默认实服务组为sf,并开启此虚服务。
#
virtual-server vs type tcp
virtual ip address 61.159.4.100
default server-farm sf
service enable
#
虚服务vs和实服务rs1、rs2、rs3都处于active状态,但是host访问虚服务地址不能成功。
(1) 首先查看LB设备上虚服务是否有统计来确定Host与LB设备之间是否可达,并查看虚服务是否有丢包统计,如下:
如果虚服务没有统计,则客户端到LB设备不可达,确保客户端和LB设备可达后再查看是否正常;如果虚服务有统计且有丢包统计,开启LB的debug或者在客户端抓包分析。
查看虚服务vs统计:
[LB] display virtual-server statistics name vs
Slot 1:
Virtual server: vs
Total connections: 10
Active connections: 3
Max connections: 3
Connections per second: 0
Max connections per second: 1
Client input: 3210 bytes
Client output: 14074 bytes
Throughput: 0 bytes/s
Max throughput: 7554 bytes/s
Received packets: 1365
Sent packets: 2796
Dropped packets: 0
(2) 如果上述虚服务统计正常且没有丢包统计,再查看实服务组中所有实服务器是否有丢包统计,如下:
如果实服务器有丢包统计,开启LB的debug或者在响应服务器端抓包分析,以确定相应实服务器和LB设备之间的链路是否可达,相应实服务器的服务或者服务端口是否开启。
查看实服务统计:
[LB] display real-server statistics name rs1
Slot 1:
Real server: rs1
Total connections: 5
Active connections: 1
Max connections: 1
Connections per second: 0
Max connections per second: 1
Server input: 307462 bytes
Server output: 27460 bytes
Throughput: 0 bytes/s
Max throughput: 316457 bytes/s
Received packets: 319
Sent packets: 236
Dropped packets: 0
Received requests: 0
Dropped requests: 0
Sent responses: 0
Dropped responses: 0
[LB]display real-server statistics name rs2
Slot 1:
Real server: rs2
Total connections: 2
Active connections: 1
Max connections: 1
Connections per second: 0
Max connections per second: 1
Server input: 870147 bytes
Server output: 45163 bytes
Throughput: 0 bytes/s
Max throughput: 580348 bytes/s
Received packets: 748
Sent packets: 511
Dropped packets: 0
Received requests: 0
Dropped requests: 0
Sent responses: 0
Dropped responses: 0
[LB]display real-server statistics name rs3
Slot 1:
Real server: rs3
Total connections: 2
Active connections: 1
Max connections: 1
Connections per second: 0
Max connections per second: 1
Server input: 870147 bytes
Server output: 45163 bytes
Throughput: 0 bytes/s
Max throughput: 580348 bytes/s
Received packets: 178
Sent packets: 311
Dropped packets: 0
Received requests: 0
Dropped requests: 0
Sent responses: 0
Dropped responses: 0
如果上述都没有发现问题,可以开启LB的debug,从debug信息来分析出现故障的位置。如果无法解决问题,请联系技术支持人员。
CPU高,内存高,负载均衡功能影响:虚服务有丢包、NQA探测失败或者震荡、新请求失败、并发性能无法提升。
(1) 查看实服务的状态,CPU高可能导致NQA探测失败或者震荡,此时虚服务器会有丢包。
(2) 内存高会导致并发上不去,新请求会失败。
命令 |
说明 |
display virtual-server statistics |
显示虚服务的统计信息 |
display real-server statistics |
显示实服务器的统计信息 |
debugging lb all |
开启LB的所有调试信息 |
debugging lb error |
开启LB的错误调试信息 |
debugging lb event |
开启LB的事件调试信息 |
debugging lb fsm |
开启LB的状态机调试信息 |
debugging lb packet |
开启LB的报文调试信息 |
发现负载均衡分担不均匀时,如何排查并进行优化。
(1) 可以查看各个实服务器的统计信息是否均匀。如果想让各个服务器均匀的分担一般用轮转的调度算法,将客户端请求均匀分担到多个实服务器。
(2) LB插卡是多核CPU系统,每个核单独按照自己的表项进行轮转,所以全局来看,有可能出现每个实服务分到的连接数不均衡的问题。请考虑修改调度算法为最小连接或者随机等观察一下。
(3) 源地址HASH算法流量不均匀,请确认源地址个数是否足够。
(4) 通过配置负载均衡策略,进行更精细的分类,将请求进行分类送给哪些服务器,尽量满足用户实际需求:对于特殊业务,服务器的状态,需要依据实际环境进行调整。
配置 |
命令 |
显示实服务器的统计信息 |
display real-server statistics [ name real-server-name ] |
显示虚服务器的统计信息 |
display virtual-server statistics [ name virtual-server-name ] |
清除实服务器的统计信息 |
reset real-server statistics [ real-server-name ] |
清除虚服务器的统计信息 |
reset virtual-server statistics [ virtual-server-name ] |
设备CPU占用率持续在60%以上,下发命令时设备反应很慢。
<sysname> display cpu-usage
Slot 1 CPU 0 CPU usage:
13% in last 5 seconds
13% in last 1 minute
13% in last 5 minutes
通过display cpu-usage history可以查看单板最近60分钟的CPU占用情况。
<sysname> display cpu-usage history
100%|
95%|
90%|
85%|
80%|
75%|
70%|
65%|
60%|
55%|
50%|
45%|
40%|
35%|
30%|
25%|
20%|
15%|
10%|
5%| #
------------------------------------------------------------
10 20 30 40 50 60 (minutes)
cpu-usage (CPU 0) last 60 minutes (SYSTEM)
CPU占用率高的原因通常有:
· 路由震荡
· 配置过多的路由策略
· 报文攻击
· 链路环路
· 报文没有走快转
· 接口没有加入安全域或者没有安全策略,大量报文在设备上丢弃
· 打开了Debugging调试开关
· 对象策略/ACL未开加速
· 对象组地址中存在排除地址或者非连续掩码
· 静态Nat444端口块资源不足
· 大量广播/组播报文上送
· 突发流量导致CPU高
通过display route-policy命令可以查看设备配置的路由策略,请检查配置的路由策略是否过多,导致CPU处理的负担增加。
<sysname> display route-policy
Route-policy: policy1
permit : 1
if-match cost 10
continue: next node 11
apply comm-list a delete
链路成环时,网络震荡,大量的协议报文上送CPU处理也可能导致CPU占用率升高。存在环路时流量成环,可能会出现广播,设备很多端口的流量会变得很大,端口使用率达到90%以上:
<sysname> display interface GigabitEthernet1/0/2
GigabitEthernet1/0/2 current state: UP
Line protocol current state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0000-e80d-c000
Description: GigabitEthernet2/6/0/1 Interface
Loopback is not set
Media type is optical fiber, Port hardware type is 1000_BASE_SX_SFP
1000Mbps-speed mode, full-duplex mode
……
Last clearing of counters: Never
Peak value of input: 123241940 bytes/sec, at 2013-06-27 14:33:15
Peak value of output: 80 bytes/sec, at 2013-06-27 14:13:00
Last 300 second input: 26560 packets/sec 123241940 bytes/sec 99%
Last 300 second output: 0 packets/sec 80 bytes/sec 0%
……
如链路出现环路:
· 排查链路连接、端口配置是否正确
· 设备对接的交换机是否使能STP协议,配置是否正确
· 设备路由是否设置正确,是否存在路由环路。
可以通过display ip fast-forwarding cache命令来确定报文是否走快转,如果cache表项中不存在该报文相关的表项,说明报文没有走快转。
<sysname> display ip fast-forwarding cache
Total number of fast-forwarding entries: 78
SIP SPort DIP DPort Pro Input_If Output_If Flg
40.1.20.2 65535 30.1.2.2 1024 6 Reth4 Reth3 1
192.168.96.40 53342 192.168.205.33 23 6 GE1/0/0 N/A 1
30.1.2.2 1024 40.1.20.2 65535 6 Reth3 Reth4 1
192.168.205.33 23 192.168.96.52 60824 6 InLoop0 GE1/0/0 1
120.0.0.1 1701 120.0.0.2 1701 17 InLoop0 GE1/0/2.120 1
40.1.20.2 65529 30.1.2.2 1024 6 Reth4 Reth3 1
130.2.1.115 1701 130.2.1.1 1701 17 Reth4 N/A 1
30.1.2.2 1024 40.1.20.2 65533 6 Reth3 Reth4 1
40.1.20.2 65526 30.1.2.2 1024 6 Reth4 Reth3 1
50.1.1.2 1024 60.1.1.2 1024 6 Reth1 Tun1 1
192.168.205.33 37932 192.168.100.53 0 1 InLoop0 GE1/0/0 1
30.1.2.2 1024 40.1.20.2 65529 6 Reth3 Reth4 1
30.1.2.2 1024 40.1.20.2 65527 6 Reth3 Reth4 1
60.1.1.2 1024 50.1.1.2 1024 6 Tun1 Reth1 1
40.1.20.2 65532 30.1.2.2 1024 6 Reth4 Reth3 1
可以根据某一个地址进行确认以该地址为源或目的IP报文是否走快转,命令如下:
<sysname> display ip fast-forwarding cache 12.1.1.1
Total number of fast-forwarding entries: 2
SIP SPort DIP DPort Pro Input_If Output_If Flg
12.1.1.2 49216 12.1.1.1 3784 17 InLoop0 N/A 1
12.1.1.1 3784 12.1.1.2 49216 17 RAGG5.3101 InLoop0 1
如果仍然无法排除故障,请将display cpu-usage命令显示信息及搜集的其他信息反馈给技术支持人员分析。
#
object-policy ip EXTERNAL-Local
rule 0 pass vrf external_vpn
rule 1 pass vrf 7tgaklptgb9o19babgnm3kbst8
accelerate
#
如果对象策略或者ACL中存在50条以上的rule规则,但是未开启加速,会导致设备CPU高的现象,可以用命令display object-policy accelerate summary ip 和 display acl accelerate summary 查看当前哪些对象策略和ACL已开启加速。
如果对象组地址中配置了exclude、或者不连续掩码wildcard,会存在加速失败导致设备CPU高的现象,需要删除相关的配置。
如果客户网络中配置了静态Nat444,当网络中存在突发流量(报文源端口大量跳变,源目的IP和目的端口号均不变)时会导致Nat444端口资源耗尽。
在probe视图查看 display system internal nat statistics chassis X slot X cpu 1 | in failed ,看是否有类似 NAT444 failed to translate port 计数的大量增长。
如果存在上述错误计数大量增长的话,用命令 display nat port-block static c 1 s X c 1 查看是哪个地址映射占用了大量端口资源,检查该地址所在的NAT地址组配置,看当前占用的端口资源是否达到了端口资源的上限。
如果确认是端口资源达到上限的话,需要整改现场配置扩大端口块资源。
检查设备物理口是否有大量广播/组播报文进入设备。相关命令如下:
display counters rate inbound interface
在上述命令回显中查看是否有 broadcasts 和 multicasts报文计数的大量增长。
如果确认有大量广播/组播报文进入防火墙设备,需要对该报文进行qos限速,并排查该广播/组播报文的来源。
如果上送的报文在安全策略中未放通,也会造成设备CPU高的现象。查看设备的aspf和 packet-drop丢包统计,看是否有大量丢包记录。相关命令如下:
[SYSNAME-probe]display system internal aspf statistics zone-pair ipv4 chassis X slot X cpu 1
[SYSNAME-probe]display system internal ip packet-drop statistics chassis X slot X cpu 1
此时可以通过下面的命令确定报文特征:
debug ip packet
debug ip info
debug aspf packet
确认报文特征后,根据需要对报文进行安全策略放行、配置攻击防范策略、QOS限速等处理。
多次查看单板内存占用率,发现内存占用率持续偏高,始终处于70%以上(FreeRatio低于30%)。Total表示总的内存,Used表示当前使用的内存,FreeRatio表示未使用的内存占用率。
查看内存命令如下:
<sysname> display memory slot 2
The statistics about memory is measured in KB:
Slot 2:
Total Used Free Shared Buffers Cached FreeRatio
Mem: 16375408 2514664 13860744 0 1396 177968 84.6%
-/+ Buffers/Cache: 2335300 14040108
Swap: 0 0 0
这类问题通常为软件问题引起,如内存泄露,也可能是由于会话数目、路由数目过多导致。请按照下面步骤进一步搜集信息发送给技术支持人员分析。
通过display process memory命令多次查询单板各进程的内存使用信息。Dynamic类型的内存为设备动态申请的,在内存出现泄露时会持续增加,通过前后比较观察可以确认哪个进程的内存占用持续增加。如果持续增加,说明该进程可能发生了泄露,请记录下进程的JID。下面以查询JID为18919的diagd进程为例说明。
<sysname> display process memory slot 2
JID Text Data Stack Dynamic Name
1 132 700 32 156 scmd
2 0 0 0 0 [kthreadd]
3 0 0 0 0 [migration/0]
4 0 0 0 0 [ksoftirqd/0]
5 0 0 0 0 [watchdog/0]
6 0 0 0 0 [migration/1]
7 0 0 0 0 [ksoftirqd/1]
8 0 0 0 0 [watchdog/1]
9 0 0 0 0 [migration/2]
10 0 0 0 0 [ksoftirqd/2]
11 0 0 0 0 [watchdog/2]
12 0 0 0 0 [migration/3]
13 0 0 0 0 [ksoftirqd/3]
14 0 0 0 0 [watchdog/3]
15 0 0 0 0 [migration/4]
16 0 0 0 0 [ksoftirqd/4]
17 0 0 0 0 [watchdog/4]
……
18919 128 76416 64 2240 diagd
……
再进一步确认JID为18919的diagd进程的哪种字节大小的内存块发生泄露。如下命令所示,Size表示内存块的字节大小,Total表示总的申请个数,Used表示使用数目,Free表示未使用的数目,Free Ratio表示未使用的内存块百分比。通过多次查询并比较查询值可以看出哪个Size的内存块Used个数持续增加。查询完毕后,请将搜集到的信息发送给技术支持人员分析。
Size Free Used Total Free Ratio
32 541 39 580 93.3%
48 6 43 49 12.2%
64 534 32499 33033 1.6%
80 538 47 585 92.0%
112 0 534 534 0.0%
128 0 4 4 0.0%
160 0 4 4 0.0%
176 0 4 4 0.0%
256 0 2 2 0.0%
288 0 1 1 0.0%
304 0 1 1 0.0%
336 0 1 1 0.0%
688 0 4 4 0.0%
1184 0 2 2 0.0%
1456 0 2 2 0.0%
1984 0 1 1 0.0%
2032 0 2 2 0.0%
4144 0 1 1 0.0%
13792 1 0 1 100.0%
Large Memory Usage:
Used Blocks : 0
Used Memory(in bytes): 0
Free Blocks : 3
Free Memory(in bytes): 211200
Summary:
Total virtual memory heap space(in bytes) : 2490368
Total physical memory heap space(in bytes) : 2293760
Total allocated memory(in bytes) : 2170560
命令 |
说明 |
display cpu-usage |
显示CPU利用率的统计信息。用于查询CPU占用率高的任务 |
display cpu-usage history |
以图形方式显示CPU利用率统计历史信息 |
display interface |
显示指定接口的信息。检查接口的流量是否正常 |
display memory |
显示单板内存占用率 |
display process memory |
显示单板各进程的内存使用信息。通过多次查询,发现可能存在内存泄露的进程 |
display process memory heap |
显示Dynamic类型内存的详细信息,确认哪种字节大小的内存块发生了泄露 |
display system internal kernel memory pool |
查看内核内存分配情况 |
客户端可以ping通SSL VPN网关,但是无法打开SSL VPN页面。
(1) 首先查看SSL服务器端策略视图下是否未引用PKI域,通过以下命令查看,SSL服务器端策略下需要引用PKI域。
[SYSNAME] ssl server-policy XXX
[SYSNAME-ssl-server-policy-XXX] display this
#
ssl server-policy XXX
pki-domain XXX
#
return
如果pki-domain 命令不存在,需要添加。
(2) 查看是否在SSL服务器策略引用的PKI域下导入了CA证书,LOCAL证书。并且保证LOCAL证书是CA服务器颁发给服务器的证书,而不是客户端证书,通过以下命令查看。
display pki certificate domain XXXX ca
display pki certificate domain XXXX local
(3) 如果上述都没有发现问题,可能是在SSL VPN gateway 的service enable之后,再进行了导入证书的操作,只要导入了证书或者SSL 策略进行了配置变化,就必须在SSL VPN gateway XXX里面进行undo service enable,然后再service enable一下便可,证书和配置才能生效。如果无法解决问题,请联系技术支持人员。
表14-1 故障诊断命令
命令 |
说明 |
ssl server-policy policy-name |
创建SSL服务器端策略,并进入SSL服务器端策略视图 |
pki-domain domain-name |
配置SSL服务器端策略所使用的PKI域 |
display pki certificate domain domain-name { ca | local | peer [ serial serial-num ] } |
显示证书内容 |
sslvpn gateway gateway-name |
创建SSL VPN网关,并进入SSL VPN网关视图 |
service enable |
开启当前的SSL VPN网关 |
浏览器可以打开SSL VPN网关页面,但是无法登录。
(1) 确认SSL VPN网关地址是否可达,设备允许Ping的情况下可通过Ping确认,不允许Ping的情况下可通过抓包确认。
(2) 通过查看SSL VPN网关的显示信息,确认SSL VPN网关的状态:
a. 确认SSL VPN网关是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN网关处于Up状态,否则需要在Web界面单击SSL VPN网关的使能按钮,或者在SSL VPN网关视图下执行service enable命令开启SSL VPN网关;
b. 重新配置或修改SSL服务端策略后,只有执行undo service enable命令关闭SSL VPN网关,并执行service enable命令重新开启SSL VPN网关后,新的策略才会生效;
c. SSL相关配置是否正确,缺省情况下设备使用自带的缺省证书,当需要使用非缺省证书时,可以引用SSL服务端策略。当不需要使用非缺省证书时,删除SSL服务端策略引用即可;
SSL VPN网关的显示信息如下:
[Device] display sslvpn gateway
Gateway name: gw
Operation state: Up
IP: 1.1.1.2 Port: 2000
SSL server policy configured: sslnew
SSL server policy in use: ssl
Front VPN instance: Not configured
(3) 通过查看SSL VPN访问实例的显示信息,确认SSL VPN访问实例的状态:
a. 确认SSL VPN访问实例是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN访问实例处于Up状态,否则需要在Web界面单击SSL VPN访问实例的使能按钮,或者在SSL VPN访问实例视图下执行service enable命令开启SSL VPN访问实例
b. 确认SSL VPN访问实例是否引用了SSL VPN网关。通过查看显示信息中Associated SSL VPN gateway字段的值,若有引用的网关名称,则表示成功引用了SSL VPN网关,否则,需要在Web界面SSL VPN访问实例下引用SSL VPN网关,或者在SSL VPN访问实例视图下执行gateway命令,引用SSL VPN网关
SSL VPN访问实例的显示信息如下:
[Device] display sslvpn context
Context name: ctx
Operation state: Up
Associated SSL VPN gateway: gw
SSL client policy configured: sslnew
SSL client policy in use: ssl
(4) 确认SSL VPN网关地址和端口是否被正确侦听,需要确认每个业务板的侦听端口是否正确开启,TCP代理连接的显示信息如下:
<Device> display tcp-proxy slot 1
Local Addr:port Foreign Addr:port State Service type
1.1.1.2:2000 0.0.0.0:0 LISTEN SSLVPN
(5) 确认SSL VPN用户是否配置正确:
a. 本地用户:确保用户类型为网络接入类,服务类型为SSL VPN,且为SSL VPN用户配置资源组。
b. 远程用户:确保远程认证服务器上用户隶属的用户组,已在SSL VPN访问实例中配置对应名称的资源组。
(6) 若开启了客户端和服务器端证书认证,确保两端已正确安装证书。
表14-2 故障诊断命令
命令 |
说明 |
display tcp-proxy |
显示TCP代理连接的简要信息 |
display sslvpn context |
显示SSL VPN访问实例的信息 |
display sslvpn gateway |
显示SSL VPN网关的信息 |
通过浏览器登录SSL VPN网关后,无法访问内网服务器资源。
(1) 确认SSL VPN访问实例下配置了资源,以下方式至少一种:
a. 配置了访问资源的资源列表,如下:
# 创建URL表项urlitem,并配置资源的URL。
[Device-sslvpn-context-ctxweb1] url-item urlitem
[Device-sslvpn-context-ctxweb1-url-item-urlitem] url http://20.2.2.2
[Device-sslvpn-context-ctxweb1-url-item-urlitem] quit
# 创建URL列表urllist。
[Device-sslvpn-context-ctxweb1] url-list urllist
# 配置URL列表标题为web。
[Device-sslvpn-context-ctxweb1-url-list-urllist] heading web
# 配置URL列表引用的URL表项。
[Device-sslvpn-context-ctxweb1-url-list-urllist] resources url-item urlitem
[Device-sslvpn-context-ctxweb1-url-list-urllist] quit
# SSL VPN访问实例ctxweb1下创建策略组resourcegrp1,引用URL列表urllist。
[Device-sslvpn-context-ctxweb1] policy-group resourcegrp1
[Device-sslvpn-context-ctxweb1-policy-group-resourcegrp1] resources url-list urllist
[Device-sslvpn-context-ctxweb1-policy-group-resourcegrp1] quit
b. 配置了能够放行通往后台服务器的ACL或者URI ACL规则,并且引用规则已经添加:
[Device-sslvpn-context-ctxweb1] policy-group resourcegrp1
[Device-sslvpn-context-ctxweb1-policy-group-resourcegrp1] filter web-access acl 3000
(2) SSL VPN网关是否可以Ping通后台资源地址,是否需要在对端设备上添加路由。
(3) 通过查看SSL VPN网关的显示信息,确认SSL VPN网关的状态:
a. 确认SSL VPN网关是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN网关处于Up状态,否则需要在Web界面单击SSL VPN网关的使能按钮,或者在SSL VPN网关视图下执行service enable命令开启SSL VPN网关
b. 重新配置或修改SSL服务端策略后,只有执行undo service enable命令关闭SSL VPN网关,并执行service enable命令重新开启SSL VPN网关后,新的策略才会生效
c. SSL相关配置是否正确,缺省情况下设备使用自带的缺省证书,当需要使用非缺省证书时,可以引用SSL服务端策略。当不需要使用非缺省证书时,删除SSL服务端策略引用即可
SSL VPN网关的显示信息如下:
[Device] display sslvpn gateway
Gateway name: gw
Operation state: Up
IP: 1.1.1.2 Port: 2000
SSL server policy configured: sslnew
SSL server policy in use: ssl
Front VPN instance: Not configured
(4) 通过查看SSL VPN访问实例的显示信息,确认SSL VPN访问实例的状态:
a. 确认SSL VPN访问实例是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN访问实例处于Up状态,否则需要在Web界面单击SSL VPN访问实例的使能按钮,或者在SSL VPN访问实例视图下执行service enable命令开启SSL VPN访问实例
b. 确认SSL VPN访问实例是否引用了SSL VPN网关。通过查看显示信息中Associated SSL VPN gateway字段的值,若有引用的网关名称,则表示成功引用了SSL VPN网关,否则,需要在Web界面SSL VPN访问实例下引用SSL VPN网关,或者在SSL VPN访问实例视图下执行gateway命令,引用SSL VPN网关
SSL VPN访问实例的显示信息如下:
[Device] display sslvpn context
Context name: ctx
Operation state: Up
Associated SSL VPN gateway: gw
SSL client policy configured: sslnew
SSL client policy in use: ssl
(5) 排查上下行链路是否正常,以下情况会导致上下行链路不通:
a. SSL VPN网关没有配置到达内网资源的路由,可通过查看设备路由表确认
b. 内网服务器未配置回程路由导致链路不通
c. 地址冲突导致链路不通
d. 配置了策略路由导致链路不通
e. 配置了负载均衡导致链路不通
f. 设备是双主模式,请将设备修改为主备模式,并将上下行接口修改成冗余口
表14-3 故障诊断命令
命令 |
说明 |
url-item |
用来创建URL表项,并进入URL表项视图。如果指定的URL表项已经存在,则直接进入URL表项视图。 |
url-list |
用来创建URL列表并进入URL列表视图。如果指定的URL列表已经存在,则直接进入URL列表视图。 |
url |
用来配置资源的URL。 |
heading |
用来配置URL列表标题。 |
resources url-item |
用来配置URL列表引用的URL表项。 |
policy-group |
用来创建策略组,并进入SSL VPN策略组视图。如果指定的策略组已经存在,则直接进入策略组视图。 |
resources url-list |
用来配置策略组引用URL列表。 |
filter web-access acl |
用来配置对Web接入进行高级ACL过滤。 |
display sslvpn context |
显示SSL VPN访问实例的信息 |
display sslvpn gateway |
显示SSL VPN网关的信息 |
在浏览器中输入SSL VPN网关地址,无法打开SSL VPN网关页面,或通过iNode输入SSL VPN网关地址后,提示无法获取SSL VPN网关信息。
(1) 确认SSL VPN网关地址是否可达,设备允许Ping的情况下可通过Ping确认,不允许Ping的情况下可通过抓包确认。
(2) 通过查看SSL VPN网关的显示信息,确认SSL VPN网关的状态:
a. 确认SSL VPN网关是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN网关处于Up状态,否则需要在Web界面单击SSL VPN网关的使能按钮,或者在SSL VPN网关视图下执行service enable命令开启SSL VPN网关
b. 重新配置或修改SSL服务端策略后,只有执行undo service enable命令关闭SSL VPN网关,并执行service enable命令重新开启SSL VPN网关后,新的策略才会生效
c. SSL相关配置是否正确,缺省情况下设备使用自带的缺省证书,当需要使用非缺省证书时,可以引用SSL服务端策略。
SSL VPN网关的显示信息如下:
[Device] display sslvpn gateway
Gateway name: gw
Operation state: Up
IP: 1.1.1.2 Port: 2000
SSL server policy configured: sslnew
SSL server policy in use: ssl
Front VPN instance: Not configured
(3) 通过查看SSL VPN访问实例的显示信息,确认SSL VPN访问实例的状态:
a. 确认SSL VPN访问实例是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN访问实例处于Up状态,否则需要在Web界面单击SSL VPN访问实例的使能按钮,或者在SSL VPN访问实例视图下执行service enable命令开启SSL VPN访问实例
b. 确认SSL VPN访问实例是否引用了SSL VPN网关。通过查看显示信息中Associated SSL VPN gateway字段的值,若有引用的网关名称,则表示成功引用了SSL VPN网关,否则,需要在Web界面SSL VPN访问实例下引用SSL VPN网关,或者在SSL VPN访问实例视图下执行gateway命令,引用SSL VPN网关
SSL VPN访问实例的显示信息如下:
[Device] display sslvpn context
Context name: ctx
Operation state: Up
Associated SSL VPN gateway: gw
SSL client policy configured: sslnew
SSL client policy in use: ssl
(4) 确认网关地址和端口是否被正确侦听,需要确认每个业务板侦听端口是否正确开启。
TCP代理连接的显示信息如下:
<Device> dis tcp-proxy slot 1
Local Addr:port Foreign Addr:port State Service type
1.1.1.2:2000 0.0.0.0:0 LISTEN SSLVPN
表14-4 故障诊断命令
命令 |
说明 |
display tcp-proxy |
显示TCP代理连接的简要信息 |
display sslvpn context |
显示SSL VPN访问实例的信息 |
display sslvpn gateway |
显示SSL VPN网关的信息 |
在iNode客户端上输入SSL VPN网关地址后,可以获取SSL VPN网关信息,但是无法登录。
(1) 确认SSL VPN网关地址是否可达,设备允许Ping的情况下可通过Ping确认,不允许Ping的情况下可通过抓包确认。
(2) 通过查看SSL VPN网关的显示信息,确认SSL VPN网关的状态:
a. 确认SSL VPN网关是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN网关处于Up状态,否则需要在Web界面单击SSL VPN网关的使能按钮,或者在SSL VPN网关视图下执行service enable命令开启SSL VPN网关
b. 重新配置或修改SSL服务端策略后,只有执行undo service enable命令关闭SSL VPN网关,并执行service enable命令重新开启SSL VPN网关后,新的策略才会生效
c. SSL相关配置是否正确,缺省情况下设备使用自带的缺省证书,当需要使用非缺省证书时,可以引用SSL服务端策略。当不需要使用非缺省证书时,删除SSL服务端策略引用即可
SSL VPN网关的显示信息如下:
[Device] display sslvpn gateway
Gateway name: gw
Operation state: Up
IP: 1.1.1.2 Port: 2000
SSL server policy configured: sslnew
SSL server policy in use: ssl
Front VPN instance: Not configured
(3) 通过查看SSL VPN访问实例的显示信息,确认SSL VPN访问实例的状态:
a. 确认SSL VPN访问实例是否处于Up状态。通过查看显示信息中Operation state字段的值,若值为Up,则表示SSL VPN访问实例处于Up状态,否则需要在Web界面单击SSL VPN访问实例的使能按钮,或者在SSL VPN访问实例视图下执行service enable命令开启SSL VPN访问实例
b. 确认SSL VPN访问实例是否引用了SSL VPN网关。通过查看显示信息中Associated SSL VPN gateway字段的值,若有引用的网关名称,则表示成功引用了SSL VPN网关,否则,需要在Web界面SSL VPN访问实例下引用SSL VPN网关,或者在SSL VPN访问实例视图下执行gateway命令,引用SSL VPN网关
SSL VPN访问实例的显示信息如下:
[Device] display sslvpn context
Context name: ctx
Operation state: Up
Associated SSL VPN gateway: gw
SSL client policy configured: sslnew
SSL client policy in use: ssl
(4) 确认SSL VPN网关地址和端口是否被正确侦听,需要确认每个业务板的侦听端口是否正确开启。
TCP代理连接的显示信息如下:
<Device> display tcp-proxy slot 1
Local Addr:port Foreign Addr:port State Service type
1.1.1.2:2000 0.0.0.0:0 LISTEN SSLVPN
(5) 确认是否配置了SSL VPN AC接口(需要配置IP地址),且在SSL VPN访问实例下引用了该SSL VPN AC接口。
SSL VPN AC接口的配置及显示如下:
[Device] interface SSLVPN-AC 1
[Device-SSLVPN-AC1] ip address 1.1.1.1 24
[Device-SSLVPN-AC1] quit
[Device] sslvpn context ctx
[Device-sslvpn-context-ctx] ip-tunnel interface SSLVPN-AC 1
[Device-sslvpn-context-ctx] quit
[Device] display interface SSLVPN-AC 1 brief
Brief information on interfaces in route mode:
Link: ADM - administratively down; Stby - standby
Protocol: (s) - spoofing
Interface Link Protocol Primary IP Description
SSLVPN-AC1 UP UP 1.1.1.1
(6) 确认是否配置了地址池,并且在SSL VPN访问实例或用户可授权的资源组下引用了该地址池,地址池中不能包含SSL VPN网关地址。
地址池的配置及引用举例如下:
[Device] sslvpn ip address-pool name 1.1.1.1 1.1.1.10
[Device] sslvpn context ctx
[Device-sslvpn-context-ctx] ip-tunnel address-pool name mask 24
(7) 确认SSL VPN用户是否配置正确:
a. 本地用户:确保用户类型为网络接入类,服务类型为SSL VPN,且为用户配置SSL VPN资源组。
b. 远程用户:确保远程认证服务器上用户隶属的用户组,已在SSL VPN访问实例中配置对应名称的SSL VPN资源组。
(8) 若开启了客户端和服务器端证书认证,确保两端已正确安装证书。
(9) iNode客户端是否为最新版本。
表14-5 故障诊断命令
命令 |
说明 |
display tcp-proxy |
显示TCP代理连接的简要信息 |
display sslvpn context |
显示SSL VPN访问实例的信息 |
display sslvpn gateway |
显示SSL VPN网关的信息 |
sslvpn ip address-pool |
用来创建IPv4地址池 |
ip-tunnel address-pool |
用来配置IP接入引用IPv4地址池。 |
通过iNode客户端登录SSL VPN网关后,无法访问内网服务器资源。
(1) SSL VPN AC接口是否加入了安全域,且被安全策略放行。
(2) iNode客户端分配到的虚拟网卡IP地址是否被安全策略放行。
(3) 确认是否配置了能够放行通往后台服务器的ACL或者URI ACL规则,并且引用规则已经添加:
[Device-sslvpn-context-ctxip1] policy-group resourcegrp1
[Device-sslvpn-context-ctxip1-policy-group-resourcegrp1] filter web-access acl 3000
(4) SSL VPN网关是否可以Ping通后台资源地址,是否需要在对端设备上添加路由。
(5) iNode客户端是否为最新版本。
(6) 排查上下行链路是否正常,以下情况会导致上下行链路不通:
a. SSL VPN网关没有配置到达内网资源的路由,可通过查看设备路由表确认
b. 内网服务器未配置回程路由导致链路不通
c. 设备是双主模式,请将设备修改为主备模式,并将上下行接口修改成冗余口
d. 地址冲突导致链路不通
e. 配置了策略路由导致链路不通
f. 配置了负载均衡导致链路不通
表14-6 故障诊断命令
命令 |
说明 |
policy-group |
用来创建策略组,并进入SSL VPN策略组视图。如果指定的策略组已经存在,则直接进入策略组视图。 |
filter web-access acl |
用来配置对Web接入进行高级ACL过滤。 |
部分iNode用户,长时间不访问内网资源时,不老化下线,占用License资源。
iNode客户端会定时发送保活报文,无法老化下线,可通过配置空闲超时时间,将长时间不访问内网资源用户强制下线
通过配置SSL VPN会话保持空闲状态的流量阈值,对iNode客户端空闲用户进行老化下线。具体配置如下:
<Device> system-view
[Device] sslvpn context ctx1
[Device-sslvpn-context-ctx1] idle-cut traffic-threshold 1000
表14-7 故障诊断命令
命令 |
说明 |
sslvpn context |
用来创建SSL VPN访问实例,并进入SSL VPN访问实例视图。如果指定的SSL VPN访问实例已经存在,则直接进入SSL VPN访问实例视图。 |
idle-cut traffic-threshold |
用来配置SSL VPN会话保持空闲状态的流量阈值。 |
本地用户在local-user下配置了ACL、监控、绑定IP地址等功能不生效。
SSL VPN用户的部分管理配置,需要在SSL VPN访问实例下配置,不能在local-user用户视图下配置。
表14-8 故障诊断命令
命令 |
说明 |
sslvpn context |
用来创建SSL VPN访问实例,并进入SSL VPN访问实例视图。如果指定的SSL VPN访问实例已经存在,则直接进入SSL VPN访问实例视图。 |
用户曾经登录SSL VPN网关成功,后续再次登录时失败。
(1) 查看SSL VPN访问实例下是否配置了同一用户名登录限制个数。
[Device] sslvpn context ctx
[Device-sslvpn-context-ctx] max-onlines 1
(2) 如果不需要限制同一用户名最大上线数,可删除max-onlines配置,如果确实需要限制,可配置如下功能。开启本功能后,将从该用户的在线连接中选择一个空闲时间最长的,强制其下线,新登录用户上线:
[Device] sslvpn context ctx
[Device-sslvpn-context-ctx] force-logout max-onlines enable
表14-9 故障诊断命令
命令 |
说明 |
sslvpn context |
用来创建SSL VPN访问实例,并进入SSL VPN访问实例视图。如果指定的SSL VPN访问实例已经存在,则直接进入SSL VPN访问实例视图。 |
force-logout max-onlines enable |
用来开启达到最大在线数时的用户强制下线功能。 |
用户配置企业微信认证功能,使用企业微信客户端访问资源失败
(1) 查看设备是否配置DNS服务器。
(2) 确认是够有可信SSL证书。
(3) SSLVPN访问实例中引用的网关访问方式是否为直接访问网关。
[SYSNAME]sslvpn context ctx
#
[SYSNAME-sslvpn-context-ctx]display this
sslvpn context ctx
gateway gw domain sslvpn
(4) 确认SSLVPN访问实例中的参数是否配置正确,包括API服务器地址、企业ID、访问密钥、授权策略组字段名,资源组名称,如果配置了授权策略组,资源组的名称需要与企业微信管理平台上用户所在部门ID值一致,如果未配置授权策略组,需要有一个缺省的资源组。
[SYSNAME]sslvpn context ctx
[SYSNAME-sslvpn-context-ctx]display this
#
sslvpn context ctx
gateway gw domain sslvpn
wechat-work-authentication enable
wechat-work-authentication url https://qyapi.weixin.qq.com
wechat-work-authentication corp-id ww918e2ea10664acd3
wechat-work-authentication app-secret agZO0L15DmOBw-BBx9s5UmOForvCx-WEtKQWqfBQy
Ts
wechat-work-authentication authorize-field department
wechat-work-authentication open-platform-url user-defined https://open.weixin.qq.com
(5) 登录企业微信管理平台,查看应用配置的主页链接是否正确。
表14-10 故障诊断命令
命令 |
说明 |
sslvpn context |
用来创建SSL VPN访问实例,并进入SSL VPN访问实例视图。如果指定的SSL VPN访问实例已经存在,则直接进入SSL VPN访问实例视图。 |
gateway |
命令用来配置SSL VPN访问实例引用SSL VPN网关。 |
wechat-work-authentication enable |
用来开启企业微信认证功能。 |
wechat-work-authentication url |
用来配置企业微信API服务器的URL地址。 |
wechat-work-authentication corp-id |
用来配置企业微信认证使用的企业ID。 |
wechat-work-authentication app-secret |
用来配置企业微信认证中企业应用数据的访问密钥。 |
wechat-work-authentication authorize-field |
用来配置企业微信授权策略组字段名。 |
wechat-work-authentication open-platform-url |
用来配置微信开放平台的URL地址。 |
局域网内PC通过防火墙访问Internet,防火墙上开启IPS、AV业务。保护内网用户免遭受攻击。
安全策略中开启IPS、AV检测。
#
app-profile 0_IPv4
ips apply policy default mode protect
anti-virus apply policy default mode protect
#
security-policy ip
rule 0 name ips
action pass
profile 0_IPv4
#
内网用户发起的正常业务流量访问不成功,设备上报IPS/AV攻击日志。
(1) 首先观察设备上报的IPS/AV攻击日志,源目的IP端口是否为客户端、服务器的IP端口,如果是则记录IPS/AV日志中对应的AttackID。
(2) 如果是IPS误报,创建IPS策略,将报攻击的IPS特征关闭或者将动作设置为permit加log,并在安全策略中引用。
(3) 如果是AV误报,创建AV策略,将报攻击的AV特征设置为例外或者将动作设置为permit加log,并在安全策略中引用。
(4) 抓取客户端访问业务的报文并反馈给研发进行分析,确认是否为误报,如果为误报则修改对应特征,如果非误报则对用户进行解释并在配置中对该条特征进行放行。
命令 |
说明 |
ips policy policy-name |
缺省情况下,存在一个缺省IPS策略,名称为default,且不能被修改和删除 |
signature override { pre-defined | user-defined } signature-id { { disable | enable } [ { block-source | drop | permit | redirect | reset } | capture | logging ] * } |
缺省情况下,预定义IPS特征使用系统预定义的状态和动作,自定义IPS特征的动作和状态在管理员导入的特征库文件中定义。 缺省IPS策略中的IPS特征的动作属性和生效状态属性不能被修改 |
anti-virus policy policy-name |
缺省情况下,存在一个缺省防病毒策略,名称为default,且不能被修改和删除 |
exception signature signature-id |
命令用来配置病毒例外 |
组网需求:
局域网内PC通过防火墙访问Internet,防火墙上开启IPS/WAF业务。保护内网用户免遭受攻击。
配置描述
安全策略中开启IPS、WAF检测。
#
app-profile 0_IPv4
ips apply policy default mode protect
waf apply policy default mode protect
#
security-policy ip
rule 0 name ips
action pass
profile 0_IPv4
#
故障描述
攻击者从Internet向局域网发起典型攻击,如跨站脚本攻击,暴力破解攻击等,攻击报文成功通过IPS设备到达靶机服务器,成功破解靶机服务器密码,IPS设备上无日志输出。
(1) 检查设备是否安装了License。
(2) 查看设备当前的DPI状态,设备运行状态为normal。
[SYSNAME]display inspect status
Chassis 0 Slot 1:
Running status: normal
(3) 查看特征库版本是否为发布的最新版本,如果版本较老,请进行特征库升级。
<sysname>display ips signature library
IPS signature library information:
Type SigVersion ReleaseTime Size
Current 1.0.81 Thu Oct 31 08:35:05 2019 4639264
Last 1.0.80 Sat Oct 12 07:58:23 2019 4565664
Factory 1.0.0 Fri Dec 28 06:27:33 2018 76496
<sysname>display waf signature library
WAF signature library information:
Type SigVersion ReleaseTime Size(bytes)
Current 1.0.2 Thu Oct 31 03:22:10 2019 1018752
Last 1.0.0 Fri Dec 28 08:53:30 2018 19824
Factory 1.0.0 Fri Dec 28 08:53:30 2018 19824
(4) 查看IPS/WAF规则是否下发引擎,如果没有下发IPS/WAF规则,需要在系统视图下执行inspect activate或通过Web激活引擎,重新下发规则。
[SYSNAME-probe]display system internal inspect dim-rule
Slot 1:
MdcID MoudleName Total MD5 rules
0 Anti-Virus 0
MdcID RuleID ModuleName L4ProName uiAppIdL5
0 1 IPS TCP HTTP
0 2147483649 FFILTER TCP
0 2 IPS TCP HTTP
0 2147483650 FFILTER TCP
0 2147483651 FFILTER TCP
0 4 IPS TCP HTTP
0 2147483652 FFILTER TCP
0 5 IPS TCP HTTP
[SYSNAME-probe]display system internal inspect dim-rule | include WAF
0 1 WAF TCP HTTP
0 16 WAF TCP HTTP
0 37 WAF TCP HTTP
0 38 WAF TCP HTTP
0 43 WAF TCP HTTP
(5) 查看会话是否建立,确保会话的源目IP在指定的安全域内,并且在该域间启用深度检查功能,引用IPS/WAF策略。
[SYSNAME]display session table ipv4 source-ip 1.1.1.101 verbose
Slot 1:
Initiator:
Source IP/port: 1.1.1.101/34679
Destination IP/port: 2.2.2.12/5190
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet1/0/10
Source security zone: Trust
Responder:
Source IP/port: 2.2.2.12/5190
Destination IP/port: 1.1.1.101/34679
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet1/0/11
Source security zone: Untrust
State: TCP_ESTABLISHED
Application: AOL
Start time: 2016-01-21 16:13:16 TTL: 1194s
Initiator->Responder: 3 packets 930 bytes
Responder->Initiator: 1 packets 92 bytes
Total sessions found: 1
(6) 查看rule hit情况。
[SYSNAME-probe]display system internal inspect hit-statistics
Slot 1:
Rule ID Module Rule hits AC hits PCRE try PCRE hits
5041 APR 0 3 0 0
5126 APR 0 9 0 0
5127 APR 0 9 0 0
8584 IPS 1 2 0 0
9410 APR 0 1 0 0
21768 IPS 0 2 0 0
21852 IPS 1 2 0 0
22114 IPS 0 2 0 0
22406 IPS 1 1 0 0
23089 IPS 2 2 4 2
23213 IPS 0 4 2 2
23271 IPS 0 2 1 0
23341 IPS 1 2 1 1
23722 IPS 2 8 2 2
23804 IPS 0 1 0 0
18096 WAF 0 4 2 0
23311 WAF 1 14 1 1
23791 WAF 0 2 1 0
23915 WAF 0 8 4 0
(7) 如果有rule hits统计,查看该规则是状态是否使能,如果未使能,手工将该条规则使能并设置动作(只有自定义的IPS、WAF策略能修改规则状态)。
[SYSNAME]display ips signature pre-defined 8
Type : Pre-defined
Signature ID: 8
Status : Disable
Action : Permit & Logging
Name : (MS11-015)DVR-MS_Vulnerability
Protocol : TCP
Severity : Critical
Fidelity : Medium
Direction : To-client
Category : Vulnerability
Reference : CVE-2011-0042;MS11-015;
[SYSNAME]display waf signature pre-defined 56
Type : Pre-defined
Signature ID: 56
Status : Disable
Action : Permit & Logging
Name : CVE-2012-3351_LongTail_JW_Player_XSS_Vulnerability
Protocol : TCP
Severity : Medium
Fidelity : Medium
Direction : To-server
Category : Vulnerability
Reference : CVE-2012-3351;
创建自定义IPS/WAF策略并在安全策略引用,在自定义IPS/WAF策略中手工将该条规则使能。
[SYSNAME-ips-policy-ips]signature override pre-defined 8 enable reset logging
[SYSNAME-waf-policy-waf]signature override pre-defined 56 enable reset logging
(8) 前面都检查没有问题后设备还是不能识别,有可能构造的攻击不对或特征库不支持该攻击,此时需要协助抓取对应的攻击交互报文反馈报文给研发进行分析。
命令 |
说明 |
ips policy policy-name |
缺省情况下,存在一个缺省IPS策略,名称为default,且不能被修改和删除 |
waf policy policy-name |
缺省情况下,存在一个缺省WAF策略,名称为default,且不能被修改和删除 |
signature override { pre-defined | user-defined } signature-id { { disable | enable } [ { block-source | drop | permit | redirect | reset } | capture | logging ] * } |
缺省情况下,预定义IPS、WAF特征使用系统预定义的状态和动作,自定义IPS、WAF特征的动作和状态在管理员导入的特征库文件中定义 缺省IPS、WAF策略中的IPS、WAF特征的动作属性和生效状态属性不能被修改 |
inspect activate |
缺省情况下,DPI各业务模块自定义的规则或手动离线升级的特征库不生效 |
display system internal inspect hit-statistics [ module-id ] [ rule-id ] [ slot slot-number [ cpu cpu-number ] ] |
显示应用层检测规则命中的统计信息 |
display inspect status |
显示应用层检测引擎的运行状态 |
组网需求:
局域网内PC通过防火墙访问Internet,设备开启带宽管理功能,限制迅雷下载速度。
配置描述
创建AVC策略,对迅雷下载进行限速。
traffic-policy
rule 1 name Thunder
action qos profile Thunder_20M
source-zone Trust
destination-zone Untrust
application app-group 1
profile name thunder_20m
bandwidth downstream maximum 20000
bandwidth upstream maximum
故障描述
迅雷下载速度不受带宽管理限制。
(1) 查看APR版本信息,是否为最新版本,如果版本较老,请从官网上获取最新版本进行升级。
(2) 查看设备引擎状态,是否bypass,如果进行了手工bypass或cpu、memory自动bypass,可以通过undo inspect bypss命令重新激活引擎。
(3) 查看规则状态是否为使能状态,对应流量是否优先走了其他规则。
[SYSNAME]display traffic-policy statistics bandwidth total per-rule
Slot 1 :
Codes: PP(Passed Packets), PB(Passed Bytes), DP(Dropped Packets), DB(Dropped Byt
es), PR(Passed Rate:kbps), DR(Dropped Rate:kbps), FPP(Final Passed Packets), FPB
(Final Passed Bytes),FPR(Final Passed Rate:kbps)
--------------------------------------------------------------------------------
-------------------------------------------------
Rule name State Profile name PP PB DP DB PR
DR FPP FPB FPR
--------------------------------------------------------------------------------
-------------------------------------------------
Thunder Enabled Thunder_20M 0 0 0 0 0.
0 0.0 0 0 0.0
--------------------------------------------------------------------------------
-------------------------------------------------
--------------------------------------------------------------------------------
------------------------------------------
如果流量优先走了其他规则,可以移动迅雷限速规则,将迅雷优先级提前。
[SYSNAME-traffic-policy]rule move Thunder before b
(4) 查看会话信息中的Application信息,将对应的Application加入到自定义应用组中,并配置对应的应用组限速。
(5) 如果会话的Application大多数为GENERAL_TCP或GENERAL_UDP,有可能是迅雷出现了新的特征,这个时候需要一线协助帮忙转包反馈给研发进行分析。
<sysname>display session table ipv4 verbose
Slot 1:
Initiator:
Source IP/port: 1.1.1.195/51353
Destination IP/port: 2.2.2.51/59287
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet1/0/10
Source security zone: Trust
Responder:
Source IP/port: 2.2.2.51/59287
Destination IP/port: 1.1.1.195/51353
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet1/0/11
Source security zone: Untrust
State: TCP_SYN_RECV
Application: GENERAL_TCP
Start time: 2016-01-21 17:51:44 TTL: 951s
Initiator->Responder: 1 packets 56 bytes
Responder->Initiator: 1 packets 56 bytes
命令 |
说明 |
traffic-policy |
进入带宽策略视图 |
rule move rule-name1 { after | before } rule-name2 |
移动带宽策略规则的排列顺序 |
display traffic-policy statistics bandwidth { downstream | total | upstream } { per-ip { ipv4 [ ipv4-address ] | ipv6 [ ipv6-address ] } rule rule-name | per-rule [ name rule-name ] | per-user [ user user-name ] rule rule-name } |
显示带宽策略规则下流量速率的统计信息(分布式设备-独立运行模式/集中式IRF设备) |
15.4.1 故障描述
组网需求:
局域网内PC通过防火墙访问Internet,防火墙上开启文件过滤/数据过滤业务。保护内外网用户文件&数据传输信息安全。
配置描述
安全策略中开启文件过滤检测。
#
file-filter policy ffilter
rule ffilter
filetype-group ffilter
application all
direction both
action drop logging
#
file-filter filetype-group ffilter
pattern 0 text pe
pattern 1 text elf
pattern 10 text vsdx
pattern 11 text msg
pattern 12 text pub
pattern 13 text zip
pattern 14 text rar
pattern 15 text tar.gz
pattern 16 text tgz
pattern 2 text doc
pattern 3 text pdf
pattern 4 text xls
pattern 5 text ppt
pattern 6 text docx
pattern 7 text xlsx
pattern 8 text pptx
pattern 9 text vsd
#
安全策略中开启数据过滤检测。
#
data-filter keyword-group dfilter
pre-defined-pattern name bank-card-number
pre-defined-pattern name credit-card-number
pre-defined-pattern name id-card-number
pre-defined-pattern name phone-number
#
data-filter policy dfilter
rule dfilter
keyword-group dfilter
application all
direction both
action drop logging
#
app-profile 0_IPv4
file-filter apply policy ffilter
data-filter apply policy dfilter
#
security-policy ip
rule 0 name ffilter
action pass
profile 0_IPv4
#
故障描述
使用者从局域网向Internet上传机密文件,例如.docx文件和.xls文件等,文件成功上传,且设备无日志。
使用者从局域网向Internet上传含有敏感信息的数据, 例如含有银行卡号和身份证号等数据,数据成功上传,且设备无日志。
15.4.2 故障处理步骤
(1) 查看设备当前的DPI状态,设备运行状态为normal。
[SYSNAME]display inspect status
Chassis 0 Slot 1:
Running status: normal
(2) 查看传输的文件类型是否被引用的文件类型组所包含。
(3) 通过抓包查看传输的协议是否为支持的协议类型,目前,文件过滤和数据过滤功能支持对基于HTTP、FTP、SMTP、IMAP、NFS、POP3、RTMP和SMB协议传输的文件进行检测和过滤。
(4) 查看文件过滤规则是否下发引擎,如果没有下发文件过滤和数据过滤规则,ruleid有10位数的为预定义文件过滤和数据过滤规则,需要在系统视图下执行inspect activate或通过Web激活引擎,重新下发规则。
[SYSNAME-probe]display system internal inspect dim-rule | include FFILTER
23 FFILTER TCP HTTP
0 2147483671 FFILTER TCP
1 24 FFILTER TCP FTP
0 2147483672 FFILTER TCP
1 25 FFILTER TCP SMTP
0 2147483673 FFILTER TCP
1 26 FFILTER TCP IMAP
0 2147483674 FFILTER TCP
1 27 FFILTER TCP POP3
0 2147483675 FFILTER TCP
1 28 FFILTER TCP NFS
0 2147483676 FFILTER TCP
1 29 FFILTER TCP MICROSOFT-DS
1 30 FFILTER TCP RTMP
[SYSNAME-probe]display system internal inspect dim-rule | include DFILTER
1 24 DFILTER TCP HTTP
1 25 DFILTER TCP FTP-DATA
1 26 DFILTER TCP SMTP
1 27 DFILTER TCP IMAP
1 28 DFILTER TCP POP3
1 29 DFILTER TCP NFS
1 30 DFILTER TCP MICROSOFT-DS
1 31 DFILTER TCP RTMP
(5) 查看会话是否建立,确保会话的源目IP在指定的安全域内,并且在该域间启用深度检查功能,引用文件过滤策略或数据过滤策略。
[SYSNAME-probe]display session table ipv4 source-ip 7.0.1.2 verbose
Slot 2:
Initiator:
Source IP/port: 7.0.1.2/50779
Destination IP/port: 7.0.0.2/80
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet2/0/2
Source security zone: Trust
Responder:
Source IP/port: 7.0.0.2/80
Destination IP/port: 7.0.1.2/50779
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet2/0/3
Source security zone: Untrust
State: TCP_ESTABLISHED
Application: HTTP
Rule ID: 0
Rule name: ips
Start time: 2019-11-15 11:31:01 TTL: 1197s
Initiator->Responder: 7 packets 1073 bytes
Responder->Initiator: 7 packets 2413 bytes
Total sessions found: 1
(6) 查看rule hit情况。
[SYSNAME-probe]display system internal inspect hit-statistics
Slot 2:
Rule ID Module Rule hits AC hits PCRE try PCRE hits
2147483650 FFILTER 2 2 0 0
2147483657 FFILTER 1 1 0 0
2147483669 FFILTER 2 2 0 0
3432 APR 2 2 0 0
如果没有自定义的规则命中,则需要检查传输的文件的真实文件类型与扩展名是否一致,敏感信息是否有误,文件过滤还可以通过如下配置后,观察是否可以拦截,和产生日志。
[SYSNAME]file-filter false-extension action drop
(7) 前面都检查没有问题后设备还是不能识别,有可能此时传输的文件编码方式设备暂不支持,此时需要协助抓取对应的交互报文反馈报文给研发进行分析。
15.4.3 故障诊断命令
命令 |
说明 |
file-filter policy policy-name |
缺省情况下,存在一个缺省文件过滤策略,名称为default,且不能被修改和删除 |
filetype-group group-name |
文件过滤规则中引用缺省文件类型组。名称为default,且不能被修改和删除 |
inspect activate |
缺省情况下,DPI各业务模块自定义的规则或手动离线升级的特征库不生效 |
display system internal inspect hit-statistics [ module-id ] [ rule-id ] [ slot slot-number [ cpu cpu-number ] ] |
显示应用层检测规则命中的统计信息 |
display inspect status |
显示应用层检测引擎的运行状态 |
file-filter false-extension action { drop | permit } |
配置文件的真实类型与扩展名不一致时执行的动作 |
data-filter apply policy policy-name |
缺省情况下,DPI应用profile中未引用数据过滤策略 |
data-filter keyword-group keywordgroup-name |
数据过滤规则中引用缺省关键字组。名称为default,且不能被修改和删除 |
inspect activate |
缺省情况下,DPI各业务模块自定义的规则或手动离线升级的特征库不生效 |
display inspect status |
显示应用层检测引擎的运行状态 |
15.5.1 故障描述
组网需求:
局域网内PC通过防火墙访问Internet,防火墙上开启SSL过滤业务和IPS业务。保护内外网用户HTTPS传输安全。
配置描述
安全策略中开启SSL卸载。
#
app-proxy-policy
rule 1 name ssl-proxy
action ssl-decrypt
#
app-profile 0_IPv4
ips apply policy default mode protect
#
security-policy ip
rule 0 name ips
action pass
profile 0_IPv4
#
故障描述
攻击者从Internet向局域网发起HTTPS加密流量攻击,如跨站脚本攻击,暴力破解攻击等,攻击报文成功通过IPS设备到达靶机服务器,成功破解靶机服务器密码,IPS设备上无日志输出。SSL卸载失效。
15.5.2 故障处理步骤
(1) 使用HTTP非加密流量,查看设备是否拦截,如果依然不能拦截,请参考13.2,排查IPS问题原因。如果能拦截,则依照下面的方法排除原因。
(2) 使用如下命令,查看设备是否成功代理。
[SYSNAME]display app-proxy server-certificate
Slot 1:
Total server certificates: 1
Certificate info: BreakingPoint_serverA_2048.server.int
Proxy count: 6996
Most recent proxy time: 2019/11/18 10:23:48
First proxy at: 2019/11/15 17:21:12
(3) 检查设备组网是否为三层组网。目前SSL卸载不支持二层组网,如果是二层组网,请修改组网。
(4) 查看设备当前的DPI状态,设备运行状态为normal。
[SYSNAME]display inspect status
Chassis 0 Slot 1:
Running status: normal
(5) 使用如下命令,查看HTTPS的Server是否被加进白名单。
[SYSNAME]display app-proxy ssl whitelist hostname predefined
Chrome HSTS-defined hostnames:
status Hostname
enabled 2mdn.net
enabled accounts.firefox.com
enabled aclu.org
enabled activiti.alfresco.com
enabled adamkostecki.de
enabled addvocate.com
enabled adsfund.org
enabled aie.de
……
<sysname>display app-proxy ssl whitelist ip all
Slot 1:
IP address Port
--------------------------
9.9.9.5 443
9.9.9.6 443
9.9.9.7 443
9.9.9.8 443
9.9.9.9 443
9.9.9.10 443
9.9.9.11 443
9.9.9.12 443
如果被添加进白名单,可以使用如下命令清除白名单。
[SYSNAME]undo app-proxy ssl whitelis user-defined-hostname
<sysname>reset app-proxy ssl whitelist ip
[SYSNAME]app-proxy ssl whitelist activate
(6) 查看流量是否跨板 ,目前SSL卸载不支持跨板流量。
<sysname>display session table ipv4 source-ip 7.0.1.2 verbose
Slot 1:
Initiator:
Source IP/port: 7.0.1.2/55933
Destination IP/port: 8.8.8.2/443
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet2/0/2
Source security zone: Trust
Responder:
Source IP/port: 8.8.8.2/443
Destination IP/port: 7.0.1.2/55933
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: Reth1
Source security zone: Trust
State: INACTIVE
Application: HTTPS
Rule ID: 0
Rule name: ips
Start time: 2019-11-18 10:59:43 TTL: 299s
Initiator->Responder: 0 packets 0 bytes
Responder->Initiator: 0 packets 0 bytes
Initiator:
Source IP/port: 7.0.1.2/55852
Destination IP/port: 8.8.8.2/80
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet2/0/2
Source security zone: Trust
Responder:
Source IP/port: 8.8.8.2/80
Destination IP/port: 7.0.1.2/55852
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: Reth1
Source security zone: Trust
State: INACTIVE
Application: HTTP
Rule ID: 0
Rule name: ips
Start time: 2019-11-18 10:59:02 TTL: 257s
Initiator->Responder: 0 packets 0 bytes
Responder->Initiator: 0 packets 0 bytes
Initiator:
Source IP/port: 7.0.1.2/55932
Destination IP/port: 8.8.8.2/443
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet2/0/2
Source security zone: Trust
Responder:
Source IP/port: 8.8.8.2/443
Destination IP/port: 7.0.1.2/55932
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: Reth1
Source security zone: Trust
State: INACTIVE
Application: HTTPS
Rule ID: 0
Rule name: ips
Start time: 2019-11-18 10:59:43 TTL: 299s
Initiator->Responder: 0 packets 0 bytes
Responder->Initiator: 0 packets 0 bytes
Total sessions found: 3
Slot 2:
Initiator:
Source IP/port: 7.0.1.2/55933
Destination IP/port: 8.8.8.2/443
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet2/0/2
Source security zone: Trust
Responder:
Source IP/port: 8.8.8.2/443
Destination IP/port: 7.0.1.2/55933
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: Reth1
Source security zone: Trust
State: TCP_TIME_WAIT
Application: HTTPS
Rule ID: 0
Rule name: ips
Start time: 2019-11-18 10:59:43 TTL: 0s
Initiator->Responder: 6 packets 776 bytes
Responder->Initiator: 7 packets 899 bytes
Initiator:
Source IP/port: 7.0.1.2/55852
Destination IP/port: 8.8.8.2/80
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet2/0/2
Source security zone: Trust
Responder:
Source IP/port: 8.8.8.2/80
Destination IP/port: 7.0.1.2/55852
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: Reth1
Source security zone: Trust
State: TCP_ESTABLISHED
Application: HTTP
Rule ID: 0
Rule name: ips
Start time: 2019-11-18 10:59:02 TTL: 1157s
Initiator->Responder: 8 packets 1256 bytes
Responder->Initiator: 9 packets 3456 bytes
Initiator:
Source IP/port: 7.0.1.2/55932
Destination IP/port: 8.8.8.2/443
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet2/0/2
Source security zone: Trust
Responder:
Source IP/port: 8.8.8.2/443
Destination IP/port: 7.0.1.2/55932
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: Reth1
Source security zone: Trust
State: TCP_TIME_WAIT
Application: HTTPS
Rule ID: 0
Rule name: ips
Start time: 2019-11-18 10:59:43 TTL: 1s
Initiator->Responder: 7 packets 816 bytes
Responder->Initiator: 7 packets 899 bytes
Total sessions found: 3
(7) 前面都检查没有问题后设备还是不能拦截,有可能此时加密攻击设备暂不支持,此时需要协助抓取对应的交互报文反馈报文给研发进行分析。
15.5.3 故障诊断命令
命令 |
说明 |
app-proxy-policy |
进入代理策略视图 |
app-proxy ssl whitelist user-defined-hostname host-name |
使用host-name与SSL请求报文中携带的服务器证书的“DNS Name”或“Common Name”字段进行匹配,只要含有host-name的域名均会匹配成功。若匹配成功,则透传该SSL连接 |
display app-proxy ssl whitelist ip { all | ip-address } |
显示SSL代理IP地址白名单 |
display inspect status |
显示应用层检测引擎的运行状态 |
15.6.1 故障描述
组网需求:
局域网内PC通过防火墙访问Internet,防火墙上开启应用审计业务。保护内外网用户数据传输信息安全。
配置描述
安全策略中开启应用审计检测。
#
uapp-control
policy name default audit
rule 1 app-category IM behavior FileTransfer bhcontent any keyword include any
action deny audit-logging
#
故障描述
使用者从局域网向Internet执行敏感动作, 例如传文件和登录等操作时,动作执行成功,且设备无日志。
15.6.2 故障处理步骤
(1) 查看APR版本信息,是否为最新版本,如果版本较老,请从官网上获取最新版本进行升级。
(2) 查看设备引擎状态,是否bypass,如果进行了手工bypass或cpu、memory自动bypass,可以通过undo inspect bypss命令重新激活引擎。
(3) 查看应用审计与管理策略是否下发引擎,如果没有下发数据过滤规则,需要在系统视图下执行inspect activate或通过Web激活引擎,重新下发规则。
[SYSNAME-probe]display system internal inspect dim-rule
Slot 1:
MdcID MoudleName Total MD5 rules
0 Anti-Virus 0
MdcID RuleID ModuleName L4ProName uiAppIdL5
1 1 AUDIT TCP WECHAT_LOGIN_IOS
_TCP_M
0 1 IPS TCP HTTP
0 2147483649 FFILTER TCP
1 2 AUDIT TCP WECHAT_LOGIN_AND
ROID_TCP_M
0 2 IPS TCP HTTP
0 2147483650 FFILTER TCP
1 3 AUDIT TCP WECHAT_SENDTEXT_
WINDOWS_TCP_M
0 2147483651 FFILTER TCP
1 4 AUDIT TCP WECHAT_SENDTEXT_
IOS_TCP_M
0 4 IPS TCP HTTP
(4) 查看规则状态是否为使能状态,对应流量是否优先走了其他规则。
(5) 查看会话是否建立,确保会话的源目IP在指定的安全域内,并且在该域间启用深度检查功能,引用应用审计与管理策略。
[SYSNAME-probe]display session table ipv4 source-ip 7.0.1.2 verbose
Slot 2:
Initiator:
Source IP/port: 7.0.1.2/50779
Destination IP/port: 7.0.0.2/80
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet2/0/2
Source security zone: Trust
Responder:
Source IP/port: 7.0.0.2/80
Destination IP/port: 7.0.1.2/50779
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet2/0/3
Source security zone: Untrust
State: TCP_ESTABLISHED
Application: HTTP
Rule ID: 0
Rule name: ips
Start time: 2019-11-15 11:31:01 TTL: 1197s
Initiator->Responder: 7 packets 1073 bytes
Responder->Initiator: 7 packets 2413 bytes
Total sessions found: 1
(6) 前面都检查没有问题后设备还是不能拦截,有可能此时应用的应用审计设备暂不支持,此时需要协助抓取对应的交互报文反馈报文给研发进行分析。
15.6.3 故障诊断命令
命令 |
说明 |
inspect activate |
缺省情况下,DPI各业务模块自定义的规则或手动离线升级的特征库不生效 |
display inspect status |
显示应用层检测引擎的运行状态 |
15.7.1 故障描述
组网需求:
局域网内PC通过防火墙访问Internet,防火墙上开启URL过滤业务。保护用户访问网页安全。
配置描述
安全策略中开启URL过滤检测。
#
url-filter policy url
default-action permit logging
category Pre-Botnet action reset logging
category Pre-ChildAbuse action reset logging
category Pre-CriminalActivity action reset logging
category Pre-Discrimination action reset logging
category Pre-Divining action reset logging
category Pre-Drugs action reset logging
category Pre-Gamble action reset logging
category Pre-Hacking action reset logging
category Pre-IllegalSoftware action reset logging
category Pre-Lottery action reset logging
category Pre-MaliciousURL action reset logging
category Pre-Phishing action reset logging
category Pre-Pornography action reset logging
category Pre-Religion action reset logging
category Pre-SchoolCheating action reset logging
category Pre-Spam action reset logging
category Pre-Suicide action reset logging
category Pre-Violence action reset logging
#
app-profile 0_IPv4
url-filter apply policy url
#
security-policy ip
rule 0 name url
action pass
counting enable
profile 0_IPv4
#
故障描述
使用者从局域网向Internet访问有害网页, 例如色情网站等,用户成功访问,且设备无日志。
15.7.2 故障处理步骤
(1) 查看URL特征库版本信息,是否为最新版本,如果版本较老,请从官网上获取最新版本进行升级。
(2) 查看设备引擎状态,是否bypass,如果进行了手工bypass或cpu、memory自动bypass,可以通过undo inspect bypss命令重新激活引擎。
(3) 查看访问页面是否为HTTPS加密网页,如果是加密网页可以开启SSL卸载功能。
(4) 查看URL过滤规则是否下发引擎,如果没有下发URL过滤规则,需要在系统视图下执行inspect activate或通过Web激活引擎,重新下发规则。
[SYSNAME-probe]display system internal inspect dim-rule
Slot 1:
MdcID MoudleName Total MD5 rules
0 Anti-Virus 0
MdcID RuleID ModuleName L4ProName uiAppIdL5
0 356581376 UFLT TCP HTTP
0 268435456 UFLT TCP HTTP
0 356646912 UFLT TCP HTTP
0 268435457 UFLT TCP HTTP
0 431030273 UFLT TCP HTTP
0 384958465 UFLT TCP HTTP
0 2147483649 FFILTER TCP
0 447873026 UFLT TCP HTTP
0 268435458 UFLT TCP HTTP
(5) 查看会话是否建立,确保会话的源目IP在指定的安全域内,并且在该域间启用深度检查功能,引用URL过滤策略。
[SYSNAME-probe]display session table ipv4 source-ip 7.0.1.2 verbose
Slot 2:
Initiator:
Source IP/port: 7.0.1.2/50779
Destination IP/port: 7.0.0.2/80
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet2/0/2
Source security zone: Trust
Responder:
Source IP/port: 7.0.0.2/80
Destination IP/port: 7.0.1.2/50779
DS-Lite tunnel peer: -
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: GigabitEthernet2/0/3
Source security zone: Untrust
State: TCP_ESTABLISHED
Application: HTTP
Rule ID: 0
Rule name: ips
Start time: 2019-11-15 11:31:01 TTL: 1197s
Initiator->Responder: 7 packets 1073 bytes
Responder->Initiator: 7 packets 2413 bytes
Total sessions found: 1
(6) 如果是自定义URL分类,检查用户使用的URL是否与分类的URL完全匹配。
(7) 前面都检查没有问题后设备还是不能拦截,有可能此时网页URL特征库不支持,此时需要协助抓取对应的交互报文反馈报文给研发进行分析。
15.7.3 故障诊断命令
命令 |
说明 |
url-filter apply policy policy-name |
缺省情况下,DPI应用profile中未引用URL过滤策略 |
inspect activate |
缺省情况下,DPI各业务模块自定义的规则或手动离线升级的特征库不生效 |
display inspect status |
显示应用层检测引擎的运行状态 |
组网需求:
服务器通过防火墙主动连接客户端,防火墙上开启服务器外联防护业务。保护内外网用户免遭受攻击。
配置描述
安全策略中开启服务器外联防护检测。
#
scd policy name default-7.0.0.2
protected-server 7.0.0.2
logging enable
policy enable
rule 1
permit-dest-ip 7.0.0.255
protocol udp port 137 to 138
#
故障描述
开启服务器外联业务,服务器通过设备的异常外联行为, 设备没有日志告警。
(1) 检查设备是否开启服务器外联的快速日志。快速日志与系统日志不能同时生成,如果需要系统日志,请关闭服务器外联防护的快速日志。
(2) 查看设备防护策略和日志是否启用,protected-server、permit-dest-ip与服务器异常外联行为的源目IP一致。
<sysname>display scd policy
Id Name Protected server Rules Logging Policy status
1 12 1.2.2.3 1 Enabled Enabled
2 default-7.0.0.2 7.0.0.2 1 Enabled Enabled
(3) 排查设备对应流量是否优先走了其他规则。
(4) 前面都检查没有问题后设备还是不能识别,有可能产生的流量设备暂不支持,此时需要协助抓取对应的攻击交互报文反馈报文给研发进行分析。
命令 |
说明 |
scd policy name policy-name |
创建服务器外联防护策略 |
display scd policy [ name policy-name ] |
显示服务器外联防护策略的配置信息 |
组网需求:
局域网内PC通过防火墙访问Internet,防火墙上开启威胁情报业务。保护内外网用户免遭受攻击。
配置描述
安全策略中开启威胁情报检测。
#
ip-reputation
global enable
top-hit-statistics enable
attack-category 1 action deny logging enable
attack-category 2 action deny logging disable
attack-category 3 action deny logging enable
attack-category 4 action deny logging enable
attack-category 5 action deny logging enable
attack-category 6 action deny logging enable
attack-category 7 action deny logging enable
attack-category 8 action deny logging enable
attack-category 9 action deny logging enable
attack-category 10 action deny logging enable
attack-category 11 action deny logging enable
attack-category 12 action deny logging enable
attack-category 13 action deny logging enable
attack-category 14 action deny logging enable
attack-category 15 action deny logging enable
attack-category 16 action deny logging enable
attack-category 17 action deny logging enable
attack-category 18 action deny logging enable
attack-category 19 action deny logging enable
attack-category 20 action deny logging enable
attack-category 21 action deny logging enable
attack-category 22 action deny logging enable
#
故障描述
开启威胁情报业务,具有风险的IP与本地用户连接成功,无告警日志。
(1) 检查设备是否安装了License。
(2) 检查ip地址是否被设置成IP信誉例外地址。
<sysname>display ip-reputation exception
IP address
2.2.2.2
(3) 检查配置动作是否为丢弃告警。
[SYSNAME-ip-reputation]display ip-reputation attack-category
Attack id Attack name Action Logging
---------------------------------------------------
1 C&C deny enable
2 Network_Worm deny disable
3 Risk_Software deny enable
4 Malware deny enable
5 Trojan deny enable
6 Infectious_Virus deny enable
(4) 前面都检查没有问题后设备还是不能识别,有可能ip信誉库中还不含有该ip,此时需要协助抓取对应的攻击交互报文反馈报文给研发进行分析。
命令 |
说明 |
display ip-reputation attack-category |
仅在IP信誉功能处于开启状态时,才能查看到IP信誉库中的攻击分类信息。 如果未配置对指定攻击分类执行的动作,则显示特征库中的缺省配置。 |
display ip-reputation exception |
仅在IP信誉功能处于开启状态时,才能查看到IP信誉例外IP地址。 |
组网需求:
局域网内PC通过防火墙访问Internet,防火墙上开启DPI业务。保护内外网用户信息安全。
配置描述
安全策略中开启DPI检测。
#
app-profile 0_IPv4
ips apply policy default mode protect
data-filter apply policy default
url-filter apply policy default
file-filter apply policy default
anti-virus apply policy default mode protect
#
security-policy ip
rule 0 name 1
action pass
profile 0_IPv4
source-zone Trust
source-zone Untrust
destination-zone Trust
destination-zone Untrust
#
故障描述
开启DPI业务,数据中心无日志输出,或者数据中心日志长时间不更新
(1) 查看设备当前的DPI状态,设备运行状态为normal。
[SYSNAME]display inspect status
Chassis 0 Slot 1:
Running status: normal
(2) 查看rule hit情况:
[SYSNAME-probe]display system internal inspect hit-statistics
Slot 1:
Rule ID Module Rule hits AC hits PCRE try PCRE hits
0 FFILTER 0 78225 0 0
0 DFILTER 0 545415 0 0
1 FFILTER 0 78225 0 0
1 DFILTER 0 545415 0 0
2 FFILTER 52341 78225 52341 52341
2 DFILTER 0 545415 0 0
3 FFILTER 0 78225 0 0
3 DFILTER 0 545415 0 0
4 FFILTER 25884 78225 25884 25884
4 DFILTER 0 545415 0 0
2147483652 FFILTER 359139 359139 0 0
5 FFILTER 0 78225 0 0
5 DFILTER 0 545415 0 0
2147483653 FFILTER 9 9 0 0
6 FFILTER 0 78225 0 0
6 DFILTER 0 545415 0 0
2147483654 FFILTER 207554 207554 0 0
7 FFILTER 0 78225 0 0
7 DFILTER 0 545415 0 0
2147483656 FFILTER 159715 159715 0 0
2147483657 FFILTER 985048 985048 0 0
(3) 等待一段时间,查看数据中心是否有日志输出,数据中心日志不能实时更新,需要等待一段时间。
(4) 查看设备时间和日期与本地PC是否一致。
<sysname>display clock
18:37:21 UTC Tue 11/26/2019
可以使用命令行或者在Web上进行设备时间和日期的修改。
<sysname>clock datetime 19:52:33 2019/11/26
(5) 流量日志等日志输出需要开启会话统计。
[SYSNAME]session statistics enable
(6) URL过滤为减少日志输出,将css、gif、ico、jpg、js、png、swf、xml默认不输出数据中心日志。使用下面命令可以使之输出。
undo url-filter log except pre-defined { css | gif | ico | jpg | js | png | swf | xml }
(7) 设备日志存储空间达到上限,并且对上限的处理动作为提示。
配置数据分析中心存储空间的命令行为:
dac storage service service-type service-namelimit { hold-time time-value | usage usage-value |action { delete | log-only } }
缺省情况下,数据分析中心各业务存储空间上限为20%、存储空间时间上限为365天、处理动作为删除。
可以对日志存储空间设置恢复为缺省情况。
(8) 前面都检查没有问题后数据中心还是不能输出日志,有可能ntopd有异常,此时需要协助抓取对应的交互报文反馈报文和设备诊断信息给研发进行分析。
命令 |
说明 |
url-filter log except pre-defined { css | gif | ico | jpg | js | png | swf | xml } |
配置URL过滤对预定义类型网页资源的访问不进行日志记录 |
session statistics enable |
开启软件快速转发的会话统计功能 |
display inspect status |
显示应用层检测引擎的工作状态。 |
dac storage service service-type service-name limit { hold-time time-value | usage usage-value | action { delete | log-only } } |
配置数据分析中心存储空间 |
16.1 对象策略加速使得CPU升高
流量下,由于新建或者修改一条对象策略规则会加速一次,所以短时间内持续下刷或更改策略规则配置会使得设备CPU持续升高的现象。
升级策略加速优化版本,支持对象策略延迟加速功能,即等连续几条对象策略配置下发完成后再进行一次加速,可以避免当前刷配置导致cpu高的现象。
延迟加速功能版本支持情况:
D032SP版本支持情况:D032SP26及后续版本;
D045SP版本支持情况:D045SP07及后续版本。
流量下,安全策略不支持加速的时候走满匹配,多策略配置会消耗cpu。
升级安全策略加速功能版本,并支持安全策略自动加速功能,即新建和更改策略项配置时2秒后(策略不大于100条时)进行策略加速,或20秒后(策略总数大于100条)进行策略加速。
安全策略加速功能版本支持情况:
D032SP版本支持情况:都支持;
D045SP版本支持情况:都支持。
图8 组网图
两台Device上下行分别接入二层交换机,Device的上下行接口工作在三层模式。
两台Device之间建立一条RBM通道。
两台Device上下行分别配置两个VRRP备份组,并与RBM关联,具体如下:
¡ Device A上下行业务接口的VRRP备份组1和3加入Active group;Device A上下行业务接口的VRRP备份组2和4加入Standby group。
¡ Device B上下行业务接口的VRRP备份组1和3加入Standby group;Device B上下行业务接口的VRRP备份组2和4加入Active group。
两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。
Router上需要将去往Host A路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。
Router上需要将去往Host B路由的下一跳指定为VRRP备份组2的虚拟IP地址(此示例中为2.1.1.4)。
Host A上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址(此示例中为10.1.1.3)。
Host B上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址(此示例中为10.1.1.4)。
Switch A需要将连接Device和Router的接口加入相同的VLAN。
Switch B需要将连接Device和Host的接口加入相同的VLAN。
观察发现,两台防火墙的VRRP状态都为Backup。
(1) 检查RBM控制通道连接是否正常,使用命令行display remote-backup-group status
RBM_P[M9012_1]dis remote-backup-group status
Remote backup group information:
Backup mode: Dual-active
Device management role: Primary
Device running status: Active
Data channel interface: Route-Aggregation1023
Local IP: 30.24.0.1
Remote IP: 30.24.0.2 Destination port: 60164
Control channel status: Connected
Keepalive interval: 1s
Keepalive count: 10
Configuration consistency check interval: 1 hour
Configuration consistency check result: Consistent(2020-12-17 10:55:15)
Configuration backup status: Auto sync enabled
Session backup status: Hot backup enabled
Delay-time: 1 min
Control channel status如果显示为Connected 则表示正常。如果显示未disconnected,则表示状态断连,需要检查RBM控制通道使用的接口的物料状态。
(2) 检查 业务板是否为选中状态,使用命令行display link-aggregation verbose Blade-Aggregation
RBM_P[M9012_1]dis link-aggregation verbose Blade-Aggregation
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Blade-Aggregation1
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/1 S 32768 4
Blade7/0/1 S 32768 4
Aggregate Interface: Blade-Aggregation257
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/2 S 32768 5
Blade7/0/2 S 32768 5
Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。
如果上述都没有发现问题,但是两台防火墙的VRRP状态都为BackUP,请联系技术支持人员。
图9 组网图
外网设备通过防火墙访问sever,防火墙上开启攻击防范业务,保护内网server免受攻击。
配置攻击防范策略,对fin的泛洪进行检测
attack-defense policy 1
fin-flood detect non-specific
fin-flood action logging drop client-verify
在入方向安全域下应用攻击防范策略
security-zone name Untrust
attack-defense apply policy 1
外网用户向server发起fin的泛洪攻击,防火墙设备没有报日志,流量也没有转发出去。
(1) 首先排查配置问题,攻击防范策略是否配置在入方向的安全域上,对于fin的攻击是否进行配置。
(2) 使用命令行display attack-defense malformed-packet statistics排查是否是畸形报文丢包了。(fin是畸 形报文的一种)
(3) 检查流量进来的目的地址是否唯一,对于唯一的目的地址的阈值是否达到阈值门限
(4) 如果上述都没有发现问题,请联系技术支持人员。
命令 |
说明 |
display attack-defense policy {name} |
显示攻击防范配置 |
display attack-defense statistics security-zone{ zone } |
显示攻击防范丢包统计 |
display blacklist { ip | ipv6 } |
显示黑名单统计 |
图10 组网图
PC访问Internet的流量由PC---Switch---Internet进行转发,T9012-S旁挂在交换机上并接收镜像流量做IPS处理,这种组网为最常见的旁挂部署方式。
配置交换机镜像组和镜像源目的接口;
配置IDS设备inline黑洞模式的Bridge实例并添加接口;
配置安全域并添加接口;
安全策略中引用IPS策略;
网络流量中有攻击报文,设备长时间不报威胁日志。
display session table ipv4 verbose
查看设备是否存在会话,以及会话是否正常,主要从会话状态,应用,以及是否是单向流判断。
Initiator:
Source IP/port: 8:7:6:5:4:3:2:2/6158
Destination IP/port: 1:2:3:4:5:6:7:7/110
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: Ten-GigabitEthernet2/2/0/10
Source security zone: Untrust
Responder:
Source IP/port: 1:2:3:4:5:6:7:7/110
Destination IP/port: 8:7:6:5:4:3:2:2/6158
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: Ten-GigabitEthernet2/2/0/9
Source security zone: Trust
State: TCP_ESTABLISHED //如果状态有问题,三次握手不全,无法检测,无法产生ips日志
Application: POP3 //如果应用不识别,无法产生ips日志
Rule ID: 0
Rule name: v6
Start time: 2018-12-27 18:49:14 TTL: 1199s
Initiator->Responder: 5 packets 406 bytes
Responder->Initiator: 4 packets 303 bytes
//如果是单向流,特征不完全,检测失败,无法产生ips日志
display counters rate inbound interface
判断相应接口是否有流量被镜像过来,如果没有,需检查交换机镜像配置。
display system internal ip packet-drop statistics
display system internal aspf statistics zone-pair ipv4
有些环境因为配置等问题,报文还未走到DPI模块就被丢弃了,自然无法产生IPS日志。
这种情况多数为交换机镜像过来的正反向报文没有从同一个物理口或逻辑口进入设备,需要注意黑洞模式的接口对配置。
会话正常的情况下,查看license和特征库版本,display security-policy ip,查看安全策略配置,确认内容安全是否引用了ips策略,以及安全策略的命中情况,以确保流量是命中了开启内容安全的那条安全策略。
display inspect status
查看是否处于bypass状态,当处于bypass状态时,设备不做dpi检测。
dis inspect status
Chassis 1 Slot 0:
Running status: normal
display system internal inspect hit-statistics
确认报文是否经过DPI检测,如下所示,设备进行了DPI检测,但是报文仅仅命中部分AC,没有完整命中特征,所以不会产生日志。Rule hits下不为0时,表示有报文命中了规则。
display system internal inspect hit-statistics
Rule ID Module Rule hits AC hits PCRE try PCRE hits
1855 IPS 0 1 0 0
单板出现异常重启或者下电
查看diagfile.log日志
<M9k>more diagfile/diagfile.log
查看设备diagfile.log日志,如果有单板间的hg口故障日志,表明单板间的内联口出现故障,而裁决单板重启,若单板重启后,内联口恢复正常,将日志发给技术支持人员进行分析。
%@12527^Dec 19 16:10:56:906 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.
%@12528^Dec 19 16:10:56:640 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=13; Chassis 1 Slot 13 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 8: The source port went down.
%@12529^Dec 19 16:10:57:376 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=11; Chassis 1 Slot 11 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 3: The source port went down.
%@12530^Dec 19 16:10:56:740 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=12; Chassis 1 Slot 12 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 6: The source port went down.
%@12554^Dec 19 16:11:11:959 2020 M9k DRV/3/FAULT_MONITOR_BITMAP:
Fault PhySlot List: 3
Fault Reason BitMap:
slot : 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
-----------------------------------------------------
Fabric1 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fabric2 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fabric3 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fabric4 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5
-----------------------------------------------------
IO board: 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fault Reason: 0-RFCS, 1-RERPKT, 2-DOWN, 3-UNRESP, 4-1bit, 5-NORMAL
%@12555^Dec 19 16:11:11:960 2020 M9k DRV/3/FAULT_MONITOR_REBOOT: Chassis 1 Slot 3: The card will be restarted due to a hardware failure.
查看logfile.log日志
<M9k>more logfile/logfile.log
查看设备logfile.log日志,如果有单板间的hg口故障日志,表明单板间的内联口出现故障,而裁决单板重启,若单板重启后,内联口恢复正常,将日志发给技术支持人员进行分析。
%@4387931%Dec 19 16:10:56:906 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.
%@4387932%Dec 19 16:10:56:640 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=13; Chassis 1 Slot 13 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 8: The connectivity of the internal port failed.
%@4387933%Dec 19 16:10:57:376 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=11; Chassis 1 Slot 11 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 3: The connectivity of the internal port failed.
%@4387934%Dec 19 16:10:56:740 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=12; Chassis 1 Slot 12 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 6: The connectivity of the internal port failed.
%@4387947%Dec 19 16:11:11:960 2020 M9k DRV/3/FAULT_MONITOR_REBOOT: Chassis 1 Slot 3: The card will be restarted due to a hardware failure.
%@4387948%Dec 19 16:11:12:151 2020 M9k DEV/2/BOARD_STATE_FAULT: Board state changed to Fault on chassis 1 slot 3, type is NSQM1FWEFGA0.
查看diagfile.log日志
<M9k>more diagfile/diagfile.log
查看设备diagfile.log日志,如果半小时内出现3次单板间的hg口故障而导致到重启,最后出现“The card will be isolated due to a hardware failure”日志时,表明单板间的内联口出现故障并且无法通过重启恢复,而裁决单板下电隔离,此时可查看日志将hg口故障涉及到单板进行更换,并将日志发给技术支持人员进行分析。
%@12574^Dec 19 17:15:53:091 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.
%@12584^Dec 19 17:23:57:002 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.
%@12605^Dec 19 17:32:34:001 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.
%@12615^Dec 19 17:32:54:996 2020 M9k DRV/3/FAULT_MONITOR_BITMAP:
Fault PhySlot List: 10
Fault Reason BitMap:
slot : 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
-----------------------------------------------------
Fabric1 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fabric2 : 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fabric3 : 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fabric4 : 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
-----------------------------------------------------
IO board: 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fault Reason: 0-RFCS, 1-RERPKT, 2-DOWN, 3-UNRESP, 4-1bit, 5-NORMAL
%@12616^Dec 19 17:32:54:996 2020 M9k DRV/3/FAULT_MONITOR_ISOLATE: Chassis 1 Slot 10: The card will be isolated due to a hardware failure.
查看logfile.log日志
<M9k>more logfile/logfile.log
查看设备logfile.log日志,如果半小时内出现3次单板间的hg口故障而导致到重启,最后出现“The card will be isolated due to a hardware failure”日志时,表明单板间的内联口出现故障并且无法通过重启恢复,而裁决单板下电隔离,此时可查看日志将hg口故障涉及到单板进行更换,并将日志发给技术支持人员进行分析。
%@4388208%Dec 19 17:15:40:345 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.
%@4388291%Dec 19 17:23:57:002 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.
%@4388385%Dec 19 17:32:34:001 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.
%@4388389%Dec 19 17:32:54:996 2020 M9k DRV/3/FAULT_MONITOR_ISOLATE: Chassis 1 Slot 10: The card will be isolated due to a hardware failure.
电子标签信息也可以称为永久配置数据或档案信息等,在硬件的调测(调试、测试)过程中被写入到设备的存储器件中,包括硬件的名称、生产序列号、MAC地址、制造商、产品代码等信息。电子标签作用是获取设备SN和DID信息。设备的SN和DID申请激活文件,并将激活文件安装在该设备上。该设备才能获得授权,可以运行指定的特性。
display device manuinfo显示电子标签丢失,无法获取SN和DID信息,不能进一步进行Lincense授权。
(1) 如果是主备倒换导致电子标签丢失,因为主备倒换需要重启设备,可以通过locallogbuf(locallogbuffer是驱动记录的底层信息)日志查看异常情况。
[B-probe]local logbuffer 10 display
查看到异常打印信息
举例说明,日志异常打印:
Sep 08 2020 16:54:36:488937:
LINE:152-TASK:ofpd-FUNC:BSP_E2PROM_Read_OnSelec:
Get I2C MutexSem1 fail.
Sep 08 2020 16:54:36:596761:
LINE:2077-TASK:TEMP-FUNC:drv_sysm_get_power_size_75X:
Get I2C MutexSem1 fail.
Sep 08 2020 16:54:37:489907:
LINE:5780-TASK:ofpd-FUNC:DRV_SYSM_SysGetManufactureInfo:
In function:BSP_E2PROM_Read_OnSelec, Read manual infoerror
Sep 08 2020 16:54:37:489967:
LINE:6089-TASK:ofpd-FUNC:DRV_SYSM_ManuInfoResolve:
Read manufacture information Fail!
Sep 08 2020 16:54:37:490005:
LINE:12303-TASK:ofpd-FUNC:DRV_DEVM_GetManuInfo:
Get chassis manu info failed!
在电子标签读取失败的情况下,查询上述日志信息后,请将搜集到的信息发送给H3C技术支持人员分析。
# 显示设备的电子标签信息。
<Sysname> display device manuinfo
Slot 1 CPU 0:
DEVICE_NAME : XXXX
DEVICE_SERIAL_NUMBER : XXXXXXXXXXXXXXXXXXXX
MAC_ADDRESS : XXXX-XXXX-XXXX
MANUFACTURING_DATE : XXXX-XX-XX
VENDOR_NAME : H3C
PRODUCT ID : XX-XXXX-XX
Subslot 1:
DEVICE_NAME : XXXX
DEVICE_SERIAL_NUMBER : XXXXXXXXXXXXXXXXXXXX
MANUFACTURING_DATE : XXXX-XX-XX
VENDOR_NAME : H3C
Fan 1:
DEVICE_NAME : XXXX
DEVICE_SERIAL_NUMBER : XXXXXXXXXX
MANUFACTURING_DATE : XXXX-XX-XX
VENDOR_NAME : H3C
Fan 2:
DEVICE_NAME : XXXX
DEVICE_SERIAL_NUMBER : XXXXXXXXXX
MANUFACTURING_DATE : XXXX-XX-XX
VENDOR_NAME : H3C
Power 1:
DEVICE_NAME : XXXX
DEVICE_SERIAL_NUMBER : XXXXXXXXXXXXXXXXXXXX
MANUFACTURING_DATE : XXXX-XX-XX
VENDOR_NAME : H3C
表6 display device manuinfo命令信息显示描述表
字段 |
描述 |
Slot 1 CPU 0: |
表示设备的电子标签信息,包括: · DEVICE_NAME:表示设备的名称 · DEVICE_SERIAL_NUMBER:表示设备的序列号 · MAC_ADDRESS:表示设备出厂MAC地址 · MANUFACTURING_DATE:表示设备的调测日期 · VENDOR_NAME:表示设备制造商的名称 · PRODUCT ID:表示产品代码 |
Subslot 1: |
表示子卡的电子标签信息 |
Fan 1: |
表示风扇的电子标签信息 |
Power 1: |
表示电源的电子标签信息 |
通过任一视图下display device、dis version和probe视图下display system internal version查看状态正常的设备的版本情况。
设备的主控版本、业务版本都应该取自相同的版本路径。否则会导致主控、业务板卡版本不一致,使得业务板卡fault状态(比如主控取45SP分支版本,业务板取32SP分支版本,业务板会fault启动不了)
如果主控、业务板卡取的分支不同导致板卡fault,启动不了,会有两种情况。一种是板卡一直fault,板卡一直在重启状态;一种是板卡fault卡住不动。针对上述情况,bootlooder和web升级版本解决问题不在适用,只能通过bootware(Ctrl+B)方式升级版本解决板卡fault问题。板卡fault卡住不动需要插拔板卡让板卡重启,手动连续按Ctrl+B,使得板卡进入bootware升级界面,通过bootware方式升级版本解决板卡fault问题。
<sysname>display boot-loader
Software images on chassis 1 slot 0:
Current software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 1 slot 1:
Current software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 1 slot 2.1:
Current software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 1 slot 3.1:
Current software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 2 slot 0:
Current software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 2 slot 1:
Current software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 2 slot 2.1:
Current software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 2 slot 3.1:
Current software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
<sysname>
按照点配配置TCP健康检查将其引用后,(实服务器组下)实服务器的状态为Probe-failed状态
图23-1 流程图:
先确定是实服务器组引用健康检查还是实服务器引用健康检查
(1) 实服务器组下的成员是否指定了端口号
(2) 实服务器组下的成员的目的地址是否可达
(3) 实服务器组下的成员的目的端口是否开放
(4) TCP健康检查内部是否配置了目的地址与目的端口
(1) 实服务器下的成员是否指定了端口号
(2) 实服务器下的成员目的地址是否可达
(3) 对端的服务器其端口是否开放
(4) TCP健康检查内部是否配置了目的地址与目的端口
(1) 实服务器组下的成员没有指定端口号,其端口号配置成了0,导致健康检查发送不出去修改实服务器组下成员的端口,配置其为真实业务端口
(2) ping 下实服务器组下的各个成员的地址,确保可以ping 通,达到网络可达的目的跟网络管理员确定网络连接状态正常,负载均衡设备发出的健康检查报文可以明确发送到设备上
(3) 检查实服务器组下的目的端口是否开放,通过在负载均衡设备上执行telnet x.x.x.x port的方式,通过回显观察其端口是否开放
例如:telnet 1.1.1.1 8080
如果其回显为400 bad request,则意味着对端业务端口肯定为开放状态,且网络传输正常
如果没有回显,则意味着需要抓包排查,参考步骤3
(4) TCP健康检查内部是否配置了目的地址与目的端口,典型配置中TCP的健康检查是不需要配置目的地址与目的端口的,如果配置了,那就是检查其配置中的地址和端口的网络情况和端口开放情况
如果特殊需求,健康检查内部配置了目的地址和端口,那么重复步骤(1)~(3)查其失效原因
重复步骤(1)~(4)
当(1)~(3)都排查完毕无法解决时,请抓包排查其失败原因。抓包排查的几种情况如下:
· 报文发出去但是没响应
举例:负载均衡设备接口地址是32.253.7.1,服务器地址是10.113.119.1,探测端口为8080
通过报文观察,报文发送出去后,一直没有收到响应,我们设备重传了2次,此时,可以排除非设备原因,排除网络因素,跟网络管理员确定报文是否发到服务器上,服务器收到了报文是否响应,去的路径和回来的路径是否被其他应用层设备阻断。
· 报文发出并且收到了rst响应
举例:负载均衡设备接口地址是32.253.7.1,服务器地址是10.113.119.1,探测端口为8080
通过报文观察,报文发送出去后,服务器回复了rst,意味着网络传输没问题,有收有发,但是服务器回复rst,代表8080端口没有开放,联系网络管理员放开8080业务端口即可
· 报文发出并且收到了正常的响应
举例:负载均衡设备接口地址是32.253.6.150,服务器地址是10.113.119.1,探测端口为8080
通过报文观察,报文syn发送出去后,服务器回复了syn-ack,然后设备马上发送rst将此连接关闭,这代表健康检查报文发送的整个流程都是正常的,此时实服务器组(实服务器)不该出现probe-failed的状态,如果出现此种情况,请联系技术支持人员
此处列出故障处理时可能会用到的命令(包括显示命令、debug命令和probe命令),说明命令的作用。
也可说明命令在故障定位中的用途(可选)
命令按照字母顺序排序。
举例:
命令 |
说明 |
display server-farm |
显示实服务器组的状态信息 |
display real-server |
显示实服务器的状态信息 |
display current-configuration configuration nqa-tplt-tcp |
显示TCP类型健康检查的配置信息 |
display current-configuration configuration server-farm |
显示实服务器组的配置信息 |
display current-configuration configuration real-server |
显示实服务器的配置信息 |
debugging tcp packet acl xxx |
开启TCP报文的调试信息 |
debugging nqa all acl xxx |
开启NQA报文的调试信息 |
按照点配配置HTTP健康检查将其引用后,(实服务器组下)实服务器的状态为Probe-failed状态
图23-2 流程图如下:
先确定是实服务器组引用健康检查还是实服务器引用健康检查
(1) 实服务器组下的成员是否指定了端口号
(2) 实服务器组下的成员的目的地址是否可达
(3) 实服务器组下的成员的目的端口是否开放
(4) HTTP健康检查报文内容是否填写正确
(1) 实服务器下的成员是否指定了端口号
(2) 实服务器下的成员目的地址是否可达
(3) 对端的服务器其端口是否开放
(4) HTTP健康检查报文内容是否填写正确
(1) 实服务器组下成员没有指定端口号,其端口号配置成了0,导致健康检查发送不出去,修改实服务器组下成员的端口,配置其为真实业务的端口。
(2) ping 下实服务器组下的各个成员的地址,确保可以ping 通,达到网络可达的目的,跟网络管理员确定网络连接状态正常,负载均衡设备发出的健康检查报文可以明确发送到设备上。
(3) 检查实服务器组下的目的端口是否开放,通过在负载均衡设备上执行telnet x.x.x.x port的方式,通过回显观察其端口是否开放。
例如:telnet 1.1.1.1 8080
如果其回显为400 bad request,则意味着对端业务端口肯定为开放状态,且网络传输正常
如果没有回显,则意味着需要抓包排查,参考步骤3。
(4) 确认HTTP健康检查发送的报文内容是否填写正确,发送到服务器是服务器是否可以成功处理,此种诊断方式只能通过抓包确认,抓取负载均衡设备上发送出去的报文,抓包诊断参考步骤3。
重复步骤(1)~(4)。
当(1)~(3)都配置正常的时候,就需要通过抓包的方式观察健康检查发包流程是否正常
· 报文发送出去答复的状态码为4xx
如下图报文所示:LB地址26.1.1.148,后台server地址为26.1.1.1,当我们发生HTTP请求后,server回复400 Bad,此时原因是我们请求头写的不对,请跟网络管理员确定正确的请求头是什么样子重新配置(对于不同4XX状态码可以网上搜索到具体原因,例如400bad很大原因是host字段写的不对或者是没有携带host字段)。
· 报文发送出去答复的状态码为200
如下图报文所示:LB地址26.1.1.148,后台server地址为26.1.1.1,当我们发生HTTP请求后,server回复200OK,如果测试健康检查配置的期待状态码为200(expect status 200),则此时的健康检查应该为成功,如果仍旧不成功,请联系技术支持人员。
命令 |
说明 |
display server-farm |
显示实服务器组的状态信息 |
display real-server |
显示实服务器的状态信息 |
display current-configuration configuration nqa-tplt-http |
显示HTTP类型健康检查的配置信息 |
display current-configuration configuration server-farm |
显示实服务器组的配置信息 |
display current-configuration configuration real-server |
显示实服务器的配置信息 |
debugging tcp packet acl xxx |
开启TCP报文的调试信息 |
debugging nqa all acl xxx |
开启NQA报文的调试信息 |
按照点配置UDP健康检查将其引用后(同时也要引用ICMP健康检查,UDP的健康检查必须捆绑ICMP健康检查一同使用),(实服务器组下)实服务器的状态为Probe-failed状态。
图23-3 流程图
先确定是实服务器组引用健康检查还是实服务器引用健康检查。
(1) 健康检查下是否配置了端口检测功能与添加字符串功能。
(2) 实服务器组下的成员是否引用了ICMP的健康检查。
(3) 实服务器组下的成员的目的地址是否可达。
(4) 实服务器组下的成员是否指定了端口号。
(5) 实服务器组下的成员的目的端口是否开放。
(1) 健康检查下是否配置了端口检测功能与添加字符串功能。
(2) 实服务器下的成员是否引用了ICMP的健康检查。
(3) 实服务器下的成员目的地址是否可达。
(4) 实服务器下的成员是否指定了端口。
(5) 对端的服务器其端口是否开放。
(1) 优先检查UDP健康检查是否配置了端口检测功能与添加字符串功能,开启UDP模板的端口检测功能用于测试对端UDP服务的端口是否可用。如果在探测超时时间(probe timeout命令配置)内,没有收到任何标识目的端不可达的ICMP差错报文,则认为探测成功,反之则认为探测失败。需要在服务器端开启ICMP目的不可达报文发送功能,如果目的端是H3C设备,需要在设备上执行ip unreachables enable命令。另外,需要配置data-fill string raw或hex-data-fill hex raw命令,填充字符串可以是在参数允许范围内的任意值。
(2) 由于UDP协议的特殊性与UDP健康检查的成功机制,请绑定ICMP的健康检查共同使用;ICMP健康检查用来探测链路的可达状态,用来排查ICMP差错报文是否可以返回到负载均衡设备上。
(3) 与(4)的排查方法参考HTTP/TCP健康检查的排查方式。
(4) 针对UDP的端口是否开放,只能通过抓包进行排查,详情参考步骤3。
排查步骤重复步骤(1)中的流程即可
由于UDP协议的特殊下,再进行抓包排查的时候,同时观察ping报文和udp报文的传输
· 设备上发出报文无响应,但是ping报文有答复
报文实例:
负载均衡地址为26.1.1.148,后台服务器地址26.1.1.1;可以看到UDP报文只有单向,没有答复;但是ICMP报文有交互,有请求也有响应,所以此时的UDP健康检查应该是成功的,如果此时的UDP健康检查还处在失败状态,请联系技术支持人员。
· 设备上发出的包有响应(ICMP差错报文),同时ping报文有答复
报文实例:
负载均衡地址为26.1.1.148,后台服务器地址26.1.1.1;可以看到UDP报文发送出去后,收到一个ICMP差错报文(目的端口不可达),所以其UDP健康检查就是失败的,此时需要联系客户管理员确定服务器端UDP的端口是否为开放状态
命令 |
说明 |
display server-farm |
显示实服务器组的状态信息 |
display real-server |
显示实服务器的状态信息 |
display current-configuration configuration nqa-tplt-udp |
显示UDP类型健康检查的配置信息 |
display current-configuration configuration server-farm |
显示实服务器组的配置信息 |
display current-configuration configuration real-server |
显示实服务器的配置信息 |
debugging udp packet acl xxx |
开启UDP报文的调试信息 |
debugging nqa all acl xxx |
开启NQA报文的调试信息 |
进行SSL卸载配置的时候,客户本身已经提供了证书文件,但是再进行导入的时候,导入失败,提示缺少key
首先要对ssl证书有一定的概念,理解根ca,中间ca,local证书以及key文件的概念。
他们之间的关系可如下所示
根CA签发中间CA----------中间CA签发给LOCAL,key文件用来对local加密
在此基础上,排查方式如下:
(1) 如果是包含key文件,那么请将key文件分离出来后单独导入
(2) 如果不包含key文件,那么请向客户索取key文件后再进行导入
(1) 首先先将客户提供的证书转换为pem编码格式(先将非pem编码的格式导入到浏览器中,然后在从浏览器将此证书以pem编码方式导出来),然后以文本形式打开证书文件,观察其内容是否有【BEGIN RSA PRIVATE KEY】关键字段,如果有,则说明客户提供的证书本身是包含key文件的,请单独将【BEGIN RSA PRIVATE KEY】部分的内容以文本形式粘贴出来,保存为.key文件后上传到设备的flash下,通过执行如下命令来看是否能正确加载密钥:public-key local import rsa xxx filename xxx.key,如果加载失败,请联系技术支持人员。
(2) 如果本身不包含【BEGIN RSA PRIVATE KEY】关键字段,则提供的证书文件不包含key文件,请联系客户索取key文件,如果客户提供单独的.key文件,则重复步骤1.1进行加载处理。
命令 |
说明 |
display pki certificate domain xxx ca |
查看PKI域加载的CA证书信息 |
display pki certificate domain xxx local |
查看PKI域加载的Local证书信息 |
display public-key local rsa public |
查看本地设备的密钥信息 |
按照典型配置手册配置完毕后,虚服务器处于Inactive状态。
(1) 虚服务器是否引用了实服务器组(或负载均衡策略)。
(2) 虚服务器引用的实服务器组(或负载均衡策略)是否存在。
(3) 虚服务器引用的实服务器组下(或负载均衡策略下的实服务器组)的成员健康检查是否成功。
(4) 虚服务器下是否配置了重定向(或引用的负载均策略下是否配置了重定向)。
(1) 检查配置,确定虚服务器是否引用了实服务器组(或负载均衡策略),如果没有没引用,虚服务器必然是Inactive状态。
(2) 检查配置,如果引用了实服务器组(或负载均衡策略),请检查引用的实服务器组(或负载均衡策略及策略下的实服务器组)是否存在,如果不存在,虚服务器必然是Inactive状态。
(3) 检查实服务器组的健康检查状态,如果实服务器组下的所有成员其健康检查都为probe-failed状态,虚服务器必然是Inactive状态;如果排查健康检查的故障,请参考(1)~(3).
(4) 检查虚服务器下是否配置了重定向(或引用的负载均衡策略下是否配置了重定向),如果虚服务器下配置了重定向,则虚服务器必然处于Active状态。
(5) 步骤(1)~(4)中排查完毕无异常,问题仍旧没解决,请联系技术支持人员。
命令 |
说明 |
display server-farm |
显示实服务器组的状态信息 |
display real-server |
显示实服务器的状态信息 |
display virtual-server |
显示虚服务器状态信息 |
display current-configuration configuration server-farm |
显示实服务器组的配置信息 |
display current-configuration configuration real-server |
显示实服务器的配置信息 |
display current-configuration configuration virtual-server |
显示虚服务器的配置信息 |
TCP类型虚服务器按照典配配置完毕后,HTTP业务访问失败
(1) 虚服务器是否处于Active状态
(2) 客户端的请求流量是否上送到负载均衡设备上
(3) 负载均衡设备上其虚服务器的计数是否双向都有数据
(4) 客户访问前提下,同时抓取负载均衡设备上的报文与服务器侧的报文进行比对排查
(1) 先确定虚服务器是否处于Active状态,处于Active的虚服务器才会正常处理业务,如果虚服务器处于Inactive状态,请参考【3.6】排查其故障;
(2) 客户端的请求流量是否上送到负载均衡设备上,通过执行【display virtual-server statistics name xxx】观察其虚服务器的统计计数,如果有请求流量命中,其命令的回显中【Total connections:】会存在计数,如果计数为0,则代表客户端的到负载均衡这一路径传输存在问题,请排查网络传输环境确保流量上传到负载均衡设备上;
(3) 当流量上传到负载均衡设备上后,且虚服务器统计计数项【Total connections:】存在计数,那么请观察【Received packets:】和【Sent packets】是否都存在计数统计,如果【Received packets】有计数,【Sent packets】没有计数,则代表负载均衡设备与后台服务器的连接建立失败,如果健康检查引用的正确且健康检查处于Active状态,则是因为服务器没有将答复流量转发给负载均衡设备,即客户端访问负载均衡设备,负载均衡设备在不做源地址转换的前提下,将客户端的请求转发给服务器,此时服务器答复报文的目的地址是客户端地址,所以需要网络保障此答复报文先回到负载均衡设备上,联系客户网络管理员配置服务器网关为负载均衡设备;或者负载均衡做snat源地址转换,同时规划路由,确保回程流量也能发到负载均衡设备上。
(4) 抓包排查
a. 4.1 负载均衡设备上抓包排查,服务端业务侧无响应报文
报文示例如下:
客户端地址192.168.43.1,虚服务器地址6.6.6.6,后台服务器地址为26.1.1.1,如下图报文所示:客户端(192.168.43.1)访问虚服务器地址(6.6.6.6),负载均衡将客户端请求转发给后台服务器(26.1.1.1);可以看到客户端请求3次,负载均衡也向服务器请求了3次,均没有收到回包,此时需要联系客户网络管理员,排查网络因素(1、报文是否发到服务器上;2、服务器如果收到了报文是否发送了相关响应)
b. 负载均衡设备上抓包排查,服务端响应异常关闭:
客户端地址192.168.43.1,虚服务器地址6.6.6.6,后台服务器地址为26.1.1.1,如下图报文所示:客户端(192.168.43.1)访问虚服务器地址(6.6.6.6),负载均衡将客户端请求转发给后台服务器(26.1.1.1);可以看到负载均衡将syn发给后台服务器后,服务器答复了rst,我们将服务器的rst也回归了客户端,连接关闭,所以导致业务不成功;此时需要联系客户的网络管理员,排查服务器端为何回复rst。
c. 负载均衡设备上抓包排查,服务端响应状态码异常
客户端地址192.168.43.1,虚服务器地址6.6.6.6,后台服务器地址为26.1.1.1,如下图报文所示:客户端(192.168.43.1)访问虚服务器地址(6.6.6.6),负载均衡将客户端请求转发给后台服务器(26.1.1.1);可以看到负载均衡请求转给后台服务器后,后台服务器回的404报文,我们将服务器的404转发给客户端,所以此时仍然需要联系客户的网络管理员,排查服务器端为何回复404。
命令 |
说明 |
display server-farm |
显示实服务器组的状态信息 |
display real-server |
显示实服务器的状态信息 |
display virtual-server |
显示虚服务器状态信息 |
display current-configuration configuration server-farm |
显示实服务器组的配置信息 |
display current-configuration configuration real-server |
显示实服务器的配置信息 |
display current-configuration configuration virtual-server |
显示虚服务器的配置信息 |
按照点配配置完毕后,X-Forward-For功能失效
1.确定配置是否正确,业务流量是否按照命中指定的Action行为
2.确定客户的业务是长连接还是短连接
3.长连接情况下,确定配置是否开启了逐请求执行动作的命令
1.X-Forward行为是配置Action动作下的,确保流量的确命中了指定的Action,如果没命中,请自行检查负载均衡匹配类和组网联通性问题
2.确定客户的业务是长连接还是短连接,这里对长连接和短连接做下解释
短连接:一个TCP连接里面只有一个HTTP请求报文传输,传输完毕后连接关闭
长连接:一个TCP连接里面大于一个HTTP请求报文传输,传输完毕后连接关闭
如果在组网无问题,Action命中无问题情况下,是短连接下X-Forward-For功能失效,请联系技术支持人员
3.如果在组网无问题,Action命中无问题情况下,是长连接下X-Forward-For功能失效,请先引用HTTP类型的参数模板,且模板开启逐请求执行动作的命令【header modify per-request】;
若以上操作问题仍旧没有解决,请联系技术支持人员
4.附上长短连接情况下的报文
4.1 短连接下X-Forward-For功能报文
报文示例:
一个TCP连接下只有一个get请求,处理完毕后连接关闭,所以是短连接,此种情况下X-Forward成功后会在get报文中观察到
4.2长连接下X-Forward-For功能报文,首个HTTP请求X-Forward功能成功,后续请求无X-Forward头
报文示例如下:
一个TCP连接下发送了2个get请求,2个请求处理完毕后TCP连接被关闭,所以属于长连接
长连接中如果第一个get请求进行了X-Forward-For功能:
第二个get请求没有进行X-Forward-For功能:
此时引用HTTP类型参数模板,开启逐请求执行动作命令即可
命令 |
说明 |
display server-farm |
显示实服务器组的状态信息 |
display real-server |
显示实服务器的状态信息 |
display virtual-server |
显示虚服务器状态信息 |
display loadbalance class |
显示负载均衡匹配策略配置信息 |
display loadbalance action |
显示负载均衡转发动作配置信息 |
display loadbalance policy |
显示负载均衡策略配置信息 |
display current-configuration configuration server-farm |
显示实服务器组的配置信息 |
display current-configuration configuration real-server |
显示实服务器的配置信息 |
display current-configuration configuration virtual-server |
显示虚服务器的配置信息 |
按照典型配置配置好后,发起DNS请求后DNS解析失败。
1.网络连通性排查
2. 检查数据中心配置
3.检查全局DNS监听
4.检查虚服务的状态
5. 检查链路
6.检查全局虚服务池状态
7. 检查全局DNS映射
1. 网络连通性排查
当解析失败时首先抓包确认是否有DNS应答,如下:
如果DNS有应答且为解析失败,则进行步骤2
如果DNS无应答,优先确认全局DNS监听下配置解析失败的方式如果使用默认的拒绝,则此时网络连通性问题,请排查客户端到监听网络路由。
确保网络联通性正常的情况下仍然解析失败,继续步骤2
2. 排查数据中心是否使能,是否绑定了链路且保证链路状态正常可用,保证配置正确。(链路状态查看参考步骤5)
3. 检查全局DNS监听
3.1 首先保证配置正确,排查全局DNS监听是否使能状态,地址是否正确且为本机地址,未使能情况下不进行监听业务失败。
3.2 确认全局DNS监听配置解析失败的处理方式
l 如果DNS监听下使用的默认的解析失败处理方式是拒绝,查看全局DNS监听统计并抓包查看DNS报文,此时全局监听统计RJTR会有统计,抓包排查DNS有请求和应答报文,应答解析失败,如下
查看全局监听统计RJTR有计数::
[sysname]dis loadbalance global-dns-listener statistics
Chassis 1 Slot 1 CPU 1:
Global DNS listener: gdl1
Received requests: 0
Received valid requests: 0
Unresponded requests: 0
Rejected requests: 0
------------------------------------------------
RCVR - Received requests, RVR - Received valid requests,
UR - Unresponded requests, RJTR - Rejected requests
Type RCVR RVR UR RJTR
A 0 0 0 0
AAAA 0 0 0 0
MX 0 0 0 0
NS 0 0 0 0
CNAME 0 0 0 0
SOA 0 0 0 0
PTR 0 0 0 0
查看报文中有请求和应答,应答解析失败:
进行步骤4继续排查。
l 如果DNS监听下配置解析失败的处理方式是不回应时,查看全局DNS监听统计并抓包看下DNS报文,此时全局监听统计UR项会有计数,抓包排查DNS只有发送的请求报文无应答报文,如下:
查看全局监听统计UR有计数:
[sysname]dis loadbalance global-dns-listener statistics
Chassis 1 Slot 1 CPU 1:
Global DNS listener: gdl1
Received requests: 0
Received valid requests: 0
Unresponded requests: 0
Rejected requests: 0
------------------------------------------------
RCVR - Received requests, RVR - Received valid requests,
UR - Unresponded requests, RJTR - Rejected requests
Type RCVR RVR UR RJTR
A 0 0 0 0
AAAA 0 0 0 0
MX 0 0 0 0
NS 0 0 0 0
CNAME 0 0 0 0
SOA 0 0 0 0
PTR 0 0 0 0
查看报文中只有请求,没有应答:
进行步骤4继续排查。
4.查看虚服务的状态是否正常,如果是inactive则处于不正常状态,请排查虚服务器处于Inactive的原因,优先保证虚服务状态正常(具体请参考健康检查,实服务器probe-failed步骤);如果虚服务状态active,则继续步骤5
5.检查虚服务池下绑定的link状态是否active
l 如果link下配置了健康检查,且健康检查失败link状态为probe-failed,此时需要排查健康检查失败的原因,如果icmp健康检查,一般网络连通性问题,ping下一跳地址排查网络问题即可。保证健康检查正常后确认是否解析成功,如果仍然解析不出来继续步骤6
l 如果link状态为active或者unknown(未配置健康检查时显示unknown)则进行步骤6
[sysname]display loadbalance link brief
Link Router IP/Interface State VPN instance Link group
glb1_link1 10.10.0.254 Active
6.保证虚服务池配置正确,正确的绑定了虚服务和链路后,检查虚服务池下健康检查是否成功,如果健康检查失败,则优先处理健康检查失败的问题。如果健康检查成功则进行步骤7继续排查。
如下查看虚服务池下虚服务的状态,如果健康检查成功则为active,失败则显示inactive
[sysname]display loadbalance global-virtual-server-pool name glb1
Global virtual server pool: glb1_netconf
Predictor:
Preferred: RR
Alternate: --
Fallback: --
Bandwidth busy-protection: Disabled
Total virtual servers: 1
Active virtual servers: 1
Data center: dc1_gongwang
Server: glb1_slb
Virtual server list:
Name State Address Port Weight Link
netconf_vip101_1 Active 30.0.101.1 80 100 glb1_link1
7. 全局DNS映射配置是否正确,是否使能状态,是否正确引用了所应用的全局虚服务池,如果全局映射未使能或者未引用正确的虚服务池则查看虚服务池下状态时,显示虚服务为inactive状态无法返回DNS应答。
查看全局DNS映射,确认是否使能、引用的全局虚服务池是否正确、domain是否书写正确,如下:
[sysname]display loadbalance global-dns-map
Global DNS mapping: gdm
Service state: Enabled
TTL: 3600s
Predictor:
Preferred: round-robin
Alternate: --
Fallback: --
Domain name list: www.glb.com
Global virtual server pool list:
Name Weight
gvsp 100
总结:整个全局负载过程首先要保证用户配置正确(参考典配及其中配置注意事项)、引用关系正确、网络联通性正常的情况下,如果通过以上排查则仍然DNS解析失败则请联系研发协助。
命令 |
配置 |
display loadbalance data-center |
显示数据中心的信息 |
display loadbalance data-center link statistics |
显示数据中心出口链路的统计信息 |
display loadbalance default-syncgroup member |
显示缺省同步组成员的信息 |
display loadbalance global-dns-listener |
显示全局DNS监听器的信息 |
display loadbalance global-dns-listener statistics |
显示全局DNS监听器的统计信息 |
display loadbalance global-dns-map |
显示全局DNS映射的信息 |
display loadbalance global-dns-map statistics |
显示全局DNS映射的统计信息 |
显示全局虚服务池的信息 |
|
display loadbalance global-virtual-server-pool probe |
显示虚服务器或虚IP的健康检测信息 |
display loadbalance link |
显示链路的信息 |
reset loadbalance global-dns-listener statistics |
清除全局DNS监听器的统计信息 |
reset loadbalance global-dns-map statistics |
清除全局DNS映射的统计信息 |
按照点配配置,业务流量没有按照指定的出链路进行转发
1.链路的健康检查状态是否正确
2.是否命中了预置条件
3.是否存在冲突的预置条件
1.先排查链路的健康检查状态是否正确,排查方法请参考本文关于健康检查的排查方式
2.检查配置,确保流量命中了正确的预置条件,只有命中指定预置条件才能确保按照预期链路转发
如果配置繁琐,或者是怕检查有遗漏,请使用网页功能模块【测试负载均衡配置】模块,来判断预期流量是否按照能命中指定预置条件
示例如下:
各参数说明:
【目的IP地址】和【源IP地址】填写实际业务的真实地址
【目的端口】和【源端口】由于是出链路的负载均衡,这两项可以任意填写
【协议层级】四层为必选
【协议名称】一般根据业务的实际情况选取
其【开始测试】后即可以看到选择的预置条件,如果其测试结果和预置条件不符,请排查配置,只有配置原因才可以导致此结果
若测试结果是可以名字预置条件,但还是没有按照预期链路进行转发, 请联系技术支持人员
3.出链路的典型应用中,都是内网访问外网策略多数是匹配目的地址为运营商地址,然后进行链路的策略分发;外网访问内网的时候,匹配的条件可以是源也可以是目的,但是当内外网的匹配条件如果有重合的情况,则流量转发则是先匹配到哪个就按照哪个的预置条件进行匹配转发,所以请排查是否有多条匹配策略匹配条件重合的情况,此种情况,也是导致没按照预期链路转发的原因之一;如果配置上保证没有重合,即使重合,也是命中了预期条件的前提下,还存在问题的话,请联系技术支持人员
命令 |
说明 |
display loadbalance link |
显示链路的状态信息 |
display loadbalance link-group |
显示链路组的状态信息 |
display virtual-server |
显示虚服务器状态信息 |
display loadbalance class |
显示负载均衡匹配策略配置信息 |
display loadbalance action |
显示负载均衡转发动作配置信息 |
display loadbalance policy |
显示负载均衡策略配置信息 |
display current-configuration configuration link |
显示链路的配置信息 |
display current-configuration configuration link-group |
显示链路组配置信息 |
display current-configuration configuration virtual-server |
显示虚服务器的配置信息 |
在两台设备上都完成remote-backup group的基本配置后,查看RBM通道连接状态,其Control channel status状态为Disconnected,RBM通道无法建立,主设备上的会话表项、持续性表项及设备配置等均无法正常同步备份到备设备。
1.排查设备版本是否一致
2.查看display remote-backup-group status命令,确认设备RBM通道状态以及RBM的其他信息;
3.确认Local-ip与Remote-ip以及Destination port;
4.确认Device management role;
5.确认接口IP地址信息;
6.确认接口链路层和协议层状态;
7.确认RBM通道是通过二层连接还是三层连接;
8.还可以通过查看RBM通道的连接日志辅助进行排查分析。
1.确认主备机设备版本
查看两台设备的运行版本,要求版本必须一致;
2.确认RBM状态
查看display remote-backup-group status命令,确认其Control channel status的状态;如果显示为Connected状态,说明其RBM通道连接正常;如果显示为Disconnected状态,说明其RBM通道是断开的,需要排查RBM通道无法建立的原因。
以下的排查步骤以display remote-backup-group status命令的回显信息为基础进行逐步排查。
RBM_P<sysname>display remote-backup-group status
Remote backup group information:
Backup mode: Active/standby
Device management role: Primary
Device running status: Active
Data channel interface: Route-Aggregation1
Local IP: 1.1.1.1
Remote IP: 1.1.1.2 Destination port: 60064
Control channel status: Disconnected
Keepalive interval: 1s
Keepalive count: 10
Configuration consistency check interval: 24 hour
Configuration consistency check result: Not Performed
Configuration backup status: Auto sync enabled
Session backup status: Hot backup enabled
Uptime since last switchover: 0 days, 0 hours, 12 minutes
3.确认Local-ip与Remote-ip以及Destination port
通过display remote-backup-group status命令查看主/备设备在remote-backup group下是否都配置了Local-ip以及Remote-ip,且本端设备的Local-ip与对端设备的Remote-ip是否保持一致;这两个IP地址是必配项,且两台设备均要能ping通Remote-ip;在可以ping通的前提下,确认主/备设备的Destination port是否一致,主/备设备上配置的对端端口需要保持一致才能建立RBM通道。
4.确认Device management role
确认在主/备设备上是否配置了对应角色Device management role;如果display remote-backup-group status命令下没有Device management role,Device running status为Initial,说明设备没有配置设备的管理角色,将导致RBM通道连接无法建立。
<sysname>dis remote-backup-group status
Remote backup group information:
Backup mode: Active/standby
Device running status: Initial
Data channel interface: Route-Aggregation1
Local IP: 1.1.1.1
Remote IP: 1.1.1.2 Destination port: 60064
Control channel status: Disconnected
Keepalive interval: 1s
Keepalive count: 10
Configuration consistency check interval: 24 hour
Configuration consistency check result: Not Performed
Configuration backup status: Auto sync enabled
Session backup status: Hot backup enabled
Uptime since last switchover: 0 days, 0 hours, 0 minutes
在remote-backup group视图下,通过device-role { primary | secondary }命令来分别指定主/备设备的管理角色,primary对应主管理设备,secondary对应备管理设备,且两台设备不要配置相同的管理角色。
5.确认接口IP地址信息
在主/备设备上分别确认各自的Local-ip对应的IP地址的接口是否存在,通过display interface brief命令查看设备上的接口是否配置了对应IP地址;如果没有配置对应的IP地址,在主/备设备上分别在作为RBM通道的接口下配置对应Local-ip对应的IP地址。
RBM_P<sysname >display interface brief
Brief information on interfaces in route mode:
Link: ADM - administratively down; Stby - standby
Protocol: (s) - spoofing
Interface Link Protocol Primary IP Description
FGE1/2/3/9 UP UP 1.1.1.1
经过如上步骤的排查,在Local-ip与Remote-ip的IP地址可以互相ping通的前提下,且配置有对应IP地址的对应接口并未加入任何安全域或被任何安全策略引用的前提下,Control channel status状态依然为Disconnected,请联系研发进行进一步分析定位。
6.确认接口链路层和协议层状态
找到配置了对应IP地址的接口后,通过display interface brief命令确认其对应接口是物理口还是聚合口,其接口链路层(Link)和协议层(Protocol)状态是否均处于UP状态。
RBM_P<sysname >display interface brief
Brief information on interfaces in route mode:
Link: ADM - administratively down; Stby - standby
Protocol: (s) - spoofing
Interface Link Protocol Primary IP Description
FGE1/2/3/9 UP UP 1.1.1.1
如果RBM通道使用的是物理口且状态为DOWN,需要确认本端和对端设备的接口光模块、光纤、接口模式、接口速率、接口硬件等是否正常;
如果RBM通道使用的是聚合口且状态为DOWN,先确认其是否有成员口以及成员口状态是否处于UP状态,然后确认本端与对端设备的聚合口聚合模式是否一致(是否都是静态聚合或动态聚合)。
7.确认RBM通道是二层连接还是三层连接
1) 二层连接
如果RBM通道通过二层连接(即Local-ip以及Remote-ip处于同一网段),确认RBM通道是直连还是通过交换机进行二层连接;
如果RBM通道通过二层连接且直连,Local-ip以及Remote-ip对应的IP地址互相无法ping通,请联系研发进行进一步分析定位;
如果RBM通道通过二层连接且通过交换机进行二层连接,确认主/备设备与交换机相连的口是否是二层模式,是否配置了相同的VLAN;在交换机上配置Vlan-interface,配置与Local-ip以及Remote-ip同网段的IP地址,对Local-ip以及Remote-ip进行ping操作确认是否可以ping通,如果无法ping通,请联系研发进行进一步分析定位。
2) 三层连接
如果RBM通道通过三层连接(即Local-ip以及Remote-ip不处于同一网段),如果无法ping通对端IP地址,通过display ip routing-table命令确认主/备设备上是否都有到Remote-ip的IP地址的路由,如果没有,需要手工配置对应路由;确认在交换机上是否可以ping通两台设备对应的IP地址;如果排除了交换机问题依然无法ping通两台设备对应的IP地址,请联系研发进行进一步分析定位。
RBM_P<sysname>display remote-backup-group status
Remote backup group information:
Backup mode: Active/standby
Device management role: Primary
Device running status: Active
Data channel interface: Route-Aggregation1
Local IP: 1.1.1.1
Remote IP: 2.2.2.1 Destination port: 60064
Control channel status: Connected
Keepalive interval: 1s
Keepalive count: 10
Configuration consistency check interval: 24 hour
Configuration consistency check result: Not Performed
Configuration backup status: Auto sync enabled
Session backup status: Hot backup enabled
Uptime since last switchover: 0 days, 0 hours, 4 minutes
RBM_P<sysname>display ip routing-table 2.2.2.1
Summary count : 1
Destination/Mask Proto Pre Cost NextHop Interface
2.2.2.1/32 Static 60 0 1.1.1.2 FGE1/2/3/9
8.查看RBM通道的连接日志
如果设备是在稳定运行过程中出现RBM通道断开无法重新连接,可以在logbuffer中搜索是否有如下日志,确认RBM通道连接与断开的情况,特别是是否出现RBM通道反复震荡的情况,便于进一步排查分析。
RBM通道建立成功日志
%Jan 19 10:40:02:951 2022 sysname RBM/1/RBM_KEEPALIVE: Local IP=1.1.1.1, remote IP=1.1.1.2, status=Connected
RBM通道建立失败日志
%Jan 19 10:42:29:172 2022 sysname RBM/1/RBM_KEEPALIVE: Local IP=1.1.1.1, remote IP=1.1.1.2, status=Disconnected
命令 |
说明 |
display interface brief |
显示接口的运行状态和相关信息 |
display ip routing-table |
显示路由表的信息 |
display remote-backup-group status |
显示HA的状态信息 |