手册下载
H3C SecPath M9000系列多业务安全网关
故障处理手册(V7)
资料版本:6W401-20220226
产品版本:
|
M9006/M9010/M9014/M9016-V |
R9153P22 |
|
M9008-S/M9008-S-6GW/M9008-S-V/M9012-S |
R9724P22 |
|
M9000-AI-E8/M9000-AI-E16 |
R9001P22 |
|
M9010-GM |
E9153P22 |
Copyright © 2021-2022 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
7.1 动态NAT转换故障(以动态nat outbound为例)
7.3 设备作为出口网关设备割接之后,NAT业务不通,但是接口地址可以ping通
8.1 IPsec SA可以成功建立,但是IPsec保护的流量不通
8.2 IPsec的防火墙端为2台M9000主备堆叠,在IRF主设备down掉后,IPsec出现异常
10.1 四层服务器负载均衡,虚服务和实服务都处于active状态,客户端发往服务器的流量不通
14.1 同一个VRRP备份组内两台防火墙的的VRRP状态都为backup
18.1 IPv6访问IPv4(以源地址动态转换,目的地址静态转换为例)
(1) 更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。
(2) 设备正常运行时,建议您在完成重要功能的配置后,及时保存当前配置,以便设备出现故障后能迅速恢复配置。
(3) M9000的故障,包括主控故障、引擎故障、接口板、网板故障。对主控板和接口板的故障,主要通过主控板上的Console口或者Telnet来进行搜集。对引擎故障,主要通过引擎上的Console口来搜集。
(4) 设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),搜集信息越全面、越详细,越有利于故障的快速定位。
· 记录具体的故障现象、故障时间、配置信息。
· 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
· 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
· 记录故障处理过程中配置的所有命令行显示信息。
· 搜集设备日志信息和diag信息。
· 记录抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息。
· 记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。
· 引擎故障时,需要单独记录引擎的故障信息。需要连接引擎的串口线搜集信息。
(5) 故障处理过程中,请注意:
· 明确每项配置操作的影响,保证操作出问题时能够被恢复,故障影响不会扩大。
· 操作执行后请等待一定时间以确认执行效果。
· 请不要保存故障处理过程中的配置,特别是出现IRF分裂、单板Fault、单板重启时,否则会引起配置丢失。
· 更换主控板时,请确保新、老主控板的软件版本一致。
为方便故障快速定位,建议不要关闭设备的信息中心(info-center enable),缺省情况下信息中心处于开启状态。
设备运行过程中会产生logfile日志信息及记录设备运行状态的diag信息。这些信息存储在Flash中,可以通过FTP或TFTP等方式导出。不同主控板中导出的logfile、diag文件请按照一定规则存放(如不同的文件夹:chassisXslotY),避免不同主控板的运行信息相互混淆,以方便查询。
表1 设备运行信息介绍
|
分类 |
文件名 |
内容 |
|
logfile日志 |
logfileX.log |
命令行记录、Trap信息、设备运行中产生的记录信息 |
|
diag信息 |
XXX.gz |
设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等 |
请先通过logfile save将设备缓存的logfile日志保存到Flash中,并将日志搜集完整,包括:主用主控板、备用主控板、IRF下主框/备框各主备主控板的日志,如果设备创建Context还需要搜集每个Context对应的日志。
[H3C] logfile save
The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log.
主用主控板logfile日志:
<H3C> dir slot0#flash:/logfile/
Directory of flash:/logfile
0 -rw- 5233116 Apr 27 2013 09:20:44 logfile1.log
1 -rw- 5142919 May 03 2013 14:15:42 logfile2.log
2 -rw- 5193287 May 09 2013 12:28:08 logfile3.log
1021808 KB total (259072 KB free)
备用主控板logfile日志:
<H3C> dir slot1#flash:/logfile/
Directory of slot1#flash:/logfile
0 -rw- 5242287 May 13 2013 16:47:46 logfile4.log
1 -rw- 5143837 May 24 2013 22:56:46 logfile5.log
2 -rw- 5149806 Jun 01 2013 13:43:26 logfile6.log
1020068 KB total (643264 KB free)
IRF下备框主控板logfile日志,如备框有两块主控板,则两块都需要搜集:
<H3C> dir chassis2#slot0#flash:/logfile/
Directory of chassis2#slot0#flash:/logfile
0 -rw- 5215316 Jun 03 2013 05:49:20 logfile7.log
1 -rw- 5235163 Jun 21 2013 07:31:54 logfile8.log
2 -rw- 3256492 Jun 26 2013 09:01:08 logfile9.log
1021808 KB total (773424 KB free)
执行display diagnostic-information命令后,请输入“Y”,以选择将diag保存到Flash卡中(选择display会出现信息搜集不全)。设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请耐心等待。
<H3C> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:y
Please input the file name(*.gz)[flash:/diag.gz]:
The file already exists,overwirte it?[Y/N]:y
Diagnostic information is outputting to flash:/diag.gz.
Save successfully.
<H3C> dir flash:/
Directory of flash:
6 -rw- 898180 Jun 26 2013 09:23:51 diag.gz
1021808 KB total (259072 KB free)
也可以将diag信息直接显示出来(不建议这样搜集),搜集前请先执行screen-length disable,避免屏幕输出被打断,如下:
<H3C> screen-length disable
Screen-length configuration is disabled for current user
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:n
==================================================================
===============display cpu===============
Chassis 2 Slot 0 CPU 0 CPU usage:
4% in last 5 seconds
0% in last 1 minute
0% in last 5 minutes
Chassis 2 Slot 0 CPU 1 CPU usage:
0% in last 5 seconds
0% in last 1 minute
0% in last 5 minutes
设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。
如遇到故障无法确认,请将故障描述连同搜集的信息发送给H3C技术支持人员分析。
图1为故障处理的一般流程,可以大致判断出故障的类型。
故障分析时常用的方法有:
· 端口报文计数。
· 报文镜像。
· 端口抓包。
· 查看会话状态及统计信息。
· 查看L2、L3转发表项及统计。
· 查看Openflow表项下发是否正确。
· Debug开关信息。
如单板出现异常重启、状态异常、无法启动、反复重启,请参照2.1 单板故障处理。
如设备风扇指示灯异常、风扇停转、不断打印风扇告警信息,请参照2.2 风扇故障处理。
如端口出现无法UP、频繁UP/DOWN、端口错包,请参照3 链路端口故障处理。
如出现ping、tracert丢包或不通、二层丢包或不通、三层丢包或不通、业务异常等,请参照4 报文转发故障处理。
如设备无法形成IRF、IRF分裂等,请参照5 IRF类故障处理。
如果出现主备切换异常、冗余口转发异常、冗余口切换异常,请参照6 双机热备故障。
如果出现nat转换异常,不能正常转换,或者alg处理异常,请参照7 NAT类故障处理。
IPsec出现转发不通、不能正常加解密时,请参考8 IPsec/IKE类故障处理。
如主控设备或引擎的CPU占用率很高,请参照12.1 CPU占用率高。
如设备单板内存占用率很高,请参照12.2 内存占用率高处理。
图2是一个典型网络故障模型,为提高网络的可靠性,两台M9000设备采用IRF模式,可以为双主方式、主备方式,典型网络故障模型如下:
表2 故障点影响分析
|
故障点 |
可能现象 |
影响范围 |
|
(1)、(3)(含光模块) |
端口down |
业务会切换 |
|
端口错包增加 |
影响该链路上的业务(影响范围大) |
|
|
(2) |
主控单板故障 |
业务会切换 |
|
引擎单板故障 |
如果链路和该引擎单板track,业务会切换 |
|
|
接口单板故障 |
业务可能会切换 |
|
|
(4) |
堆叠链路单条断 |
不影响业务,但可能影响性能 |
|
堆叠链路2条链路全断 |
堆叠分裂 |
表3 常见的故障恢复措施
|
故障原因 |
业务恢复动作 |
故障排除动作 |
|
硬件 |
· 隔离故障单板; · 调整业务流向来隔离故障设备(如可以调整路由的优先级,避免流量经过故障设备,实现流量切换) |
更换备件(备件上线应用前应进行必要的测试) |
|
软件 |
· 重启故障设备的协议; · 调整业务流向来隔离故障设备。 |
· 升级版本(含补丁版本); · 调整组网或配置消除引发故障因素。 |
|
链路 |
调整业务流向来隔离故障线路 |
检修线路 |
|
其他 |
· 修改错误配置; · 正确连接设备端口; · 调整业务流向来隔离故障线路。 |
· 修改错误配置; · 正确连接设备端口; · 检修机房的电源、空调等支撑系统 |
· 单板状态异常(比如状态为Absent、Fault等)。
· 单板出现异常重启、无法启动或不断重启等。
单板状态包括:Normal、Master 、Standby、Absent和Fault。
Master与Standby分别表示主、备主控板。Normal表示单板处于正常运行状态。
如果发现单板状态出现Fault,或该槽位存在单板但状态却是Absent的,说明单板可能出现故障,请参考2.1.2 故障处理步骤处理。
<H3C>display device
Slot No. Brd Type Brd Status Subslot Sft Ver Patch Ver
0 NSQM1CGQ4TG24SHA0Normal 0 M9016-V-9153P22 None
1 NONE Absent 0 NONE None
2 NSQM1CGQ4TG24SHA0Normal 0 M9016-V-9153P22 None
3 NONE Absent 0 NONE None
4 NSQM1SUPD0 Master 0 M9016-V-9153P22 None
5 NSQM1SUPD0 Standby 0 M9016-V-9153P22 None
6 NSQM1FWEFGA0 Normal 0 M9016-V-9153P22 None
CPU 1 Normal 0 M9016-V-9153P22
7 NONE Absent 0 NONE None
8 NONE Absent 0 NONE None
9 NONE Absent 0 NONE None
10 NSQM1FAB08E0 Normal 0 M9016-V-9153P22 None
11 NSQM1FAB08E0 Normal 0 M9016-V-9153P22 None
12 NSQM1FAB08E0 Normal 0 M9016-V-9153P22 None
13 NSQM1FAB08E0 Normal 0 M9016-V-9153P22 None
可以通过logfile日志或display version查看设备启动后运行时间来确认单板有没有出现过重启,出现过重启的单板运行时间会明显短于设备上其他单板。请参考2.1.2 故障处理步骤处理。
<H3C>display version
H3C Comware Software, Version 7.1.064, Release 9153P22
Copyright (c) 2004-2020 New H3C Technologies Co., Ltd. All rights reserved.
H3C SecPath M9016-V uptime is 0 weeks, 4 days, 0 hours, 7 minutes
Last reboot reason : User reboot
Boot image: flash:/M9000-CMW710-BOOT-R9153P22.bin
Boot image version: 7.1.064, Release 9153P22
Compiled Dec 10 2020 14:00:00
System image: flash:/M9000-CMW710-SYSTEM-R9153P22.bin
System image version: 7.1.064, Release 9153P22
Compiled Dec 10 2020 14:00:00
Feature image(s) list:
flash:/M9000-CMW710-DEVKIT-R9153P22.bin, version: 7.1.064
Compiled Dec 10 2020 14:00:00
LPU 0:
Uptime is 0 weeks,4 days,0 hours,3 minutes
H3C SecPath M9016-V LPU with 1 LS1043A Processor
BOARD TYPE: NSQM1CGQ4TG24SHA0
DRAM: 2048M bytes
PCB 1 Version: VER.A
Bootrom Version: 108
CPLD 1 Version: 002
CPLD 2 Version: 001
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : UserReboot
LPU 2:
Uptime is 0 weeks,4 days,0 hours,3 minutes
H3C SecPath M9016-V LPU with 1 LS1043A Processor
BOARD TYPE: NSQM1CGQ4TG24SHA0
DRAM: 2048M bytes
PCB 1 Version: VER.A
Bootrom Version: 108
CPLD 1 Version: 002
CPLD 2 Version: 001
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : UserReboot
MPU(M) 4:
Uptime is 0 weeks,4 days,0 hours,7 minutes
H3C SecPath M9016-V MPU(M) with 1 XLP316 Processor
BOARD TYPE: NSQM1SUPD0
DRAM: 8192M bytes
FLASH: 500M bytes
NVRAM: 512K bytes
PCB 1 Version: VER.A
Bootrom Version: 132
CPLD 1 Version: 004
CPLD 2 Version: 003
CPLD 3 Version: 003
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : UserReboot
MPU(S) 5:
Uptime is 0 weeks,4 days,0 hours,6 minutes
H3C SecPath M9016-V MPU(S) with 1 XLP316 Processor
BOARD TYPE: NSQM1SUPD0
DRAM: 8192M bytes
FLASH: 500M bytes
NVRAM: 512K bytes
PCB 1 Version: VER.A
Bootrom Version: 132
CPLD 1 Version: 001
CPLD 2 Version: 001
CPLD 3 Version: 001
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : UserReboot
LPU 6:
Uptime is 0 weeks,1 day,17 hours,56 minutes
H3C SecPath M9016-V LPU with 1 XLP308 Processor
BOARD TYPE: NSQM1FWEFGA0
DRAM: 2048M bytes
FLASH: 8M bytes
PCB 1 Version: VER.A
PCB 2 Version: VER.B
Bootrom Version: 100
CPLD 1 Version: 002
CPLD 2 Version: 002
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : UserReboot
SLOT 6 CPU 1
CPU type: Multi-core CPU
DDR4 : 49152M bytes
FLASH: 7122M bytes
Board PCB Version: Ver.A
CPLD Version: 2.0
Release Version: SecBlade FW Enhanced-9153P22
FPGA 0 Version: B50506
FPGA 0 DATE: 2020.11.27
FPGA 1 Version: B50506
FPGA 1 DATE: 2020.11.27
Basic BootWare Version:1.03
Extend BootWare Version:1.03
NPU 10:
Uptime is 0 weeks,4 days,0 hours,3 minutes
H3C SecPath M9016-V NPU with 1 XLS208 Processor
BOARD TYPE: NSQM1FAB08E0
DRAM: 1024M bytes
PCB 1 Version: VER.B
Bootrom Version: 518
CPLD 1 Version: 005
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : UserReboot
NPU 11:
Uptime is 0 weeks,3 days,23 hours,46 minutes
H3C SecPath M9016-V NPU with 1 XLS208 Processor
BOARD TYPE: NSQM1FAB08E0
DRAM: 1024M bytes
PCB 1 Version: VER.B
Bootrom Version: 518
CPLD 1 Version: 005
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : ColdReboot
NPU 12:
Uptime is 0 weeks,3 days,23 hours,44 minutes
H3C SecPath M9016-V NPU with 1 XLS208 Processor
BOARD TYPE: NSQM1FAB08E0
DRAM: 1024M bytes
PCB 1 Version: VER.B
Bootrom Version: 511
CPLD 1 Version: 005
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : ColdReboot
NPU 13:
Uptime is 0 weeks,3 days,23 hours,44 minutes
H3C SecPath M9016-V NPU with 1 XLS208 Processor
BOARD TYPE: NSQM1FAB08E0
DRAM: 1024M bytes
PCB 1 Version: VER.B
Bootrom Version: 518
CPLD 1 Version: 005
Release Version: H3C SecPath M9016-V-9153P22
Patch Version : None
Reboot Cause : ColdReboot
(1) 确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重新插入。
(2) 将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板或机框槽位故障。
(3) 检查单板面板、内部的指示灯是否发光。
(4) 如果单板是主控板、业务板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。
(5) 如确认为单板故障,请更换单板并将故障信息发送H3C技术支持人员分析。
(1) 等待一段时间确认下单板是一直Fault还是Normal后又再次重启。如单板是Normal后又自动重启,请将故障信息发送H3C技术支持人员分析。
(2) 如果单板是主控板、引擎板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板异常启动信息。如下述主控板启动时出现内存读写测试失败而不断重启,需要检查主控板内存条是否插稳。
(3) 将单板放到别的槽位,进一步确认是不是单板故障。
(4) 如确认为单板故障,请更换单板并将故障信息发送H3C技术支持人员分析。
这里的单板重启是指单板出现过重启,而当前单板状态是Normal。
(1) 通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行reboot重启或进行单板上下电等操作。
(2) 如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。
(3) 确认日志中重启时有无出现“Slot X need to be rebooted automatically!” ,“Note:the operating device is sda0,it's not online ”提示信息,这种情况是不正常的。请更换单板并搜集故障信息并发送H3C技术支持人员分析。
(4) 如无法确认,请搜集故障信息并发送H3C技术支持人员分析。
风扇框指示灯异常,设备打印风扇异常信息,如:
%Jun 26 10:12:24:805 2013 H3C DEV/3/FAN_ABSENT: -MDC=1; Chassis 2 Fan 2 is absent.
%Jun 26 10:12:32:805 2013 H3C DEVD/2/DRV_DEV_FAN_CHANGE: -MDC=1; Chassis 2: Fan communication state changed: Fan 1 changed to fault.
%Jun 26 10:12:42:405 2013 H3C DEV/2/FAN_FAILED: -MDC=1; Chassis 2 Fan 1 failed.
(1) 风扇框在位时,用手放在设备出风口,判断是否有出风,如果出风口无风,则风扇异常。
(2) 检查风扇的入风口、出风口是否被挡住或积累太多灰尘。
(3) 检查风扇框是否正常在位,各个风扇的状态是否正常、转速是否相差达到50%以上。如存在异常,建议通过风扇框拔插、更换交叉进一步确认。
(4) 如果故障不能恢复,需要更换该风扇框,但当前没有风扇框,请关闭设备以免发生温度高导致单板烧坏;如果有降温措施保证系统工作在50度以下,可以暂时继续使用设备。
<H3C> display fan
Chassis 1:
Fan Frame 0 State: Normal
Chassis 2:
Fan Frame 0 State: Normal
设备打印温度过低、过高等告警信息,如:
%Jun 26 10:13:46:233 2013 H3C DEV/4/TEMPERATURE_WARNING: -MDC=1; Temperature is greater than warning upper limit on Chassis 1 slot 2 sensor inflow 1.
(1) 检查环境温度是否正常。如果环境温度较高,请确认原因,比如机房通风不畅、空调制冷故障等。
(2) 检查设备当前的temperature温度是否超出上下的Warning、Alarm门限。也可以用手触摸单板,确认单板是不是很烫,如单板温度很高,请立即检查原因。持续处于较高的温度下,可能会导致单板损坏。
· 如果温度过高,请参照2.2 风扇故障确认是否风扇故障导致。
· 如果温度值为error或出现明显不合实际的值,可能是通过I2C总线访问单板温度传感器异常(display environment命令)。设备光模块信息访问也是通过I2C总线(display transceiver命令),请继续检查单板读取光模块信息是否正常。如光模块访问正常,请使用temperature-limit命令重新设置单板的温度告警门限值,并通过display environment查看是否设置成功。
[H3C] temperature-limit chassis 2 slot 1 hotspot 1 0 85 90
<H3C> display environment
System temperature information (degree centigrade):
----------------------------------------------------------------------
Chassis Slot Sensor Temperature Lower Warning Alarm Shutdown
1 0 inflow 1 35 0 48 60 NA
1 0 hotspot 1 43 0 80 95 NA
1 1 inflow 1 34 0 48 60 NA
1 1 hotspot 1 38 0 80 95 NA
1 2 hotspot 1 49 0 88 100 110
1 2 hotspot 1 49 0 88 100 110
1 3 hotspot 1 43 0 80 97 NA
1 3 hotspot 2 41 0 80 97 NA
1 4 hotspot 1 42 0 80 97 NA
1 4 hotspot 2 40 0 80 97 NA
1 5 hotspot 1 45 0 80 97 NA
1 5 hotspot 2 41 0 80 97 NA
1 6 hotspot 1 53 0 88 100 110
1 6 hotspot 1 53 0 88 100 110
1 7 hotspot 1 55 0 88 100 110
1 7 hotspot 1 55 0 88 100 110
1 8 hotspot 1 67 0 88 100 110
1 8 hotspot 1 67 0 88 100 110
1 9 hotspot 1 61 0 88 100 110
1 9 hotspot 1 61 0 88 100 110
2 0 inflow 1 34 0 85 90 NA
2 0 hotspot 1 42 0 85 90 NA
2 1 inflow 1 36 0 85 90 NA
2 1 hotspot 1 41 0 85 90 NA
2 2 hotspot 1 56 0 88 100 110
2 2 hotspot 1 56 0 88 100 110
2 3 hotspot 1 47 0 80 97 NA
2 3 hotspot 2 44 0 80 97 NA
(3) 如果仍然无法确认故障原因,请搜集信息并发送给H3C技术支持人员协助分析。
表4 故障诊断命令
|
命令 |
说明 |
|
display device |
显示设备信息,检查各单板的状态是否正常 |
|
display environment |
显示设备的温度信息,检查环境温度是否正常(是否超出温度告警阈值) |
|
display fan |
显示设备内置风扇的工作状态 |
|
display power |
显示设备上的电源系统信息。详细信息包括下列信息: · 电源管理使能状态 · 电源类型、额定输入电压和额定输出功率 · 在位电源模块的状态 |
|
display version |
显示系统版本信息、单板的运行时间以及最后一次重启的原因 |
|
save |
将当前配置保存到指定文件 |
|
temperature-limit |
设置设备的温度告警门限 |
使用display interface命令查询端口的入、出方向流量统计信息,发现错包统计计数不为0。
[H3C] display interface GigabitEthernet 1/4/0/17
GigabitEthernet1/4/0/17
Current state: UP
Line protocol state: UP
Description: GigabitEthernet1/4/0/17 Interface
Bandwidth: 1000000kbps
Maximum Transmit Unit: 1500
Internet protocol processing: disabled
IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5611
IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5611
Media type is twisted pair
Port hardware type is 1000_BASE_T
Last clearing of counters: 16:45:01 Wed 12/11/2013
Peak value of input: 0 bytes/sec, at 2013-12-11 16:45:03
Peak value of output: 12328675 bytes/sec, at 2013-12-11 17:01:56
Last 300 seconds input: 0 packets/sec 0 bytes/sec
Last 300 seconds output: 85491 packets/sec 12069673 bytes/sec
Input (total): 2 packets, 128 bytes
2 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Input (normal): 2 packets, - bytes
2 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Input: 4 input errors, 1 runts, 1 giants, 0 throttles
1 CRC, 1 frame, - overruns, 0 aborts
- ignored, - parity errors
Output (total): 202277882 packets, 28751562624 bytes
202277844 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Output (normal): 202277844 packets, - bytes
202277844 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Output: 8 output errors, - underruns, - buffer failures
2 aborts, 2 deferred, 2 collisions, 2 late collisions
0 lost carrier, - no carrier
· input errors:各种输入错误的总数。
· runts:表示接收到的超小帧个数。超小帧即接收到的报文小于64字节,且包括有效的CRC字段,报文格式正确。
· giants:是超过端口设置的Maximum Frame Length的报文个数。
· CRC:表示接收到的CRC校验错误报文个数。
· frame:端口接收时出错的报文。
· output errors:各种输出错误的总数。
· aborts:表示发送失败的报文总数。
· deferred:表示延迟报文的总数。报文延迟是指因延迟过长的周期而导致发送失败的报文,而这些报文由于发送媒质繁忙而等待了超过2倍的最大报文发送时间。
· collisions:表示冲突帧总数,即在发送过程中发生冲突的报文。
· late collisions:表示延迟冲突帧,即发送过程中发生延迟冲突超过512bit时间的帧。
(1) 使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。
(2) 如端口使用光模块,参照3.4 光模块故障确认是否光模块故障导致。
(3) 与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现端口相关,应为单板端口故障,请更换端口并将故障信息发送H3C技术支持人员分析;如更换到其他正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。
(4) 排查对端设备或者中间的传输设备。
(5) 如故障无法确认,请将故障信息发送H3C技术支持人员分析。
(1) 检查两端的jumbo配置是否一致,如jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。
(2) 如果仍然无法确认,请将故障信息发送技术支持人员分析。
(1) 检查端口是否配置为半双工模式,如为半双工,请更改为全双工模式。
(2) 如果仍然无法确认,请将故障信息发送H3C技术支持人员分析。
端口无法正常Up。
(1) 测试端口之间网线、光纤链路是否正常,光纤两端的发送/接收端是否错连;更换端口之间的网线、光纤或将网线、光纤放到别的正常端口,以确认是否中间传输链路故障。
(2) 检查本端、对端端口配置是否正确,如端口是否shutdown,速率、双工、协商模式、MDI是否正确。
(3) 如端口使用光模块,请检查两端光模块类型是否一致,如速率、波长、单模多模状态等;与正常的光模块交叉更换,并参照3.4 光模块故障排除是否为光模块故障导致。
[H3C] display transceiver interface Ten-GigabitEthernet 1/5/0/1
Ten-GigabitEthernet1/5/0/1 transceiver information:
Transceiver Type : 10G_BASE_LR_XFP
Connector Type : LC
Wavelength(nm) : 1310
Transfer Distance(km) : 10(SMF)
Digital Diagnostic Monitoring : YES
Vendor Name : SumitomoElectric
如果确认光模块有问题,需要更换光模块。
(1) 查看本设备及对端设备日志,确认有无端口shutdown操作。
(2) 查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口shutdown。当设备在线诊断模块检测到端口故障时,将端口shutdown隔离,以便流量切换到备份链路。请将故障信息发送H3C技术支持人员分析。
[H3C] display interface GigabitEthernet 1/4/0/1
GigabitEthernet1/4/0/1
Current state: DOWN
Line protocol state: DOWN
Description: GigabitEthernet1/4/0/1 Interface
Bandwidth: 1000000kbps
Maximum Transmit Unit: 1500
Internet protocol processing: disabled
IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5601
IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5601
Media type is not sure,Port hardware type is No connector
Last clearing of counters: 16:45:01 Wed 12/11/2013
Peak value of input: 0 bytes/sec, at 2013-12-11 16:45:03
Peak value of output: 0 bytes/sec, at 2013-12-11 16:45:03
Last 300 seconds input: 0 packets/sec 0 bytes/sec
Last 300 seconds output: 0 packets/sec 0 bytes/sec
(3) 参照3.2 端口无法up,排查两端端口配置,网线、光模块、光纤等链路是否正常。
(4) 如仍无法确认,请搜集本端、对端设备信息,并将信息发送H3C技术支持人员分析。
端口频繁Up/Down。
(1) 对于光口,请参照3.4 光模块故障确认光模块是否异常。
(2) 对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。
(3) 如果故障依存在,请排查链路、对端设备、中间设备。
(4) 如仍无法确认,请将故障信息发送H3C技术支持人员分析。
安装光模块的接口不能正常up,出现告警信息。
(1) 检查光模块Alarm告警信息。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。
[H3C] display transceiver alarm interface Ten-GigabitEthernet 1/5/0/1
Ten-GigabitEthernet1/5/0/1 transceiver current alarm information:
None
表5 光模块告警信息说明
|
字段 |
描述 |
|
SFP/SFP+ |
|
|
RX loss of signal |
接收信号丢失 |
|
RX power high |
接收光功率高告警 |
|
RX power low |
接收光功率低告警 |
|
TX fault |
发送错误 |
|
TX bias high |
偏置电流高告警 |
|
TX bias low |
偏置电流低告警 |
|
TX power high |
发送光功率高告警 |
|
TX power low |
发送光功率低告警 |
|
Temp high |
温度高告警 |
|
Temp low |
温度低告警 |
|
Voltage high |
电压高告警 |
|
Voltage low |
电压低告警 |
|
Transceiver info I/O error |
模块信息读写错误 |
|
Transceiver info checksum error |
模块信息校验和错误 |
|
Transceiver type and port configuration mismatch |
模块类型和端口配置不匹配 |
|
Transceiver type not supported by port hardware |
端口不支持该模块类型 |
|
XFP |
|
|
RX loss of signal |
接收信号丢失 |
|
RX not ready |
接收状态未就绪 |
|
RX CDR loss of lock |
RX CDR时钟失锁 |
|
RX power high |
接收光功率高告警 |
|
RX power low |
接收光功率低告警 |
|
TX not ready |
发送状态未就绪 |
|
TX fault |
发送错误 |
|
TX CDR loss of lock |
TX CDR时钟失锁 |
|
TX bias high |
偏置电流高告警 |
|
TX bias low |
偏置电流低告警 |
|
TX power high |
发送光功率高告警 |
|
TX power low |
发送光功率低告警 |
|
Module not ready |
模块状态未就绪 |
|
APD supply fault |
APD(Avalanche Photo Diode,雪崩光电二极管)错误 |
|
TEC fault |
TEC(Thermoelectric Cooler,热电冷却器)错误 |
|
Wavelength unlocked |
光信号波长失锁 |
|
Temp high |
温度高告警 |
|
Temp low |
温度低告警 |
|
Voltage high |
电压高告警 |
|
Voltage low |
电压低告警 |
|
Transceiver info I/O error |
模块信息读写错误 |
|
Transceiver info checksum error |
模块信息校验错误 |
|
Transceiver type and port configuration mismatch |
模块类型和端口配置不匹配 |
|
Transceiver type not supported by port hardware |
端口不支持该模块类型 |
(2) 对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。
(3) 如果确认是光模块本身故障,请通过display transceiver diagnosis命令收集光模块当前的数字诊断信息(非H3C定制光模块可能无法查询到数字诊断信息),并发送给H3C技术支持人员分析。
[H3C] display transceiver diagnosis interface Ten-GigabitEthernet 1/5/0/2
Ten-GigabitEthernet1/5/0/2 transceiver diagnostic information:
Current diagnostic parameters:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
48 3.33 39.10 0.13 -1.35
Alarm thresholds:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
High 73 3.63 75.00 2.50 8.16
Low -5 2.97 1.00 -12.30 -11.20
(4) 建议尽量使用H3C定制光模块。可以使用display transceiver manuinfo interface命令来查看光模块制造厂家信息。
[H3C] display transceiver manuinfo interface
Ten-GigabitEthernet1/2/0/1 transceiver manufacture information:
The transceiver does not support this function.
Ten-GigabitEthernet1/2/0/2 transceiver manufacture information:
The transceiver does not support this function.
Ten-GigabitEthernet1/2/0/3 transceiver manufacture information:
The transceiver is absent.
Ten-GigabitEthernet1/2/0/4 transceiver manufacture information:
The transceiver is absent.
Ten-GigabitEthernet1/2/0/5 transceiver manufacture information:
Manu. Serial Number : 210231A0G1X122000082
Manufacturing Date : 2012-02-28
Vendor Name : H3C
Ten-GigabitEthernet1/2/0/6 transceiver manufacture information:
Manu. Serial Number : 210231A0G1X122000083
Manufacturing Date : 2012-02-28
Vendor Name : H3C
表6 故障诊断命令
|
命令 |
说明 |
|
display current-configuration |
显示设备当前生效的配置,指定interface可以显示指定接口当前生效的配置 |
|
display interface |
查询端口的入、出方向流量统计信息、端口状态,可查看是否存在错包及错包统计信息 |
|
display transceiver alarm |
显示可插拔接口模块的当前故障告警信息 |
|
display transceiver diagnosis |
显示可插拔光模块的数字诊断参数的当前测量值,包括温度、电压、偏置电流、接收光功率、发送光功率 |
|
display transceiver interface |
显示指定接口可插拔接口模块的主要特征参数,检查两端光模块类型是否一致,如速率、波长、单模多模状态等 |
|
display transceiver manuinfo |
显示可插拔接口模块的电子标签信息,可用来查询光模块的定制厂商 |
报文转发丢包,ping不通或ping丢包,tracert异常。
<H3C> ping 10.0.0.5
PING 10.0.0.5 (10.0.0.5): 56 data bytes, press CTRL_C to break
Request time out
Request time out
Request time out
Request time out
Request time out
--- 10.0.0.5 ping statistics ---
5 packet(s) transmitted, 0 packet(s) received, 100.0% packet loss
M9000设备,端口默认没有加入到任何安全域,要确认端口是否加入到安全域。
如果端口加入到安全域中,要确认是否配置了安全策略。系统默认情况下,相同安全域、不同安全域之间、安全域与local之间,转发默认是deny的。
报文转发异常通常会涉及多台设备,需要逐一排查。为方便排查,排查前建议先明确报文的转发走向,如经过哪些中间设备,在设备的哪些接口进入设备,又会从哪些接口出去。检查出入接口的报文统计。确认统计是否正确。
检查入方向报文统计计数,可以通过reset counter interface命令清除计数。
如果设备未收到Ping报文,请排查上游的相邻设备;如果设备发送的Ping报文计数正确,建议排查下游的相邻设备;如果Ping报文入出计数不正确, 分下面几种情况进行分析:
· 有入报文统计,没有出报文统计,进行如下排查:
(1) 查看是否在链路层处理有丢包,执行display ethernet statistics命令,如下:
<H3C> display ethernet statistics chassis 1 slot 3
ETH receive packet statistics:
Totalnum : 0 ETHIINum : 0
SNAPNum : 0 RAWNum : 0
LLCNum : 0 UnknownNum : 0
ForwardNum : 0 ARP : 0
MPLS : 0 ISIS : 0
ISIS2 : 0 IP : 0
IPV6 : 0
ETH receive error statistics:
NullPoint : 0 ErrIfindex : 0
ErrIfcb : 0 IfShut : 0
ErrAnalyse : 0 ErrSrcMAC : 0
ErrHdrLen : 0
ETH send packet statistics:
L3OutNum : 0 VLANOutNum : 0
FastOutNum : 0 L2OutNum : 0
ETH send error statistics:
MbufRelayNum : 0 NullMbuf : 0
ErrAdjFwd : 0 ErrPrepend : 0
ErrHdrLen : 0 ErrPad : 0
ErrQosTrs : 0 ErrVLANTrs : 0
ErrEncap : 0 ErrTagVLAN : 0
IfShut : 0 IfErr : 0
(2) 如果链路层处理没有丢包,执行display ip statistics命令,查看IP层丢包原因:
<H3C> display ip statistics
Input: sum 263207520 local 1772
bad protocol 0 bad format 0
bad checksum 0 bad options 0
Output: forwarding 24511617 local 476
dropped 21949 no route 156
compress fails 0
Fragment:input 0 output 0
dropped 0
fragmented 0 couldn't fragment 0
Reassembling:sum 0 timeouts 0
(3) 打开 debugging aspf all、debugging packet-filter packet ip,来确定ASPF是否有丢包。
· 无出、入报文统计
需要分析是否上游没有把报文发送过来。
处于不同网段的两台PC:PC1和PC2,PC1的地址为10.1.1.1,PC2的地址为220.1.1.2。中间穿越M9000设备互相ping包,M9000设备对PC1的地址静态NAT转换为220.1.1.1;发现PC1 ping PC2不通,查看PC2可以收到PC1的ping报文,但是PC1收不到PC2的回应报文。
确保PC1和PC2接入的端口加入了安全域,并且配置了安全策略。可以通过display interzone命令来查看是否配置了相关的域间策略:
<H3C>dis security-policy ip
Security-policy ip
rule 0 name 0
action pass
检查设备到某一目的IP网段的路由是否存在,如路由不存在,请检查路由协议配置、状态是否正确。
[H3C] display ip routing-table 10.1.1.0
检查设备到某一目的IP网段的FIB表项是否存在,如路由存在、FIB表项异常,请将故障信息发送H3C技术支持人员分析。
[H3C] display fib 10.1.1.0
查看10.1.1.1的arp表项是否存在:
[H3C] display arp 10.1.1.1
通过display session命令确认会话是否正常建立。
域间策略默认ASPF对所有的报文进行检测。但如果在域间策略中配置了aspf apply policy命令,那么只对策略中配置的detect协议进行ASPF检测,其他协议不进行检测。如果不配置detect icmp,那么如果没有配置反向域间策路,报文就被deny了。可以使用下面命令打开debug:
<H3C> debugging packet-filter packet ip acl ?
INTEGER<2000-2999> Specify a basic ACL
INTEGER<3000-3999> Specify an advanced ACL
来看是否有deny信息,如果有类似下面信息:
*Dec 12 16:49:07:188 2013 H3C FILTER/7/PACKET: -Slot=3.1; The packet is deny. SrcZoneName=tom1, DstZoneName=tom; Packet Info:Src-IP=220.1.1.2, Dst-IP=10.1.1.1, VPN-Instance=none,Src-Port=1024, Dst-Port=1025, Protocol=UDP(17), ACL=none.
说明没有正确配置ASPF策略,导致被反向域间策略deny了。
如果前面的检查均没有问题。需要查看流表是否有问题。
首先我们要看接口板的流表是否正常。对静态NAT,如下配置:
[H3C] nat static outbound 10.1.1.1 220.1.1.1
然后在接口上使能静态NAT,正常流表应显示如下:
(1) 首先查看接口板流表下刷是否正确
[H3C-probe] display system internal openflow instance inner-redirect flow-table
Instance 4097 Flow Table Information:
Table 200 information:
Table type: Extensibility, flow entry count: 25, total flow entry count: 25
Flow entry rule 6 information:
cookie: 0x0, priority: 7861, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG11
Ethernet type: 0x0800
IP Range: IPv4 destination address from 220.1.1.1 to 220.1.1.1
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 7 information:
cookie: 0x0, priority: 7840, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 source address from 10.10.1.1 to 10.10.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 8 information:
cookie: 0x0, priority: 7841, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 destination address from 10.10.1.1 to 10.10.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
上面3个表项,缺少一个都是会引起转发异常的。
(2) 如果接口板的流表没有异常,再查看业务板流表下刷是否正确,执行如下命令:
[H3C-probe]display system internal openflow instance inner flow-table
Instance 4096 Flow Table Information:
Table 200 information:
Table type: Extensibility, flow entry count: 27, total flow entry count: 27
Flow entry rule 6 information:
cookie: 0x0, priority: 7860, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 destination address from 220.1.1.1 to 220.1.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 7 information:
cookie: 0x0, priority: 7840, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 source address from 10.10.1.1 to 10.10.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 8 information:
cookie: 0x0, priority: 7841, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 destination address from 10.10.1.1 to 10.10.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
表7 故障诊断命令
|
命令 |
说明 |
|
display arp |
显示ARP表项,检查设备ARP学习的接口是否正确 |
|
display current-configuration | include lsr-id |
显示当前的MPLS LSR ID |
|
display current-configuration configuration mpls-ldp |
显示当前生效的MPLS LDP配置信息,检查LDP的md5-password配置是否一致 |
|
display fib |
显示FIB信息,检查设备到某一目的IP网段的FIB表项是否存在 |
|
display interface |
显示指定接口的相关信息 |
|
display ip interface brief |
显示三层接口的IP基本配置信息 |
|
display ip routing-table |
显示路由表中当前激活路由的摘要信息,检查设备到某一目的IP网段的路由是否存在 |
|
display session |
显示会话信息 |
|
display this |
显示当前视图下生效的配置 |
|
interface |
进入接口视图 |
|
display system internal openflow instance |
查看openflow表项 |
|
display nat outbound |
查看nat outbound配置信息 |
IRF无法正常建立。
通常为配置错误引起,请检查以下配置是否正确。
<H3C> display device
Chassis Slot Type State Subslot Soft Ver Patch Ver
1 0 NSQ1GT48EA0 Normal 0 M9014-9106 None
1 1 NONE Absent 0 NONE None
1 2 NONE Absent 0 NONE None
1 3 NSQ1TGS8EA0 Normal 0 M9014-9106 None
1 4 NSQ1FWCEA0 Normal 0 M9014-9106 None
1 5 NONE Absent 0 NONE None
1 6 NSQ1SUPB0 Master 0 M9014-9106 None
1 7 NONE Absent 0 NONE None
1 8 NONE Absent 0 NONE None
1 9 NONE Absent 0 NONE None
1 10 NONE Absent 0 NONE None
1 11 NONE Absent 0 NONE None
1 12 NSQ1QGS4SF0 Normal 0 M9014-9106 None
1 13 NSQ1GP48EB0 Normal 0 M9014-9106 None
1 14 NONE Absent 0 NONE None
1 15 NSQ1FAB12D0 Normal 0 M9014-9106 None
1 16 NONE Absent 0 NONE None
1 17 NONE Absent 0 NONE None
……
通过display interface查询IRF物理端口状态是否UP:
<H3C> display interface GigabitEthernet 1/0/0/10
GigabitEthernet1/0/0/10
Current state: UP
Line protocol state: UP
Description: GigabitEthernet1/0/0/10 Interface
Bandwidth: 1000000kbps
Maximum Transmit Unit: 1500
Internet protocol processing: disabled
IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0000-560a
IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0000-560a
Media type is twisted pair
Port hardware type is 1000_BASE_T
Last clearing of counters: Never
Peak value of input: 0 bytes/sec, at 2013-12-13 15:15:02
Peak value of output: 0 bytes/sec, at 2013-12-13 15:15:02
Last 300 seconds input: 0 packets/sec 0 bytes/sec
Last 300 seconds output: 0 packets/sec 0 bytes/sec
<H3C> display irf configuration
进入IRF端口视图,使用display this命令,确认IRF的两台设备的工作模式是否正常。
[H3C] irf-port 1/2
[H3C-irf-port1/2] display this
irf-port 1/2
port group interface Ten-GigabitEthernet1/3/0/1 mode enhanced
IRF运行过程中出现分裂。
%Jun 26 10:13:46:233 2013 H3C STM/2/STM_LINK_STATUS_TIMEOUT: IRF port 1 is down because heartbeat timed out.
%Jun 26 10:13:46:436 2013 H3C STM/3/STM_LINK_STATUS_DOWN: -MDC=1; IRF port 2 is down.
<H3C> display device
Chassis Slot Type State Subslot Soft Ver Patch Ver
2 0 NSQ1GT48EA0 Normal 0 M9014-9153P22 None
2 1 NONE Absent 0 NONE None
2 2 NONE Absent 0 NONE None
2 3 NSQ1TGS8EA0 Normal 0 M9014-9153P22 None
2 4 NSQ1FWCEA0 Normal 0 M9014-9153P22 None
2 5 NONE Absent 0 NONE None
2 6 NSQ1SUPB0 Master 0 M9014-9153P22 None
2 7 NSQ1SUPB0 Standby 0 M9014-9153P22 None
2 8 NONE Absent 0 NONE None
2 9 NONE Absent 0 NONE None
2 10 NSQ1FWCEA0 Normal 0 M9014-9153P22 None
2 11 NONE Absent 0 NONE None
2 12 NONE Absent 0 NONE None
2 13 LSU1GP24TXEB0 Normal 0 M9014-9153P22 None
2 14 NONE Absent 0 NONE None
2 15 NSQ1FAB12D0 Normal 0 M9014-9153P22 None
2 16 NSQ1FAB12D0 Normal 0 M9014-9153P22 None
2 17 NSQ1FAB12D0 Normal 0 M9014-9153P22 None
<H3C> display interface GigabitEthernet2/6/0/1
GigabitEthernet2/6/0/1 current state: UP
Line protocol current state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0000-e80d-c000
Description: GigabitEthernet2/6/0/1 Interface
Loopback is not set
Media type is optical fiber, Port hardware type is 1000_BASE_SX_SFP
……
<H3C>dis version
H3C Comware Software, Version 7.1.064, Release 9153P22
Copyright (c) 2004-2020 New H3C Technologies Co., Ltd. All rights reserved.
H3C SecPath M9016-V uptime is 0 weeks, 4 days, 0 hours, 16 minutes
Last reboot reason : User reboot
Boot image: flash:/M9000-CMW710-BOOT-R9153P22.bin
Boot image version: 7.1.064, Release 9153P22
Compiled Dec 10 2020 14:00:00
System image: flash:/M9000-CMW710-SYSTEM-R9153P22.bin
System image version: 7.1.064, Release 9153P22
Compiled Dec 10 2020 14:00:00
Feature image(s) list:
flash:/M9000-CMW710-DEVKIT-R9153P22.bin, version: 7.1.064
Compiled Dec 10 2020 14:00:00
LPU Chassis 1 Slot 0:
Uptime is 0 weeks,1 day,18 hours,32 minutes
H3C SecPath M9014 LPU with 1 XLS408 Processor
BOARD TYPE: NSQ1GT48EA0
DRAM: 1024M bytes
FLASH: 0M bytes
NVRAM: 0K bytes
PCB 1 Version: VER.B
Bootrom Version: 511
CPLD 1 Version: 003
Release Version: H3C SecPath M9014-9153P22
Patch Version : None
Reboot Cause : DEVHandShakeReboot
……
表8 故障诊断命令
|
命令 |
说明 |
|
display device |
显示设备信息,用于检查各成员设备的软件版本、主控板类型是否一致 |
|
display interface |
显示指定接口的相关信息,用于检查IRF物理端口状态是否UP |
|
display irf configuration |
显示所有成员设备的IRF配置信息,用于检查IRF端口连接是否异常,一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接 |
|
display current-configuration |
显示当前视图下生效的配置,在系统视图下检查成员设备的如下配置是否一致:irf mode enhanced配置 |
|
display version |
显示系统版本信息、单板的运行时间,通过设备运行时间确认IRF中各个成员设备是否重启过,主控板及IRF端口所在接口板是否发生重启 |
未加入冗余组的冗余口具有单独的冗余功能。冗余组只在接口UP/DOWN事件到来时进行激活切换。所有业务逻辑均基于冗余口实现,成员口只负责发送和接受报文。
问题集中在报文收发环节,存在冗余口直连无法ping通的情况。
(1) 打开debugging ethernet packet 查看冗余口是否有报文上收与发送的调试信息。对冗余口1,采用如下命令:debugging ethernet packet interface Reth 1
(2) 打开 arp error debug命令查看是否存在错误信息。采用如下debug命令:
debugging arp error
如果有错误信息,说明ARP学习异常。
(3) 打开 ip error 查看是否有错误信息。采用如下debug命令:
debugging ip error
如果有错误信息,根据此信息来确定丢包的原因。
(4) 查看 display ethernert statistics 查看是否有错误计数随报文收发增长,命令如下:
<H3C> display ethernet statistics chassis 1 slot 0
ETH receive packet statistics:
Totalnum : 48668 ETHIINum : 48668
SNAPNum : 0 RAWNum : 0
LLCNum : 0 UnknownNum : 0
ForwardNum : 48668 ARP : 0
MPLS : 0 ISIS : 0
ISIS2 : 0 IP : 0
IPV6 : 0
ETH receive error statistics:
NullPoint : 0 ErrIfindex : 0
ErrIfcb : 0 IfShut : 0
ErrAnalyse : 0 ErrSrcMAC : 0
ErrHdrLen : 0
ETH send packet statistics:
L3OutNum : 80843 VLANOutNum : 0
FastOutNum : 215 L2OutNum : 0
ETH send error statistics:
MbufRelayNum : 0 NullMbuf : 0
ErrAdjFwd : 0 ErrPrepend : 0
ErrHdrLen : 0 ErrPad : 0
ErrQosTrs : 0 ErrVLANTrs : 0
ErrEncap : 1045 ErrTagVLAN : 0
IfShut : 0 IfErr : 0
(1) 需要确认是否建立了冗余表项。查看命令如下:
[H3C] display eth-trunk interface RETH-Trunk 1
RETH-Trunk1 :
Physical status : UP
Link status : UP
Number of members : 2
Eth-trunk group : 100
Member Physical status Active status Hold status
RAGG1 UP Active Normal
RAGG5 UP Inactive Normal
<H3C>display reth interface Reth 1
Reth1 :
Redundancy group : 1
Member Physical status Forwarding status Presence status
XGE1/4/0/9 UP Active Normal
XGE2/4/0/9 UP Inactive Normal
要分析Physical status状态,如果都为down,说明系统异常。分析Forwarding status状态,如果都为Inactive状态,说明成员口异常。
(2) 如果表项存在且成员状态正常,即部分报文能够上收,查看表项是否有错误。
(3) 可以通过shutdown冗余口,尝试刷新表项,看表项是否能够重新建立。如果冗余口的成员口为子接口,还需要查看表项是否带tag。
(4) 如果冗余口、arp表项正常,需要确认驱动有没有上发报文,可查看物理接口计数,看报文是否已经上收。
(1) 报文的收发一般都是双向的过程,A-B两端报文需要互通,可以先确定是报文丢在哪一环,再针对某一环节进行定位。如A-B两端,可单pingA->B查看报文是否能通,再单pingB->A查看报文是否能通。若两端都能通,则证明报文收发没问题。 某一端不能通, 以B->A为例,先看B是否将报文发出,定位方式按照以上步骤来,再看A是否上收,定位方式也是如此。
(2) 查看表项,控制块等常用信息的时候,记得要查看对应blade板的值,报文从哪里上收,从哪里转发,会不会上到主控板,都是需要关注的。有些直接在接口板进行转发的报文,查看主控板的信息,这样查到的信息是不准确的。
图3 组网图
(1) M9000-1和M9000-2这2台防火墙构成主备方式的IRF设备,冗余口Reth 1为上行口,聚合口Route-Aggregation1和Route-Aggregation2为冗余口Reth1的成员,成员Route-Aggregation1的优先级高。
(2) 冗余口Reth 2为下行口,聚合口Route-Aggregation3和Route-Aggregation4为冗余口Reth 2的成员,成员Route-Aggregation3的优先级高。
(3) 冗余口Reth 1和Reth 2配有IP地址。冗余组1包含冗余口1和冗余口2。
interface Reth 1
ip address 100.1.1.1 255.255.255.0
member interface Route-Aggregation1 priority 100
member interface Route-Aggregation2 priority 1
interface Reth 2
ip address 100.1.1.1 255.255.255.0
member interface Route-Aggregation3 priority 100
member interface Route-Aggregation4 priority 1
track 11 interface Route-Aggregation1
track 12 interface Route-Aggregation2
track 13 interface Route-Aggregation3
track 14 interface Route-Aggregation4
redundancy group 1
member interface Reth1
member interface Reth2
member failover group 1
member failover group 2
node 1
bind chassis 1
priority 100
track 1 interface Blade1/2/0/1
track 3 interface Blade1/3/0/1
track 11 interface Route-Aggregation1
track 13 interface Route-Aggregation3
node 2
bind chassis 2
priority 50
track 2 interface Blade2/2/0/1
track 4 interface Blade2/3/0/1
track 12 interface Route-Aggregation2
track 14 interface Route-Aggregation4
通过冗余组进行IRF主备切换时,不能成功进行切换,出现异常。
Track 由于是冗余组进行决策的唯一数据来源,所以track 的配置对于冗余组来说非常重要。Track的配置还有配错的风险,配错后会导致group 决策出现错误。
(1) 如遇group频繁进行激活成员切换的情况,有规律的定时的切换,就需要注意观察下是否频繁有track事件上报。对应查看下track 接口的主备关系,于当前track 所在node的主备关系是否一致。
(2) 如果没有问题,还需要查看下track事件与接口状态是否相符。
(3) 如果IRF由主切到备,需要确认track事件相关的端口是否真正处于Positive的状态,如果仍有端口处于Negative状态,说明存在异常。
(4) 如果仍无问题,则查看下track状态与group中的Track状态是否一致。
查看track状态:
<H3C>dis track 5
Track ID: 5
State: Positive
Duration: 0 days 0 hours 0 minutes 6 seconds
Tracked object type: Interface
Notification delay: Positive 0, Negative 0 (in seconds)
Tracked object:
Interface: Route-Aggregation1
Protocol: None
查看冗余组中的track状态:
<H3C>display redundancy group 1
Redundancy group 1 (ID 1):
Node ID Chassis Priority Status Track weight
1 Chassis1 100 Primary 255
2 Chassis2 50 Secondary 255
Preempt delay time remained : 0 min
Preempt delay timer setting : 1 min
Remaining hold-down time : 0 sec
Hold-down timer setting : 1 sec
Manual switchover request : No
Member interfaces:
Reth1
Reth2
Member failover groups:
1
2
Node 1:
Track info:
Track Status Reduced weight Interface
1 Positive 255 Blade1/2/0/1
3 Positive 255 Blade1/3/0/1
11 Positive 255 RAGG1
13 Positive 255 RAGG3
Node 2:
Track info:
Track Status Reduced weight Interface
2 Positive 255 Blade2/2/0/1
4 Positive 255 Blade2/3/0/1
12 Positive 255 RAGG2
14 Positive 255 RAGG4
如果不一致,说明track存在问题。
· 每个冗余组节点都有权重,缺省值为255,每个冗余组节点必须关联至少一个Track项,每个Track项对应一个权重增量。当Track项变为NotReady或Negative状态时,冗余组节点用当前权重减去对应的权重增量获得新的当前权重。当Track项变为Positive时,冗余组节点用当前权重加上对应的权重增量获得新的当前权重。当前权重小于或等于0时,则认为该节点故障,无法正常工作,触发冗余组的倒换/倒回。
举例说明如下:
<H3C>display redundancy group 1
Redundancy group 1 (ID 1):
Node ID Chassis Priority Status Track weight
1 Chassis1 100 Secondary 0
2 Chassis2 50 Primary 255
Preempt delay time remained : 0 min
Preempt delay timer setting : 1 min
Remaining hold-down time : 0 sec
Hold-down timer setting : 1 sec
Manual switchover request : No
Member interfaces:
Reth1
Member failover groups:
1
2
Node 1:
Track info:
Track Status Reduced weight Interface
1 Positive 255 Blade1/2/0/1
3 Positive 255 Blade1/3/0/1
11 Negative(Faulty) 255 RAGG11
13 Positive 255 RAGG3
Node 2:
Track info:
Track Status Reduced weight Interface
2 Positive 255 Blade2/2/0/1
4 Positive 255 Blade2/3/0/1
12 Positive 255 RAGG2
14 Positive 255 RAGG4
表9 故障诊断命令
|
命令 |
说明 |
|
display redundancy group |
显示冗余组状态 |
|
display track |
显示track状态 |
|
display reth interface Reth |
显示冗余口状态信息 |
|
display interface |
显示接口信息 |
图4 组网图
PC1访问PC2,在M9000上对PC1的地址进行NAT转换,转换地址池为:4.4.4.25到4.4.4.30。M9000上有2块防火墙业务板。
nat address-group 0
address 4.4.4.25 4.4.4.30
interface Route-Aggregation1023
ip binding vpn-instance vpn11
ip address 192.168.1.254 24
interface Route-Aggregation1021
ip address 4.4.4.254 255.255.255.0
nat outbound address-group 0
NAT不能正常转换或者NAT转换的报文不能正常转发。
[H3C] display nat outbound
NAT outbound information:
There are 1 NAT outbound rules.
Interface: Route-Aggregation1021
ACL: --- Address group: 257 Port-preserved: N
NO-PAT: N Reversible: N
*Dec 13 09:58:48:082 2013 H3C NAT/7/COMMON: -Chassis=2-Slot=10.1;
PACKET: (Route-Aggregation1021-out) Protocol: TCP
192.168.1.2:13249 - 4.4.4.6: 21(VPN: 16) ------>
4.4.5.11:11000 - 4.4.4.6: 21(VPN: 0)
*Dec 13 09:58:48:083 2013 H3C NAT/7/COMMON: -Chassis=2-Slot=10.1;
PACKET: (Route-Aggregation1021-in) Protocol: TCP
4.4.4.6: 21 - 4.4.5.11:11000(VPN: 0) ------>
4.4.4.6: 21 - 192.168.1.2:13249(VPN: 16)
注: ### 可以看到正向的流量做了NAT转换,从vpn11的域转成了没有vpn的域。
<H3C> display session table ipv4 verbose
Slot 0 in chassis 1:
Total sessions found: 0
Slot 3 in chassis 1:
Total sessions found: 0
CPU 0 on slot 4 in chassis 1:
Total sessions found: 0
Slot 6 in chassis 1:
Initiator:
Source IP/port: 192.168.1.2/13790
Destination IP/port: 4.4.4.6/21
DS-Lite tunnel peer: -
VPN instance/VLAN ID/VLL ID: vpn11/-/-
Protocol: TCP(6)
Responder:
Source IP/port: 4.4.4.6/21
Destination IP/port: 4.4.4.27/1060
DS-Lite tunnel peer: -
VPN instance/VLAN ID/VLL ID: vpn12/-/-
Protocol: TCP(6)
State: TCP_ESTABLISHED
Application: FTP
Start time: 2013-12-15 10:49:00 TTL: 3592s
Interface(in) : Route-Aggregation1023
Interface(out): Route-Aggregation1021
Zone(in) : Trust
Zone(out): menglei
Initiator->Responder: 3 packets 128 bytes
Responder->Initiator: 2 packets 130 bytes
对于动态NAT,NAT表项会下刷到每一块业务板上,起到分流作用。
[H3C-probe] display system internal openflow instance inner flow-table
Flow entry rule 6 information:
cookie: 0x0, priority: 7301, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG1021
Ethernet type: 0x0800
IP Range: IPv4 destination address from 4.4.4.25 to 4.4.4.27
Instruction information:
Write actions:
Output interface: Blade2/4/0/1
Flow entry rule 7 information:
cookie: 0x0, priority: 7301, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG1021
Ethernet type: 0x0800
IP Range: IPv4 destination address from 4.4.4.28 to 4.4.4.30
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
图5 组网图
PC1访问PC2,在M9000上对PC 1的地址进行静态NAT444转换,转换公网地址池为:4.4.5.11到4.4.5.13。M9000上有2块防火墙业务板。
# 配置NAT444地址池。
nat port-block-group 256
local-ip-address 192.168.1.2 192.168.1.11 vpn-instance vpn11
global-ip-pool 4.4.5.11 4.4.5.12
block-size 1000
port-range 10000 19000
# 配置入接口。
interface Route-Aggregation1023
ip binding vpn-instance vpn11
ip address 192.168.1.254 24
# 配置出接口。
interface Route-Aggregation1021
ip address 4.4.4.254 255.255.255.0
nat outbound port-block-group 256
# 配置vpn-instance到公网之间路由。
略。
NAT444不能正常转换、NAT444转换的报文不能正常转发、反向报文无法正常转发。
<H3C> display nat port-block-group 256
Port block group 256:
Port range: 10000-19000
Block size: 1000
Local IP address information:
Start address End address VPN instance
192.168.1.2 192.168.1.11 vpn11
Global IP pool information:
Start address End address
4.4.5.11 4.4.5.12
这里,每一个私网需要的端口块的端口个数为:1000。
私网地址段192.168.1.2-192.168.1.11共有10个私网地址:共需要1个地址块。
端口范围设置为:10000-19999,因此每一个公网地址可以提供9个地址块。
因此,从上面的配置分析,10个私网地址需要2个公网地址,这里的设置满足需求。
[H3C-probe] display system internal openflow instance inner flow-table
Flow entry rule 24 information:
cookie: 0x0, priority: 7521, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG1021
Ethernet type: 0x0800
IP Range: IPv4 destination address from 4.4.5.11 to 4.4.5.12
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 25 information:
cookie: 0x0, priority: 7500, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 source address from 192.168.1.2 to 192.168.1.11
VRF index: 16
[H3C] display ip vpn-instance instance-name
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 26 information:
cookie: 0x0, priority: 7501, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 destination address from 192.168.1.2 to 192.168.1.11
VRF index: 16
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
分析:我们可以看到下发了三条openflow,对于静态nat444来说,所有的openflow都是下发到主板卡上去的。
可以通过 display blade-controller-team default 这条命令可以用来查看哪块是主板卡,如下:
<M9KS-2>display blade-controller-team Default
ID: 1 Name: Default
Chassis Slot CPU Status LBGroupID
2 3 1 Normal 1
* 2 4 1 Normal 1
* : Primary blade controller of the team.
下面分析一下三条openflow:
(1) IP Range:IPv4 destination address from 4.4.5.11 to 4.4.5.11
这一条指明了从pc2 回到pc1的流量(经过nat转换之后的地址)该上送到哪块板卡上。
(2) IP Range:IPv4 source address from 192.168.1.2 to 192.168.1.2
这一条指明了从PC1到PC2的流量该上送到哪块板卡上。
(3) IP Range:IPv4 destination address from 192.168.1.2 to 192.168.1.2
大家对这条openflow可能会不理解,觉得这条openflow为什么要下发呢?其实此时如果要是有一个PC3(和pc1同网侧)想要访问PC1,那么PC3访问PC1的流量该上送到哪块板卡呢?由于第二条openflow的存在,PC1的流量肯定上送到主板卡,如果PC3访问PC1的流量没有上送到主板卡,而上送到别的板卡上去了,那么PC1此时就没法访问PC3了。
M9000作为出口网关设备割接之后,内网部分用户无法上网,外网用户无法访问内网服务器,但是从外网ping出接口的地址可以ping通。
如果NAT地址池的地址和接口地址不在同一网段,NAT地址池的地址无法响应。如果不在同一网段,要确保对端设置了NAT地址池的路由。
设备割接时,对端设备需要更新ARP。当两端不是直连,对端设备不能感知到链路Down过,所以不能删除相关ARP表项。当设备上线后,本端接口会发送接口地址的免费ARP,对端设备收到该免费ARP后可以正常更新该ARP表项;但可能存在地址池中的地址ARP没有刷新。
表10 故障诊断命令
|
命令 |
说明 |
|
display nat outbound |
显示nat outbound设置信息 |
|
display nat server |
显示nat server设置信息及状态 |
|
display blade-controller-team Default |
显示设备上那块业务板为主业务板 |
|
display openflow instance |
显示openflow下刷的表项 |
|
display session |
显示会话信息 |
|
save |
将当前配置保存到指定文件 |
图6 组网图
M9000-1和M9000-2 两台防火墙设备之间建立IPsec隧道,对PC1和PC2之间访问的流量进行IPsec保护
配置描述:
· M9000-1上,ike的local-address为:9.9.9.9,remote-address为:9.9.9.19,安全acl规则为:
rule 0 permit ip source 151.1.0.0 0.0.255.255 destination 152.2.0.0 0.0.255.255
· M9000-2上,ike的local-address为:9.9.9.19, remote-address为:9.9.9.9,安全acl规则为:
rule 0 permit ip source 152.2.0.0 0.0.255.255 destination 151.1.0.0 0.0.255.255
ike sa和ipsec sa都可以建立,但是PC1 和PC2互相ping,均不能ping通。
查看ike sa:
[h3c]dis ike sa
Connection-ID Remote Flag DOI
------------------------------------------------------------------
1 9.9.9.9 RD IPsec
Flags:
RD--READY RL--REPLACED FD-FADING RK-REKEY
查看ipsec sa:
[h3c]dis ipsec sa
-------------------------------
Interface: Ten-GigabitEthernet8/2/20
-------------------------------
-----------------------------
IPsec policy: ipsec
Sequence number: 1
Mode: ISAKMP
Flow table status: Active
-----------------------------
Tunnel id: 0
Encapsulation mode: tunnel
Perfect Forward Secrecy:
Inside VPN:
Extended Sequence Numbers enable: N
Traffic Flow Confidentiality enable: N
Path MTU: 1428
Tunnel:
local address: 9.9.9.19
remote address: 9.9.9.9
Flow:
sour addr: 152.2.0.0/255.255.0.0 port: 0 protocol: ip
dest addr: 151.1.0.0/255.255.0.0 port: 0 protocol: ip
[Inbound ESP SAs]
SPI: 42602698 (0x028a10ca)
Connection ID: 4294967296
Transform set: ESP-ENCRYPT-AES-CBC-128 ESP-AUTH-SHA1
SA idle time: 86400
SA duration (kilobytes/sec): 1843200/3600
SA remaining duration (kilobytes/sec): 1843199/3154
Max received sequence-number: 4
Anti-replay check enable: Y
Anti-replay window size: 64
UDP encapsulation used for NAT traversal: N
Status: Active
[Outbound ESP SAs]
SPI: 3182510800 (0xbdb142d0)
Connection ID: 4294967297
Transform set: ESP-ENCRYPT-AES-CBC-128 ESP-AUTH-SHA1
SA idle time: 86400
SA duration (kilobytes/sec): 1843200/3600
SA remaining duration (kilobytes/sec): 1843199/3154
Max sent sequence-number: 4
UDP encapsulation used for NAT traversal: N
Status: Active
[h3c-probe]display system internal openflow instance inner-redirect flow-tab
le
Instance 4097 flow table information:
Flow entry 41 information:
cookie: 0x0, priority: 8102, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP protocol: 50
IPv4 source address: 9.9.9.19, mask: 255.255.255.255
IPv4 destination address: 9.9.9.9, mask: 255.255.255.255
VRF index: 0
Instruction information:
Write actions:
Group: 4026531873
Flow entry 42 information:
cookie: 0x0, priority: 8300, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
IPv4 source address: 151.1.0.0, mask: 255.255.0.0
IPv4 destination address: 152.2.0.0, mask: 255.255.0.0
Instruction information:
Write actions:
Group: 4026531873
IPsec openflow是在一阶段、二阶段后协商成功后才会下发,会下发两条规则,所下的规则如下:
(1) 对于解密方向,只能看到隧道头中的地址,所以要用隧道的源地址和目的地址来下引流规则:
接口索引 + 隧道源地址 + 隧道目的地址。
(2) 对于加密方向,由于是明文,可以知道流的源地址和目的地址,所以用ACL流信息来下引流规则。
如果IPSec SA正常建立,但是IPSec openflow没有正常下发,就会出现ping不通的现象。
[h3c-probe]display system internal openflow instance inner flow-table
Instance 4096 flow table information:
Flow entry 21 information:
cookie: 0x0, priority: 8102, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP protocol: 50
IPv4 source address: 9.9.9.19, mask: 255.255.255.255
IPv4 destination address: 9.9.9.9, mask: 255.255.255.255
VRF index: 0
Instruction information:
Write actions:
Group: 4026531873
Flow entry 22 information:
cookie: 0x0, priority: 8300, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IPv4 source address: 151.1.0.0, mask: 255.255.0.0
IPv4 destination address: 152.2.0.0, mask: 255.255.0.0
Instruction information:
Write actions:
Group: 4026531873
图7 组网图
M9000设备M9000-1和M9000-2组成主备堆叠设备,M9000-1为Master。防火墙FW和堆叠设备建立IPsec隧道,保护PC1和PC2之间的交互流量。
IPsec加密流量主要走IRF主设备M9000-1,但当M9000-1出故障down掉后,发现PC1和PC2不能再ping通。
(1) 在IRF设备M9000-2上,首先查看ike sa和IPsec SA是否正常建立。如果sa没有成功建立,需要在M9000-2设备上查看IPsec相关的openflow表项,通过如下命令:
display system internal openflow instance inner-redirect flow-tab
le
display system internal openflow instance inner flow-table
如果出现如下信息:
[h3c-probe]display system internal openflow instance inner-redirect flow-tab
le
Instance 4097 flow table information:
Flow entry 41 information:
cookie: 0x0, priority: 8102, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP protocol: 50
IPv4 source address: 9.9.9.19, mask: 255.255.255.255
IPv4 destination address: 9.9.9.9, mask: 255.255.255.255
VRF index: 0
Instruction information:
Write actions:
Group: 4026531873
Flow entry 42 information:
cookie: 0x0, priority: 8300, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
IPv4 source address: 151.1.0.0, mask: 255.255.0.0
IPv4 destination address: 152.2.0.0, mask: 255.255.0.0
Instruction information:
Write actions:
可以看出,IPsec SA虽然没有建立起来,但是,IPsec openflow表项仍存在。说明存在openflow表项存在异常。信息中,Group: 4026531873 表明SA的出端口仍为已经down掉的M9000-1上的端口,说明openflow表项没有随着主设备的down掉而删除,导致无法建立正常的SA。
(2) 对主备切换,如果处理IPsec业务的业务板或者堆叠主机down掉,IPsec SA会重新建立。需要确认当前存在的IPsec SA是否是重新建立的。
(3) 如果SA已经成功建立,并且openflow表项正确下了。可以尝试reset ipsec sa、reset ike sa命令,尝试重新建立IPsec SA。
(4) 打开debugging ipsec、debugging ike相关debug命令,进行调试定位。
(5) 如果上述手段均无法定位,请联系相关技术支持人员进行分析。
表11 故障诊断命令
|
命令 |
说明 |
|
display ike sa |
显示ike sa的信息 |
|
display ipsec sa |
显示ipsec sa的信息 |
|
display system internal openflow instance |
显示openflow表项信息 |
|
reset ike sa |
清除ike sa |
|
reset ipsec sa |
清除ipsec sa |
|
save |
将当前配置保存到指定文件 |
客户端可以ping通ssl vpn网关,但是无法打开ssl vpn页面。
(1) 首先查看SSL策略视图下是否未引用PKI域,通过以下命令查看,ssl策略下需要引用PKI域
[H3C] ssl server-policy XXX
[H3C-ssl-server-policy-XXX] dis this
ssl server-policy XXX
pki-domain ssl
return
如果pki-domain ssl命令不存在,需要添加。
(2) 查看是否在该PKI域下导入了CA证书,LOCAL证书。并且保证LOCAL证书是CA服务器颁发给服务器的证书,而不是客户端证书,通过以下命令查看
display pki certificate domain XXXX ca
display pki certificate domain XXXX local
(3) 可能是在SSL gateway 的service enable之后,再进行了导入证书的操作,只要导入了证书或者SSL 策略进行了配置变化,就必须在ssl gateway XXX里面进行undo service enable,然后再service enable一下便可,证书和配置才能生效
表12 故障诊断命令
|
命令 |
说明 |
|
ssl server-policy policy-name |
创建SSL服务器端策略,并进入SSL服务器端策略视图 |
|
pki-domain domain-name |
配置SSL服务器端策略所使用的PKI域 |
|
display pki certificate domain domain-name { ca | local } |
显示证书内容 |
|
sslvpn gateway gateway-name |
创建SSL VPN网关,并进入SSL VPN网关视图 |
|
service enable |
开启当前的SSL VPN网关 |
图8 组网图
三台物理服务器Server A、Server B和Server C均可提供FTP服务,且这三台服务器的硬件配置顺次降低。通过配置负载均衡,在考虑硬件性能的前提下让这三台服务器联合提供FTP服务,并通过健康检测来监控这些服务器是否可达。
(1) 配置实服务组
# 创建ICMP类型的NQA模板t1。
#
nqa template icmp t1
#
# 创建实服务组sf,配置其调度算法为加权轮转算法,并指定其健康检测方法为t1。
#
server-farm sf
probe t1
#
(2) 配置实服务器
# 创建实服务器rs1,配置其IPv4地址为192.168.1.1、权值为150,并加入实服务组sf。
#
real-server rs1
ip address 192.168.1.1
weight 150
server-farm sf
#
# 创建实服务器rs2,配置其IPv4地址为192.168.1.2、权值为120,并加入实服务组sf。
#
real-server rs2
ip address 192.168.1.2
weight 120
server-farm sf
#
# 创建实服务器rs3,配置其IPv4地址为192.168.1.3、权值为80,并加入实服务组sf。
#
real-server rs3
ip address 192.168.1.3
weight 80
server-farm sf
#
(3) 配置虚服务器
# 创建TCP类型的虚服务器vs,配置其VSIP为61.159.4.100,指定其默认实服务组为sf,并开启此虚服务。
#
virtual-server vs type tcp
virtual ip address 61.159.4.100
default server-farm sf
service enable
#
虚服务vs和实服务rs1、rs2、rs3都处于active状态,但是host访问虚服务地址不能成功。
如果虚服务没有统计,则客户端到LB设备不可达,确保客户端和LB设备可达后再查看是否正常;如果虚服务有统计且有丢包统计,开启LB的debug或者在客户端抓包分析。
查看虚服务vs统计:
[LB] display virtual-server statistics name vs
Slot 1:
Virtual server: vs
Total connections: 10
Active connections: 3
Max connections: 3
Connections per second: 0
Max connections per second: 1
Client input: 3210 bytes
Client output: 14074 bytes
Throughput: 0 bytes/s
Max throughput: 7554 bytes/s
Received packets: 1365
Sent packets: 2796
Dropped packets: 0
如果实服务器有丢包统计,开启LB的debug或者在响应服务器端抓包分析,以确定相应实服务器和LB设备之间的链路是否可达,相应实服务器的服务或者服务端口是否开启。
查看实服务统计:
[LB] display real-server statistics name rs1
Slot 1:
Real server: rs1
Total connections: 5
Active connections: 1
Max connections: 1
Connections per second: 0
Max connections per second: 1
Server input: 307462 bytes
Server output: 27460 bytes
Throughput: 0 bytes/s
Max throughput: 316457 bytes/s
Received packets: 319
Sent packets: 236
Dropped packets: 0
Received requests: 0
Dropped requests: 0
Sent responses: 0
Dropped responses: 0
[LB]display real-server statistics name rs2
Slot 1:
Real server: rs2
Total connections: 2
Active connections: 1
Max connections: 1
Connections per second: 0
Max connections per second: 1
Server input: 870147 bytes
Server output: 45163 bytes
Throughput: 0 bytes/s
Max throughput: 580348 bytes/s
Received packets: 748
Sent packets: 511
Dropped packets: 0
Received requests: 0
Dropped requests: 0
Sent responses: 0
Dropped responses: 0
[LB]display real-server statistics name rs3
Slot 1:
Real server: rs3
Total connections: 2
Active connections: 1
Max connections: 1
Connections per second: 0
Max connections per second: 1
Server input: 870147 bytes
Server output: 45163 bytes
Throughput: 0 bytes/s
Max throughput: 580348 bytes/s
Received packets: 178
Sent packets: 311
Dropped packets: 0
Received requests: 0
Dropped requests: 0
Sent responses: 0
Dropped responses: 0
CPU高,内存高,哪些负载均衡的功能会造成哪些影响。
|
命令 |
说明 |
|
display virtual-server statistics |
显示虚服务器的统计信息 |
|
display real-server statistics |
显示实服务器的统计信息 |
|
debugging lb all |
开启LB的所有调试信息 |
|
debugging lb error |
开启LB的错误调试信息 |
|
debugging lb event |
开启LB的事件调试信息 |
|
debugging lb fsm |
开启LB的状态机调试信息 |
|
debugging lb packet |
开启LB的报文调试信息 |
发现负载均衡分担不均匀时,如何排查并进行优化。
(1) 可以查看各个实服务的统计信息是否均匀。如果想让各个服务器均匀的分担一般用轮转的调度算法,将客户端请求均匀分担到多个实服务。
(2) LB插卡是多核CPU系统,每个核单独按照自己的表项进行轮转,所以全局来看,有可能出现每个实服务分到的连接数不均衡的问题。请考虑修改调度算法为最小连接或者随机等观察一下。
(3) 源地址HASH算法流量不均匀,请确认源地址个数是否足够。
(4) 通过配置负载均衡策略,进行更精细的分类,将请求进行分类送给哪些服务器,尽量满足用户实际需求: 对于特殊业务,服务器的状态,需要依据实际环境进行调整。
|
配置 |
命令 |
|
显示实服务器的统计信息 |
display real-server statistics [ name real-server-name ] |
|
显示虚服务器的统计信息 |
display virtual-server statistics [ name virtual-server-name ] |
|
清除实服务器的统计信息 |
reset real-server statistics [ real-server-name ] |
|
清除虚服务器的统计信息 |
reset virtual-server statistics [ virtual-server-name ] |
图9 组网图
局域网内PC通过防火墙访问Internet,防火墙上开启IPS业务,保护内外网用户免遭受攻击。
域间策略中开启ips检测。
#
app-profile 3_5_54752_IPv4
ips apply policy default mode protect
#
object-policy ip Trust-Untrust
rule 54752 inspect 3_5_54752_IPv4
#
zone-pair security source Trust destination Untrust
object-policy apply ip Trust-Untrust
#
内网用户发起的正常业务流量访问不成功,设备上报ips攻击日志。
(1) 首先查看设备上报的IPS攻击日志,源目的IP端口是否为客户端、服务器的IP端口,如果是则记录IPS日志中对应的Attack ID。
(2) 创建IPS策略,将报攻击的IPS特征关闭或者将动作设置为permit加log,并在域间策略中引用。
(3) 抓取客户端访问业务的报文并反馈给研发进行分析,确认是否为误报,如果为误报则修改对应特征,如果非误报则对用户进行解释并在配置中对该条特征进行放行。
|
命令 |
说明 |
|
ips policy policy-name |
缺省情况下,存在一个缺省IPS策略,名称为default,且不能被修改和删除 |
|
signature override { pre-defined | user-defined } signature-id { { disable | enable } [ { block-source | drop | permit | redirect | reset } | capture | logging ] * } |
缺省情况下,预定义IPS特征使用系统预定义的状态和动作,自定义IPS特征的动作和状态在管理员导入的特征库文件中定义。 缺省IPS策略中的IPS特征的动作属性和生效状态属性不能被修改 |
设备CPU占用率持续在60%以上,下发命令时设备反应很慢。
<H3C> display cpu-usage
Chassis 1 Slot 0 CPU 0 CPU usage:
1% in last 5 seconds
2% in last 1 minute
2% in last 5 minutes
Chassis 1 Slot 4 CPU 0 CPU usage:
1% in last 5 seconds
4% in last 1 minute
4% in last 5 minutes
Chassis 1 Slot 7 CPU 0 CPU usage:
84% in last 5 seconds
27% in last 1 minute
27% in last 5 minutes
Chassis 1 Slot 8 CPU 0 CPU usage:
3% in last 5 seconds
6% in last 1 minute
6% in last 5 minutes
Chassis 1 Slot 9 CPU 0 CPU usage:
3% in last 5 seconds
6% in last 1 minute
6% in last 5 minutes
Chassis 2 Slot 0 CPU 0 CPU usage:
0% in last 5 seconds
2% in last 1 minute
2% in last 5 minutes
Chassis 2 Slot 4 CPU 0 CPU usage:
0% in last 5 seconds
4% in last 1 minute
4% in last 5 minutes
Chassis 2 Slot 6 CPU 0 CPU usage:
3% in last 5 seconds
6% in last 1 minute
6% in last 5 minutes
Chassis 2 Slot 7 CPU 0 CPU usage:
3% in last 5 seconds
6% in last 1 minute
6% in last 5 minutes
Chassis 2 Slot 8 CPU 0 CPU usage:
15% in last 5 seconds
6% in last 1 minute
6% in last 5 minutes
Chassis 2 Slot 9 CPU 0 CPU usage:
3% in last 5 seconds
6% in last 1 minute
6% in last 5 minutes
这里,是在IRF环境下,查询的CPU利用率信息。Chassis 1和Chassis 2别表示堆叠的框1和框2。该命令显示的是每个框上每个槽位的CPU利用率。
通过display cpu-usage history可以查看单板最近60分钟的CPU占用情况。如横坐标时间为20,则表示20分钟前的CPU使用率。
<H3C> display cpu-usage history
100%|
95%|
90%|
85%|
80%|
75%|
70%|
65%|
60%|
55%|
50%|
45%|
40%|
35%|
30%|
25%|
20%|
15%|
10%|
5%| #
------------------------------------------------------------
10 20 30 40 50 60 (minutes)
cpu-usage (CPU 0) last 60 minutes (SYSTEM)
CPU占用率高的原因通常有:
· 路由振荡。
· 配置过多的路由策略。
· 报文攻击。
· 链路环路。
· 报文没有走快转。
· 接口没有加入安全域或者没有安全策略,大量报文在设备上丢弃。
· 是否打开了debugging命令。
通过display route-policy命令可以查看设备配置的路由策略,请检查配置的路由策略是否过多,导致CPU处理的负担增加。
<H3C> display route-policy
Route-policy: policy1
permit : 1
if-match cost 10
continue: next node 11
apply comm-list a delete
链路成环时,网络振荡,大量的协议报文上送CPU处理也可能导致CPU占用率升高。存在环路时流量成环,可能会出现广播,设备很多端口的流量会变得很大,端口使用率达到90%以上:
<H3C>display interface Ten-GigabitEthernet6/0/11
Ten-GigabitEthernet6/0/11
Current state: UP
Line protocol state: UP
Description: Ten-GigabitEthernet6/0/11 Interface
Bandwidth: 10000000 kbps
Maximum transmission unit: 1500
Allow jumbo frames to pass
Broadcast max-ratio: 100%
Multicast max-ratio: 100%
Unicast max-ratio: 100%
Internet protocol processing: Disabled
IP packet frame type: Ethernet II, hardware address: 1234-660e-0012
IPv6 packet frame type: Ethernet II, hardware address: 1234-660e-0012
Media type is optical fiber,Port hardware type is 10G_BASE_SR_SFP
Output queue - Urgent queuing: Size/Length/Discards 0/1024/0
Output queue - Protocol queuing: Size/Length/Discards 0/500/0
Output queue - FIFO queuing: Size/Length/Discards 0/75/0
10Gbps-speed mode, Full-duplex mode
Link speed type is autonegotiation, link duplex type is autonegotiation
Flow-control is not enabled
The Maximum Frame Length is 9216
Last link flapping: 1 hours 31 minutes 7 seconds
Last clearing of counters: 09:48:08 Mon 12/28/2020
Current system time:2020-12-28 11:06:14 Beijing+08:00:00
Last time when physical state changed to up:2020-12-28 09:35:07 Beijing+08:00:00
Last time when physical state changed to down:2020-12-28 09:34:55 Beijing+08:00:00
Peak input rate: 29 bytes/sec, at 2020-12-28 09:54:00
Peak output rate: 373 bytes/sec, at 2020-12-28 10:40:17
Last 300 second input: 0 packets/sec 24 bytes/sec 0%
Last 300 second output: 2 packets/sec 212 bytes/sec 0%
Input (total): 785 packets, 116898 bytes
5 unicasts, 0 broadcasts, 780 multicasts, 0 pauses
Input (normal): 785 packets, - bytes
5 unicasts, 0 broadcasts, 780 multicasts, 0 pauses
Input: 0 input errors, 0 runts, 0 giants, 0 throttles
0 CRC, 0 frame, - overruns, 0 aborts
- ignored, - parity errors
Output (total): 10296 packets, 1119042 bytes
772 unicasts, 0 broadcasts, 9524 multicasts, 0 pauses
Output (normal): 10296 packets, - bytes
772 unicasts, 0 broadcasts, 9524 multicasts, 0 pauses
Output: 0 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
0 lost carrier, - no carrier
如链路出现环路:
· 排查链路连接、端口配置是否正确。
· 设备对接的交换机是否使能STP协议,配置是否正确。
· 设备路由是否设置正确,是否存在路由环路。
可以通过display ip fast-forwarding cache命令来确定报文是否走快转,如果cache表项中不存在某条流,说明报文没有走快转。
<H3C> display ip fast-forwarding cache
Total number of fast-forwarding entries: 10
SIP SPort DIP DPort Pro Input_If Output_If Flg
192.168.96.39 162 192.168.210.20 11586 17 M-GE1/0/0/0 InLoop0 1
192.168.96.18 162 192.168.210.20 11585 17 M-GE1/0/0/0 InLoop0 1
192.168.96.16 162 192.168.210.20 11584 17 M-GE1/0/0/0 InLoop0 1
12.1.1.1 3784 12.1.1.2 49216 17 N/A InLoop0 1
192.168.210.20 11585 192.168.96.18 162 17 InLoop0 M-GE1/0/0/0 1
192.168.210.20 11584 192.168.96.16 162 17 InLoop0 M-GE1/0/0/0 1
192.168.210.20 11586 192.168.96.39 162 17 InLoop0 M-GE1/0/0/0 1
12.1.1.2 49216 12.1.1.1 3784 17 InLoop0 N/A 1
192.168.96.40 50356 192.168.210.20 23 6 M-GE1/0/0/0 InLoop0 1
192.168.210.20 23 192.168.96.40 50356 6 InLoop0 M-GE1/0/0/0 1
可以根据某一个地址进行确认以该地址为源或目的IP报文是否走快转,命令如下:
<H3C> display ip fast-forwarding cache 12.1.1.1
Total number of fast-forwarding entries: 2
SIP SPort DIP DPort Pro Input_If Output_If Flg
12.1.1.2 49216 12.1.1.1 3784 17 InLoop0 N/A 1
12.1.1.1 3784 12.1.1.2 49216 17 RAGG5.3101 InLoop0 1
多次查看单板内存占用率,发现内存占用率持续偏高,始终处于70%以上(未使用的内存占用率低于30%)。Total表示总的内存,Used表示当前使用的内存,FreeRatio表示未使用的内存占用率。
<H3C> display memory chassis 1 slot 2
Memory statistics are measured in KB:
Chassis 1 Slot 2:
Total Used Free Shared Buffers Cached FreeRatio
Mem: 984640 313232 671408 0 0 26568 68.2%
-/+ Buffers/Cache: 286664 697976
Swap: 0 0 0
Chassis 1 Slot 2 CPU 1:
Total Used Free Shared Buffers Cached FreeRatio
Mem: 14834944 3342376 11492568 0 600 124500 77.5%
-/+ Buffers/Cache: 3217276 11617668
Swap: 0 0 0
这类问题通常为软件问题引起,如内存泄露,也可能是由于会话数目、路由数目过多导致。请按照下面步骤进一步搜集信息发送给H3C技术支持人员分析。
通过display process memory命令多次查询单板各进程的内存使用信息。Dynamic类型的内存为设备动态申请的,在内存出现泄露时会变得很大,通过前后比较观察可以确认哪个进程的内存占用持续增加。如果持续增加,说明该进程可能发生了泄露,请记录下进程的JID。下面以查询JID为78的diagd进程为例说明。
<H3C> display process memory chassis 2 slot 2
JID Text Data Stack Dynamic Name
1 168 604 24 64 scmd
2 0 0 0 0 [kthreadd]
3 0 0 0 0 [ksoftirqd/0]
……
78 112 9368 12 320 diagd
79 76 1040 8 8 mdcagentd
80 116 8860 8 16 fsd
81 140 992 16 212 dbmd
83 72 496 8 20 syslogd
84 168 41980 16 44 drvdiagd
85 172 17112 16 12 devd
94 112 8864 12 12 edev
……
再进一步确认JID为78的diagd进程的哪种字节大小的内存块发生泄露。如下命令所示,Size表示内存块的字节大小,Total表示总的申请个数,Used表示使用数目,Free表示未使用的数目,Free Ratio表示未使用的内存块百分比。通过多次查询并比较查询值可以看出哪个Size的内存块Used个数持续增加。查询完毕后,请将搜集到的信息发送H3C给技术支持人员分析。
<Sysname> display process memory heap job 78 verbose
Heap usage:
Size Free Used Total Free Ratio
16 0 385 385 0.0%
24 2 49 51 3.9%
32 0 13 13 0.0%
40 0 7 7 0.0%
64 0 411 411 0.0%
72 0 4 4 0.0%
80 1 0 1 100.0%
96 1 0 1 100.0%
104 0 8 8 0.0%
136 0 8 8 0.0%
152 0 9 9 0.0%
184 0 1 1 0.0%
368 0 8 8 0.0%
3080 0 1 1 0.0%
8200 1 0 1 100.0%
29376 1 0 1 100.0%
Large Memory Usage:
Used Blocks : 24
Used Memory(in bytes): 2031616
Free Blocks : 0
Free Memory(in bytes): 0
Summary:
Total virtual memory heap space(in bytes) : 2113536
Total physical memory heap space(in bytes) : 454656
Total allocated memory(in bytes) : 2075736
表13 故障诊断命令
|
命令 |
说明 |
|
display cpu-usage |
显示CPU利用率的统计信息,用于查询CPU占用率高的任务 |
|
display cpu-usage history |
以图形方式显示CPU利用率统计历史信息 |
|
display interface |
显示指定接口的信息,检查接口的流量是否正常 |
|
display memory |
显示单板内存占用率 |
|
display process memory |
显示单板各进程的内存使用信息,通过多次查询,发现可能存在内存泄露的进程 |
|
display process memory heap |
显示Dynamic类型内存的详细信息,确认哪种字节大小的内存块发生了泄露 |
|
display route-policy |
显示设备配置的路由策略,检查配置的路由策略是否过多,导致CPU处理的负担增加 |
13.1 对象策略加速使得CPU升高
流量下,由于新建或者修改一条对象策略规则会加速一次,所以短时间内持续下刷或更改策略规则配置会使得设备CPU持续升高的现象。
升级策略加速优化版本,支持对象策略延迟加速功能,即等连续几条对象策略配置下发完成后再进行一次加速,可以避免当前刷配置导致cpu高的现象。
延迟加速功能版本支持情况:
D032SP版本支持情况:D032SP26及后续版本;
D045SP版本支持情况:D045SP07及后续版本。
流量下,安全策略不支持加速的时候走满匹配,多策略配置会消耗cpu。
升级安全策略加速功能版本,并支持安全策略自动加速功能,即新建和更改策略项配置时2秒后(策略不大于100条时)进行策略加速,或20秒后(策略总数大于100条)进行策略加速。
安全策略加速功能版本支持情况:
D032SP版本支持情况:都支持;
D045SP版本支持情况:都支持。
图10 组网图
两台Device上下行分别接入二层交换机,Device的上下行接口工作在三层模式。
两台Device之间建立一条RBM通道。
两台Device上下行分别配置两个VRRP备份组,并与RBM关联,具体如下:
¡ Device A上下行业务接口的VRRP备份组1和3加入Active group;Device A上下行业务接口的VRRP备份组2和4加入Standby group。
¡ Device B上下行业务接口的VRRP备份组1和3加入Standby group;Device B上下行业务接口的VRRP备份组2和4加入Active group。
两台Device上需要将去往Internet路由的下一跳指定为Router连接Device的接口IP地址(此示例中为2.1.1.15)。
Router上需要将去往Host A路由的下一跳指定为VRRP备份组1的虚拟IP地址(此示例中为2.1.1.3)。
Router上需要将去往Host B路由的下一跳指定为VRRP备份组2的虚拟IP地址(此示例中为2.1.1.4)。
Host A上需要设置默认网关IP地址为VRRP备份组3的虚拟IP地址(此示例中为10.1.1.3)。
Host B上需要设置默认网关IP地址为VRRP备份组4的虚拟IP地址(此示例中为10.1.1.4)。
Switch A需要将连接Device和Router的接口加入相同的VLAN。
Switch B需要将连接Device和Host的接口加入相同的VLAN。
观察发现,两台防火墙的VRRP状态都为Backup。
(1) 检查RBM控制通道连接是否正常,使用命令行display remote-backup-group status
RBM_P[M9012_1]dis remote-backup-group status
Remote backup group information:
Backup mode: Dual-active
Device management role: Primary
Device running status: Active
Data channel interface: Route-Aggregation1023
Local IP: 30.24.0.1
Remote IP: 30.24.0.2 Destination port: 60164
Control channel status: Connected
Keepalive interval: 1s
Keepalive count: 10
Configuration consistency check interval: 1 hour
Configuration consistency check result: Consistent(2020-12-17 10:55:15)
Configuration backup status: Auto sync enabled
Session backup status: Hot backup enabled
Delay-time: 1 min
Control channel status如果显示为Connected 则表示正常。如果显示未disconnected,则表示状态断连,需要检查RBM控制通道使用的接口的物料状态。
(2) 检查 业务板是否为选中状态,使用命令行display link-aggregation verbose Blade-Aggregation
RBM_P[M9012_1]dis link-aggregation verbose Blade-Aggregation
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Blade-Aggregation1
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/1 S 32768 4
Blade7/0/1 S 32768 4
Aggregate Interface: Blade-Aggregation257
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
Blade4/0/2 S 32768 5
Blade7/0/2 S 32768 5
Blade 引擎口状态为S 则表示正常。如果所有引擎口状态都为U,或者无引擎口显示,请排查业务引擎版状态。
(3) 如果上述都没有发现问题,但是两台防火墙的VRRP状态都为BackUP,请联系技术支持人员。
图11 组网图
外网设备通过防火墙访问sever,防火墙上开启攻击防范业务,保护内网server免受攻击。
配置攻击防范策略,对fin的泛洪进行检测
attack-defense policy 1
fin-flood detect non-specific
fin-flood action logging drop client-verify
在入方向安全域下应用攻击防范策略
security-zone name Untrust
attack-defense apply policy 1
外网用户向server发起fin的泛洪攻击,防火墙设备没有报日志,流量也没有转发出去。
(1) 首先排查配置问题,攻击防范策略是否配置在入方向的安全域上,对于fin的攻击是否进行配置。
(2) 使用命令行display attack-defense malformed-packet statistics排查是否是畸形报文丢包了。(fin是畸 形报文的一种)
(3) 检查流量进来的目的地址是否唯一,对于唯一的目的地址的阈值是否达到阈值门限
(4) 如果上述都没有发现问题,请联系技术支持人员。
|
命令 |
说明 |
|
display attack-defense policy {name} |
显示攻击防范配置 |
|
display attack-defense statistics security-zone{ zone } |
显示攻击防范丢包统计 |
|
display blacklist { ip | ipv6 } |
显示黑名单统计 |
图12 组网图
PC访问Internet的流量由PC---Switch---Internet进行转发,T9012-S旁挂在交换机上并接收镜像流量做IPS处理,这种组网为最常见的旁挂部署方式。
配置交换机镜像组和镜像源目的接口;
配置IDS设备inline黑洞模式的Bridge实例并添加接口;
配置安全域并添加接口;
安全策略中引用IPS策略;
网络流量中有攻击报文,设备长时间不报威胁日志。
display session table ipv4 verbose
查看设备是否存在会话,以及会话是否正常,主要从会话状态,应用,以及是否是单向流判断。
Initiator:
Source IP/port: 8:7:6:5:4:3:2:2/6158
Destination IP/port: 1:2:3:4:5:6:7:7/110
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: Ten-GigabitEthernet2/2/0/10
Source security zone: Untrust
Responder:
Source IP/port: 1:2:3:4:5:6:7:7/110
Destination IP/port: 8:7:6:5:4:3:2:2/6158
VPN instance/VLAN ID/Inline ID: -/-/-
Protocol: TCP(6)
Inbound interface: Ten-GigabitEthernet2/2/0/9
Source security zone: Trust
State: TCP_ESTABLISHED //如果状态有问题,三次握手不全,无法检测,无法产生ips日志
Application: POP3 //如果应用不识别,无法产生ips日志
Rule ID: 0
Rule name: v6
Start time: 2018-12-27 18:49:14 TTL: 1199s
Initiator->Responder: 5 packets 406 bytes
Responder->Initiator: 4 packets 303 bytes
//如果是单向流,特征不完全,检测失败,无法产生ips日志
display counters rate inbound interface
判断相应接口是否有流量被镜像过来,如果没有,需检查交换机镜像配置。
display system internal ip packet-drop statistics
display system internal aspf statistics zone-pair ipv4
有些环境因为配置等问题,报文还未走到DPI模块就被丢弃了,自然无法产生IPS日志。
这种情况多数为交换机镜像过来的正反向报文没有从同一个物理口或逻辑口进入设备,需要注意黑洞模式的接口对配置。
会话正常的情况下,查看license和特征库版本,display security-policy ip,查看安全策略配置,确认内容安全是否引用了ips策略,以及安全策略的命中情况,以确保流量是命中了开启内容安全的那条安全策略。
display inspect status
查看是否处于bypass状态,当处于bypass状态时,设备不做dpi检测。
dis inspect status
Chassis 1 Slot 0:
Running status: normal
display system internal inspect hit-statistics
确认报文是否经过DPI检测,如下所示,设备进行了DPI检测,但是报文仅仅命中部分AC,没有完整命中特征,所以不会产生日志。Rule hits下不为0时,表示有报文命中了规则。
display system internal inspect hit-statistics
Rule ID Module Rule hits AC hits PCRE try PCRE hits
1855 IPS 0 1 0 0
FW设备上行或下行接口故障,但是流量仍然上送到本设备,RBM未进行切换。
分别登陆两台设备查看RBM详细配置,RBM默认会检测本框中业务板的个数,但是接口类故障需要手工配置track检测。
配置主:
track 1 interface Route-Aggregation1
track 2 interface Route-Aggregation11
RBM_P[M9016_1-remote-backup-group]display this
#
remote-backup group
backup-mode dual-active
data-channel interface Route-Aggregation1000
delay-time 1
adjust-cost bgp enable absolute 10000
adjust-cost ospf enable absolute 10000
adjust-cost ospfv3 enable absolute 10000
track 1
track 2
local-ip 192.168.195.9
remote-ip 192.168.195.10
device-role primary
配置备:
track 1 interface Route-Aggregation1
track 2 interface Route-Aggregation11
RBM_S[M9016_2-remote-backup-group]display this
#
remote-backup group
backup-mode dual-active
data-channel interface Route-Aggregation1000
delay-time 1
adjust-cost bgp enable absolute 10000
adjust-cost ospf enable absolute 10000
adjust-cost ospfv3 enable absolute 10000
track 1
track 2
local-ip 192.168.195.10
remote-ip 192.168.195.9
device-role secondary
RBM检测track的状态(通过display track all命令查询),当track的结果为positive时,RBM认为本机状态正常;当track结果为negative时,RBM模块认为本机异常触发RBM切换,进而调整相应的路由开销,引导流量全部走到另外一台FW设备。
初始开局时,确保两台FW的RBM中绑定track,并增加路由开销联动。RBM中的配置不会同步,每台FW需分别手动添加。
RBM默认每隔24h进行配置一致性检查,由于某些原因造成的配置不一致时,系统会上报不一致告警,并携带相关模块。
RBM_P[M9016_1]%Dec 17 14:25:43:191 2020 M9016_1 RBM/6/RBM_CFG_COMPARE_START: Started configuration consistency check.
%Dec 17 14:25:44:775 2020 M9016_1 RBM/6/RBM_CFG_COMPARE_RESULT: The following modules have inconsistent configuration: acl.
%Dec 17 14:25:44:775 2020 M9016_1 RBM/6/RBM_CFG_COMPARE_FINISH: Finished configuration consistency check.
首先根据告警提示信息检查对应模块不一致的地方,例如系统检测到acl模块存在差异,建议比对当前两台FW的acl配置,存在2种情况:
Ø 配置备上存在acl 3000,配置主上没有,
1) 若确认acl 3000需要保留,直接在配置主上增加acl 3000,系统自动进行配置同步,然后保存2台设备的配置
2) 若确认acl 3000无需保留,在配置主上执行configuration manual-sync命令,系统自动进行配置同步,配置备acl 3000自动删除,然后保存2台设备的配置
Ø 配置主上存在acl 3000,配置备上没有
1) 若确认acl 3000需要保留,在配置主上执行configuration manual-sync命令,系统自动进行配置同步,然后保存2台设备的配置
2) 若确认acl 3000无需保留,在配置主上删除acl 3000,并执行configuration manual-sync命令,系统自动进行配置同步,然后保存2台设备的配置

PC1访问PC2。在M9000上,通过IPv4到IPv6源地址静态转换策略,为目的IPv4地址指定一个对应的IPv6地址23::1。PC1访问该IPv6地址便可以访问PC2。
对于PC1,通过IPv6到IPv4的源地址动态转换策略,将IPv6发送过来的IPV6报文源地址转换为IPv4地址30.30.40.100。
acl ipv6 number 2000
rule 0 permit source 1:1::1/128
#
aft address-group 0
address 30.30.40.100 30.30.40.100
#
aft v6tov4 source acl ipv6 number 2000 address-group 0
#
aft v4tov6 source 1.1.1.1 23::1
#
interface Route-Aggregation10.900
aft enable
interface Route-Aggregation10.901
aft enable
AFT不能正常转换或者AFT转换的报文不能正常转发。
Display aft configuration查看设备上AFT的配置。在M9000上,流量入接口和出接口都需要开启aft功能(aft enable)。
[H3C]dis aft configuration
aft address-group 0
address 30.30.40.100 30.30.40.100
aft v6tov4 source acl ipv6 number 2000 address-group 0
aft v4tov6 source 1.1.1.1 23::1
interface Route-Aggregation10.900
aft enable
interface Route-Aggregation10.901
aft enable
AFT ALG:
DNS : Enabled
FTP : Enabled
HTTP : Enabled
ICMP-ERROR : Enabled
RTSP : Enabled
SIP : Enabled
<H3C>debugging aft packet ip
Dec 16 15:08:22:697 2020 H3C AFT/7/COMMON: -Slot=6.1;
PACKET: (Route-Aggregation10.900) Protocol: UDP
1.1.1.1/69 - 30.30.40.100/1128(VPN:0) ------>
23::1/69 – 1:1::1/35017(VPN:0)
或
<H3C>debugging aft packet ipv6
Dec 16 15:09:13:696 2020 H3C AFT/7/COMMON: -Slot=6.1;
PACKET: (Route-Aggregation10.901) Protocol: UDP
1:1::1/6677 - 23::1/5060(VPN:0) ------>
30.30.40.100/1149 - 1.1.1.1/5060(VPN:0)
注:如果以上信息,表示IPv4和IPv6已经进行了AFT转换。
[H3C-probe]dis system internal openflow instance inner-redirect flow-table
Flow entry 3305 information:
cookie: 0x0, priority: 5045, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG10
VLAN ID: 900, mask: 0xfff
IP Range: IPv4 destination address from 30.30.40.100 to 30.30.40.100
Instruction information:
Write actions:
Group: 4026531857
Flow entry 3306 information:
cookie: 0x0, priority: 5045, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG10
VLAN ID: 4094, mask: 0xfff
IP Range: IPv4 destination address from 30.30.40.100 to 30.30.40.100
Instruction information:
Write actions:
Group: 4026531857
Flow entry 3307 information:
cookie: 0x0, priority: 5080, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
IPv4 source address: 1.1.1.1, mask: 255.255.255.255
Instruction information:
Write actions:
Group: 4026531865
Flow entry 3308 information:
cookie: 0x0, priority: 5085, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
IPv4 destination address: 1.1.1.1, mask: 255.255.255.255
Instruction information:
Write actions:
Group: 4026531865
Flow entry 3309 information:
cookie: 0x0, priority: 7085, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG10
VLAN ID: 900, mask: 0xfff
IPv6 destination address: 23::1
IPv6 destination address mask: FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF
Instruction information:
Write actions:
Group: 4026531865
Flow entry 3310 information:
cookie: 0x0, priority: 7085, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG10
VLAN ID: 4094, mask: 0xfff
IPv6 destination address: 23::1
IPv6 destination address mask: FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF:FFFF
Instruction information:
Write actions:
Group: 4026531865
注:对于AFT静态转换,需要关注流表下发是否正常。
图13 组网图
外网设备通过防火墙访问sever,防火墙上开启攻击防范业务,保护内网server免受攻击。
配置攻击防范策略,对fin的泛洪进行检测
attack-defense policy 1
fin-flood detect non-specific
fin-flood action logging drop client-verify
在入方向安全域下应用攻击防范策略
security-zone name Untrust
attack-defense apply policy 1
外网用户向server发起fin的泛洪攻击,防火墙设备没有报日志,流量也没有转发出去。
(1) 首先排查配置问题,攻击防范策略是否配置在入方向的安全域上,对于fin的攻击是否进行配置。
(2) 使用命令行display attack-defense malformed-packet statistics排查是否是畸形报文丢包了。(fin是畸形报文的一种)
(3) 检查流量进来的目的地址是否唯一,对于唯一的目的地址的阈值是否达到阈值门限
|
命令 |
说明 |
|
display attack-defense policy {name} |
显示攻击防范配置 |
|
display attack-defense statistics security-zone{ zone } |
显示攻击防范丢包统计 |
|
display blacklist { ip | ipv6 } |
显示黑名单统计 |
单板出现异常重启或者下电
查看diagfile.log日志
<M9k>more diagfile/diagfile.log
查看设备diagfile.log日志,如果有单板间的hg口故障日志,表明单板间的内联口出现故障,而裁决单板重启,若单板重启后,内联口恢复正常,将日志发给技术支持人员进行分析。
%@12527^Dec 19 16:10:56:906 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.
%@12528^Dec 19 16:10:56:640 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=13; Chassis 1 Slot 13 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 8: The source port went down.
%@12529^Dec 19 16:10:57:376 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=11; Chassis 1 Slot 11 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 3: The source port went down.
%@12530^Dec 19 16:10:56:740 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=12; Chassis 1 Slot 12 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 6: The source port went down.
%@12554^Dec 19 16:11:11:959 2020 M9k DRV/3/FAULT_MONITOR_BITMAP:
Fault PhySlot List: 3
Fault Reason BitMap:
slot : 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
-----------------------------------------------------
Fabric1 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fabric2 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fabric3 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fabric4 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5
-----------------------------------------------------
IO board: 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fault Reason: 0-RFCS, 1-RERPKT, 2-DOWN, 3-UNRESP, 4-1bit, 5-NORMAL
%@12555^Dec 19 16:11:11:960 2020 M9k DRV/3/FAULT_MONITOR_REBOOT: Chassis 1 Slot 3: The card will be restarted due to a hardware failure.
查看logfile.log日志
<M9k>more logfile/logfile.log
查看设备logfile.log日志,如果有单板间的hg口故障日志,表明单板间的内联口出现故障,而裁决单板重启,若单板重启后,内联口恢复正常,将日志发给技术支持人员进行分析。
%@4387931%Dec 19 16:10:56:906 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.
%@4387932%Dec 19 16:10:56:640 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=13; Chassis 1 Slot 13 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 8: The connectivity of the internal port failed.
%@4387933%Dec 19 16:10:57:376 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=11; Chassis 1 Slot 11 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 3: The connectivity of the internal port failed.
%@4387934%Dec 19 16:10:56:740 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=12; Chassis 1 Slot 12 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 6: The connectivity of the internal port failed.
%@4387947%Dec 19 16:11:11:960 2020 M9k DRV/3/FAULT_MONITOR_REBOOT: Chassis 1 Slot 3: The card will be restarted due to a hardware failure.
%@4387948%Dec 19 16:11:12:151 2020 M9k DEV/2/BOARD_STATE_FAULT: Board state changed to Fault on chassis 1 slot 3, type is NSQM1FWEFGA0.
查看diagfile.log日志
<M9k>more diagfile/diagfile.log
查看设备diagfile.log日志,如果半小时内出现3次单板间的hg口故障而导致到重启,最后出现“The card will be isolated due to a hardware failure”日志时,表明单板间的内联口出现故障并且无法通过重启恢复,而裁决单板下电隔离,此时可查看日志将hg口故障涉及到单板进行更换,并将日志发给技术支持人员进行分析。
%@12574^Dec 19 17:15:53:091 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.
%@12584^Dec 19 17:23:57:002 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.
%@12605^Dec 19 17:32:34:001 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The source port went down.
%@12615^Dec 19 17:32:54:996 2020 M9k DRV/3/FAULT_MONITOR_BITMAP:
Fault PhySlot List: 10
Fault Reason BitMap:
slot : 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
-----------------------------------------------------
Fabric1 : 5 5 5 2 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fabric2 : 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fabric3 : 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fabric4 : 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
-----------------------------------------------------
IO board: 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Fault Reason: 0-RFCS, 1-RERPKT, 2-DOWN, 3-UNRESP, 4-1bit, 5-NORMAL
%@12616^Dec 19 17:32:54:996 2020 M9k DRV/3/FAULT_MONITOR_ISOLATE: Chassis 1 Slot 10: The card will be isolated due to a hardware failure.
查看logfile.log日志
<M9k>more logfile/logfile.log
查看设备logfile.log日志,如果半小时内出现3次单板间的hg口故障而导致到重启,最后出现“The card will be isolated due to a hardware failure”日志时,表明单板间的内联口出现故障并且无法通过重启恢复,而裁决单板下电隔离,此时可查看日志将hg口故障涉及到单板进行更换,并将日志发给技术支持人员进行分析。
%@4388208%Dec 19 17:15:40:345 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.
%@4388291%Dec 19 17:23:57:002 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.
%@4388385%Dec 19 17:32:34:001 2020 M9k DRV/3/HG_MONITOR_PORT_ERROR: -Chassis=1-Slot=10; Chassis 1 Slot 10 Unit 0 Port 3 to Chassis 1 Slot 3 Unit 0 Port 1: The connectivity of the internal port failed.
%@4388389%Dec 19 17:32:54:996 2020 M9k DRV/3/FAULT_MONITOR_ISOLATE: Chassis 1 Slot 10: The card will be isolated due to a hardware failure.
电子标签信息也可以称为永久配置数据或档案信息等,在硬件的调测(调试、测试)过程中被写入到设备的存储器件中,包括硬件的名称、生产序列号、MAC地址、制造商、产品代码等信息。电子标签作用是获取设备SN和DID信息。设备的SN和DID申请激活文件,并将激活文件安装在该设备上。该设备才能获得授权,可以运行指定的特性。
display device manuinfo显示电子标签丢失,无法获取SN和DID信息,不能进一步进行Lincense授权。
(1) 如果是主备倒换导致电子标签丢失,因为主备倒换需要重启设备,可以通过locallogbuf(locallogbuffer是驱动记录的底层信息)日志查看异常情况。
[B-probe]local logbuffer 10 display 查看到异常打印信息
举例说明,日志异常打印:
Sep 08 2020 16:54:36:488937:
LINE:152-TASK:ofpd-FUNC:BSP_E2PROM_Read_OnSelec:
get I2C MutexSem1 fail.
Sep 08 2020 16:54:36:596761:
LINE:2077-TASK:TEMP-FUNC:drv_sysm_get_power_size_75X:
get I2C MutexSem1 fail.
Sep 08 2020 16:54:37:489907:
LINE:5780-TASK:ofpd-FUNC:DRV_SYSM_SysGetManufactureInfo:
In function:BSP_E2PROM_Read_OnSelec, Read manual infoerror
Sep 08 2020 16:54:37:489967:
LINE:6089-TASK:ofpd-FUNC:DRV_SYSM_ManuInfoResolve:
Read manufacture information Fail!
Sep 08 2020 16:54:37:490005:
LINE:12303-TASK:ofpd-FUNC:DRV_DEVM_GetManuInfo:
get chassis manu info failed!
在电子标签读取失败的情况下,查询上述日志信息后,请将搜集到的信息发送给H3C技术支持人员分析。
# 显示设备的电子标签信息。(分布式设备-独立运行模式)(集中式IRF设备)
<Sysname> display device manuinfo
Slot 1 CPU 0:
DEVICE_NAME : XXXX
DEVICE_SERIAL_NUMBER : XXXXXXXXXXXXXXXXXXXX
MAC_ADDRESS : XXXX-XXXX-XXXX
MANUFACTURING_DATE : XXXX-XX-XX
VENDOR_NAME : H3C
PRODUCT ID : XX-XXXX-XX
Subslot 1:
DEVICE_NAME : XXXX
DEVICE_SERIAL_NUMBER : XXXXXXXXXXXXXXXXXXXX
MANUFACTURING_DATE : XXXX-XX-XX
VENDOR_NAME : H3C
Fan 1:
DEVICE_NAME : XXXX
DEVICE_SERIAL_NUMBER : XXXXXXXXXX
MANUFACTURING_DATE : XXXX-XX-XX
VENDOR_NAME : H3C
Fan 2:
DEVICE_NAME : XXXX
DEVICE_SERIAL_NUMBER : XXXXXXXXXX
MANUFACTURING_DATE : XXXX-XX-XX
VENDOR_NAME : H3C
Power 1:
DEVICE_NAME : XXXX
DEVICE_SERIAL_NUMBER : XXXXXXXXXXXXXXXXXXXX
MANUFACTURING_DATE : XXXX-XX-XX
VENDOR_NAME : H3C
表14 表1-9 display device manuinfo命令信息显示描述表
|
字段 |
描述 |
|
Slot 1 CPU 0: |
表示设备的电子标签信息,包括: · DEVICE_NAME:表示设备的名称 · DEVICE_SERIAL_NUMBER:表示设备的序列号 · MAC_ADDRESS:表示设备出厂MAC地址 · MANUFACTURING_DATE:表示设备的调测日期 · VENDOR_NAME:表示设备制造商的名称 · PRODUCT ID:表示产品代码 |
|
Subslot 1: |
表示子卡的电子标签信息 |
|
Fan 1: |
表示风扇的电子标签信息 |
|
Power 1: |
表示电源的电子标签信息 |
高端防火墙设备M9000系列可以通过任一视图下display device、dis version和probe视图下display system internal version查看状态正常的设备的版本情况。
设备的主控版本、业务版本都应该取自相同的版本路径。否则会导致主控、业务板卡版本不一致,使得业务板卡fault状态(比如主控取45SP分支版本,业务板取32SP分支版本,业务板会fault启动不了)
如果主控、业务板卡取的分支不同导致板卡fault,启动不了,会有两种情况。一种是板卡一直fault,板卡一直在重启状态;一种是板卡fault卡住不动。针对上述情况,bootlooder和web升级版本解决问题不在适用,只能通过bootware(Ctrl+B)方式升级版本解决板卡fault问题。板卡fault卡住不动需要插拔板卡让板卡重启,手动连续按Ctrl+B,使得板卡进入bootware升级界面,通过bootware方式升级版本解决板卡fault问题。
<H3C>display boot-loader
Software images on chassis 1 slot 0:
Current software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 1 slot 1:
Current software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 1 slot 2.1:
Current software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 1 slot 3.1:
Current software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 2 slot 0:
Current software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 2 slot 1:
Current software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
flash:/M9000-CMW710-BOOT-R9153P22.bin
flash:/M9000-CMW710-SYSTEM-R9153P22.bin
flash:/M9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 2 slot 2.1:
Current software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
Software images on chassis 2 slot 3.1:
Current software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Main startup software images:
sda0:/BLADE4FWM9000-CMW710-BOOT-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-SYSTEM-R9153P22.bin
sda0:/BLADE4FWM9000-CMW710-DEVKIT-R9153P22.bin
Backup startup software images:
None
<H3C>
