手册下载
H3C S12500故障处理手册-R1825P01-6W100-整本手册.pdf (625.46 KB)
H3C S12500故障处理手册
Copyright © 2013 杭州华三通信技术有限公司 版权所有,保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部, 并不得以任何形式传播。本文档中的信息可能变动,恕不另行通知。 |
|
· 更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。
· 设备正常运行时,建议您在完成重要功能的配置后,及时保存当前配置,以便设备出现故障后能迅速恢复配置。
· 设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),搜集信息越全面、越详细,越有利于故障的快速定位。
¡ 记录具体的故障现象、故障时间、配置信息。
¡ 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
¡ 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
¡ 记录故障处理过程中配置的所有命令行显示信息。
¡ 搜集设备日志信息和diag信息(搜集方法见1.2 如何搜集设备运行信息)。
¡ 记录抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息。
¡ 记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。
· 故障处理过程中,请注意:
¡ 明确每项配置操作的影响,保证操作出问题时能够被恢复,故障影响不会扩大。
¡ 操作执行后请等待一定时间以确认执行效果。
¡ 请不要保存故障处理过程中的配置,特别是出现IRF分裂、单板Fault、单板重启时,否则会引起配置丢失。
¡ 更换主控板时,请确保新、老主控板的软件版本一致。
为方便故障快速定位,建议不要关闭设备的信息中心(info-center enable)。缺省情况下信息中心处于开启状态。
设备运行过程中会产生logfile日志信息及记录设备运行状态的diag信息。这些信息存储在CF卡中(cfa0或cfa 1),可以通过FTP、TFTP、USB等方式导出。不同主控板中导出的logfile、diag文件请按照一定规则存放(如不同的文件夹:chassisXslotY),避免不同主控板的运行信息相互混淆,以方便查询。
表1 设备运行信息介绍
分类 |
文件名 |
内容 |
logfile日志 |
logfileX.log |
命令行记录、Trap信息、设备运行中产生的记录信息 |
diag信息 |
缺省为default.diag |
设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等 |
请先通过logfile save将设备缓存的logfile日志保存CF卡中,并将日志搜集完整,包括:主用主控板、备用主控板、IRF下主框/备框各主备主控板的日志。
<Sysname>logfile save
Saved the log file buffer to file cfa0:/logfile/logfile7.log successfully.
主用主控板logfile日志:
<Sysname>dir
Directory of cfa0:/logfile/
0 -rw- 5209069 Apr 23 2013 22:06:56 logfile1.log
1 -rw- 5200061 May 04 2013 02:36:44 logfile2.log
2 -rw- 5205918 May 09 2013 02:41:10 logfile3.log
1021808 KB total (790736 KB free)
File system type of cfa0: FAT16
备用主控板logfile日志:
<Sysname>dir
Directory of slot1#cfa0:/logfile/
0 -rw- 5221735 Apr 10 2013 17:53:14 logfile1.log
1 -rw- 5227102 Apr 10 2013 18:54:34 logfile2.log
2 -rw- 3352896 May 16 2013 20:15:44 logfile3.log
1020068 KB total (643264 KB free)
File system type of slot1#cfa0: FAT32
IRF下备框主控板logfile日志,如备框有两块主控板,则两块都需要搜集:
<Sysname>dir
Directory of chassis2#slot0#cfa0:/logfile/
0 -rw- 5223211 May 15 2013 12:38:44 logfile1.log
1 -rw- 2639526 May 15 2013 20:01:14 logfile2.log
2 -rw- 5223207 May 15 2013 11:22:24 logfile3.log
1021808 KB total (773424 KB free)
File system type of chassis2#slot0#cfa0: FAT16
执行display diagnostic-information命令后,请输入“Y”,以选择将diag保存到CF卡中(选择display会出现信息搜集不全)。设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请耐心等待。
<Sysname>display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:y
Please input the file name(*.diag)[cfa0:/default.diag]:20130517.diag
Diagnostic information is outputting to cfa0:/20130517.diag.
Please wait...
Save successfully.
<Sysname>dir cfa0:/
Directory of cfa0:/
……
17 -rw- 5151331 May 17 2013 17:38:32 20130517.diag
1020068 KB total (735536 KB free)
File system type of cfa0: FAT32
也可以将diag信息直接显示出来(不建议这样搜集),搜集前请先执行screen-length disable,避免屏幕输出被打断,如下:
<Sysname>screen-length disable
% Screen-length configuration is disabled for current user.
<Sysname>display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:n
=================================================================
===============running CPU usage information===============
=================================================================
===== Current CPU usage info =====
CPU Usage Stat. Cycle: 19 (Second)
CPU Usage : 5%
CPU Usage Stat. Time : 2013-05-21 10:06:25
CPU Usage Stat. Tick : 0x19aa(CPU Tick High) 0xa57f44e1(CPU Tick Low)
Actual Stat. Cycle : 0x0(CPU Tick High) 0x39fb1e03(CPU Tick Low)
……
设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。
如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。
图1为故障处理的一般流程,可以大致判断出故障的类型。
故障分析时常用的方法有:
· 端口报文计数
· 报文镜像
· 端口抓包
· 配置QoS策略进行流量统计
· Debug开关信息
· 对怀疑故障的模块交叉验证(比如:怀疑某个端口光模块异常,可以将其他正常的光模块装在这个端口、将怀疑异常的光模块装到别的端口进行确认;怀疑某个槽位单板异常,可以将别的正常单板装到这个槽位、将怀疑异常的单板装到本设备其他槽位或装到别的S12500上确认)。
如单板出现异常重启、状态异常、无法启动、反复重启,请参照2.1 单板故障处理。
如设备电源指示灯异常、不断打印告警信息,请参照2.2 电源故障处理。
如设备风扇指示灯异常、风扇停转、不断打印风扇告警信息,请参照2.3 风扇故障处理。
如端口出现无法UP、频繁UP/DOWN、端口错包,请参照3 链路端口故障处理。
如日志不断出现Forwarding fault、Board fault: chassis X slot Y, please check it等打印信息,请参照4 硬件转发故障。
如出现ping、tracert丢包或不通、二层丢包或不通、三层丢包或不通、MPLS业务异常等,请参照5 报文转发故障处理。
如设备无法形成IRF、IRF分裂等,请参照6 IRF类故障处理。
如设备打印No enough resource资源不足,请参照7.2 资源不足处理。
图2是一个典型网络故障模型,为提高网络的可靠性,便于故障时快速切换恢复,组网中采用双上行链路,两台核心交换机之间互为备份。
表2 故障点影响分析
故障点 |
可能现象 |
影响范围 |
1(含光模块) |
端口down |
业务会切换 |
端口错包增加 |
影响该链路上的业务(影响范围大) |
|
2 |
单板fault |
业务会切换 |
单板芯片故障(单板状态正常) |
该芯片上的业务异常 交换网板芯片故障会影响整机 |
|
软件异常 |
设备重启,业务会切换 协议模块异常一般会影响业务 |
|
3 |
同1 |
影响该接入层交换机上的业务(影响范围比故障点1小一些) |
4 |
设备down |
影响该设备下的业务 |
单板芯片故障 |
影响部分端口或整机业务 |
|
软件异常 |
设备重启,影响设备下连业务 协议模块异常一般会影响业务 |
|
5 |
同1 |
影响该链路上服务器涉及的业务 |
6 |
网络正常,业务异常 |
影响该服务器涉及业务 |
表3 常见的故障恢复措施
故障原因 |
业务恢复动作 |
故障排除动作 |
硬件 |
隔离故障单板; 调整业务流向来隔离故障设备(如可以调整路由的优先级,避免流量经过故障设备,实现流量切换) |
更换备件(备件上线应用前应进行必要的测试) |
软件 |
重启故障设备的协议; 调整业务流向来隔离故障设备 |
升级版本(含补丁版本) ; 调整组网或配置消除引发故障因素 |
链路 |
调整业务流向来隔离故障线路 |
检修线路 |
其他 |
修改错误配置; 正确连接设备端口; 调整业务流向来隔离故障线路 |
修改错误配置; 正确连接设备端口; 检修机房的电源、空调等支撑系统 |
· 单板状态异常(比如状态为Absent、Fault、Off、Offline、Illegal)。
· 单板出现异常重启、无法启动或不断重启等。
单板状态包括:Normal、Master 、Slave 、Absent、Fault、Off、Offline、Illegal。
Master 与Slave分别表示主、备主控板。Normal表示单板处于正常运行状态。
如果发现单板状态出现Fault、Off、Offline、Illegal,或该槽位存在单板但状态却是Absent的,说明单板可能出现故障,请参考2.1.2 故障处理步骤处理。
<Sysname>display device
Slot No. Brd Type Brd Status Software Version
1/0 LST1MRPNC1 Master S12500-CMW520-R1728P02
1/1 LST1MRPNC1 Slave S12500-CMW520-R1728P02
1/2 LST1XP16LEC1 Normal S12500-CMW520-R1728P02
1/3 LST1XP16LEC1 Normal S12500-CMW520-R1728P02
1/4 LST1XP16LEC1 Normal S12500-CMW520-R1728P02
1/5 NONE Absent NONE
1/6 NONE Absent NONE
1/7 NONE Absent NONE
1/8 NONE Absent NONE
1/9 LST1GP48LEC1 Normal S12500-CMW520-R1728P02
1/10 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/11 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/12 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/13 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/14 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/15 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/16 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/17 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/18 LST2SF08C1 Normal S12500-CMW520-R1728P02
可以通过logfile日志或display version查看设备启动后运行时间来确认单板有没有出现过重启,出现过重启的单板运行时间会明显短于设备上其他单板。如果有单板出现过重启,请参考2.1.2 故障处理步骤处理。
<Sysname>display version
H3C Comware Platform Software
Comware Software, Version 5.20, Release 1825P01-DFT
Copyright (c) 2004-2013 Hangzhou H3C Tech. Co., Ltd. All rights reserved.
H3C S12504 uptime is 0 week, 0 day, 1 hour, 48 minutes
Last reboot reason : User reboot
LST1MRPNC1 1/0: uptime is 0 week, 0 day, 1 hour, 48 minutes
Last reboot reason : User reboot
3456 Mbytes SDRAM
1024 Kbytes NVRAM Memory
Type : LST1MRPNC1
BootRom : 1.22
Software : S12500-CMW520-R1825P01-DFT
Patch : NONE
PCB : Ver.B
Board Cpu:
Number of Cpld: 2
Cpld 0:
SoftWare : 005
Cpld 1:
SoftWare : 005
PowChipA : 004
CpuCard
Type : LSR1CPA
PCB : Ver.C
Number of Cpld: 1
Cpld 0:
SoftWare : 001
BootRom : 1.13
Mbus card
Type : LSR1MBCB
Software : 115
PCB : Ver.B
……
(1) 确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重插入。
(2) 将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板故障。
(3) 检查单板面板、内部的指示灯是否发光。
(4) 如果单板是主控板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。
(5) 如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。
(1) 确认用户有无通过power-supply off命令对单板执行下电操作。如果是用户操作导致,请通过power-supply on命令对单板重新上电。
(2) 否则,单板存在电源故障,请更换单板并将故障信息发送技术支持人员分析。
(1) 等待一段时间确认下单板是一直Fault还是Normal后又再次重启。如单板是Normal后又自动重启,请将故障信息发送技术支持人员分析。
(2) 如果单板是主控板、网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。如下述主控板启动时出现内存读写测试失败而不断重启,需要检查主控板内存条是否插稳。
readed value is 55555555 , expected value is aaaaaaaa
DRAM test fails at: 080ffff8
DRAM test fails at: 080ffff8
Fatal error! Please reboot the board.
(3) 对于接口板还需要确认系统工作模式是否支持该单板正常启动:
a. 查询当前系统工作模式
[Sysname]display system working mode
Current system working mode : Routee
Working mode after system restart: Routee
Notice: Changing working mode will take effect only after system restart.
b. 如果当前系统工作模式不支持该单板启动,设备会打印相关提示信息。示例如下:这里表示EB类接口板在Routee模式下无法启动。
%Apr 18 10:08:11:525 2013 H3C SYSM/1/DRV_SYSM:
slot 2 is an EB type board, and it supports Standard working mode only.
%Apr 18 10:08:11:661 2013 H3C SYSM/1/DRV_SYSM:
ERROR!!! slot 2 doesn't support the current system working mode, board rebooting!
%Apr 18 10:08:11:802 2013 H3C SYSM/1/DRV_SYSM:
This is not hardware fault, please change mode by command 'system working mode' in system view.
c. 确认当前系统工作模式不支持该单板启动时,请通过system working mode命令更改系统工作模式并保存配置,新的系统工作模式将在设备重启后生效。
[Sysname]system working mode standard
Standard mode has been set. It needs to be saved and will take effect after system restart.
[Sysname]save
The current configuration will be written to the device. Are you sure? [Y/N]:y
Please input the file name(*.cfg)[flash:/config.cfg]
(To leave the existing filename unchanged, press the enter key):
flash:/config.cfg exists, overwrite? [Y/N]:y
Validating file. Please wait........................................
The current configuration is saved to the active main board successfully.
Configuration is saved to device successfully.
(4) 将单板放到别的槽位,进一步确认是不是单板故障。
(5) 如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。
(1) 确认用户有没有通过board-offline命令对单板下发隔离操作,新的单板执行上电测试时也需要将单板置为Offline状态。如果是用户操作导致,请通过undo board-offline命令将隔离单板重新上线。
(2) 接口板被隔离:说明设备在线诊断模块检测到该单板存在异常,命令行display hardware-failure-detection可以看到对应时间点的记录,请更换接口板并将故障信息发送技术支持人员分析。
<Sysname>display hardware-failure-detection
Current level:
chip : isolate
board : isolate
forwarding : isolate
----------------------------Slot 4 records:-------------------------------
Slot 0:
1. 2011-06-09, 04:34:14 rebooted by board detection.
Slot 4:
1. 2011-06-09, 11:16:39 rebooted by forwarding detection.
Slot 6:
1. 2011-06-09, 11:13:37 some auto-down ports on this slot are down by
forwarding detection.
2. 2010-06-09, 11:13:16 some auto-down ports on this slot are down by
forwarding detection.
(3) 网板被隔离,通常会伴随业务检测故障,同时出现Forwarding fault、Board fault: chassis X slot Y, please check it等打印信息,需要确认网板隔离后故障是否消失。可以通过命令行display hardware-failure-detection查看网板隔离的记录。
· 单块网板被隔离:隔离后业务检测故障消失,说明故障为网板引起,请更换单板并将故障信息发送技术支持人员分析;网板隔离后不再参与流量转发,如隔离后业务检测故障仍存在,说明该网板是正常的(多点故障时,设备在线诊断模块还不够智能,可能存在误判的情况),请将该使用undo board-offline命令将网板恢复正常状态,参考“硬件转发故障”章节处理,并搜集故障信息并发送技术支持人员分析。
· 多块网板被隔离,通常为接口板故障导致,请参考“硬件转发故障”章节处理,并搜集故障信息并发送技术支持人员分析。
(1) 确认是否是S12500设备使用的单板。
(2) 确认软件版本是否支持,新的单板在较低的软件版本上是无法启动的,请升级版本。
(3) 将单板放到别的槽位确认。
(4) 否则,请更换单板并搜集故障信息并发送技术支持人员分析。
这里的单板重启是指单板出现过重启,而当前单板状态是Normal。
(1) 通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行reboot重启或进行单板上下电等操作。
(2) 18XX以上版本display version命令支持查询单板最近一次重启的原因。比如下面示例中“Power on”表示单板最近一次重启原因是掉电重启。
<Sysname>display version
H3C Comware Platform Software
Comware Software, Version 5.20, Release 1825P01-DFT
Copyright (c) 2004-2013 Hangzhou H3C Tech. Co., Ltd. All rights reserved.
H3C S12504 uptime is 0 week, 0 day, 1 hour, 48 minutes
Last reboot reason : User reboot
LST1MRPNC1 1/0: uptime is 0 week, 0 day, 1 hour, 48 minutes
Last reboot reason : User reboot
3456 Mbytes SDRAM
1024 Kbytes NVRAM Memory
Type : LST1MRPNC1
……
(3) 如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。
(4) 确认日志中重启时有无出现“Slot X need to be rebooted automatically!”提示信息,这种情况是不正常的。请更换单板并搜集故障信息并发送技术支持人员分析。
(5) 确认日志中有无Hardware error提示信息,设备运行过程中单板出现Hardware error是不正常的。code为0~31或>=100表示单板存在电源故障,请更换单板并搜集故障信息并发送技术支持人员分析;其他的code值请搜集信息发送给技术支持人员分析。
%@437307%May 15 22:03:02:122 2013 HS12508-HKDS-4F DIAG/3/ERROR: Hardware error! chassis=1, slot=7, code=0
%@437308%May 15 22:03:02:122 2013 HS12508-HKDS-4F DIAG/3/ERROR: Hardware error! chassis=1, slot=7, code=1
%@437309%May 15 22:03:02:122 2013 HS12508-HKDS-4F DIAG/3/ERROR: Hardware error! chassis=1, slot=7, code=2
(6) 通过命令行display hardware-failure-detection查询,有无对应时间点的重启记录。如存在记录,请搜集故障信息并发送技术支持人员分析。
(7) 如无法确认,请搜集故障信息并发送技术支持人员分析。
设备电源指示灯异常,打印PSU、PMU异常告警信息,如:
%Sep 22 20:38:32:947 2009 H3C DEVD/3/PMU STATUS: Chassis 1: No.1 power monitor: absent.
%Sep 22 20:38:32:947 2009 H3C DEVD/4/PSU CHANGED: Chassis 1: PSU ID may be changed, please check it!
(1) PSU是电源模块,PMU是电源监控模块。请检查模块是否在位并插稳,PSU、PMU状态指示灯是否正常。如某个模块不正常,请对怀疑的故障模块拔插、与正常的模块更换做交叉验证。
(2) 检查PSU Status状态是否是Normal,如果物理上电源模块或者电源监控模块实际是在位的,但是却显示为空或者Absent,则说明存在问题,后面显示了具体的问题原因,其中:Under-vol一般代表没有插电源线或者外部电源接触不良;其他错误情况请对怀疑的故障模块拔插、交叉验证,以确认是模块没有插稳,还是模块自身故障导致。
(3) 检查PMU信息System power monitoring unit是否能正常显示,如无法显示,请检查对应PMU模块,如拔插、与正常的模块交叉。
(4) 检查Line-card power status,如单板实际在位,但是对应单板状态却显示为以下几种状态,表明电源是存在问题的:
· Absent:单板不在位,请参照“单板状态Absent”处理。
· Wait:由于系统功率不足,单板处于待上电状态,一旦系统功率足够,会自动给单板上电,请检查外部电源、各电源模块是否正常。
· Off:单板由于用户操作、过温保护或电源故障等原因被主动下电,这类单板不会自动上电,请参照单板状态Off处理。
(5) 如PSU、PMU模块故障,请更换对应的模块;如故障无法确认,请将信息发送给技术支持人员协助分析。
<Sysname>display power-supply
Power info on chassis 0:
PSU 1/1 state: Normal
PSU 1/2 state: Normal
PSU 1/3 state: Normal
PSU 1/4 state: Normal
PSU 1/5 state: Normal
PSU 1/6 state: Normal
PSU 2/1 state: Normal
PSU 2/2 state: Normal
PSU 2/3 state: Normal
PSU 2/4 state: Normal
PSU 2/5 state: Normal
PSU 2/6 state: Normal
<Sysname>display power-supply verbose
Power info on chassis 0:
System power-supply policy: enable
System power-module redundant(configured): 1
System power usable: 22000 Watts
System power redundant(actual): 2000 Watts
System power allocated: 7350 Watts
System power available: 14650 Watts
SYSTEM POWER USED(CURRENT): 4959.21 Watts
System power monitoring unit 1:
Software version: 107
System power monitoring unit 2:
Software version: 107
Type In/Out Rated-Vol(V) Existing Usable Redundant(actual)
---------- ------ ------------ -------- ------ -----------------
PSE9000-A AC/DC 220(default) 12 11 1
DC output voltage information:
Tray Value(V) Upper-Threshold(V) Lower-Threshold(V) Status
---- -------- ------------------ ------------------ -------
1 50.08 51.00 49.00 Normal
2 50.10 51.00 49.00 Normal
DC output current information:
Total current(A): 99.00
Branch Value(A)
------ --------
1/1 9.20
1/2 8.00
1/3 8.40
1/4 7.40
1/5 9.00
1/6 7.60
2/1 7.60
2/2 9.00
2/3 7.60
2/4 7.60
2/5 9.00
2/6 8.60
PSU Status:
ID Status Input-Err Output-Err High-Temperature Fan-Err Closed Current-Limit
--- ------- ----------- ---------- ---------------- ------- ------ -------------
1/1 Normal
1/2 Normal
1/3 Normal
1/4 Normal
1/5 Normal
1/6 Normal
2/1 Normal
2/2 Normal
2/3 Normal
2/4 Normal
2/5 Normal
2/6 Normal
Line-card power status:
Slot Board-Type Watts Status
---- --------------- ----- ------
2 LST1XP8LEB1 280 On
3 LST1XP8LEB1 280 On
4 LST1XP8LEB1 280 On
5 LST1XP8LEB1 280 On
6 LST1XP8LEB1 280 On
7 LST1XP8LEB1 280 On
8 LST1XP8LEB1 280 On
9 LST1XP8LEB1 280 On
10 LST1XP8LEB1 280 On
11 LST1XP8LEB1 280 On
12 LST1XP8LEB1 240 On
13 LST1XP8LEB1 280 On
14 LST1XP8LEB1 240 On
15 LST1XP8LEB1 240 On
16 LST1XP8LEB1 280 On
17 LST1XP8LEB1 280 On
18 LST1XP8LEB1 280 On
19 LST1XP8LEB1 280 On
风扇框指示灯异常,设备打印风扇异常信息,如:
%Sep 22 20:38:32:947 2009 H3C DEVD/3/ FAN CHANGE: Chassis 1: Fan communication state changed: Fan 1 changed to fault.
(1) 风扇框在位时,用手放在设备出风口,判断是否有出风,如果出风口无风,则风扇异常
(2) 检查风扇的入风口、出风口是否被挡住或积累太多灰尘。
(3) 检查风扇框是否正常在位,各个风扇的状态是否正常、转速是否相差达到50%以上。如存在异常,建议通过风扇框拔插、更换交叉进一步确认。
(4) 如果故障不能恢复,需要更换该风扇框,但当前没有风扇框,请关闭设备以免发生温度高导致单板烧坏;如果有降温措施保证系统工作在50度以下,可以暂时继续使用设备。
<Sysname>display fan verbose
Fan-tray verbose state on chassis 0:
Fan-tray 1:
Software version: 108
Hardware version: Ver.A
CPLD version: 002
Fan number: 12
Temperature: 27 C
High temperature alarm threshold: 60 C
Low speed alarm threshold: 1450 rpm
Fan Status Speed(rpm)
--- ---------- ----------
1 normal 3780
2 normal 3780
3 normal 3720
4 normal 3840
5 normal 3900
6 normal 3660
7 normal 3780
8 normal 3840
9 normal 3660
10 normal 2940
11 normal 2940
12 normal 2880
Fan-tray 2:
Software version: 108
Hardware version: Ver.A
CPLD version: 002
Fan number: 12
Temperature: 21 C
High temperature alarm threshold: 60 C
Low speed alarm threshold: 1450 rpm
Fan Status Speed(rpm)
--- ---------- ----------
1 normal 3720
2 normal 3720
3 normal 3780
4 normal 3660
5 normal 3660
6 normal 3720
7 normal 3660
8 normal 3660
9 normal 3660
10 normal 2820
11 normal 2820
12 normal 2760
设备打印温度过低、过高等告警信息,如:
%Sep 22 20:38:32:947 2009 H3C DEVM/4/BOARD_TEMPERATURE_TOOHIGH: Board temperature is too high on Chassis 1 Slot 5, type is LST1GP48LEB1.
(1) 检查环境温度是否正常。如果环境温度较高,请确认原因,比如机房通风不畅、空调制冷故障等。
(2) 检查设备当前的temperature温度是否超出上下的Warning、Alarm门限。也可以用手触摸单板,确认单板是不是很烫,如单板温度很高,请立即检查原因。持续处于较高的温度下,可能会导致单板损坏。
· 如果温度过高,请参照2.3 风扇故障确认是否风扇故障导致。
· 如果温度值为error或出现明显不合实际的值,可能是通过I2C总线访问单板温度传感器异常。设备光模块信息访问也是通过相同的I2C总线,请继续检查单板读取光模块信息是否正常。如光模块访问正常,请使用temperature-limit命令重新设置单板的温度告警门限值,并通过display environment查看是否设置成功。
[Sysname]temperature-limit chassis 2 slot 0 hotspot 1 -20 85 90
<Sysname>display environment
System temperature information (degree centigrade):
-------------------------------------------------------------------------------
Slot Sensor Temperature LowerLimit WarningLimit AlarmLimit ShutdownLimit
2/0 inflow 1 35 -25 70 85 N/A
2/0 outflow 1 40 -20 80 85 N/A
2/0 hotspot 1 43 -20 85 90 N/A
2/2 inflow 1 39 -20 70 85 N/A
2/2 outflow 1 40 -10 80 90 N/A
2/2 hotspot 1 41 -10 80 90 N/A
2/3 inflow 1 41 -20 70 85 N/A
2/3 outflow 1 57 15 80 85 N/A
2/3 hotspot 1 41 -20 75 80 N/A
2/3 hotspot 2 50 0 75 80 N/A
2/4 inflow 1 43 -20 70 85 N/A
2/4 outflow 1 60 15 80 85 N/A
2/4 hotspot 1 43 -20 75 80 N/A
2/4 hotspot 2 54 0 75 80 N/A
(3) 如果仍然无法确认故障原因,请搜集信息并发送给技术支持人员协助分析。
命令 |
说明 |
display device |
显示设备信息,检查各单板的状态是否正常 |
display environment |
显示交换机的温度信息,检查环境温度是否正常(是否超出温度告警阈值) |
display fan |
显示设备内置风扇的工作状态 |
display hardware-failure-detection |
显示交换机的硬件故障检测和修复信息,包括各种故障对应的修复操作,以及系统中每个单板最近十次故障修复的历史信息 |
display power-supply |
显示交换机上的电源系统信息。详细信息包括下列信息: · 电源管理使能状态 · 电源类型、额定输入电压和额定输出功率 · 冗余电源模块数,各模块可用的、冗余的、已用的、剩余的功率 · 在位电源模块的状态 · 接口板的供电状态 |
display system working mode |
显示设备的系统工作模式,确认当前系统工作模式是否支持该单板正常启动 |
display version |
显示系统版本信息、单板的运行时间以及最后一次重启的原因 |
save |
将当前配置保存到指定文件 |
system working mode |
配置系统工作模式,以改变系统硬件资源的分配情况。修改系统工作模式后,需保存配置并重启才会生效 |
temperature-limit |
设置设备的温度告警门限 |
使用display interface命令查询端口的入、出方向流量统计信息,发现错包统计计数不为0。
<Sysname>display interface ten-gigabitethernet 1/2/0/6
Ten-GigabitEthernet1/2/0/6 current state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 80f6-2ec3-ac04
Description: SH-B15A-0202-J20-H5800-L-01-te1/0/49
Loopback is not set
Media type is optical fiber, Port hardware type is 10G_BASE_SR_SFP
10Gbps-speed mode, full-duplex mode
Link speed type is force link, link duplex type is force link
Flow-control is not enabled
The Maximum Frame Length is 8168
Broadcast MAX-ratio: 100%
Unicast MAX-ratio: 100%
Multicast MAX-ratio: 100%
Allow jumbo frame to pass
PVID: 1
Link delay is 2(sec)
Ethernet port mode: LAN
Port link-type: trunk
VLAN passing : 1(default vlan), 10-28, 91-93, 106-108, 121-123, 184, 401, 999
VLAN permitted: 1(default vlan), 2-4094
Trunk port encapsulation: IEEE 802.1q
Port priority: 2
Last clearing of counters: Never
Peak value of input: 10070 bytes/sec, at 2013-05-14 19:11:30
Peak value of output: 315310 bytes/sec, at 2013-05-14 19:56:27
Last 300 seconds input: 0 packets/sec 90 bytes/sec 0%
Last 300 seconds output: 0 packets/sec 530 bytes/sec 0%
Input (total): 1617091 packets, 131185047 bytes
1144855 unicasts, 79482 broadcasts, 392754 multicasts, - pauses
Input (normal): 1617091 packets, 131185047 bytes
1144855 unicasts, 79482 broadcasts, 392754 multicasts, 0 pauses
Input: 0 input errors, 0 runts, 0 giants, 0 throttles
0 CRC, 0 frame, 0 overruns, - aborts
- ignored, - parity errors
Output (total): 7779022 packets, 862020306 bytes
1138915 unicasts, 3567900 broadcasts, 3072207 multicasts, - pauses
Output (normal): 7779022 packets, 862020306 bytes
1138915 unicasts, 3567900 broadcasts, 3072207 multicasts, 0 pauses
Output: 0 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
- lost carrier, - no carrier
· input errors:各种输入错误的总数。
· runts:表示接收到的超小帧个数。超小帧即接收到的报文小于64字节,且包括有效的CRC字段,报文格式正确。
· giants:是超过端口设置的Maximum Frame Length的报文个数。
· CRC:表示接收到的CRC校验错误报文个数。
· frame:端口接收时出错的报文。
· output errors:各种输出错误的总数。
· aborts:表示发送失败的报文总数。
· deferred:表示延迟报文的总数。报文延迟是指因延迟过长的周期而导致发送失败的报文,而这些报文由于发送媒质繁忙而等待了超过2倍的最大报文发送时间。
· collisions:表示冲突帧总数,即在发送过程中发生冲突的报文。
· late collisions:表示延迟冲突帧,即发送过程中发生延迟冲突超过512bit时间的帧。
(1) 使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。
(2) 如端口使用光模块,参照3.5 光模块故障确认是否光模块故障导致。
(3) 与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现端口相关,应为单板端口故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。
(4) 排查对端设备或者中间的传输设备。
(5) 如故障无法确认,请将故障信息发送技术支持人员分析。
Overrun计数是由于端口输入速率超过端口处理能力,导致丢包。
(1) 如果只有某一个端口收发包异常,或者某一个端口下挂设备的业务不通,同时这个单板上的其他端口都是正常的,可以多次查询display interface 命令:
· 如果input errors 有增加,且overruns没有增加,请排查光纤/光模块/对端设备;
· 如果input errors有增加,且等于overruns的增加,那么可以怀疑是单板内部拥塞或者堵死,请继续判断:
· 如果overrun计数有增加,且Input (normal) 计数没有增加,表明所有入报文都overrun,证明端口堵死,请将故障信息发送技术支持人员分析。
· 如果overruns计数有增加,且Input (normal) 计数有增加,表明部分入报文都overrun,证明端口拥塞,请将故障信息发送技术支持人员分析。
(2) 如果仍然无法确认,请将故障信息发送技术支持人员分析。
(1) 检查两端的jumbo配置是否一致,如jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。
(2) 如果仍然无法确认,请将故障信息发送技术支持人员分析。
(1) 检查端口是否配置为半双工模式,如为半双工,请更改为全双工模式。
(2) 如果仍然无法确认,请将故障信息发送技术支持人员分析。
端口无法正常Up。
(1) 测试端口之间网线、光纤链路是否正常,光纤两端的发送/接收端是否错连;更换端口之间的网线、光纤或将网线、光纤放到别的正常端口,以确认是否中间传输链路故障
(2) 检查本端、对端端口配置是否正确,如端口是否shutdown,速率、双工、协商模式、MDI是否正确。
[Sysname]display current-configuration interface ten-gigabitethernet 1/6/0/1
#
interface Ten-GigabitEthernet1/6/0/1
port link-mode bridge
port link-type trunk
port trunk permit vlan 1 3102
port link-aggregation group 1
#
Return
表4 S12500双工支持情况:
Speed Duplex |
10G |
1000M |
100M |
10M |
Full |
Support |
Support |
Support |
Support |
Half |
No support |
No support |
No support |
No support |
(3) 如端口使用光模块,请检查两端光模块类型是否一致,如速率、波长、单模多模状态等;与正常的光模块交叉更换,并参照3.5 光模块故障排除是否为光模块故障导致。
[Sysname]display transceiver interface ten-gigabitethernet 2/9/0/1
Ten-GigabitEthernet2/9/0/1 transceiver information:
Transceiver Type : 10G_BASE_LRM_SFP
Connector Type : LC
Wavelength(nm) : 1310
Transfer Distance(m) : 220(50um),220(62.5um),220(om3)
Digital Diagnostic Monitoring : YES
Vendor Name : FINISAR CORP.
(4) 如确认为光模块故障,请更换光模块,并将故障信息发送技术支持人员分析。
端口状态由Up变成Down。
(1) 查看本设备及对端设备日志,确认有无端口shutdown操作。
(2) 查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口shutdown。如这里的Ten-GigabitEthernet2/8/0/1端口出现“Protect DOWN”,是由于hardware-failure-detection配置为isolate级别,当设备在线诊断模块检测到端口故障时,将端口shutdown隔离,以便流量切换到备份链路。请将故障信息发送技术支持人员分析。
[Sysname]display interface ten-gigabitethernet 2/8/0/1
Ten-GigabitEthernet2/8/0/1 current state: DOWN ( Protect DOWN )
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 80f6-2ec3-ac05
Description: SH-B15A-0202-V03-H5800-L-01-te1/0/50
Loopback is not set
Media type is optical fiber, Port hardware type is 10G_BASE_SR_SFP
10Gbps-speed mode, full-duplex mode
Link speed type is force link, link duplex type is force link
Flow-control is not enabled
……
(3) 参照3.2 端口无法up,排查两端端口配置,网线、光模块、光纤等链路是否正常。
(4) 如仍无法确认,请搜集本端、对端设备信息,并将信息发送技术支持人员分析。
端口频繁Up/Down。
(1) 对于光口,请参照3.5 光模块故障确认光模块是否异常。
(2) 对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。
(3) 如果故障依存在,请排查链路、对端设备、中间设备。
(4) 如仍无法确认,请将故障信息发送技术支持人员分析。
安装光模块的接口不能正常up,出现告警信息。
(1) 检查光模块Alarm告警信息。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。
<Sysname>display transceiver alarm interface GigabitEthernet 2/0/1
GigabitEthernet2/0/1 transceiver current alarm information:
TX fault
PCS receive local fault
Laser temperature fault
表5 光模块告警信息说明
字段 |
描述 |
SFP/SFP+ |
|
RX loss of signal |
接收信号丢失 |
RX power high |
接收光功率高告警 |
RX power low |
接收光功率低告警 |
TX fault |
发送错误 |
TX bias high |
偏置电流高告警 |
TX bias low |
偏置电流低告警 |
TX power high |
发送光功率高告警 |
TX power low |
发送光功率低告警 |
Temp high |
温度高告警 |
Temp low |
温度低告警 |
Voltage high |
电压高告警 |
Voltage low |
电压低告警 |
Transceiver info I/O error |
模块信息读写错误 |
Transceiver info checksum error |
模块信息校验和错误 |
Transceiver type and port configuration mismatch |
模块类型和端口配置不匹配 |
Transceiver type not supported by port hardware |
端口不支持该模块类型 |
XFP |
|
RX loss of signal |
接收信号丢失 |
RX not ready |
接收状态未就绪 |
RX CDR loss of lock |
RX CDR时钟失锁 |
RX power high |
接收光功率高告警 |
RX power low |
接收光功率低告警 |
TX not ready |
发送状态未就绪 |
TX fault |
发送错误 |
TX CDR loss of lock |
TX CDR时钟失锁 |
TX bias high |
偏置电流高告警 |
TX bias low |
偏置电流低告警 |
TX power high |
发送光功率高告警 |
TX power low |
发送光功率低告警 |
Module not ready |
模块状态未就绪 |
APD supply fault |
APD(Avalanche Photo Diode,雪崩光电二极管)错误 |
TEC fault |
TEC(Thermoelectric Cooler,热电冷却器)错误 |
Wavelength unlocked |
光信号波长失锁 |
Temp high |
温度高告警 |
Temp low |
温度低告警 |
Voltage high |
电压高告警 |
Voltage low |
电压低告警 |
Transceiver info I/O error |
模块信息读写错误 |
Transceiver info checksum error |
模块信息校验错误 |
Transceiver type and port configuration mismatch |
模块类型和端口配置不匹配 |
Transceiver type not supported by port hardware |
端口不支持该模块类型 |
(2) 对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。
(3) 如果确认是光模块本身故障,请通过display transceiver diagnosis命令收集光模块当前的数字诊断信息(非H3C定制光模块可能无法查询到数字诊断信息),并发送给技术支持人员分析。
建议尽量使用H3C定制光模块。可通过display transceiver manuinfo命令来查询光模块的定制厂商信息,如果Vendor Name为H3C,说明是H3C定制光模块。
命令 |
说明 |
display current-configuration |
显示设备当前生效的配置,指定interface可以显示指定接口当前生效的配置 |
display interface |
查询端口的入、出方向流量统计信息、端口状态。可查看是否存在错包及错包统计信息。 |
display transceiver alarm |
显示可插拔接口模块的当前故障告警信息 |
display transceiver diagnosis |
显示可插拔光模块的数字诊断参数的当前测量值,包括温度、电压、偏置电流、接收光功率、发送光功率 |
display transceiver interface |
显示指定接口可插拔接口模块的主要特征参数。检查两端光模块类型是否一致,如速率、波长、单模多模状态等 |
display transceiver manuinfo |
显示可插拔接口模块的电子标签信息。可用来查询光模块的定制厂商。 |
设备的转发通道自动检测功能使能后(默认使能),各接口板之间会周期性的发送测试报文,检测各个接口板转发芯片的转发业务是否正常。
[Sysname]forward-path check enable
如设备转发异常,设备会不断打印Forwarding fault、Board fault等提示信息,如:
%May 12 11:51:30:664 2013 SH-B15A-0201-P11-H12518-LC-01 DIAG/3/ERROR: -Slot=12; Forwarding fault: slot 18 to slot 12
%May 12 11:51:30:664 2013 SH-B15A-0201-P11-H12518-LC-01 DIAG/3/ERROR: -Slot=14; Forwarding fault: slot 18 to slot 14
%May 12 11:51:30:665 2013 SH-B15A-0201-P11-H12518-LC-01 DIAG/3/ERROR: -Slot=13; Forwarding fault: slot 18 to slot 13
%May 12 11:51:30:665 2013 SH-B15A-0201-P11-H12518-LC-01 DIAG/3/ERROR: -Slot=16; Forwarding fault: slot 18 to slot 16
%May 12 11:51:31:494 2013 SH-B15A-0201-P11-H12518-LC-01 DIAG/3/ERROR: Board fault: chassis 0 slot 18,please check it
%May 12 11:51:31:702 2013 SH-B15A-0201-P11-H12518-LC-01 DIAG/3/ERROR: Board fault: chassis 0 slot 18,please check it
S12500设备单板类型有主控板、接口板、网板,其中接口板与网板负责业务流量转发,流量在多块网板之间负载分担,而主控板仅负责控制管理,不参与业务流量转发。
· 如果多块接口板之间都有Forwarding fault打印,那么交换网板故障可能性大,需要进一步通过上述逐块隔离网板的方式来确认是不是哪块网板故障引起。以S12508为例说明网板隔离步骤,其中10~18槽位为网板:
a. 隔离10槽位网板,隔离后等待一段时间,观察故障是否消失。
[Sysname]board-offline slot 10
Caution: This command is only for diagnostic purpose which will cause board normal service unusable. Continue? [Y/N]:y
Config successfully
b. 取消10槽位网板隔离,待网板重启Normal后,隔离11槽位网板并观察故障是否消失。
[Sysname]undo board-offline slot 10
This command will reboot the specified board. Continue? [Y/N]:y
Config successfully
c. 按照上面的方法,依次隔离12~18槽位网板,直到所有网板隔离确认一遍。
· 如果Forwarding fault打印都是某一块接口板到其他多块接口板的转发故障,则该接口板故障的可能性较大;当然也不排除其他单板故障的可能性,比如有时候某块交换网板故障也可能导致只打印到某块接口板故障。
建议先逐块隔离网板,观察网板隔离后故障是否消失(网板隔离后不再参与流量转发;网板隔离动作不会引起丢包)。如果所有网板隔离一遍后故障仍存在,那么应为接口板故障导致,建议把设备接口板上的业务切走后通过隔离或更换接口板的方式进一步确认。
当配置了硬件在线诊断和故障保护功能(hardware-failure-detection)后,设备会针对器件、单板和转发三种类型的硬件故障进行在线检测,并对检测到的故障自动执行相应的修复操作。
您可以自行配置系统可自动采取的修复操作,包括:
· off:检测到故障时,交换机不进行任何操作
· warning:检测到故障时,交换机只进行告警,不执行修复故障的操作(缺省情况)
· reset:检测到故障时,交换机会自动重启单板以尝试修复故障
· isolate:检测到故障时,交换机会自动执行关闭端口、单板隔离、禁止单板加载、单板下电操作以减小故障的影响
在业务存在备份链路时,建议将设备配置为isolate级别,以便出现故障时能够自动检测切换,快速恢复业务,配置如下:
[Sysname]hardware-failure-detection chip isolate
Config successfully
[Sysname]hardware-failure-detection board isolate
Config successfully
[Sysname]hardware-failure-detection forwarding isolate
Config successfully
其中chip/board/forwarding描述如下:
· chip:对器件故障进行在线检测
· board:对单板故障进行在线检测
· forwarding:对转发层面的故障进行在线检测
通过下述命令可以查看设备当前的硬件故障检测和修复信息。
<Sysname>display hardware-failure-detection
Current level:
chip : warning
board : warning
forwarding : warning
---------------------Chassis 1, Slot 0 executed records:-------------------
There is no record.
---------------------Chassis 1, Slot 0 trapped records:--------------------
There is no record.
命令 |
说明 |
board-offline |
从系统中隔离指定单板 |
display hardware-failure-detection |
显示交换机的硬件故障检测和修复信息,包括各种故障对应的修复操作,以及系统中每个单板最近十次故障修复的历史信息 |
forward-path check enable |
使能转发通道自动检测功能。用于检测设备中的数据转发通道是否正常 |
hardware-failure-detection |
配置硬件故障在线检测和故障发生时自动采取的操作,以便出现硬件故障时能够自动检测、快速恢复业务 |
报文转发丢包,ping不通或ping丢包,tracert异常。
<Sysname>ping 10.0.0.5
PING 10.0.0.5: 56 data bytes, press CTRL_C to break
Request time out
Request time out
Request time out
Request time out
Request time out
--- 10.0.0.5 ping statistics ---
5 packet(s) transmitted
0 packet(s) received
100.00% packet loss
报文转发异常通常会涉及多台设备,需要逐一排查。为方便排查,排查前建议先明确报文的转发走向,如经过哪些中间设备,在设备的哪些接口进入设备,又会从哪些接口出去。通过镜像抓包或配置ACL规则统计设备有没有收到或发出相应的业务报文,以配置ACL规则统计端口入方向Ping报文为例:
(1) 定义相关的ACL
[Sysname]acl number 3000
[Sysname-acl-adv-3000] rule 1 permit ip destination 1.1.1.1 0
(2) 定义流分类和流行为
[Sysname]traffic classifier statistic_1
[Sysname-classifier-static] if-match acl 3000
[Sysname] traffic behavior statistic_1
[Sysname-classifier-static] accounting packet
(3) 定义策略
[Sysname] qos policy statistic_1
[Sysname-classifier-static] classifier statistic_1 behavior statistic_1
(4) 将策略应用到端口入方向
[Sysname] interface gigabitethernet 8/0/1
[Sysname-GigabitEthernet8/0/1] qos apply policy statistic_1 inbound
(5) 检查入方向报文统计计数,可以通过reset counter interface命令清除计数
[Sysname] display qos policy interface g8/0/1
Interface: GigabitEthernet8/0/1
Direction: Inbound
Policy: statistic_1
Classifier: statistic_1
Operator: AND
Rule(s) : If-match acl 3000
Behavior: statistic_1
Accounting Enable:
1000 (Packets)
如果设备未收到Ping报文,请排查上游的相邻设备;如果设备发送的Ping报文计数正确,建议排查下游的相邻设备;如果Ping报文入出计数不正确,请参照L2转发故障、L3转发故障、MPLS转发故障继续排查。
S12500与属于同一个网段、使用相同VLAN的设备之间,二层流量丢包/不通。报文在设备上进行二层转发的条件是报文的目的MAC与交换机自身的MAC不相等。注意:交换机自身 的MAC地址有多个,属于同一个地址段,比如下面显示的是交换机VLAN接口的MAC。
[Sysname]display interface vlan-interface 10
Vlan-interface10 current state: UP
Line protocol current state: UP
Description: Vlan-interface10 Interface
The Maximum Transmit Unit is 1500
Internet Address is 10.0.0.1/24 Primary
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 00e0-fc00-6503
IPv6 Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 00e0-fc00-6503
Last clearing of counters: Never
Last 300 seconds input rate: 0 bytes/sec, 0 bits/sec, 0 packets/sec
Last 300 seconds output rate: 0 bytes/sec, 0 bits/sec, 0 packets/sec
0 packets input, 0 bytes, 0 drops
0 packets output, 0 bytes, 0 drops
检查二层配置是否正常,如:
· VLAN/PVID
· 报文过滤
· 报文重定向
· 流量监管(CAR)
· 流量整形(GTS)
· 未知单播/组播/广播报文抑制
检查MAC学习的端口是否正确,是否存在环路导致MAC学习到错误端口,必要时可以配置静态MAC来快速恢复业务。
<Sysname>display mac-address
MAC ADDR VLAN ID STATE PORT INDEX AGING TIME(s)
000f-e259-79c0 25 Learned GigabitEthernet2/15/0/1 AGING
00e0-fc12-3456 25 Learned GigabitEthernet2/15/0/1 AGING
0023-8956-7b00 3102 Learned Ten-GigabitEthernet2/4/0/1 AGING
0023-8956-7b00 3202 Learned Ten-GigabitEthernet2/4/0/8 AGING
--- 4 mac address(es) found ---
· 统计入端口计数
[Sysname]qos traffic-counter inbound counter0 slot 3 interface Gigabitethernet 3/0/1
· 多次查询计数观察入端口discarded丢包计数是否增加。如丢包计数持续增加,请参照表6计数描述检查端口配置是否正确;如丢包无法确认,请将故障信息发送技术支持人员分析。
[Sysname]display qos traffic-counter inbound counter0 slot 3
Slot 3 inbound counter0 mode:
Interface: GigabitEthernet3/0/1
VLAN: all
Traffic-counter summary:
Bridge in frames: 0 packets
Bridge local discarded: 0 packets
Bridge vlan ingress filter discarded: 0 packets
Bridge security filter discarded: 0 packets
Field |
Description |
Bridge in frames |
All Input packets counter |
Bridge local discarded |
Packets speed suppression; MAC table look up result output port = packet input STP discarding |
Bridge vlan ingress filter discarded |
Packet’s VLAN ≠ Port VLAN; Packet’s VLAN hasn’t been created |
Bridge security filter discarded |
MAC blackhole (display mac-address blackhole); Authentication (display mac-authentication interface); SMAC = MC MAC/BC MAC Unknown SMAC |
· 配置统计出端口计数
[Sysname]qos traffic-counter outbound counter0 slot 4 interface Gigabitethernet 4/0/1
· 多次查询计数观察出端口discarded丢包计数是否增加。请参照表7计数描述检查端口配置是否正确;如丢包无法确认,请将故障信息发送技术支持人员分析。
[Sysname]display qos traffic-counter outbound counter0 slot 4
Slot 4 outbound counter0 mode:
Interface: GigabitEthernet4/0/1
VLAN: all
Local precedence: all
Drop priority: all
Traffic-counter summary:
Unicast: 0 packets
Multicast: 0 packets
Broadcast: 0 packets
Control packets: 0 packets
Bridge egress filtered packets: 0 packets
Tail drop packets: 0 packets
Multicast Tail drop packets: 2 packets
Forward restrictions packets: 0 packets
Field |
Description |
Unicast/Multicast/Broadcast |
NOT dropped packets counter |
Control packets |
CPU send packets |
Bridge egress filtered packets |
Packet’s VLAN ≠ Output VLAN; STP discarding; RRPP, SMART link block; Output port is DOWN |
Tail drop packets |
Transmit queue congestion; Traffic shaping |
Multicast Tail drop packets |
MC/BC packets without output ports; STP block; Output port is DOWN |
Forward restrictions packets |
No item showed now |
故障现象通常有三层业务异常、ping/tracert丢包/不通。
注意三层转发的IP路由表并不是真正的IP转发表,路由管理通过各路由协议选择最佳的路由,并将选中的路由发送给软件IP转发表(FIB),FIB再将路由同步到芯片驱动IP转发表,最终实现业务转发,如图3所示。
报文在交换机上进行三层转发的条件是报文的目的MAC为交换机本身的MAC。通过镜像或抓包确认这个条件是否满足。注意交换机自身的MAC地址有多个,属于同一个地址段,比如下面显示的是VLAN接口的MAC:
[Sysname]display interface vlan-interface 10
Vlan-interface10 current state: UP
Line protocol current state: UP
Description: Vlan-interface10 Interface
The Maximum Transmit Unit is 1500
Internet Address is 10.0.0.1/24 Primary
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 00e0-fc00-6503
IPv6 Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 00e0-fc00-6503
Last clearing of counters: Never
Last 300 seconds input rate: 0 bytes/sec, 0 bits/sec, 0 packets/sec
Last 300 seconds output rate: 0 bytes/sec, 0 bits/sec, 0 packets/sec
0 packets input, 0 bytes, 0 drops
0 packets output, 0 bytes, 0 drops
检查设备到某一目的IP网段的路由是否存在,如路由不存在,请检查路由协议配置、状态是否正确。
[Sysname]display ip routing-table 1.1.1.0
Routing Table : Public
Summary Count : 1
Destination/Mask Proto Pre Cost NextHop Interface
1.1.1.0/24 Static 60 0 20.0.0.2 Vlan20
检查设备到某一目的IP网段的FIB表项是否存在,如路由存在、FIB表项异常,请将故障信息发送技术支持人员分析。
[Sysname]display fib 1.1.1.0
Destination count: 1 FIB entry count: 1
Flag:
U:Useable G:Gateway H:Host B:Blackhole D:Dynamic S:Static
R:Relay
Destination/Mask Nexthop Flag OutInterface InnerLabel Token
1.1.1.0/24 20.0.0.2 USG Vlan20 Null Invalid
检查设备ARP学习的接口是否正确,如学习接口不正确,请通过reset arp命令重新学习ARP,必要时可以配置静态ARP。如ARP学习的接口一直不正确,请将故障信息发送技术支持人员分析。
[Sysname]display arp 20.0.0.2
Type: S-Static D-Dynamic A-Authorized M-Multiport
IP Address MAC Address VLAN ID Interface Aging Type
20.0.0.2 0000-0000-0001 20 GE2/0/1 N/A S
MPLS常见故障现象有:
· 目的不可达
· 没有相关的路由
· 出现错误信息打印
· 隧道不稳定
· 报文发送接收错误
VLL、VPLS、L3VPN是基于LSP建立的。在LSP入节点(即图4中的PE1)上通过下列方式来检查、确认MPLS网络中哪台设备存在配置错误。
图4 MPLS组网图
(1) 检查配置的LSP是否存在,如不存在,请检查MPLS LSP配置是否正确。
[PE1]display mpls lsp
-------------------------------------------------------------------------
LSP Information: LDP LSP
-------------------------------------------------------------------------
FEC In/Out Label In/Out IF Vrf Name
4.4.4.4/32 NULL/3 -/Vlan103
90.0.0.0/24 NULL/3 -/Vlan103
1.1.1.1/32 3/NULL -/InLoop0
50.0.0.0/24 NULL/3 -/Vlan103
70.0.0.0/24 NULL/3 -/Vlan103
3.3.3.3/32 NULL/1025 -/Vlan103
(2) 检查配置的LSP有没有UP,如未UP,请检查MPLS LSP配置是否正确。
[PE1]display mpls ldp peer
LDP Peer Information in Public network
Total number of peers: 1
-------------------------------------------------------------------------
Peer-ID Transport-Address Discovery-Source
-------------------------------------------------------------------------
4.4.4.4:0 4.4.4.4 Vlan-interface103
----------------------------------------------------------------
(3) 检查MPLS LDP会话:如果状态不是Operational,说明会话存在错误,请转步骤(4)、(5);如果MPLS LDP会话正常,请转步骤(6)。
[PE1]display mpls ldp session
LDP Session(s) in Public Network
Total number of sessions: 1
-------------------------------------------------------------------------
Peer-ID Status LAM SsnRole FT MD5 KA-Sent/Rcv
-------------------------------------------------------------------------
4.4.4.4:0 Non Existent --- Passive Off Off 0/0
-------------------------------------------------------------------------
LAM : Label Advertisement Mode FT : Fault Tolerance
(4) 通过display current-configuration configuration mpls-ldp命令检查LDP的md5-password配置是否一致。
<PE1>display current-configuration configuration mpls-ldp
#
mpls ldp
md5-password cipher 2.2.2.2 GXA^DW>%V=_Q=^Q`MAF4<1!!
#
return
(5) 通过display mpls ldp interface命令检查对应的标签通告模式是否存在。如不存在,请检查MPLS配置。
[PE1]display mpls ldp interface
LDP Interface Information in Public Network
-------------------------------------------------------------------------
IF-Name Status LAM Transport-Address Hello-Sent/Rcv
-------------------------------------------------------------------------
Vlan103 Active DU 1.1.1.1 469/608
-------------------------------------------------------------------------
LAM: Label Advertisement Mode IF-Name: Interface name
(6) 检查配置的mpls lsr-id是不是等于Loopback接口IP地址。推荐使用设备上某个Loopback接口的地址作为LSR ID。
<PE1>display current-configuration | include lsr-id
mpls lsr-id 2.2.2.2
<PE1>display ip interface brief
*down: administratively down
(s): spoofing (l): loopback
Interface Physical Protocol IP Address Description
Loop0 up up(s) 100.100.100.100 --
Loop2 up up(s) 100.100.100.102 --
M-E0/0/0 up up 192.168.147.7 --
Vlan10 down down 192.168.10.1 --
<PE1>system-view
[PE1]mpls lsr-id 100.100.100.100
(7) 检查在VLAN接口下是否使能MPLS、MPLS LDP。如未使能,请使能MPLS和MPLS LDP。
[PE1]interface vlan-interface 103
[PE1-Vlan-interface103]display this
#
interface Vlan-interface103
ip address 1.1.1.2 255.255.255.0
mpls
mpls ldp
#
return
(1) 检查路由表中PE1、P、PE2的环回口IP及远端VLAN接口的IP表项是否存在,如不存在,请检查路由协议配置。
[Sysname]display ip routing-table
Routing Tables: Public
Destinations : 10 Routes : 10
Destination/Mask Proto Pre Cost NextHop Interface
1.1.1.1/32 Direct 0 0 127.0.0.1 InLoop0
3.3.3.3/32 OSPF 10 2 103.0.0.4 Vlan103
4.4.4.4/32 OSPF 10 1 103.0.0.4 Vlan103
50.0.0.0/24 OSPF 10 2 103.0.0.4 Vlan103
70.0.0.0/24 OSPF 10 2 103.0.0.4 Vlan103
90.0.0.0/24 OSPF 10 2 103.0.0.4 Vlan103
103.0.0.0/24 Direct 0 0 103.0.0.1 Vlan103
103.0.0.1/32 Direct 0 0 127.0.0.1 InLoop0
127.0.0.0/8 Direct 0 0 127.0.0.1 InLoop0
127.0.0.1/32 Direct 0 0 127.0.0.1 InLoop0
(2) 检查路由协议状态是否正常,如不正常,请检查路由协议配置。
[PE1]display ospf peer
OSPF Process 1 with Router ID 1.1.1.1
Neighbor Brief Information
Area: 0.0.0.0
Router ID Address Pri Dead-Time Interface State
4.4.4.4 103.0.0.4 1 37 Vlan103 Full/BDR
(3) 检查协议中环回口、VLAN接口的路由是否通告,如不正确,请添加配置。
[PE1-ospf-1]display this
#
ospf 1
area 0.0.0.0
network 103.0.0.0 0.0.0.255
network 1.1.1.1 0.0.0.0
#
return
(4) 开启debug开关查看协议报文发送接收是否正常,如不正常,请检查本端、对端设备的路由协议配置。
<PE1>debugging ospf packet
*Mar 5 04:33:09:294 2022 H3C RM/6/RMDEBUG: OSPF 1: SEND Packet.
*Mar 5 04:33:09:365 2022 H3C RM/6/RMDEBUG: Source Address: 103.0.0.1
*Mar 5 04:33:09:446 2022 H3C RM/6/RMDEBUG: Destination Address: 224.0.0.5
*Mar 5 04:33:09:537 2022 H3C RM/6/RMDEBUG: Ver# 2, Type: 1, Length: 48.
*Mar 5 04:33:09:618 2022 H3C RM/6/RMDEBUG: Router: 1.1.1.1, Area: 0.0.0.0, Checksum: 9355.
*Mar 5 04:33:09:719 2022 H3C RM/6/RMDEBUG: AuType: 00, Key(ascii): 0 0 0 0 0 0 0 0.
*Mar 5 04:33:09:820 2022 H3C RM/6/RMDEBUG: Net Mask: 255.255.255.0, Hello Int: 10, Option: _E_.
*Mar 5 04:33:09:931 2022 H3C RM/6/RMDEBUG: Rtr Priority: 1, Dead Int: 40, DR: 103.0.0.1, BDR: 103.0.0.4.
*Mar 5 04:33:10:053 2022 H3C RM/6/RMDEBUG: Attached Neighbor: 4.4.4.4.
*Mar 5 04:33:10:437 2022 H3C RM/6/RMDEBUG: OSPF 1: RECV Packet.
*Mar 5 04:33:10:508 2022 H3C RM/6/RMDEBUG: Source Address: 103.0.0.4
*Mar 5 04:33:10:589 2022 H3C RM/6/RMDEBUG: Destination Address: 224.0.0.5
*Mar 5 04:33:10:680 2022 H3C RM/6/RMDEBUG: Ver# 2, Type: 1, Length: 48.
*Mar 5 04:33:10:761 2022 H3C RM/6/RMDEBUG: Router: 4.4.4.4, Area: 0.0.0.0, Checksum: 9355.
(5) 如仍无法确认,请将故障信息发送技术支持人员分析。
命令 |
说明 |
accounting packet |
基于包为最小单位为流行为配置流量统计动作 |
acl |
创建ACL,并进入相应的视图 |
classifier behavior |
在策略中为类指定采用的流行为 |
debugging ospf packet |
打开OSPF报文调试信息开关。查看OSPF协议报文发送接收是否正常 |
display arp |
显示ARP表项。检查设备ARP学习的接口是否正确 |
display current-configuration | include lsr-id |
显示当前的MPLS LSR ID |
display current-configuration configuration mpls-ldp |
显示当前生效的MPLS LDP配置信息。检查LDP的md5-password配置是否一致 |
display fib |
显示FIB信息。检查设备到某一目的IP网段的FIB表项是否存在 |
display interface |
显示指定接口的相关信息 |
display ip interface brief |
显示三层接口的IP基本配置信息 |
display ip routing-table |
显示路由表中当前激活路由的摘要信息。检查设备到某一目的IP网段的路由是否存在 |
display mac-address |
显示MAC地址表信息。检查MAC学习的端口是否正确,是否存在环路导致MAC学习到错误端口 |
display mpls ldp interface |
显示使能了LDP能力接口的LDP相关信息。检查对应的标签通告模式是否存在 |
display mpls ldp peer |
显示对等体的信息。检查配置的LSP有没有UP |
display mpls ldp session |
检显示对等体间会话信息 |
display mpls lsp |
显示LSP信息。检查配置的LSP是否存在 |
display ospf peer |
显示OSPF中各区域邻居的信息 |
display qos policy interface |
显示指定接口上QoS策略的配置信息和运行情况 |
display qos traffic-counter |
显示报文统计信息,同时显示该组计数器的配置信息 |
display this |
显示当前视图下生效的配置 |
interface |
进入接口视图 |
rule |
为ACL创建一条规则 |
traffic behavior |
定义一个流行为并进入流行为视图 |
traffic classifier |
定义一个类并进入类视图 |
qos apply policy |
将策略应用到指定端口 |
qos policy |
定义一个策略并进入策略视图 |
qos traffic-counter |
使能报文统计功能,并指定统计的流量类型 |
mpls lsr-id |
配置本节点的MPLS LSR ID |
ping |
检查指定目的端是否可达,并输出相应的统计信息 |
IRF无法正常建立。
通常为配置错误引起,请检查以下配置是否正确。
(1) 确认成员设备的软件版本、主控板类型是否一致。
<Sysname>display device
Slot No. Brd Type Brd Status Software Version
1/0 LST1MRPNC1 Master S12500-CMW520-R1728P02
1/1 LST1MRPNC1 Slave S12500-CMW520-R1728P02
1/2 LST1XP16LEC1 Normal S12500-CMW520-R1728P02
1/3 LST1XP16LEC1 Normal S12500-CMW520-R1728P02
1/4 LST1XP16LEC1 Normal S12500-CMW520-R1728P02
1/5 NONE Absent NONE
1/6 NONE Absent NONE
1/7 NONE Absent NONE
1/8 NONE Absent NONE
1/9 LST1GP48LEC1 Normal S12500-CMW520-R1728P02
1/10 LST2SF08C1 Normal S12500-CMW520-R1728P02
(2) 确认IPF物理端口是否UP。
通过display interface查询IRF物理端口状态是否UP:
<Sysname>display interface gigabitethernet 1/5/0/1
GigabitEthernet1/5/0/1 current state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0023-8956-7a04
Description: GigabitEthernet1/5/0/1 Interface
Media type is twisted pair, Port hardware type is 1000_BASE_T
……
(3) 确认IRF端口连接是否异常,一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接。
<Sysname> display irf configuration
MemberID NewID IRF-Port1 IRF-Port2
1 1 Ten-GigabitEthernet1/8/0/1 disable
Ten-GigabitEthernet1/8/0/2
2 2 disable Ten-GigabitEthernet2/12/0/1
Ten-GigabitEthernet2/12/0/2
(4) 确认成员设备的系统工作模式是否一致。
[Sysname]display system working mode
Current system working mode : Routee
Working mode after system restart: Routee
Notice: Changing working mode will take effect only after system restart.
(5) 确认成员设备的如下配置是否一致。
· acl ipv6配置
· vpn popgo配置
· portal-roaming enable配置
· irf mode enhanced配置
· acl mode配置
[Sysname]display this
……
acl ipv6 disable
portal-roaming enable
undo vpn popgo
system working mode routee
……
IRF运行过程中出现分裂。
(1) IRF分裂时会打印IRF端口down,可以确定IRF分裂的时间。
%Jan 13 19:31:22:476 2010 H3C STM/4/LINK STATUS CHANGE:
IRF port 1 is down because heartbeat timed out.
%Jan 13 19:31:22:689 2010 H3C STM/4/LINK STATUS CHANGE:
IRF port 1 is down.
(2) IRF物理端口所在接口板的状态是否正常,若不正常,请参照2.1 单板故障排查是否单板故障。
<Sysname>display device
Slot No. Brd Type Brd Status Software Version
1/0 LST1MRPNC1 Master S12500-CMW520-R1728P02
1/1 LST1MRPNC1 Slave S12500-CMW520-R1728P02
1/2 LST1XP16LEC1 Normal S12500-CMW520-R1728P02
1/3 LST1XP16LEC1 Normal S12500-CMW520-R1728P02
1/4 LST1XP16LEC1 Normal S12500-CMW520-R1728P02
1/5 NONE Absent NONE
1/6 NONE Absent NONE
1/7 NONE Absent NONE
1/8 NONE Absent NONE
1/9 LST1GP48LEC1 Normal S12500-CMW520-R1728P02
1/10 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/11 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/12 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/13 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/14 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/15 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/16 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/17 LST2SF08C1 Normal S12500-CMW520-R1728P02
1/18 LST2SF08C1 Normal S12500-CMW520-R1728P02
(3) 检查各个IRF物理端口的状态是否正常。若端口状态不正常,请按照3 链路端口故障处理确认故障原因。
<Sysname>display interface gigabitethernet 1/5/0/1
GigabitEthernet1/5/0/1 current state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0023-8956-7a04
Description: GigabitEthernet1/5/0/1 Interface
Media type is twisted pair, Port hardware type is 1000_BASE_T
……
(4) 通过设备运行时间或日志检查IRF中各个成员设备及IRF物理端口所在的接口板在IRF分裂时是否重启过,并参照2.2 电源故障确认是否为电源故障导致。
<Sysname>display version
H3C Comware Platform Software
Comware Software, Version 5.20, Release 1825P01-DFT
Copyright (c) 2004-2013 Hangzhou H3C Tech. Co., Ltd. All rights reserved.
H3C S12504 uptime is 0 week, 0 day, 1 hour, 48 minutes
Last reboot reason : User reboot
LST1MRPNC1 1/0: uptime is 0 week, 0 day, 1 hour, 48 minutes
Last reboot reason : User reboot
3456 Mbytes SDRAM
1024 Kbytes NVRAM Memory
Type : LST1MRPNC1
BootRom : 1.22
Software : S12500-CMW520-R1825P01-DFT
Patch : NONE
PCB : Ver.B
……
(5) 如故障确认,可以通过如更换光模块、更换单板的方式使设备重新形成IRF;如故障无法确认,请搜集各个成员设备的信息,并将信息发送给技术支持人员协助分析。
为保持IRF系统的健壮性,防止IRF分裂,建议:
· 配置多个IRF物理端口绑定同一个IRF逻辑口,并分布到不同的接口板上
· 配置IRF domain域,并且不同的IRF之间域不同
· 配置MAD检测
· 2框IRF下建议将1框配置为主框,因为这时如果MAD异常会优先对2框端口shutdown。
命令 |
说明 |
display device |
显示设备信息。用于检查各成员设备的软件版本、主控板类型是否一致 |
display interface |
显示指定接口的相关信息。用于检查IRF物理端口状态是否UP |
display irf configuration |
显示所有成员设备的IRF配置信息。用于检查IRF端口连接是否异常,一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接 |
display system working mode |
显示设备的系统工作模式。用于检查成员设备的系统工作模式是否一致 |
display this |
显示当前视图下生效的配置。在系统视图下检查成员设备的如下配置是否一致: · acl ipv6配置 · vpn popgo配置 · portal-roaming enable配置 · irf mode enhanced配置 · acl mode配置 |
display version |
显示系统版本信息、单板的运行时间。通过设备运行时间确认IRF中各个成员设备是否重启过,主控板及IRF端口所在接口板是否发生重启 |
设备单板CPU占用率持续在60%以上,下发命令时设备反应很慢。
<Sysname>display cpu-usage
Slot 0 CPU usage:
0% in last 5 seconds
61% in last 1 minute
0% in last 5 minutes
Slot 0 CPU 1 CPU usage:
0% in last 5 seconds
0% in last 1 minute
0% in last 5 minutes
通过display cpu-usage history可以查看单板最近60分钟的cpu占用情况。如横坐标时间为20,则表示20分钟前的CPU使用率。
<Sysname>display cpu-usage history slot 0
100%|
95%|
90%|
85%|
80%|
75%|
70%|
65%|
60%|
55%|
50%|
45%|
40%|
35%| #
30%| # #
25%| # #
20%| # # # #
15%| ## # # ##
10%| ## # # ##
5%|############################################################
------------------------------------------------------------
10 20 30 40 50 60 (minutes)
cpu-usage last 60 minutes(SYSTEM)
· CPU占用率高的原因通常有:路由振荡
· 配置过多的路由策略
· 链路环路
· 报文攻击
(1) 查询CPU占用率高的任务
通过display cpu-usage number [verbose] [slot slot-number [cpu cpu-number]]命令查询CPU占用率高的任务,该命令显示最近的number条记录。如:
<Sysname>display cpu-usage 5 verbose slot 0
===== CPU usage info (no: 0 idx: 31) =====
CPU Usage Stat. Cycle: 60 (Second)
CPU Usage : 63% <--- CPU使用率
CPU Usage Stat. Time : 2009-07-26 16:55:33 <--- 查看时间
CPU Usage Stat. Tick : 0x15(CPU Tick High) 0x429be6f6(CPU Tick Low)
Actual Stat. Cycle : 0x0(CPU Tick High) 0xb2d2a975(CPU Tick Low)
TaskName CPU Runtime(CPU Tick High/CPU Tick Low)
VIDL 37% 0/77d02af4
TICK 0% 0/ 469276
STMR 0% 0/ 7d8c9
DIBC 0% 0/ 3e1ecd
… …
BFD 0% 0/ 463ad
MFIB 0% 0/ ae8a6
IGSP 0% 0/ 431
ROUT 0% 0/ 30a6ed
TNLM 0% 0/ 37a26
IFNT 0% 0/ 833f
co0 61% 0/39012f2b
上述命令显示中VIDL任务CPU占用率达到37%,co0任务CPU占用率达到61%。其中VIDL任务为空闲任务,占用率越高说明设备越空闲,可以看出是co0任务引起CPU占用率升高的,这时就要考虑console用户进行了什么操作导致CPU占用率高。如果是ROUT任务导致CPU占用率高,就需要考虑是否存在路由振荡等等。
表8 任务描述
任务名 |
任务描述 |
VFS |
文件系统跨板操作任务 |
VIDL |
空闲任务 |
VMON |
系统监控任务 |
IPCB |
IPC主任务 |
IPCD |
IPC报文分发任务 |
RPCQ |
RPC任务,发送超时检查 |
RPCD |
RPC报文分发 |
INFO |
信息中心任务 |
co0 |
用户与设备之间的会话任务 |
au0 |
Aux口用户 |
STM |
STM主任务 |
STMH |
STM发送hello报文任务 |
VLAN |
VLAN模块任务 |
DDNS |
动态域名系统处理 |
DNS |
域名系统处理 |
HTTP |
HTTPD和HTTPS服务的主任务 |
HDQx |
http请求处理的子任务 |
MAC |
MAC模块主任务 |
ARP |
处理ARP协议报文任务 |
IP |
处理IP协议任务 |
DHCP |
DHCP协议处理任务 |
DHSE |
DHCP Snooping安全表项相关处理 |
DHCC |
DHCP Client模块主任务 |
DHC6 |
DHCPv6 Client任务 |
DHP6 |
DHCPv6协议公共处理任务 |
FIB6 |
IPv6的FIB任务 |
FIB |
IPv4的FIB任务 |
ND |
IPv6的ARP任务 |
LFIB |
MPLS软件转发和转发表项维护任务 |
L2V |
MPLS L2 VPN的任务 |
MACA |
MAC地址认证任务 |
ROUT |
路由管理任务 |
BFD |
双向转发检测任务 |
DLDP |
DLDP协议相关功能任务 |
EOAM |
以太网OAM相关事件任务 |
GARP |
GVRP协议相关功能任务 |
LAGG |
聚合功能任务 |
LLDP |
LLDP协议相关功能任务 |
LPDT |
环路监测功能任务 |
MAC |
MAC地址表项老化功能任务 |
MGRP |
端口镜像功能任务 |
MSTP |
MSTP协议功能任务 |
MTLK |
Monitor Link功能任务 |
QINQ |
QINQ协议相关功能任务 |
QOS |
QOS功能任务 |
RRPP |
RRPP协议功能任务 |
SMLK |
Smart Link功能任务 |
DT1X |
8021x认证协议任务 |
CF |
CF卡加载/卸载 |
L2AU |
MAC AU消息处理任务 |
L2HC |
MAC核查任务 |
(2) 路由策略排查
通过display route-policy命令可以查看设备配置的路由策略,请检查配置的路由策略是否过多,导致CPU处理的负担增加。
<Sysname> display route-policy
Route-policy : policy1
permit : 10
if-match ip-prefix abc
apply cost 120
(3) 链路环路排查
链路成环时,网络振荡,大量的协议报文上送CPU处理也可能导致CPU占用率升高。存在环路时流量成环,可能会出现广播,设备很多端口的流量会变得很大,端口使用率达到90%以上:
<Sysname>display interface ten-gigabitethernet 2/3/0/1
Ten-GigabitEthernet2/3/0/1 current state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 000f-e20a-2005
Description: Ten-GigabitEthernet2/3/0/1 Interface
……
Last clearing of counters: Never
Peak value of input: 0 bytes/sec, at 2013-05-29 15:05:34
Peak value of output: 1191343840 bytes/sec, at 2013-05-29 19:30:44
Last 300 seconds input: 0 packets/sec 0 bytes/sec 0%
Last 300 seconds output: 0 packets/sec 0 bytes/sec 0%
……
如链路出现环路:
· 排查链路连接、端口配置是否正确
· 是否使能STP协议,配置是否正确
· 邻接设备STP状态是否正常
· 如以上配置均正确,可能为STP协议计算错误或协议计算正确但端口驱动层没有正常Block阻塞,可以shutdown环路上端口、拔插端口让STP重新计算来快速恢复业务,并将故障信息反馈给技术支持人员分析。
(4) 如果仍然无法排除故障,请将display cpu-usage命令显示信息及搜集的其他信息反馈给技术支持人员分析。
资源使用超规格时会打印日志信息和Trap信息:
%Oct 30 20:41:42:29 2011 LS-SHQ-9508 DRVL3/4/NO_RESOURCE:No enough resource: Insufficient system resources!
%Oct 30 20:41:42:29 2011 LS-SHQ-9508 DRVL3/4/NO_RESOURCE:No enough resource: Insufficient system resources!
%Oct 30 20:41:42:29 2011 LS-SHQ-9508 DRVL3/4/NO_RESOURCE:No enough resource: Insufficient system resources!
%Oct 30 20:41:42:29 2011 LS-SHQ-9508 DRVL3/4/NO_RESOURCE:No enough resource: Insufficient system resources!
%Oct 30 20:41:42:29 2011 LS-SHQ-9508 DRVL3/4/NO_RESOURCE:No enough resource: Insufficient system resources!
%Oct 30 20:41:42:29 2011 LS-SHQ-9508 DRVL3/4/NO_RESOURCE:No enough resource: Insufficient system resources!
[hntjjS12508]mirroring-group 2 monitor-port g4/0/34
Error: Local mirroring-group number exceeds hardware capability.
典型的系统资源包括:
· ACL、Mirror
· MAC
· 组播
· ARP
· MPLS LS
· FIB
下列这些特性会占用ACL资源:
· QoS策略
· Packet filter
· Priority mapping and trust
· Mirror
· Protocol packet to CPU
· 灵活QinQ、VLAN映射
· Port binding, PORTAL, EAD
· Broadcast suppression
· MAC-BASED-VLAN、VOICE VLAN、RSPAN、UDP-Helper
资源不足时会出现如下提示信息:
%Sep 9 13:56:24:871 2011 H3C DRVQACL/5/LOG_NOTICE: PCL resources are not enough.
(1) 通过display acl resource命令查看单板ACL资源使用情况,其中ACL rule行表示ACL资源占用情况,Usage表示使用的百分比。
<Sysname>display acl resource chassis 2 slot 2
Interface:
GE2/2/0/1 to GE2/2/0/24
---------------------------------------------------------------------
Type Total Reserved Configured Remaining Usage
---------------------------------------------------------------------
ACL rule 2048 0 89 1959 4%
Inbound ACL 2048 0 3 1959 0%
Outbound ACL 2048 0 86 1959 4%
Interface:
GE2/2/0/25 to GE2/2/0/48
---------------------------------------------------------------------
Type Total Reserved Configured Remaining Usage
---------------------------------------------------------------------
ACL rule 2048 0 89 1959 4%
Inbound ACL 2048 0 3 1959 0%
Outbound ACL 2048 0 86 1959 4%
(2) 如果ACL资源几乎全部使用,请根据具体情况进行优化,比如如删除或合并ACL规则。如果无法优化,请将信息发送给技术支持人员协助分析。
(1) 在.diag中查看组播资源使用情况。
在Local DIT Resource行中,total表示总的资源,free表示空闲的资源。
===============Display l3mc keyinfo slot 1===============
===============================================================
Resource Info:
TCAM Resource: total 511 free 511
Local DIT Resource: total 1003 free 871 usage list:
L3MC: 132
SUPERVLAN: 0
VLL: 0
VPLS: 0
DIAG: 0
BLG: 0
Local VIDX Resource: total 2044 free 2040
……
(2) 如果组播资源几乎全部占用,建议优化组播配置,删除无用的组播表项。如果无法优化,请将信息发送给技术支持人员协助分析。
(1) 在.diag中查看ARP资源使用情况。
===============Display arpnd index resourece slot 4===============
==============================================================================================================
Resource distribution on master board:
Total Index number is 12287, ARP alloced 2724, ND alloced 8274.
( 0 - 7): 2 0 0 10 6000 64 148 280
( 8 - 15): 81 1000 3048 820 a 4520 0 80
……
其中:Total Index number表示最大ARP/ND资源数目,ARP alloced表示ARP占用资源数目,ND alloced表示ND占用资源数目。
(2) 如果ARP/ND资源几乎全部占用,建议:
· 优化网络,减少网关的数目
· 将EB单板换成EC单板并将系统工作模式切换为Routee模式
· 如果问题仍然存在,请搜集信息并发送给技术支持人员协助分析
(1) 在.diag中查看FIB表项资源使用情况,如这里Max support ipv4 prefix表示IPv4表项总的资源,Ipv4 route prefix表示实际占用的资源。
===============Display L3 fib information slot 3===============
=====================================================================
Ipv4 route prefix : 12
Ipv6 route prefix : 1
Allocated route entry : 9
Ipv4Uc allocated nexthop: 2 1 0 0 0 0 0 0
Ipv6Uc allocated nexthop: 1 0 0 0 0 0 0 0
Ipv4Mc allocated nexthop: 1
Ipv6Mc allocated nexthop: 0
Tunnel allocated nexthop: 0
Max support vrf : 4096
Max support ipv4 prefix : 262144
Max support ipv6 prefix : 131072
Max support nexthop : 65536
(2) 如果FIB资源几乎全部占用,请搜集信息并发送给技术支持人员协助分析。
MAC资源不足在大型二层网络中容易出现,MAC地址过多,老的MAC还没有老化,导致新的MAC地址学习不到。
<Sysname>display mac-address count
49 mac address(es) found
建议:
· 减小学习到的MAC的老化时间,便于MAC地址快速老化
· 优化组网,根据不同的业务或部门等划分VLAN,不同VLAN间采用三层互联。
资源不足会打印类似下述信息:
%Jul 28 16:02:24:563 2011 H3C DRVMPLS/3/L3VPN_ERR: -Chassis=2-Slot=3; L3VPN ERR: No enough resource!
(1) 查看MPLS LSP资源使用情况。
<Sysname>display mpls lsp statistics
Lsp Type Total Ingress Transit Egress
STATIC LSP 0 0 0 0
STATIC CRLSP 0 0 0 0
LDP LSP 3 1 0 2
CRLDP CRLSP 0 0 0 0
RSVP CRLSP 0 0 0 0
BGP LSP 0 0 0 0
ASBR LSP 0 0 0 0
BGP IPV6 LSP 0 0 0 0
-------------------------------------------------------------------------
LSP 3 1 0 2
CRLSP 0 0 0 0
(2) 如MPLS LSP资源不足,请搜集信息并发送给技术支持人员协助分析。
命令 |
说明 |
display acl resource |
显示ACL资源的使用情况 |
display cpu-usage |
显示CPU利用率的统计信息。用于查询CPU占用率高的任务 |
display cpu-usage history |
以图形方式显示CPU利用率统计历史信息 |
display interface |
显示指定接口的信息。检查接口的流量是否正常 |
display mac-address |
显示MAC地址表信息。检查MAC地址表项的数量是否过多 |
display mpls lsp statistics |
查看MPLS LSP资源使用情况 |