手册下载
02-H3C 小贝交换机通用故障处理手册-整本手册.pdf (817.50 KB)
H3C 小贝交换机通用故障处理手册
资料版本:6W100-20251215
Copyright © 2025 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
目录
本文档介绍了交换机软、硬件常见故障的诊断及处理措施。
本文档不严格和具体的软硬件版本对应。
设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。
在进行故障诊断和处理时,请注意以下事项:
· 设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。
¡ 记录具体的故障现象、故障时间、配置信息。
¡ 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
¡ 收集设备的日志信息和诊断信息(收集方法见1.2 收集设备运行信息)。
¡ 记录设备故障时指示灯的状态,或给现场设备拍照记录。
¡ 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
¡ 记录故障处理过程中配置的所有命令行显示信息。
· 更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。
· 故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。
为方便故障快速定位,请使用命令:
· info-center enable开启信息中心,缺省情况下信息中心处于开启状态。
· info-center logfile enable允许日志信息输出到日志文件。缺省情况下,允许日志信息输出到日志文件。
· info-center diagnostic-logfile enable开启诊断日志同步保存功能,缺省情况下,诊断日志同步保存功能处于开启状态。
设备运行过程中会产生记录设备日常信息及运行状态的普通日志和诊断日志。普通日志以普通日志文件的形式存储在当前主设备的flash:/logfile文件夹下,诊断日志以诊断日志文件的形式存储在当前主设备的flash:/diagfile文件夹下,这些日志文件可以通过FTP、TFTP、USB等方式导出。
如果IRF运行过程中发生过主设备和备设备的角色倒换,则倒换前的主设备和倒换后的主设备上都会存在普通日志文件、诊断日志文件,请按照成员设备编号来命名文件夹,将不同成员设备导出的普通日志文件和诊断日志文件有序的保存至存储路径,以免不同成员设备记录的日志信息相互混淆,影响管理员监控设备运行情况和诊断网络故障。
表1-1 日志文件介绍
|
分类 |
文件名 |
内容 |
|
普通日志文件 |
logfile.log |
设备运行中执行的命令行、发生的事件、状态的变化等信息 |
|
诊断日志文件 |
diagfile.log |
设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、设备无法启动时的信息、成员设备间通信异常时的握手信息 |
|
诊断信息 |
XXX.tar.gz |
系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等 |
(1) 执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在flash的logfile目录中。
<Sysname> logfile save
The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log
(2) 查看各成员设备中日志文件名称。
¡ 主设备logfile日志:
<Sysname> dir flash:/logfile/
Directory of flash:/logfile
0 -rw- 21863 Jul 11 2015 16:00:37 logfile.log
251904 KB total (147468 KB free)
¡ 从设备(slot 2)上的logfile日志:
<Sysname> dir slot2#flash:/logfile/
Directory of slot2#flash:/logfile
0 -rw- 21863 Jul 11 2015 16:00:37 logfile.log
251904 KB total (147468 KB free)
(3) 使用FTP、TFTP或者USB接口将日志文件传输到指定位置。
(1) 执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在flash的diagfile目录中。
<Sysname> diagnostic-logfile save
The contents in the diagnostic log file buffer have been saved to the file flash:/diagfile/diagfile.log
(2) 查看各成员设备中诊断日志文件的名称。
¡ 主设备diagfile日志:
<Sysname> dir flash:/diagfile/
Directory of flash:/diagfile
0 -rw- 161321 Jul 11 2015 16:16:00 diagfile.log
251904 KB total (147468 KB free)
¡ 从设备(slot 2)上的diagfile日志:
<Sysname> dir slot2#flash:/diagfile/
Directory of slot2#flash:/diagfile
0 -rw- 161321 Jul 11 2015 16:16:00 diagfile.log
251904 KB total (147468 KB free)
(3) 使用FTP或者TFTP接口将日志文件传输到指定位置。
诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。
需要注意的是,成员设备越多,诊断信息收集的时间越长,信息收集期间不能输入命令,请耐心等待。
通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口或管理口的情况下,建议通过业务网口或管理口登录和传输文件。
(1) 执行display diagnostic-information命令收集诊断信息。
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N] :
(2) 选择将诊断信息保存至文件中,还是将直接在屏幕上显示。
¡ 输入Y,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。
Save or display diagnostic information (Y=save, N=display)? [Y/N] : Y
Please input the file name(*.tar.gz)[flash:/diag_Sysname_20160101-000704.tar.gz] :flash:/diag.tar.gz
Diagnostic information is outputting to flash:/diag.tar.gz.
Please wait...
Save successfully.
<Sysname> dir flash:/
Directory of flash:
……
6 -rw- 898180 Jun 26 2013 09:23:51 diag.tar.gz
251904 KB total (147468 KB free)
¡ 输入N,将诊断信息直接显示在屏幕上(诊断信息的显示随设备型号和版本不同有所差异,请以实际情况为准)。
Save or display diagnostic information (Y=save, N=display)? [Y/N] :N
===============================================
===============display clock===============
23:49:53 UTC Tue 01/01/2016
=================================================
---- More ----
当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。
用户支持邮箱:[email protected]
针对客户的项目,提供有针对性的开局指导,规范开局配置,提前消除开局隐患,杜绝低级配置错误,保证项目的顺利进行。
另外,由于产品支持多种组网应用,各个局点的配置均不尽相同。本自检表检查一个比较全面的开局组网,实际开局时可以根据具体情况采用实际应用部分进行自检。
|
编码 |
检查项目 |
检查分项目 |
检查方法 |
结 果 |
备 注 |
|
1 |
环境及设备硬件状态检查 |
环境状况 |
display environment |
□合格 □不合格 □不涉及 |
设备当前温度应比一般级高温告警门限低20度左右。 |
|
风扇状况 |
display fan |
□合格 □不合格 □不涉及 |
风扇应该显示Normal。 |
||
|
电源状况 |
display power |
□合格 □不合格 □不涉及 |
电源应该显示Normal。 |
||
|
指示灯状况 |
观察所有设备的运行灯及告警灯的运行状况 |
□合格 □不合格 □不涉及 |
设备运行灯应正常,告警灯应常灭。 |
||
|
设备运行状况 |
display device |
□合格 □不合格 □不涉及 |
不应出现absent/fault状态 |
||
|
2 |
双主控设备自检 |
主备板软件版本是否一致? |
display boot-loader |
□合格 □不合格 □不涉及 |
确保主备板的软件版本一致。 |
|
备用主控板是否保存有配置文件? |
使用命令dir |
□合格 □不合格 □不涉及 |
如果不存在配置文件,请执行save命令保存。 |
||
|
3 |
CPU占用率 |
CPU的占用率是否忽高忽低?震荡比较大或者一直高? |
多次使用display cpu-usage查看 |
□合格 □不合格 □不涉及 |
如果CPU占用率过高,请打开debug ip packet查看上CPU报文,根据报文分析原因。 |
|
4 |
内存占用率 |
设备/主控板/业务板内存占用率是否过高 |
display memory |
□合格 □不合格 □不涉及 |
排查占用内存过大的模块。 |
|
5 |
端口自检 |
端口是否协商出了半双工? |
display interface brief |
□合格 □不合格 □不涉及 |
例如:如果显示某个端口状态为half,需要确认是否两端配置不一致导致。 |
|
是否在没有必要启动流控端口配置流控? |
查看配置,是否开启flow-control 配置 |
□合格 □不合格 □不涉及 |
关闭该端口流控:undo flow-control。 |
||
|
端口出/入方向是否有大量的错误报文? |
多次执行display interface,查看errors部分是否有较大数据,并且在增加 |
□合格 □不合格 □不涉及 |
1:检查线路和中间连接的光电连接器。 2:两端配置是否一致?例如,是否一端为强制而对端为协商? |
||
|
是否有比较频繁的端口UP/DOWN? |
display logbuffer |
□合格 □不合格 □不涉及 |
1:检查线路和中间连接的光电连接器。 2:端口检查光功率是否处于临界值? 3:检查两端配置是否一致? |
||
|
6 |
光口自检 |
光口两端是否配置一致? |
display current-configuration interface |
□合格 □不合格 □不涉及 |
H3C设备与其它厂商设备互连,建议光口速率和双工设置要完全一致。 |
|
光口是否有CRC错误?是否在增长? |
display interface |
□合格 □不合格 □不涉及 |
检查光功率是否处于临界值?可以通过更换光模块、更换尾纤或清洗光模块连接器的方式解决。 |
||
|
7 |
Trunk端口的配置自检 |
端口PVID是否和对端的PVID一致? |
display current-configuration interface |
□合格 □不合格 □不涉及 |
两台设备之间互连的Trunk端口允许通过的VLAN配置为一致,并且两端PVID配置为一致。 |
|
端口允许通过的VLAN是否和对端允许通过的VLAN一致? |
display current-configuration interface |
□合格 □不合格 □不涉及 |
两台设备之间互连的Trunk端口允许通过的VLAN配置为一致,避免一端配置为允许所有VLAN通过,另外一端没有配置允许所有VLAN通过。 |
||
|
两台设备互连的端口是否一端配置成Trunk,另一端配置成Access? |
display current-configuration interface |
□合格 □不合格 □不涉及 |
根据实际组网情况调整两端的配置到一致状态。 |
||
|
VLAN 1中是否存在环路? |
使用display interface命令查看是否所有设备的Trunk端口都允许VLAN 1通过 |
□合格 □不合格 □不涉及 |
根据网络实际情况调整,在不需要VLAN 1通过的端口上取消允许VLAN 1通过。 |
||
|
8 |
STP自检 |
检查STP时间因子的设置情况? |
display current-configuration |
□合格 □不合格 □不涉及 |
查看配置中是否存在stp timer-factor的配置,如果不存在,建议配置stp timer-factor的值在5~7之间,增加STP的稳定性。 |
|
设备连接PC的端口是否配置为边缘端口? |
使用display current interface命令查看端口的配置,如果配置了边缘端口,配置中会有stp edged-port enable的显示 |
□合格 □不合格 □不涉及 |
建议您将设备连接PC的端口配置为边缘端口或者关闭该端口的STP功能,将设备与不支持STP的设备相连的端口关闭STP,避免这些端口的UP/DOWN状态干扰STP的计算。 |
||
|
是否存在运行MSTP/STP/RSTP的H3C设备和运行PVST+的思科设备互通的情况? |
检查各个设备上STP的状态计算是否正常 |
□合格 □不合格 □不涉及 |
如果存在,建议将H3C设备与思科设备的互连方式改为三层互连,避免MSTP/STP/RSTP和思科私有的PVST+协议互通。 |
||
|
不同生成树实例的拓扑是否存在过多重叠路径? |
使用display current-configuration interface查看端口配置 |
□合格 □不合格 □不涉及 |
根据实际组网需求合理划分VLAN和VLAN与实例的映射关系,尽量使不同VLAN的流量沿不同路径转发。避免不同生成树实例的拓扑有过多重叠路径。 |
||
|
是否存在TC攻击,导致端口STP状态不停切换? |
使用display stp tc,display stp history命令查看端口收发的TC报文计数和STP状态切换时间记录 |
□合格 □不合格 □不涉及 |
确认设备和PC连接的端口配置stp edged-port enable或者关闭STP。设备和不支持STP的设备互连的端口关闭STP。 |
||
|
9 |
VRRP自检 |
握手时间是否设置成3秒?两端的VRRP握手时间是否一致? |
display vrrp |
□合格 □不合格 □不涉及 |
如果VRRP组在5个以下可以统一将VRRP握手时间改为3秒,如果VRRP组过多,可以将VRRP分为五个或三个一组,每组的VRRP握手时间分别配置为3秒、5秒、7秒…… |
|
10 |
OSPF自检 |
是否有设备Router ID设置成相同? |
display ospf peer |
□合格 □不合格 □不涉及 |
如果存在这个问题,会导致路由学习错误,需要修改Route ID后,执行reset ospf process命令重启OSPF进程。 |
|
是否有大量错误? |
display ospf statistics error |
□合格 □不合格 □不涉及 |
如果存在大量的OSPF统计错误信息记录,并且还在不断增加,需要抓取信息进一步分析。 |
||
|
路由是否存在较大震荡? |
display ip routing-table statistics 查看added和deleted数据与系统运行时间对应是否比较大 |
□合格 □不合格 □不涉及 |
如果有,请仔细分析变化的具体路由,然后根据该路由查找到路由的源设备,分析具体震荡原因。可以在出现故障时,使用display ospf lsdb命令多次查看路由的age信息,确认哪条路由在频繁振荡。 |
||
|
OSPF状态是否稳定? |
display ospf peer |
□合格 □不合格 □不涉及 |
查看OSPF邻居的UP时间。 |
||
|
11 |
ARP检查 |
是否存在大量ARP冲突? |
display logbuffer |
□合格 □不合格 □不涉及 |
检查冲突地址,根据IP地址排除该主机。 |
|
12 |
路由检查 |
缺省路由是否正常? 是否存在路由环路? |
使用tracert 1.1.1.1等明显不存在网段看是否存在路由环路,使用debug ip packet,打印部分报文,看是否存在TTL=1或者=0的报文 |
□合格 □不合格 □不涉及 |
如果存在路由环路,请检查对应的设备是否配置正确。调整路由,去掉路由环路。如果存在TTL超时报文,请分析对应网段路由是否正常。 |
|
14 |
攻击检查 |
是否有大量报文攻击cpu? |
通过Probe视图下debug rxtx softcar show命令查看设备的报文限速信息记录 |
□合格 □不合格 □不涉及 |
某类报文的统计计数不断增长,说明有攻击存在。 |
不同产品支持的命令行有所不同。对于上述自检项,可能存在产品不支持相关命令的情况,请根据产品实际情况进行自检。
设备上电启动时,配置终端无显示或显示乱码。
本类故障的常见原因主要包括:
· 电源工作异常。
· 主控板工作异常。
· 配置电缆未连接到设备/主控板的配置口。
· 配置终端参数设置错误。
· 配置电缆故障。
本类故障的诊断流程如图3-1所示:
(1) 检查电源工作是否正常。
如果电源模块指示灯状态异常,请参考电源故障处理章节进行处理。
(2) 检查主控板工作是否正常。
如果主控板指示灯状态异常,请参考主控板故障处理章节进行处理。
(3) 检查配置电缆是否已经连接到设备/主控板的配置口。
(4) 检查配置终端COM口连接是否正确,实际选择的串口与终端设置的串口要一致,串口参数设置是否正确。
串口参数如下:波特率为9600,数据位为8,奇偶校验为无,停止位为1,流量控制为无,选择终端仿真为VT100。不同设备配置的串口参数请以设备实际情况为准。
(5) 更换配置电缆。
(6) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
设备在运行中发生异常重启。
本类故障的常见原因启动文件故障。
本类故障的诊断流程如图3-2所示:
(1) 查看设备重启后能否进入命令行状态
若设备能够进入命令行状态,请使用display diagnostic-information命令收集设备的诊断信息,待收集完成后,将设备信息导出后发给H3C技术人员寻求支持。
执行display diagnostic-information命令时,可指定key-info参数仅收集关键诊断信息,从而减少收集时间。
(2) 检查启动文件是否正常
若设备无法进入命令行状态,请通过Console口连接设备后再次重启设备,如果BootWare提示CRC错误或者找不到启动文件,请使用BootWare菜单重新下载启动文件,并设置该文件为当前启动文件(在BootWare加载过程中,BootWare能自动将该文件设置为当前启动文件)。
(3) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
系统出现温度告警,打印温度过高等告警信息,例如:
%Jun 26 10:13:46:233 2013 H3C DRVPLAT/4/DrvDebug: Temperature of the board is too high!
本类故障的常见原因主要包括:
· 机房通风不畅或空调制冷故障等造成环境温度过高。
· 设备风扇故障或出入风口被异物堵塞。
· 设备防尘网积灰过多。
· 温度告警门限设置过低。
· 软件获取温度数据失败,错误告警。
本类故障的诊断流程如图3-3所示:
(1) 检查环境温度是否过高
如果温度过高,请增加空调或者采取其他散热措施降低环境温度。
(2) 检查设备温度是否过高
执行display environment命令查看设备当前温度值。若显示为255,则表示软件获取温度数据失败。可多次执行display environment命令至温度数据正常显示后,判断设备温度是否过高。
若是设备温度过高(设备温度超过一般级高温告警门限),确认设备风扇是否正常并检查出入风口是否被异物堵塞。
使用display fan命令查看风扇是否运行正常。
(3) 检查防尘网是否洁净
如果风扇正常,则检查防尘网是否洁净。清理防尘网后,看温度是否能恢复正常。
(4) 重新设置温度告警门限
使用temperature-limit命令重新设置温度告警门限值。通过display environment命令可以查看温度告警门限是否设置成功。请注意,本步骤需要在研发人员的指导下进行操作,避免告警门限值设置的不合理。
(5) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
· TEMP_HIGH
· TEMP_LOW
· TEMP_NORMAL
· TEMPERATURE_ALARM
· TEMPERATURE_LOW
· TEMPERATURE_NORMAL
· TEMPERATURE_POWEROFF
· TEMPERATURE_SHUTDOWN
· TEMPERATURE_WARNING
系统打印内存异常告警信息,例如:
DIAG/1/MEM_EXCEED_THRESHOLD: Memory minor threshold has been exceeded.
· 设备正在执行一些文件类操作。
· 设备出现内存泄露。
本类故障的诊断流程如图3-4所示:
(1) 确定各内存块使用情况
通过Probe视图下的display system internal kernel memory pool命令查看各块内存使用情况,找出使用率不正常和不断增加的内存模块。
<Sysname> system-view
[Sysname] probe
[Sysname-probe] display system internal kernel memory pool slot 1
Active Number Size Align Slab Pg/Slab ASlabs NSlabs Name
9126 9248 64 8 32 1 289 289 kmalloc-64
105 112 16328 0 2 8 54 56 kmalloc-16328
14 14 2097096 0 1 512 14 14 kmalloc-2097096
147 225 2048 8 15 8 12 15 kmalloc-2048
7108 7232 192 8 32 2 226 226 kmalloc-192
22 22 524232 0 1 128 22 22 kmalloc-524232
1288 1344 128 8 21 1 64 64 kmalloc-128
0 0 67108808 0 1 16384 0 0 kmalloc-67108808
630 651 4096 8 7 8 93 93 kmalloc-4096
68 70 131016 0 1 32 68 70 kmalloc-131016
1718 2048 8 8 64 1 31 32 kmalloc-8
1 1 16777160 0 1 4096 1 1 kmalloc-16777160
2 15 2048 0 15 8 1 1 sgpool-64
0 0 40 0 42 1 0 0 inotify_event_cache
325 330 16328 8 2 8 165 165 kmalloc_dma-16328
0 0 72 0 30 1 0 0 LFIB_IlmEntryCache
0 0 1080 0 28 8 0 0 LFIB_IlmEntryCache
0 0 1464 0 21 8 0 0 MFW_FsCache
1 20 136 0 20 1 1 1 L2VFIB_Ac_cache
0 0 240 0 25 2 0 0 CCF_JOBDESC
0 0 88 0 26 1 0 0 NS4_Aggre_TosSrcPre
0 0 128 0 21 1 0 0 IPFS_CacheHash_cachep
---- More ----
请重点查看Number列和Size列的统计结果。如果发现某块内存在不停增加,那么表示该块内存在被不断使用。需要注意的是:
¡ 有些内存块使用率的增加是正常的,例如设备正在上传大文件或配置启动文件,也可能造成内存告警,此时可观察内存能否快速恢复。
¡ Number*Size是某个模块使用的内存大小。判断内存使用率是否正常可能需要持续观察内存增长速度和内存使用的多少,进行综合分析判断。
¡ 有些内存的泄漏过程比较缓慢,所以需要比较长的时间(甚至是几周的时间)来对比观察。
(2) 收集信息并寻求技术支持
通过上述步骤只是确定了问题的范围,但还需继续收集信息以确定具体的故障。由于后续信息收集要求较高,不建议用户操作,请与H3C的技术支持工程师联系。
需要注意的是,请不要重启设备,否则会将故障信息破坏,给故障定位带来困难。
无
· MEM_ALERT
· MEM_EXCEED_THRESHOLD
· MEM_BELOW_THRESHOLD
连续使用命令display cpu-usage查看CPU的占用率。如果CPU占用率持续在70%以上,说明有某个任务长时间占用CPU,需要确认CPU高的具体原因。
<Sysname> display cpu-usage
Slot 1 CPU 0 CPU usage:
70% in last 5 seconds
70% in last 1 minute
70% in last 5 minutes
本类故障的常见原因主要包括:
· 路由振荡
· 报文攻击
· 链路环路
本类故障的诊断流程如图3-5所示:
图3-5 CPU占用率高故障诊断流程图
(1) 检查是否发生路由振荡
路由表中条目频繁变化,可能导致CPU占用率过高。当发生路由震荡时,请收集信息并联系H3C技术人员寻求技术支持。
首次查看路由表:
[Sysname] display ip routing-table
Destinations : 9 Routes : 9
Destination/Mask Proto Pre Cost NextHop Interface
0.0.0.0/32 Direct 0 0 127.0.0.1 InLoop0
10.1.1.0/24 OSPF 150 1 11.2.1.1 Vlan100
127.0.0.0/8 Direct 0 0 127.0.0.1 InLoop0
127.0.0.0/32 Direct 0 0 127.0.0.1 InLoop0
127.0.0.1/32 Direct 0 0 127.0.0.1 InLoop0
127.255.255.255/32 Direct 0 0 127.0.0.1 InLoop0
224.0.0.0/4 Direct 0 0 0.0.0.0 NULL0
224.0.0.0/24 Direct 0 0 0.0.0.0 NULL0
255.255.255.255/32 Direct 0 0 127.0.0.1 InLoop0
再次查看路由表:
[Sysname] display ip routing-table
Destinations : 8 Routes : 8
Destination/Mask Proto Pre Cost NextHop Interface
0.0.0.0/32 Direct 0 0 127.0.0.1 InLoop0
127.0.0.0/8 Direct 0 0 127.0.0.1 InLoop0
127.0.0.0/32 Direct 0 0 127.0.0.1 InLoop0
127.0.0.1/32 Direct 0 0 127.0.0.1 InLoop0
127.255.255.255/32 Direct 0 0 127.0.0.1 InLoop0
224.0.0.0/4 Direct 0 0 0.0.0.0 NULL0
224.0.0.0/24 Direct 0 0 0.0.0.0 NULL0
255.255.255.255/32 Direct 0 0 127.0.0.1 InLoop0
(2) 检查是否受到报文攻击
部分机型Probe视图下支持debug rxtx softcar show命令,可以查看软件收包是否堵塞丢包。
<Sysname> system-view
[Sysname] probe
[Sysname-probe] debug rxtx softcar show slot 1
ID Type RcvPps Rcv_All DisPkt_All Pps Dyn Swi Hash ACLmax
0 ROOT 0 0 0 300 S On SMAC 0
1 ISIS 0 0 0 200 D On SMAC 8
2 ESIS 0 0 0 100 S On SMAC 8
3 CLNP 0 0 0 100 S On SMAC 8
4 VRRP 0 0 0 1024 S On SMAC 8
5 UNKNOWN_IPV4MC 0 0 0 100 S On SMAC 8
6 UNKNOWN_IPV6MC 0 0 0 100 S On SMAC 8
7 IPV4_MC_RIP 0 0 0 150 D On SMAC 8
8 IPV4_BC_RIP 0 0 0 150 D On SMAC 8
9 MCAST_NTP 0 0 0 100 S On SMAC 8
10 BCAST_NTP 0 0 0 100 S On SMAC 8
如果某类报文的统计计数在不断增长,说明有攻击存在,可通过抓包确认攻击源。在设备端口抓包,使用报文捕获工具(如Sniffer、Wireshark、WinNetCap等)分析报文特征,确认攻击源。然后针对攻击源配置报文防攻击。关于报文防攻击的详细介绍和配置,请参见“安全配置指导”中的“攻击检测与防范”。
(3) 检查是否存在链路环路
链路存在环路时,可能出现广播风暴和网络振荡,大量的协议报文上送CPU处理可能导致CPU占用率升高,设备很多端口的流量会变得很大,端口使用率达到90%以上:
<Sysname> display interface gigabitethernet3/0/1
GigabitEthernet3/0/1
Current state: UP
Line protocol state: UP
Description: GigabitEthernet3/0/1 Interface
Bandwidth: 1000000 kbps
Maximum transmission unit: 1500
Internet address: 2.1.1.2/24 (primary)
IP packet frame type: Ethernet II, hardware address: 0000-fc00-9276
IPv6 packet frame type: Ethernet II, hardware address: 0000-fc00-9276
Loopback is not set
Media type is twisted pair, port hardware type is 1000_BASE_T
Port priority: 0
1000Mbps-speed mode, full-duplex mode
Link speed type is autonegotiation, link duplex type is autonegotiation
Flow-control is not enabled
Maximum frame length: 9216
Last clearing of counters: Never
Peak input rate: 8 bytes/sec, at 2016-03-19 09:20:48
Peak output rate: 1 bytes/sec, at 2016-03-19 09:16:16
Last 300 second input: 26560 packets/sec 123241940 bytes/sec 99%
Last 300 second output: 0 packets/sec 0 bytes/sec 0%
……
如链路出现环路:
¡ 排查链路连接、端口配置是否正确。
¡ 对于二层口,是否使能STP协议,配置是否正确。
¡ 对于二层口,邻接设备STP状态是否正常。
¡ 如以上配置均正确,可能为STP协议计算错误或协议计算正确但端口驱动层没有正常Block阻塞,可以shutdown环路上端口、拔插端口让STP重新计算来快速恢复业务。
(4) 确定CPU占用率高的任务
如果通过上述步骤无法解决故障,请通过display process cpu命令观察占用CPU最多的任务。
<Sysname> display process cpu slot 1
CPU utilization in 5 secs: 2.4%; 1 min: 2.5%; 5 mins: 2.4%
JID 5Sec 1Min 5Min Name
1 0.0% 0.0% 0.0% scmd
2 0.0% 0.0% 0.0% [kthreadd]
3 0.0% 0.0% 0.0% [migration/0]
4 0.0% 0.0% 0.0% [ksoftirqd/0]
5 0.0% 0.0% 0.0% [watchdog/0]
6 0.0% 0.0% 0.0% [migration/1]
7 0.0% 0.0% 0.0% [ksoftirqd/1]
8 0.0% 0.0% 0.0% [watchdog/1]
9 0.0% 0.0% 0.0% [migration/2]
10 0.0% 0.0% 0.0% [ksoftirqd/2]
11 0.0% 0.0% 0.0% [watchdog/2]
……
各列分别表示某任务平均5sec、1min、5min占用CPU的百分比和任务名。某任务占用率越高,说明相应的任务占用CPU的资源越多。正常情况任务对CPU的占用率一般低于5%,这个命令可以查看明显高出正常占用率的任务。
(5) 确认异常任务的调用栈
通过Probe视图下的follow job job-id命令确认异常任务的调用栈,请查询5次以上,发送给技术支持人员分析,以便于分析该任务具体在做什么处理导致CPU占用率持续升高。此处以显示JID 145的调用栈为例。
<Sysname> system-view
[Sysname] probe
[Sysname-probe] follow job 145 slot 1
Attaching to process 145 ([dGDB])
Iteration 1 of 5
------------------------------
Kernel stack:
[<ffffffff80355290>] schedule+0x570/0xde0
[<ffffffff80355da8>] schedule_timeout+0x98/0xe0
[<ffffffff802047e4>] ep_poll+0x4b4/0x5e0
[<ffffffffc05587a8>] DRV_Sal_EVENT_Read+0x1f8/0x290 [system]
[<ffffffffc07351e4>] drv_sysm_gdb_console+0xc4/0x2d0 [system]
[<ffffffffc1a04114>] thread_boot+0x84/0xa0 [system]
[<ffffffff8015c420>] kthread+0x130/0x140
[<ffffffff801183d0>] kernel_thread_helper+0x10/0x20
Iteration 2 of 5
------------------------------
Kernel stack:
[<ffffffff80355290>] schedule+0x570/0xde0
[<ffffffff80355da8>] schedule_timeout+0x98/0xe0
[<ffffffff802047e4>] ep_poll+0x4b4/0x5e0
[<ffffffffc05587a8>] DRV_Sal_EVENT_Read+0x1f8/0x290 [system]
[<ffffffffc07351e4>] drv_sysm_gdb_console+0xc4/0x2d0 [system]
[<ffffffffc1a04114>] thread_boot+0x84/0xa0 [system]
[<ffffffff8015c420>] kthread+0x130/0x140
[<ffffffff801183d0>] kernel_thread_helper+0x10/0x20
Iteration 3 of 5
------------------------------
Kernel stack:
[<ffffffff80355290>] schedule+0x570/0xde0
[<ffffffff80355da8>] schedule_timeout+0x98/0xe0
[<ffffffff802047e4>] ep_poll+0x4b4/0x5e0
[<ffffffffc05587a8>] DRV_Sal_EVENT_Read+0x1f8/0x290 [system]
[<ffffffffc07351e4>] drv_sysm_gdb_console+0xc4/0x2d0 [system]
[<ffffffffc1a04114>] thread_boot+0x84/0xa0 [system]
[<ffffffff8015c420>] kthread+0x130/0x140
[<ffffffff801183d0>] kernel_thread_helper+0x10/0x20
Iteration 4 of 5
------------------------------
Kernel stack:
[<ffffffff80355290>] schedule+0x570/0xde0
[<ffffffff80355da8>] schedule_timeout+0x98/0xe0
[<ffffffff802047e4>] ep_poll+0x4b4/0x5e0
[<ffffffffc05587a8>] DRV_Sal_EVENT_Read+0x1f8/0x290 [system]
[<ffffffffc07351e4>] drv_sysm_gdb_console+0xc4/0x2d0 [system]
[<ffffffffc1a04114>] thread_boot+0x84/0xa0 [system]
[<ffffffff8015c420>] kthread+0x130/0x140
[<ffffffff801183d0>] kernel_thread_helper+0x10/0x20
Iteration 5 of 5
------------------------------
Kernel stack:
[<ffffffff80355290>] schedule+0x570/0xde0
[<ffffffff80355da8>] schedule_timeout+0x98/0xe0
[<ffffffff802047e4>] ep_poll+0x4b4/0x5e0
[<ffffffffc05587a8>] DRV_Sal_EVENT_Read+0x1f8/0x290 [system]
[<ffffffffc07351e4>] drv_sysm_gdb_console+0xc4/0x2d0 [system]
[<ffffffffc1a04114>] thread_boot+0x84/0xa0 [system]
[<ffffffff8015c420>] kthread+0x130/0x140
[<ffffffff801183d0>] kernel_thread_helper+0x10/0x20
(6) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
· CPU_STATE_NORMAL
· CPU_MINOR_RECOVERY
· CPU_MINOR_THRESHOLD
· CPU_SEVERE_RECOVERY
· CPU_SEVERE_THRESHOLD
支持USB口的机型,USB工作不正常。
本类故障的常见原因主要包括:
· USB设备故障。
· USB口无法识别插入的USB设备。
本类故障的诊断流程如图3-6所示:
图3-6 USB状态异常故障诊断流程图
(1) 查看设备USB的信息,检查USB状态是否正常
<Sysname> display device usb
slot 1:
Device Name : usba
State : Absent
如果USB状态显示为Absent,则表示设备的USB口未识别插入的USB设备。
(2) 尝试更换其他USB设备插入设备USB口
(3) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
· 电源模块状态指示灯异常或者电源运行中上报Fault。
本类故障的常见原因主要包括:
· 电源模块型号和主机不匹配。
· 电源模块安装不到位。
· 电源线缆没有插牢。
· 电源模块温度过高。
· 电源模块故障。
本类故障的诊断流程如图3-7所示。
(1) 检查电源模块的型号是否和主机型号匹配。
(2) 检查设备连接的供电系统:确认供电系统正常供电,电压正常。
(3) 通过电源模块上的指示灯初步判断电源模块是否存在输出短路、输出过流、输出过压、输入欠压、温度过高等问题。不同主机电源指示灯状态有所差异,具体请参见相应主机的硬件手册。
(4) 检查电源模块状态。
(5) 使用display power命令显示电源模块状态,查看是否存在Fault、Error或Absent状态的电源模块。
<Sysname> display power
Slot 1:
PowerID State Mode Current(A) Voltage(V) Power(W)
1 Normal DC -- -- 0
2 Fault AC -- -- 0
(6) 如果电源模块状态为Absent,请按如下子步骤进行定位处理。
a. 请将该电源模块拆卸后重新安装,重新安装前请检查电源连接器是否完好。
b. 重新安装后,该电源模块的状态未恢复为Normal,则请将该电源模块与正常的电源模块更换槽位再做一次交叉验证。
c. 如果该电源模块仍然显示为Absent,则请更换新的电源模块。
d. 更换新的电源模块后,此故障仍然存在,请执行步骤7。
(7) 如果电源模块状态为Fault或Error,请按如下子步骤进行定位处理。
a. 检查电源线是否脱落或者是否正确连接。
b. 如果电源线连接正常,交叉验证下电源线是否故障。
c. 如果电源线正常,可能是电源模块本身温度过高导致。请查看电源模块积灰情况,如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。
d. 重新安装后,电源模块状态未恢复为Normal,请将该电源模块与正常的电源模块更换槽位做一次交叉验证。
e. 如果该电源模块仍然显示为Fault状态,请更换电源模块。
f. 更换新电源模块后,此故障仍然存在,请执行步骤7。
(8) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
· DEV/2/POWER_FAILED
· DEV/3/POWER_ABSENT
支持接口模块扩展卡的机型,接口模块扩展卡工作不正常。
· 设备不支持该类型的扩展卡
· 扩展卡没有安装牢固
· 设备的扩展卡接口故障
本类故障的诊断流程如图3-8所示:
(1) 检查设备是否支持该扩展卡
查看设备配套的安装指导或硬件描述手册,查看设备所支持的扩展卡型号。若不支持,请更换支持的扩展卡型号。
(2) 检查扩展卡是否安装牢固
若未安装牢固,请拆卸扩展卡后重新安装牢固,并查看设备是否能够获取扩展卡信息。若能够获取,表示扩展状态正常。
<sysname> display device manuinfo slot 1
Subslot 1:
DEVICE_NAME : LSWM2SP2PB
DEVICE_SERIAL_NUMBER : 210231A9UFM186A0000R
MANUFACTURING_DATE : 2018-06-19
VENDOR_NAME : H3C
…(略)
(3) 检查设备扩展卡接口是否故障
若设备存在多个扩展卡接口,将该扩展卡插入的其他接口上并查看扩展卡状态是否正常,
若正常,表示扩展卡接口故障,请联系H3C技术支持。
(4) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
· SUBCARD_FAULT
· SUBCARD_INSERTED
· SUBCARD_REBOOT
· SUBCARD_REMOVED
通过display interface查看到端口存在CRC错包。
<Sysname> display interface gigabitethernet3/0/1
GigabitEthernet3/0/1
Current state: DOWN
Line protocol state: DOWN
Description: GigabitEthernet3/0/1 Interface
Bandwidth: 1000000 kbps
Maximum transmission unit: 1500
Internet address: 2.1.1.2/24 (primary)
IP packet frame type: Ethernet II, hardware address: 0000-fc00-9276
IPv6 packet frame type: Ethernet II, hardware address: 0000-fc00-9276
Loopback is not set
Media type is twisted pair, port hardware type is 1000_BASE_T
Port priority: 0
1000Mbps-speed mode, full-duplex mode
Link speed type is autonegotiation, link duplex type is autonegotiation
Flow-control is not enabled
Maximum frame length: 9216
Last clearing of counters: Never
Peak input rate: 8 bytes/sec, at 2019-03-19 09:20:48
Peak output rate: 1 bytes/sec, at 2019-03-19 09:16:16
Last 300 second input: 0 packets/sec 0 bytes/sec -%
Last 300 second output: 0 packets/sec 0 bytes/sec -%
Input (total): 2892 packets, 236676 bytes
24 unicasts, 2 broadcasts, 2866 multicasts, 0 pauses
Input (normal): 2892 packets, - bytes
24 unicasts, 2 broadcasts, 2866 multicasts, 0 pauses
Input: 0 input errors, 0 runts, 0 giants, 0 throttles
3 CRC, 0 frame, - overruns, 0 aborts
- ignored, - parity errors
Output (total): 29 packets, 1856 bytes
24 unicasts, 5 broadcasts, 0 multicasts, 0 pauses
Output (normal): 29 packets, - bytes
24 unicasts, 5 broadcasts, 0 multicasts, 0 pauses
Output: 0 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
0 lost carrier, - no carrier
以上显示信息表明,入端口出现了CRC错包。
· 端口与电缆连接器物理连接有虚插现象。
· 端口异常。
· 电缆连接器损坏。
· 光模块、光纤有污染或连接不好。
· 光功率不足。
· 中间链路或设备故障。
· 设备硬件故障。
本类故障的诊断流程如图3-9所示。
(1) 端口进行内部环回检查。
在端口下配置loopback internal命令开启内部环回功能,然后通过display interface查看端口CRC错包统计是否增长。如果增长,则可能是设备硬件故障,请联系技术支持人员。如果不增长,则不是端口内部问题。
(2) 检查端口与电缆连接器是否有异常。
a. 检查端口和电缆连接器的物理连接是否有虚插。若有虚插,请正确连接端口和电缆连接器。
b. 检查端口是否异常,比如端口内存在异物,端口的PIN针有弯针,端口的外壳变形等异常。若有异常,需要更换其他正常端口或光模块。
c. 检查电缆连接器是否出现损坏现象。若有损坏现象,请更换电缆。
(3) 检查光模块是否有异常。
a. 使用光纤将该端口的光模块Tx端和Rx端连接,然后通过display interface查看端口CRC错包统计是否增长。如果增长,则可能是光模块的问题。如果不增长,则不是该光模块问题。
b. 通过display transceiver alarm命令查看光模块是否有Rx_Los或Tx_Fault告警信息,若有告警信息,需要清洁或更换光纤、光模块。
c. 通过display transceiver diagnosis命令查看光模块的接收功率和发送功率是否在规定的最大值和最小值的范围内,若有接收或发送的功率超出范围,需要清洁或更换光纤、光模块。
(4) 更换正常端口测试是否能恢复正常。
更换其他正常的端口测试,如果端口更换后错包消失,端口更换回来错包又再次出现,则为端口硬件故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则中间传输链路故障的可能性较大。
(5) 检查中间传输链路是否正常。
使用仪器测试中间链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。检查互连中间链路设备(光转,转接架,传输等设备)是否正常。若中间传输链路故障,请更换或恢复中间传输链路。
(6) 执行shutdown命令,再执行undo shutdown命令,查看端口是否能恢复正常。
(7) 检查端口是否收到大量流控帧
通过display interface命令,查看端口pauses帧计数,如果在不断增长,表明端口发出或者收到了大量的流控帧。检查下端口出入流量是否过大及对端设备的流量处理能力。
(8) 如果故障仍然未能排除,可能是设备硬件故障,请收集信息,并联系技术支持人员。
无
无
端口状态为UP,不接收报文或出现丢包。
使用display interface 命令查看本端入方向的接收报文统计增长数量小于对端出方向发送报文统计增长数量。
· 端口出现CRC错误。
· 端口上的配置影响报文的接收。
· 设备硬件故障。
本类故障的诊断流程如图3-11所示。
(1) 查看端口是否出现CRC错误。
按“端口出现CRC错误”章节排查。
(2) 检查端口配置是否影响报文接收。
可通过以下步骤检查端口配置是否影响报文的接收:
¡ 通过display interface brief命令,查看端口配置是否有异常。其中包括两端的端口双工模式、端口类型以及VLAN等配置。若有异常,请更改端口属性的配置查看该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令,再次查看端口是否能恢复正常。
¡ 对于二层口,如果配置了STP功能,通过display stp brief命令,查看端口是否为discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。建议将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。
¡ 如果该端口加入了聚合组,通过display link-aggregation summary命令查看该端口是否为Selected选中状态。当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。
¡ 如果配置了ACL过滤,请根据ACL的相关配置进一步排查。
¡ 如果接口配置了PFC功能和流量控制功能,请关闭PFC功能和流量控制功能查看该故障端口是否能恢复正常。
¡ 如果接口上配置了广播/组播/未知单播风暴抑制功能,当接口上的广播/组播/未知单播流量超过用户设置的抑制阈值时,系统会丢弃超出流量限制的报文,查看接口是否配置了了广播/组播/未知单播风暴抑制功能,如果配置了,请关闭接口的风暴抑制功能查看该故障端口是否能恢复正常。
(3) 执行shutdown命令,再执行undo shutdown命令,查看端口是否能恢复正常。
(4) 如果故障仍然未能排除,可能是设备硬件故障,请收集信息,并联系技术支持人员。
无
无
端口状态为UP,但不发送报文。
使用display interface 命令查看本端出方向的发送报文统计不增长。
· 光模块异常。
· 端口上的配置影响报文的接收。
· 设备硬件故障。
本类故障的诊断流程如图3-13所示。
(1) 端口进行内部环回检查。
在端口下配置loopback internal命令开启内部环回功能,然后通过display interface查看本端出方向的发送报文统计是否增长。如果增长,则可能是设备硬件故障,请联系技术支持人员。如果不增长,则不是端口内部问题。
(2) 检查端口配置是否影响报文发送。
可通过以下步骤检查端口配置是否影响报文的发送:
¡ 对于二层口,如果配置了STP功能,通过display stp brief命令,查看端口是否为discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。建议将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。
¡ 如果该端口加入了聚合组,通过display link-aggregation summary命令查看该端口是否为Selected选中状态。当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。
¡ 如果配置了ACL过滤,请根据ACL的相关配置进一步排查。
¡ 如果接口配置了PFC功能和流量控制功能,请关闭PFC功能和流量控制功能查看该故障端口是否能恢复正常。
¡ 查看是否配置了接口出方向上阻断广播/未知组播/未知单播报文功能,某些协议(例如ARP、DHCP、RIP、IGMP等)在运行过程中会交互广播/未知组播/未知单播报文,如果配置该功能将导致这些协议报文不能通过该接口发送,请关闭该功能查看故障端口是否能恢复正常。
(3) 执行shutdown命令,再执行undo shutdown命令,查看端口是否能恢复正常。
(4) 如果故障仍然未能排除,可能是设备硬件故障,请收集信息,并联系技术支持人员。
无
无
电口连接线缆后无法正常UP。
本类故障的常见原因主要包括:
· 端口配置问题。
· 网线有问题。
· 本端或者对端端口有问题。
本类故障的诊断流程如图3-14所示:
(1) 查看网线两端对接设备网口配置(端口速率,双工,协商模式等)是否一致。执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。
需要注意的是:对于不支持半双工模式的交换机(例如S5850-54QS),当设备本端(速率双工为auto/auto模式)和对端(例如100M/FULL)协商后需要工作在half duplex,端口也不会link up。
<Sysname> display interface brief
Brief information on interfaces in route mode:
Link: ADM - administratively down; Stby - standby
Protocol: (s) – spoofing
Interface Link Protocol Primary IP Description
GE1/0/1 DOWN DOWN --
Loop0 UP UP(s) 2.2.2.9
NULL0 UP UP(s) --
Vlan1 UP UP --
Vlan999 UP UP 192.168.1.42
Brief information on interfaces in bridge mode:
Link: ADM - administratively down; Stby - standby
Speed: (a) - auto
Duplex: (a)/A - auto; H - half; F - full
Type: A - access; T - trunk; H - hybrid
Interface Link Speed Duplex Type PVID Description
GE1/0/2 DOWN auto A A 1 aaaaaaa
GE1/0/3 UP 1G(a) F(a) A 1 aaaaaaa
(2) 通过display interface命令查看端口状态Current state是否为Administratively DOWN状态,如果是,请使用undo shutdown命令激活相应的以太网端口。
<Sysname> display interface gigabitethernet 1/0/1
GigabitEthernet1/0/1
Current state: Administratively DOWN
Line protocol state: DOWN
Description: GigabitEthernet1/0/1 Interface
Bandwidth: 1000000 kbps
Maximum transmission unit: 1500
Allow jumbo frames to pass
Broadcast max-ratio: 100%
Multicast max-ratio: 100%
Unicast max-ratio: 100%
Internet protocol processing: Disabled
...
(3) 更换一根确认为好的网线,检查故障是否排除。
(4) 分别更换本端设备端口以及对端设备端口,检查故障是否排除。
(5) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
板卡插入线缆或光模块后,端口频繁UP/DOWN。
本类故障的常见原因主要包括:
· 光模块或线缆故障
· 电口自协商不稳定
本类故障的诊断流程如图3-15所示:
(1) 对于光口,需要确认光模块是否异常。通过查看光模块alarm信息来排查两者光模块以及中间光纤问题。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。
<Sysname> display transceiver alarm interface gigabitethernet 1/0/1
GigabitEthernet1/0/1 transceiver current alarm information:
RX loss of signal
RX power low
(2) 检查光模块的接收、发送光功率是否正常(即在该光模块的光功率上下门限值之内)。如果发送光功率处于临界值,请更换光纤、光模块做交叉验证;如接收光功率处于临界值,请排查对端光模块及中间光纤链路。
<Sysname> display transceiver diagnosis interface gigabitethernet 1/0/1
GigabitEthernet1/0/1 transceiver diagnostic information:
Current diagnostic parameters:
Temp(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
36 3.31 6.13 -35.64 -5.19
Alarm thresholds:
Temp(°C) Voltage(V) Bias(mA) RX power(dBM) TX power(dBM)
High 50 3.55 1.44 -10.00 5.00
Low 30 3.01 1.01 -30.00 0.00
(3) 对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。
(4) 如果故障依存在,请排查链路、对端设备、中间设备。
(5) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
光口不UP。
· 设备当前版本不支持该光模块。
· 光口有异物或光模块金手指被污染、损坏。
· 光模块与接口速率不匹配。
· 光口故障。
· 光模块或线缆故障。
· 光模块与光纤类型不匹配。
本类故障的诊断流程如图3-9所示。
图3-16 故障诊断流程图
(1) 检查设备当前版本是否支持该光模块。
可通过产品安装手册或软件版本说明书查看当前软件版本是否支持该光模块。如果有新版本支持该光模块,也可以升级软件版本。
(2) 检查光模块与端口/两端端口的速率、双工模式是否匹配。
执行display interface命令,查看端口与光模块/两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。
(3) 检查是否满足了端口的特殊配置要求。
部分交换机存在一些特殊的配置,满足这些配置后,相应端口才能UP。例如:
¡ 对于25G、100G和400G端口,部分交换机的端口下提供port fec mode { auto | none | rs-fec }命令行,用于控制FEC的模式,以使不同型号设备之间能够对接。链路两端使用的FEC模式必须一致。
¡ 对于25G端口,部分交换机的端口下提供port training { disable | enable }命令行,用于控制链路补偿功能的开关状态,以使不同型号设备之间能够对接。链路两端的链路补偿功能开启状态必须一致。
¡ 部分交换机会将端口分组,同一组中的端口速率配置需要保持一致。当用户需要修改某个端口的速率时,该配置会在同一组中的所有端口上生效。当用户使用default命令恢复当前端口的缺省配置时,端口工作速率会重置为缺省值,且该配置会在同一组中的所有端口上生效。
有关各个产品的具体配置限制,请参见“二层技术—以太网交换配置指导”或“接口管理配置指导”中的“以太网接口”。
(4) 检查光接口是否故障。
在本设备上的相同速率的光口上用匹配的线缆(适用于短距离连接)直接互连,查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端与对端端口来检查故障是否解决。
(5) 检查光模块/线缆是否异常。
可通过如下步骤检查光模块/线缆是否异常:
a. 可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,可通过查看光模块/线缆告警信息来确认是光模块问题还是光纤或者对端问题。比如出现RX signal loss和TX fault错误,可以查看光口、光模块是否存在异物,或者光模块金手指严重氧化。
b. 可通过display transceiver interface命令,检查两端的光模块类型、波长、传输距离等参数是否一致。
c. 可通过display transceiver diagnosis interface命令,检查光模块的数字诊断参数的当前测量值是否在正常范围内。参数异常常见问题及解决办法如下:
- 当光纤与光模块接触不良时,可通过将光线与光模块插牢解决。
- 当光纤质量不好或损坏,可通过更换光纤解决。
- 当传输路径增加了中间光衰设备,可根据实际使用,调整光衰设备解决。
- 当光模块适配传输距离与实际使用距离相差较大,更换为与实际传输距离适配的光模块解决。
d. 对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。
(6) 检查光模块类型与光纤是匹配。
可通过《H3C光模块手册》,查看光模块类型与光纤类型是否匹配。若不匹配,可通过更换光纤解决。
(7) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
· OPTMOD/3/CFG_ERR
· OPTMOD/5/CHKSUM_ERR
· OPTMOD/5/IO_ERR
· OPTMOD/4/FIBER_SFPMODULE_INVALID
· OPTMOD/4/FIBER_SFPMODULE_NOWINVALID
· OPTMOD/5/MOD_ALM_ON
· OPTMOD/5/RX_ALM_ON
· OPTMOD/5/RX_POW_HIGH
· OPTMOD/5/RX_POW_LOW
通过display logbuffer命令查看系统日志时,发现存在上报非H3C合法光模块的相关信息。相关日志信息显示如下:
This transceiver is NOT sold by H3C. H3C therefore shall NOT guarantee the normal function of the device or assume the maintenance responsibility thereof!
光模块为第三方光模块或伪造的H3C光模块。
本类故障的诊断流程如图3-17所示。
(1) 检查光模块是否为H3C光模块。
a. 根据光模块上的标签判断是否为H3C认证光模块。
b. 通过命令display transceiver interface,查看Vendor Name是否是H3C。如果显示的是H3C,则可能是没有电子标签的H3C光模块,也可能不是H3C光模块,需要进一步确认。如果显示的是其它信息,则一定不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。
[Sysname] display transceiver interface twenty-fivegige 1/0/1
Twenty-FiveGigE1/0/1 transceiver information:
Transceiver Type : 40G_BASE_LR4_QSFP_PLUS
Connector Type : LC
Wavelength(nm) : 1301
Transfer Distance(km) : 10(SMF)
Digital Diagnostic Monitoring : YES
Vendor Name : H3C
Ordering Name : QSFP-40G-LR4-WDM1300
c. 与H3C的技术支持工程师确认是否是H3C光模块。
通过Probe视图下的命令display hardware internal transceiver register interface和display transceiver information interface收集光模块信息。然后向H3C技术支持工程师反馈光模块上的条码,确认光模块的渠道来源,明确是否是H3C光模块。如果确认不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。
(2) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的日志信息、告警信息。
无
OPTMOD/4/PHONY_MODULE
通过display transceiver diagnosis interface命令查看光模块诊断信息时,系统提示光模块不支持数字诊断。显示如下:
<Sysname> display transceiver diagnosis interface Twenty-FiveGigE1/0/1
The transceiver does not support this function.
· 光模块为非H3C光模块。
· 光模块不支持数字诊断。
· 光模块故障。
· 设备/光口故障。
本类故障的诊断流程如图3-11所示。
图3-18 故障诊断流程图
(1) 判断是否为H3C光模块,具体步骤见3.5.2 光模块上报非H3C合法光模块故障处理。
(2) 通过display transceiver interface命令,查看Digital Diagnostic Monitoring字段是否是YES,如果是YES,表明支持数字诊断,反之亦然。
(3) 使用相同型号光模块插在本设备其他正常端口或者其他正常运行且支持该光模块的设备上,检查是否仍然提示不支持数字诊断。
(4) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的告警信息。
无
无
使用display transceiver manuinfo interface命令查看光模块序列号丢失。
· 光模块未插紧。
· 光模块/设备故障。
本类故障的诊断流程如图3-19所示。
(1) 检查光模块是否完全插入光口。
(2) 可通过插紧光模块,或更换光口解决。
(3) 检查光模块是否故障。
(4) 可通过使用相同型号光模块插在本设备端口或者其他正常运行且支持该光模块的设备上来判断。
(5) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的告警信息。
无
无
PoE供电功率不足或无法供电。
· 供电电源与设备不匹配或供电电源供电能力不足。
· PSE固件故障。
· 受电设备为非标准PD,PoE接口没有开启非标准PD检测功能。
本类故障的诊断流程如图3-20所示。
(1) 确定电源配备是否正确。
检查设备配备的电源模块对于PoE设备,必须按照电源配置方案配置电源。关于电源模块的适配情况,请参见对应产品的安装指导或硬件描述手册。
(2) 查看PSE固件运行是否正常。
执行display poe device命令查看显示PSE的工作状态。如果工作状态显示为faulty,则说明PSE故障。如下所示:
<Sysname> display poe device
Slot 1:
PSE ID Slot No. SSlot No. PortNum MaxPower(W) State Model
1 0 0 48 0 Faulty LSP1POEA
以上显示信息说明该PSE存在故障。
用户可联系H3C用服或设备供应商获取对应版本的PSE固件,然后使用poe update命令升级PSE固件。升级方法如下所示:
<Sysname> system-view
[Sysname] poe update full POE-168.bin pse 4
This command will refresh the PSE firmware. Continue? [Y/N]:y
……
以上显示信息说明PSE软件升级成功。再次执行display poe device命令查看显示PSE的工作状态。如果工作状态显示为on或off,则说明PSE故障已修复。如下所示:
[Sysname] display poe device
Slot 1:
PSE ID Slot No. SSlot No. PortNum MaxPower(W) State Model
1 0 0 48 0 on LSP1POEA
(3) 在任意视图中执行display poe pse命令查看显示PSE的信息。确认当前整机供电功率、平均功率、峰值功率是否正常、PSE检测非标准PD功能是否打开等。如下所示:
<Sysname> display poe pse
PSE ID : 1
Slot NO. : 0
PSE Model : LSBMPOEGV48TP
PSE Status : Enabled
PSE Preempted : No
Power Priority : Low
Current Power : 130 W
Average Power : 20 W
Peak Power : 240 W
Max Power : 200 W
Remaining Guaranteed Power : 120 W
PSE CPLD Version : 100
PSE Software Version : 200
PSE Hardware Version : 100
Legacy PD Detection : Disabled
Power Utilization Threshold : 80
PSE Power Policy : Disabled
PD Power Policy : Disabled
PD Disconnect-Detection Mode : DC
¡ 如果PSE当前供电功率、PSE平均功率、PSE峰值功率都达到或接近PSE最大供电功率,说明PoE电源模块供电不足,此时请选配更大供电功率的PoE电源模块。
¡ 如果PSE Legacy PD Detection字段显示为Disable,请执行poe legacy enable命令,开启非标准PD检测功能。
(4) 在任意视图中执行display poe interface命令查看显示PoE端口的相关信息。确认当前端口供电功率、平均功率、峰值功率是否正常,端口的电流、电压是否正常。如下所示:
<Sysname> display poe interface gigabitethernet 1/0/1
PoE Status : Enabled
Power Priority : Critical
Oper : On
IEEE Class : 1
Detection Status : Delivering power
Power Mode : Signal
Current Power : 11592 mW
Average Power : 11610 mW
Peak Power : 11684 mW
Max Power : 15400 mW
Electric Current : 244 mA
Voltage : 51.7 V
PD Description : IP Phone For Room 101
如果当前端口供电功率、平均功率、峰值功率都达到或接近端口最大供电功率,说明PoE端口供电不足,此时请执行poe max-power命令重新配置PoE端口的最大供电功率。
(5) 如果故障仍然未能排除:
¡ 当受电设备为标准PD时,请收集上述步骤的执行结果,并联系技术支持人员。
¡ 当受电设备为非标准PD时,请收集PD厂家、型号、所用网线和上述步骤的执行结果等信息,并联系技术支持人员。
无
对于使用外置PoE电源进行PoE供电的款型,外置PoE电源异常断电,影响PoE功能的正常使用。
外部供电异常。
本类故障的诊断流程如图3-21所示。
(1) 不需重启设备时,等待30秒后给外置PoE重新上电,查看PoE功能是否恢复。
(2) 需要重启设备时,按如下方式处理:
如果由于外部原因(例如外置PoE电源和设备均断电)或误操作等原因导致在外置PoE电源断电时,需重启设备(包括设备重新上电和通过reboot命令重启),请按如下步骤恢复PoE功能:
a. 给外置PoE电源上电;
b. 给设备重新上电启动或通过reboot命令重启;
c. 设备启动完全后,如果PoE功能仍然无法正常工作,请删除设备上PoE的相关配置,然后在设备上重新完成PoE功能的配置。
(3) 收集信息并寻求技术支持
如果上述操作完成后PoE功能仍无法恢复正常,请收集设备运行信息,并联系H3C的技术支持工程师。
无
无
IRF分裂后,BFD MAD功能未生效,导致网络中存在配置相同的两台设备。
· 未配置BFD MAD检测链路。
· 用于BFD MAD检测的端口和VLAN配置不正确。
· 用于BFD MAD检测的IP地址不在同一网段。
· IRF链路down延迟上报时间配置过长。
本类故障的诊断流程如图4-1所示。
(1) 检查BFD MAD组网是否正确。
使用BFD MAD功能时,要求所有成员设备之间必须有一条BFD MAD检测链路,可以通过中间设备,也可以在成员设备之间使用全连接的组网。
(2) 检查BFD MAD所使用的物理端口状态。
您可以通过display interface命令查看BFD MAD所使用的物理端口的状态。
(3) 如果物理端口状态为“DOWN ( Administratively )”,则表示该端口已经通过shutdown命令关闭,您需要执行undo shutdown命令将其开启。
(4) 如果物理端口的状态为“DOWN”,您需要检查物理端口的连接是否正常。
(5) 检查BFD MAD所使用的VLAN和端口配置。
用于BFD MAD检测的物理端口上不能开启生成树协议,也不能开启其它任何功能。一个IRF内所有BFD MAD链路上的物理端口必须属于同一个VLAN,该VLAN为BFD MAD专用,如果使用中间设备的话,中间设备与成员设备相连的端口也必须加入该VLAN。建议用于BFD MAD检测的VLAN中只包含BFD MAD链路上的端口,不要将其它端口加入该VLAN。
(6) 检查BFD MAD所使用的VLAN接口。
使用display mad verbose命令查看用于BFD MAD检测的VLAN接口,该接口不能为VLAN1接口,并且该接口仅用于BFD MAD,即在该接口上不能配置其它任何二层或三层协议。
(7) 检查BFD MAD IP地址的配置。
使用display mad verbose命令查看用于BFD MAD检测的IP地址,各成员设备的MAD IP地址必须属于同一网段,同时不能为设备上已经存在的IP地址。通过display inteface查看用于BFD MAD的VLAN接口配置,该接口上不能配置其它IP地址(包括使用ip address命令配置的普通IP地址、VRRP虚拟IP地址等)。
(8) 当组网中存在多个IRF时,检查各IRF的BFD MAD VLAN。
如果网络中存在多个IRF,在配置BFD MAD时,请为每个IRF配置不同的VLAN用于BFD MAD检测。
(9) 检查IRF链路down延迟上报时间是否配置过长。
在IRF环境中使用RRPP、BFD或GR功能时,建议将IRF链路down延迟上报时间配置为0。
(10) 检查成员设备的日志信息。
请使用display trapbuffer命令或者通过查看日志主机存储的信息,查找在IRF分裂的时间点附近是否存在BFD MAD所使用物理端口down的日志。通过该日志判断端口故障的原因,并排除该故障。
(11) 收集信息并寻求技术支持。
如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。
无
无
IRF分裂后,LACP MAD功能未生效,导致网络中存在配置相同的两台设备。
· 中间设备不支持扩展LACP选项。
· 用于LACP MAD检测的聚合组不是动态聚合组。
· 端口或聚合组状态异常。
本类故障的诊断流程如图4-2所示。
(1) 检查LACP MAD组网是否正确。
使用LACP MAD功能时,要求必须使用一台中间设备,所有成员设备与中间设备之间必须均存在物理连接。
(2) 检查聚合组和物理端口的状态。
您可以通过display interface命令查看LACP MAD所使用的聚合组和物理端口的状态。
(3) 如果物理端口状态为“DOWN ( Administratively )”,则表示该聚合组或物理端口已经通过shutdown命令关闭,您需要执行undo shutdown命令将其开启。
(4) 如果聚合端口的状态为“DOWN”,则表示该聚合组内所有物理端口连接均有问题;如果物理端口的状态为“DOWN”,则表示该端口的物理连接存在问题。请检查物理连接并修复故障。
(5) 检查中间设备是否支持扩展LACP选项。
由于LACP MAD使用扩展LACP选项实现,因此中间设备必须为能够识别并透传带有扩展LACP选项的LACP报文的H3C设备。
(6) 检查聚合组的聚合方式。
LACP MAD功能通过LACP报文实现,因此仅有动态聚合组能够用于LACP MAD检测。您可以在聚合接口视图下使用link-aggregation mode dynamic命令将聚合组的工作模式配置为动态聚合。
(7) 当组网中存在多个IRF时,检查各IRF的域编号。
扩展LACP选项中会包含IRF的域编号,当组网中存在多个IRF时,如果各IRF的域编号相同,则LACP MAD检测功能将不能正常检测到IRF分裂。请确保组网中的每个IRF使用不同的域编号,您可以通过irf domain命令配置IRF的域编号。
(8) 检查成员设备的日志信息。
请使用display trapbuffer命令或者通过查看日志主机存储的信息,查找在IRF分裂的时间点附近是否存在LACP MAD所使用物理端口或聚合组down的日志。通过该日志判断端口故障的原因,并排除该故障。
(9) 收集信息并寻求技术支持。
如果完成上述检查后故障仍无法排除,请收集设备的运行信息,并联系H3C的技术支持工程师。
无
无
用户下发ACL失败,具体分两种失败情况:
· 执行下发命令后设备提示资源不足。
· 执行下发命令后设备无任何错误提示,但ACL不起作用。
· 系统硬件资源不足
· packet-filter或QoS策略配置不正确
本类故障的诊断流程如图5-1所示。
图5-1 ACL下发失败故障诊断流程图
(1) 查看下发时是否报硬件资源不足
下发ACL配置时如果界面打印出“Reason: Not enough hardware resource”字样,则表明ACL下发失败是由硬件资源不足导致。通过display qos-acl resource命令可以进一步确认ACL硬件资源使用情况。
[Sysname] display qos-acl resource
Interfaces: XGE2/1/0/1 to XGE2/1/0/21, XGE2/1/0/22
XGE2/1/0/23 to XGE2/1/0/24
---------------------------------------------------------------------
Type Total Reserved Configured Remaining Usage
---------------------------------------------------------------------
VFP ACL 1024 768 0 256 75%
IFP ACL 2048 1792 1 255 87%
IFP Meter 1024 896 0 128 87%
IFP Counter 1024 896 0 128 87%
EFP ACL 1024 0 0 1024 0%
EFP Meter 512 0 0 512 0%
EFP Counter 512 0 0 512 0%
Interfaces: XGE2/1/0/25 to XGE2/1/0/48
---------------------------------------------------------------------
Type Total Reserved Configured Remaining Usage
---------------------------------------------------------------------
VFP ACL 1024 768 0 256 75%
IFP ACL 2048 1536 1 511 75%
IFP Meter 1024 768 0 256 75%
IFP Counter 1024 768 0 256 75%
EFP ACL 1024 0 0 1024 0%
EFP Meter 512 0 0 512 0%
EFP Counter 512 0 0 512 0%
如果显示信息中Remaining条目为0了,则表示ACL硬件资源已用尽,设备无法再下发ACL。如果下发时没有报“Reason: Not enough hardware resource”字样,则根据下发方式进行步骤选择:
¡ 通过MQC(QoS策略)方式下发,请进行步骤2;
¡ 通过包过滤(packet-filter)方式下发,请进行步骤3。
(2) 检查QoS策略配置是否正确
通过下面命令分别检查不同使用情况下QoS策略的配置情况(不同设备对于下述命令支持情况存在差异,请以设备实际情况为准):
¡ 显示以太网服务实例QoS 策略配置信息,display qos policy l2vpn-ac
¡ 显示端口上QoS策略配置信息,display qos policy interface;
¡ 显示VLAN上QoS策略配置信息,display qos vlan-policy;
¡ 显示全局QoS策略配置信息,display qos policy global;
¡ 显示控制平面上QoS策略配置信息,display qos policy control-plane
如果QoS策略中缺少流分类和流行为关联的配置,则补充相应配置。否则可通过以下两个命令分别检查下QoS策略中的类和流行为是否配置正确。
¡ 显示配置的类信息,display traffic classifier user-defined;
¡ 显示配置的流行为信息,display traffic behavior user-defined;
如果没有正确配置,则进行正确配置,否则进行步骤4。
(3) 检查packet-filter配置是否正确
可以通过display packet-filter命令检查packet-filter配置是否正确,如果不正确,则进行正确配置,否则进行步骤4。
(4) 检查ACL配置是否正确
可以通过display acl命令检查ACL是否配置正确,包括各条规则的内容、规则的匹配顺序等。确认规则的内容与报文是否匹配,是否因匹配顺序的原因导致报文没有被匹配上。如果不正确,则进行正确配置,否则进行步骤5。
例1:
ACL number 3100
rule 0 permit ip source 2.2.2.2 0.0.255.255
rule 1 deny ip destination 3.3.3.3 0.0.255.255
如果有报文目的IP是3.3.3.3,源IP 地址是2.2.2.2,则只能匹配rule 0,不能匹配rule 1,如果期望达到rule 1的效果,则此ACL未生效。
例2:
ACL number 3100
rule 0 permit ip source 2.2.2.2 0.0.255.255
ACL number 3009
rule 0 permit ip source 2.2.2.2 0.0.0.255
当流量的源IP地址为2.2.2.2时,就会同时符合ACL number 3100与 ACL number 3009的匹配要求,即发生重叠匹配现象。
ACL的规则匹配顺序请参考“ACL和QoS配置指导”中的“ACL”。
(5) 寻求技术支持
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
无
无
设备二层转发丢包,即源端和目的端在同一二层网络的同一VLAN内,通信过程中有丢包。
· 端口下有错包
· 报文因ACL规则被丢弃
· 端口处于block状态
· 拥塞丢包
本类故障的诊断流程如图6-1所示。
(1) 查看端口下是否有错包
使用display interface命令查看端口下是否有错包。如果有错包,请前往步骤2,如果没有错包,请前往步骤3进行后续步骤的检查。
<Sysname>display interface Twenty-FiveGigE1/0/17
Twenty-FiveGigE1/0/17 current state: UP
Line protocol state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: aa11-2233-4496
……
Last 300 seconds input: 0 packets/sec 10 bytes/sec 0%
Last 300 seconds output: 0 packets/sec 10 bytes/sec 0%
Input (total): 1438 packets, 480292 bytes
0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses
Input (normal): 1438 packets, - bytes
0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses
Input: 0 input errors, 0 runts, 0 giants, 0 throttles
0 CRC, 0 frame, - overruns, 0 aborts
- ignored, - parity errors
Output (total): 1440 packets, 475200 bytes
0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses
Output (normal): 1440 packets, - bytes
0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses
Output: 0 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
0 lost carrier, - no carrier
(2) 端口下有错包
端口下有错包有以下几种可能的故障原因,可使用排除法定位:
¡ 端口本身硬件故障:通过将连接端口的线缆连接到配置相同且可正常工作的端口查看是否端口本身硬件故障。如果是端口本身硬件故障,请将线缆连接到可正常工作的端口。
¡ 链路上光模块、光纤或以太网双绞线故障:通过更换完好的光模块、光纤或以太网双绞线定位是否光纤或以太网双绞线故障。如果是光模块、光纤或以太网双绞线故障,请更换完好的光模块、光纤或以太网双绞线。
¡ 对端配置问题,查看对端速率、双工模式的配置是否和本端一致。如果对端速率和双工模式的配置与本端不一致,请更新配置保证本端和对端速率和双工模式的配置一致。
¡ 当通过上述方法无法解决错包问题需要联系技术支持时,请先通过如下方法收集信息,然后前往步骤7。
Probe视图下,使用debug port mapping命令确认面板端口对应的芯片端口。
[Sysname-probe]debug port mapping slot 1
[Interface] [Unit] [Port] [Name] [Combo?] [Active?] [IfIndex] [MID] [Link]
===============================================================================
WGE1/0/1 0 9 xe8 no no 0x1 1 down
WGE1/0/2 0 10 xe9 no no 0x2 1 down
WGE1/0/3 0 11 xe10 no no 0x3 1 down
WGE1/0/4 0 12 xe11 no no 0x4 1 down
WGE1/0/5 0 13 xe12 no no 0x5 1 down
WGE1/0/6 0 14 xe13 no no 0x6 1 down
WGE1/0/7 0 15 xe14 no no 0x7 1 down
WGE1/0/8 0 16 xe15 no no 0x8 1 down
WGE1/0/9 0 17 xe16 no no 0x9 1 down
WGE1/0/10 0 18 xe17 no no 0xa 1 down
WGE1/0/11 0 19 xe18 no no 0xb 1 down
WGE1/0/12 0 20 xe19 no no 0xc 1 down
WGE1/0/13 0 21 xe20 no no 0xd 1 down
WGE1/0/14 0 22 xe21 no no 0xe 1 down
WGE1/0/15 0 23 xe22 no no 0xf 1 down
WGE1/0/16 0 24 xe23 no no 0x10 1 down
WGE1/0/17 0 25 xe24 no no 0x11 1 down
WGE1/0/18 0 26 xe25 no no 0x12 1 down
WGE1/0/19 0 27 xe26 no no 0x13 1 down
WGE1/0/20 0 28 xe27 no no 0x14 1 down
---- More ----
查到Twenty-FiveGigE1/0/17对应的芯片端口名字为xe24,然后执行下面命令两次或两次以上,查看是否有接收丢包统计(RDBGC)和发送丢包统计(TDBGC)计数。如果有将相关信息反馈技术支持。
[Sysname-probe]bcm slot 1 chip 0 show/c/xe24
RDBGC3.xe24 : 5 +5
RDBGC6.xe24 : 5 +5
R64.xe24 : 19 +19
R127.xe24 : 163 +163 1/s
R255.xe24 : 10 +10
R511.xe24 : 6 +6
RPKT.xe24 : 198 +198 2/s
RMCA.xe24 : 136 +136 1/s
RBCA.xe24 : 62 +62
RPOK.xe24 : 198 +198 2/s
RBYT.xe24 : 21,392 +21,392 315/s
[Sysname-probe]bcm slot 1 chip 0 show/c/xe24
R64.xe24 : 20 +1
R127.xe24 : 168 +5 2/s
RPKT.xe24 : 204 +6 2/s
RMCA.xe24 : 141 +5 2/s
RBCA.xe24 : 63 +1
RPOK.xe24 : 204 +6 2/s
RBYT.xe24 : 21,974 +582 261/s
(3) 报文因匹配ACL被过滤
a. 检查端口、VLAN以及全局下是否配置了ACL或QoS策略,如果配置了ACL或QoS策略,请检查端口进入的报文是否因匹配了ACL或QoS策略的流分类而被丢弃,包括端口下的packet-filter(使用display packet-filter查看)、qos policy(使用display qos policy查看),vlan policy(使用display qos vlan-policy查看)以及global policy(使用display qos policy global查看)。如果报文因匹配了ACL或QoS策略的流分类而被丢弃,请参考ACL或QoS的配置方法通过更新配置使报文不被丢弃。
b. 检查是否因匹配一些特性自动创建的的ACL而被过滤,在以太网接口视图下使用display this命令查看端口下是否配置了下面特性或使用特性相关的具体命令查看:
- 端口是否配置ip source binding或ip verify source,使用display ip source binding或display ipv6 source binding可以查看绑定表项信息。如果端口配置了ip source guard且通过上述 display命令发现没有匹配报文的表项,请根据您使用的绑定表项的生成方法进一步排查。
- 查看端口是否配置了Portal认证,如果配置了Portal认证,则没有通过Portal认证的用户,报文会被该端口丢弃。使用display portal interface可以显示指定VLAN接口的Portal配置信息。请用户根据实际情况确定是否可以取消Portal认证,在端口所属VLAN的对应VLAN虚接口下使用undo portal server server-name可以取消三层Portal认证。
- 使用display dot1x命令查看端口是否使能了EAD快速部署。如果使能了802.1X的EAD快速部署功能,那未认证成功的用户访问除Free IP以外的网段时就会丢包。请定位用户是否是未认证成功用户,且未认证成功用户访问的是否是Free IP以外的网段来进一步确认丢包原因。
- 端口所在VLAN是否配置了MFF,使用display mac-forced-forwarding vlan命令显示指定VLAN的MFF信息,如果显示信息中没有Gateway信息,请根据MFF运行的模式查看ARP Snooping是否正确配置。
(4) 端口被协议设置为block状态
¡ 使用display stp brief命令查看端口是否被STP设置为discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。
¡ 如果端口属于某个聚合组,使用display link-aggregation verbose命令查看聚合口的详细信息,当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。
¡ 查看端口是否被Smartlink阻塞:使用display smart-link group命令查看端口状态,当State为STANDBY或DOWN时端口不能转发数据。如果State为DOWN,请定位端口成为DOWN状态的原因,如上行链路上的设备配置了Monitor Link功能造成该端口DOWN,或该端口所在链路连接发生故障或端口被shutdown,进一步排查解决;如果State为STANDBY,请将该设备Smart Link组的主、从端口互换。
(5) 配置相关丢包
¡ 在以太网接口视图下使用display this命令查看端口是否在报文所属VLAN中。如果端口不在报文所属VLAN中,请将端口加入该VLAN。
¡ 使用display mac-address blackhole命令查看是否因为匹配了黑洞MAC地址表项被丢包。请根据实际情况确定是否可以取消该黑洞MAC。如果需要删除该黑洞MAC,请使用undo mac-address blackhole mac-address vlan vlan-id命令删除。
¡ 使用display qos lr interface查看是否有端口限速的配置。如果端口有限速的配置,请查看令牌生成速度和突发流量配置值是否合理,可以通过使用qos lr { inbound | outbound } cir committed-information-rate [ cbs committed-burst-size ]命令调整令牌生成速度和突发流量配置值定位解决。
¡ 在以太网接口视图下使用display this命令查看端口是否有风暴抑制相关配置,包括广播风暴抑制比(broadcast-suppression),组播风暴抑制比(multicast-suppression),未知单播风暴抑制比(unicast-suppression)。如果端口下配置了风暴抑制比,可以通过将风暴抑制比的数值调大定位解决。
(6) 拥塞丢包
通过display qos queue interface命令查看端口是否有拥塞丢包。请参考拥塞管理的相关内容定位解决拥塞问题。
(7) 寻求技术支持
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
无
无
设备三层转发丢包,即发送端IP地址和目的端IP地址不在同一网段内,通信过程中有丢包。
· 端口出现故障
· ARP/路由表项不正确
本类故障的诊断流程如图6-2所示。
(1) 检查端口是否有故障
根据6.1.1 二层流量转发丢包的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):
¡ 如果是端口故障,请按照6.1.1 二层流量转发丢包的故障处理思路进行处理。
¡ 如果不是端口故障,则执行步骤2。
(2) 查看ARP表项是否正确(IPv4)
如果三层转发基于IPv4协议,使用display arp命令查看设备上是否学习到网关设备的ARP表项、学习到的ARP表项是否正确:
¡ 如果设备上未学习到ARP表项或学习到的表项错误,通过打开debugging arp packet查看设备ARP表项学习情况,来定位ARP问题的原因。对于未学习到ARP表项,可以使用arp static命令手工添加静态ARP表项。
¡ 使用display mac-address命令查看对应的MAC地址表项的出接口和ARP表项中的出接口是否一致,如果不一致,使用reset命令清除ARP表项,让设备重新学习表项。
¡ 如果设备上ARP表项学习正确,请执行步骤3。
(3) 查看ND表项是否正确(IPv6)
如果三层转发基于IPv6协议,使用display ipv6 neighbors命令查看设备上是否学习到网关设备的ND表项、学习到的ND表项是否正确:
¡ 如果设备上未学习到ND表项或学习到的表项错误,通过打开debugging ipv6 icmp查看设备ND表项学习情况,来定位ND问题的原因。同时,检查两端MAC地址是否相同,或者是否配置了组播MAC地址。如果都检查无误,对于未学习到ND表项,可以使用ipv6 neighbor命令手工添加静态ND表项。
¡ 使用display mac-address命令查看对应的MAC地址表项的出接口和ND表项中的与邻居相连接口是否一致,如果不一致,使用reset ipv6 neighbors命令清除ND表项,让设备重新学习表项。
¡ 如果设备上ND表项学习正确,请执行步骤4。
(4) 查看路由表项是否正确
使用display ip routing-table命令查看设备上学习的路由信息是否正确:
¡ 如果设备上学习到的路由信息不正确,请根据您使用的具体的路由协议进行进一步排查。
¡ 使用display fib命令查看对应的FIB表项的出接口和路由表项中的出接口是否一致,如果不一致,使用reset命令清除路由表项,让设备重新学习表项。
¡ 如果设备上的路由信息正确,请执行步骤4。
(5) 寻求技术支持
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
无
无
协议震荡一般都是协议报文交互时不通导致的。
· 二三层转发丢包
· 软件收包发生丢包
本类故障的诊断流程如图6-3所示。
(1) 查看二层转发是否丢包
根据6.1.1 二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):
¡ 如果是端口故障,请按照6.1.1 二层流量转发丢包节的故障处理思路进行处理。
¡ 如果不是端口故障,则执行步骤2。
(2) 查看三层转发是否丢包
根据6.1.2 三层流量转发丢包一节的故障定位处理方法,定位是否为三层故障(包括ARP表项错误和路由表项错误):
¡ 如果是三层故障,请按照6.1.2 三层流量转发丢包一节的故障处理思路进行处理。
¡ 如果不是三层故障,则执行步骤3。
(3) 查看软件收包是否丢包
部分机型Probe视图下支持debug rxtx softcar show命令,可以查看软件收包是否丢包。
<Sysname> system-view
[Sysname] probe
[Sysname-probe] debug rxtx softcar show slot 1
ID Type RcvPps Rcv_All DisPkt_All Pps Dyn Swi Hash ACLmax
0 ROOT 0 0 0 300 S On SMAC 0
1 ISIS 0 0 0 200 D On SMAC 8
2 ESIS 0 0 0 100 S On SMAC 8
3 CLNP 0 0 0 100 S On SMAC 8
4 VRRP 0 0 0 1024 S On SMAC 8
5 UNKNOWN_IPV4MC 0 0 0 100 S On SMAC 8
6 UNKNOWN_IPV6MC 0 0 0 100 S On SMAC 8
7 IPV4_MC_RIP 0 0 0 150 D On SMAC 8
8 IPV4_BC_RIP 0 0 0 150 D On SMAC 8
9 MCAST_NTP 0 0 0 100 S On SMAC 8
10 BCAST_NTP 0 0 0 100 S On SMAC 8
DisPkt_All为丢包计数,Rcv_All为收包总数,RcvPps为接收速率。如果发现有丢包发生,请收集信息,然后前往步骤4。
(4) 寻求技术支持
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
无
无
EVPN组网中,报文不能通过多条等价路由进行ECMP转发。
· 只有一条路由,无法形成ECMP
· BGP团体属性和扩展团体属性配置不同
· 路由中携带了default-gateway扩展团体属性
· 存在其他路由协议干扰
本类故障的诊断流程如图6-4所示。
(1) 检查是否存在到达同一目的网络的多条路由
通过display bgp l2vpn evpn route-distinguisher route-type ip-prefix命令查看是都存在到达同一目的网络RD相同、下一跳不同的多条路由。如果只有一条路由,则无法进行ECMP;如果存在多条路由,则继续进行以下操作。
(2) 检查路由的团体属性和扩展团体属性是否一致
通过display bgp l2vpn evpn route-distinguisher route-distinguisher evpn-route route-length命令查看EVPN路由的详细信息。判断到达同一目的网络的多条路由携带的BGP团体属性和扩展团体属性是否相同。如果不同,则修改通过配置修改路由的BGP团体属性和扩展团体属性;否则,无法形成ECMP。
(3) 检查路由是否携带default-gateway属性
通过display bgp l2vpn evpn route-distinguisher route-distinguisher evpn-route route-length命令查看EVPN路由的详细信息,判断路由中是否携带default-gateway扩展团体属性。若携带该扩展团体属性,则路由之间不能形成ECMP。
(4) 检查是否存在其他路由协议的路由
通过display ip routing-table vpn-instance命令查看是否存在其他路由协议生成的到达该目的网络的路由。如果存在,请通过preference命令修改BGP路由的优先级,使得BGP路由优于其他路由协议生成的路由(优先级数值越小表明优先级越高)。
(5) 检查是否配置进行BGP负载分担的路由条数
通过display bgp routing-table ipv4 vpn-instance命令查看是否存在相同前缀的多条路由,如果存在多条,但是只有一条为最优路由(带有“>”标记),则执行display current-configuration configuration bgp命令检查BGP-VPN IPv4单播地址族视图下是否配置了balance命令。如果没有配置,则执行balance命令配置进行BGP负载分担的路由条数大于1。
无
无
