02-设备转发故障案例
本章节下载 (237.23 KB)
报文转发丢包,Ping不通或Ping丢包,Tracert异常。
<Device> ping 10.0.0.5
PING 10.0.0.5 (10.0.0.5): 56 data bytes, press CTRL_C to break
Request time out
Request time out
Request time out
Request time out
Request time out
--- 10.0.0.5 ping statistics ---
5 packet(s) transmitted, 0 packet(s) received, 100.0% packet loss
设备端口默认没有加入到任何安全域,要确认端口是否加入到安全域。
如果端口加入到安全域中,要确认是否配置了安全策略。系统默认情况下,相同安全域、不同安全域之间、安全域与Local之间,转发默认是拒绝的。
报文转发异常通常会涉及多台设备,需要逐一排查。为方便排查,排查前建议先明确报文的转发走向,如经过哪些中间设备,在设备的哪些接口进入设备,又会从哪些接口出去。检查出入接口的报文统计。确认统计是否正确。
检查入方向报文统计计数,可以通过reset counter interface命令清除计数。
如果设备未收到Ping报文,请排查上游的相邻设备;如果设备发送的Ping报文计数正确,建议排查下游的相邻设备;如果Ping报文入出计数不正确,分下面几种情况进行分析:
· 有入报文统计,没有出报文统计,进行如下排查:
a. 查看是否在链路层处理有丢包,执行display ethernet statistics命令,如下:
<Device> display ethernet statistics chassis 1 slot 3
ETH receive packet statistics:
Totalnum : 0 ETHIINum : 0
SNAPNum : 0 RAWNum : 0
LLCNum : 0 UnknownNum : 0
ForwardNum : 0 ARP : 0
MPLS : 0 ISIS : 0
ISIS2 : 0 IP : 0
IPV6 : 0
ETH receive error statistics:
NullPoint : 0 ErrIfindex : 0
ErrIfcb : 0 IfShut : 0
ErrAnalyse : 0 ErrSrcMAC : 0
ErrHdrLen : 0
ETH send packet statistics:
L3OutNum : 0 VLANOutNum : 0
FastOutNum : 0 L2OutNum : 0
ETH send error statistics:
MbufRelayNum : 0 NullMbuf : 0
ErrAdjFwd : 0 ErrPrepend : 0
ErrHdrLen : 0 ErrPad : 0
ErrQosTrs : 0 ErrVLANTrs : 0
ErrEncap : 0 ErrTagVLAN : 0
IfShut : 0 IfErr : 0
b. 如果链路层处理没有丢包,执行display ip statistics命令,查看IP层丢包原因:
<Device> display ip statistics
Input: sum 263207520 local 1772
bad protocol 0 bad format 0
bad checksum 0 bad options 0
Output: forwarding 24511617 local 476
dropped 21949 no route 156
compress fails 0
Fragment:input 0 output 0
dropped 0
fragmented 0 couldn't fragment 0
Reassembling:sum 0 timeouts 0
c. 打开debugging aspf all、debugging packet-filter packet ip,来确定ASPF是否有丢包。
· 无出、入报文统计
需要分析是否上游没有把报文发送过来。
处于不同网段的两台PC:PC1和PC2,PC1的地址为10.1.1.1,PC2的地址为220.1.1.2。中间穿越设备互相Ping包,设备对PC1的地址静态NAT转换为220.1.1.1;发现PC1 Ping PC2不通,查看PC2可以收到PC1的Ping报文,但是PC1收不到PC2的回应报文。
确保PC1和PC2接入的端口加入了安全域,并且配置了安全策略。可以通过display security-policy ip命令来查看是否配置了相关的域间策略:
<Device> dis security-policy ip
Security-policy ip
rule 0 name 0
action pass
检查设备到某一目的IP网段的路由是否存在,如路由不存在,请检查路由协议配置、状态是否正确。
[Device] display ip routing-table 10.1.1.0
检查设备到某一目的IP网段的FIB表项是否存在,如路由存在、FIB表项异常,请将故障信息发送H3C技术支持人员分析。
[Device] display fib 10.1.1.0
查看10.1.1.1的arp表项是否存在:
[Device] display arp 10.1.1.1
通过display session命令确认会话是否正常建立。
域间策略默认ASPF对所有的报文进行检测。但如果在域间策略中配置了aspf apply policy命令,那么只对策略中配置的detect协议进行ASPF检测,其它协议不进行检测。如果不配置detect icmp,那么如果没有配置反向域间策路,报文就被deny了。可以使用下面命令打开debug:
<Device> debugging packet-filter packet ip acl ?
INTEGER<2000-2999> Specify a basic ACL
INTEGER<3000-3999> Specify an advanced ACL
来看是否有deny信息,如果有类似下面信息:
*Dec 12 16:49:07:188 2013 H3C FILTER/7/PACKET: -Slot=3.1; The packet is deny. SrcZoneName=tom1, DstZoneName=tom; Packet Info:Src-IP=220.1.1.2, Dst-IP=10.1.1.1, VPN-Instance=none,Src-Port=1024, Dst-Port=1025, Protocol=UDP(17), ACL=none.
说明没有正确配置ASPF策略,导致被反向域间策略deny了。
如果前面的检查均没有问题。需要查看流表是否有问题。
首先我们要看接口板的流表是否正常。对静态NAT,如下配置:
[Device] nat static outbound 10.1.1.1 220.1.1.1
然后在接口上使能静态NAT,正常流表应显示如下:
(1) 首先查看接口板流表下刷是否正确
[Device-probe] display system internal openflow instance inner-redirect flow-table
Instance 4097 Flow Table Information:
Table 200 information:
Table type: Extensibility, flow entry count: 25, total flow entry count: 25
Flow entry rule 6 information:
cookie: 0x0, priority: 7861, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Input interface: RAGG11
Ethernet type: 0x0800
IP Range: IPv4 destination address from 220.1.1.1 to 220.1.1.1
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 7 information:
cookie: 0x0, priority: 7840, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 source address from 10.10.1.1 to 10.10.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 8 information:
cookie: 0x0, priority: 7841, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 destination address from 10.10.1.1 to 10.10.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
上面3个表项,缺少一个都是会引起转发异常的。
(2) 如果接口板的流表没有异常,再查看业务板流表下刷是否正确,执行如下命令:
[Device-probe]display system internal openflow instance inner flow-table
Instance 4096 Flow Table Information:
Table 200 information:
Table type: Extensibility, flow entry count: 27, total flow entry count: 27
Flow entry rule 6 information:
cookie: 0x0, priority: 7860, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 destination address from 220.1.1.1 to 220.1.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 7 information:
cookie: 0x0, priority: 7840, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 source address from 10.10.1.1 to 10.10.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
Flow entry rule 8 information:
cookie: 0x0, priority: 7841, hard time: 0, idle time: 0, flags: check_overlap
|reset_counts|no_pkt_counts|no_byte_counts, byte count: --, packet count: --
Match information:
Ethernet type: 0x0800
IP Range: IPv4 destination address from 10.10.1.1 to 10.10.1.1
VRF index: 0
Instruction information:
Write actions:
Output interface: Blade2/10/0/1
使用display interface命令查询端口的入、出方向流量统计信息,发现错包统计计数不为0。
[Device] display interface GigabitEthernet 1/4/0/17
GigabitEthernet1/4/0/17
Current state: UP
Line protocol state: UP
Description: GigabitEthernet1/4/0/17 Interface
Bandwidth: 1000000kbps
Maximum Transmit Unit: 1500
Internet protocol processing: disabled
IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5611
IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5611
Media type is twisted pair
Port hardware type is 1000_BASE_T
Last clearing of counters: 16:45:01 Wed 12/11/2013
Peak value of input: 0 bytes/sec, at 2013-12-11 16:45:03
Peak value of output: 12328675 bytes/sec, at 2013-12-11 17:01:56
Last 300 seconds input: 0 packets/sec 0 bytes/sec
Last 300 seconds output: 85491 packets/sec 12069673 bytes/sec
Input (total): 2 packets, 128 bytes
2 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Input (normal): 2 packets, - bytes
2 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Input: 4 input errors, 1 runts, 1 giants, 0 throttles
1 CRC, 1 frame, - overruns, 0 aborts
- ignored, - parity errors
Output (total): 202277882 packets, 28751562624 bytes
202277844 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Output (normal): 202277844 packets, - bytes
202277844 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Output: 8 output errors, - underruns, - buffer failures
2 aborts, 2 deferred, 2 collisions, 2 late collisions
0 lost carrier, - no carrier
· input errors:各种输入错误的总数。
· runts:表示接收到的超小帧个数。超小帧即接收到的报文小于64字节,且包括有效的CRC字段,报文格式正确。
· giants:是超过端口设置的Maximum Frame Length的报文个数。
· CRC:表示接收到的CRC校验错误报文个数。
· frame:端口接收时出错的报文。
· output errors:各种输出错误的总数。
· aborts:表示发送失败的报文总数。
· deferred:表示延迟报文的总数。报文延迟是指因延迟过长的周期而导致发送失败的报文,而这些报文由于发送媒质繁忙而等待了超过2倍的最大报文发送时间。
· collisions:表示冲突帧总数,即在发送过程中发生冲突的报文。
· late collisions:表示延迟冲突帧,即发送过程中发生延迟冲突超过512bit时间的帧。
(1) 使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。
(2) 如端口使用光模块,参照1.6 光模块故障确认是否光模块故障导致。
(3) 与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现端口相关,应为单板端口故障,请更换端口并将故障信息发送H3C技术支持人员分析;如更换到其它正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。
(4) 排查对端设备或者中间的传输设备。
(5) 如故障无法确认,请将故障信息发送H3C技术支持人员分析。
(1) 检查两端的jumbo配置是否一致,如Jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。
(2) 如果仍然无法确认,请将故障信息发送技术支持人员分析。
(1) 检查端口是否配置为半双工模式,如为半双工,请更改为全双工模式。
(2) 如果仍然无法确认,请将故障信息发送H3C技术支持人员分析。
端口无法正常UP。
(1) 测试端口之间网线、光纤链路是否正常,光纤两端的发送/接收端是否错连;更换端口之间的网线、光纤或将网线、光纤放到别的正常端口,以确认是否中间传输链路故障。
(2) 检查本端、对端端口配置是否正确,如端口是否Shutdown,速率、双工、协商模式、MDI是否正确。
(3) 如端口使用光模块,请检查两端光模块类型是否一致,如速率、波长、单模多模状态等;与正常的光模块交叉更换,并参照1.6 光模块故障排除是否为光模块故障导致。
[Device] display transceiver interface Ten-GigabitEthernet 1/5/0/1
Ten-GigabitEthernet1/5/0/1 transceiver information:
Transceiver Type : 10G_BASE_LR_XFP
Connector Type : LC
Wavelength(nm) : 1310
Transfer Distance(km) : 10(SMF)
Digital Diagnostic Monitoring : YES
Vendor Name : SumitomoElectric
如果确认光模块有问题,需要更换光模块。
(1) 查看本设备及对端设备日志,确认有无端口Shutdown操作。
(2) 查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口Shutdown。当设备在线诊断模块检测到端口故障时,将端口Shutdown隔离,以便流量切换到备份链路。请将故障信息发送H3C技术支持人员分析。
[Device] display interface GigabitEthernet 1/4/0/1
GigabitEthernet1/4/0/1
Current state: DOWN
Line protocol state: DOWN
Description: GigabitEthernet1/4/0/1 Interface
Bandwidth: 1000000kbps
Maximum Transmit Unit: 1500
Internet protocol processing: disabled
IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5601
IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 8042-0004-5601
Media type is not sure,Port hardware type is No connector
Last clearing of counters: 16:45:01 Wed 12/11/2013
Peak value of input: 0 bytes/sec, at 2013-12-11 16:45:03
Peak value of output: 0 bytes/sec, at 2013-12-11 16:45:03
Last 300 seconds input: 0 packets/sec 0 bytes/sec
Last 300 seconds output: 0 packets/sec 0 bytes/sec
(3) 参照1.4 端口无法,排查两端端口配置,网线、光模块、光纤等链路是否正常。
(4) 如仍无法确认,请搜集本端、对端设备信息,并将信息发送H3C技术支持人员分析。
端口频繁Up/Down。
(1) 对于光口,请参照1.6 光模块故障确认光模块是否异常。
(2) 对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。
(3) 如果故障依存在,请排查链路、对端设备、中间设备。
(4) 如仍无法确认,请将故障信息发送H3C技术支持人员分析。
安装光模块的接口不能正常up,出现告警信息。
(1) 检查光模块Alarm告警信息。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。
[Device] display transceiver alarm interface Ten-GigabitEthernet 1/5/0/1
Ten-GigabitEthernet1/5/0/1 transceiver current alarm information:
None
表1-1 光模块告警信息说明
字段 |
描述 |
SFP/SFP+ |
|
RX loss of signal |
接收信号丢失 |
RX power high |
接收光功率高告警 |
RX power low |
接收光功率低告警 |
TX fault |
发送错误 |
TX bias high |
偏置电流高告警 |
TX bias low |
偏置电流低告警 |
TX power high |
发送光功率高告警 |
TX power low |
发送光功率低告警 |
Temp high |
温度高告警 |
Temp low |
温度低告警 |
Voltage high |
电压高告警 |
Voltage low |
电压低告警 |
Transceiver info I/O error |
模块信息读写错误 |
Transceiver info checksum error |
模块信息校验和错误 |
Transceiver type and port configuration mismatch |
模块类型和端口配置不匹配 |
Transceiver type not supported by port hardware |
端口不支持该模块类型 |
XFP |
|
RX loss of signal |
接收信号丢失 |
RX not ready |
接收状态未就绪 |
RX CDR loss of lock |
RX CDR时钟失锁 |
RX power high |
接收光功率高告警 |
RX power low |
接收光功率低告警 |
TX not ready |
发送状态未就绪 |
TX fault |
发送错误 |
TX CDR loss of lock |
TX CDR时钟失锁 |
TX bias high |
偏置电流高告警 |
TX bias low |
偏置电流低告警 |
TX power high |
发送光功率高告警 |
TX power low |
发送光功率低告警 |
Module not ready |
模块状态未就绪 |
APD supply fault |
APD(Avalanche Photo Diode,雪崩光电二极管)错误 |
TEC fault |
TEC(Thermoelectric Cooler,热电冷却器)错误 |
Wavelength unlocked |
光信号波长失锁 |
Temp high |
温度高告警 |
Temp low |
温度低告警 |
Voltage high |
电压高告警 |
Voltage low |
电压低告警 |
Transceiver info I/O error |
模块信息读写错误 |
Transceiver info checksum error |
模块信息校验错误 |
Transceiver type and port configuration mismatch |
模块类型和端口配置不匹配 |
Transceiver type not supported by port hardware |
端口不支持该模块类型 |
(2) 对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。
(3) 如果确认是光模块本身故障,请通过display transceiver diagnosis命令收集光模块当前的数字诊断信息(非H3C定制光模块可能无法查询到数字诊断信息),并发送给H3C技术支持人员分析。
[Device] display transceiver diagnosis interface Ten-GigabitEthernet 1/5/0/2
Ten-GigabitEthernet1/5/0/2 transceiver diagnostic information:
Current diagnostic parameters:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
48 3.33 39.10 0.13 -1.35
Alarm thresholds:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
High 73 3.63 75.00 2.50 8.16
Low -5 2.97 1.00 -12.30 -11.20
(4) 建议尽量使用H3C定制光模块。可以使用display transceiver manuinfo interface命令来查看光模块制造厂家信息。
[Device] display transceiver manuinfo interface
Ten-GigabitEthernet1/2/0/1 transceiver manufacture information:
The transceiver does not support this function.
Ten-GigabitEthernet1/2/0/2 transceiver manufacture information:
The transceiver does not support this function.
Ten-GigabitEthernet1/2/0/3 transceiver manufacture information:
The transceiver is absent.
Ten-GigabitEthernet1/2/0/4 transceiver manufacture information:
The transceiver is absent.
Ten-GigabitEthernet1/2/0/5 transceiver manufacture information:
Manu. Serial Number : 210231A0G1X122000082
Manufacturing Date : 2012-02-28
Vendor Name : H3C
Ten-GigabitEthernet1/2/0/6 transceiver manufacture information:
Manu. Serial Number : 210231A0G1X122000083
Manufacturing Date : 2012-02-28
Vendor Name : H3C
故障现象通常为二层聚合口、三层聚合口业务异常,例如聚合成员口无法选中、聚合负载分担业务异常。
(1) 通过display link-aggregation verbose命令查看聚合接口对应聚合组的详细信息。
[Sysname] display link-aggregation verbose Route-Aggregation 12
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Route-Aggregation12
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
GE3/1/1 U 32768 2
GE3/1/2 U 32768 2
(2) 检查聚合口下的成员口物理状态是否UP,如果是DOWN状态,请检查连线。
[Sysname]display interface GigabitEthernet 3/1/1
GigabitEthernet3/1/1
Current state: DOWN
Line protocol state: DOWN(LAGG)
Description: GigabitEthernet3/1/1 Interface
Bandwidth: 10000000 kbps Flow-control is not enabled
(3) 检查聚合口下的配置和成员口的配置是否一致,如果不一致,会出现成员端口无法选中的现象。
(4) 检查聚合口下各成员口的速率配置是否一致,如果不一致,可以通过link-aggregation ignore speed命令用来配置聚合组选择选中端口时忽略端口速率。如果聚合组两端本命令配置不一致,动态聚合组可以通过LACP协议协商状态,使链路两端端口状态一致;静态聚合组无法协商状态,为了防止报文丢失,所以要求静态聚合组两端本命令配置一致。配置本命令后,如果聚合组中选中端口速率不同,聚合组中流量负载分担时,速率较小的选中端口可能存在丢包现象,请按需配置本功能。开启和关闭本功能后,操作Key会发生变化,导致聚合接口震荡,请按需配置本功能。
(5) 如果聚合口下的配置和成员口的配置相同,聚合成员口还是无法选中,则联系技术支持。
请联系技术支持。
表1-2 故障诊断命令
命令 |
说明 |
display arp |
显示ARP表项,检查设备ARP学习的接口是否正确 |
display current-configuration | include lsr-id |
显示当前的MPLS LSR ID |
display current-configuration configuration mpls-ldp |
显示当前生效的MPLS LDP配置信息,检查LDP的md5-password配置是否一致 |
display fib |
显示FIB信息,检查设备到某一目的IP网段的FIB表项是否存在 |
display interface |
显示指定接口的相关信息 |
display ip interface brief |
显示三层接口的IP基本配置信息 |
display ip routing-table |
显示路由表中当前激活路由的摘要信息,检查设备到某一目的IP网段的路由是否存在 |
display session |
显示会话信息 |
display this |
显示当前视图下生效的配置 |
interface |
进入接口视图 |
display system internal openflow instance |
查看OpenFlow表项 |
display nat outbound |
查看NAT Outbound配置信息 |
display current-configuration |
显示设备当前生效的配置,指定interface可以显示指定接口当前生效的配置 |
display transceiver alarm |
显示可插拔接口模块的当前故障告警信息 |
display transceiver diagnosis |
显示可插拔光模块的数字诊断参数的当前测量值,包括温度、电压、偏置电流、接收光功率、发送光功率 |
display transceiver interface |
显示指定接口可插拔接口模块的主要特征参数,检查两端光模块类型是否一致,如速率、波长、单模多模状态等 |
display transceiver manuinfo |
显示可插拔接口模块的电子标签信息,可用来查询光模块的定制厂商 |
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!