01-设备转发故障处理指南
本章节下载 (433.51 KB)
如图1-1所示,M9000系列设备的转发路径如下:
· 流量1:接口板----交换网板-----Blade----交换网板----接口板。
· 流量2:和流量1 基本一样只是报文的入接口和出接口不在同一个接口卡上。
· 流量3:Blade之间因为二次引流需要跨板的流量,跨板流量走的是板间透传,两个Blade 之间也要走交换网板,主要是GRE隧道报文, 和IPsec隧道报文。
· 流量4:就是需要主控处理的,主要是协议报文和本地管理的报文。
(1) 首先进行基本配置方面和组网方面的排查,排查思路如下:
图1-2 基本配置和组网排查示意图
(2) 进一步排查需要查看会话信息以及报文在设备内部转发过程,具体思路如下:
图1-3 排查会话和报文内部转发过程示意图
在源端执行Ping操作,在一定时间范围内没有收到目的端对该请求的回应。
存在三种故障情形:
· 源端没有发出请求报文。
· 目的端没有发出应答报文。
· 中间设备丢包或传输时间长。
本类故障的常见原因主要包括:
· 链路传输时延较长。由于传输时延长,虽然源端接收到了目的端的回应报文,但已经超过等待时限而造成Ping不通的现象。
· 配置不当。例如,当Ping报文过大时,报文的出接口MTU值较小,且设置了不可分片的功能等。
· FIB表或ARP表中缺少对应的表项。
· 存在防攻击配置。
· 硬件故障。
本类故障的诊断思路如下:
(1) 检查Ping操作是否得当,调整Ping操作参数。
(2) 查看Ping报文的统计信息,确认出问题的节点。
(3) 检查是否存在到达目的端的ARP以及FIB表项。
(4) 排查是否因为防攻击配置导致Ping报文被丢弃。
本类故障的诊断流程如图1-4所示。
图1-4 Ping不通故障诊断流程图
(1) 检查Ping操作是否得当。
a. 检查是否因为实际链路传输时延较长导致Ping不通。
检查是否执行了ping -t timeout命令,如果执行了此操作,可通过增加-t参数的值(建议取值大于等于1000,达到秒级)或者去掉-t参数重新Ping。如果故障消除,则说明较大概率属于实际网络时延大导致的Ping不通;如果故障未消除,请继续定位。
-t参数用来指定ICMP回显应答(ECHO-REPLY)报文的超时时间,单位为毫秒,缺省值为2000。如果源端在timeout时间内未收到目的端的ICMP回显应答(ECHO-REPLY)报文,则会认为目的端不可达。
b. 检查是否因为Ping报文过大而被丢弃。
检查是否执行了ping -f –s packet-size命令,如果执行了此操作,且报文转发路径上存在出接口的MTU小于报文长度packet-size的情况,则会导致报文因为超大且不允许被分片而被丢弃。可以通过减小报文长度或者取消-f参数来解决这个问题。
· -f参数表示将长度大于出接口MTU的报文直接丢弃,即不允许对发送的ICMP回显请求报文进行分片。
· -s packet-size参数用来指定发送的ICMP回显请求报文的长度(不包括IP和ICMP报文头),单位为字节,缺省值为56。
以太网接口MTU的缺省值为1500字节,可以通过执行display interface命令来查看接口的MTU值:
<Sysname> display interface gigabitethernet 1/0/1
GigabitEthernet1/0/1
Current state: UP
Line protocol state: UP
Description: GigabitEthernet1/0/1 Interface
Bandwidth: 1000000 kbps
Maximum transmission unit: 1500
其它显示信息略……
c. 检查是否指定了错误的出接口。
检查是否执行了ping -i interface-type interface-number命令指定Ping报文的出接口。如果指定了出接口,请确保该接口和目的端之间的物理链路是否可达。否则,请换成其它接口或者去掉-i参数。
-i interface-type interface-number参数用来指定发送ICMP回显请求报文的接口的类型和编号。不指定该参数时,将根据目的IP查找路由表或者转发表来确定发送ICMP回显请求报文的接口。
d. 检查是否指定了源地址。
检查是否执行了ping –a source-ip命令指定Ping报文的源地址。如果执行了该命令,请确保中间设备和目的端有到达源地址source-ip的路由。
-a source-ip:指定ICMP回显请求(ECHO-REQUEST)报文的源IP地址。该地址必须是设备上已配置的IP地址。不指定该参数时,ICMP回显请求报文的源IP地址是该报文出接口的主IP地址。
e. 检查是否为目的端指定了准确的VPN。
根据网络规划和部署情况,确认目的端是否属于某个VPN。如果目的端属于某个VPN,则需要在执行ping命令时通过-vpn-instance参数指定目的端所属的VPN。
(2) 查看源端、目的端以及中间设备的收发包统计,确认Ping故障发生的方向。
¡ 检查源端是否发出了ICMP回显请求报文,并收到了ICMP回显应答报文。
源端执行Ping操作后,在源端和目的端分别使用display icmp statistics命令查看ICMP报文收发情况。可以根据统计信息中Input和Output区段报文的数量来确定Ping出现问题的方向:
- 如果源端Output区段的echo值正常增加,但Input区段的echo replies值没有增加,则说明源端发出了请求但是没有收到回应;与此同时,如果目的端Input区段和Output区段的计数都没有变化,则说明目的端没有收到请求也没有给予回应。这样,就可以确定Ping报文是在从源端到目的端的方向上出现了转发故障。
- 如果源端Output区段的echo值正常增加,但Input区段的echo replies值没有增加,则说明源端发出了请求但是没有收到回应;与此同时,如果目的端Input区段和Output区段的计数都正常增加,则说明目的端收到了请求,同时发出了回应。这样,就可以确定Ping报文是在从目的端到源端的方向上出现了转发故障。
display icmp statistics命令显示信息示例如下:
<Sysname> display icmp statistics
Input: bad formats 0 bad checksum 0
echo 1 destination unreachable 0
source quench 0 redirects 0
echo replies 0 parameter problem 0
timestamp 0 information requests 0
mask requests 0 mask replies 0
time exceeded 0 invalid type 0
router advert 0 router solicit 0
broadcast/multicast echo requests ignored 0
broadcast/multicast timestamp requests ignored 0
Output: echo 0 destination unreachable 0
source quench 0 redirects 0
echo replies 1 parameter problem 0
timestamp 0 information replies 0
mask requests 0 mask replies 0
time exceeded 0 bad address 0
packet error 0 router advert 0
其它显示信息略……
· 当目的端是框式设备或者IRF设备,且ICMP报文到达目的端未被分片时,请在目的端执行带slot参数的display icmp statistics命令来查看ICMP报文统计信息,slot为目的端接收该ICMP报文的接口所在的Slot。
· 当目的端是框式设备或者IRF设备,但ICMP报文到达目的端前被分片了,请在目的端执行display icmp statistics命令来查看ICMP报文统计信息即可。
(3) 确定出问题的节点。
确定了Ping故障的发生的方向后,请执行tracert命令确定该方向上报文丢失的位置。
¡ 如果源端到目的端方向出现了问题,请从源端开始排查。
¡ 如果目的端到源端方向出现问题,请从目的端开始排查。
如下例所示,可以通过tracert命令查看报文从源端到目的端(IP地址为1.1.3.2,属于vpn1)所经过的路径,并显示报文经过的私网中的三层设备的信息。
<Sysname> tracert –vpn-instance vpn1 –resolve-as vpn 1.1.3.2
traceroute to 1.1.3.2 (1.1.3.2), 30 hops at most, 40 bytes each packet, press CTRL+C to break
1 1.1.1.2 (1.1.1.2) 673 ms 425 ms 30 ms
2 1.1.2.2 (1.1.2.2) 580 ms 470 ms 80 ms
3 * * *
由以上信息可判断,Ping报文在1.1.2.2的下一跳设备上(即显示为“3 * * *”的节点)出现转发故障。
(4) 检查是否存在到达目的端和源端的FIB表项与ARP表项。
请在问题节点上执行以下操作:
¡ 执行display fib命令检查是否存在到达目的端和源端的路由。如果路由不存在,请检查OSPF、IS-IS、BGP等路由协议配置是否有误。
¡ 如果路由存在并且报文所经链路是以太链路,请执行display arp命令查看是否存在所需的ARP表项。如果ARP表项不存在,请首先排查ARP故障。
(5) 检查问题节点上是否配置ICMP防攻击功能。
如果设备上配置了ICMP攻击相关的防范策略,且设备检测到ICMP攻击,设备会将ICMP报文直接丢弃,从而导致Ping不通。
¡ 通过display attack-defense icmp-flood statistics ip命令查看统计信息的计数来判断设备是否受到了ICMP攻击。
¡ 通过display current-configuration | include icmp-flood、display current-configuration | include “signature detect”查看当前是否配置攻击防范策略。
如果设备受到了ICMP攻击,请先定位并解除ICMP攻击。
(6) 根据收发包统计,确认丢包位置和丢包原因。
在Ping报文途径的设备上:
a. 配置QoS策略,使用ACL源地址和目的地址过滤Ping报文,然后在Ping报文途径接口的入方向和出方向应用QoS策略。
b. 通过display qos policy interface命令查看应用QoS策略的接口上QoS策略匹配成功的报文个数。如果报文个数有增长,则说明设备收到了Ping报文;如果报文个数无增长,则说明设备没有收到Ping报文,此时,可以使用debugging ip packet命令打开IP报文调试信息开关,进一步排查设备没有收到Ping报文的原因并解决问题。
(7) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
执行Tracert操作,显示信息中出现“* * *”行,说明某些节点之间路由不可达,Tracert不通。
本类故障的常见原因主要包括:
· 无对应的路由或者ARP表项。
· 中间设备未开启ICMP超时报文发送功能。
· 目的端未开启ICMP目的不可达报文发送功能。
本类故障的诊断思路如下:
(1) 检查中间设备是否开启了ICMP超时报文发送功能。
(2) 检查目的端是否开启了ICMP目的不可达报文发送功能。
(3) 检查是否存在达到目的端的ARP以及FIB表项。
本类故障的诊断流程如图1-5所示。
图1-5 Tracert不通故障诊断流程图
(1) 检查中间设备是否开启了ICMP超时报文发送功能。
# 查看报文从源端到目的端所经过的路径(假设源端到目的端只有两跳,目的端的IP地址为1.1.2.2)。
<Sysname> tracert 1.1.2.2
traceroute to 1.1.2.2 (1.1.2.2), 30 hops at most, 40 bytes each packet, press CTRL+C to break
1 * * *
2 1.1.2.2 (1.1.2.2) [AS 100] 580 ms 470 ms 80 ms
出现以上显示信息时,请登录中间设备,在中间设备上执行ip ttl-expires enable命令开启ICMP超时报文发送功能。如果故障排除,则说明中间设备未开启ICMP超时报文发送功能导致Tracert不通;如果故障未排除,请继续执行下面的步骤。
(2) 检查目的端是否开启了ICMP目的不可达报文发送功能。
# 查看报文从源端到目的端所经过的路径(假设源端到目的端只有两跳,目的端的IP地址为1.1.2.2)。
<Sysname> tracert 1.1.2.2
traceroute to 1.1.2.2 (1.1.2.2), 30 hops at most, 40 bytes each packet, press CTRL+C to break
1 1.1.1.2 (1.1.1.2) [AS 99] 560 ms 430 ms 50 ms
2 * * *
出现以上显示信息时,请在目的端执行ip unreachables enable命令开启ICMP目的不可达报文发送功能。如果故障排除,则说明目的端未开启ICMP目的不可达报文发送功能;如果故障未排除,请继续执行下面的步骤。
(3) 在问题节点上检查是否存在对应的FIB表项和ARP表项。
在未回应ICMP差错报文的设备(tracert命令执行结果中显示为“* * *”的设备)上执行display fib命令,检查是否存在到目的地址的路由。
¡ 如果路由不存在,请检查OSPF、IS-IS、BGP等路由协议配置是否有误。
¡ 如果路由存在并且报文所经链路是以太链路,请执行display arp命令查看Tracert的下一跳地址对应的ARP表项是否存在。如果不存在,请检查ARP配置是否有误。
(4) 检查Tracert发起端是否收到ICMP差错报文。
发起Tracert后,在Tracert发起端上多次执行display icmp statistics命令查看发起端是否收到ICMP差错报文,显示信息示例如下:
<Sysname> display icmp statistics
Input: bad formats 0 bad checksum 0
echo 0 destination unreachable 9
source quench 0 redirects 0
echo replies 7 parameter problem 0
timestamp 0 information requests 0
mask requests 0 mask replies 0
time exceeded 3 invalid type 0
router advert 0 router solicit 0
broadcast/multicast echo requests ignored 0
broadcast/multicast timestamp requests ignored 0
其它显示信息略……
观察以上ICMP报文的统计信息的变化,判断Input区段内的time exceeded和destination unreachable值的增量是否与Tracert报文发送个数相等,如果不等则表明发起端未收到ICMP差错报文。
(5) 根据收发包统计,确认丢包位置和丢包原因。
在Tracert报文途径的设备上:
a. 配置QoS策略,使用ACL源地址和目的地址过滤Tracert报文,然后在Tracert报文途径接口的入方向和出方向应用QoS策略。
b. 通过display qos policy interface命令查看应用QoS策略的接口上QoS策略匹配成功的报文个数。如果报文个数有增长,则说明设备收到了Tracert报文;如果报文个数无增长,则说明设备没有收到Tracert报文,此时,可以使用debugging ip packet命令打开IP报文调试信息开关,进一步排查设备没有收到Tracert报文的原因并解决问题。
(6) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
当两台设备间通过链路聚合连接时,通过display interface命令查看聚合接口处于down状态。
本类故障的常见原因主要包括:
· 聚合接口配置错误。
· 成员端口物理链路故障。
· LACP协议报文收发故障。
本类故障的诊断思路如下:
(1) 通过display link-aggregation verbose查看成员端口是否处于选中状态,如果处于非选中状态,则通过display interface命令查询成员端口物理状态是否UP,排除端口物理故障影响。
(2) 检查本端和对端聚合接口配置,排除配置问题。
(3) 使用debugging link-aggregation lacp packet命令查看动态聚合的成员端口LACP协议交互情况。
本类故障的诊断流程如图1-6所示。
图1-6 聚合接口无法UP的故障诊断流程图
(1) 排查物理连线是否准确。
根据聚合接口的组网规划进行线路检查,确认物理链接线路是否完全按照规划连接。
如果物理连线正确,则执行步骤(2)。
(2) 聚合接口是否被手工关闭。
执行display interface命令查看聚合接口的物理状态,如果显示为“Administratively DOWN”,则表示聚合接口被手工关闭,请执行undo shutdown命令开启聚合接口。如果聚合接口未被手工关闭,则执行步骤(3)。
(3) 聚合组中成员端口是否UP。
执行display interface命令查看聚合组中的成员端口是否处于UP状态,如果没有UP,请按照端口不UP故障流程处理。
如果端口处于UP状态,则执行步骤(4)。
以如下显示为例,二层聚合组1中成员端口GigabitEthernet1/0/1处于非选中状态。执行display interface命令查看GigabitEthernet1/0/1的物理状态时,物理状态显示为“DOWN”,使成员端口GigabitEthernet1/0/1处于非选中状态。
<Sysname> display link-aggregation verbose
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port, M -- Management port, R -- Reference port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Bridge-Aggregation1
Aggregation Mode: Static
Loadsharing Type: Shar
Management VLANs: None
Port Status Priority Oper-Key
GE1/0/1 U 32768 1
<Sysname> display interface GigabitEthernet 2/0/1
GigabitEthernet2/0/1
Current state: DOWN
Line protocol state: DOWN
IP packet frame type: Ethernet II, hardware address: 2a41-21c1-0100
Description: GigabitEthernet2/0/1 Interface
Bandwidth: 1000000 kbps
Loopback is not set
Unknown-speed mode, full-duplex mode
Link speed type is autonegotiation, link duplex type is force link
Flow-control is not enabled
Maximum frame length: 9216
Allow jumbo frames to pass
Broadcast max-ratio: 100%
Multicast max-ratio: 100%
Unicast max-ratio: 100%
Known-unicast max-ratio: 100%
PVID: 1
MDI type: Automdix
Port link-type: Access
Tagged VLANs: None
Untagged VLANs: 1
Port priority: 2
Last link flapping: 0 hours 0 minutes 15 seconds
Last clearing of counters: Never
Current system time:2021-08-10 10:15:02
Last time when physical state changed to up:2021-08-09 18:31:43
Last time when physical state changed to down:2021-08-10 10:14:47
Peak input rate: 0 bytes/sec, at 00-00-00 00:00:00
Peak output rate: 0 bytes/sec, at 00-00-00 00:00:00
Last 300 seconds input: 5000 packets/sec 5000 bytes/sec -%
Last 300 seconds output: 5000 packets/sec 5000 bytes/sec -%
Input (total): 5000 packets, 5000 bytes
5000 unicasts, 5000 broadcasts, 5000 multicasts, 0 pauses
Input (normal): 0 packets, 0 bytes
0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Input: 5000 input errors, 0 runts, 0 giants, 0 throttles
0 CRC, 0 frame, 0 overruns, 0 aborts
5000 ignored, 0 parity errors
Output (total): 5000 packets, 5000 bytes
5000 unicasts, 5000 broadcasts, 5000 multicasts, 0 pauses
Output (normal): 0 packets, 0 bytes
0 unicasts, 0 broadcasts, 0 multicasts, 0 pauses
Output: 5000 output errors, 0 underruns, 0 buffer failures
5000 aborts, 0 deferred, 0 collisions, 0 late collisions
0 lost carrier, 0 no carrier
(4) 判断聚合接口是否为动态聚合。
¡ 如果聚合接口为动态聚合,则检查对端聚合接口的配置是否正确,即对端聚合接口是否为动态聚合。在任意视图下执行display link-aggregation verbose命令,查看链路两端聚合接口的聚合模式,确保两端聚合模式相同。
以二层聚合接口为例,显示“Aggregation Mode: Dynamic”时,表示该聚合接口为动态聚合:
<Sysname> display link-aggregation verbose bridge-aggregation 10
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port, M -- Management port, R -- Reference port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Bridge-Aggregation10
Creation Mode: Manual
Aggregation Mode: Dynamic
Loadsharing Type: Shar
Management VLANs: None
System ID: 0x8000, 000f-e267-6c6a
Local:
Port Status Priority Index Oper-Key Flag
GE1/0/1 S 32768 61 2 {ACDEF}
GE1/0/2 S 32768 62 2 {ACDEF}
GE1/0/3 S 32768 63 2 {ACDEF}
Remote:
Actor Priority Index Oper-Key SystemID Flag
GE1/0/1(R) 32768 111 2 0x8000, 000f-e267-57ad {ACDEF}
GE1/0/2 32768 112 2 0x8000, 000f-e267-57ad {ACDEF}
GE1/0/3 32768 113 2 0x8000, 000f-e267-57ad {ACDEF}
如果配置不正确,则修改对端聚合接口为动态聚合;如果配置正确,则执行debugging link-aggregation lacp packet命令确认LACP报文收发是否正确。
执行debugging link-aggregation lacp packet命令后,查看成员端口send信息中Actor信息和receive信息中Partner信息。如果sys-mac、key和port-index字段的显示不一致,则LACP协议报文收发不正常,请排除收发光纤错接问题;如果sys-mac、key和port-index字段的显示一致,则LACP协议报文收发正常,请执行步骤(5)。
打开聚合组成员端口GigabitEthernet1/0/1的LACP报文调试信息开关,查看该端口收发LACP协议报文的情况。
<Sysname> debugging link-aggregation lacp packet all interface gigabitethernet 1/0/1
*Nov 2 15:51:21:15 2007 Sysname LAGG/7/Packet: PACKET.GigabitEthernet1/0/1.send.
size=110, subtype =1, version=1
Actor: type=1, len=20, sys-pri=0x8000, sys-mac=00e0-fc02-0300, key=0x1, pri=0x8000, port-index=0x2, state=0xc5
Partner: type=2, len=20, sys-pri=0x0, sys-mac=0000-0000-0000, key=0x0, pri=0x0, port-index=0x0, state=0x32
Collector: type=3, len=16, col-max-delay=0x0
Terminator: type=0, len=0
*Nov 2 15:55:21:15 2007 Sysname LAGG/7/Packet: PACKET.GigabitEthernet1/0/1.receive.
size=110, subtype =1, version=1
Actor: type=1, len=20, sys-pri=0x8000, sys-mac=00e0-fc00-0000, key=0x1, pri=0x8000, port-index=0x6, state=0xd
Partner: type=2, len=20, sys-pri=0x8000, sys-mac=00e0-fc02-0300, key=0x1, pri=0x8000, port-index=0x2, state=0xc5
Collector: type=3, len=16, col-max-delay=0x0
Terminator: type=0, len=0
¡ 如果聚合接口为静态聚合,则执行步骤(5)。
(5) 查看聚合接口下最小选中端口的配置是否影响成员端口选中。
在聚合接口视图下执行display this命令,如果存在link-aggregation selected-port minimum的配置,请修改最小选中端口数值,使其满足最小选中要求。当聚合组内能够被选中的成员端口数增加至不小于配置值时,这些成员端口都将变为选中状态,对应聚合接口的链路状态也将变为UP。
如果聚合接口下最小选中端口的配置未影响成员端口选中,则执行步骤(6)。
以如下显示为例,二层聚合接口1下配置的最小选中端口数为2,而二层聚合接口1对应的聚合组的成员端口仅有一个,所以该成员端口处于非选中状态。
[Sysname-Bridge-Aggregation1] display this
#
interface Bridge-Aggregation1
link-aggregation selected-port minimum 2
#
return
[Sysname-Bridge-Aggregation1] display link-aggregation verbose
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port, M -- Management port, R -- Reference port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Bridge-Aggregation1
Aggregation Mode: Static
Loadsharing Type: Shar
Management VLANs: None
Port Status Priority Oper-Key
GE1/0/1 U 32768 1
(6) 聚合组内是否存在选中的成员端口。
如果聚合组内不存在选中的成员端口,则请参见“1.6 聚合成员端口无法选中”故障进行定位;如果聚合组内存在选中的成员端口,则执行步骤(7)。
(7) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
当两台设备通过链路聚合连接时,通过display counters rate命令查看聚合成员端口出方向流量速率,某些成员端口速率特别小或者根本没有。
本类故障的常见原因主要为聚合负载分担方式配置错误。
本类故障的诊断思路为确认聚合接口转发的报文的特征,并查看聚合负载分担类型是否和报文特性匹配。
本类故障的诊断流程如图1-7所示。
图1-7 聚合接口流量负载分担不均的故障诊断流程图
(1) 查看聚合负载分担类型与报文特征是否匹配。
通过执行display link-aggregation load-sharing mode命令查看聚合负载分担类型,如果与报文特征不匹配,则通过以下命令调整聚合负载分担类型:
¡ 在系统视图下执行link-aggregation global load-sharing mode命令调整全局的负载分担类型。
¡ 在聚合接口视图下执行link-aggregation load-sharing mode命令调整聚合接口的负载分担类型。
如果聚合负载分担类型与报文特征匹配,则执行步骤(2)。
(2) 检查是否部署跨板/跨框聚合。
在IRF环境下,如果部署跨板/跨框聚合,则在系统视图下使用undo link-aggregation load-sharing mode local-first命令关闭本地优先转发功能。如果关闭本地优先转发功能,则可能导致跨板/跨框流量不能过大,影响IRF系统稳定,请根据实际情况进行操作。
如果未部署跨板/跨框聚合,则执行步骤(3)。
需要注意,跨板/跨框流量不能过大,否则可能影响IRF系统稳定。
(3) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
当两台设备通过链路聚合连接时,发现聚合组成员端口处于非选中状态,聚合失败。
本类故障的常见原因主要包括:
· 链路连通性故障。
· 本端和对端的操作key、属性类配置不一致。
· 聚合成员端口数配置错误。
本类故障的诊断思路如下:
(1) 查看成员端口是否UP,排除端口物理故障影响。
(2) 使用debugging link-aggregation lacp packet命令查看动态聚合的成员端口LACP协议交互情况。
(3) 检查本端和对端聚合接口配置,排除配置影响。
本类故障的诊断流程如图1-8所示。
图1-8 聚合成员端口无法选中的故障诊断流程图
(1) 排查物理连线是否正确。
根据聚合接口的组网规划进行线路检查,确认物理链接线路是否完全按照规划连接。
如果物理连线正确,则执行步骤(2)。
(2) 聚合组中成员端口是否UP。
通过display interface命令查看聚合组中的成员端口是否处于UP状态,如果没有UP,请按照端口不UP故障流程处理。
如果端口处于UP状态,则执行步骤(3)。
(3) 本端成员端口的属性类配置与聚合接口是否相同。
a. 执行display link-aggregation verbose命令查看本端处于Unselected状态的成员端口。
以二层聚合接口为例,Status字段显示为“U”时,表示该成员处于Unselected状态:
<Sysname> display link-aggregation verbose
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port, M -- Management port, R -- Reference port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Bridge-Aggregation1
Creation Mode: Manual
Aggregation Mode: Dynamic
Loadsharing Type: Shar
Management VLANs: None
System ID: 0x8000, 2a41-21c1-0100
Local:
Port Status Priority Index Oper-Key Flag
GE1/0/1(R) S 32768 1 1 {ACDEF}
GE1/0/2 S 32768 2 1 {ACDEF}
GE1/0/3 U 32768 3 2 {AC}
Remote:
Actor Priority Index Oper-Key SystemID Flag
GE1/0/1 32768 1 1 0x8000, 36f6-c0aa-0200 {ACDEF}
GE1/0/2 32768 2 1 0x8000, 36f6-c0aa-0200 {ACDEF}
GE1/0/3 32768 3 1 0x8000, 36f6-c0aa-0200 {AC}
b. 执行display current-configuration interface命令查看本端处于Unselected状态的成员端口的属性类配置(VLAN等配置)与聚合接口是否相同,如果不同,则将其配置相同。
以如下显示为例,处于Unselected状态的成员端口GigabitEthernet1/0/3与参考端口GigabitEthernet1/0/1的属性类配置不同,导致该成员端口无法选中,需要修改成员端口GigabitEthernet1/0/3的属性类配置。
<Sysname> display current-configuration interface gigabitethernet 1/0/1
#
interface GigabitEthernet1/0/1
port link-mode bridge
port link-type trunk
port trunk permit vlan 1 to 20
port link-aggregation group 1
#
return
<Sysname> display current-configuration interface bridge-aggregation 1
#
interface Bridge-Aggregation1
port link-type trunk
port trunk permit vlan 1 to 100
link-aggregation mode dynamic
#
return
如果本端成员端口的属性类配置与聚合接口相同,则执行步骤(4)。
(4) 本端成员端口的操作key与参考端口是否相同。
a. 执行display link-aggregation verbose命令查看本端处于Unselected状态的成员端口。
以二层聚合接口为例,Status字段显示为“U”时,表示该成员处于Unselected状态:
<Sysname> display link-aggregation verbose
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Port: A -- Auto port, M -- Management port, R -- Reference port
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Bridge-Aggregation11
Creation Mode: Manual
Aggregation Mode: Dynamic
Loadsharing Type: Shar
Management VLANs: None
System ID: 0x8000, 2a41-21c1-0100
Local:
Port Status Priority Index Oper-Key Flag
GE1/0/1(R) S 32768 1 1 {ACDEF}
GE1/0/2 S 32768 2 1 {ACDEF}
GE1/0/3 U 32768 3 2 {AC}
Remote:
Actor Priority Index Oper-Key SystemID Flag
GE1/0/1 32768 1 1 0x8000, 36f6-c0aa-0200 {ACDEF}
GE1/0/2 32768 2 1 0x8000, 36f6-c0aa-0200 {ACDEF}
GE1/0/3 32768 3 1 0x8000, 36f6-c0aa-0200 {AC}
b. 执行display current-configuration interface命令查看本端处于Unselected状态的成员端口的操作key(包括该端口的速率、双工模式等)与参考端口是否相同,如果不同,则将其配置相同。
以如下显示为例,处于Unselected状态的成员端口GigabitEthernet1/0/3与参考端口GigabitEthernet1/0/1的操作key不同,导致该成员端口无法选中,需要修改该端口速率配置。
<Sysname> display current-configuration interface gigabitethernet 1/0/1
#
interface GigabitEthernet2/0/1
port link-mode bridge
combo enable fiber
port link-aggregation group 11
#
return
<Sysname> display current-configuration interface gigabitethernet 1/0/3
#
interface GigabitEthernet2/0/3
port link-mode bridge
combo enable fiber
speed 100
port link-aggregation group 11
#
return
如果本端成员端口的操作key与参考端口相同,则执行步骤(5)。
(5) 本端聚合接口是否为动态聚合。
如果是动态聚合,则执行步骤(6);如果是静态聚合,否则进行步骤(8)。
(6) LACP报文收发是否正确。
执行debugging link-aggregation lacp packet命令确认LACP报文收发是否正确。执行命该令后,查看成员端口send信息中Actor信息和receive信息中Partner信息。如果sys-mac、key和port-index字段的显示不一致,则LACP协议报文收发不正常,请排除收发光纤错接问题;如果sys-mac、key和port-index字段的显示一致,则LACP协议报文收发正常,请执行步骤(7)。
打开聚合组成员端口GigabitEthernet1/0/1的LACP报文调试信息开关,查看该端口收发LACP协议报文的情况。
<Sysname> debugging link-aggregation lacp packet all interface gigabitethernet 1/0/1
*Nov 2 15:51:21:15 2021 Sysname LAGG/7/Packet: PACKET.GigabitEthernet1/0/1.send.
size=110, subtype =1, version=1
Actor: type=1, len=20, sys-pri=0x8000, sys-mac=00e0-fc02-0300, key=0x1, pri=0x8000, port-index=0x2, state=0xc5
Partner: type=2, len=20, sys-pri=0x0, sys-mac=0000-0000-0000, key=0x0, pri=0x0, port-index=0x0, state=0x32
Collector: type=3, len=16, col-max-delay=0x0
Terminator: type=0, len=0
*Nov 2 15:55:21:15 2021 Sysname LAGG/7/Packet: PACKET.GigabitEthernet1/0/1.receive.
size=110, subtype =1, version=1
Actor: type=1, len=20, sys-pri=0x8000, sys-mac=00e0-fc00-0000, key=0x1, pri=0x8000, port-index=0x6, state=0xd
Partner: type=2, len=20, sys-pri=0x8000, sys-mac=00e0-fc02-0300, key=0x1, pri=0x8000, port-index=0x2, state=0xc5
Collector: type=3, len=16, col-max-delay=0x0
Terminator: type=0, len=0
(7) 本端成员端口的对端端口的操作key和属性类配置与参考端口的对端端口是否相同。
在本端Unselected端口的对端设备上执行display current-configuration interface命令查看对端Unselected端口的属操作key和属性类配置与参考端口的对端端口是否相同,如果不同,则将其配置相同。
如果本端成员端口的对端端口的操作key和属性类配置与参考端口的对端端口相同,则执行步骤(8)。
(8) 聚合成员端口数量是否达到阈值。
¡ 聚合成员端口数超过上限。
可在聚合接口视图下通过link-aggregation selected-port maximum命令配置聚合组中的最大选中端口数。通过display link-aggregation verbose命令查看聚合组中成员端口数是否超过上限,如果超过上限,则多出来的端口为Unselected状态,Selected端口按照端口编号从小到大排序。请在成员端口视图下使用undo port link-aggregation group命令将Selected端口中不适用的端口从聚合组中删除,以使必须使用的端口能够选中。
¡ 聚合成员端口数低于下限。
可在聚合接口视图下执行link-aggregation selected-port minimum命令配置聚合组中的最小选中端口数。通过display link-aggregation verbose命令查看聚合组中成员端口是否低于下限,如果低于下限,则所有成员端口为Unselected状态。请执行link-aggregation selected-port minimum命令修改最小选中端口数值或者为聚合组添加成员端口,使其满足最小选中要求。
如果聚合成员端口数量未达到聚合组的阈值,则执行步骤(9)。
(9) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
无
无
Host通过网线与设备业务接口相连,IP地址已配置为同一网段,在Host上无法Ping通设备或访问设备Web页面。
图1-9 组网图
本类故障的常见原因主要包括:
· 物理链路等故障,导致Host与Device之间不通。
· Device连接Host的接口未配置安全域。
· Device上未配置放行相应报文的安全策略。
本类故障的诊断流程如图1-10所示。
图1-10 Host与设备直连,无法访问设备故障诊断流程图
(1) 执行display security-zone命令,查看连接Host的接口(本例为GigabitEthernet1/0/1)是否已加入安全域。
[Device] display security-zone
Name: Local
Members:
None
Name: Trust
Members:
None
Name: DMZ
Members:
None
Name: Untrust
Members:
None
Name: Management
Members:
GigabitEthernet1/0/0
(2) 若接口未加入任何安全域,则配置接口加入安全域(本例为Trust安全域)。
[Device] security-zone name trust
[Device-security-zone-Trust] import interface gigabitethernet 1/0/1
[Device-security-zone-Trust] quit
(3) 配置安全策略,允许Host访问设备。
[Device] security-policy ip
[Device-security-policy-ip] rule name localin
[Device-security-policy-ip-0-localin] source-zone trust
[Device-security-policy-ip-0-localin] destination-zone local
[Device-security-policy-ip-0-localin] source-ip-host 10.1.1.2
[Device-security-policy-ip-0-localin] destination-ip-host 10.1.1.1
[Device-security-policy-ip-0-localin] quit
(4) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件。
无
无
设备通过网线连接至内网,IP地址及双向路由已正确配置,在设备上无法访问内网中的服务器。
图1-11 组网图
本类故障的常见原因主要包括:
· 物理链路等故障,导致Device与Server之间不通。
· Device连接网络的接口未配置安全域。
· Device上未配置放行相应报文的安全策略。
本类故障的诊断流程如图1-10所示。
图1-12 在设备上无法访问内网中的服务器故障诊断流程图
(1) 执行display security-zone命令,查看连接Server的接口(本例为GigabitEthernet1/0/1)是否已加入安全域。
[Device] display security-zone
Name: Local
Members:
None
Name: Trust
Members:
None
Name: DMZ
Members:
None
Name: Untrust
Members:
None
Name: Management
Members:
GigabitEthernet1/0/0
(2) 若接口未加入任何安全域,则配置接口加入安全域(本例为Trust安全域)。
[Device] security-zone name trust
[Device-security-zone-Trust] import interface gigabitethernet 1/0/1
[Device-security-zone-Trust] quit
(3) 配置安全策略,允许Host访问设备。
[Device] security-policy ip
[Device-security-policy-ip] rule name localout
[Device-security-policy-ip-0-localout] source-zone local
[Device-security-policy-ip-0-localout] destination-zone trust
[Device-security-policy-ip-0-localout] source-ip-host 10.1.1.1
[Device-security-policy-ip-0-localout] destination-ip-host 20.1.1.2
[Device-security-policy-ip-0-localout] quit
(4) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件。
无
无
Host通过设备与内网中的服务器相连,IP地址及双向路由已正确配置,但Host无法访问服务器。
图1-13 组网图
本类故障的常见原因主要包括:
· 物理链路等故障,导致Device与Server之间不通。
· Device连接网络的接口未配置安全域。
· Device上未配置放行相应报文的安全策略。
本类故障的诊断流程如图1-10所示。
图1-14 Host通过设备与内网服务器连接,无法访问服务器故障诊断流程图
(1) 执行display security-zone命令,查看连接Host的接口(本例为GigabitEthernet1/0/1)和连接Server的接口(本例为GigabitEthernet1/0/2)是否已加入安全域,建议加入不同安全域。
[Device] display security-zone
Name: Local
Members:
None
Name: Trust
Members:
None
Name: DMZ
Members:
None
Name: Untrust
Members:
None
Name: Management
Members:
GigabitEthernet1/0/0
(2) 若接口未加入任何安全域,则配置接口加入安全域(本例为Trust安全域)。
[Device] security-zone name trust
[Device-security-zone-Trust] import interface gigabitethernet 1/0/1
[Device-security-zone-Trust] quit
[Device] security-zone name dmz
[Device-security-zone-dmz] import interface gigabitethernet 1/0/2
[Device-security-zone-dmz] quit
(3) 配置安全策略,允许Host访问Server。
[Device] security-policy ip
[Device-security-policy-ip] rule name trust-dmz
[Device-security-policy-ip-0-localout] source-zone trust
[Device-security-policy-ip-0-localout] destination-zone dmz
[Device-security-policy-ip-0-localout] source-ip-host 10.1.1.2
[Device-security-policy-ip-0-localout] destination-ip-host 30.1.1.2
[Device-security-policy-ip-0-localout] quit
(4) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件。
无
无
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!