应急恢复指导书
资料版本:5W100-20230707
Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。 除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。 本文档中的信息可能变动,恕不另行通知。 |
本指导书适用于运行中大面积生产业务或重要单个生产业务故障,且没有时间进行详细问题分析与定位的场景。在初步判断业务影响范围的情况下可以参考下方各种场景采取应急恢复指导操作。
如果相关步骤尝试后无法恢复业务,请立即联系H3C技术工程师寻求技术支持。
全部应急操作执行完毕,无论业务是否恢复,请立即联系400-810-0504通知进展,彻底解决。
打开WORD[视图/导航窗格]按场景选择可以加快应急处理速度。
目前所有业务都在VPN中,需要在流量源设备上查询对应的VPN路由,确认转发异常流量的路由信息是否正确。
<spoke>display ip routing-table vpn-instance vpn1
Destinations : 11 Routes : 11
Destination/Mask Proto Pre Cost NextHop Interface
0.0.0.0/32 Direct 0 0 127.0.0.1 InLoop0
20.1.1.0/24 BGP 255 0 6.1.1.1 Tun2
BGP 255 0 6.1.1.1 Tun1
21.1.1.0/24 Direct 0 0 21.1.1.1 GE0/0
21.1.1.1/32 Direct 0 0 127.0.0.1 InLoop0
21.1.1.255/32 Direct 0 0 21.1.1.1 GE0/0
127.0.0.0/8 Direct 0 0 127.0.0.1 InLoop0
127.0.0.1/32 Direct 0 0 127.0.0.1 InLoop0
127.255.255.255/32 Direct 0 0 127.0.0.1 InLoop0
224.0.0.0/4 Direct 0 0 0.0.0.0 NULL0
224.0.0.0/24 Direct 0 0 0.0.0.0 NULL0
255.255.255.255/32 Direct 0 0 127.0.0.1 InLoop0
如果无法查询对应到业务路由,需要通过以下方式排查。
查询到RR设备的EVPN邻居状态,邻居状态为Established则为状态正常,可以跳过此步骤。
<spoke>display bgp peer l2vpn evpn
BGP local router ID: 220.1.2.2
Local AS number: 200
Total number of peers: 1 Peers in established state: 1
* - Dynamically created peer
Peer AS MsgRcvd MsgSent OutQ PrefRcv Up/Down State
6.1.1.1 200 1877 1652 0 1 23:30:10 Established
如果状态异常可以通过以下方式排查:
(1) 确认设备和RR之间的TTE连接是否正常,通过以下命令查询到RR设备是否有无法建立的TTE连接:
<spoke>display sdwan tte connection unreachable
Destination SiteID/DevID/IfID/SysIP: 1/1/1/6.1.1.1 //对端 system ip,关注到RR的地址
Destination IP/port: 220.1.1.1/4799 //对端封装地址
Source IP/port/IfID: 220.1.2.2/4799/1 //本端tunnel接口ID
Number of connections: 1
(2) 如果存在无法建立的TTE连接,确认到对端封装地址的路由是否可达且出接口是否和隧道下指定的出接口一致。
确认隧道口对应的出接口:
<spoke>display current-configuration interface Tunnel 1
#
interface Tunnel1 mode sdwan udp
bandwidth 10000
ip address unnumbered interface GigabitEthernet0/1
source GigabitEthernet0/1
tunnel out-interface GigabitEthernet0/1 //指定出接口
ipv6 address auto link-local
tunnel protection ipsec profile adwan-ipsec-profile
sdwan interface-id 1
sdwan routing-domain 10 id 10
sdwan transport-network Mobile.1.ipv4 id 1
sdwan keepalive interval 2 retry 5
#
Return
查询无法建立TTE连接的对端封装地址的路由出接口:
<spoke>display ip routing-table 220.1.1.1
Summary count : 3
Destination/Mask Proto Pre Cost NextHop Interface
0.0.0.0/0 Static 60 0 220.1.2.1 GE0/1
220.1.1.0/24 O_INTRA 10 12 20.1.2.1 GE0/2
220.1.1.1/32 O_INTRA 10 12 20.1.2.1 GE0/2 //出接口不一致
如果没有对应路由或者出接口不一致,则是底层路由问题。
(3) 如果设备路由正常,则需要通过ping或其它方式排查到封装目的地址的底层网络是否可达。
(1) 如果到对端封装目的地址没有对应路由或者路由出接口和隧道配置不一致,需要排查底层路由配置,确认是否底层路由发布问题。
底层支持的路由场景较多,需要根据实际情况排查。
(2) 如果路由正常但是到对端封装目的地址无法ping通,则可能是中间网络异常。例如存在防火墙进行了包过滤,需要排查中间网络。
(3) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
如果到RR设备的EVPN邻居状态正常,则需要排查是否路由学习问题。
(1) 确认对端设备是否发送了对应路由,通过以下命令查询。
<hub>dis bgp l2vpn evpn peer 6.1.1.2 advertised-routes
Total number of routes: 1
BGP local router ID is 6.1.1.1
Status codes: * - valid, > - best, d - dampened, h - history,
s - suppressed, S - stale, i - internal, e - external,
a - additional-path
Origin: i - IGP, e - EGP, ? - incomplete
Route distinguisher: 1:1
Total number of routes: 1
Network NextHop MED LocPrf Path/Ogn
* > [5][0][24][20.1.1.0]/80
127.0.0.1 0 100 ?
(2) 如果没有发送对应的路由,需要确认是否引入了需要发布的路由或者出方向路由策略是否进行了过滤。
控制组件下的引入路由配置和邻居下出方向路由策略配置:
#
bgp 200
address-family l2vpn evpn
undo policy vpn-target
reflect change-path-attribute
peer 6.1.1.2 enable
peer 6.1.1.2 route-policy vpn-export-policy-2 export //确认出方向路由策略是否正确
peer 6.1.1.2 advertise-community
peer 6.1.1.2 reflect-client
peer 6.1.1.2 advertise encap-type sdwan
#
ip vpn-instance vpn1
#
address-family ipv4 unicast
import-route direct route-policy DIRECT-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route static route-policy STATIC-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route rip all-processes route-policy RIP-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route ospf all-processes route-policy OSPF-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route isis all-processes route-policy ISIS-vpn1-25f685ca5b121687215c51e3de3cf16b //确认引入的路由策略是否正确
#
address-family ipv6 unicast
import-route direct route-policy DIRECT-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route static route-policy STATIC-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route ripng all-processes route-policy RIP-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route ospfv3 all-processes route-policy OSPF-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route isisv6 all-processes route-policy ISIS-vpn1-25f685ca5b121687215c51e3de3cf16b //确认引入的路由策略是否正确
#
(3) 如果对端已经发送了对应路由,通过以下命令查询本端是否收到了路由:
[spoke]display bgp l2vpn evpn peer 6.1.1.1 received-routes
Total number of routes: 0
(4) 如果没有收到路由,有可能是配置了入方向路由策略进行了过滤。需要排查BGP配置。
[spoke]dis cur configuration bgp
#
bgp 200
peer 6.1.1.1 as-number 200
peer 6.1.1.1 connect-interface LoopBack66
peer 6.1.1.1 bfd multi-hop
#
address-family ipv4 tnl-encap-ext
peer 6.1.1.1 enable
#
address-family l2vpn evpn
peer 6.1.1.1 enable
peer 6.1.1.1 route-policy deny import //确认入方向路由策略是否异常
peer 6.1.1.1 route-policy vpn-export-route-policy1 export
peer 6.1.1.1 advertise-community
peer 6.1.1.1 advertise encap-type sdwan
#
(5) 如果已经收到了路由,但是路由为无效路由:
<spoke>display bgp l2vpn evpn peer 6.1.1.1 received-routes
Total number of routes: 1
BGP local router ID is 220.1.2.2
Status codes: * - valid, > - best, d - dampened, h - history,
s - suppressed, S - stale, i - internal, e - external,
a - additional-path
Origin: i - IGP, e - EGP, ? - incomplete
Route distinguisher: 1:1(vpn1)
Total number of routes: 1
Network NextHop MED LocPrf PrefVal Path/Ogn
* >i [5][0][24][20.1.1.0]/80
6.1.1.1 0 100 0 ? //如果路由前面没有*说明是无效路由。
路由为迭代路由,如果是无效路由,说明下一跳地址不可达。
(1) 如果对端没有发布对应路由,需要排查对端设备引入路由配置和出方向路由策略配置,确认相关配置是否正确。
通过以下命令可以查询所有路由策略配置,确认配置的路由策略是否正确。
<hub>display current-configuration configuration route-policy
(2) 如果本端没有收到对应路由,需要排查本端设备入方向路由策略,确认路由策略配置是否正常。
通过以下命令可以查询所有路由策略配置,确认配置的路由策略是否正确。
<spoke>display current-configuration configuration route-policy
(3) 如果路由无效,可以参考3.1.1 到RR设备的EVPN邻居状态是否正常排查到对应下一跳地址的TTE连接是否正常。
(4) 如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。
路由都正确的情况下,业务流量仍然转发异常。
一般情况下,两个设备间有可能是有多条TTE路径,由于特定TTE连接异常导致流量转发异常(TTE保活未探测出异常)。
查看到目的地址的TTE连接:
<spoke>display sdwan tte connection system-ip 6.1.1.1 reachable
Destination SiteID/DevID/IfID/SysIP: 1/1/1/6.1.1.1
Destination IP/port: 220.1.1.1/4799
Source IP/port/IfID: 220.1.2.2/4799/1
Destination SiteID/DevID/IfID/SysIP: 1/1/2/6.1.1.1
Destination IP/port: 20.1.1.1/4799
Source IP/port/IfID: 20.1.2.2/4799/2
Number of connections: 2
如果存在多个TTE连接,且TTE连接属于不同的出口。
查询快转表,确认异常流量的出接口。
[spoke]dis ip fast-forwarding cache 20.1.1.1
Total number of fast-forwarding entries: 8
SIP SPort DIP DPort Pro Input_If Output_If Flg
21.1.1.1 35922 20.1.1.1 0 1 InLoop0 Tun2 1
20.1.1.1 35922 21.1.1.1 2048 1 Tun2 N/A 1
对应的出接口为Tunnel2。
(1) 对于分支设备,可以尝试shutdown对应的隧道接口,强制流量切换到其他TTE转发。
[spoke]interface Tunnel 2
[spoke-Tunnel2]shutdown
Shutdown隧道口后所有在此隧道口上转发的流量都需要进行切换,会引起丢包,且此WAN链路也无法继续使用。需要保证有备份WAN链路且链路带宽满足要求的情况下,再考虑执行此操作
(2) 上述所有排查方法都无法解决的情况下,可以考虑重启设备。
(1) 诊断信息收集。
执行display diag命令将诊断信息保存到文件。
(2) Logfile文件收集。
执行logfile save命令保存logfile,然后将logfile文件导出。
(3) 异常信息收集。
各存储介质路径Dir core/文件夹是否为空,不为空则作为故障诊断信息留存导出。