• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

06-SD-WAN 应急恢复指导书

手册下载

06-SD-WAN 应急恢复指导书-整本手册.pdf  (275.31 KB)

  • 发布时间:2024/12/12 3:03:46
  • 浏览量:
  • 下载量:

SD-WAN

应急恢复指导书

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:5W100-20230707

 

Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。



1 适用范围与场景

本指导书适用于运行中大面积生产业务或重要单个生产业务故障,且没有时间进行详细问题分析与定位的场景。在初步判断业务影响范围的情况下可以参考下方各种场景采取应急恢复指导操作。

如果相关步骤尝试后无法恢复业务,请立即联系H3C技术工程师寻求技术支持。

注意

全部应急操作执行完毕,无论业务是否恢复,请立即联系400-810-0504通知进展,彻底解决。

 

提示

打开WORD[视图/导航窗格]按场景选择可以加快应急处理速度。

 

 


2 操作人员

本指导书操作人员特指新华三技术有限公司的技术支持工程师。


3 业务流量转发异常

3.1  排查业务路由是否正常

目前所有业务都在VPN中,需要在流量源设备上查询对应的VPN路由,确认转发异常流量的路由信息是否正确。

<spoke>display ip routing-table vpn-instance vpn1

 

Destinations : 11       Routes : 11

 

Destination/Mask   Proto   Pre Cost        NextHop         Interface

0.0.0.0/32         Direct  0   0           127.0.0.1       InLoop0

20.1.1.0/24        BGP     255 0           6.1.1.1         Tun2

                     BGP     255 0           6.1.1.1         Tun1

21.1.1.0/24        Direct  0   0           21.1.1.1        GE0/0

21.1.1.1/32        Direct  0   0           127.0.0.1       InLoop0

21.1.1.255/32      Direct  0   0           21.1.1.1        GE0/0

127.0.0.0/8        Direct  0   0           127.0.0.1       InLoop0

127.0.0.1/32       Direct  0   0           127.0.0.1       InLoop0

127.255.255.255/32 Direct  0   0           127.0.0.1       InLoop0

224.0.0.0/4        Direct  0   0           0.0.0.0         NULL0

224.0.0.0/24       Direct  0   0           0.0.0.0         NULL0

255.255.255.255/32 Direct  0   0           127.0.0.1       InLoop0

如果无法查询对应到业务路由,需要通过以下方式排查。

3.1.1  RR设备的EVPN邻居状态是否正常

1. 排查步骤

查询到RR设备的EVPN邻居状态,邻居状态为Established则为状态正常,可以跳过此步骤。

<spoke>display bgp peer l2vpn evpn

                                  

 BGP local router ID: 220.1.2.2

 Local AS number: 200

 Total number of peers: 1                 Peers in established state: 1

                           

  * - Dynamically created peer

  Peer                    AS  MsgRcvd  MsgSent OutQ PrefRcv Up/Down  State

                           

  6.1.1.1                200     1877     1652    0       1 23:30:10 Established

如果状态异常可以通过以下方式排查:

(1)     确认设备和RR之间的TTE连接是否正常,通过以下命令查询到RR设备是否有无法建立的TTE连接:

<spoke>display sdwan tte connection unreachable   

Destination SiteID/DevID/IfID/SysIP: 1/1/1/6.1.1.1     //对端 system ip,关注到RR的地址

Destination IP/port: 220.1.1.1/4799               //对端封装地址

Source IP/port/IfID: 220.1.2.2/4799/1            //本端tunnel接口ID

      

Number of connections: 1

(2)     如果存在无法建立的TTE连接,确认到对端封装地址的路由是否可达且出接口是否和隧道下指定的出接口一致。

确认隧道口对应的出接口:

<spoke>display  current-configuration  interface  Tunnel  1

#

interface Tunnel1 mode sdwan udp

 bandwidth 10000

 ip address unnumbered interface GigabitEthernet0/1   

 source GigabitEthernet0/1

 tunnel out-interface GigabitEthernet0/1           //指定出接口

 ipv6 address auto link-local

 tunnel protection ipsec profile adwan-ipsec-profile

 sdwan interface-id 1

 sdwan routing-domain 10 id 10

 sdwan transport-network Mobile.1.ipv4 id 1

 sdwan keepalive interval 2 retry 5

#

Return

查询无法建立TTE连接的对端封装地址的路由出接口:

<spoke>display ip routing-table 220.1.1.1

                       

Summary count : 3

                    

Destination/Mask   Proto   Pre Cost        NextHop         Interface

0.0.0.0/0          Static  60  0           220.1.2.1       GE0/1

220.1.1.0/24       O_INTRA 10  12          20.1.2.1        GE0/2

220.1.1.1/32       O_INTRA 10  12          20.1.2.1        GE0/2    //出接口不一致

如果没有对应路由或者出接口不一致,则是底层路由问题。

(3)     如果设备路由正常,则需要通过ping或其它方式排查到封装目的地址的底层网络是否可达。

2. 解决方法

(1)     如果到对端封装目的地址没有对应路由或者路由出接口和隧道配置不一致,需要排查底层路由配置,确认是否底层路由发布问题。

底层支持的路由场景较多,需要根据实际情况排查。

(2)     如果路由正常但是到对端封装目的地址无法ping通,则可能是中间网络异常。例如存在防火墙进行了包过滤,需要排查中间网络。

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

3.1.2  路由学习异常

1. 排查步骤

如果到RR设备的EVPN邻居状态正常,则需要排查是否路由学习问题。

(1)     确认对端设备是否发送了对应路由,通过以下命令查询。

<hub>dis bgp l2vpn evpn peer 6.1.1.2 advertised-routes

                                                                             

 Total number of routes: 1

                                                                             

 BGP local router ID is 6.1.1.1

 Status codes: * - valid, > - best, d - dampened, h - history,

               s - suppressed, S - stale, i - internal, e - external,

               a - additional-path

               Origin: i - IGP, e - EGP, ? - incomplete

                          

 Route distinguisher: 1:1

 Total number of routes: 1

    

     Network            NextHop         MED        LocPrf             Path/Ogn

                                                                                       

* >  [5][0][24][20.1.1.0]/80

                        127.0.0.1       0          100                ?

(2)     如果没有发送对应的路由,需要确认是否引入了需要发布的路由或者出方向路由策略是否进行了过滤。

控制组件下的引入路由配置和邻居下出方向路由策略配置:

#

bgp 200

address-family l2vpn evpn

  undo policy vpn-target

  reflect change-path-attribute

  peer 6.1.1.2 enable

  peer 6.1.1.2 route-policy vpn-export-policy-2 export     //确认出方向路由策略是否正确

  peer 6.1.1.2 advertise-community

  peer 6.1.1.2 reflect-client

  peer 6.1.1.2 advertise encap-type sdwan

 #

 ip vpn-instance vpn1  

  #

  address-family ipv4 unicast

   import-route direct route-policy DIRECT-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route static route-policy STATIC-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route rip all-processes route-policy RIP-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route ospf all-processes route-policy OSPF-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route isis all-processes route-policy ISIS-vpn1-25f685ca5b121687215c51e3de3cf16b       //确认引入的路由策略是否正确

  #

  address-family ipv6 unicast

   import-route direct route-policy DIRECT-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route static route-policy STATIC-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route ripng all-processes route-policy RIP-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route ospfv3 all-processes route-policy OSPF-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route isisv6 all-processes route-policy ISIS-vpn1-25f685ca5b121687215c51e3de3cf16b    //确认引入的路由策略是否正确

#

(3)     如果对端已经发送了对应路由,通过以下命令查询本端是否收到了路由:

[spoke]display bgp l2vpn evpn peer 6.1.1.1 received-routes

                                                         

 Total number of routes: 0

(4)     如果没有收到路由,有可能是配置了入方向路由策略进行了过滤。需要排查BGP配置。

[spoke]dis cur configuration  bgp

#

bgp 200

 peer 6.1.1.1 as-number 200

 peer 6.1.1.1 connect-interface LoopBack66

 peer 6.1.1.1 bfd multi-hop

 #

 address-family ipv4 tnl-encap-ext

  peer 6.1.1.1 enable

 #

 address-family l2vpn evpn

  peer 6.1.1.1 enable

  peer 6.1.1.1 route-policy deny import      //确认入方向路由策略是否异常

  peer 6.1.1.1 route-policy vpn-export-route-policy1 export

  peer 6.1.1.1 advertise-community

  peer 6.1.1.1 advertise encap-type sdwan

 #

(5)     如果已经收到了路由,但是路由为无效路由:

<spoke>display bgp l2vpn evpn peer 6.1.1.1 received-routes

                                                                                           

 Total number of routes: 1

 

 BGP local router ID is 220.1.2.2

 Status codes: * - valid, > - best, d - dampened, h - history,

               s - suppressed, S - stale, i - internal, e - external,

               a - additional-path

               Origin: i - IGP, e - EGP, ? - incomplete

                                        

 Route distinguisher: 1:1(vpn1)

 Total number of routes: 1

                                                        

     Network            NextHop         MED        LocPrf     PrefVal Path/Ogn

                                                                   

* >i [5][0][24][20.1.1.0]/80

                        6.1.1.1         0          100        0       ?  //如果路由前面没有*说明是无效路由。

路由为迭代路由,如果是无效路由,说明下一跳地址不可达。

2. 解决方法

(1)     如果对端没有发布对应路由,需要排查对端设备引入路由配置和出方向路由策略配置,确认相关配置是否正确。

通过以下命令可以查询所有路由策略配置,确认配置的路由策略是否正确。

<hub>display current-configuration  configuration route-policy

(2)     如果本端没有收到对应路由,需要排查本端设备入方向路由策略,确认路由策略配置是否正常。

通过以下命令可以查询所有路由策略配置,确认配置的路由策略是否正确。

<spoke>display current-configuration  configuration route-policy

(3)     如果路由无效,可以参考3.1.1  RR设备的EVPN邻居状态是否正常排查到对应下一跳地址的TTE连接是否正常。

(4)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

3.1.3  业务流量转发异常

路由都正确的情况下,业务流量仍然转发异常。

1. 排查步骤

一般情况下,两个设备间有可能是有多条TTE路径,由于特定TTE连接异常导致流量转发异常(TTE保活未探测出异常)。

查看到目的地址的TTE连接:

<spoke>display sdwan tte connection system-ip 6.1.1.1 reachable

Destination SiteID/DevID/IfID/SysIP: 1/1/1/6.1.1.1

Destination IP/port: 220.1.1.1/4799

Source IP/port/IfID: 220.1.2.2/4799/1

                                                        

Destination SiteID/DevID/IfID/SysIP: 1/1/2/6.1.1.1

Destination IP/port: 20.1.1.1/4799

Source IP/port/IfID: 20.1.2.2/4799/2

                                                                      

Number of connections: 2

如果存在多个TTE连接,且TTE连接属于不同的出口。

查询快转表,确认异常流量的出接口。

[spoke]dis ip fast-forwarding cache 20.1.1.1

Total number of fast-forwarding entries: 8

SIP             SPort DIP             DPort Pro Input_If    Output_If   Flg

21.1.1.1        35922 20.1.1.1        0     1   InLoop0     Tun2        1   

20.1.1.1        35922 21.1.1.1        2048  1   Tun2        N/A         1   

对应的出接口为Tunnel2

2. 解决方法

(1)     对于分支设备,可以尝试shutdown对应的隧道接口,强制流量切换到其他TTE转发。

[spoke]interface  Tunnel 2

[spoke-Tunnel2]shutdown

注意

Shutdown隧道口后所有在此隧道口上转发的流量都需要进行切换,会引起丢包,且此WAN链路也无法继续使用。需要保证有备份WAN链路且链路带宽满足要求的情况下,再考虑执行此操作

 

(2)     上述所有排查方法都无法解决的情况下,可以考虑重启设备。

 


4 信息收集

4.1  MSR/SR66信息收集

(1)     诊断信息收集

执行display diag命令将诊断信息保存到文件

(2)     Logfile文件收集

执行logfile save命令保存logfile,然后将logfile文件导出。

(3)     异常信息收集

各存储介质路径Dir core/文件夹是否为空,不为空则作为故障诊断信息留存导出。

新华三官网
联系我们