• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

04-SD-WAN 故障维护手册

手册下载

04-SD-WAN 故障维护手册-整本手册.pdf  (947.53 KB)

  • 发布时间:2024/12/12 3:03:46
  • 浏览量:
  • 下载量:

SD-WAN

故障维护手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:5W100-20230707

 

Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。


 

1 概述··· 1-1

2 控制组件日志收集步骤··· 2-1

2.1 网络管理操作日志·· 2-1

2.2 收集设备日志·· 2-1

2.2.1 收集设备诊断信息·· 2-1

2.2.2 收集设备debug打印·· 2-1

3 设备上线失败··· 3-1

3.1 问题描述·· 3-1

3.2 问题排查思路·· 3-1

3.3 排查设备侧配置·· 3-1

3.3.1 排查思路·· 3-1

3.4 排查设备注册配置·· 3-1

3.5 排查License资源是否充足·· 3-2

3.5.2 问题原因和解决方案·· 3-3

4 设备在线状态震荡··· 4-1

4.1 问题描述·· 4-1

4.2 问题排查思路·· 4-1

4.3 排查设备配置·· 4-1

4.3.1 问题排查思路·· 4-1

4.3.2 问题原因和解决方案·· 4-1

4.4 注册地址变化·· 4-1

4.4.1 问题排查思路·· 4-1

4.4.2 问题原因和解决方案·· 4-2

5 路由问题导致业务流量无法转发··· 5-1

5.1 问题描述·· 5-1

5.2 问题排查思路·· 5-1

5.3 RR设备的EVPN邻居状态是否正常·· 5-2

5.4 确认设备之间的TTE连接状态·· 5-3

5.4.1 确认Tls连接状态·· 5-3

5.4.2 确认CPERR间的TTE连接状态·· 5-4

5.4.3 确认CPETTE连接状态·· 5-5

5.4.4 确认双网关设备协同TTE状态·· 5-6

5.5 路由学习排查·· 5-7

6 调度功能不生效··· 6-1

6.1 问题现象·· 6-1

6.2 问题排查思路·· 6-1

6.3 流量入口QoS策略排查·· 6-1

6.3.1 流策略应用排·· 6-1

6.3.2 流分类排查·· 6-2

6.3.3 流行为排查·· 6-4

6.3.4 流量入口着色是否成功·· 6-5

6.4 调度应用组下发·· 6-6

6.4.1 控制组件调度应用组配·· 6-6

6.4.2 设备配置确认·· 6-8

6.5 选路结果排查·· 6-10

6.5.1 隧道综合质量评分排查·· 6-10

6.5.2 隧道质量排查·· 6-11

6.5.3 隧道带宽排查·· 6-12

 


1 概述

本文档描述SD-WAN分支解决方案的一些问题处理方式,并通过分析一些典型案例告诉读者在使用时需要注意的地方以及遇到问题时可能的产生原因。本文档适用于维护人员、测试人员在确认和定位问题时参考,也适用于技术支持人员在解决客户问题时参考。


2 控制组件日志收集步骤

2.1  网络管理操作日志

登录云简网络平台,进入[网络管理>消息>操作日志]页面,选择对应的时间,可以查询到对应操作日志,单击<导出>按钮,可以导出操作日志,如2-1所示。

图2-1 导出操作日志

 

2.2  收集设备日志

2.2.1  收集设备诊断信息

收集设备的diag日志反馈,登录设备收集diag日志:

<Hub1> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:

输入Y,保存diag日志,然后下载;输入N,显示diag日志然后直接收集。

2.2.2  收集设备debug打印

(1)     Telnet登录设备后台,执行如下命令开启debug打印 。开启debug会影响设备性能请谨慎开启并在使用完毕后关闭debug

<HUB1-1> debugging xxx all

<HUB1-1> t d

The current terminal is enabled to display debugging logs.

<HUB1-1> t m

The current terminal is enabled to display logs.

常用debug打印日志

rir:流量调度相关;

cloud-management:websocket相关

sdwan: sdwan相关

ip packet:转发相关

(2)     执行出现问题的相关操作步骤

(3)     收集打印日志,通过以下命令停止打印并关闭debug

<HUB1-1>u t d

The current terminal is disabled to display debugging logs.

<HUB1-1>u t m

The current terminal is disabled to display logs.

<HUB1-1>undo debugging all

 


3 设备上线失败

3.1  问题描述

控制组件完成网元同步,设备同步成功,等待一段时间后,设备无法上线,控制组件显示设备离线。

3.2  问题排查思路

设备通过WebSocket主动注册上线,设备无法上线是由于WebSocket注册失败,一般需要通过Telnet或者串口登录设备进行问题排查,基本问题排查思路如3-1所示。

图3-1 设备上线失败排查思路

 

3.3  排查设备侧配置

3.3.1  排查思路

3.4  排查设备注册配置

通过Telnet或者串口登录设备,确认设备注册配置是否正确。

设备注册配置举例如下:

#

dns proxy enable

dns server 8.8.8.8

#

cloud-management server domain lvzhou-at.h3c.com port 31443

cloud-management keepalive 60

#

需要排查配置:

·     设备是否配置了dns proxy enable命令;

·     设备是否配置了dns server 命令;

·     确认cloud-management注册地址和端口是否正确:

·     是否有其它多余配置,例如注册端口号、注册密码配置等,不需要注册密码,如果有对应配置则需要删除。

1. 排查设备是否能够正常访问公网。

2. 排查设备序列号是否填写正确

登录云简网络平台,进入[网络管理>网络>设备]页面,查看设备序列号是否填写正确,如3-2所示。

图3-2 设备序列号

 

3.5  排查License资源是否充足

登录云简网络平台,进入[网络管理>设置>License许可]页面,检查License资源是否充足。

进入[网络管理>设置>License许可(UC]页面,检查License资源是否到期,可绑定的设备总数是否充足,如3-3所示。

图3-3 License许可(UC)

 

3.5.2  问题原因和解决方案

申请新的License许可后,登录云简网络平台,进入[网络管理>设置>License许可(UC]页面,单击对应设备后面的<扩容>按钮进行扩容,如所示。

图3-4 License扩容

 


4 设备在线状态震荡

4.1  问题描述

设备注册成功后,经常离线然后状态恢复正常,在线状态出现震荡并产生大量告警。

4.2  问题排查思路

设备注册在线后,如果出现震荡,基本问题排查思路如4-1所示。

图4-1 设备在线状态震荡排查思路

 

4.3  排查设备配置

4.3.1  问题排查思路

如果设备是手工开局或者升级局点,需要确认设备上WebSocket注册保活时间是否配置为60秒。查询保活时间:

<Spoke1>display current-configuration | include cloud-management

cloud-management server domain lvzhou-at.h3c.com port 31443

 cloud-management keepalive 60                //保活时间60

4.3.2  问题原因和解决方案

设备默认注册报文时间为180秒,设备间隔180秒发送保活报文。控制组件保活时间为200秒,如果200秒内没有收到保活报文,则认为设备离线。如果不修改设备默认配置,如果一个保活报文被丢掉,设备就会离线。

修改设备保活时间为60秒。

<Spoke1>system-view

[Spoke1]cloud-management keepalive 60

4.4  注册地址变化

4.4.1  问题排查思路

查看控制组件告警,设备离线后很快又恢复上线(秒级恢复)。一般情况下是由于设备注册地址变化导致的设备在线状态震荡。

4.4.2  问题原因和解决方案

如果设备通过家用宽带注册上线,运营商会周期性回收设备的公网地址,替换为新的公网地址,导致设备使用新的地址注册,设备在线状态震荡。

设备使用新的地址注册,控制组件会认为设备离线并生成告警。用户通过配置优化告警生成,减少由于设备在线状态震荡导致的告警。

使用租户业务管理员登录云简平台,进入[网络管理>消息>告警日志>告警订阅>SDWAN告警]页面,单击告警策略名称,进入修改告警策略页面,启用告警归类,打开设备下线告警容错功能,如4-2所示。1分钟内设备上线状态震荡不会生成告警。

图4-2 告警容错

 


5 路由问题导致业务流量无法转发

5.1  问题描述

控制组件WAN业务部署完成后,由于业务路由学习异常导致流量无法转发。

5.2  问题排查思路

业务流量转发异常一般是由于无法学习到业务路由导致。目前所有业务都在VPN中,需要在流量源设备上查询对应的VPN路由,确认业务路由信息是否正确。

<spoke>display ip routing-table vpn-instance vpn1

 

Destinations : 11       Routes : 11

 

Destination/Mask   Proto   Pre Cost        NextHop         Interface

0.0.0.0/32         Direct  0   0           127.0.0.1       InLoop0

20.1.1.0/24        BGP     255 0           6.1.1.1         Tun2

                   BGP     255 0           6.1.1.1         Tun1

21.1.1.0/24        Direct  0   0           21.1.1.1        GE0/0

21.1.1.1/32        Direct  0   0           127.0.0.1       InLoop0

21.1.1.255/32      Direct  0   0           21.1.1.1        GE0/0

127.0.0.0/8        Direct  0   0           127.0.0.1       InLoop0

127.0.0.1/32       Direct  0   0           127.0.0.1       InLoop0

127.255.255.255/32 Direct  0   0           127.0.0.1       InLoop0

224.0.0.0/4        Direct  0   0           0.0.0.0         NULL0

224.0.0.0/24       Direct  0   0           0.0.0.0         NULL0

255.255.255.255/32 Direct  0   0           127.0.0.1       InLoop0

 

如果无法查询对应到业务路由,需要通过以下方式排查。

基本问题排查思路如5-1所示。

图5-1 BGP路由异常排查思路

 

5.3  RR设备的EVPN邻居状态是否正常

查询到RR设备的EVPN邻居状态,邻居状态为Established则为状态正常。

<spoke>display bgp peer l2vpn evpn

 

 BGP local router ID: 220.1.2.2

 Local AS number: 200

 Total number of peers: 1                 Peers in established state: 1

 

  * - Dynamically created peer

  Peer                    AS  MsgRcvd  MsgSent OutQ PrefRcv Up/Down  State

 

  6.1.1.1                200     1877     1652    0       1 23:30:10 Established

 

(1)     如果状态异常,需要参考5.4  确认设备之间的TTE连接状态,排查CPERR之间的TTE连接是否正常。

(2)     如果状态正常,需要参考5.5  路由学习排查,排查路由学习问题。

5.4  确认设备之间的TTE连接状态

5.4.1  确认Tls连接状态

1. 确认RR设备的sdwan server状态

[RR]dis sdwan server status

SDWAN server:  Enabled                 //状态开启

SDWAN server listening port:  2004     //监听端口

2. 确认CPE设备和RR设备的sdwan server连接状态

[CPE1]dis sdwan peer-connection status

System IP   : 66.1.1.1

Peer IP/port: 90.2.1.2/2004    //使用该接口通信

VPN instance:

Status      : Connected       //和同一个RR设备只要存在一条Connected状态即可

如果不是connected状态做如下排查:

(1)     查看控制组件下发配置是否正确

[CPE1]dis current-configuration | include sdwan server

sdwan server system-ip 66.1.1.1 ip 90.2.1.2

sdwan server system-ip 66.1.1.2 ip 90.3.1.2

(2)     ping –a –i 对端地址检查CPE设备和RRwan口地址是否可达

(3)     dis  tcp | in  监听端口查看是否建立tcp连接,如果有防火墙检查是否放通sdwan server的监听端口

(4)     接口为聚合口是否配置service slot

(5)     检查RR设备的tls安全策略,分支ssl使用Tls版本RR不可配置将该tls版本disabletls策略修改需undo sdwan server enable或者重新部署接入区才使能生效)

[RR]dis cu | begin security-enhanced level  //查看RR的安全策略

security-enhanced level 1

   #

   undo ssl renegotiation disable

   undo ssl version ssl3.0 disable

   undo ssl version tls1.0 disable

   undo ssl version tls1.1 disable

   undo ssl version tls1.2 disable

   undo ssl version tls1.3 disable

   #

   [CPE1] dis ssl client-policy               //查看CPE使用的tls版本

   Total number of SSL client policies: 1

   SSL client policy: plc1

     SSL version: TLS 1.2

     PKI domain:

     Preferred ciphersuite:

         RSA_AES_256_CBC_SHA

     Server-verify: disabled

(6)     如果以上方式都无法排查,需要收集设备信息反馈研发定位。

5.4.2  确认CPERR间的TTE连接状态

正常tls连接正确建立,CPE就会和RR交互tte,通过如下命令查看tte状态

[CPE1]dis sdwan tte connection

Destination SiteID/DevID/IfID/SysIP: 6/1/3/66.1.1.1  //RRsystem ip

Destination IP/port: 90.2.1.2/4788

Source SiteID/DevID/IfID/SysIP: 2/1/1/66.1.1.4

Source IP/port: 90.5.1.2/4788

Created at: 2022/12/28 10:32:32

Status: Reachable       //正常的状态

State changed at: 2022/12/28 10:32:38

如果tte状态不正常做如下排查:

(1)     检查隧道配置是否缺失配置

(2)     存在无法建立的TTE连接,确认到对端封装地址的路由是否可达且出接口是否和隧道下指定的出接口一致。

确认隧道口对应的出接口:

<spoke>display  current-configuration  interface  Tunnel  1

#

interface Tunnel1 mode sdwan udp

 bandwidth 10000

 ip address unnumbered interface GigabitEthernet0/1

 source GigabitEthernet0/1

 tunnel out-interface GigabitEthernet0/1           //指定出接口

 ipv6 address auto link-local

 tunnel protection ipsec profile adwan-ipsec-profile

 sdwan interface-id 1

 sdwan routing-domain 10 id 10

 sdwan transport-network Mobile.1.ipv4 id 1

 sdwan keepalive interval 2 retry 5

#

Return

查询无法建立TTE连接的对端封装地址的路由出接口:

<spoke>display ip routing-table 220.1.1.1

 

Summary count : 3

 

Destination/Mask   Proto   Pre Cost        NextHop         Interface

0.0.0.0/0          Static  60  0           220.1.2.1       GE0/1

220.1.1.0/24       O_INTRA 10  12          20.1.2.1        GE0/2

220.1.1.1/32       O_INTRA 10  12          20.1.2.1        GE0/2    //出接口不一致

如果没有对应路由或者出接口不一致,则是底层路由问题。需要排查底层路由配置,确认是否底层路由发布问题。

(3)     如果设备路由正常,则需要通过ping排查到封装目的地址的底层网络是否可达,确认中间是否存在防火墙进行了过滤,保证底层网络正常。

(4)     查看本端tte,以及远端tte,如果未生成可以重新部署接入区尝试。

[CPE1] display sdwan site-tte

Site ID: 2 (local)     //本段tte

Total number of TTEs: 1

********************************************************************************

DevID  SysIP            IfID  Status  Encap     NAT       SA        RDID   TNID

1      66.1.1.4         1     UP      UDP IPv4  Disabled  Enabled   123    1

 

Site ID: 6 (remote)    //远端tte

Total number of TTEs: 4

********************************************************************************

DevID  SysIP            IfID  Status  Encap     NAT       SA        RDID   TNID

1      66.1.1.1         1     UP      UDP IPv4  Disabled  Disabled  124    3

1      66.1.1.1         3     UP      UDP IPv4  Disabled  Enabled   123    1

(5)     确认NAT 状态,RR设备只能在静态NAT后面,CPE设备如果是私网IP在墙后面需要配Stun

(6)     dis cu | in site-role确认设备角色,配置成NAT_TRANSFER角色的设备不可作为stun server或者client

(7)     如果以上方式都无法排查,需要收集设备信息反馈研发定位。

5.4.3  确认CPETTE连接状态

CPE之间的TTE信息,使用Tnl-Encap-Ext地址族,通过RR反射获取。

(1)     确认CPE设备和RR设备之间的Tnl-Encap-Ext邻居是否建立成功。

[spoke]dis bgp peer ipv4 tnl-encap-ext

 

 BGP local router ID: 220.1.2.2

 Local AS number: 200

 Total number of peers: 1                 Peers in established state: 1

 

  * - Dynamically created peer

  Peer                    AS  MsgRcvd  MsgSent OutQ PrefRcv Up/Down  State

 

  6.1.1.1                200     3247     3564    0       2 0046h22m Established

如果状态非Established,则为状态异常,可以参考排查CPERR之间的TTE连接。

(2)     确认RR上的路由策略配置,确认是否有路由过滤。

#

bgp 200

 peer 6.1.1.2 as-number 200

 peer 6.1.1.2 connect-interface LoopBack66

 peer 6.1.1.2 bfd multi-hop

 #

 address-family ipv4 tnl-encap-ext

  peer 6.1.1.2 enable

peer 6.1.1.2 TTE-POLICY-EXPORT-SPOKE6.1.1.2 export

  peer 6.1.1.2 next-hop-local

  peer 6.1.1.2 reflect-client

 #

通过以下命令可以查询所有路由策略配置,确认配置的路由策略是否正确,具体路由策略配置命令(用户可能手动配置)可以参考路由器配置指导。

<hub>display current-configuration  configuration route-policy

(3)     确认本端TTE和远端TTENAT状态以及SA状态;两端CEP不可都在动态NAT墙后面;两端的SAIPSec)状态应该一致都开启或者都关闭

[CPE1]dis sdwan site-tte

Site ID: 2 (local)

Total number of TTEs: 1

********************************************************************************

DevID  SysIP            IfID  Status  Encap     NAT       SA        RDID   TNID

1      66.1.1.4         1     UP      UDP IPv4  Disabled  Enabled   123    1

Site ID: 3 (remote)

Total number of TTEs: 1

********************************************************************************

DevID  SysIP            IfID  Status  Encap     NAT       SA        RDID   TNID

1      66.1.1.5         1     UP      UDP IPv4  Disabled  Enabled   123    1

(4)     如果以上排查都无法发现问题,则需要收集设备信息反馈研发分析。

5.4.4  确认双网关设备协同TTE状态

通过以下命令确认双网关协同tte状态

[POP1]dis sdwan tte connection collaboration   //双网关协同tte

Destination SiteID/DevID/IfID/SysIP: 2/1/1/66.1.1.4

Destination IP/port: 90.5.1.2/4788

Source SiteID/DevID/IfID/SysIP: 6/2/2/66.1.1.2

Source IP/port: 90.3.1.2/4788

Status: Reachable

 

Destination SiteID/DevID/IfID/SysIP: 5/1/1/66.1.1.7

Destination IP/port: 77.1.1.2/4799

Source SiteID/DevID/IfID/SysIP: 6/2/3/66.1.1.2

Source IP/port: 77.3.1.2/4799

Status: Reachable

 

Number of connections: 2

如果协同tte状态不正常做如下排查:

(1)     登录云简网络平台,进入[SD-WAN>自动化>虚拟网络>隧道>扩展隧道]页面,查看扩展隧道是否都部署成功,如5-2所示

图5-2 扩展隧道列表

 

(2)     检查双网关站点互联端口号是否建立tcp连接(互联端口号为导入站点时自定义端口号)

[POP2]dis tcp | in 6789

 177.1.1.2:6789        177.1.1.1:0           LISTEN      0     0x0000000000168233

 177.1.1.2:6789        177.1.1.1:13783       ESTABLISHED 0     0x0000000000168235

[POP1]dis tcp | in 6789

 177.1.1.1:13783       177.1.1.2:6789        ESTABLISHED 0     0x000000000007aa0a

5.5  路由学习排查

如果到RR设备的EVPN邻居状态正常,则需要排查是否路由学习问题。

(1)     确认去往对端system ip匹配的路由协议是UNR,非其他路由协议

[SPOKE2-2]dis ip routing-table 11.1.1.1

 

Summary count : 2

 

Destination/Mask   Proto   Pre Cost        NextHop         Interface

0.0.0.0/0          Static  60  0           123.1.1.1       GE0/3

11.1.1.1/32        UNR     180 0           0.0.0.0         Tun4

(2)     确认对端设备是否发送了对应路由,通过以下命令查询。

<hub>dis bgp l2vpn evpn peer 6.1.1.2 advertised-routes

 

 Total number of routes: 1

 

 BGP local router ID is 6.1.1.1

 Status codes: * - valid, > - best, d - dampened, h - history,

               s - suppressed, S - stale, i - internal, e - external,

               a - additional-path

               Origin: i - IGP, e - EGP, ? - incomplete

 

 Route distinguisher: 1:1

 Total number of routes: 1

 

     Network            NextHop         MED        LocPrf             Path/Ogn

 

* >  [5][0][24][20.1.1.0]/80

                        127.0.0.1       0          100                ?

如果没有发送对应的路由,需要确认是否引入了需要发布的路由或者出方向路由策略是否进行了过滤。

控制组件下的引入路由配置和邻居下出方向路由策略配置:

#

bgp 200

address-family l2vpn evpn

  undo policy vpn-target

  reflect change-path-attribute

  peer 6.1.1.2 enable

  peer 6.1.1.2 route-policy vpn-export-policy-2 export     //出方向路由策略

  peer 6.1.1.2 advertise-community

  peer 6.1.1.2 reflect-client

  peer 6.1.1.2 advertise encap-type sdwan

 #

 ip vpn-instance vpn1

  #

  address-family ipv4 unicast

   import-route direct route-policy DIRECT-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route static route-policy STATIC-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route rip all-processes route-policy RIP-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route ospf all-processes route-policy OSPF-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route isis all-processes route-policy ISIS-vpn1-25f685ca5b121687215c51e3de3cf16b       //引入的路由策略

  #

  address-family ipv6 unicast

   import-route direct route-policy DIRECT-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route static route-policy STATIC-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route ripng all-processes route-policy RIP-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route ospfv3 all-processes route-policy OSPF-vpn1-25f685ca5b121687215c51e3de3cf16b

   import-route isisv6 all-processes route-policy ISIS-vpn1-25f685ca5b121687215c51e3de3cf16b    //引入的路由策略

#

 

通过以下命令可以查询所有路由策略配置,确认配置的路由策略是否正确,具体路由策略配置命令(用户可能手动配置)可以参考路由器配置指导。

<hub>display current-configuration  configuration route-policy

(3)     如果对端已经发送了对应路由,通过以下命令查询本端是否收到了路由:

[spoke]display bgp l2vpn evpn peer 6.1.1.1 received-routes

 

 Total number of routes: 0

如果没有收到路由,有可能是配置了入方向路由策略进行了过滤。需要排查BGP配置。

[spoke]dis cur configuration  bgp

#

bgp 200

 peer 6.1.1.1 as-number 200

 peer 6.1.1.1 connect-interface LoopBack66

 peer 6.1.1.1 bfd multi-hop

 #

 address-family ipv4 tnl-encap-ext

  peer 6.1.1.1 enable

 #

 address-family l2vpn evpn

  peer 6.1.1.1 enable

  peer 6.1.1.1 route-policy deny import      //确认入方向路由策略是否异常

  peer 6.1.1.1 route-policy vpn-export-route-policy1 export

  peer 6.1.1.1 advertise-community

  peer 6.1.1.1 advertise encap-type sdwan

 #

通过以下命令可以查询所有路由策略配置,确认配置的路由策略是否正确,具体路由策略配置命令可以参考路由器配置指导。

<hub>display current-configuration  configuration route-policy

(4)     如果已经收到了路由,但是路由为无效路由:

<spoke> display bgp l2vpn evpn peer 6.1.1.1 received-routes

 

 Total number of routes: 1

 

 BGP local router ID is 220.1.2.2

 Status codes: * - valid, > - best, d - dampened, h - history,

               s - suppressed, S - stale, i - internal, e - external,

               a - additional-path

               Origin: i - IGP, e - EGP, ? - incomplete

 

 Route distinguisher: 1:1(vpn1)

 Total number of routes: 1

 

     Network            NextHop         MED        LocPrf     PrefVal Path/Ogn

 

* >i [5][0][24][20.1.1.0]/80

                        6.1.1.1         0          100        0       ?  //如果路由前面没有*说明是无效路由

路由为迭代路由,如果是无效路由,说明下一跳地址不可达。可以参考5.4  确认设备之间的TTE连接状态排查到目的地址的TTE连接是否正常。

(5)     如果以上方式都无法排查,需要收集设备信息反馈研发定位。


6 调度功能不生效

调度功能配置请参考《SD-WAN WAN业务配置指导》。

6.1  问题现象

目前调度选路只能指定本地的出接口,应用流量未按照期望通过指定出接口转发。

6.2  问题排查思路

分支方案通过RIR实现应用选路功能,控制组件下发选路策略到设备,设备根据选路策略来自主进行选路。如果选路不符合预期,基本问题排查思路如6-1所示。

图6-1 排查思路

 

6.3  流量入口QoS策略排查

用户需要通过QoSM组件手动在流量入口下发QoS策略,匹配对应的应用流量后Remark流量的Flow ID

6.3.1  流策略应用排查

(1)     登录云简网络平台,进入[SD-WAN>网络公共配置>QoS管理>CBQoS模板>流策略模板]页面,确认需要下发的流策略,单击接口操作的接口引用详情图标,如6-2所示。

图6-2 流策略

 

(2)     确认对应的流策略是否下发流量入接口上,如6-3所示。

图6-3 接口引用详情

 

(3)     如果流策略接口引用正常,继续下面排查。

6.3.2  流分类排查

(1)     登录云简网络平台,进入[SD-WAN>网络公共配置>QoS管理>CBQoS模板>流分类模板]页面,确认对应的流分类模板名称,如6-4所示。

图6-4 流分类

 

(2)     单击流分类模板名称,查看模板详情确认流分类中匹配的ACL名称,例如匹配ACL:app1,如6-5所示。

图6-5 流分类模板详情

 

(3)     进入[SD-WAN>网络公共配置>QoS管理>ACL模板]页面,查找对应ACL标识为app1的模板,单击app1的模板名称,查询ACL匹配规则,如6-6所示。

图6-6 ACL模板详情

 

所有业务流量都在VPN中,ACL中一定要匹配对应的VPN名称。

6.3.3  流行为排查

(1)     登录云简网络平台,进入[SD-WAN>网络公共配置>QoS管理>CBQoS模板>流行为]页面,确认对应的流行为模板名称,单击后面的模板详情图标,如6-7所示。

图6-7 流行为模板详情

 

(2)     单击标记(Remark)后面的高级配置选项,确认RemarkFlow ID是否正确,如6-8所示。

图6-8 标记(Remark)

 

6.3.4  流量入口着色是否成功

控制组件下发对应QoS策略,通过QoS策略进行应用着色,Remark为对应的Flow ID,确认LAN口着色是否成功。登录设备查询相关配置。

查看接口QoS统计:

<SPOKE2-1> display qos policy interface Vlan-interface 50

Interface: Vlan-interface50

  Direction: Inbound

  Policy: app

   Classifier: default-class

     Matched : 0 (Packets) 0 (Bytes)

     5-minute statistics:

      Forwarded: 0/0 (pps/bps)

      Dropped  : 0/0 (pps/bps)

     Operator: AND

     Rule(s) :

      If-match any

     Behavior: be

      -none-

   Classifier: app1

     Matched : 3413 (Packets) 4341336 (Bytes)   //命中流分类

     5-minute statistics:

      Forwarded: 0/0 (pps/bps)

      Dropped  : 0/0 (pps/bps)

     Operator: OR

     Rule(s) :

      If-match acl name app1              //ACL名称

     Behavior: sctb

      Marking:

        Remark dscp 11

        Remark flow-id 1                    //remark flow id

确认入接口是否有对应的应用流量统计,是否匹配用户打入的流量。如果没有统计可以通过tracert 路径确认流量入口。

6.4  调度应用组下发

6.4.1  控制组件调度应用组配置

(1)     登录云简网络平台,进入[SD-WAN>自动化>策略管理>应用组]页面,确认对应的应用组,如6-9所示。确认应用IDFlow ID123对应的应用组策略:SLA1

图6-9 应用组

 

(2)     进入[SD-WAN>自动化>策略管理>调度策略>SLA策略]页面,确认对应的调度策略,如6-10所示。

图6-10 SLA策略

 

(3)     进入[SD-WAN>自动化>策略管理>调度策略>智能调度配置]页面确认是否开启了带宽调度策略,关闭后选路不关心带宽值,如6-11所示

图6-11 智能调度配置

 

(4)     进入[SD-WAN>自动化>策略管理>调度策略>综合质量指标]页面,确认质量权重是否有为0的项。配置为0项代表选路时不参考该质量数值。如6-12所示

图6-12 综合质量指标

 

6.4.2  设备配置确认

登录对应设备,使用如下命令,查询设备的调度配置是否下发成功。

[SPOKE2-1] display current-configuration configuration rir_sdwan

#

rir sdwan

 link-quality probe interval 300

 link-select suppress-period 1

 load-balance per-session periodic-adjust enable

 link-bandwidth ignore                     //关闭带宽选路策略后有此配置;开启后无此配置

 sla 0

  jitter threshold 50

  delay threshold 1000

  packet-loss threshold 1

 sla 1

  jitter threshold 10

  delay threshold 500

  packet-loss threshold 1

 sla 2

  jitter threshold 5

  delay threshold 300

  packet-loss threshold 1

 sla 3

  jitter threshold 5

  delay threshold 150

  packet-loss threshold 1

 sla 4

  jitter threshold 5

  delay threshold 100

  packet-loss threshold 1

 sla 5

  jitter threshold 3

  delay threshold 50

  packet-loss threshold 1

 sla 6

  jitter threshold 2

  delay threshold 40

  packet-loss threshold 1

 sla 7

  jitter threshold 1

  delay threshold 30

  packet-loss threshold 1

 flow 123                                        //flow id

  quality-policy sla 1

  cqi-weight delay 1 jitter 1 packet-loss 2      //综合质量指标,配置为0的指标调度时不参考

  path sdwan transport-network Default.1.ipv4 preference 10   //路径以及优先级

  path sdwan transport-network Default.1.ipv6 preference 10

  path sdwan transport-network Default.2.ipv4 preference 20

  path sdwan transport-network Default.2.ipv6 preference 20

  path sdwan transport-network Default.3.ipv4 preference 30

  path sdwan transport-network Default.3.ipv6 preference 30

 flow 124

  cqi-weight delay 1 jitter 1 packet-loss 2

  path sdwan transport-network Default.1.ipv4 preference 20

  path sdwan transport-network Default.1.ipv6 preference 20

  path sdwan transport-network Default.2.ipv4 preference 10

  path sdwan transport-network Default.2.ipv6 preference 10

  path sdwan transport-network Default.3.ipv4 preference 30

  path sdwan transport-network Default.3.ipv6 preference 30

#

return

通过查询Tunnel配置,确认应用需要优选的Tunnel

[SPOKE2-1] display current-configuration interface Tunnel

#

interface Tunnel1 mode sdwan udp

 bandwidth 10000

 ip address unnumbered interface GigabitEthernet0/1

 source GigabitEthernet0/1

 tunnel out-interface GigabitEthernet0/1

 ipv6 address auto link-local

 sdwan interface-id 1

 sdwan routing-domain 1 id 1

 sdwan transport-network Default.1.ipv4 id 1     //传输网标识,对应flow模板中的path路径

 sdwan encapsulation udp-port 4799

 sdwan collaboration peer-device-id 2

#

6.5  选路结果排查

通过以下命令可以查询应用流量的转发路径,例如流量优选Tunnel1转发,确认转发路径是否符合预期。

[SPOKE2-1] display tunnel flow-statistics

Flow 0:

  Interface    Out pps       Out bps

  Tunnel1      0             72

 

Flow 123:

  Interface    Out pps       Out bps

  Tunnel1      100           1006400      //flow123 流量转发路径tunnel1

6.5.1  隧道综合质量评分排查

可以通过以下命令查询对应Flow的选路配置和CQI符合度,CQI为质量指标,CQI100标识质量符合

[SPOKE2-1] display rir sdwan flow 123

Flow ID: 123

Session expected bandwidth: 0 kbps

Quality policy: Yes

Tunnels with different preference values:

  Preference: 10

    Tunnel: 1

      SiteID         DeviceID           InterfaceID            CQI

      1              1                  1                      100

  Preference: 20

    Tunnel: 2

      SiteID         DeviceID           InterfaceID            CQI

      1              2                  2                      100

  Preference: 30

    Tunnel: 4

      SiteID         DeviceID           InterfaceID            CQI

      1              2                  1                      100

[SPOKE2-1]

6.5.2  隧道质量排查

1. 检查NTP时钟同步

确认组网内所有设备是否进行NTP时钟同步

<SPOKE1-1> display ntp-service status

 Clock status: synchronized                //状态同步

 Clock stratum: 11

 System peer: 192.168.40.127

 Local mode: client

 Reference clock ID: 192.168.40.127

 Leap indicator: 00

 Clock jitter: 0.000015 s

 Stability: 0.000 pps

 Clock precision: 2^-21

 Root delay: 0.64087 ms

 Root dispersion: 3.26538 ms

 Reference time: e6a4359b.a4e0bc13  Mon, Aug 15 2022  3:01:47.644

 System poll interval: 64 s

2. 检查分布式设备的sdwan tunnel 是否配置了service slot

SR6600设备为例

<HUB1-1> display current-configuration interface Tunnel  1

#

interface Tunnel1 mode sdwan udp

 bandwidth 400000000

 service slot 2                     //分布式设备需要

 ip address unnumbered interface LoopBack1000

 qos lr outbound cir 3000 cbs 187500 ebs 0

 source LoopBack1000

 qos pq pql 1

 ipv6 address auto link-local

 sdwan interface-id 1

 sdwan routing-domain 1 id 1

 sdwan transport-network Default.1.ipv4 id 1

 sdwan encapsulation udp-port 4799

 sdwan collaboration peer-device-id 2

#

Return

3. 检查设备质量结果

RIR配置了SLA级别支持基于质量的选路,如果隧道质量不符合预期,会导致路径调整,可以通过以下命令查询隧道的质量信息

[SPOKE2-1] display rir sdwan link-quality tunnel 1

Tunnel1:

Interface ID=1

 Peer TTE: Site ID=1       Device ID=1     Interface ID=1

  Connectivity      : Connected

  PktLoss (per mill): 0

  Delay (msec)      : 0

  Jitter (msec)     : 0

确认到目的设备的链路质量是否符合SLA要求,如果不符合要求可能触发调度。

6.5.3  隧道带宽排查

RIR未关闭带宽策略开关支持基于带宽的选路,如果带宽不符合预期,会导致路径调整,可以通过以下命令查询隧道/物理口带宽使用情况:

[SPOKE2-1] display rir sdwan bandwidth tunnel 1

Tunnel bandwidth info:

  Interface      Total bandwidth    Remaining bandwidth    Bandwidth usage

  Tun1           10000 kbps         8962 kbps              10 %

Output interface bandwidth info:

  PeerTTE: SiteID=1 DeviceID=1 IfID=1

    Interface      Total bandwidth    Remaining bandwidth    Bandwidth utilization

    GE0/1          10000 kbps         8945 kbps              10 %

确认隧道带宽是否满足选路需求,如果带宽占用超过80%会触发路径调整。

如果以上方式都无法排查,需要收集设备日志反馈研发定位。

 

新华三官网
联系我们