SD-WAN
故障维护手册
资料版本:5W100-20230707
Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
目 录
本文档描述SD-WAN分支解决方案的一些问题处理方式,并通过分析一些典型案例告诉读者在使用时需要注意的地方以及遇到问题时可能的产生原因。本文档适用于维护人员、测试人员在确认和定位问题时参考,也适用于技术支持人员在解决客户问题时参考。
登录云简网络平台,进入[网络管理>消息>操作日志]页面,选择对应的时间,可以查询到对应操作日志,单击<导出>按钮,可以导出操作日志,如图2-1所示。
收集设备的diag日志反馈,登录设备收集diag日志:
<Hub1> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:
输入Y,保存diag日志,然后下载;输入N,显示diag日志然后直接收集。
(1) Telnet登录设备后台,执行如下命令开启debug打印 。开启debug会影响设备性能请谨慎开启并在使用完毕后关闭debug
<HUB1-1> debugging xxx all
<HUB1-1> t d
The current terminal is enabled to display debugging logs.
<HUB1-1> t m
The current terminal is enabled to display logs.
常用debug打印日志
rir:流量调度相关;
cloud-management:websocket相关
sdwan: sdwan相关
ip packet:转发相关
(2) 执行出现问题的相关操作步骤
(3) 收集打印日志,通过以下命令停止打印并关闭debug
<HUB1-1>u t d
The current terminal is disabled to display debugging logs.
<HUB1-1>u t m
The current terminal is disabled to display logs.
<HUB1-1>undo debugging all
控制组件完成网元同步,设备同步成功,等待一段时间后,设备无法上线,控制组件显示设备离线。
设备通过WebSocket主动注册上线,设备无法上线是由于WebSocket注册失败,一般需要通过Telnet或者串口登录设备进行问题排查,基本问题排查思路如图3-1所示。
通过Telnet或者串口登录设备,确认设备注册配置是否正确。
设备注册配置举例如下:
#
dns proxy enable
dns server 8.8.8.8
#
cloud-management server domain lvzhou-at.h3c.com port 31443
cloud-management keepalive 60
#
需要排查配置:
· 设备是否配置了dns proxy enable命令;
· 设备是否配置了dns server 命令;
· 确认cloud-management注册地址和端口是否正确:
· 是否有其它多余配置,例如注册端口号、注册密码配置等,不需要注册密码,如果有对应配置则需要删除。
登录云简网络平台,进入[网络管理>网络>设备]页面,查看设备序列号是否填写正确,如图3-2所示。
登录云简网络平台,进入[网络管理>设置>License许可]页面,检查License资源是否充足。
进入[网络管理>设置>License许可(UC)]页面,检查License资源是否到期,可绑定的设备总数是否充足,如图3-3所示。
图3-3 License许可(UC)
申请新的License许可后,登录云简网络平台,进入[网络管理>设置>License许可(UC)]页面,单击对应设备后面的<扩容>按钮进行扩容,如所示。
图3-4 License扩容
设备注册成功后,经常离线然后状态恢复正常,在线状态出现震荡并产生大量告警。
设备注册在线后,如果出现震荡,基本问题排查思路如图4-1所示。
如果设备是手工开局或者升级局点,需要确认设备上WebSocket注册保活时间是否配置为60秒。查询保活时间:
<Spoke1>display current-configuration | include cloud-management
cloud-management server domain lvzhou-at.h3c.com port 31443
cloud-management keepalive 60 //保活时间60秒
设备默认注册报文时间为180秒,设备间隔180秒发送保活报文。控制组件保活时间为200秒,如果200秒内没有收到保活报文,则认为设备离线。如果不修改设备默认配置,如果一个保活报文被丢掉,设备就会离线。
修改设备保活时间为60秒。
<Spoke1>system-view
[Spoke1]cloud-management keepalive 60
查看控制组件告警,设备离线后很快又恢复上线(秒级恢复)。一般情况下是由于设备注册地址变化导致的设备在线状态震荡。
如果设备通过家用宽带注册上线,运营商会周期性回收设备的公网地址,替换为新的公网地址,导致设备使用新的地址注册,设备在线状态震荡。
设备使用新的地址注册,控制组件会认为设备离线并生成告警。用户通过配置优化告警生成,减少由于设备在线状态震荡导致的告警。
使用租户业务管理员登录云简平台,进入[网络管理>消息>告警日志>告警订阅>SDWAN告警]页面,单击告警策略名称,进入修改告警策略页面,启用告警归类,打开设备下线告警容错功能,如图4-2所示。1分钟内设备上线状态震荡不会生成告警。
控制组件WAN业务部署完成后,由于业务路由学习异常导致流量无法转发。
业务流量转发异常一般是由于无法学习到业务路由导致。目前所有业务都在VPN中,需要在流量源设备上查询对应的VPN路由,确认业务路由信息是否正确。
<spoke>display ip routing-table vpn-instance vpn1
Destinations : 11 Routes : 11
Destination/Mask Proto Pre Cost NextHop Interface
0.0.0.0/32 Direct 0 0 127.0.0.1 InLoop0
20.1.1.0/24 BGP 255 0 6.1.1.1 Tun2
BGP 255 0 6.1.1.1 Tun1
21.1.1.0/24 Direct 0 0 21.1.1.1 GE0/0
21.1.1.1/32 Direct 0 0 127.0.0.1 InLoop0
21.1.1.255/32 Direct 0 0 21.1.1.1 GE0/0
127.0.0.0/8 Direct 0 0 127.0.0.1 InLoop0
127.0.0.1/32 Direct 0 0 127.0.0.1 InLoop0
127.255.255.255/32 Direct 0 0 127.0.0.1 InLoop0
224.0.0.0/4 Direct 0 0 0.0.0.0 NULL0
224.0.0.0/24 Direct 0 0 0.0.0.0 NULL0
255.255.255.255/32 Direct 0 0 127.0.0.1 InLoop0
如果无法查询对应到业务路由,需要通过以下方式排查。
基本问题排查思路如图5-1所示。
图5-1 BGP路由异常排查思路
查询到RR设备的EVPN邻居状态,邻居状态为Established则为状态正常。
<spoke>display bgp peer l2vpn evpn
BGP local router ID: 220.1.2.2
Local AS number: 200
Total number of peers: 1 Peers in established state: 1
* - Dynamically created peer
Peer AS MsgRcvd MsgSent OutQ PrefRcv Up/Down State
6.1.1.1 200 1877 1652 0 1 23:30:10 Established
(1) 如果状态异常,需要参考5.4 确认设备之间的TTE连接状态,排查CPE到RR之间的TTE连接是否正常。
(2) 如果状态正常,需要参考5.5 路由学习排查,排查路由学习问题。
[RR]dis sdwan server status
SDWAN server: Enabled //状态开启
SDWAN server listening port: 2004 //监听端口
[CPE1]dis sdwan peer-connection status
System IP : 66.1.1.1
Peer IP/port: 90.2.1.2/2004 //使用该接口通信
VPN instance:
Status : Connected //和同一个RR设备只要存在一条Connected状态即可
如果不是connected状态做如下排查:
(1) 查看控制组件下发配置是否正确
[CPE1]dis current-configuration | include sdwan server
sdwan server system-ip 66.1.1.1 ip 90.2.1.2
sdwan server system-ip 66.1.1.2 ip 90.3.1.2
(2) ping –a –i 对端地址检查CPE设备和RR的wan口地址是否可达
(3) dis tcp | in 监听端口查看是否建立tcp连接,如果有防火墙检查是否放通sdwan server的监听端口
(4) 接口为聚合口是否配置service slot
(5) 检查RR设备的tls安全策略,分支ssl使用的Tls版本,RR不可配置将该tls版本disable(tls策略修改需undo sdwan server enable或者重新部署接入区,才使能生效)
[RR]dis cu | begin security-enhanced level //查看RR的安全策略
security-enhanced level 1
#
undo ssl renegotiation disable
undo ssl version ssl3.0 disable
undo ssl version tls1.0 disable
undo ssl version tls1.1 disable
undo ssl version tls1.2 disable
undo ssl version tls1.3 disable
#
[CPE1] dis ssl client-policy //查看CPE使用的tls版本
Total number of SSL client policies: 1
SSL client policy: plc1
SSL version: TLS 1.2
PKI domain:
Preferred ciphersuite:
RSA_AES_256_CBC_SHA
Server-verify: disabled
(6) 如果以上方式都无法排查,需要收集设备信息反馈研发定位。
正常tls连接正确建立,CPE就会和RR交互tte,通过如下命令查看tte状态
[CPE1]dis sdwan tte connection
Destination SiteID/DevID/IfID/SysIP: 6/1/3/66.1.1.1 //RR的system ip
Destination IP/port: 90.2.1.2/4788
Source SiteID/DevID/IfID/SysIP: 2/1/1/66.1.1.4
Source IP/port: 90.5.1.2/4788
Created at: 2022/12/28 10:32:32
Status: Reachable //正常的状态
State changed at: 2022/12/28 10:32:38
如果tte状态不正常做如下排查:
(1) 检查隧道配置是否缺失配置
(2) 存在无法建立的TTE连接,确认到对端封装地址的路由是否可达且出接口是否和隧道下指定的出接口一致。
确认隧道口对应的出接口:
<spoke>display current-configuration interface Tunnel 1
#
interface Tunnel1 mode sdwan udp
bandwidth 10000
ip address unnumbered interface GigabitEthernet0/1
source GigabitEthernet0/1
tunnel out-interface GigabitEthernet0/1 //指定出接口
ipv6 address auto link-local
tunnel protection ipsec profile adwan-ipsec-profile
sdwan interface-id 1
sdwan routing-domain 10 id 10
sdwan transport-network Mobile.1.ipv4 id 1
sdwan keepalive interval 2 retry 5
#
Return
查询无法建立TTE连接的对端封装地址的路由出接口:
<spoke>display ip routing-table 220.1.1.1
Summary count : 3
Destination/Mask Proto Pre Cost NextHop Interface
0.0.0.0/0 Static 60 0 220.1.2.1 GE0/1
220.1.1.0/24 O_INTRA 10 12 20.1.2.1 GE0/2
220.1.1.1/32 O_INTRA 10 12 20.1.2.1 GE0/2 //出接口不一致
如果没有对应路由或者出接口不一致,则是底层路由问题。需要排查底层路由配置,确认是否底层路由发布问题。
(3) 如果设备路由正常,则需要通过ping排查到封装目的地址的底层网络是否可达,确认中间是否存在防火墙进行了过滤,保证底层网络正常。
(4) 查看本端tte,以及远端tte,如果未生成可以重新部署接入区尝试。
[CPE1] display sdwan site-tte
Site ID: 2 (local) //本段tte
Total number of TTEs: 1
********************************************************************************
DevID SysIP IfID Status Encap NAT SA RDID TNID
1 66.1.1.4 1 UP UDP IPv4 Disabled Enabled 123 1
Site ID: 6 (remote) //远端tte
Total number of TTEs: 4
********************************************************************************
DevID SysIP IfID Status Encap NAT SA RDID TNID
1 66.1.1.1 1 UP UDP IPv4 Disabled Disabled 124 3
1 66.1.1.1 3 UP UDP IPv4 Disabled Enabled 123 1
(5) 确认NAT 状态,RR设备只能在静态NAT后面,CPE设备如果是私网IP在墙后面需要配Stun
(6) dis cu | in site-role确认设备角色,配置成NAT_TRANSFER角色的设备不可作为stun server或者client
(7) 如果以上方式都无法排查,需要收集设备信息反馈研发定位。
CPE之间的TTE信息,使用Tnl-Encap-Ext地址族,通过RR反射获取。
(1) 确认CPE设备和RR设备之间的Tnl-Encap-Ext邻居是否建立成功。
[spoke]dis bgp peer ipv4 tnl-encap-ext
BGP local router ID: 220.1.2.2
Local AS number: 200
Total number of peers: 1 Peers in established state: 1
* - Dynamically created peer
Peer AS MsgRcvd MsgSent OutQ PrefRcv Up/Down State
6.1.1.1 200 3247 3564 0 2 0046h22m Established
如果状态非Established,则为状态异常,可以参考排查CPE和RR之间的TTE连接。
(2) 确认RR上的路由策略配置,确认是否有路由过滤。
#
bgp 200
peer 6.1.1.2 as-number 200
peer 6.1.1.2 connect-interface LoopBack66
peer 6.1.1.2 bfd multi-hop
#
address-family ipv4 tnl-encap-ext
peer 6.1.1.2 enable
peer 6.1.1.2 TTE-POLICY-EXPORT-SPOKE6.1.1.2 export
peer 6.1.1.2 next-hop-local
peer 6.1.1.2 reflect-client
#
通过以下命令可以查询所有路由策略配置,确认配置的路由策略是否正确,具体路由策略配置命令(用户可能手动配置)可以参考路由器配置指导。
<hub>display current-configuration configuration route-policy
(3) 确认本端TTE和远端TTE的NAT状态以及SA状态;两端CEP不可都在动态NAT墙后面;两端的SA(IPSec)状态应该一致都开启或者都关闭
[CPE1]dis sdwan site-tte
Site ID: 2 (local)
Total number of TTEs: 1
********************************************************************************
DevID SysIP IfID Status Encap NAT SA RDID TNID
1 66.1.1.4 1 UP UDP IPv4 Disabled Enabled 123 1
Site ID: 3 (remote)
Total number of TTEs: 1
********************************************************************************
DevID SysIP IfID Status Encap NAT SA RDID TNID
1 66.1.1.5 1 UP UDP IPv4 Disabled Enabled 123 1
(4) 如果以上排查都无法发现问题,则需要收集设备信息反馈研发分析。
通过以下命令确认双网关协同tte状态
[POP1]dis sdwan tte connection collaboration //双网关协同tte
Destination SiteID/DevID/IfID/SysIP: 2/1/1/66.1.1.4
Destination IP/port: 90.5.1.2/4788
Source SiteID/DevID/IfID/SysIP: 6/2/2/66.1.1.2
Source IP/port: 90.3.1.2/4788
Status: Reachable
Destination SiteID/DevID/IfID/SysIP: 5/1/1/66.1.1.7
Destination IP/port: 77.1.1.2/4799
Source SiteID/DevID/IfID/SysIP: 6/2/3/66.1.1.2
Source IP/port: 77.3.1.2/4799
Status: Reachable
Number of connections: 2
如果协同tte状态不正常做如下排查:
(1) 登录云简网络平台,进入[SD-WAN>自动化>虚拟网络>隧道>扩展隧道]页面,查看扩展隧道是否都部署成功,如图5-2所示
(2) 检查双网关站点互联端口号是否建立tcp连接(互联端口号为导入站点时自定义端口号)
[POP2]dis tcp | in 6789
177.1.1.2:6789 177.1.1.1:0 LISTEN 0 0x0000000000168233
177.1.1.2:6789 177.1.1.1:13783 ESTABLISHED 0 0x0000000000168235
[POP1]dis tcp | in 6789
177.1.1.1:13783 177.1.1.2:6789 ESTABLISHED 0 0x000000000007aa0a
如果到RR设备的EVPN邻居状态正常,则需要排查是否路由学习问题。
(1) 确认去往对端system ip匹配的路由协议是UNR,非其他路由协议
[SPOKE2-2]dis ip routing-table 11.1.1.1
Summary count : 2
Destination/Mask Proto Pre Cost NextHop Interface
0.0.0.0/0 Static 60 0 123.1.1.1 GE0/3
11.1.1.1/32 UNR 180 0 0.0.0.0 Tun4
(2) 确认对端设备是否发送了对应路由,通过以下命令查询。
<hub>dis bgp l2vpn evpn peer 6.1.1.2 advertised-routes
Total number of routes: 1
BGP local router ID is 6.1.1.1
Status codes: * - valid, > - best, d - dampened, h - history,
s - suppressed, S - stale, i - internal, e - external,
a - additional-path
Origin: i - IGP, e - EGP, ? - incomplete
Route distinguisher: 1:1
Total number of routes: 1
Network NextHop MED LocPrf Path/Ogn
* > [5][0][24][20.1.1.0]/80
127.0.0.1 0 100 ?
如果没有发送对应的路由,需要确认是否引入了需要发布的路由或者出方向路由策略是否进行了过滤。
控制组件下的引入路由配置和邻居下出方向路由策略配置:
#
bgp 200
address-family l2vpn evpn
undo policy vpn-target
reflect change-path-attribute
peer 6.1.1.2 enable
peer 6.1.1.2 route-policy vpn-export-policy-2 export //出方向路由策略
peer 6.1.1.2 advertise-community
peer 6.1.1.2 reflect-client
peer 6.1.1.2 advertise encap-type sdwan
#
ip vpn-instance vpn1
#
address-family ipv4 unicast
import-route direct route-policy DIRECT-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route static route-policy STATIC-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route rip all-processes route-policy RIP-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route ospf all-processes route-policy OSPF-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route isis all-processes route-policy ISIS-vpn1-25f685ca5b121687215c51e3de3cf16b //引入的路由策略
#
address-family ipv6 unicast
import-route direct route-policy DIRECT-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route static route-policy STATIC-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route ripng all-processes route-policy RIP-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route ospfv3 all-processes route-policy OSPF-vpn1-25f685ca5b121687215c51e3de3cf16b
import-route isisv6 all-processes route-policy ISIS-vpn1-25f685ca5b121687215c51e3de3cf16b //引入的路由策略
#
通过以下命令可以查询所有路由策略配置,确认配置的路由策略是否正确,具体路由策略配置命令(用户可能手动配置)可以参考路由器配置指导。
<hub>display current-configuration configuration route-policy
(3) 如果对端已经发送了对应路由,通过以下命令查询本端是否收到了路由:
[spoke]display bgp l2vpn evpn peer 6.1.1.1 received-routes
Total number of routes: 0
如果没有收到路由,有可能是配置了入方向路由策略进行了过滤。需要排查BGP配置。
[spoke]dis cur configuration bgp
#
bgp 200
peer 6.1.1.1 as-number 200
peer 6.1.1.1 connect-interface LoopBack66
peer 6.1.1.1 bfd multi-hop
#
address-family ipv4 tnl-encap-ext
peer 6.1.1.1 enable
#
address-family l2vpn evpn
peer 6.1.1.1 enable
peer 6.1.1.1 route-policy deny import //确认入方向路由策略是否异常
peer 6.1.1.1 route-policy vpn-export-route-policy1 export
peer 6.1.1.1 advertise-community
peer 6.1.1.1 advertise encap-type sdwan
#
通过以下命令可以查询所有路由策略配置,确认配置的路由策略是否正确,具体路由策略配置命令可以参考路由器配置指导。
<hub>display current-configuration configuration route-policy
(4) 如果已经收到了路由,但是路由为无效路由:
<spoke> display bgp l2vpn evpn peer 6.1.1.1 received-routes
Total number of routes: 1
BGP local router ID is 220.1.2.2
Status codes: * - valid, > - best, d - dampened, h - history,
s - suppressed, S - stale, i - internal, e - external,
a - additional-path
Origin: i - IGP, e - EGP, ? - incomplete
Route distinguisher: 1:1(vpn1)
Total number of routes: 1
Network NextHop MED LocPrf PrefVal Path/Ogn
* >i [5][0][24][20.1.1.0]/80
6.1.1.1 0 100 0 ? //如果路由前面没有*说明是无效路由
路由为迭代路由,如果是无效路由,说明下一跳地址不可达。可以参考5.4 确认设备之间的TTE连接状态排查到目的地址的TTE连接是否正常。
(5) 如果以上方式都无法排查,需要收集设备信息反馈研发定位。
调度功能配置请参考《SD-WAN WAN业务配置指导》。
目前调度选路只能指定本地的出接口,应用流量未按照期望通过指定出接口转发。
分支方案通过RIR实现应用选路功能,控制组件下发选路策略到设备,设备根据选路策略来自主进行选路。如果选路不符合预期,基本问题排查思路如图6-1所示。
用户需要通过QoSM组件手动在流量入口下发QoS策略,匹配对应的应用流量后Remark流量的Flow ID。
(1) 登录云简网络平台,进入[SD-WAN>网络公共配置>QoS管理>CBQoS模板>流策略模板]页面,确认需要下发的流策略,单击接口操作的接口引用详情图标,如图6-2所示。
(2) 确认对应的流策略是否下发流量入接口上,如图6-3所示。
(3) 如果流策略接口引用正常,继续下面排查。
(1) 登录云简网络平台,进入[SD-WAN>网络公共配置>QoS管理>CBQoS模板>流分类模板]页面,确认对应的流分类模板名称,如图6-4所示。
(2) 单击流分类模板名称,查看模板详情确认流分类中匹配的ACL名称,例如匹配ACL:app1,如图6-5所示。
(3) 进入[SD-WAN>网络公共配置>QoS管理>ACL模板]页面,查找对应ACL标识为app1的模板,单击app1的模板名称,查询ACL匹配规则,如图6-6所示。
图6-6 ACL模板详情
所有业务流量都在VPN中,ACL中一定要匹配对应的VPN名称。
(1) 登录云简网络平台,进入[SD-WAN>网络公共配置>QoS管理>CBQoS模板>流行为]页面,确认对应的流行为模板名称,单击后面的模板详情图标,如图6-7所示。
(2) 单击标记(Remark)后面的高级配置选项,确认Remark的Flow ID是否正确,如图6-8所示。
控制组件下发对应QoS策略,通过QoS策略进行应用着色,Remark为对应的Flow ID,确认LAN口着色是否成功。登录设备查询相关配置。
查看接口QoS统计:
<SPOKE2-1> display qos policy interface Vlan-interface 50
Interface: Vlan-interface50
Direction: Inbound
Policy: app
Classifier: default-class
Matched : 0 (Packets) 0 (Bytes)
5-minute statistics:
Forwarded: 0/0 (pps/bps)
Dropped : 0/0 (pps/bps)
Operator: AND
Rule(s) :
If-match any
Behavior: be
-none-
Classifier: app1
Matched : 3413 (Packets) 4341336 (Bytes) //命中流分类
5-minute statistics:
Forwarded: 0/0 (pps/bps)
Dropped : 0/0 (pps/bps)
Operator: OR
Rule(s) :
If-match acl name app1 //ACL名称
Behavior: sctb
Marking:
Remark dscp 11
Remark flow-id 1 //remark flow id
确认入接口是否有对应的应用流量统计,是否匹配用户打入的流量。如果没有统计可以通过tracert 路径确认流量入口。
(1) 登录云简网络平台,进入[SD-WAN>自动化>策略管理>应用组]页面,确认对应的应用组,如图6-9所示。确认应用ID(Flow ID)123对应的应用组策略:SLA1。
(2) 进入[SD-WAN>自动化>策略管理>调度策略>SLA策略]页面,确认对应的调度策略,如图6-10所示。
(3) 进入[SD-WAN>自动化>策略管理>调度策略>智能调度配置]页面确认是否开启了带宽调度策略,关闭后选路不关心带宽值,如图6-11所示
(4) 进入[SD-WAN>自动化>策略管理>调度策略>综合质量指标]页面,确认质量权重是否有为0的项。配置为0项代表选路时不参考该质量数值。如图6-12所示
登录对应设备,使用如下命令,查询设备的调度配置是否下发成功。
[SPOKE2-1] display current-configuration configuration rir_sdwan
#
rir sdwan
link-quality probe interval 300
link-select suppress-period 1
load-balance per-session periodic-adjust enable
link-bandwidth ignore //关闭带宽选路策略后有此配置;开启后无此配置
sla 0
jitter threshold 50
delay threshold 1000
packet-loss threshold 1
sla 1
jitter threshold 10
delay threshold 500
packet-loss threshold 1
sla 2
jitter threshold 5
delay threshold 300
packet-loss threshold 1
sla 3
jitter threshold 5
delay threshold 150
packet-loss threshold 1
sla 4
jitter threshold 5
delay threshold 100
packet-loss threshold 1
sla 5
jitter threshold 3
delay threshold 50
packet-loss threshold 1
sla 6
jitter threshold 2
delay threshold 40
packet-loss threshold 1
sla 7
jitter threshold 1
delay threshold 30
packet-loss threshold 1
flow 123 //flow id
quality-policy sla 1
cqi-weight delay 1 jitter 1 packet-loss 2 //综合质量指标,配置为0的指标调度时不参考
path sdwan transport-network Default.1.ipv4 preference 10 //路径以及优先级
path sdwan transport-network Default.1.ipv6 preference 10
path sdwan transport-network Default.2.ipv4 preference 20
path sdwan transport-network Default.2.ipv6 preference 20
path sdwan transport-network Default.3.ipv4 preference 30
path sdwan transport-network Default.3.ipv6 preference 30
flow 124
cqi-weight delay 1 jitter 1 packet-loss 2
path sdwan transport-network Default.1.ipv4 preference 20
path sdwan transport-network Default.1.ipv6 preference 20
path sdwan transport-network Default.2.ipv4 preference 10
path sdwan transport-network Default.2.ipv6 preference 10
path sdwan transport-network Default.3.ipv4 preference 30
path sdwan transport-network Default.3.ipv6 preference 30
#
return
通过查询Tunnel配置,确认应用需要优选的Tunnel。
[SPOKE2-1] display current-configuration interface Tunnel
#
interface Tunnel1 mode sdwan udp
bandwidth 10000
ip address unnumbered interface GigabitEthernet0/1
source GigabitEthernet0/1
tunnel out-interface GigabitEthernet0/1
ipv6 address auto link-local
sdwan interface-id 1
sdwan routing-domain 1 id 1
sdwan transport-network Default.1.ipv4 id 1 //传输网标识,对应flow模板中的path路径
sdwan encapsulation udp-port 4799
sdwan collaboration peer-device-id 2
#
通过以下命令可以查询应用流量的转发路径,例如流量优选Tunnel1转发,确认转发路径是否符合预期。
[SPOKE2-1] display tunnel flow-statistics
Flow 0:
Interface Out pps Out bps
Tunnel1 0 72
Flow 123:
Interface Out pps Out bps
Tunnel1 100 1006400 //flow123 流量转发路径tunnel1
可以通过以下命令查询对应Flow的选路配置和CQI符合度,CQI为质量指标,CQI为100标识质量符合
[SPOKE2-1] display rir sdwan flow 123
Flow ID: 123
Session expected bandwidth: 0 kbps
Quality policy: Yes
Tunnels with different preference values:
Preference: 10
Tunnel: 1
SiteID DeviceID InterfaceID CQI
1 1 1 100
Preference: 20
Tunnel: 2
SiteID DeviceID InterfaceID CQI
1 2 2 100
Preference: 30
Tunnel: 4
SiteID DeviceID InterfaceID CQI
1 2 1 100
[SPOKE2-1]
确认组网内所有设备是否进行NTP时钟同步
<SPOKE1-1> display ntp-service status
Clock status: synchronized //状态同步
Clock stratum: 11
System peer: 192.168.40.127
Local mode: client
Reference clock ID: 192.168.40.127
Leap indicator: 00
Clock jitter: 0.000015 s
Stability: 0.000 pps
Clock precision: 2^-21
Root delay: 0.64087 ms
Root dispersion: 3.26538 ms
Reference time: e6a4359b.a4e0bc13 Mon, Aug 15 2022 3:01:47.644
System poll interval: 64 s
已SR6600设备为例
<HUB1-1> display current-configuration interface Tunnel 1
#
interface Tunnel1 mode sdwan udp
bandwidth 400000000
service slot 2 //分布式设备需要
ip address unnumbered interface LoopBack1000
qos lr outbound cir 3000 cbs 187500 ebs 0
source LoopBack1000
qos pq pql 1
ipv6 address auto link-local
sdwan interface-id 1
sdwan routing-domain 1 id 1
sdwan transport-network Default.1.ipv4 id 1
sdwan encapsulation udp-port 4799
sdwan collaboration peer-device-id 2
#
Return
RIR配置了SLA级别支持基于质量的选路,如果隧道质量不符合预期,会导致路径调整,可以通过以下命令查询隧道的质量信息
[SPOKE2-1] display rir sdwan link-quality tunnel 1
Tunnel1:
Interface ID=1
Peer TTE: Site ID=1 Device ID=1 Interface ID=1
Connectivity : Connected
PktLoss (per mill): 0
Delay (msec) : 0
Jitter (msec) : 0
确认到目的设备的链路质量是否符合SLA要求,如果不符合要求可能触发调度。
RIR未关闭带宽策略开关支持基于带宽的选路,如果带宽不符合预期,会导致路径调整,可以通过以下命令查询隧道/物理口带宽使用情况:
[SPOKE2-1] display rir sdwan bandwidth tunnel 1
Tunnel bandwidth info:
Interface Total bandwidth Remaining bandwidth Bandwidth usage
Tun1 10000 kbps 8962 kbps 10 %
Output interface bandwidth info:
PeerTTE: SiteID=1 DeviceID=1 IfID=1
Interface Total bandwidth Remaining bandwidth Bandwidth utilization
GE0/1 10000 kbps 8945 kbps 10 %
确认隧道带宽是否满足选路需求,如果带宽占用超过80%会触发路径调整。
如果以上方式都无法排查,需要收集设备日志反馈研发定位。
