SD-WAN
巡检指导书
资料版本:5W100-20230707
Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
2.2.2 查询设备BGP Tnl-Encap-Ext邻居建立是否正常
2.2.5 检查隧道口下是否配置了service slot命令
2.2.6 检查业务流量入口是否配置tcp mss 1280
2.2.7 若配置了IPsec加密,检查是否关闭了IPsec抗重放功能
SeerEngine-SDWAN基于全局视角,通过统一整合全网资源、多维观测网络状态、智能分析运行数据,使整个网络实现多层次、全方位的可视化,并根据用户策略和应用需求进行集中控制、全局调度、及实时调优,实现应用驱动的广域网服务。
本文档用于指导H3C SeerEngine-SDWAN控制组件的日常运维使用,主要描述用户维护部门对SeerEngine-SDWAN控制组件进行健康性检查的相关事项,检查内容包括控制组件运行状态、控制组件的关键进程和关键端口状态、日志检查,以及应用组状态检查。用户可以选择周期性对SeerEngine-SDWAN控制组件进行健康性检查,也可以选择在一些重要场合,比如升级版本前后进行检查,确保控制组件长时间正常运行。
进入[SD-WAN>自动化>业务保障>一键巡检]页面,本页面主要用于检查控制组件系统状态以及业务状态。
选择需要检查项,然后执行检查,如图1-1所示:
单击巡检记录操作中详情,查看巡检结果,根据巡检结果进行排查,如图1-2所示:
巡检工具分析需要先收集诊断信息文件、logfile文件、diagfile文件,并将这些文件上传到本地,然后对这些文件进行分析并出报告,具体如下。
display diagnostic-information
然后敲“Y”保存为文件:
<H3C>display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:y
Please input the file name(*.tar.gz)[flash:/diag_spoke1-1_20200521-132915.tar.gz]:
Diagnostic information is outputting to flash:/diag_spoke1-1_20200521-132915.tar.gz.
Please wait...
Save successfully.
进入该路径,取出tar.gz文件:
<H3C>dir flash:/ | in diag
4 -rw- 178711 May 21 2020 13:29:23 diag_spoke1-1_20200521-132915.tar.gz
用户试图执行“logfile save”命令将缓存信息保存到文件中。
通过该命令获取logfile文件所在路径:
display logfile summary
然后进入路径获取对应的logfile文件:
[H3C]display logfile summary
Log file: Enabled
Log file size quota: 5 MB
Log file directory: flash:/logfile
Writing frequency: 24 hour 0 min 0 sec
<H3C>dir logfile/
Directory of sda0:/logfile
0 -rw- 361350 Nov 22 2019 21:22:20 logfile1.log.gz //logfilex.log大小达到一定阈值,自动压缩为.log.gz文件
1 -rw- 2115314 May 15 2020 14:54:07 logfile10.log //当前最新
2 -rw- 332125 Nov 26 2019 01:17:40 logfile2.log.gz
3 -rw- 335157 Nov 26 2019 13:00:18 logfile3.log.gz
4 -rw- 332033 Nov 27 2019 00:36:10 logfile4.log.gz
5 -rw- 331830 Nov 27 2019 12:17:32 logfile5.log.gz
6 -rw- 331565 Nov 27 2019 23:56:48 logfile6.log.gz
7 -rw- 331942 Nov 28 2019 11:38:02 logfile7.log.gz
8 -rw- 330327 Nov 28 2019 23:16:52 logfile8.log.gz
9 -rw- 336860 Dec 11 2019 16:22:32 logfile9.log.gz
2093044 KB total (1545200 KB free)
用户试图执行“diagnostic-logfile save”命令将缓存信息保存到文件中。
执行“display diagnostic-logfile summary”查看diagfile文件存储路径:
<H3C>display diagnostic-logfile summary
Diagnostic log file: Enabled
Diagnostic log file size quota: 5 MB
Diagnostic log file directory: flash:/diagfile
Writing frequency: 24 hour 0 min 0 sec
该路径下如果有diagfile文件产生,一并取出:
<H3C>dir diagfile/
Directory of flash:/diagfile
The directory is empty.
251904 KB total (88960 KB free)
查看core文件夹,如果有.core文件产生,一并取出:
<H3C>dir core/
Directory of sda0:/core
0 -rw- 60112896 Nov 17 2019 23:53:22 node0_comsh_25609_11_20191117-23532
2_1574034802.core
1 -rw- 60112896 Nov 17 2019 23:53:52 node0_comsh_26398_11_20191117-23535
1_1574034831.core
2093044 KB total (1545200 KB free)
收集上述三个文件后,通过FTP方式将文件拷贝出来,使用锤子工具进行巡检分析,然后分析报告内容,如果存在告警、异常等信息则进行自己分析或找研发支持。
检查方法:
在设备上按如下步骤,执行命令行确认,查询设备上不可达的TTE连接:
[hub]display sdwan tte connection unreachable
Destination SiteID/DevID/IfID/SysIP: 2/1/2/6.1.1.2
Destination IP/port: 20.1.2.2/4799
Source IP/port/IfID: 20.1.1.1/4799/2
Number of connections: 1
建议:
设备刚收的TTE信息时,可能出现TTE连接临时无法建立。如果TTE连接长时间无法建立,则需要进一步排查原因。
检查方法:
在设备上按如下步骤,执行命令行确认:
[hub]display bgp peer ipv4 tnl-encap-ext
BGP local router ID: 6.1.1.1
Local AS number: 200
Total number of peers: 1 Peers in established state: 1
* - Dynamically created peer
Peer AS MsgRcvd MsgSent OutQ PrefRcv Up/Down State
6.1.1.2 200 33 32 0 2 00:20:49 Established
建议:
若回显都为Established,表明此检查项正常,否则不正常,若有BGP邻居建立状态不正常的则需要进行排查解决异常。
检查方法:
在设备上执行如下命令行确认:
[hub]dis bgp peer l2vpn evpn
BGP local router ID: 6.1.1.1
Local AS number: 200
Total number of peers: 1 Peers in established state: 1
* - Dynamically created peer
Peer AS MsgRcvd MsgSent OutQ PrefRcv Up/Down State
6.1.1.2 200 37 36 0 0 00:24:08 Established
说明:
若回显都为Established,表明此检查项正常,否则不正常,若有BGP邻居建立状态不正常的则需要进行排查解决异常。
检查方法:
在设备上按如下步骤,执行命令行确认,查询设备上WAN接口的配置:
<zongbu1> display current-configuration interface GigabitEthernet 1/4/0.1
#
interface GigabitEthernet1/4/0.1
bandwidth 200000
vlan-type dot1q vid 223
#
说明:
应用保障的占比是基于接口带宽的,如果实际可用带宽比接口带宽小(比如WAN口限速的情况下),则需要配置带宽为实际可用带宽,特别是三层聚合口等逻辑接口,若不配置bandwidth指定实际可用带宽,路由器默认可用带宽值为0,这会导致后续应用保障的队列保障值都为0,而在链路带宽流量拥塞时影响被队列保障功能。
建议:
需要在设备WAN口上配置bandwidth配置。
如果隧道指定的源接口为聚合口,需要在隧道口下配置service slot命令。
查看聚合口所在的slot:
<Sysname> display link-aggregation verbose route-aggregation 3
Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing
Port Status: S -- Selected, U -- Unselected, I -- Individual
Flags: A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,
D -- Synchronization, E -- Collecting, F -- Distributing,
G -- Defaulted, H -- Expired
Aggregate Interface: Route-Aggregation2
Aggregation Mode: Static
Loadsharing Type: Shar
Port Status Priority Oper-Key
--------------------------------------------------------------------------------
GE1/2/0/1 S 32768 1
GE2/2/0/2 S 32768 1
则在设备上配置:
#
interface Tunnel1 mode sdwan udp
service chassis 1 slot 2
#
检查方法:
在设备上按如下步骤,执行命令行确认,查询设备上LAN接口的配置:
<zongbu1> display current-configuration interface GigabitEthernet 1/4/0.1
#
interface GigabitEthernet1/4/0.1
tcp mss 1280
vlan-type dot1q vid 223
#
说明:
由于部署ADWAN分支方案后,导致报文会增加sdwan隧道头,需要将业务流量入口的TCP MSS调小,避免报文太大在运营商专线被分片导致业务异常。
建议:
需要在设备LAN口上配置tcp mss 1280。
检查方法:
在设备上按如下步骤,执行命令行确认:
#
interface Tunnel1 mode sdwan udp
bandwidth 10000
ip address unnumbered interface GigabitEthernet0/1
source GigabitEthernet0/1
tunnel out-interface GigabitEthernet0/1
ipv6 address auto link-local
tunnel protection ipsec profile adwan-ipsec-profile
sdwan interface-id 1
sdwan routing-domain 10 id 10
sdwan transport-network Mobile.1.ipv4 id 1
sdwan keepalive interval 2 retry 5
#
说明:
tunnel protection ipsec profile adwan-ipsec-profile表明隧道配置了IPsec加密,需要在设备上关闭IPsec抗重放功能。
建议:
需要在设备上配置undo ipsec anti-replay check配置。
检测项:路由表,ACL,ARP。由于路由器型号和单板众多,现场可以根据现场设备型号和单板与路由器产品同事确认对应的资源规格。
路由器型号 |
路由器单板 |
路由表规格 |
FIB规格 |
ACL规格 |
ARP规格 |
Tunnel |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
检查方法:
MSR和SR66设备为软转设备,其L3路由转发表项使用情况需要查看ip routing表。
对于MSR和SR66设备,执行display ip routing-table:
<SR66>display ip routing-table
Destinations : 40 Routes : 43
说明:
判断命令行display ip routing-table回显,Routes为已使用路由表资源数目,对比已确认的现场设备规格,确认是否已经接近表项规格或者资源已占满。
建议:
若已使用资源已超过资源规格80%,则需记录,由相关技术人员排查和确认是否需要资源优化。
检查方法:
仅SR88和CR1600-F设备支持命令行查看ACL资源使用情况,其他型号设备暂不支持。
[SR88]display qos-acl resource slot 2
Interfaces: GE2/2/1 to GE2/2/20, XGE2/1/1 to XGE2/1/5 (slot 2)
---------------------------------------------------------------------
Type Total Reserved Configured Remaining Usage
---------------------------------------------------------------------
IPv4Acl 6144 0 18 6126 0%
IPv6Acl 1024 0 7 1017 0%
CAR&Cnt 131072 0 1 131071 0%
InBRAS Stat 65535 0 0 65535 0%
InL2TP Stat 65535 0 0 65535 0%
EgBRAS Stat 65535 0 0 65535 0%
EgL2TP Stat 65535 0 0 65535 0%
IngSubIf Stat 65536 0 0 65536 0%
EgSubIf Stat 65536 0 0 65536 0%
CAR Prof 500 0 1 499 0%
BRAS Prof 400 0 0 400 0%
Sampler 131072 1 0 131071 0%
INQPPB 1024 0 0 1024 0%
说明:
判断命令行display qos-acl resource slot x回显,查看每一块业务单板的ACL资源,查看是否有资源使用率有超过80%。
建议:
若已使用资源有超过资源规格80%,则需记录,由相关技术人员排查和确认是否需要资源优化。
检查方法:
<SR88>display arp count
Total number of entries: 45
说明:
判断命令行display arp count回显,查看arp表项已使用数目。对比已确认的现场设备规格,确认是否已经接近表项规格或者资源已占满。
建议:
若已使用资源有超过资源规格80%,则需记录,由相关技术人员排查和确认是否需要资源优化。