• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

03-SD-WAN 巡检指导书

手册下载

03-SD-WAN 巡检指导书-整本手册.pdf  (363.62 KB)

  • 发布时间:2024/12/12 3:03:46
  • 浏览量:
  • 下载量:

SD-WAN

巡检指导书

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:5W100-20230707

 

Copyright © 2023 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。



1 SDWAN控制组件巡检指导

1.1  前言

SeerEngine-SDWAN基于全局视角,通过统一整合全网资源、多维观测网络状态、智能分析运行数据,使整个网络实现多层次、全方位的可视化,并根据用户策略和应用需求进行集中控制、全局调度、及实时调优,实现应用驱动的广域网服务。

本文档用于指导H3C SeerEngine-SDWAN控制组件的日常运维使用,主要描述用户维护部门对SeerEngine-SDWAN控制组件进行健康性检查的相关事项,检查内容包括控制组件运行状态、控制组件的关键进程和关键端口状态、日志检查,以及应用组状态检查。用户可以选择周期性对SeerEngine-SDWAN控制组件进行健康性检查,也可以选择在一些重要场合,比如升级版本前后进行检查,确保控制组件长时间正常运行。

1.2  控制组件运行状态检查

1.2.1  SDWAN控制组件一键巡检

进入[SD-WAN>自动化>业务保障>一键巡检]页面,本页面主要用于检查控制组件系统状态以及业务状态。

1. 配置检查项

选择需要检查项,然后执行检查,如1-1所示:

图1-1 配置检查项

 

2. 巡检结果

单击巡检记录操作中详情,查看巡检结果,根据巡检结果进行排查,如1-2所示:

图1-2 巡检结果

 

 


2 SR66&MSR系列路由器巡检指导

2.1  巡检工具分析

巡检工具分析需要先收集诊断信息文件、logfile文件、diagfile文件,并将这些文件上传到本地,然后对这些文件进行分析并出报告,具体如下。

2.1.1  收集诊断信息

display diagnostic-information

然后敲“Y”保存为文件:

<H3C>display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:y

Please input the file name(*.tar.gz)[flash:/diag_spoke1-1_20200521-132915.tar.gz]:

Diagnostic information is outputting to flash:/diag_spoke1-1_20200521-132915.tar.gz.

Please wait...

Save successfully.

进入该路径,取出tar.gz文件:

<H3C>dir flash:/ | in diag

   4 -rw-      178711 May 21 2020 13:29:23   diag_spoke1-1_20200521-132915.tar.gz

2.1.2  收集logfile文件

用户试图执行“logfile save”命令将缓存信息保存到文件中。

通过该命令获取logfile文件所在路径:

display logfile summary

然后进入路径获取对应的logfile文件:

[H3C]display logfile summary

  Log file: Enabled

  Log file size quota: 5 MB

  Log file directory: flash:/logfile

  Writing frequency: 24 hour 0 min 0 sec

<H3C>dir logfile/

Directory of sda0:/logfile

   0 -rw-      361350 Nov 22 2019 21:22:20   logfile1.log.gz         //logfilex.log大小达到一定阈值,自动压缩为.log.gz文件

   1 -rw-     2115314 May 15 2020 14:54:07   logfile10.log          //当前最新

   2 -rw-      332125 Nov 26 2019 01:17:40   logfile2.log.gz

   3 -rw-      335157 Nov 26 2019 13:00:18   logfile3.log.gz

   4 -rw-      332033 Nov 27 2019 00:36:10   logfile4.log.gz

   5 -rw-      331830 Nov 27 2019 12:17:32   logfile5.log.gz

   6 -rw-      331565 Nov 27 2019 23:56:48   logfile6.log.gz

   7 -rw-      331942 Nov 28 2019 11:38:02   logfile7.log.gz

   8 -rw-      330327 Nov 28 2019 23:16:52   logfile8.log.gz

   9 -rw-      336860 Dec 11 2019 16:22:32   logfile9.log.gz

 

2093044 KB total (1545200 KB free)

2.1.3  diagfile文件

用户试图执行“diagnostic-logfile save”命令将缓存信息保存到文件中。

执行“display diagnostic-logfile summary”查看diagfile文件存储路径:

<H3C>display diagnostic-logfile summary

  Diagnostic log file: Enabled

  Diagnostic log file size quota: 5 MB

  Diagnostic log file directory: flash:/diagfile

  Writing frequency: 24 hour 0 min 0 sec

该路径下如果有diagfile文件产生,一并取出:

<H3C>dir diagfile/

Directory of flash:/diagfile

The directory is empty.

 

251904 KB total (88960 KB free)

2.1.4  core文件

查看core文件夹,如果有.core文件产生,一并取出:

<H3C>dir core/

Directory of sda0:/core

   0 -rw-    60112896 Nov 17 2019 23:53:22   node0_comsh_25609_11_20191117-23532

2_1574034802.core

   1 -rw-    60112896 Nov 17 2019 23:53:52   node0_comsh_26398_11_20191117-23535

1_1574034831.core

 

2093044 KB total (1545200 KB free)

2.1.5  分析

收集上述三个文件后,通过FTP方式将文件拷贝出来,使用锤子工具进行巡检分析,然后分析报告内容,如果存在告警、异常等信息则进行自己分析或找研发支持。

2.2  路由器设备检查

2.2.1  检查路由器设备上TTE的连接状态

检查方法:

在设备上按如下步骤,执行命令行确认,查询设备上不可达的TTE连接:

[hub]display sdwan tte connection unreachable

Destination SiteID/DevID/IfID/SysIP: 2/1/2/6.1.1.2

Destination IP/port: 20.1.2.2/4799

Source IP/port/IfID: 20.1.1.1/4799/2

 

Number of connections: 1

建议:

设备刚收的TTE信息时,可能出现TTE连接临时无法建立。如果TTE连接长时间无法建立,则需要进一步排查原因。

2.2.2  查询设备BGP Tnl-Encap-Ext邻居建立是否正常

检查方法:

在设备上按如下步骤,执行命令行确认:

[hub]display bgp peer ipv4 tnl-encap-ext

 

 BGP local router ID: 6.1.1.1

 Local AS number: 200

 Total number of peers: 1                 Peers in established state: 1

 

  * - Dynamically created peer

  Peer                    AS  MsgRcvd  MsgSent OutQ PrefRcv Up/Down  State

 

  6.1.1.2                200       33       32    0       2 00:20:49 Established

建议:

若回显都为Established,表明此检查项正常,否则不正常,若有BGP邻居建立状态不正常的则需要进行排查解决异常

2.2.3  查询设备BGP EVPN邻居建立是否正常

检查方法:

在设备上执行如下命令行确认:

[hub]dis bgp peer l2vpn evpn

 

 BGP local router ID: 6.1.1.1

 Local AS number: 200

 Total number of peers: 1                 Peers in established state: 1

 

  * - Dynamically created peer

  Peer                    AS  MsgRcvd  MsgSent OutQ PrefRcv Up/Down  State

 

  6.1.1.2                200       37       36    0       0 00:24:08 Established

说明:

若回显都为Established,表明此检查项正常,否则不正常,若有BGP邻居建立状态不正常的则需要进行排查解决异常

2.2.4  检查设备专线接口bandwidth配置

检查方法:

在设备上按如下步骤,执行命令行确认,查询设备上WAN接口的配置:

<zongbu1> display current-configuration interface GigabitEthernet 1/4/0.1

#

interface GigabitEthernet1/4/0.1

 bandwidth 200000

 vlan-type dot1q vid 223

#

说明:

应用保障的占比是基于接口带宽的,如果实际可用带宽比接口带宽小(比如WAN口限速的情况下),则需要配置带宽为实际可用带宽,特别是三层聚合口等逻辑接口,若不配置bandwidth指定实际可用带宽,路由器默认可用带宽值为0,这会导致后续应用保障的队列保障值都为0,而在链路带宽流量拥塞时影响被队列保障功能。

建议:

需要在设备WAN口上配置bandwidth配置。

2.2.5  检查隧道口下是否配置了service slot命令

如果隧道指定的源接口为聚合口,需要在隧道口下配置service slot命令

查看聚合口所在的slot

<Sysname> display link-aggregation verbose route-aggregation 3

Loadsharing Type: Shar -- Loadsharing, NonS -- Non-Loadsharing

Port Status: S -- Selected, U -- Unselected, I -- Individual

Flags:  A -- LACP_Activity, B -- LACP_Timeout, C -- Aggregation,

        D -- Synchronization, E -- Collecting, F -- Distributing,

        G -- Defaulted, H -- Expired

Aggregate Interface: Route-Aggregation2

Aggregation Mode: Static

Loadsharing Type: Shar

  Port             Status  Priority Oper-Key

--------------------------------------------------------------------------------

  GE1/2/0/1          S       32768    1

  GE2/2/0/2          S       32768    1

则在设备上配置:

#

interface Tunnel1 mode sdwan udp

service chassis 1 slot 2

#

2.2.6  检查业务流量入口是否配置tcp mss 1280

检查方法:

在设备上按如下步骤,执行命令行确认,查询设备上LAN接口的配置:

<zongbu1> display current-configuration interface GigabitEthernet 1/4/0.1

#

interface GigabitEthernet1/4/0.1

 tcp mss 1280

 vlan-type dot1q vid 223

#

说明:

由于部署ADWAN分支方案后,导致报文会增加sdwan隧道头,需要将业务流量入口的TCP MSS调小,避免报文太大在运营商专线被分片导致业务异常。

建议:

需要在设备LAN口上配置tcp mss 1280

2.2.7  若配置了IPsec加密,检查是否关闭了IPsec抗重放功能

检查方法:

在设备上按如下步骤,执行命令行确认:

#

interface Tunnel1 mode sdwan udp

 bandwidth 10000

 ip address unnumbered interface GigabitEthernet0/1

 source GigabitEthernet0/1

 tunnel out-interface GigabitEthernet0/1

 ipv6 address auto link-local

 tunnel protection ipsec profile adwan-ipsec-profile

 sdwan interface-id 1

 sdwan routing-domain 10 id 10

 sdwan transport-network Mobile.1.ipv4 id 1

 sdwan keepalive interval 2 retry 5

#

说明:

tunnel protection ipsec profile adwan-ipsec-profile表明隧道配置了IPsec加密需要在设备上关闭IPsec抗重放功能。

建议:

需要在设备上配置undo ipsec anti-replay check配置。

2.3  路由器表项资源检查

检测项:路由表,ACLARP。由于路由器型号和单板众多,现场可以根据现场设备型号和单板与路由器产品同事确认对应的资源规格。

路由器型号

路由器单板

路由表规格

FIB规格

ACL规格

ARP规格

Tunnel

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.3.1  查看路由器路由表或FIB表规格

检查方法:

MSRSR66设备为软转设备,其L3路由转发表项使用情况需要查看ip routing表。

对于MSRSR66设备,执行display ip routing-table

<SR66>display ip routing-table

Destinations : 40       Routes : 43

说明:

判断命令行display ip routing-table回显,Routes为已使用路由表资源数目,对比已确认的现场设备规格,确认是否已经接近表项规格或者资源已占满。

建议:

若已使用资源已超过资源规格80%则需记录,由相关技术人员排查和确认是否需要资源优化。

2.3.2  查询设备ACL资源使用情况

检查方法:

SR88CR1600-F设备支持命令行查看ACL资源使用情况,其他型号设备暂不支持。

[SR88]display qos-acl resource slot 2

Interfaces: GE2/2/1 to GE2/2/20, XGE2/1/1 to XGE2/1/5 (slot 2)

---------------------------------------------------------------------

 Type             Total      Reserved   Configured Remaining  Usage

---------------------------------------------------------------------

 IPv4Acl          6144       0          18         6126       0%

 IPv6Acl          1024       0          7          1017       0%

 CAR&Cnt          131072     0          1          131071     0%

 InBRAS Stat      65535      0          0          65535      0%

 InL2TP Stat      65535      0          0          65535      0%

 EgBRAS Stat      65535      0          0          65535      0%

 EgL2TP Stat      65535      0          0          65535      0%

 IngSubIf Stat    65536      0          0          65536      0%

 EgSubIf Stat     65536      0          0          65536      0%

 CAR Prof         500        0          1          499        0%

 BRAS Prof        400        0          0          400        0%

 Sampler          131072     1          0          131071     0%

 INQPPB           1024       0          0          1024       0%

说明:

判断命令行display qos-acl resource slot x回显,查看每一块业务单板的ACL资源,查看是否有资源使用率有超过80%

建议:

若已使用资源有超过资源规格80%则需记录,由相关技术人员排查和确认是否需要资源优化。

2.3.3  查询设备ARP资源使用情况

检查方法:

<SR88>display arp count

 Total number of entries: 45

说明:

判断命令行display arp count回显,查看arp表项已使用数目。对比已确认的现场设备规格,确认是否已经接近表项规格或者资源已占满。

建议:

若已使用资源有超过资源规格80%则需记录,由相关技术人员排查和确认是否需要资源优化。

 

新华三官网
联系我们