• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C SeerEngine-WAN故障处理手册-E65XX-5W101

手册下载

H3C SeerEngine-WAN故障处理手册-E65XX-5W101-整本手册.pdf  (4.44 MB)

  • 发布时间:2022/11/18 16:38:44
  • 浏览量:
  • 下载量:

H3C SeerEngine-WAN控制组件

故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

资料版本:5W101-20221115

 

Copyright © 2022 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。


 

1 简介··· 1

1.1 故障处理注意事项·· 1

1.2 收集SEERENGINE-WAN控制组件运行信息·· 1

1.2.1 收集网络拓扑信息·· 1

1.2.2 收集SEERENGINE-WAN控制组件日志信息·· 3

1.3 故障处理求助方式·· 5

2 页面访问故障处理··· 6

2.1 页面显示不全或功能不可用·· 6

2.1.1 故障描述·· 6

2.1.2 故障处理步骤·· 6

2.2 访问页面时响应时间过长·· 6

2.2.1 故障描述·· 6

2.2.2 故障处理步骤·· 6

2.3 页面无法访问·· 6

2.3.1 故障描述·· 6

2.3.2 故障处理步骤·· 6

3 拓扑收集不完整故障处理··· 8

3.1 节点收集不完整·· 8

3.1.1 故障描述·· 8

3.1.2 故障处理步骤·· 8

3.2 拓扑管理页面设备位置显示异常·· 9

3.2.1 故障描述·· 9

3.2.2 故障处理步骤·· 9

3.3 物理链路收集不完整·· 10

3.3.1 故障描述·· 10

3.3.2 故障处理步骤·· 10

4 设备管理故障处理··· 12

4.1 设备列表及自动发现设备列表中均没有设备·· 12

4.1.1 故障描述·· 12

4.1.2 故障处理步骤·· 12

4.2 自动发现设备列表中设备自动上报后被删除·· 12

4.2.1 故障描述·· 12

4.2.2 故障处理步骤·· 12

4.3 设备无法上线·· 13

4.3.1 故障描述·· 13

4.3.2 故障处理步骤·· 13

4.4 获取设备信息异常·· 17

4.4.1 故障描述·· 17

4.4.2 故障处理步骤·· 17

4.5 设备/链路状态异常·· 18

4.5.1 故障描述·· 18

4.5.2 故障处理步骤·· 19

4.6 替换故障设备·· 19

4.6.1 故障描述·· 19

4.6.2 故障处理步骤·· 19

5 拓扑管理故障处理··· 20

5.1 手动添加链路为灰色·· 20

5.1.1 故障描述·· 20

5.1.2 故障处理步骤·· 20

5.2 自动上报链路为灰色·· 20

5.2.1 故障描述·· 20

5.2.2 故障处理步骤·· 21

5.3 获取链路信息异常·· 22

5.3.1 故障描述·· 22

5.3.2 故障处理步骤·· 22

6 链路标签故障处理··· 23

6.1 链路标签功能异常·· 23

6.1.1 故障描述·· 23

6.1.2 故障处理步骤·· 23

6.2 链路标签分配失败·· 24

6.2.1 故障描述·· 24

6.2.2 故障处理步骤·· 24

6.3 链路END.X SID·· 25

6.3.1 故障描述·· 25

6.3.2 故障处理步骤·· 25

7 节点标签故障处理··· 27

7.1 节点标签功能异常·· 27

7.1.1 故障描述·· 27

7.1.2 故障处理步骤·· 27

7.2 节点标签分配失败·· 27

7.2.1 故障描述·· 27

7.2.2 故障处理步骤·· 27

7.3 节点END SID失败·· 29

7.3.1 故障描述·· 29

7.3.2 故障处理步骤·· 29

8 应用组实例选路故障处理··· 31

8.1 应用组实例无路径·· 31

8.1.1 故障描述·· 31

8.1.2 故障处理步骤·· 31

8.2 应用组实例路径不符合预期·· 32

8.2.1 故障描述·· 32

8.2.2 故障处理步骤·· 32

8.3 应用组实例不满足SLA略时没有调整路径·· 33

8.3.1 故障描述·· 33

8.3.2 故障处理步骤·· 33

8.4 添加应用组后,应用无法调度/可视·· 33

8.4.1 故障描述·· 33

8.4.2 故障处理步骤·· 33

9 业务流量转发故障处理··· 36

9.1 业务流量未按照指定路径转发·· 36

9.1.1 故障描述·· 36

9.1.2 故障处理步骤·· 36

9.2 一些基于TCP的业务无法访问·· 36

9.2.1 故障描述·· 36

9.2.2 故障处理步骤·· 36

10 运维管理故障处理··· 37

10.1 链路带宽统计异常·· 37

10.1.1 故障描述·· 37

10.1.2 故障处理步骤·· 37

10.2 链路质量统计异常·· 37

10.2.1 故障描述·· 37

10.2.2 故障处理步骤·· 38

10.3 质量探测数据有误·· 38

10.3.1 故障描述·· 38

10.3.2 故障处理步骤·· 38

10.4 应用组带宽统计异常·· 39

10.4.1 故障描述·· 39

10.4.2 故障处理步骤·· 39

10.5 应用组带宽超出实际带宽·· 41

10.5.1 故障描述·· 41

10.5.2 故障处理步骤·· 41

10.6 链路上应用统计异常·· 41

10.6.1 故障描述·· 41

10.6.2 故障处理步骤·· 41

10.7 应用限速不生效·· 42

10.7.1 故障描述·· 42

10.7.2 故障处理步骤·· 42

10.8 历史信息页面无响应·· 43

10.8.1 故障描述·· 43

10.8.2 故障处理步骤·· 43

10.9 历史信息统计异常·· 44

10.9.1 故障描述·· 44

10.9.2 故障处理步骤·· 44

11 MongoDB集群同步故障处理··· 45

11.1 首次建立集群失败·· 45

11.1.1 故障描述·· 45

11.1.2 故障处理步骤·· 45

11.2 集群建立后,在备控制组件上无法显示相关数据·· 46

11.2.1 故障描述·· 46

11.2.2 故障处理步骤·· 46

11.3 建立集群后,主和备控制组件均无法显示相关数据·· 48

11.3.1 故障描述·· 48

11.3.2 故障处理步骤·· 48

11.4 数据库集群大数据量同步耗时较长·· 49

11.4.1 故障描述·· 49

11.4.2 故障处理步骤·· 50

12 控制组件运行异常故障处理··· 52

12.1 磁盘空间不足导致控制组件异常退出·· 52

12.1.1 故障描述·· 52

12.1.2 故障处理步骤·· 52

12.2 端口文件不存在导致控制组件无法正常退出·· 53

12.2.1 故障描述·· 53

12.2.2 故障处理步骤·· 53


1 简介

本文档介绍H3C SEERENGINE-WAN控制组件常见故障的诊断及处理措施。

1.1  故障处理注意事项

设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

·     记录您所使用的H3C SEERENGINE-WAN控制组件版本、Linux操作系统版本。

·     记录具体的故障现象、故障时间、配置信息。

·     记录完整的网络拓扑,包括但不限于组网图、端口连接关系、故障位置。

·     收集网络拓扑信息和日志信息(收集方法见“1.2  收集SEERENGINE-WAN控制组件运行信息”)。

·     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象和结果。

·     记录故障处理过程中配置的所有命令行显示信息。

1.2  收集SEERENGINE-WAN控制组件运行信息

1.2.1  收集网络拓扑信息

您可以通过如下步骤,查看网络拓扑信息。

(1)     在浏览器(如Chrome)中输入控制组件GUI的登录地址(格式为:http://Controller_IP_address: 30000,例如http://192.168.116.33:30000),回车后打开控制组件GUI的登录界面。输入用户名和密码后,单击<登录>按钮,进入SEERENGINE-WAN控制组件GUI界面。

(2)     在控制组件GUI界面中,单击[监控/拓扑视图/承载拓扑]菜单项进入承载网拓扑视图页面,在该页面可查看承载网全网拓扑信息,包括所有的设备和链路。

图1-1 拓扑信息页面

 

(3)     单击[自动化/承载网络/物理网络]菜单项,单击[设备]页签,进入设备信息页面。在该页面可查看所有设备的完整信息。

图1-2 设备信息页面

 

(4)     单击[自动化/承载网络/物理网络]菜单项,单击[链路]页签,进入链路信息页面。在该页面可查看所有链路的完整信息。

图1-3 链路管理页面

 

1.2.2  收集SEERENGINE-WAN控制组件日志信息

1. 收集诊断日志

SEERENGINE-WAN控制组件运行过程中会产生诊断日志。诊断日志储存在固定目录/var/log/matrix-diag/SeerEngine-WAN/adwan/adwanlog 路径下,可直接在GUI页面导出所有诊断日志或通过SecureFXSSH等方式导出该目录下所有文件。请尽可能收集所有文件,以方便定位问题。

您可以通过如下步骤,在GUI页面导出SEERENGINE-WAN控制组件的诊断日志。

(1)     在浏览器(如Chrome)中输入控制组件GUI的登录地址(格式为:http://Controller_IP_address:30000,例如http://192.168.116.33:30000),回车后打开控制组件GUI的登录界面。输入用户名和密码后,单击<登录>按钮进入控制组件GUI界面。

(2)     进入[系统/日志管理/运行日志信息] 菜单项,进入[日志管理 > 运行日志]页面,在搜索框中输入adwan进行过滤,选择目标文件前的复选框,单击<导出>按钮可导出选中的诊断日志,包括netconf.logkaraf.log文件。

图1-4 数据导出页面

 

表1-1 SEERENGINE-WAN控制组件诊断日志介绍

分类

文件名

内容

netconf文件夹

netconf.log

NETCONF模块产生的记录信息

karaf.log

karaf.log.*

ODL产生的记录信息

 

说明

·     karaf.log日志文件写满产生新的日志文件时,SEERENGINE-WAN控制组件会将旧的日志文件名自动更新为karaf_{年份}-{星期}_{该年份该星期第几份}.log.zip,原有的文件名及其后的文件名序号按顺序递增。

·     SEERENGINE-WAN控制组件异常退出时,只能通过SecureFXSSH等方式导出日志目录下所有文件。

 

2. 收集操作日志/系统日志

您可以通过如下步骤,在GUI页面导出SEERENGINE-WAN控制组件的操作日志。

(1)     在浏览器(如Chrome)中输入控制组件GUI的登录地址(格式为:http://Controller_IP_address:30000 ,例如http://192.168.116.33:30000),回车后打开控制组件GUI的登录界面。输入用户名和密码后,单击<登录>按钮进入控制组件GUI界面。

(2)     进入[系统/日志管理/操作日志信息] 菜单项,进入[日志管理 > 操作日志]页面,在高级搜索服务名称中选择SeerEngine-WAN,单击<导出>按钮,可导出控制组件上指定时间段的操作日志。

图1-5 数据导出页面

 

(3)     进入[系统/日志管理/系统日志信息] 菜单项,进入[日志管理 > 系统日志]页面,选择时间段,单击<导出>按钮,可导出控制组件上指定时间段的系统日志。

图1-6 数据导出页面

 

1.3  故障处理求助方式

当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。

用户支持邮箱:[email protected]

技术支持热线电话:400-810-0504(手机、固话均可拨打)


2 页面访问故障处理

2.1  页面显示不全或功能不可用

2.1.1  故障描述

在浏览器中输入IP地址访问SEERENGINE-WAN控制组件时,页面显示不全或功能不可用。

2.1.2  故障处理步骤

造成故障的原因可能为:

·     浏览器版本过低且不支持HTML5

·     显示器分辨率过低。

故障处理步骤如下:

(1)     请使用控制组件安装指导中推荐使用的浏览器版本。

(2)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

2.2  访问页面时响应时间过长

2.2.1  故障描述

通过浏览器访问页面时响应时间过长。

2.2.2  故障处理步骤

造成故障的原因可能为:

·     网络异常或网络质量不佳。

·     客户端配置未达到要求。

故障处理步骤如下:

(1)     请检测网络质量,建议网络延迟不高于200ms

(2)     请保证客户端PC可用的内存不低于4G

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

2.3  页面无法访问

2.3.1  故障描述

在浏览器中输入IP地址访问SEERENGINE-WAN控制组件时,提示无法访问。

2.3.2  故障处理步骤

造成故障的原因可能为:

·     客户端和SEERENGINE-WAN控制组件所在的服务器之间网络异常,或服务器的80端口被禁用。

·     SEERENGINE-WAN控制组件所在的服务器中的界面服务器(node)异常退出。

故障处理步骤如下:

(1)     在集群稳定情况下,在任意一台matrix服务器执行以下命令确定adwan主控制组件:

kubectl get all -n adwan-system -o wide

 

如果是标红的adwan1,说明adwan-node1是主控制组件;如果是adwan2,说明adwan-node2是主控制组件。如果是标红的adwan3,说明adwan-node3是主控制组件。

(2)     执行如下命令进入主控制组件容器。其中阴影部分的参数需要根据环境中实际的主控制组件容器ID修改。

kubectl exec -it -n adwan-system adwan-node1-88c9bcc49-fbmp2 /bin/bash

 

(3)     输入命令ps -ef | grep jx,查看是否出现node进程。如没有该进程,则通过如下命令重新启动前端进程:

cd /opt/ADWAN-WEB/

nohup jx_ub64v8/jx adwan-web.jx &

(4)     退出容器。

exit

(5)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。


3 拓扑收集不完整故障处理

在安装SEERENGINE-WAN控制组件之前,请提前配置好组网环境,避免拓扑信息异常。

3.1  节点收集不完整

3.1.1  故障描述

在拓扑管理页面或设备管理页面中显示的设备数量与实际组网中的设备数量不一致,则说明节点收集不完整。

3.1.2  故障处理步骤

故障处理步骤如下:

(1)     找到未上报的设备,通过ping命令检查控制组件与设备间通信是否正常。若通信异常,则需解决网络问题;若通信正常,直接进行下一步。

(2)     重建BGP-LS邻居。单击[自动化/参数配置/BGP参数配置]菜单项,取消勾选“建立BGP-LS邻居”选项,等待五分钟后,重新勾选“建立BGP-LS邻居”选项。

 

(3)     在设备控制台上使用display bgp peer link-state命令查询BGP收集的节点数量。若不同,请检查组网配置;若BGP收集到的节点数量与实际组网相同且故障未解决,直接进行下一步。

(4)     若拓扑节点仍不完整,请进行如下操作:

·     重启控制组件。控制组件重启后会重新与设备建立连接,但会导致业务中断,请谨慎操作。若当前场景下不允许重启控制组件,可选择手动添加设备方式或联系H3C技术支持工程师。

·     手动添加设备。单击[自动化/承载网络/物理网络/设备/设备管理]菜单项,在[设备管理]页签中,单击<添加>按钮,在弹出的“增加设备”对话框中,手动添加设备信息,添加IPv6IPv4地址取决于控制组件南向IP是否可以和设备连通。单击<确定>按钮,完成设备添加。

 

3.2  拓扑管理页面设备位置显示异常

3.2.1  故障描述

拓扑管理页面设备位置信息显示异常或出现乱码。

3.2.2  故障处理步骤

当控制组件版本升级后,可能会出现设备位置信息丢失情况,导致拓扑管理页面设备位置异常或显示乱码,此时需重新设置设备位置。

故障处理步骤如下:

(1)     单击[自动化/承载网络/物理网络/设备/设备管理]菜单项,在设备管理页面的“操作”区段单击按钮,在弹出的[修改设备位置]对话框中修改设备位置信息。

 

(2)     修改完成后请在[拓扑管理]页面查看设备位置是否显示正常。如故障仍无法排除,请联系H3C技术支持工程师。

 

3.3  物理链路收集不完整

3.3.1  故障描述

在物理链路页面中显示的IPv4IPv6链路数量与实际组网中的链路数量不一致,则说明链路收集不完整。

3.3.2  故障处理步骤

故障处理步骤如下:

(1)     单击[自动化/参数配置]菜单项,单击[BGP参数配置]页签,查看“BGP-LS拓扑自动发现”是否勾选为“开启”,若未勾选为开启,则勾选为“开启”并单击<确定>按钮;若已勾选为“开启”,则勾选“关闭”选项并单击<确定>按钮,然后重新勾选“开启”并单击<确定>按钮。

 

(2)     重建BGP-LS邻居。查看“建立BGP-LS邻居”是否勾选为“是”,若未勾选为,则勾选为“是”并单击<确定>按钮;若已勾选为“是”,则勾选“否”选项并单击<确定>按钮,等待五分钟后,然后重新勾选“是”并单击<确定>按钮。

(3)     在设备控制台上使用display bgp link-state命令查询BGP收集的链路条数。若不同,请检查组网配置;若BGP收集到的链路总条数与实际组网相同且故障未解决,直接进行下一步。

(4)     若物理链路仍不完整,请进行如下操作:

·     重启控制组件。控制组件重启后会重新与设备建立连接,但会导致业务中断,请谨慎操作。若当前场景下不允许重启控制组件,可选择手动添加链路方式或联系H3C技术支持工程师。

·     手动添加链路,单击[自动化/物理网络/链路/链路管理]菜单项,单击<添加>按钮,在弹出的“增加链路”对话框中,手动添加链路信息,接口上同时配置了IPv4IPv6的情况下,源和目的接口需要同时配置IPv4或同时配置IPv6地址,不可以混用,单击<确定>按钮,完成链路添加。


4 设备管理故障处理

4.1  设备列表及自动发现设备列表中均没有设备

4.1.1  故障描述

设备配置自动上报之后,设备列表及自动发现列表中均无法查询到设备。

4.1.2  故障处理步骤

故障处理步骤如下:

(1)     请参考“3 拓扑收集不完整故障处理排查及处理设备上报不完整。

(2)     SEERENGINE-WAN控制组件中重新配置设备上报。单击[自动化/承载网络/参数配置]菜单项,单击[BGP参数配置]页签,配置BGP-LS基础配置和BGP-LS邻居配置等参数,设备发现、拓扑自动发现关闭后重新开启、分别单击<确定>按钮。

 

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

4.2  自动发现设备列表中设备自动上报后被删除

4.2.1  故障描述

设备配置自动上报之后,在自动发现设备列表中可以查询到设备,但设备很快被删除。

4.2.2  故障处理步骤

造成故障的原因可能为设备序列号或MAC地址冲突。

故障处理步骤为:

(1)     通过TelnetSSH方式连接被删除的设备,通过命令display license device-id查看设备SN(序列号)

(2)     若设备序列号与设备列表中已有设备的序列号相同,请联系H3C技术支持工程师。

(3)     若序列号为空,请查看该设备所有接口的MAC地址是否与其他设备冲突,若不同设备出现MAC地址相同的情况,请联系H3C技术支持工程师。

4.3  设备无法上线

4.3.1  故障描述

设备新增后无法上线。

4.3.2  故障处理步骤

造成故障的原因可能为:

·     管理通道不可用。

·     没有可用的Licence节点

·     没有匹配网络场景的Licence

·     SN序列号与管理IP不匹配。

·     设备无版本号或设备厂商未知。

·     设备冲突。

·     MTU设置过大。

·     配置恢复中。

设备无法上线时,单击[自动化/承载网络/物理网络/设备/设备管理]菜单项,单击无法上线的设备名称,查看设备的下线原因,根据下线原因处理故障。

 

(1)     当故障原因为管理通道不可用时,表示控制组件无法通过NETCONF连接设备。需要检查NETCONF配置是否正确,并检查控制组件与设备间的网络是否畅通。

·     请检查控制组件与设备网络是否畅通,双向延时小于900ms

·     请检查设备NETCONF配置是否正确。若配置正确,进行后续排查;若不正确,进入该设备控制台,输入以下命令:

<H3C> system-view

[H3C] netconf soap http enable

[H3C] netconf soap https enable

[H3C] netconf ssh server enable

[H3C] line vty 0 4

[H3C-line-vty0-4] authentication-mode scheme

[H3C-line-vty0-4] user-role network-operator

(2)     请检查控制组件的NETCONF模板配置是否正确。单击[自动化/承载网络/模板配置/NETCONF模板]菜单项,查看设备NETCONF模板配置是否正确。如配置有误,在“操作”区段单击按钮,在弹出的“修改NETCONF模板”对话框中,修改NETCONF模板配置,使得设备端与控制组件端的NETCONF配置保持一致。当故障原因为没有可用的License节点时,表示当前已有节点数已达License规定的使用上限,可通过以下两种方式排除故障。

 

·     购买License增加节点上限。

·     删除已经申请License但不需要被管理的设备。单击[自动化/承载网络/物理网络/设备/设备管理]菜单项,在“操作”区段单击按钮,将设备设置为维护状态,然后单击按钮,删除该设备。

 

(3)     当故障原因为SN序列号与管理IP不匹配时,表示手动输入的序列号与管理IP地址对应的设备实际序列号不匹配或设备发生过更换,需要将设备序列号改为空或准确的序列号。单击[自动化/承载网络/物理网络/设备/设备管理]菜单项,在“操作”区段单击按钮,进入“修改设备”界面,修改设备序列号,单击<确定>按钮。

 

(4)     当故障原因为设备无版本号或厂商未知,表示控制组件无法通过SNMP与设备进行连接。单击[自动化/承载网络/模板配置]菜单项,单击[SNMP模板]页签,查看设备SNMP模板与设备侧配置是否一致。如配置有误,在“操作”区段单击按钮,在弹出的“修改SNMP模板”对话框中,修改SNMP模板配置。

 

(5)     当故障原因为设备冲突时,表示该设备与另一台设备的关键属性相同或有部分重复,请按以下步骤排查:

¡     参考“4.2  自动发现设备列表中设备自动上报后被删除”,检查SN是否冲突。

¡     单击[自动化/承载网络/物理网络/设备/设备管理]菜单项,单击[设备接口管理]页签,检查不同设备上的“接口MAC”属性是否冲突。

¡     单击[自动化/承载网络/物理网络/设备/设备管理]菜单项,单击[设备接口管理]页签,检查不同设备上的“IP/掩码”属性是否冲突。

 

(6)     当故障原因为MTU值过大时,操作步骤如下:

a.     请打开NETCONF日志的debug模式。具体操作为:使用命令vi /opt/WAN_APP1000/etc/log4j2.xml,将INFO修改为DEBUG

<Logger name="com.h3c.swan.config.util.NetConfConnectMgr" level="DEBUG" additivity="false">

            <AppenderRef ref="netconf"/>

        </Logger>

        <Logger name="com.h3c.swan.config.DistributeConfig" level="DEBUG" additivity="false">

            <AppenderRef ref="netconf"/>

        </Logger>

        <Logger name="com.h3c.swan.config.AsynchronousDistributeConfig" level="DEBUG" additivity="false">

            <AppenderRef ref="netconf"/>

        </Logger>

b.     使用如下命令查看netconfDEBUG日志如果查看的userTime超过5000ms,说明netconf报文发送超时,请继续进行下一步。

tailf /opt/WAN_APP1000/data/log/netconf/netconf.log | grep “keep alive timeout, [useTime]”

c.     使用如下命令查看控制组件的TCP连接,查看Recv-Q(接收缓冲区)和Send-Q(发送缓冲区)是否存在缓冲区满的问题。若超过MTU的值(默认是1500),则需要修改控制组件的MTU的值为1300

netstat –nat | grep 830

(7)     下面以CentOS Linux release 7.5.1804为例说明MTU的修改方法:

a.     使用ifconfig命令修改MTU。但是系统重启后配置将失效,建议通过修改配置文件的方式修改MTU

ifconfig eth0 mtu 1300 up

b.     通过修改配置文件修改MTU。通过如下命令打开网卡配置文件。

vi /etc/sysconfig/network-scripts/ifcfg-eth0

在配置文件中增加如下内容,保存配置并退出。

MTU=1300

:wq(保存配置并退出的命令)

重启网卡使配置生效。

service network restart

(8)     当故障原因为配置恢复中时,说明设备正在恢复配置。查看告警信息,存在板卡异常的告警,查看菜单[自动化/承载网络/物理网络/设备/设备管理]下的[设备板卡管理]页签,查看板卡运行状态为异常状态,则说明是因为板卡异常导致配置恢复失败使设备无法上线,此时请排除板卡运行故障。

 

(9)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

4.4  获取设备信息异常

4.4.1  故障描述

获取设备信息异常,设备数据获取不完整或不是最新数据。

4.4.2  故障处理步骤

(1)     查看控制组件到设备的网络是否畅通,双向延时小于900ms,丢包率小于10%

(2)     查看设备是否开启了SNMPNETCONF,并查看用户是否拥有相关权限。若配置正确,直接进行下一步;若不正确,进入该设备控制台,输入以下命令:

<H3C> system-view

[H3C] line vty 0 4

[H3C-line-vty0-4] authentication-mode scheme

[H3C-line-vty0-4] user-role network-operator

(3)     查看控制组件中设备绑定的SNMP模板及NETCONF模板是否与设备侧配置的一致。单击[自动化/承载网络/模板配置]菜单项,查看NETCONF模板或SNMP模板配置。如配置有误,在“操作”区段单击按钮,进入“修改设备”页面,修改[设备配置]中对应的模板配置。

 

 

(4)     如以上配置均正确,单击[自动化/承载网络/物理网络/设备/设备管理]菜单项,单击[设备管理]页签,在“操作”区段单击按钮,进行信息同步后,查看设备数据是否刷新。

 

(5)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

4.5  设备/链路状态异常

4.5.1  故障描述

设备颜色分为四种:绿色(代表正常运行),灰色(代表无法使用),橙色(代表警告告警),红色(代表严重告警);链路颜色分为四种:绿色(代表正常运行),灰色(代表无法使用),橙色(代表警告告警),红色(代表严重告警)。

当设备状态为红色、橙色代表设备存在异常告警,需排查处理;当设备或链路为灰色代表下线状态,需根据场景排查解决。

4.5.2  故障处理步骤

(1)     当设备颜色为灰色,请参见4.3  设备无法上线处理。

(2)     当设备颜色为橙色,请查看告警管理,解决设备相关的警告告警。

(3)     当设备颜色为红色,请查看告警管理,解决设备相关的严重告警。

(4)     当链路的颜色为灰色,链路是Down状态,请排查该链路两端的接口状态是否为Down状态。

(5)     当链路颜色为橙色,请查看告警管理,解决链路相关的警告告警。

(6)     当链路颜色为红色,请查看告警管理,解决链路相关的严重告警。

4.6  替换故障设备

4.6.1  故障描述

设备损坏后无法正常工作,需要替换新的设备。

4.6.2  故障处理步骤

(1)     登录控制组件页面,点击[自动化/承载网络/物理网络/设备/设备管理]菜单项,单击[设备管理]页签,在“操作”区段单击按钮,将设备设置为维护态。

(2)     断开设备与控制组件的连接,避免替换过程中控制组件向设备下发新的配置。登录设备,执行save命令保存当前配置到配置文件,并导出。

(3)     登录新设备,导入从旧设备上导出的配置文件,执行configuration replace命令回滚设备配置为导入的配置文件。在回滚配置前,需要确保新设备与旧设备为同一型号,板卡、子卡的插槽位置与旧设备一致,否则新设备上线后会导致接口及其关联链路被删除。

(4)     将原来接入旧设备的网络接入新设备,使新设备与控制组件路由互通。

(5)      在新设备上执行display device manuinfo命令查看设备主控板的序列号。登陆控制组件页面,点击[自动化/承载网络/物理网络/设备/设备管理]菜单项,单击[设备管理]页签,在“操作”区段单击按钮,进入“修改设备”页面,修改[设备基本信息]中的序列号为新设备主控板的序列号。

(6)     等待设备上线后,点击[自动化/承载网络/物理网络/设备/设备板卡管理]查看设备的板卡和子卡物理状态,如果有板卡或者子卡替换的状态,手动确认替换。

(7)     检查设备状态正常后,点击[自动化/承载网络/物理网络/设备/设备管理]菜单项,单击[设备管理]页签,在“操作”区段单击按钮,取消设备的维护态。

(8)     若替换设备后设备无法上线,请联系H3C技术支持工程师。

 


5 拓扑管理故障处理

5.1  手动添加链路为灰色

5.1.1  故障描述

手动添加的链路显示为灰色。

5.1.2  故障处理步骤

造成故障的原因可能为接口Down或控制组件与设备数据不同步。

故障处理步骤如下:

(1)     单击[自动化/承载网络/物理网络/设备]菜单项,单击[设备接口管理]页签,检查链路两端的接口状态。

 

·     若接口状态为Down,进入该设备控制台,输入以下命令:

<H3C> system-view

[H3C] interface GigabitEthernet 1/1/0

[H3C-GigabitEthernet1/1/0] undo shutdown

·     若接口状态均为Up,单击[自动化/承载网络/物理网络/设备]菜单项,单击[设备管理]页签,在“操作”区段单击按钮,进入“修改设备”界面,单击<确定>按钮。查看设备数据是否刷新。

(2)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

5.2  自动上报链路为灰色

5.2.1  故障描述

自动上报的链路显示为灰色。

5.2.2  故障处理步骤

故障处理步骤如下:

(1)     单击[自动化/承载网络/参数配置]菜单项,单击[BGP参数配置]页签,查看“BGP-LS拓扑自动发现”是否勾选为“开启”,若未勾选为开启,则勾选为“开启”并单击<确定>按钮;若已勾选为“开启”,则勾选“关闭”选项并单击<确定>按钮,然后重新勾选“开启”并单击<确定>按钮。

 

(2)     请参考“5.1  手动添加链路为灰色所示步骤进行故障排查。根据拓扑上报所用的协议,分别使用以下两种方式排除故障。

·     若该链路为ISIS上报,进入链路两端设备的控制台,输入以下命令:

<H3C> system-view

[H3C] interface GigabitEthernet 1/1/0

[H3C-GigabitEthernet1/1/0] isis circuit-type p2p

·     若该链路为OSPF上报,进入链路两端设备的控制台,输入以下命令:

<H3C> system-view

[H3C] interface GigabitEthernet 1/1/0

[H3C-GigabitEthernet1/1/0] ospf network-type p2p

(3)     重建BGP-LS邻居。单击[自动化/承载网络/参数配置]菜单项,单击[BGP参数配置]页签,查看“建立BGP-LS邻居”是否勾选为“是”,若未勾选为,则勾选为“是”并单击<确定>按钮;若已勾选为“是”,则勾选“否”选项并单击<确定>按钮,等待五分钟后,然后重新勾选“是”并单击<确定>按钮。

 

(4)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

5.3  获取链路信息异常

5.3.1  故障描述

获取自动上报/手动添加的链路信息时发生异常。

5.3.2  故障处理步骤

可通过如下两种方案处理该故障:

·     处理方案一:单击[自动化/物理网络/链路/链路管理]菜单项,选择对应的链路,在“操作”区段单击,选择[修改]选项进入“修改链路”界面,将异常参数修改为期望数值。

 

·     处理方案二:单击[自动化/物理网络/链路/链路管理]菜单项,选择对应的链路,在“操作”区段单击按钮,删除链路,删除成功后,再点击左上角的<增加>按钮,重新添加该链路。

 

如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。


6 链路标签故障处理

6.1  链路标签功能异常

6.1.1  故障描述

SEERENGINE-WAN控制组件启动后,无法正常使用链路标签功能。目前承载网支持学习和分配标签。

6.1.2  故障处理步骤

造成故障的原因可能有如下几种:

·     设备未上线

·     链路未上线

·     未设置设备的角色为PPEASBR

·     未设置链路标签范围

故障处理步骤为:

(1)     单击[自动化/承载网络/物理网络/设备/设备管理]菜单项,查看是否有设备上线。如果否,请参考“4 设备管理故障处理设置设备上线;如果是,请继续进行下一步。

(2)     单击[自动化/物理网络/链路/链路管理]菜单项,查看是否有链路上线。如果否,请参考“5 拓扑管理故障处理设置链路上线;如果是,请继续进行下一步。

(3)     单击[自动化/承载网络/物理网络/设备/设备管理]菜单项,查看目标设备角色属性是否为PPEASBR-PE。如果否,请在“操作”区段单击按钮,选择[修改]选项,进入“修改设备”界面,设置“角色”为PPEASBR-PE;如果是,请继续进行下一步。

 

(4)     单击[自动化/承载网络/参数配置/资源池]菜单项,单击[标签配置]页签,选择标签类型为链路标签,查看在控制组件上是否设置了链路标签自动分配。如果否,请设置标签范围;如果是,请继续进行下一步。

 

(5)     如果上述操作完成后,故障仍无法排除,请联系H3C技术支持工程师。

6.2  链路标签分配失败

6.2.1  故障描述

启动链路标签分配后,标签分配记录中存在链路标签分配失败的信息。

6.2.2  故障处理步骤

造成故障的原因可能为:

·     控制组件与目标设备建立NETCONF连接失败。

·     控制组件向目标设备下发标签配置失败。

故障处理步骤为:

(1)     单击[自动化/承载网络/参数配置/资源池]菜单项,单击[标签管理]页签,将鼠标悬停至标签状态列,查看提示信息。

·     如果提示信息为“BUILDCONNFAIL”,请先检查设备NETCONF配置是否正确,并单击[自动化/承载网络/模板配置]菜单项,单击[NETCONF管理]页签,查看设备NETCONF模板配置是否正确。如配置有误,在“操作”区段单击按钮,在弹出的“修改NETCONF模板”对话框中,修改NETCONF模板配置,使得设备端与控制组件端的NETCONF配置保持一致。

 

·     如果提示信息为“no label left”,说明链路标签资源已耗尽。请在[自动化/承载网络/参数配置/资源池]页面,单击[标签配置]页签,修改标签范围以增加链路标签资源。

 

(2)     如果上述操作完成后,故障仍无法排除,请联系H3C技术支持工程师。

6.3  链路END.X SID失败

6.3.1  故障描述

链路END.X SID支持分配和读取,不正确的配置和操作可能导致读取或分配END.X SID失败。

6.3.2  故障处理步骤

造成故障的原因可能为:

·     控制组件与目标设备建立NETCONF连接失败。

·     控制组件从设备读取END.X SID失败。

·     控制组件向目标设备下发END.X SID配置失败。

故障处理步骤为:

(1)     单击[自动化/承载网络/参数配置/资源池]菜单项,单击[标签配置]页签,如果END.X SID后面的自动分配复选框勾选了,控制组件会向设备下发END.X SID配置,否则,控制组件从设备读取END.X SID配置。

 

(2)     单击[自动化/承载网络/参数配置/资源池]菜单项,单击[SIDs]页签,如果LOCATOR地址池没有数据,查看是否有设备上线。如果否,请参考“4 设备管理故障处理设置设备上线;如果是,请继续进行下一步。

 

(3)     登陆设备查看设备是否配置LOCATOR数据;如果否,请配置LOCATOR,配置完毕后,单击[自动化/承载网络/参数配置/资源池]菜单项,单击[SIDs]页签,点击“LOCATOR地址池<刷新>按钮,查看是否可以读取到LOCATOR数据。

(4)     如果控制组件从设备读取SID配置,单击[自动化/承载网络/参数配置/资源池]菜单项,单击[SIDs]页签,单击[END.X SID]进入END.X SID展示页面,如果没有数据,请检查设备上配置是否正确,如果不正确请修改配置;如果正确,请检查设备上配置的END.X SID数据是否和控制组件中其他链路END.X SID冲突,如果冲突请修改。

(5)     如果上述操作完成后,故障仍无法排除,请联系H3C技术支持工程师。


7 节点标签故障处理

7.1  节点标签功能异常

7.1.1  故障描述

SEERENGINE-WAN控制组件启动后,无法正常使用节点标签功能。

7.1.2  故障处理步骤

造成故障的原因可能有如下几种:

·     设备未上线

·     未设置节点标签范围

·     未设置节点标签分配方式。

故障处理步骤为:

(1)     单击[自动化/承载网络/物理网络/设备/设备管理]菜单项,查看是否有设备上线。如果否,请参考“4 设备管理故障处理设置设备上线;如果是,请继续进行下一步。

(2)     单击[自动化/承载网络/参数配置/资源池]菜单项,单击[标签配置]查看是否设置标签参数。如果否,请设置标签参数;如果是,请继续进行下一步。

 

(3)     如果上述操作完成后,故障仍无法排除,请联系H3C技术支持工程师。

7.2  节点标签分配失败

7.2.1  故障描述

启动节点标签分配后,标签分配记录中存在节点标签分配失败的信息。

7.2.2  故障处理步骤

造成故障的原因可能为:

·     控制组件与目标设备建立NETCONF连接失败。

·     设备侧不存在待下发节点标签对应的LoopBack接口。

·     设备侧节点标签使用的LoopBack接口未配置IP地址。

·     设备侧不存在节点标签分配所必须的路由协议(ISISOSPF)配置。

·     设备侧不存在节点标签分配所必须的路由协议进程号或协议号不匹配。

·     设备不支持控制组件下发的节点标签范围。

·     下发节点标签配置超时。

·     设备不支持配置节点标签。

故障处理步骤为:

(1)     单击[自动化/承载网络/参数配置/资源池]菜单项,单击[标签管理]页签,选择标签类型为节点标签,将鼠标移至标签状态列,查看页面弹出的提示信息,根据提示信息进行相应处理。

 

·     如果提示信息为“The device does not support configuring the node labels”,表示设备当前版本不支持节点标签。请将设备升级至最新版本,设备版本更换完成后,若节点标签仍未分配成功,请继续进行下一步。

·     如果提示信息为“Failed to establish a NETCONF session with the device.”,单击[自动化/承载网络/模板配置]菜单项,单击[NETCONF管理]页签,查看设备NETCONF模板配置是否正确。如配置有误,在“操作”区段单击按钮,在弹出的“修改NETCONF模板”对话框中,修改NETCONF模板配置,使得设备端与控制组件端的NETCONF配置保持一致。

·     如果提示信息为“Failed to establish a NETCONF session with the device.”,请检查设备侧的NETCONF配置是否正确,如果正确,请检查控制组件与设备间的网络连接是否良好。若节点标签仍未分配成功,请继续进行下一步。

·     如果提示信息为“Interface interface-name(节点标签使用的LoopBack口编号) does not exist”,请查看设备侧是否存在对应的LoopBack接口,如果不存在,请在设备创建对应编号的Loopback接口,若节点标签仍未分配成功,请继续进行下一步。

·     如果提示信息为“Interface interface-name(节点标签使用的LoopBack口编号) does not have an IP address”,请查看设备侧的LoopBack接口是否设置IP地址,如果未设置IP地址,请在对应接口下设置IP地址,若节点标签仍未分配成功,请继续进行下一步。

·     如果提示信息为“Failed to obtain the OSPF SRGB of the device.”,查看设备侧是否存在segment-routing global-block {16000, 24000}配置,如果不存在,请在设备侧创建对应的SRGB,若节点标签仍未分配成功,请继续进行下一步。

·     如果提示信息为“The OSPF process ID does not exist on the device.”,查看设备侧是否存在与控制组件[自动化/承载网络/策略管理/调度可视管理]页面,单击[SR-MPLS基础配置]页签,配置OSPF进程号,如果不存在,请在设备侧创建对应的OSPF进程号,若节点标签仍未分配成功,请继续进行下一步。

 

·     如果提示信息为“The IS-IS process ID does not exist on the device.”,查看设备侧是否存在与控制组件[自动化/承载网络/策略管理/调度可视管理]页面,单击[SR-MPLS基础配置]页签,配置ISIS进程号,如果不存在,请在设备侧创建对应的ISIS进程号,若节点标签仍未分配成功,请继续进行下一步。

(2)     如果上述操作完成后,故障仍无法排除,请联系H3C技术支持工程师。

7.3  节点END SID失败

7.3.1  故障描述

节点END SID支持分配和读取,不正确的配置和操作可能导致读取或分配END SID失败。

7.3.2  故障处理步骤

造成故障的原因可能为:

·     控制组件与目标设备建立NETCONF连接失败。

·     控制组件从设备读取END SID失败。

·     控制组件向目标设备下发END SID配置失败。

故障处理步骤为:

(1)     单击[自动化/承载网络/参数配置/资源池]菜单项,单击[标签配置]页签,如果END SID后面的自动分配复选框勾选了,控制组件会向设备下发END SID配置,否则,控制组件从设备读取END SID配置。

 

(2)     单击[自动化/承载网络/参数配置/资源池]菜单项,单击[SIDs]页签,如果LOCATOR地址池没有数据,查看是否有设备上线。如果否,请参考“4 设备管理故障处理设置设备上线;如果是,请继续进行下一步。

 

(3)     登陆设备查看设备是否配置LOCATOR数据;如果否,请配置LOCATOR,配置完毕后,单击[自动化/承载网络/参数配置/资源池]菜单项,单击[SIDs]页签,点击“LOCATOR地址池<刷新>按钮,查看是否可以读取到LOCATOR数据。

(4)     如果控制组件从设备读取SID配置,单击[自动化/承载网络/参数配置/资源池]菜单项,单击[SID]页签,单击[END SID]进入END SID展示页面,如果没有数据,请检查设备上配置是否正确,如果不正确请修改配置,如果正确,请检查设备上配置的END SID数据和控制组件中其他节点END SID是否冲突,如果冲突请修改。

(5)     如果上述操作完成后,故障仍无法排除,请联系H3C技术支持工程师。


8 应用组实例选路故障处理

通过Web页面添加应用组后,SEERENGINE-WAN控制组件会为应用组下的应用组实例计算路径。

8.1  应用组实例无路径

8.1.1  故障描述

登录SEERENGINE-WAN控制组件页面,单击[自动化/承载网络/策略管理/应用调度]菜单项,在该页面查看应用组实例的路径信息。如果应用实例对应的隧道名、路径详情等信息为空,则表示该应用组实例没有对应路径。

8.1.2  故障处理步骤

造成该问题的可能原因如下:

·     设备间网络异常。

·     应用组配置错误

·     基础参数配置不完整。

故障处理步骤如下:

(1)     请确认源及目的设备之间连通性是否正常。如不正常,需要排查网络故障。

(2)     查看并确认应用组基本信息配置是否完整。单击[自动化/承载网络/策略管理/应用组]菜单项,在该页面查看应用组配置信息。如果应用组中的“应用列表”、“应用策略”为空,则需单击“操作”区段的<修改>按钮,修改并添加相关信息。

(3)     承载网络中标签未正常分配,则需要首先为网络分配标签。详情请参考“6 链路标签故障处理

(4)     单击[自动化/承载网络/参数配置/资源池/标签配置]菜单项,查看是否设置标签分配方式。如果否,请设置标签分配方式;如果是,请继续进行下一步。

 

(5)     单击[自动化/承载网络/策略管理/调度可视管理]菜单项,查看是否设置SR隧道地址。如果否,请设置SR隧道地址;如果是,请继续进行下一步。

 

 

(6)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

8.2  应用组实例路径不符合预期

8.2.1  故障描述

应用组实例的预期路径与SEERENGINE-WAN控制组件为应用组实例规划的实际路径不一致。

8.2.2  故障处理步骤

造成故障的原因可能为:

·     预期路径不满足SLA策略。

·     预期路径带宽不满足要求。

故障处理步骤如下:

(1)     查看预期路径的延时、抖动、丢包率、跳数和链路着色情况是否满足应用组绑定的SLA策略中的延时、抖动、丢包率、最大跳数和选路策略(亲和度)等约束。如不满足,则实际路径与预期路径不符合为正常现象,可调整相应策略取值使其符合预期值,并在[自动化/承载网络/策略管理/应用调度]页面,在相应应用组的“操作”区段单击按钮,选择[单流优化]选项使应用组重新选路;如满足,请继续进行下一步。

 

(2)     请查看预期路径的可分配带宽值是否满足应用组绑定的策略中的最小带宽值。如不满足,则表示系统选路正常,请手动调整策略的最小带宽值使其符合预期值,并在[自动化/承载网络/策略管理/应用调度]页面,在相应应用组的“操作”区段单击按钮,选择[单流优化]选项使应用组重新选路;如满足要求,但是实际未选择该路径,则选路原则与控制组件选路策略有关,请联系H3C技术支持工程师。

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

8.3  应用组实例不满足SLA策略时没有调整路径

8.3.1  故障描述

在应用组实例不满足SLA策略约束的情况下,SEERENGINE-WAN控制组件没有对该应用组实例对应的路径进行调整,流量仍然按照原路径转发。

8.3.2  故障处理步骤

造成故障的原因可能为整网链路状况不稳定,导致没有其他合适的路径进行优化调整。

故障处理步骤如下:

(1)     查看应用组绑定策略中的延时、抖动、丢包率等约束是否太严格。当约束过于严格时,可能导致系统无法选择出其他符合策略的路径进行优化调整,此时需要放宽SLA策略的部分阈值限制,使系统能够优选其他路径。

(2)     查看其他链路的带宽使用情况。当其他链路流量拥塞时,系统进行路径优选时也不会选择这些链路,可能导致路径调整失败,此时请增加链路带宽。

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

8.4  添加应用组后,应用无法调度/可视

8.4.1  故障描述

承载网添加应用组后,无法采集应用流量,应用调度也不生效。

8.4.2  故障处理步骤

造成故障的原因可能为:

·     应用着色(CBTS)失败:部署时未配置设备的流量入接口(加入LAN网络),导致控制组件未在设备的流量入接口下发CBTS对应的MQC

·     MPLS L3VPN流量引流失败:存在多个IGP区域的情况下,没有手动配置隧道策略,流量无法引入隧道转发。

·     对于可视应用,默认隧道配置错误。

·     对于调度应用,调度隧道配置错误。

·     对于跨AREA域访问的应用,跨域配置错误。

故障处理步骤如下:

(1)     控制组件上检查设备LAN口是否已经配置。

(2)     对于MPLS L3VPN流量,确认设备全局视图下是否配置了对应的隧道策略:

#

tunnel-policy test default

select-seq strict cr-lsp lsp load-balance-number 32

#

(3)     创建应用组后,控制组件会自动下发默认隧道,可视应用会通过此隧道转发,需要在设备上确认隧道配置是否正确,绑定标签是否正确:

[system]dis cur interface  Tunnel

#

interface Tunnel1 mode mpls-te

ip address unnumbered interface LoopBack0

ospf 1 area 0.0.0.0

mpls enable

mpls ldp enable

mpls te signaling static

mpls te static-sr-mpls ADWAN-LSP-0

mpls te igp shortcut

mpls te igp metric absolute 1

mpls te statistics service-class

mpls bfd echo

destination 1.2.1.1

bfd min-echo-receive-interval 1000

bfd detect-multiplier 3

#

基于隧道的目的地址(destination)确认需要排查的隧道;

当两点之间有调度应用组时,会下发多条SR-TE隧道,默认隧道中不指定service-class,隧道配置中无(mpls te service-class);

查询路径对应的标签栈信息:

[system]dis cur | include "static-sr-mpls lsp"

static-sr-mpls lsp ADWAN-LSP-0 out-label 16003 0

static-sr-mpls lsp ADWAN-LSP-1 out-label 33 0

static-sr-mpls lsp ADWAN-LSP-2 out-label 33 0

其中adwan-Lsp-0为节点标签(16000开始的标签)路径;

(4)     创建调度应用组后,控制组件会自动下发对应的调度隧道,调度应用会通过此隧道转发

[system]dis cur interface  Tunnel

#

interface Tunnel2 mode mpls-te

ip address unnumbered interface LoopBack0

ospf 1 area 0.0.0.0

mpls enable

mpls ldp enable

mpls te signaling static

mpls te static-sr-mpls ADWAN-LSP-1

mpls te service-class 1

mpls te igp shortcut

 mpls te igp metric absolute 1

mpls te statistics

mpls bfd echo

destination 1.2.1.1

bfd min-echo-receive-interval 1000

bfd detect-multiplier 3

基于隧道的目的地址(destination)确认需要排查的隧道;

根据步骤2.1.1,确认应用remarkservice class,根据隧道绑定的service class确认对应的调度隧道(mpls te service-class);

查询路径对应的标签栈信息:

[system]dis cur | include "static-sr-mpls lsp"

static-sr-mpls lsp ADWAN-LSP-0 out-label 16003 0

tatic-sr-mpls lsp ADWAN-LSP-1 out-label 33 0

static-sr-mpls lsp ADWAN-LSP-2 out-label 33 0

其中ADWAN-LSP-1是链路邻接标签转发路径,下一跳链路标签为33

(5)     普通IP流量业务的跨Area转发,请确认设备侧路由配置有无遗留,同时控制组件隧道里下发的静态路由的引流方式:

·     设备侧确认:跨AreaLAN口普通IP业务的路由必须要通过BGP使用network方式引入;要调整从IBGP学习路由的优先级使其高于IGP协议;这样才能保证去目的地址的路由下一条是对端PELoopback0口,且可以叠加到SR隧道上。

·     控制组件侧确认:确认隧道是否下发了静态路由引流命令tunnel route-static preference 1


9 业务流量转发故障处理

9.1  业务流量未按照指定路径转发

9.1.1  故障描述

应用组按照规划部署后,流量未按照指定路径转发,导致部署的路径没有生效。

9.1.2  故障处理步骤

造成故障的原因可能为:部分配置下发异常。

故障处理步骤如下:

(1)     请确认网络设备上是否有当前配置与控制组件下发的配置冲突。如有,需删除这些配置;如没有,请继续进行下一步。

(2)     通过控制组件删除配置时,未同步删除设备侧配置,再次下发配置时导致控制组件配置下发失败。此时请联系H3C技术支持工程师。

9.2  一些基于TCP的业务无法访问

9.2.1  故障描述

造成故障的原因可能为:

报文通过MPLS转发需要增加MPLS头(4个字节),SR调度方案中有可能增加多层MPLS头,因此报文长度会增加;如果接口MTU未修改,会对报文进行分片,很多TCP业务报文的FG被置为1(不可分片),导致报文无法分片而被丢弃。

9.2.2  故障处理步骤

故障处理步骤如下:

(1)      方案一:确认设备之间互联的WAN链路是否可以透传大报文(报文长度和调度的跳数相关),如果不能够透传,可以修改设备WAN接口的MTU

(2)      方案二:在设备上添加命令,修改转发报文的TCP MSS(参考实际组网需求,建议配置1300),减小协商的TCP报文大小,使得流量能够不分片直接通过MPLS转发。

MSR/SR66在流量入接口配置:

interface GigabitEthernet1/0

tcp mss 1300

SR88全局配置:

tcp modify-mss 1200


10 运维管理故障处理

10.1  链路带宽统计异常

10.1.1  故障描述

单击拓扑管理页面中的链路时,链路实时带宽为“--”。

10.1.2  故障处理步骤

造成故障的原因可能为:

·     链路的源设备缺少SNMP配置或配置错误。

·     链路的源设备缺少NETCONF配置或配置错误。

·     SEERENGINE-WAN控制组件和设备之间路由不可达。

故障处理步骤如下:

(1)     检查链路源设备的SNMP配置。若配置正确,进行下一步;若配置错误,进入该设备控制台,输入以下命令:

<H3C> system-view

[H3C] snmp-agent

(2)     检查链路源设备的NETCONF配置。若配置正确,进行下一步;若配置错误,进入该设备控制台进行如下配置:

<H3C> system-view

[H3C] netconf soap http enable

[H3C] netconf soap https enable

[H3C] netconf ssh server enable

[H3C] line vty 0 4

[H3C-line-vty0-4] authentication-mode scheme

[H3C-line-vty0-4] user-role network-operator

(3)     通过ping命令检查控制组件与链路源设备间通信是否正常。若通信正常,直接进行下一步;若通信异常,则需解决网络问题。

(4)     单击[自动化/物理网络/链路/链路管理]菜单项,选择故障的链路,在“操作”区段单击按钮,选择[删除]选项,删除成功后,再点击左上角的<增加>按钮,重新添加该链路。

(5)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

10.2  链路质量统计异常

10.2.1  故障描述

单击拓扑管理页面中的链路时,链路质量(延时、抖动、丢包率)为“--”。

10.2.2  故障处理步骤

造成故障的原因可能有如下几种:

·     链路的源设备缺少SNMP配置或者配置错误。

·     链路的源设备缺少NETCONF配置或配置错误。

·     SEERENGINE-WAN控制组件和设备之间路由不可达。

故障处理步骤如下:

(1)     检查链路源设备的SNMP配置。若配置正确,进行下一步;若配置错误,进入该设备控制台,输入以下命令:

<H3C> system-view

[H3C] snmp-agent

(2)     检查链路源设备的NETCONF配置。若配置正确,进行下一步;若配置错误,进入该设备控制台,输入以下命令:

<H3C> system-view

[H3C] netconf soap http enable

[H3C] netconf soap https enable

[H3C] netconf ssh server enable

[H3C] line vty 0 4

[H3C-line-vty0-4] authentication-mode scheme

[H3C-line-vty0-4] user-role network-operator

(3)     通过ping命令检查控制组件与链路源设备间通信是否正常。若通信正常,直接进行下一步;若通信异常,则需解决网络问题。

(4)     单击[自动化/物理网络/链路/链路管理]菜单项,选择故障的链路,在“操作”区段单击按钮,选择[删除]选项,删除成功后,再点击左上角的<增加>按钮,重新添加该链路。

(5)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

10.3  质量探测数据有误

10.3.1  故障描述

单击拓扑管理页面中的链路时,链路质量(延时、抖动、丢包率)与实际情况不符。

10.3.2  故障处理步骤

造成故障的原因可能有如下几种:

·     当前控制组件配置为导入优先。

·     NQA探测精度设置有误。

·     设备本身统计有误。

故障处理步骤如下:

(1)     检查控制组件显示的链路质量数据来源。进入RestConf后台operations/oam:get-global-config中查看“dataSource”的值,0代表采集优先,1代表导入优先,2代表带宽导入、质量采集,3代表质量导入、带宽采集。若当前配置不是采集优先,请设置为采集优先。

(2)     链路被发现后,控制组件会下发NQA配置用于探测每条链路不同优先级的链路质量(延时、抖动、丢包率);不同运维精度下发的NQA参数不同,探测精度不同。单击[自动化/承载网络/参数配置/运维配置]菜单项,点击[运维参数配置]页签,检查质量探测参数是否配置有误。

(3)     在设备上查看设备本身的NQA探测是否有误,进入该设备控制台,输入以下命令:

<H3C> system-view

[H3C] dis nqa result

查看探测结果,如果是设备本身探测有误则应联系相关产品工程师解决。

(4)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

10.4  应用组带宽统计异常

10.4.1  故障描述

应用组带宽统计为0或者非常小,与实际流量带宽不符。

10.4.2  故障处理步骤

造成故障的原因可能有如下几种:

·     应用组中没有添加应用。

·     应用组中的应用和实际流量不能匹配。

·     应用组网络范围的源设备实际流量的入接口未配置为LAN口。

·     SEERENGINE-WAN控制组件和设备之间路由不可达。

·     应用组网络范围的源设备缺少NETCONF配置导致NetStream配置下发不成功。

故障处理步骤如下:

(1)     单击[自动化/承载网络/策略管理/应用组]菜单项,查看应用组中是否有应用。若没有应用,需要新增应用并将应用添加到应用组中,单击[自动化/承载网络/策略管理/应用组]菜单项,在“操作”区段单击按钮,进入“修改应用组”界面,在“应用列表”栏单击<增加>按钮可定义应用,单击<选择>按钮可将新增的应用添加到应用组中;若有应用,直接进行下一步。

 

(2)     查看应用组中的应用定义的规则是否能和实际流量相匹配。若不匹配,需要修改应用的匹配规则,单击[自动化/承载网络/策略管理/应用定义/自定义应用]菜单项,在“操作”区段单击按钮,进入修改应用页面,在“应用匹配列表”栏中修改应用匹配规则;若匹配,直接进行下一步。

 

(3)     查看应用组源设备的流量的实际入口是否配置为LAN口。若没有配置,单击[自动化/承载网络/物理网络/设备]菜单项,单击[设备接口管理]页签,在“设备名称”下拉选项框中,选择设备,在接口列表的“操作”区段单击按钮,在弹出的“修改设备接口”对话框中将接入网络名称设置为LAN;若配置正确,直接进行下一步。

 

(4)     通过ping命令检查控制组件与链路源设备间通信是否正常。若通信异常,则需解决网络问题;若通信正常,直接进行下一步。

(5)     检查链路源设备的NETCONF配置。若配置正确,进行下一步,若配置错误,进入该设备控制台,输入以下命令:

<H3C> system-view

[H3C] netconf soap http enable

[H3C] netconf soap https enable

[H3C] netconf ssh server enable

[H3C] line vty 0 4

[H3C-line-vty0-4] authentication-mode scheme

[H3C-line-vty0-4] user-role network-operator

(6)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

10.5  应用组带宽超出实际带宽

10.5.1  故障描述

承载网应用组带宽统计较大,超出实际流量带宽。

10.5.2  故障处理步骤

造成故障的原因可能为应用组中包含多个应用,并且应用的规则相同或有重合。

故障处理步骤如下:

(1)     查看应用组中是否包含多个应用,并且应用的规则相同或有重合。如果是,删除与其他应用规则相同或有重合的应用。

(2)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

10.6  链路上应用统计异常

10.6.1  故障描述

链路上没有应用组流量统计或统计带宽为0

10.6.2  故障处理步骤

造成故障的原因可能为:

·     应用组规划的路径中不包括该链路,即该链路上没有应用流量经过。

·     SEERENGINE-WAN控制组件和设备之间路由不可达。

·     应用组网络范围的源设备缺少NETCONF配置导致采集失败。

故障处理步骤如下:

(1)     查看应用的路径是否经过该链路。若没有经过该链路,则为正常现象;若经过该链路,进行下一步。

(2)     通过ping命令检查控制组件与链路源设备间通信是否正常。若通信异常,则需解决网络问题;若通信正常,直接进行下一步。

(3)     检查链路源设备的NETCONF配置。若配置正确,进行下一步,若配置错误,进入该设备控制台,输入以下命令:

<H3C> system-view

[H3C] netconf soap http enable

[H3C] netconf soap https enable

[H3C] netconf ssh server enable

[H3C] line vty 0 4

[H3C-line-vty0-4] authentication-mode scheme

[H3C-line-vty0-4] user-role network-operator

(4)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

10.7  应用限速不生效

10.7.1  故障描述

应用限速使能后,未限速成功。

10.7.2  故障处理步骤

(1)     确认应用是否匹配正确

查看所定义的限速应用流量和实际应用流量是否匹配正确,限速只对所属应用组定义的应用生效,如有问题请根据实际流量重新定义应用。

(2)     确认限速配置是否正确

在对应设备上检查控制组件下发的限速配置是否成功以及是否正确,如有问题尝试修改限速重新下发(限速数值不可超过设备能力范围,否则命令会下发失败);

应用限速配置如下:

#

traffic classifier trafficClassifier10 operator or

if-match acl name ACL-2a2994e0-2338-4f66-acdb-7d6420465905

#

traffic behavior trafficBehavior0

remark mpls-exp 5

remark service-class 1

car cir 10000 cbs 625000 ebs 0 green pass red discard yellow pass

#

qos policy ADWAN-QPInXGE2/1/5.1

classifier trafficClassifier10 behavior trafficBehavior0

#

acl advanced name ACL-2a2994e0-2338-4f66-acdb-7d6420465905

其中,car cir 10000 cbs 625000 ebs 0 green pass red discard yellow pass即代表限速10000kbpsacl advanced name ACL-2a2994e0-2338-4f66-acdb-7d6420465905即为对应的应用规则,qos policy ADWAN-QPInXGE2/1/5.1为配置在LAN口的策略。

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

10.8  历史信息页面无响应

10.8.1  故障描述

链路历史信息、设备历史信息、应用历史信息页面无响应。

10.8.2  故障处理步骤

造成故障的原因可能为:

·     MongoDB数据库未启动。

·     MongoDB数据库有冲突。

故障处理步骤如下:

(1)     在集群稳定情况下,在任意一台matrix服务器执行以下命令确定主控制组件。

kubectl get all -n adwan-system -o wide

 

(2)     进入主控制组件容器。其中阴影部分需根据环境中实际的主控制组件容器ID修改。

kubectl exec -it -n adwan-system adwan-node1-88c9bcc49-fbmp2 /bin/bash

 

(3)     查看MongoDB进程是否启动。在控制台输入命令ps -aux | grep mongodb,若输出结果如10-1,则MongoDB数据库已经启动。若MongoDB数据库未启动,则进入/opt/mongodb-linux/bin路径,输入命令./mongod --port 27017 --dbpath /opt/matrix/app/data/VCFCWAN/adwan/db启动MongoDB数据库。

图10-1 MongoDB数据库启动成功

 

(4)     MongoDB数据库的默认安装路径为/opt/mongodb-linux/,若系统中其他路径下安装过MongoDB数据库,请将其卸载。

(5)     若故障未解决,关闭SEERENGINE-WAN控制组件,查看MongoDB进程是否关闭。若长时间未关闭,则关闭MongoDB进程,重新启动SEERENGINE-WAN控制组件。

(6)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

10.9  历史信息统计异常

10.9.1  故障描述

历史信息页面显示历史信息时,时间选择粒度支持指定的最近1/3/6/12/24小时、最近一周、最近一个月、最近一个季度或者自定义起始和结束时间段内的历史数据。

10.9.2  故障处理步骤

造成故障的原因可能为SEERENGINE-WAN控制组件系统时间被向后修改,之后又修改为当前时间。

故障处理步骤如下:

(1)     请参考“10.8  历史信息页面无响应”中的步骤进入主控制组件中。

(2)     SEERENGINE-WAN控制组件的控制台输入以下命令:

root@localhost:~$ /opt/mongodb-linux/bin/mongo

> use OAM

> db.RecordLastTime.drop()

> exit

(3)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。


11 MongoDB集群同步故障处理

11.1  首次建立集群失败

11.1.1  故障描述

控制组件集群启动,无法建立MongoDB集群。在[系统/日志管理/运行日志信息]页面中,搜索karaf关键字,将返回的karaf.log选中并导出查看,出现“has data already, cannot initiate set.  All members except initiator must be empty.”信息。

11.1.2  故障处理步骤

首次建立集群失败的原因可能是参与建立集群的控制组件中有超过一台成员的MongoDB数据库非空。

故障处理步骤如下:

(1)     在集群稳定情况下,在任意一台Matrix服务器执行以下命令确定主控制组件。

kubectl get all -n adwan-system -o wide

 

(2)     进入主控制组件容器。其中阴影部分需根据环境中实际的主控制组件容器ID修改。

kubectl exec -it -n adwan-system adwan-node1-88c9bcc49-fbmp2 /bin/bash

 

(3)     按照上述步骤,进入各个控制组件中,查看mongoDB数据库文件/opt/matrix/app/data/VCFCWAN/adwan/db是否存在数据,确保不多于一台控制组件的mongoDB数据库非空。

(4)     如果上述操作完成以后故障仍然无法排除,请联系H3C技术支持工程师。

11.2  集群建立后,在备控制组件上无法显示相关数据

11.2.1  故障描述

在集群建立后,在备控制组件上的运维管理页面或拓扑管理页面无法显示流量调度历史、OAM(例如设备及链路信息)等数据。

11.2.2  故障处理步骤

造成故障的原因可能是备控制组件未完成与主控制组件间的数据同步。

故障处理步骤如下:

(1)     按照“11.1  首次建立集群失败”中步骤进入主控制组件。

(2)     在主控制组件的控制台上执行如下命令查看成员状态。

 

(3)     通过rs.status()命令查看各MongoDB成员(以_id区分)的stateStr参数取值是否为“PRIMARY”或“SECONDARY”。其中PRIMARY状态表示该成员为主成员,SECONADRY状态表示该成员为备成员。如果出现其他状态,则表示成员未完成数据库同步,请稍后再试。

 

 

(4)     如果上述操作完成以后故障仍然无法排除,请联系H3C技术支持工程师。

11.3  建立集群后,主和备控制组件均无法显示相关数据

11.3.1  故障描述

在建立集群之后,主备控制组件状态已经正常,数据库中有数据,但是这些信息在GUI页面上无法显示。

11.3.2  故障处理步骤

造成故障的原因可能为写入数据库的数据存在错误。例如人为向数据库中构造数据,但是构造的数据错误导致显示异常。或者在控制组件向MongoDB中写入数据时系统未区分主备控制组件,导致备控制组件向数据库写入错误的数据,由于正常情况下只有主控制组件会向数据库写入数据,此时可能出现数据错误导致显示异常。

故障处理步骤如下:

(1)     按照“11.1  首次建立集群失败”中步骤进入主控制组件。

(2)     SEERENGINE-WAN启动时,进入数据库(以查看调度日志为例):

 

(3)     执行如下命令查看数据库相关信息:

·     show dbs:显示所有的数据库

·     use ADJUSTLOG_DATA使用调度日志数据库

·     show collections:显示数据库内的数据集合

·     db.COLLECTION_ALL.find()将该数据的某个集合下存的数据示出来

 

(4)     查看数据库中保存数据是否正确。查看并确认某条记录是否在同一时间插入多条,且参数取值全为-1。如果是,则该记录无法被读取。例如:

{"_id":ObjectId("5a6937114da2a048637993b7"),"uuid":"0763f161-e68a-4593-85ec-ee77e1afe5e4", "delay" : NumberLong(-1), "jitter" : NumberLong(-1), "packageLossRate" : -1, "timeStamp" : NumberLong("1516844760000"), "bandwidth" : NumberLong(-1), "bandwidthPercentage" : NumberLong(-1), "flowGroupsBandwidthList" : [ ] }

(5)     SEERENGINE-WAN控制组件未启动,且数据库也未启动时。此时用户可执行如下命令手动启动数据库,再执行上述步骤的命令查看数据库信息。启动数据库时请确认数据库所在目录以及端口号正确。

 

(6)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

11.4  数据库集群大数据量同步耗时较长

11.4.1  故障描述

MongoDB集群初次搭建成功时,由于备数据库为空,主数据库会将自己的数据全部同步到备数据库。若主数据库中数据过多,则数据同步时间较长,备数据库在同步过程中一直处于STARTUP2状态,导致控制组件涉及MongoDB业务功能暂时不可用。

以调度日志数据库为例,在调度日志数量达到1000万条时,调度日志数据库的大小在1.1GB左右,如11-1所示。此时主MongoDB数据库与备MongoDB数据库之间进行数据库同步需耗时10分钟左右。在同步的过程中,备数据库始终处于STARTUP2状态,如11-2所示。当数据同步完成后,备mongoDB的数据库状态变为SECONDARY

请注意,处于STARTUP2状态的数据库不可用,需状态变为SECONDARY后方才可用。

图11-1 数据库容量

 

图11-2 数据同步过程中备数据库状态

 

11.4.2  故障处理步骤

解决该问题可以通过数据手动同步加快数据同步过程。

启动MongoDB集群,通过ps -ef | grep mongo命令查询MongoDB集群进程是否正常启动。

图11-3 查看MongoDB集群进程

 

确认集群进程启动后,请通过如下步骤进行手动数据同步:

(2)     按照“11.1  首次建立集群失败”中步骤进入主控制组件。

(1)     通过如下命令进入MongoDB客户端,并查看数据库状态。若集群内备MongoDB数据库状态均为STARTUP2,说明集群关系已成功建立。

图11-4 进入数据库客户端并查看数据库状态

 

(2)     将集群内所有控制组件通过adwan stop命令关闭。

(3)     将备MongoDB数据库所在的/opt/matrix/app/data/VCFCWAN/adwan/db文件夹删除,或修改文件夹名称。

(4)     将主MongoDB数据库文件目录/opt/matrix/app/data/VCFCWAN/adwan/db分别拷贝到各个备数据库所在的目录(/opt/matrix/app/data/VCFCWAN/adwan/目录)。

(5)     再次启动集群内所有控制组件。

(6)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。


12 控制组件运行异常故障处理

12.1  磁盘空间不足导致控制组件异常退出

12.1.1  故障描述

SEERENGINE-WAN控制组件进程异常退出,且无法重新启动,检查发现磁盘空间占用达100%,剩余空间不足。系统会将异常退出的诊断日志转存在/opt/adwan-backup/ruptlog目录下。

12.1.2  故障处理步骤

当磁盘空间占用达到80%以上时,系统会发送磁盘空间不足的告警信息,此时应当及时清理磁盘释放空间或进行磁盘扩容,以免影响控制组件正常运行。当磁盘空间不足时,控制组件会异常退出且无法重新启动,同时再次启动过程中可能损坏/opt/matrix/app/data/VCFCWAN/adwan/内的数据文件。当文件损坏后,磁盘空间充足时也无法启动控制组件。故障处理步骤如下:

(1)     在集群稳定情况下,在任意一台Matrix服务器执行以下命令确定主控制组件。

kubectl get all -n adwan-system -o wide

 

(2)     通过如下命令进入主控制组件容器。其中阴影部分需根据环境中实际的主控制组件容器ID修改。

kubectl exec -it -n adwan-system adwan-node1-88c9bcc49-fbmp2 /bin/bash

 

(3)     使用adwan stop命令关闭控制组件,然后清理系统磁盘空间。例如控制组件在升级过程中会自动将原控制组件的数据和配置备份保存到系统/opt/adwan-backup的相应目录下,当多次升级时可能有多个备份文件,您可根据需求到备份目录下手动清理较旧的文件以节省磁盘空间。建议清理后的磁盘剩余空间达到总空间的20%,清理完成后使用adwan start命令再次启动控制组件。

(4)     如无法启动,则可能由于数据文件损坏导致。此时请使用rm命令删除/opt/WAN_APP1000目录下的datalockcache文件然后再次尝试启动。

(5)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

12.2  端口文件不存在导致控制组件无法正常退出

12.2.1  故障描述

控制组件在执行adwan stop命令后无法正常退出,并打印提示信息“/opt/WAN_APP1000/data/port shutdown port file doesn't exist. The container is not running.”。

12.2.2  故障处理步骤

该故障出现的原因可能为用户错误地更改了系统中/etc目录下的hosts文件内容,使其中记录的本地IP地址与当前系统IP地址不一致,导致控制组件无法正常退出。故障处理步骤如下:

(1)     按照“12.1  磁盘空间不足导致控制组件异常退出”步骤进入主控制组件中。

(2)     检查/etc/hosts文件中记录的本地IPv4地址是否为默认的127.0.0.1,或是否与当前系统的IP地址一致。

[root@localhost ~]# cat /etc/hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

(3)     如不一致,请使用vi编辑器修改/etc/hosts文件配置,将本地IPv4地址修改为127.0.0.1。不建议将其修改为当前系统的IP地址,避免后续再次修改系统IP地址后导致控制组件出现异常。修改完成后执行adwan stop命令查看控制组件是否可以正常退出。

(4)     如果上述操作完成后故障仍无法排除,请联系H3C技术支持工程师。

新华三官网
联系我们