• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

H3C SecPath TAP8000-SDN控制平台 故障处理手册(E6603)-5W101

手册下载

H3C SecPath TAP8000-SDN控制平台 故障处理手册(E6603)-5W101-整本手册.pdf  (1.10 MB)

  • 发布时间:2025/5/14 20:25:08
  • 浏览量:
  • 下载量:

H3C SecPath TAP8000-SDN控制平台

故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2025 新华三技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。

本文档中的信息可能变动,恕不另行通知。



1 简介

本文档介绍H3C SecPath TAP8000-SDN控制平台产品常见故障的诊断及处理措施。

1.1  故障处理注意事项

·     更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

·     设备正常运行时,建议您在完成重要功能的配置后,及时保存当前配置,以便设备出现故障后能迅速恢复配置。

·     设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),搜集信息越全面、越详细,越有利于故障的快速定位。

¡     记录具体的故障现象、故障时间、配置信息。

¡     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡     记录故障处理过程中配置的所有命令行显示信息。

¡     搜集设备日志信息。

¡     记录抓取的设备异常重启的串口输出信息。

¡     记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。

·     故障处理过程中,请注意:

¡     明确每项配置操作的影响,保证操作出问题时能够被恢复,故障影响不会扩大。

¡     操作执行后请等待一定时间以确认执行效果。

1.1.1  Web端系统日志

请在设备Web端系统日志管理模块查看日志信息

1.1.2  故障定位和处理

设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。

如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。

1.1.3  业务功能故障排查

故障分析时常用的方法有:

·     端口报文计数

·     报文镜像

·     端口抓包

·     日志查看

1.1.4  常见的故障恢复措施

表1-1 常见的故障恢复措施

故障原因

业务恢复动作

故障排除动作

硬件

隔离故障单板

调整业务流向来隔离故障设备(如可以调整路由的优先级,避免流量经过故障设备,实现流量切换)

更换备件(备件上线应用前应进行必要的测试)

软件

调整业务流向来隔离故障设备

升级版本(含补丁版本)

调整组网或配置消除引发故障因素

链路

调整业务流向来隔离故障线路

检修线路

其他

修改错误配置

正确连接设备端口

调整业务流向来隔离故障线路

修改错误配置

正确连接设备端口

检修机房的电源、空调等支撑系统


2 SDN控制器常见故障处理

2.1  单元TAP掉线

2.1.1  故障描述

单元TAP掉线,采集拓扑内单元TAP显示灰色。

2.1.2  故障处理步骤

使用pingtelnet方法检测掉线TAP设备IP能否可达。

表示连接的平台服务器IP和端口,Work status表示当前连接状态,active表示状态正常,其他状态都表示异常

查看SDN控制器是否与单元TAP连接正常。

SDN控制器后台命令行输入:netstat -anp | grep 6653,查看单元TAP是否与SDN控制器6653正常连接。

输出如下:

root@h3c:~$ netstat -anp | grep 6653

(Not all processes could be identified, non-owned process info

 will not be shown, you would have to be root to see it all.)

tcp        0      0 0.0.0.0:6653            0.0.0.0:*               LISTEN

tcp        0      0 192.168.1.235:6653      192.168.1.234:32926     ESTABLISHED

查看单元TAP设备以及SDN控制器设备日志,查看有无设备掉线日志。

排查单元TAP设备和SDN控制器设备管理IP之间有无防火墙或者交换机进行限制。

查看SDN控制器端口是否正常开启。

SDN控制器后台命令行输入:netstat -atu | grep 6653,查看6653端口是否正常开启。

输出如下:

 

2.2  拓扑链路不稳定SDN控制器诊断

2.2.1  故障描述

设备日志显示链路震荡

2.2.2  故障处理步骤

端口UP/DOWN,以及模块协商问题,对于链路UP/DOWN请参考3.3  _端口频繁UP/Down

查看日志震荡链路是哪些

查看正在震荡的链路中是否有单通现象

SDN控制器后台输入:curl 127.0.0.1:1995/wm/topology/links/json

排查物理介质原因,模块,光纤,设备接口请参考3.3  端口频繁UP/Down

2.3  聚合策略下发失败平台诊断

2.3.1  故障描述

聚合策略下发失败原因:

字段

描述

invalid_group

下发策略包含组,但是下发到设备发现没有该组,可能是设备和平台的组信息,没有同步到。

Unknown

设备未定义的错误。

Error:exist

SDN控制器下发流表无法同步到设备侧。

device_destroy

设备掉线导致的。

路径不可达

端口或者链路下线导致的,重新计算路径没有可达的路径。

 

2.3.2  故障处理步骤-路径不可达

查看失败策略,点击策略名称的链接,鼠标移入子策略的红灯的地方会出现失败原因提示

图形用户界面, 文本, 应用程序

描述已自动生成

查看设备状态

若互联链路中断,需排查物理链路和端口配置。

若是设备掉线,需检查单元TAP设备配置,请参照2.1  单元TAP掉线处理方法。

恢复正常后重新下发策略,单元TAP设备重新同步流表。

3 链路端口故障处理

3.1  端口错包

3.1.1  故障描述

Web端采集流量趋势中的接口流量趋势模块查看的入、出方向流量统计信息发现错包统计计数不为0

1. 端口入方向报文计数错误字段解释

·     RX_ERR:各输入错误的总数。

2. 端口出方向报文计数错误字段解释

·     TX_ERR:各种输出错误的总数。

3.1.2  故障处理步骤

1. 端口入方向出现RX_ERR错包且计数持续增加

(1)     使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。

(2)     如端口使用光模块,参照3.4  光模块故障确认是否光模块故障导致。

(3)     与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现端口相关,应为单板端口故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。

(4)     排查对端设备或者中间的传输设备。

(5)     如故障无法确认,请将故障信息发送技术支持人员分析。

(6)     如果是QSFP28接口请在WEB界面端口配置界面,开启FEC纠错。

2. 端口出方向出现错包且计数持续增加

(1)     检查端口是否配置为半双工模式,如为半双工,请更改为全双工模式。

(2)     如果仍然无法确认,请将故障信息发送技术支持人员分析。

3.2  端口无法up

3.2.1  故障描述

端口无法正常up

3.2.2  故障处理步骤

1. 端口无法up

(1)     测试端口之间网线、光纤链路是否正常,光纤两端的发送/接收端是否错连;更换端口之间的网线、光纤或将网线、光纤放到别的正常端口,以确认是否中间传输链路故障

(2)     检查本端、对端端口配置是否正确,如端口是否shutdown,速率、双工、协商模式、MDI是否正确。

(3)     如端口使用光模块,请检查两端光模块类型是否一致,如速率、波长、单模多模状态等;与正常的光模块交叉更换,并参照3.4  光模块故障排除是否为光模块故障导致。

(4)     如果确认光模块有问题,需要更换光模块。

(5)     查看本设备及对端设备日志,确认有无端口shutdown操作。

参照3.2  端口无法up,排查两端端口配置,网线、光模块、光纤等链路是否正常。

如仍无法确认,请搜集本端、对端设备信息,并将信息发送技术支持人员分析。

3.3  端口频繁UP/Down

3.3.1  故障描述

端口频繁UP/Down

3.3.2  故障处理步骤

对于光口,请参照3.4  光模块故障确认光模块是否异常。

对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。

如果故障依存在,请排查链路、对端设备、中间设备。

如仍无法确认,请将故障信息发送技术支持人员分析。

3.4  光模块故障

3.4.1  故障处理步骤

表3-1 H3C SecPath TAP8000-C32/CE54/CE54H/CD54L设备光模块告警信息说明

字段

描述

SFP/SFP+/SFP28

BiasHighAlarm

电流高报警

BiasHighWarning

电流高警告

BiasLowAlarm

电流低报警

BiasLowWarning

电流低警告

RXPowerHighAlarm

接收光功率高报警

RXPowerHighWarning

接收光功率高告警

RXPowerLowAlarm

接收光功率低报警

RXPowerLowWarning

接收光功率低告警

TXPowerHighAlarm

发送光功率高报警

TXPowerHighWarning

发送光功率高告警

TXPowerLowAlarm

发送光功率低报警

TXPowerLowWarning

发送光功率低告警

TempHighAlarm

温度高报警

TempHighWarning

温度高告警

TempLowAlarm

温度低报警

TempLowWarning

温度低告警

VoltageHighAlarm

电压高报警

VoltageHighWarning

电压高告警

VoltageLowAlarm

电压低报警

VoltageLowWarning

电压低告警

QSFP/QSFP28

RXpower

接收功率

TXBias

发送电流

Temperature

模块温度

Vcc

电压告警

 

对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。

如果确认是光模块本身故障, SecPath TAP8000-C32/CE54/CE54H/CD54L请通过display interface transceiver eeprom收集光模块当前的数字诊断信息(非H3C定制光模块可能无法查询到数字诊断信息),并发送给人员分析。

3.5  10G/40G/25G/100G端口自适应无法UP

3.5.1  故障描述

端口频繁UP/Down

3.5.2  故障处理步骤

一般在自协商情况下容易出现协商不稳定,这种情况请尝试在流量分发配置/接口配置强制速率。

(1)     尝试在流量分发配置/接口配置中开启FEC中的RS或者FC

(2)     尝试在流量分发配置/接口配置中手动使能端口。

(3)     

如果故障依存在,请排查链路、对端设备、中间设备。

如仍无法确认,请将故障信息发送技术支持人员分析。

4 常见故障及偶发性故障说明

4.1  sctp协议(132)+端口号同时下发策略不生效

4.1.1  故障描述

过滤规则同时填写sctp协议(132)+端口号,策略会下发失败不生效。

4.1.2  故障处理步骤

1. 此问题为芯片限制决定,不能同时填写sctp协议(132)+端口号的过滤规则;

2. 过滤规则填写时可以只填写sctp协议(132),此时策略生效。

4.2  使用途经点跨设备转发策略时,频繁导入导出,策略会异常

4.2.1  故障描述

策略中有使用途经点跨设备转发策略时,频繁导入导出策略配置,策略会出现异常。

4.2.2  故障处理步骤

1. 有时间间隔的导入导出策略,根据策略下发完成的时间并在此基础上再间隔10分钟;

2. 对异常的策略进行选中,并尝试一条一条策略的点击重新分解;

3. 若还存在策略异常,请删除该条策略后手动添加相同策略。

4.3  拆分40G、百G端口后,多次重启设备,导致接口异常

4.3.1  故障描述

拆分40G、百G端口后,多次重启设备,导致接口异常,端口拆分失败。

4.3.2  故障处理步骤

1. 若接口异常,请取消拆分端口,然后保存配置,再次重启设备,等待设备重启完成;

2. 拆分40G、百G端口后,只需要重启一次设备,待设备重启完成,接口拆分完成。

4.4  频繁大量下发策略和抓包任务,偶现策略失效和抓包失败

4.4.1  故障描述

频繁大量下发策略和抓包任务,偶现策略失效和抓包失败。

4.4.2  故障处理步骤

1. 针对失效的策略,请一条一条的选中该策略,点击“重新分解”,使策略重新发下;

2. 针对抓包任务,尝试删除抓包任务,再创建新的抓包任务进行抓包,这样会重新发下抓包策略。

3. 若上述执行都不成功,请及时联系技术人员分析。

4.5  偶现端口在未插入模块且未开启回环与单纤模式时,端口up

4.5.1  故障描述

偶现端口在未插入模块且未开启回环与单纤模式时,端口自动up

4.5.2  故障处理步骤

1. 使用模块插入自动UP的端口,等待端口指示灯熄灭,端口link down

2. 可以将未使用的端口使能关闭。

4.6  偶发性出现快照分析统计计数那里提示计数异常

4.6.1  故障描述

偶发性出现快照分析统计计数那里提示计数异常,实际快照成功。

4.6.2  故障处理步骤

1. 删除已创建的快照任务,创建新的快照,再次执行快照任务;

2. 如果还存在提示计数异常,将异常信息保存并提交技术人员分析,可继续尝试重启一次设备。

 

4.7  流量快照,快照执行失败,提示超时或空间不足

4.7.1  故障描述

流量快照,快照执行失败,提示超时或空间不足,实际是还存在快照空间,快照策略下发异常导致的。

4.7.2  故障处理步骤

1. 尝试重新下发快照策略,删除该快照任务,重新增加一个相同的快照任务,再次执行快照;

2. 若还存在提示超时或空间不足,进入底层系统查看快照进程,使用ps -ef|grep snapshot,将打印信息发往技术人员分析。

新华三官网
联系我们