手册下载
故障处理手册
Copyright © 2025 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文档中的信息可能变动,恕不另行通知。
本文档介绍H3C SecPath TAP8000-SDN控制平台产品常见故障的诊断及处理措施。
· 更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。
· 设备正常运行时,建议您在完成重要功能的配置后,及时保存当前配置,以便设备出现故障后能迅速恢复配置。
· 设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),搜集信息越全面、越详细,越有利于故障的快速定位。
¡ 记录具体的故障现象、故障时间、配置信息。
¡ 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
¡ 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
¡ 记录故障处理过程中配置的所有命令行显示信息。
¡ 搜集设备日志信息。
¡ 记录抓取的设备异常重启的串口输出信息。
¡ 记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。
· 故障处理过程中,请注意:
¡ 明确每项配置操作的影响,保证操作出问题时能够被恢复,故障影响不会扩大。
请在设备Web端系统日志管理模块查看日志信息
设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。
如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。
故障分析时常用的方法有:
· 端口报文计数
· 报文镜像
· 端口抓包
· 日志查看
表1-1 常见的故障恢复措施
故障原因 |
业务恢复动作 |
故障排除动作 |
硬件 |
隔离故障单板 调整业务流向来隔离故障设备(如可以调整路由的优先级,避免流量经过故障设备,实现流量切换) |
更换备件(备件上线应用前应进行必要的测试) |
软件 |
调整业务流向来隔离故障设备 |
升级版本(含补丁版本) 调整组网或配置消除引发故障因素 |
链路 |
调整业务流向来隔离故障线路 |
检修线路 |
其他 |
修改错误配置 正确连接设备端口 调整业务流向来隔离故障线路 |
修改错误配置 正确连接设备端口 检修机房的电源、空调等支撑系统 |
单元TAP掉线,采集拓扑内单元TAP显示灰色。
使用ping或telnet方法检测掉线TAP设备IP能否可达。
表示连接的平台服务器IP和端口,Work status表示当前连接状态,active表示状态正常,其他状态都表示异常
查看SDN控制器是否与单元TAP连接正常。
在SDN控制器后台命令行输入:netstat -anp | grep 6653,查看单元TAP是否与SDN控制器6653正常连接。
输出如下:
root@h3c:~$ netstat -anp | grep 6653
(Not all processes could be identified, non-owned process info
will not be shown, you would have to be root to see it all.)
tcp 0 0 0.0.0.0:6653 0.0.0.0:* LISTEN
tcp 0 0 192.168.1.235:6653 192.168.1.234:32926 ESTABLISHED
查看单元TAP设备以及SDN控制器设备日志,查看有无设备掉线日志。
排查单元TAP设备和SDN控制器设备管理IP之间有无防火墙或者交换机进行限制。
查看SDN控制器端口是否正常开启。
在SDN控制器后台命令行输入:netstat -atu | grep 6653,查看6653端口是否正常开启。
输出如下:
设备日志显示链路震荡
端口UP/DOWN,以及模块协商问题,对于链路UP/DOWN请参考3.3 _端口频繁UP/Down。
查看日志震荡链路是哪些
查看正在震荡的链路中是否有单通现象
在SDN控制器后台输入:curl 127.0.0.1:1995/wm/topology/links/json
排查物理介质原因,模块,光纤,设备接口请参考3.3 端口频繁UP/Down。
聚合策略下发失败原因:
字段 |
描述 |
invalid_group |
下发策略包含组,但是下发到设备发现没有该组,可能是设备和平台的组信息,没有同步到。 |
Unknown |
设备未定义的错误。 |
Error:exist |
SDN控制器下发流表无法同步到设备侧。 |
device_destroy |
设备掉线导致的。 |
路径不可达 |
端口或者链路下线导致的,重新计算路径没有可达的路径。 |
查看失败策略,点击策略名称的链接,鼠标移入子策略的红灯的地方会出现失败原因提示
查看设备状态
若互联链路中断,需排查物理链路和端口配置。
若是设备掉线,需检查单元TAP设备配置,请参照2.1 单元TAP掉线处理方法。
恢复正常后重新下发策略,单元TAP设备重新同步流表。
在Web端采集流量趋势中的接口流量趋势模块查看的入、出方向流量统计信息,发现错包统计计数不为0。
· RX_ERR:各输入错误的总数。
· TX_ERR:各种输出错误的总数。
(1) 使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。
(2) 如端口使用光模块,参照3.4 光模块故障确认是否光模块故障导致。
(3) 与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现端口相关,应为单板端口故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。
(4) 排查对端设备或者中间的传输设备。
(5) 如故障无法确认,请将故障信息发送技术支持人员分析。
(6) 如果是QSFP28接口请在WEB界面端口配置界面,开启FEC纠错。
(1) 检查端口是否配置为半双工模式,如为半双工,请更改为全双工模式。
(2) 如果仍然无法确认,请将故障信息发送技术支持人员分析。
端口无法正常up。
(1) 测试端口之间网线、光纤链路是否正常,光纤两端的发送/接收端是否错连;更换端口之间的网线、光纤或将网线、光纤放到别的正常端口,以确认是否中间传输链路故障
(2) 检查本端、对端端口配置是否正确,如端口是否shutdown,速率、双工、协商模式、MDI是否正确。
(3) 如端口使用光模块,请检查两端光模块类型是否一致,如速率、波长、单模多模状态等;与正常的光模块交叉更换,并参照3.4 光模块故障排除是否为光模块故障导致。
(4) 如果确认光模块有问题,需要更换光模块。
(5) 查看本设备及对端设备日志,确认有无端口shutdown操作。
参照3.2 端口无法up,排查两端端口配置,网线、光模块、光纤等链路是否正常。
如仍无法确认,请搜集本端、对端设备信息,并将信息发送技术支持人员分析。
端口频繁UP/Down。
对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。
如果故障依存在,请排查链路、对端设备、中间设备。
如仍无法确认,请将故障信息发送技术支持人员分析。
表3-1 H3C SecPath TAP8000-C32/CE54/CE54H/CD54L设备光模块告警信息说明
字段 |
描述 |
SFP/SFP+/SFP28 |
|
BiasHighAlarm |
电流高报警 |
BiasHighWarning |
电流高警告 |
BiasLowAlarm |
电流低报警 |
BiasLowWarning |
电流低警告 |
RXPowerHighAlarm |
接收光功率高报警 |
RXPowerHighWarning |
接收光功率高告警 |
RXPowerLowAlarm |
接收光功率低报警 |
RXPowerLowWarning |
接收光功率低告警 |
TXPowerHighAlarm |
发送光功率高报警 |
TXPowerHighWarning |
发送光功率高告警 |
TXPowerLowAlarm |
发送光功率低报警 |
TXPowerLowWarning |
发送光功率低告警 |
TempHighAlarm |
温度高报警 |
TempHighWarning |
温度高告警 |
TempLowAlarm |
温度低报警 |
TempLowWarning |
温度低告警 |
VoltageHighAlarm |
电压高报警 |
VoltageHighWarning |
电压高告警 |
VoltageLowAlarm |
电压低报警 |
VoltageLowWarning |
电压低告警 |
QSFP/QSFP28 |
|
RXpower |
接收功率 |
TXBias |
发送电流 |
Temperature |
模块温度 |
Vcc |
电压告警 |
对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。
如果确认是光模块本身故障, SecPath TAP8000-C32/CE54/CE54H/CD54L请通过display interface transceiver eeprom收集光模块当前的数字诊断信息(非H3C定制光模块可能无法查询到数字诊断信息),并发送给人员分析。
端口频繁UP/Down。
一般在自协商情况下容易出现协商不稳定,这种情况请尝试在流量分发配置/接口配置强制速率。
(1) 尝试在流量分发配置/接口配置中开启FEC中的RS或者FC。
(2) 尝试在流量分发配置/接口配置中手动使能端口。
如果故障依存在,请排查链路、对端设备、中间设备。
如仍无法确认,请将故障信息发送技术支持人员分析。
过滤规则同时填写sctp协议(132)+端口号,策略会下发失败不生效。
策略中有使用途经点跨设备转发策略时,频繁导入导出策略配置,策略会出现异常。
拆分40G、百G端口后,多次重启设备,导致接口异常,端口拆分失败。
频繁大量下发策略和抓包任务,偶现策略失效和抓包失败。
偶现端口在未插入模块且未开启回环与单纤模式时,端口自动up。
偶发性出现快照分析统计计数那里提示计数异常,实际快照成功。
流量快照,快照执行失败,提示超时或空间不足,实际是还存在快照空间,快照策略下发异常导致的。