03-NQA故障处理手册
本章节下载: 03-NQA故障处理手册 (280.53 KB)
(1) 在设备上执行display nqa { history | result | statistics }命令查看NQA测试结果,会看到测试失败。
¡ 如果执行display nqa history命令,且看到显示信息中Status字段的取值不是Succeeded,则表示NQA测试失败。
¡ 如果执行display nqa result或display nqa statistics命令,且看到显示信息中Extended results字段的取值不为0,则表示NQA测试失败。
(2) 如果业务模块(例如Track)引用了探测失败的NQA测试,会观察到业务模块采取相应措施(例如Track项的状态会从Positive变成Negative或NotReady)。
(1) 如果探测结果中Status字段的取值为Internal error或Unknown error,导致该类故障的常见原因主要包括:
¡ 设备上不存在测试目的地址的路由或ARP表项。
¡ 设备内存不足。
¡ 其他内部原因。
(2) 如果探测结果中Status字段的取值为Timeout,表示在测试超时前,未收到响应报文。导致该类故障的常见原因主要包括:
¡ 网络错误,例如:
- 探测报文途径安全设备时被误认为攻击报文而被丢弃。
- 网络时间频繁跳变。
- 探测报文出现传输错误,接口CRC校验报错。
- 探测报文传输路径上其他形式的报文丢失。
¡ 配置错误,例如:
- 组网复杂,探测源端到目的端途径的设备太多,NQA探测缺省TTL(20)无法满足需求。
- 探测报文过大,导致分片过多,处理超时。
- 配置了错误的出接口、下一跳。
- 配置了错误的源地址。
- 配置了过小的探测超时时间。
本类故障的诊断流程如图1-1所示。
图1-1 ICMP-echo测试失败故障诊断流程图
(1) 执行display nqa { history | result | statistics }命令收集NQA探测结果,找到失败的NQA测试、测试执行的时间以及测试失败的类型。
¡ 如果display nqa history命令显示信息中Status字段的取值不是Succeeded,表示该条NQA测试失败。
<Sysname> display nqa history admin test
NQA entry (admin admin, tag test) history records:
Index Response Status Time
10 500 Timeout 2023-03-12 17:03:01.6
9 500 Timeout 2023-03-12 17:03:01.1
...
Status字段的取值包括:
- Succeeded:测试成功,接收到响应报文
- Internal error:内部错误导致NQA测试失败(如果配置了NQA与Track联动,则该状态不会触发Track状态切换)
- Unknown error:未知错误导致NQA测试失败(如果配置了NQA与Track联动,则该状态会触发Track状态切换)
- Timeout:请求超时导致NQA测试失败(如果配置了NQA与Track联动,则该状态会触发Track状态切换)
¡ 如果display nqa result命令显示信息中Extended results字段的取值不为0,则表示最近一次NQA测试失败。
<Sysname> display nqa result admin test
NQA entry (admin admin, tag test) test results:
Send operation times: 1 Receive response times: 1
Min/Max/Average round trip time: 35/35/35
Square-Sum of round trip time: 1225
Last succeeded probe time: 2023-03-12 10:50:33.2
Extended results:
Packet loss ratio: 0%
Failures due to timeout: 0
Failures due to disconnect: 0
Failures due to no connection: 0
Failures due to internal error: 0
Failures due to other errors: 0
¡ 如果display nqa statistics命令显示信息中Extended results字段的取值不为0,则表示曾经执行的某个测试失败。
<Sysname> display nqa statistics admin test
NQA entry (admin admin, tag test) test statistics:
NO. : 1
Start time: 2023-03-12 09:30:20.0
Life time: 2 seconds
Send operation times: 1 Receive response times: 1
Min/Max/Average round trip time: 13/13/13
Square-Sum of round trip time: 169
Extended results:
Packet loss ratio: 0%
Failures due to timeout: 0
Failures due to disconnect: 0
Failures due to no connection: 0
Failures due to internal error: 0
Failures due to other errors: 0
¡ 如果display nqa { history | result | statistics }命令显示信息中的时间不是您关注的时间,很可能您配置的NQA测试未启动,请执行nqa schedule命令来启动NQA测试。
(2) 对于失败类型为Internal error、Unknown error的NQA测试,请参照以下步骤进行处理。
a. 明确NQA测试的目的地址。
执行display current-configuration [ configuration nqa ]查看NQA配置信息,显示信息中destination ip、destination ipv6命令携带的IP地址即为NQA测试的目的地址。如果该地址配置错误,请在系统视图执行undo nqa schedule命令停止NQA测试,在NQA测试组视图下执行destination ip、destination ipv6命令修改后,再重新开始测试。
b. Ping NQA测试的目的地址,如果Ping不通,请先解决NQA测试的目的地址路由不可达问题。如果确定有去往NQA测试目的地址的数据链路,但是路由表无去往NQA测试的目的地址的路由,可在ICMP-echo测试类型视图下,配置out interface或者next-hop ip命令,NQA会跳过查路由表的环节,直接用指定的IP地址封装NQA测试报文。
c. 判断是否因为设备内存不足,导致NQA测试失败。
d. 执行display memory-threshold命令查看内存告警门限相关信息,如果Current free-memory state字段取值为Minor(一级告警门限状态)、Severe(二级告警门限状态)或Critical(三级告警门限状态),则说明设备内存不足,请先解决设备内存不足问题。
(3) 对于失败类型为Timeout的NQA测试,请参照以下步骤进行处理。
a. 明确NQA测试的目的地址。
执行display current-configuration [ configuration nqa ]查看NQA配置信息,显示信息中destination ip、destination ipv6命令携带的IP地址即为NQA测试的目的地址。如果该地址配置错误,请在系统视图执行undo nqa schedule命令停止NQA测试,在NQA测试组视图下执行destination ip、destination ipv6命令修改后,再重新开始测试。
b. Ping NQA测试的目的地址,如果Ping不通,请先解决NQA测试的目的地址路由不可达问题。如果确定有去往NQA测试目的地址的数据链路,但是路由表无去往NQA测试的目的地址的路由,可在ICMP-echo测试类型视图下,配置out interface或者next-hop ip命令,NQA会跳过查路由表的环节,直接用指定的IP地址封装NQA测试报文。
c. 如果能Ping通,但是概率丢包,观察display nqa statistics时延结果最大值(Max round trip time)是否是接近ICMP-echo测试类型视图下probe timeout命令配置的值:
- 如果是,则说明链路时延较大,probe timeout配置值过小,请将probe timeout配置为大于Max round trip time的值。
- 如果否,则属于链路随机丢包,请重点关注是否存在接口CRC校验错误。针对测试响应报文的入接口执行display interface命令,显示信息中Input的CRC字段的取值即为CRC校验错误报文的数量。如果该数量持续较快增长,可能是传输链路中的元器件出现故障,需要进一步定位。
d. 使用和NQA测试完全相同的参数Ping NQA测试的目的地址,来帮助判断是否因为参数配置错误导致NQA测试失败。完全相同的参数包括:报文大小、出接口、下一跳、源地址、初始TTL。
- 如果可以Ping通,那么很有可能是探测路径上的安全设备过滤了NQA的探测报文。请进一步定位。
- 如果不可以Ping通,可进一步修改发包参数,观察是否可以Ping通。如果可以Ping通,则很有可能是因为参数配置错误导致NQA测试失败。
NQA探测缺省TTL取值为20,如果组网中测试报文的源到目的端的设备数量超过了20,请在ICMP-echo测试类型视图下执行ttl命令修改。
探测报文过大,导致分片过多,处理超时。可在ICMP-echo测试类型视图下执行data-size命令修改。
配置了错误的出接口、下一跳,可在ICMP-echo测试类型视图下执行out interface、nexthop命令修改。
配置了错误的源地址,可在ICMP-echo测试类型视图下执行source ip、source ipv6命令修改。(ICMP-echo测试不支持配置源端口,其它测试可能需要执行source port命令修改源端口)
配置了过小的探测超时时间,可在ICMP-echo测试类型视图下执行probe timeout命令修改。
- 如果始终无法ping通,则需要通过抓包、流量统计、查看调试信息等手段明确丢包原因。
(4) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
模块名:HH3C-NQA-MIB
· hh3cNqaProbeFailure (1.3.6.1.4.1.25506.8.3.3.3)
· hh3cNqaProbeTimeAboveThreshold (1.3.6.1.4.1.25506.8.3.3.10)
· hh3cNqaProbeTimeBelowThreshold (1.3.6.1.4.1.25506.8.3.3.11)
· hh3cNqaProbeFailAboveThreshold (1.3.6.1.4.1.25506.8.3.3.12)
· h3cNqaProbeFailBelowThreshold (1.3.6.1.4.1.25506.8.3.3.13)
· hh3cNqaTestFailure (1.3.6.1.4.1.25506.8.3.3.16)
· NQA/6/NQA_LOG_UNREACHABLE
· NQA/6/NQA_PACKET_OVERSIZE
· NQA/4/NQA_SCHEDULE_FAILURE
· NQA/4/NQA_SEVER_FAILURE
· NQA/6/NQA_START_FAILURE
设备作为源端,向目的端发起TWAMP-light探测。当出现以下任一情况时,均可判定TWAMP-light探测失败:
· TWAMP-light探测状态异常
在设备上执行display nqa twamp-light client命令,显示信息中Status字段的取值为Inactive时,表明未启动TWAMP-light探测,TWAMP-light探测失败。
· TWAMP-light探测结果异常
在设备上执行display nqa twamp-light client statistics two-way-loss test-session命令,当Loss count字段取值不为0时,表示网络中出现了TWAMP-light探测报文丢失的情况;当Error count字段取值不为0时,表示设备收到了错误的TWAMP-light探测报文。如果丢包和错包个数超过用户业务允许范围,就可以认为TWAMP-light会话探测失败。
· 对于探测状态异常的情况,本类故障的常见原因主要包括:
¡ L3VPN场景下VPN被删除。
¡ L2VPN场景下源AC状态down。
¡ 如果配置了source interface命令,但接口板被拔出,接口不存在。
· 对于探测结果异常的情况,本类故障的常见原因主要包括:
¡ 丢包问题
- 配置错误,客户端与服务器侧的配置不匹配
- 与探测目的地址路由不可达,Ping不通或者Ping出现丢包
- 接口CRC校验错误
¡ 错包问题
- 配置错误,执行start命令启动TWAMP-light测试时,配置的timeout参数值过小,反射报文在timeout超时之后才到达设备,设备认为该报文为错包。
- 报文内容有不符合协议要求的字段
- 报文封装失败
本类故障的诊断流程如图图1-2所示:
图1-2 TWAMP-light探测失败的故障诊断流程图
(1) 收集TWAMP-light探测状态及结果。
在设备上执行display nqa twamp-light client和display nqa twamp-light client statistics two-way-loss test-session命令,明确存在问题的探测,并收集探测状态及结果。
¡ 如果执行display nqa twamp-light client命令,显示信息中Status字段的取值为Inactive,则表示TWAMP-light探测状态异常。
<Sysname> display nqa twamp-light client
Brief information about all test sessions:
Total sessions: 1
Active sessions: 1
-----------------------------------------------------------------------------
ID Status Source IP/Port Destination IP/Port
1 Active 1.1.1.1/10000 1.1.1.2/20000
¡ 如果执行display nqa twamp-light client statistics two-way-loss test-session命令,显示信息中Loss count字段取值不为0,则表示TWAMP-light探测结果为丢包;显示信息中Error count字段取值不为0,则表示TWAMP-light探测结果为错包。
<Sysname> display nqa twamp-light client statistics two-way-delay test-session 1
Latest two-way loss statistics:
Index Loss count Loss ratio Error count Error ratio
1 200 100.0000% 0 0.0000%
2 200 100.0000% 0 0.0000%
3 200 100.0000% 0 0.0000%
4 200 100.0000% 0 0.0000%
5 200 100.0000% 0 0.0000%
--------------------------------------------------------------------------------
Average loss count : 200 Average loss ratio : 100.0000%
Maximum loss count : 200 Maximum loss ratio : 100.0000%
Minimum loss count : 200 Minimum loss ratio : 100.0000%
Average error count : 0 Average error ratio : 0.0000%
Maximum error count : 0 Maximum error ratio : 0.0000%
Minimum error count : 0 Minimum error ratio : 0.0000%
(2) 对于探测状态异常的情况,请参照以下步骤进行处理:
a. 如果设备刚启动、刚完成主备倒换或者配置的source interface所在接口板未完成启动时,请等待设备状态稳定后再观察探测状态是否恢复成Active。执行display system stable state命令,如果显示信息中System state字段的取值为Stable,则表示设备已经处于稳定状态。
- 如果恢复成Active,则无需继续处理。
- 如果未恢复成Active,请继续定位。
b. 如果设备已经稳定运行,请检查配置是否完整。
- 对于L3VPN场景,请执行display nqa twamp-light client verbose命令查看TWAMP-light探测绑定的VPN,并执行display ip vpn-instance命令查看该VPN是否存在。如果绑定的VPN不存在,请在系统视图下,执行ip vpn-instance命令来创建VPN实例。
- 对于L2VPN场景,请执行display nqa twamp-light client verbose命令查看Source interface字段的取值,如果取值为“-”,请在TWAMP-light测试的Client-session视图下执行source interface命令用来配置探测帧的源AC,且需要确保绑定的接口处于up状态。
c. 检查组网连接是否就绪。如果TWAMP-light探测绑定了源接口或者源AC,则要求源接口和源AC处于up状态。
- 执行display l2vpn pw xconnect-group或者display l2vpn forwarding ac命令,显示信息中State字段的取值表示AC的状态。如果AC状态为Down,请先解决AC故障问题。
- 执行display interface命令,显示信息中Current state、Line protocol state字段的取值表示接口的状态。如果接口状态为Down,请先保证接口UP。
(3) 针对探测结果丢包问题,请参照以下步骤进行处理:
在设备上执行display nqa twamp-light client verbose命令,在探测目的端执行display nqa twamp-light responder命令,查看TWAMP-light探测参数。如果指定了以下参数,则要求源端和目的端的配置一致。
- 源IP地址。在源端,该参数可通过TWAMP-light测试的Client-session视图下的source ip、source ipv6命令修改。
- 源端口号。在源端,该参数可通过TWAMP-light测试的Client-session视图下的source port命令修改。
- 目的IP地址。在源端,该参数可通过TWAMP-light测试的Client-session视图下的destination ip、destination ipv6命令修改。
- 目的端口号。在源端,该参数可通过TWAMP-light测试的Client-session视图下的destination port命令修改。
- VPN实例名称。在源端,该参数可通过TWAMP-light测试的Client-session视图下的vpn-instance命令修改。
- VLAN ID。在源端,该参数可通过TWAMP-light测试的Client-session视图下的vlan命令修改。
- 源MAC地址。在源端,该参数可通过TWAMP-light测试的Client-session视图下的source mac命令修改。
- 目的MAC地址。在源端,该参数可通过TWAMP-light测试的Client-session视图下的destination mac命令修改。
以上参数,在探测目的端,均可通过TWAMP-light-responder视图下的test-session命令来修改。
TWAMP-light测试的其它配置要求如下:当源端(TWAMP-light sender)上时间戳类型配置为NTP,且测试报文的发包间隔配置为10ms或100ms时,设备会认为配置冲突,导致TWAMP_LIGHT测试启动失败。请在TWAMP-light-sender视图下通过start命令修改发包间隔,或者在TWAMP-light测试的Client-session视图下通过timestamp-format命令修改时间戳格式。
b. 在源端的用户视图依次执行terminal monitor、terminal debugging、debugging nqa error和debugging nqa event命令,打开NQA调试信息输出开关,让NQA调试信息通过登录终端的屏幕输出。然后在Probe视图下执行view /var/log/trace.log命令,可以查看NQA的Trace log信息。通过日志信息可以判断设备是否正常发送TWAMP-light探测报文、收到TWAMP-light响应报文、探测结果中的时间戳是否正常。
- 如果源端未正常发送TWAMP-light探测报文,请根据登录终端显示的NQA调试信息和Trace log信息来初步判定发包失败的原因,并根据发包失败的原因修改源端的TWAMP-light配置,并重新启动TWAMP-light探测。如果根据登录终端显示的NQA调试信息和Trace log信息无法解决源端未正常发送TWAMP-light探测报文的问题,可以执行以下命令收集显示信息,执行步骤(5)。
- display ip statistics
- display ipv6 statistics
- display ethernet statistics
- 如果源端未正常收到TWAMP-light响应报文,可在目的端的系统视图执行nqa agent enable命令开启NQA client功能,然后返回用户视图依次执行terminal monitor、terminal debugging、debugging nqa packet命令,打开NQA报文调试信息输出开关。查看目的端是否收到NQA报文,NQA报文的配置是否正确。如果目的端未收到NQA报文,大概率是网络出现了故障,请继续参照下面的步骤定位网络故障。如果NQA报文配置错误,请参考步骤1.1.2 4. (3)a修改NQA配置后再重新开启测试。目的端可查看到的NQA报文调试信息示例:
- 探测结果中的时间戳的关系应该为:CSendTime≤CRecvTime、SRecvTime≤SsendTime,且NQA server的处理时间SSendTime–SrecvTime值应该较小。如果未满足以上时间戳的要求,则表示时间戳异常。请收集时间戳信息及执行display device命令收集设备板卡信息,执行步骤(5)。
Trace log信息示例:
*May 6 00:36:24:900 2023 Sysname NQA/7/KDIAG: send packt, session 1, ucSampler 187.
// 以上调试信息表明设备发送了一个TWAMP-light探测报文
*May 6 00:36:24:901 2023 Sysname NQA/7/KDIAG: Twmap Recv Pakcet ucSampler=187
// 以上调试信息表明设备收到了一个TWAMP-light响应报文
*May 6 00:36:24:901 2023 Sysname NQA/7/KDIAG: cSendSec is 1683304584, cSendFrac is 900923500, sRecvSec is 1683304584, sRecvFrac is 835000000,cRecvSec is 1683304584, cRecvFrac is 901923500, sSendSec is 1683304584, sSendFrac is 835000000
*May 6 00:36:24:901 2023 Sysname NQA/7/KDIAG: nqa entry (twamplight?session-1) Sampler(187) client time:
CSendTime=1683304584900923 CRecvTime=1683304584901923 SRecvTime=1683304584835000 SSendTime=1683304584835000
// 以上调试信息表明设备进行一次TWAMP-light探测获取到的时间戳
c. 检查是否因为网络故障,导致丢包。对检测目的地址执行ping命令,如果Ping失败或者有丢包,请先解决网络故障。
d. 检查是否因为CRC校验错误,导致丢包。
e. 执行display counters命令,如果显示信息中Err (pkts)字段的取值随着探测的进行在不断增长,则表示链路层发包出现错误,请更换接口或者线缆来尝试解决该故障。
(4) 针对探测结果错包问题,请参照以下步骤进行处理:
a. 确认是否因为配置错误,导致设备将迟到的TWAMP-light响应报文误认为是错包。
- 在源端对探测目的端执行ping命令,探测源端到目的端的最大时延(对应Ping结果中round-trip min/avg/max/std-dev字段中max的取值,单位为ms)。
- 在设备上执行display nqa twamp-light client verbose命令,查看TWAMP-light响应报文的超时时间(对应显示信息中Timeout(sec)字段的值)。TWAMP-light响应报文的超时时间必须大于源端到目的端的最大时延,否则,请在TWAMP-light-sender视图下执行start命令重新指定time-out参数的值。
b. 在源端的用户视图依次执行terminal monitor、terminal debugging、debugging nqa error和debugging nqa event命令,打开NQA调试信息输出开关,让NQA调试信息通过登录终端的屏幕输出。然后在Probe视图下执行view /var/log/trace.log命令,查看NQA的Trace log信息。通过日志信息判断报文内容是否符合协议要求、报文封装是否正确。如果报文内容不符合协议要求、报文封装不正确,请参照TWAMP-light配置手册要求,重新配置TWAMP-light探测。
(5) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
模块名:HH3C-TWAMP-MIB
· hh3cTwampTwoWayLossExceed(1.3.6.1.4.1.25506.2.184.1.0.1)
· hh3cTwampTwoWayLossRecover(1.3.6.1.4.1.25506.2.184.1.0.2)
· hh3cTwampTwoWayDelayExceed(1.3.6.1.4.1.25506.2.184.1.0.3)
· hh3cTwampTwoWayDelayRecover(1.3.6.1.4.1.25506.2.184.1.0.4)
· hh3cTwampTwoWayJitterExceed(1.3.6.1.4.1.25506.2.184.1.0.5)
· hh3cTwampTwoWayJitterRecover(1.3.6.1.4.1.25506.2.184.1.0.6)
· hh3cTwampSenderStartFailure(1.3.6.1.4.1.25506.2.184.1.0.9)
· hh3cTwampStatisticsAbnormal(1.3.6.1.4.1.25506.2.184.1.0.11)
· NQA/6/NQA_TWAMP_LIGHT_PACKET_INVALID
· NQA/6/NQA_TWAMP_LIGHT_REACTION
· NQA/6/NQA_TWAMP_LIGHT_SENDER_START_FAILURE
· NQAS/6/NQA_TWAMP_LIGHT_START_FAILURE
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!