• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

13-网络管理和监控

目录

03-NQA故障处理手册

本章节下载 03-NQA故障处理手册  (280.53 KB)

03-NQA故障处理手册

1 网络管理和监控类故障处理

1.1  NQA故障处理

1.1.1  ICMP-echo测试失败

1. 故障描述

(1)     在设备上执行display nqa { history | result | statistics }命令查看NQA测试结果,会看到测试失败。

¡     如果执行display nqa history命令,且看到显示信息中Status字段的取值不是Succeeded,则表示NQA测试失败。

¡     如果执行display nqa resultdisplay nqa statistics命令,且看到显示信息中Extended results字段的取值不为0,则表示NQA测试失败。

(2)     如果业务模块(例如Track)引用了探测失败的NQA测试,会观察到业务模块采取相应措施(例如Track项的状态会从Positive变成Negative或NotReady)。

2. 常见原因

(1)     如果探测结果中Status字段的取值为Internal error或Unknown error,导致该类故障的常见原因主要包括:

¡     设备上不存在测试目的地址的路由或ARP表项。

¡     设备内存不足。

¡     其他内部原因。

(2)     如果探测结果中Status字段的取值为Timeout,表示在测试超时前,未收到响应报文。导致该类故障的常见原因主要包括:

¡     网络错误,例如:

-     探测报文途径安全设备时被误认为攻击报文而被丢弃。

-     网络时间频繁跳变。

-     探测报文出现传输错误,接口CRC校验报错。

-     探测报文传输路径上其他形式的报文丢失。

¡     配置错误,例如:

-     组网复杂,探测源端到目的端途径的设备太多,NQA探测缺省TTL(20)无法满足需求。

-     探测报文过大,导致分片过多,处理超时。

-     配置了错误的出接口、下一跳。

-     配置了错误的源地址。

-     配置了过小的探测超时时间。

3. 故障分析

本类故障的诊断流程如图1-1所示。

图1-1 ICMP-echo测试失败故障诊断流程图

 

4. 处理步骤

(1)     执行display nqa { history | result | statistics }命令收集NQA探测结果,找到失败的NQA测试、测试执行的时间以及测试失败的类型。

¡     如果display nqa history命令显示信息中Status字段的取值不是Succeeded,表示该条NQA测试失败。

<Sysname> display nqa history admin test

NQA entry (admin admin, tag test) history records:

Index      Response     Status           Time

10         500          Timeout          2023-03-12 17:03:01.6

9          500          Timeout          2023-03-12 17:03:01.1

...

Status字段的取值包括:

-     Succeeded:测试成功,接收到响应报文

-     Internal error:内部错误导致NQA测试失败(如果配置了NQA与Track联动,则该状态不会触发Track状态切换)

-     Unknown error:未知错误导致NQA测试失败(如果配置了NQA与Track联动,则该状态会触发Track状态切换)

-     Timeout:请求超时导致NQA测试失败(如果配置了NQA与Track联动,则该状态会触发Track状态切换)

¡     如果display nqa result命令显示信息中Extended results字段的取值不为0,则表示最近一次NQA测试失败。

<Sysname> display nqa result admin test

NQA entry (admin admin, tag test) test results:

    Send operation times: 1              Receive response times: 1

    Min/Max/Average round trip time: 35/35/35

    Square-Sum of round trip time: 1225

    Last succeeded probe time: 2023-03-12 10:50:33.2

  Extended results:

    Packet loss ratio: 0%

    Failures due to timeout: 0

    Failures due to disconnect: 0

    Failures due to no connection: 0

    Failures due to internal error: 0

    Failures due to other errors: 0

¡     如果display nqa statistics命令显示信息中Extended results字段的取值不为0,则表示曾经执行的某个测试失败。

<Sysname> display nqa statistics admin test

NQA entry (admin admin, tag test) test statistics:

  NO. : 1

    Start time: 2023-03-12 09:30:20.0

    Life time: 2 seconds

    Send operation times: 1              Receive response times: 1

    Min/Max/Average round trip time: 13/13/13

    Square-Sum of round trip time: 169

  Extended results:

    Packet loss ratio: 0%

    Failures due to timeout: 0

    Failures due to disconnect: 0

    Failures due to no connection: 0

    Failures due to internal error: 0

    Failures due to other errors: 0

¡     如果display nqa { history | result | statistics }命令显示信息中的时间不是您关注的时间,很可能您配置的NQA测试未启动,请执行nqa schedule命令来启动NQA测试。

(2)     对于失败类型为Internal error、Unknown error的NQA测试,请参照以下步骤进行处理。

a.     明确NQA测试的目的地址。

执行display current-configuration [ configuration nqa ]查看NQA配置信息,显示信息中destination ipdestination ipv6命令携带的IP地址即为NQA测试的目的地址。如果该地址配置错误,请在系统视图执行undo nqa schedule命令停止NQA测试,在NQA测试组视图下执行destination ipdestination ipv6命令修改后,再重新开始测试。

b.     Ping NQA测试的目的地址,如果Ping不通,请先解决NQA测试的目的地址路由不可达问题。如果确定有去往NQA测试目的地址的数据链路,但是路由表无去往NQA测试的目的地址的路由,可在ICMP-echo测试类型视图下,配置out interface或者next-hop ip命令,NQA会跳过查路由表的环节,直接用指定的IP地址封装NQA测试报文。

c.     判断是否因为设备内存不足,导致NQA测试失败。

d.     执行display memory-threshold命令查看内存告警门限相关信息,如果Current free-memory state字段取值为Minor(一级告警门限状态)、Severe(二级告警门限状态)或Critical(三级告警门限状态),则说明设备内存不足,请先解决设备内存不足问题。

(3)     对于失败类型为Timeout的NQA测试,请参照以下步骤进行处理。

a.     明确NQA测试的目的地址。

执行display current-configuration [ configuration nqa ]查看NQA配置信息,显示信息中destination ipdestination ipv6命令携带的IP地址即为NQA测试的目的地址。如果该地址配置错误,请在系统视图执行undo nqa schedule命令停止NQA测试,在NQA测试组视图下执行destination ipdestination ipv6命令修改后,再重新开始测试。

b.     Ping NQA测试的目的地址,如果Ping不通,请先解决NQA测试的目的地址路由不可达问题。如果确定有去往NQA测试目的地址的数据链路,但是路由表无去往NQA测试的目的地址的路由,可在ICMP-echo测试类型视图下,配置out interface或者next-hop ip命令,NQA会跳过查路由表的环节,直接用指定的IP地址封装NQA测试报文。

c.     如果能Ping通,但是概率丢包,观察display nqa statistics时延结果最大值(Max round trip time)是否是接近ICMP-echo测试类型视图下probe timeout命令配置的值:

-     如果是,则说明链路时延较大,probe timeout配置值过小,请将probe timeout配置为大于Max round trip time的值。

-     如果否,则属于链路随机丢包,请重点关注是否存在接口CRC校验错误。针对测试响应报文的入接口执行display interface命令,显示信息中Input的CRC字段的取值即为CRC校验错误报文的数量。如果该数量持续较快增长,可能是传输链路中的元器件出现故障,需要进一步定位。

d.     使用和NQA测试完全相同的参数Ping NQA测试的目的地址,来帮助判断是否因为参数配置错误导致NQA测试失败。完全相同的参数包括:报文大小、出接口、下一跳、源地址、初始TTL。

-     如果可以Ping通,那么很有可能是探测路径上的安全设备过滤了NQA的探测报文。请进一步定位。

-     如果不可以Ping通,可进一步修改发包参数,观察是否可以Ping通。如果可以Ping通,则很有可能是因为参数配置错误导致NQA测试失败。

NQA探测缺省TTL取值为20,如果组网中测试报文的源到目的端的设备数量超过了20,请在ICMP-echo测试类型视图下执行ttl命令修改。

探测报文过大,导致分片过多,处理超时。可在ICMP-echo测试类型视图下执行data-size命令修改。

配置了错误的出接口、下一跳,可在ICMP-echo测试类型视图下执行out interfacenexthop命令修改。

配置了错误的源地址,可在ICMP-echo测试类型视图下执行source ipsource ipv6命令修改。(ICMP-echo测试不支持配置源端口,其它测试可能需要执行source port命令修改源端口)

配置了过小的探测超时时间,可在ICMP-echo测试类型视图下执行probe timeout命令修改。

-     如果始终无法ping通,则需要通过抓包、流量统计、查看调试信息等手段明确丢包原因。

(4)     如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。

¡     上述步骤的执行结果。

¡     设备的配置文件、日志信息、告警信息。

5. 告警与日志

相关告警

模块名:HH3C-NQA-MIB

·     hh3cNqaProbeFailure (1.3.6.1.4.1.25506.8.3.3.3)

·     hh3cNqaProbeTimeAboveThreshold (1.3.6.1.4.1.25506.8.3.3.10)

·     hh3cNqaProbeTimeBelowThreshold (1.3.6.1.4.1.25506.8.3.3.11)

·     hh3cNqaProbeFailAboveThreshold (1.3.6.1.4.1.25506.8.3.3.12)

·     h3cNqaProbeFailBelowThreshold (1.3.6.1.4.1.25506.8.3.3.13)

·     hh3cNqaTestFailure (1.3.6.1.4.1.25506.8.3.3.16)

相关日志

·     NQA/6/NQA_LOG_UNREACHABLE

·     NQA/6/NQA_PACKET_OVERSIZE

·     NQA/4/NQA_SCHEDULE_FAILURE

·     NQA/4/NQA_SEVER_FAILURE

·     NQA/6/NQA_START_FAILURE

1.1.2  TWAMP-light探测失败

1. 故障描述

设备作为源端,向目的端发起TWAMP-light探测。当出现以下任一情况时,均可判定TWAMP-light探测失败:

·     TWAMP-light探测状态异常

在设备上执行display nqa twamp-light client命令,显示信息中Status字段的取值为Inactive时,表明未启动TWAMP-light探测,TWAMP-light探测失败。

·     TWAMP-light探测结果异常

在设备上执行display nqa twamp-light client statistics two-way-loss test-session命令,当Loss count字段取值不为0时,表示网络中出现了TWAMP-light探测报文丢失的情况;当Error count字段取值不为0时,表示设备收到了错误的TWAMP-light探测报文。如果丢包和错包个数超过用户业务允许范围,就可以认为TWAMP-light会话探测失败。

2. 常见原因

·     对于探测状态异常的情况,本类故障的常见原因主要包括:

¡     L3VPN场景下VPN被删除。

¡     L2VPN场景下源AC状态down。

¡     如果配置了source interface命令,但接口板被拔出,接口不存在。

·     对于探测结果异常的情况,本类故障的常见原因主要包括:

¡     丢包问题

-     配置错误,客户端与服务器侧的配置不匹配

-     与探测目的地址路由不可达,Ping不通或者Ping出现丢包

-     接口CRC校验错误

¡     错包问题

-     配置错误,执行start命令启动TWAMP-light测试时,配置的timeout参数值过小,反射报文在timeout超时之后才到达设备,设备认为该报文为错包。

-     报文内容有不符合协议要求的字段

-     报文封装失败

3. 故障分析

本类故障的诊断流程如图图1-2所示:

图1-2 TWAMP-light探测失败的故障诊断流程图

 

4. 处理步骤

(1)     收集TWAMP-light探测状态及结果。

在设备上执行display nqa twamp-light clientdisplay nqa twamp-light client statistics two-way-loss test-session命令,明确存在问题的探测,并收集探测状态及结果。

¡     如果执行display nqa twamp-light client命令,显示信息中Status字段的取值为Inactive,则表示TWAMP-light探测状态异常。

<Sysname> display nqa twamp-light client

Brief information about all test sessions:

Total sessions: 1

Active sessions: 1

-----------------------------------------------------------------------------

ID    Status     Source IP/Port         Destination IP/Port

1     Active     1.1.1.1/10000          1.1.1.2/20000

¡     如果执行display nqa twamp-light client statistics two-way-loss test-session命令,显示信息中Loss count字段取值不为0,则表示TWAMP-light探测结果为丢包;显示信息中Error count字段取值不为0,则表示TWAMP-light探测结果为错包。

<Sysname> display nqa twamp-light client statistics two-way-delay test-session 1

Latest two-way loss statistics:

    Index         Loss count    Loss ratio    Error count    Error ratio

    1             200           100.0000%     0              0.0000%

    2             200           100.0000%     0              0.0000%

    3             200           100.0000%     0              0.0000%

    4             200           100.0000%     0              0.0000%

    5             200           100.0000%     0              0.0000%

--------------------------------------------------------------------------------

Average loss count  : 200             Average loss ratio  : 100.0000%

Maximum loss count  : 200             Maximum loss ratio  : 100.0000%

Minimum loss count  : 200             Minimum loss ratio  : 100.0000%

Average error count : 0               Average error ratio : 0.0000%

Maximum error count : 0               Maximum error ratio : 0.0000%

Minimum error count : 0               Minimum error ratio : 0.0000%

(2)     对于探测状态异常的情况,请参照以下步骤进行处理:

a.     如果设备刚启动、刚完成主备倒换或者配置的source interface所在接口板未完成启动时,请等待设备状态稳定后再观察探测状态是否恢复成Active。执行display system stable state命令,如果显示信息中System state字段的取值为Stable,则表示设备已经处于稳定状态。

-     如果恢复成Active,则无需继续处理。

-     如果未恢复成Active,请继续定位。

b.     如果设备已经稳定运行,请检查配置是否完整。

-     对于L3VPN场景,请执行display nqa twamp-light client verbose命令查看TWAMP-light探测绑定的VPN,并执行display ip vpn-instance命令查看该VPN是否存在。如果绑定的VPN不存在,请在系统视图下,执行ip vpn-instance命令来创建VPN实例。

-     对于L2VPN场景,请执行display nqa twamp-light client verbose命令查看Source interface字段的取值,如果取值为“-”,请在TWAMP-light测试的Client-session视图下执行source interface命令用来配置探测帧的源AC,且需要确保绑定的接口处于up状态。

c.     检查组网连接是否就绪。如果TWAMP-light探测绑定了源接口或者源AC,则要求源接口和源AC处于up状态。

-     执行display l2vpn pw xconnect-group或者display l2vpn forwarding ac命令,显示信息中State字段的取值表示AC的状态。如果AC状态为Down,请先解决AC故障问题。

-     执行display interface命令,显示信息中Current state、Line protocol state字段的取值表示接口的状态。如果接口状态为Down,请先保证接口UP。

(3)     针对探测结果丢包问题,请参照以下步骤进行处理:

a.     检查是否因为配置错误,导致丢包。

在设备上执行display nqa twamp-light client verbose命令,在探测目的端执行display nqa twamp-light responder命令,查看TWAMP-light探测参数。如果指定了以下参数,则要求源端和目的端的配置一致。

-     源IP地址。在源端,该参数可通过TWAMP-light测试的Client-session视图下的source ipsource ipv6命令修改。

-     源端口号。在源端,该参数可通过TWAMP-light测试的Client-session视图下的source port命令修改。

-     目的IP地址。在源端,该参数可通过TWAMP-light测试的Client-session视图下的destination ipdestination ipv6命令修改。

-     目的端口号。在源端,该参数可通过TWAMP-light测试的Client-session视图下的destination port命令修改。

-     VPN实例名称。在源端,该参数可通过TWAMP-light测试的Client-session视图下的vpn-instance命令修改。

-     VLAN ID。在源端,该参数可通过TWAMP-light测试的Client-session视图下的vlan命令修改。

-     源MAC地址。在源端,该参数可通过TWAMP-light测试的Client-session视图下的source mac命令修改。

-     目的MAC地址。在源端,该参数可通过TWAMP-light测试的Client-session视图下的destination mac命令修改。

以上参数,在探测目的端,均可通过TWAMP-light-responder视图下的test-session命令来修改。

TWAMP-light测试的其它配置要求如下:当源端(TWAMP-light sender)上时间戳类型配置为NTP,且测试报文的发包间隔配置为10ms或100ms时,设备会认为配置冲突,导致TWAMP_LIGHT测试启动失败。请在TWAMP-light-sender视图下通过start命令修改发包间隔,或者在TWAMP-light测试的Client-session视图下通过timestamp-format命令修改时间戳格式。

b.     在源端的用户视图依次执行terminal monitorterminal debuggingdebugging nqa errordebugging nqa event命令,打开NQA调试信息输出开关,让NQA调试信息通过登录终端的屏幕输出。然后在Probe视图下执行view /var/log/trace.log命令,可以查看NQA的Trace log信息。通过日志信息可以判断设备是否正常发送TWAMP-light探测报文、收到TWAMP-light响应报文、探测结果中的时间戳是否正常。

-     如果源端未正常发送TWAMP-light探测报文,请根据登录终端显示的NQA调试信息和Trace log信息来初步判定发包失败的原因,并根据发包失败的原因修改源端的TWAMP-light配置,并重新启动TWAMP-light探测。如果根据登录终端显示的NQA调试信息和Trace log信息无法解决源端未正常发送TWAMP-light探测报文的问题,可以执行以下命令收集显示信息,执行步骤(5)。

-     display ip statistics

-     display ipv6 statistics

-     display ethernet statistics

-     如果源端未正常收到TWAMP-light响应报文,可在目的端的系统视图执行nqa agent enable命令开启NQA client功能,然后返回用户视图依次执行terminal monitorterminal debuggingdebugging nqa packet命令,打开NQA报文调试信息输出开关。查看目的端是否收到NQA报文,NQA报文的配置是否正确。如果目的端未收到NQA报文,大概率是网络出现了故障,请继续参照下面的步骤定位网络故障。如果NQA报文配置错误,请参考步骤1.1.2  4. (3)a修改NQA配置后再重新开启测试。目的端可查看到的NQA报文调试信息示例:

-     

-     探测结果中的时间戳的关系应该为:CSendTime≤CRecvTime、SRecvTime≤SsendTime,且NQA server的处理时间SSendTime–SrecvTime值应该较小。如果未满足以上时间戳的要求,则表示时间戳异常。请收集时间戳信息及执行display device命令收集设备板卡信息,执行步骤(5)。

Trace log信息示例:

*May  6 00:36:24:900 2023 Sysname NQA/7/KDIAG: send packt, session 1, ucSampler 187.

// 以上调试信息表明设备发送了一个TWAMP-light探测报文

*May  6 00:36:24:901 2023 Sysname NQA/7/KDIAG: Twmap Recv Pakcet ucSampler=187

// 以上调试信息表明设备收到了一个TWAMP-light响应报文

*May  6 00:36:24:901 2023 Sysname NQA/7/KDIAG: cSendSec is 1683304584, cSendFrac is 900923500, sRecvSec is 1683304584, sRecvFrac is 835000000,cRecvSec is 1683304584, cRecvFrac is 901923500, sSendSec is 1683304584, sSendFrac is 835000000

*May  6 00:36:24:901 2023 Sysname NQA/7/KDIAG: nqa entry (twamplight?session-1) Sampler(187) client time:

  CSendTime=1683304584900923    CRecvTime=1683304584901923      SRecvTime=1683304584835000      SSendTime=1683304584835000

// 以上调试信息表明设备进行一次TWAMP-light探测获取到的时间戳

c.     检查是否因为网络故障,导致丢包。对检测目的地址执行ping命令,如果Ping失败或者有丢包,请先解决网络故障。

d.     检查是否因为CRC校验错误,导致丢包。

e.     执行display counters命令,如果显示信息中Err (pkts)字段的取值随着探测的进行在不断增长,则表示链路层发包出现错误,请更换接口或者线缆来尝试解决该故障。

(4)     针对探测结果错包问题,请参照以下步骤进行处理:

a.     确认是否因为配置错误,导致设备将迟到的TWAMP-light响应报文误认为是错包。

-     在源端对探测目的端执行ping命令,探测源端到目的端的最大时延(对应Ping结果中round-trip min/avg/max/std-dev字段中max的取值,单位为ms)。

-     在设备上执行display nqa twamp-light client verbose命令,查看TWAMP-light响应报文的超时时间(对应显示信息中Timeout(sec)字段的值)。TWAMP-light响应报文的超时时间必须大于源端到目的端的最大时延,否则,请在TWAMP-light-sender视图下执行start命令重新指定time-out参数的值。

b.     在源端的用户视图依次执行terminal monitorterminal debuggingdebugging nqa errordebugging nqa event命令,打开NQA调试信息输出开关,让NQA调试信息通过登录终端的屏幕输出。然后在Probe视图下执行view /var/log/trace.log命令,查看NQA的Trace log信息。通过日志信息判断报文内容是否符合协议要求、报文封装是否正确。如果报文内容不符合协议要求、报文封装不正确,请参照TWAMP-light配置手册要求,重新配置TWAMP-light探测。

(5)     如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。

¡     上述步骤的执行结果。

¡     设备的配置文件、日志信息、告警信息。

5. 告警与日志

相关告警

模块名:HH3C-TWAMP-MIB

·     hh3cTwampTwoWayLossExceed(1.3.6.1.4.1.25506.2.184.1.0.1)

·     hh3cTwampTwoWayLossRecover(1.3.6.1.4.1.25506.2.184.1.0.2)

·     hh3cTwampTwoWayDelayExceed(1.3.6.1.4.1.25506.2.184.1.0.3)

·     hh3cTwampTwoWayDelayRecover(1.3.6.1.4.1.25506.2.184.1.0.4)

·     hh3cTwampTwoWayJitterExceed(1.3.6.1.4.1.25506.2.184.1.0.5)

·     hh3cTwampTwoWayJitterRecover(1.3.6.1.4.1.25506.2.184.1.0.6)

·     hh3cTwampSenderStartFailure(1.3.6.1.4.1.25506.2.184.1.0.9)

·     hh3cTwampStatisticsAbnormal(1.3.6.1.4.1.25506.2.184.1.0.11)

相关日志

·     NQA/6/NQA_TWAMP_LIGHT_PACKET_INVALID

·     NQA/6/NQA_TWAMP_LIGHT_REACTION

·     NQA/6/NQA_TWAMP_LIGHT_SENDER_START_FAILURE

·     NQAS/6/NQA_TWAMP_LIGHT_START_FAILURE

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们