• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

21-智能运维配置指导

目录

03-一键诊断配置

本章节下载 03-一键诊断配置  (308.01 KB)

03-一键诊断配置


1 一键诊断

1.1  一键诊断简介

一键诊断是设备提供的一种智能诊断功能,可以24小时不间断、全方位地对各业务模块故障进行自动发现、自动诊断。用户可根据需要开启或关闭一键诊断功能。

1.1.1  一键诊断功能

一键诊断主要包括以下两个方面的功能:

·     业务模块健康度的一键诊断

该功能用于诊断业务模块能否正常提供服务。如果业务模块功能异常,或者运行状态错误,导致业务模块无法正常提供服务,系统会判定业务模块发生了不健康事件,并记录不健康事件的相关信息,便于用户了解业务模块的运行状态。

·     业务功能的一键诊断

该功能用于诊断业务模块的功能是否运行正常,帮助用户定位业务功能异常问题。例如SNMP Trap发送失败一键诊断用于诊断是否出现过SNMP Trap发送失败事件以及失败的原因。

1.1.2  业务功能一键诊断原理

说明

本章节内容适用于业务功能的一键诊断。业务模块健康度的一键诊断是使用业务模板的当前运行数据判断业务模块当前是否运行正常,是否健康。

 

1. 测试例和测试项

Comware研发团队基于日常网络维护经验,并结合客户历史申报的故障进行大数据分析,总结出典型的故障模式,设计出专业的测试用例(以下简称测试例)、测试项,提供常见故障诊断。其中:

·     测试例为设备启动软件包中携带的脚本文件,用来对设备硬件和软件功能进行检测。

·     测试例中可能包含多个测试项,每个测试项代表设备硬件中的某个部件或者功能点。

图1-1 测试例和测试项示意图

 

2. 原理概述

用户自行在设备上执行测试项,设备运行测试项对应的脚本,自动采样设备的运行数据,获取设备、业务的运行状态,自动对这些数据进行分析、诊断,给出诊断结论和处理建议,对指定的故障进行一键诊断。

一键诊断是GOLD(Generic OnLine Diagnostics,通用在线诊断)模块的子功能。业务模块和GOLD模块配合可以实现针对业务模块的一键诊断功能。为满足不同业务模块故障诊断的需要,设备支持以下方式的一键诊断:

·     仅根据历史数据进行一键诊断

·     仅根据当前运行数据进行一键诊断

·     根据历史数据或者当前数据进行一键诊断

·     执行一次性动作,并根据动作执行结果来进行一键诊断

3. 仅根据历史数据进行一键诊断

部分测试项会根据业务模块的历史运行数据,进行本模块功能的一键诊断。如图1-2所示,根据历史数据进行一键诊断的处理流程如下:

(1)     用户开启测试项的一键诊断功能并完成业务模块的配置后,业务模块按周期对测试项监控的对象进行采样,并将采样值记录到GOLD模块的数据库。

说明

不同诊断功能的采样对象以及采样周期可能不同。采样对象以及采样周期已经在测试脚本中明确,不支持命令行配置。

 

(2)     用户执行一键诊断命令。

(3)     GOLD模块从数据库中获取该测试例对应的历史数据,测试例对获取到的历史数据进行分析,并获得诊断结果。

(4)     设备通过命令行界面输出诊断结果。

图1-2 根据历史数据进行一键诊断原理图

 

例如,开启SNMP Trap发送失败事件一键诊断功能后,设备运行过程中,SNMP Trap发送失败测试项会将SNMP Trap发送失败事件的相关信息(NMS的IP地址、Trap的发送时间、使用的安全字等信息)保存到GOLD模块。当进行SNMP Trap发送失败事件一键诊断时,设备会显示GOLD模块保存的所有Trap发送失败事件的信息,帮助用户定位SNMP Trap发送失败的问题。

4. 仅根据当前运行数据进行一键诊断

部分业务功能仅关注当前运行状态,这些业务功能的测试项会从开启诊断功能开始,持续收集一段时间的运行数据,并根据这些数据进行本模块功能的一键诊断。如图1-3所示,根据当前运行数据进行一键诊断的处理流程如下:

(1)     用户开启测试项的一键诊断功能并完成业务模块的配置后,业务模块会和GOLD模块建立LIPC(Leopard Inter-process Communication,Leopard版本进程间通信)连接。LIPC连接为一种设备内部进程间的通信通道。

(2)     用户执行一键诊断命令。

(3)     GOLD模块通知业务模块开始诊断,并告知诊断持续时间等诊断参数。

(4)     业务模块会按周期对测试项监控的对象进行采样,并将采样值记录到GOLD模块的数据库。(采样周期的取值由业务模块在出厂时固定,不同功能使用的采样周期可能不同)

(5)     等待诊断预计持续时间到达,GOLD模块通知业务模块诊断结束。

(6)     测试例通知GOLD模块去数据库取业务模块记录的数据,并对获取到的数据进行分析,获得诊断结果。

(7)     设备通过命令行界面输出诊断结果。

图1-3 根据当前运行数据进行一键诊断原理图

 

5. 根据历史数据或者当前数据进行一键诊断

部分测试项提供的诊断非常灵活,用户可通过命令行参数,选择使用历史数据一键诊断历史故障,也可以根据当前运行数据一键诊断当前故障。

6. 执行一次性动作,并根据动作执行结果进行一键诊断

部分业务模块的一键诊断功能无需周期采样,也无需存储采样数据。用户执行一键诊断命令行,就会触发业务模块执行一次性动作(一次性动作是指一个或一组命令行),并根据动作执行结果来进行故障分析和诊断。

例如,执行Ping失败事件一键诊断,设备会使用命令行指定的参数Ping指定的IP地址,显示Ping操作的执行结果。如果Ping失败,设备还会显示失败原因,帮助用户定位Ping失败的问题。

1.2  支持一键诊断的业务

支持业务功能一键诊断的业务模块包括:NETCONF、SNMP、CPU、MEMORY、OSPF等,可通过执行diagnostic troubleshooting test 命令来获取支持一键诊断的业务模块,执行diagnostic troubleshooting test test-name 命令来获取支持一键诊断的业务功能。

支持健康度一键诊断功能的业务模块包括VXLAN等,可通过执行diagnostic troubleshooting health module 命令来获取支持一键诊断的业务模块。

1.3  一键诊断配置任务简介

本文中描述的一键诊断配置任务均为可选配置,请根据运维需要选择配置。

1.4  CPU一键诊断

1.4.1  配置CPU利用率超门限一键诊断

1. 功能简介

系统每隔1分钟对CPU利用率进行一次采样。开启CPU利用率超门限事件一键诊断功能后,如果设备本次CPU利用率的采样值大于CPU利用率低级别告警门限(CPU利用率告警门限可通过monitor cpu-usage threshold命令配置),则设备认为CPU利用率超门限,会在GOLD模块的内存中记录一条CPU利用率超门限事件。

执行CPU利用率超门限一键诊断后,设备会显示下列信息,以帮助用户定位CPU利用率高的问题。

·     最近CPU利用率的采样值(最多显示7条)。

·     显示最近CPU超门限事件记录(最多显示7条)。

·     显示最近一次CPU利用率超门限事件发生时CPU利用率排名前五的进程的信息。

CPU利用率告警功能的详细描述请参见“设备管理配置指导”中的“硬件资源管理”。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     开启CPU利用率超门限事件一键诊断功能。

diagnostic troubleshooting test cpu high-ratio enable

缺省情况下,CPU利用率超门限事件一键诊断功能处于开启状态。

(3)     对CPU利用率超门限事件进行一键诊断。

diagnostic troubleshooting test cpu high-ratio

1.4.2  配置CPU利用率突增一键诊断

1. 功能简介

使用diagnostic monitor enable命令开启名称为cpu-overload的监控诊断测试例后,设备每执行一次监控诊断测试例cpu-overload,会对CPU利用率采样一次,该采样值用于CPU利用率突增事件一键诊断。

开启CPU利用率突增事件一键诊断功能后,如果设备本次CPU利用率的采样值减去上一次采样值的结果大于10%,则认为CPU利用率突增,会在GOLD模块的内存中记录一条CPU利用率突增事件。

执行CPU利用率突增一键诊断后,设备会显示下列信息,以帮助用户定位CPU利用率突增的问题。

·     显示最近CPU利用率突增事件,最多显示7条。

·     显示最近一次CPU利用率突增事件发生时CPU利用率排前五的进程的信息。

2. 配置限制和指导

监控诊断测试例cpu-overload缺省处于开启状态,可通过diagnostic monitor enable来配置。监控诊断测试例cpu-overload的执行周期缺省为30分钟,可通过diagnostic monitor interval命令修改。关于diagnostic monitor enablediagnostic monitor interval命令的相关描述,请参见“网络管理和监控命令参考”中的“GOLD”。

3. 配置步骤

(1)     进入系统视图。

system-view

(2)     开启CPU利用率突增事件一键诊断功能。

diagnostic troubleshooting test cpu overload enable

缺省情况下,CPU利用率突增事件一键诊断功能处于开启状态。

(3)     对CPU利用率突增事件进行一键诊断。

diagnostic troubleshooting test cpu overload

1.5  内存一键诊断

1.5.1  配置剩余内存超门限一键诊断

1. 功能简介

系统每隔5秒对剩余内存进行一次采样。开启内存超门限事件一键诊断功能后,如果设备当前剩余内存采样值小于等于一级内存告警门限(内存告警门限可通过memory-threshold命令配置),则设备认为剩余内存超门限,会在GOLD模块的内存中记录一条剩余内存超门限事件。

执行剩余内存超门限一键诊断后,设备会显示当前内存使用情况以及最近剩余内存超过告警门限的事件,最多显示7条,帮助用户定位系统剩余内存不足的问题。

内存告警功能的详细描述请参见“设备管理配置指导”中的“硬件资源管理”。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     开启剩余内存超门限事件一键诊断功能。

diagnostic troubleshooting test memory high-ratio enable

缺省情况下,剩余内存超门限事件一键诊断功能处于开启状态。

(3)     对剩余内存超门限事件进行一键诊断。

diagnostic troubleshooting test memory high-ratio

1.5.2  配置内存使用量突增一键诊断

1. 功能简介

使用diagnostic monitor enable命令开启名称为memory-overload的监控诊断测试例后,设备每执行一次监控诊断测试例memory-overload,会对内存使用量采样一次,该采样值用于内存使用量突增事件一键诊断。

开启内存使用量突增事件一键诊断功能后,如果设备本次内存使用量的采样值减去上一次采样值的结果大于50M,则认为内存使用量突增,会在GOLD模块的内存中记录一条内存使用量突增事件。

执行内存使用量突增事件一键诊断后,设备会显示下列信息,以帮助用户定位系统剩余内存不足的问题。

·     显示最近内存使用量突增事件,最多显示7条。

·     显示最近一次内存使用量突增事件发生时内存使用量排前五的进程的信息。

2. 配置限制和指导

监控诊断测试例memory-overload缺省处于开启状态,可通过diagnostic monitor enable来配置。监控诊断测试例memory-overload的执行周期缺省为12小时,可通过diagnostic monitor interval命令修改。关于diagnostic monitor enablediagnostic monitor interval命令的相关描述,请参见“网络管理和监控命令参考”中的“GOLD”。

3. 配置步骤

(1)     进入系统视图。

system-view

(2)     开启CPU利用率突增事件一键诊断功能。

diagnostic troubleshooting test memory overload enable

缺省情况下,CPU利用率突增事件一键诊断功能处于开启状态。

(3)     对CPU利用率突增事件进行一键诊断。

diagnostic troubleshooting test memory overload

1.6  Ping一键诊断

1. 功能简介

配置本功能后,设备会使用命令行中指定的参数,Ping指定的IP地址,并显示Ping结果。如果Ping失败,还会显示失败原因,帮助用户定位Ping失败的问题。

Ping相关介绍请参见“网络管理和监控配置指导”中的“Ping和Tracert”。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     开启Ping失败事件一键诊断功能。

diagnostic troubleshooting test ping failed-reason enable

缺省情况下,Ping失败事件一键诊断功能处于开启状态。

(3)     对Ping失败事件进行一键诊断。

diagnostic troubleshooting test ping failed-reason [ -a source-ip | -f | -i interface-type interface-number | -s packet-size | -t timeout ] [ vpn-instance vpn-instance-name ] { ip-address ipv4-address | ipv6-address ipv6-address }

1.7  SNMP一键诊断

1.7.1  配置SNMP报文处理失败一键诊断

1. 功能简介

配置本功能后,设备会记录诊断持续时间内,SNMP发送以及接收失败的报文的信息。待诊断持续时间到达时,汇总并显示这些记录信息,帮助用户定位SNMP报文处理失败的问题。

SNMP功能的基本配置请参见“网络管理和监控配置指导”中的“SNMP”。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     开启SNMP报文处理失败事件一键诊断功能。

diagnostic troubleshooting test snmp-agent packet-process-failure enable

缺省情况下,SNMP报文处理失败事件一键诊断功能处于开启状态。

(3)     对SNMP报文处理失败事件进行一键诊断。

diagnostic troubleshooting test snmp-agent packet-process-failure [ ip-address ipv4-address | ipv6-address ipv6-address ] [ vpn-instance vpn-instance-name ] [ diagnose-time diagnostic-time ]

1.7.2  配置SNMP报文处理耗时一键诊断

1. 功能简介

配置本功能后,设备会记录诊断持续时间内,SNMP处理每个报文需要的时间信息。待诊断持续时间到达时,汇总并显示这些记录信息,帮助用户定位SNMP报文处理耗时过长的问题。

SNMP功能的基本配置请参见“网络管理和监控配置指导”中的“SNMP”。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     开启SNMP报文处理耗时事件一键诊断功能。

diagnostic troubleshooting test snmp-agent packet-process-time enable

缺省情况下,SNMP报文处理耗时事件一键诊断功能处于开启状态。

(3)     对SNMP报文处理耗时事件进行一键诊断。

diagnostic troubleshooting test snmp-agent packet-process-time [ ip-address ipv4-address | ipv6-address ipv6-address ] [ vpn-instance vpn-instance-name ] [ diagnose-time diagnostic-time ]

1.7.3  配置SNMP Trap发送失败一键诊断

1. 功能简介

开启SNMP Trap发送失败事件一键诊断功能后,当SNMP Trap发送失败,SNMP会将Trap发送失败事件的相关信息记录下来。执行SNMP Trap发送失败事件一键诊断时,设备会显示这些记录的信息,帮助用户定位SNMP Trap发送失败的问题。

SNMP功能的基本配置请参见“网络管理和监控配置指导”中的“SNMP”。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     开启SNMP Trap发送失败事件一键诊断功能。

diagnostic troubleshooting test snmp-agent trap-send-failure enable

缺省情况下,SNMP Trap发送失败事件一键诊断功能处于开启状态。

(3)     对SNMP Trap发送失败事件进行一键诊断。

diagnostic troubleshooting test snmp-agent trap-send-failure [ ip-address ipv4-address | ipv6-address ipv6-address ]

1.8  BGP一键诊断

1.8.1  配置BGP模块健康度一键诊断

1. 功能简介

开启BGP模块健康度一键诊断功能并完成BGP配置后,系统将开始监控BGP模块的运行状态,BGP模块会将监控到的不健康事件信息记录到GOLD模块。当管理员对BGP模块执行一次性健康度一键诊断时,BGP模块会去GOLD模块调取该模块的不健康信息记录,并判断BGP模块是否处于健康状态。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     (可选)开启BGP模块健康度一键诊断功能。

diagnostic troubleshooting health module bgp enable

缺省情况下,BGP模块健康度一键诊断功能处于开启状态。

(3)     对BGP模块执行一次健康度诊断。

diagnostic troubleshooting health module bgp

1.8.2  配置BGP会话建立失败事件一键诊断

1. 功能简介

本功能可以通过以下两种方式配置:

·     对指定实例下的所有BGP会话建立失败事件进行一键诊断:BGP会话建立失败事件一键诊断功能处于开启状态时,设备会自动将BGP会话建立失败的信息记录到GOLD(Generic OnLine Diagnostics,通用在线诊断)模块的内存中。配置本功能后,设备会显示GOLD模块内存中记录的BGP会话建立失败诊断信息。诊断信息包括产生诊断信息的时间、产生诊断信息的原因等,帮助用户定位BGP会话建立失败的原因。

·     对单个指定对等体的BGP会话建立失败事件进行一键诊断:配置本功能后,设备会在指定的诊断持续时间内,重新尝试与未能成功建立BGP会话的对等体建立连接,并记录和显示在持续时间内BGP会话建立失败的诊断信息。诊断信息包括产生诊断信息的时间、产生诊断信息的原因等,帮助用户定位BGP会话建立失败的原因。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     (可选)开启一键诊断功能。

¡     开启指定实例下所有BGP会话建立失败事件一键诊断功能。

diagnostic troubleshooting test establish-abnormal bgp enable

缺省情况下,指定实例下所有BGP会话建立失败事件一键诊断功能处于开启状态。

¡     开启单个对等体BGP会话建立失败事件一键诊断功能。

diagnostic troubleshooting test peer-establish-abnormal bgp enable

缺省情况下,单个BGP会话建立失败事件一键诊断功能处于开启状态。

(3)     对BGP会话建立失败事件进行一键诊断。

¡     对指定实例下的所有BGP会话建立失败事件进行一键诊断。

diagnostic troubleshooting test establish-abnormal bgp [ instance instance-name ] [ vpn-instance vpn-instance-name ]

¡     对指定对等体的BGP会话建立失败事件进行一键诊断。

diagnostic troubleshooting test peer-establish-abnormal bgp [ instance instance-name ] [ vpn-instance vpn-instance-name ] peer { ip-address ipv4-address | ipv6-address ipv6-address } [ diagnostic-time diagnostic-time ]

1.8.3  配置BGP会话断开事件一键诊断

1. 功能简介

BGP会话断开事件一键诊断功能处于开启状态时,设备会自动将BGP会话断开的信息记录到GOLD(Generic OnLine Diagnostics,通用在线诊断)模块的内存中。配置本功能后,设备会显示GOLD模块内存中记录的BGP会话断开诊断信息。诊断信息包括产生诊断信息的时间、产生诊断信息的原因等,帮助用户定位BGP会话断开的原因。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     (可选)开启一键诊断功能。

¡     开启指定实例下所有BGP对等体的会话断开事件一键诊断功能。

diagnostic troubleshooting test flap bgp enable

缺省情况下,所有BGP对等体的会话断开事件一键诊断功能处于开启状态。

¡     开启单个BGP对等体的会话断开事件一键诊断功能。

diagnostic troubleshooting test peer-flap bgp enable

缺省情况下,单个BGP对等体的会话断开事件一键诊断功能处于开启状态。

(3)     对BGP会话断开事件进行一键诊断。

¡     对指定实例下的所有BGP会话断开事件进行一键诊断。

diagnostic troubleshooting test flap bgp [ instance instance-name ] [ vpn-instance vpn-instance-name ]

¡     对指定对等体的BGP会话断开事件进行一键诊断。

diagnostic troubleshooting test peer-flap bgp [ instance instance-name ] [ vpn-instance vpn-instance-name ] peer { ip-address ipv4-address | ipv6-address ipv6-address }

1.9  显示测试例内容

可在任意视图下执行以下命令,显示测试例的内容。

display diagnostic content [ slot slot-number ] [ verbose ]

关于display diagnostic content命令的详细介绍请参见“智能运维命令参考”中的“GOLD”。

1.10  显示测试例执行结果

可在任意视图下执行以下命令,显示测试例的执行结果。

display diagnostic result [ slot slot-number [ test test-name ] ] [ verbose ]

关于display diagnostic result命令的详细介绍请参见“智能运维命令参考”中的“GOLD”。

1.11  清除测试例执行结果

请在用户视图下执行以下命令,清除诊断测试结果。

reset diagnostic result [ slot slot-number [ test test-name ] ]

关于reset diagnostic result命令的详细介绍请参见“智能运维命令参考”中的“GOLD”。

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们