01-KPI数据采集配置
本章节下载: 01-KPI数据采集配置 (306.47 KB)
目 录
设备的KPI(Key Performance Indicator,关键性能指标)用来表示某一时刻设备运行状态的一系列性能值。设备运行过程中自动采集KPI数据并将KPI数据存储在Flash介质中。
KPI数据采集功能可以周期性采集各种类型的设备性能指标,实时记录大量性能指标数据,用户可根据采集到的KPI信息了解设备运行状态、业务故障时间点、业务故障类型和疑似故障原因,通过这些信息快速定位故障。
KPI数据采集功能收集到的数据量巨大,且采集的数据种类丰富,例如,采集到设备上某单板的CPU利用率为50%,该数据属于描述设备容量类的性能参数,同时,该参数还属于设备资源管理的业务模块,归属于某块单板,其具体指标为50%,为了方便描述所有类型的数据,对数据进行分类和检索,KPI采集到的数据以结构化信息来呈现,并且从以下四个维度来定义数据信息:
· 指标(Indicator):KPI数据采集功能采集的性能参数和状态,例如CPU利用率、内存利用率、FIB转发表项利用率、ARP表项资源利用率、各类板卡故障、电源故障、单板温度异常数据等等。
· 对象(Object):指标所属的设备、单板或子卡等物理实体,为了表示这些物理实体,定义了一类数据来标识对象。随着KPI采集功能可以采集到的指标越来越多,对象的种类也会越来越丰富,根据对象的类型不同,取值也各不相同,目前支持以下取值类型:
¡ device:标识设备。该对象的指标用来表示设备整体的情况。
¡ chassis.x/slot.y:标识单板。该对象的指标用于标识某个单板性能和状态,取值为chassis.x/slot.y,其中x取值为0,y表示单板所在的槽位号。
¡ chassis.x/slot.y/subslot.z:标识子卡,该对象的指标用于标识该子卡的性能和状态,取值为chassis.x/slot.y/subslot.z,其中x取值为0,y表示单板所在的槽位号,z表示子卡编号。
¡ interface-typeinterface-number:标识接口,该对象的指标用于标识某个物理接口的运行状态指标,对象取值为接口类型和接口编号。
· 业务模块(Module):指标所属的业务功能模块,例如CPU利用率和内存利用率属于设备资源模块(模块名称为DEV-RES),FIB转发表项利用率和ARP表项资源利用率属于转发资源模块(模块名称为FWD-RES)。
· KPI类(Class):某一类指标的集合。一些KPI数据指标可以用来衡量设备某方面的运行状态,可以将这些指标划分为一个KPI类,系统中预定义了一些KPI类,例如网络性能类(Net-performace),端口状态类(Port-state)。
KPI数据采集的工作机制如图1-1所示:
图1-1 KPI数据采集的工作机制示意图
(1) 数据采集:设备开启对指定业务模块的KPI数据采集功能后,KPI进程按一定时间周期采集该业务模块的数据指标。KPI进程将采集到的数据指标临时保存在设备内存中。缺省情况下,KPI数据指标采集周期为300秒,可以自定义修改指标的采集周期。
(2) 数据存储:KPI进程每隔一定周期将采集到的数据指标存储到Flash存储介质上。当存储介质的剩余空间不足或者现有存储介质上KPI采集数据文件总大小超出一定阈值时,KPI进程将主动老化早期的KPI数据,删除最早的KPI数据。
|
KPI类 |
业务模块 |
对象 |
指标名称 |
指标说明 |
|
Device-state (设备状态类) |
DEV |
单板 |
Device restarts |
设备反复重启次数 |
|
IRF(暂不支持) |
设备 |
IRF splits |
框式堆叠的分裂次数 |
|
|
IRF(暂不支持) |
设备 |
IRF dual-active count |
框式堆叠出现双主次数 |
|
|
DEV |
单板 |
LPU failures |
接口板故障次数 |
|
|
DEV |
单板 |
MPU state |
主控板状态,取值为: · 0:不在位 · 1:正常 · 2:故障 |
|
|
DEV |
单板 |
MPU failures |
主控板故障次数 |
|
|
DEV |
单板 |
SFU state |
交换网板状态,取值为: · 0:不在位 · 1:正常 · 2:故障 |
|
|
DEV |
单板 |
SFU failures |
交换网板故障次数 |
|
|
DEV |
子卡 |
Subslot failure |
子卡故障次数 |
|
|
FWD |
设备 |
Inc H&S entries(Inconsistent hardware and software entries) |
软硬件表项不一致数量 |
|
|
FAN |
设备 |
Fan state |
风扇状态,取值为: · 0:正常 · 1:故障 |
|
|
POWER |
设备 |
Power state |
电源状态,取值为: · 0:正常 · 1:故障 |
|
|
POE |
设备 |
PoE state |
PoE供电状态,取值为: · 0:正常 · 1:故障 |
|
|
TEMP |
设备 |
Card temperature |
单板温度,取值为: · 0:正常 · 1:故障 |
|
|
FS |
设备 |
File exceptions |
文件系统异常,保存失败次数 |
|
|
DEV |
设备 |
Process abnormal reboot |
进程异常重启次数 |
|
|
DEV |
设备 |
Process normal reboot |
进程正常重启次数 |
|
|
Device-resource (设备容量类) |
FWD-RES |
单板 |
ARP entry usage |
ARP表项利用率(used/total) |
|
FWD-RES |
单板 |
ARP threshold ratio |
ARP表项使用的数量和ARP表项使用阈值的比值(used/threshold) |
|
|
FWD-RES |
单板 |
MAC entry usage |
MAC表项利用率(used/total) |
|
|
FWD-RES |
单板 |
MAC threshold ratio |
MAC表项使用的数量和MAC表项使用阈值的比值(used/threshold) |
|
|
FWD-RES |
单板 |
FIB entry usage |
FIB转发表项利用率(used/total) |
|
|
FWD-RES |
单板 |
FIB threshold ratio |
FIB转发表项使用的数量和FIB转发表项使用阈值的比值(used/threshold) |
|
|
FWD-RES |
单板 |
ND entry usage |
ND转发表项利用率(used/total) |
|
|
FWD-RES |
单板 |
ND threshold ratio |
ND转发表项使用的数量和ND转发表项使用阈值的比值(used/threshold) |
|
|
FWD-RES |
单板 |
IPv4L2multicast usage |
IPv4二层组播表项利用率(used/total) |
|
|
FWD-RES |
单板 |
IPv4L2multicast ratio |
IPv4二层组播表项使用程度,已使用的表项和阈值比值(used/threshold) |
|
|
FWD-RES |
单板 |
IPv6L2multicast usage |
IPv6二层组播表项利用率(used/total) |
|
|
FWD-RES |
单板 |
IPv6L2multicast ratio |
IPv6二层组播表项使用程度,已使用的表项和阈值比值(used/threshold) |
|
|
FWD-RES |
单板 |
IPv4L3multicast usage |
IPv4三层组播表项利用率(used/total) |
|
|
FWD-RES |
单板 |
IPv4L3multicast ratio |
IPv4三层组播表项资源使用程度,已使用的表项和阈值比值(used/threshold) |
|
|
FWD-RES |
单板 |
IPv6L3multicast usage |
IPv6三层组播表项利用率(used/total) |
|
|
FWD-RES |
单板 |
IPv6L3multicast ratio |
IPv6三层组播表项使用程度,已使用的表项和阈值比值(used/threshold) |
|
|
ACL-RES |
单板 |
ACL usage |
ACL资源利用率(used/total) |
|
|
ACL-RES |
单板 |
ACL threshold ratio |
ACL资源使用程度(used/threshold),已使用的表项和阈值比值 |
|
|
STOR-RES |
单板 |
Storage usage |
存储空间利用率(used/total) |
|
|
STOR-RES |
单板 |
Storage threshold ratio |
存储空间使用程度(used/threshold),已使用的资源和阈值比值 |
|
|
DEV-RES |
单板 |
CPU usage |
CPU利用率(used/total) |
|
|
DEV-RES |
单板 |
CPU threshold ratio |
CPU使用程度(used/threshold),已使用的资源和阈值比值 |
|
|
DEV-RES |
单板 |
Memory usage |
内存利用率(used/total) |
|
|
DEV-RES |
单板 |
Memory threshold ratio |
内存使用程度(used/threshold),已使用的资源和阈值比值 |
|
|
Net-performance (网络性能类) |
LOOP-DCT |
设备 |
L2 loop state |
二层环路状态,取值为: · 0:正常 · 1:故障 |
|
IF-CI |
接口 |
Port congestion |
端口拥塞导致的丢包数 |
|
|
IF-ERROR |
接口 |
Port error |
端口错包导致的丢包数 |
|
|
CPCAR |
设备 |
CPCAR loss |
控制平面配置流量监管进行限速导致的丢包数量 |
|
|
STP-SWT |
设备 |
STP switchovers |
STP切换次数 |
|
|
LACP-SWT |
设备 |
LACP switchovers |
链路聚合切换次数 |
|
|
IRF-SWT |
设备 |
IRF switchovers |
堆叠切换次数 |
|
|
DRNI-SWT |
设备 |
DRNI switchovers |
M-LAG切换次数 |
|
|
RRPP-SWT |
设备 |
RRPP switchovers |
RRPP切换次数 |
|
|
VRRP-SWT |
设备 |
VRRP switchovers |
VRRP切换次数 |
|
|
IF-USAGE |
设备 |
Port BW usage |
所有端口的带宽利用率 |
|
|
Port-state (端口状态类) |
PORT-ST |
设备 |
Down ports |
处于down状态的物理接口数量 |
|
PORT-ST |
设备 |
Port flappings |
端口震荡次数 |
|
|
TRAN-ST |
设备 |
Opti-module health |
光模块的健康度 |
|
|
Net-connection (网络链接类) |
RPNCS |
设备 |
ISIS peer status |
ISIS协议邻居连接状态,取值为 · 0:正常 · 1:故障 |
|
RPNCS |
设备 |
OSPF peer status |
OSPF协议邻居连接状态,取值为 · 0:正常 · 1:故障 |
|
|
RPNCS |
设备 |
OSPv3 peer status |
OSPFv3协议邻居连接状态,取值为 · 0:正常 · 1:故障 |
|
|
RPNCS |
设备 |
BGP peer status |
BGP协议邻居连接状态,取值为 · 0:正常 · 1:故障 |
|
|
MCRCS |
设备 |
Multicast connection status |
组播路由连接状态,取值为 · 0:正常 · 1:故障 |
|
|
DHCPCS |
设备 |
DHCPv4 server state |
DHCPv4 sever状态,取值为 · 0:正常 · 1:故障 |
|
|
DHCPCS |
设备 |
DHCPv6 server state |
DHCPv6 sever状态,取值为 · 0:正常 · 1:故障 |
|
|
DHCPCS |
设备 |
DHCPv4 server switching |
DHCPv4 sever切换次数 |
|
|
DHCPCS |
设备 |
DHCPv6 server switching |
DHCPv6 sever切换次数 |
|
|
DHCPCS |
设备 |
DHCPv4 entry failures |
DHCPv4表项建立失败的次数 |
|
|
DHCPCS |
设备 |
DHCPv6 entry failures |
DHCPv6表项建立失败的次数 |
|
|
Net-security (网络安全类) |
AAA |
设备 |
1X AuthN status |
802.1x认证状态,取值为 · 0:表示认证正常 · 1:表示认证异常,可能存在802.1X认证攻击 |
|
AAA |
设备 |
1X Usr&Pwd status |
802.1x用户名密码状态,取值为 · 0:表示用户名/密码正确 · 1:表示用户名/密码错误 |
|
|
AAA |
设备 |
MAC AuthN status |
MAC地址认证状态,取值为 · 0:表示认证正常 · 1:表示认证异常,可能存在攻击 |
|
|
AAA |
设备 |
MAC Usr&Pwd status |
MAC地址认证用户名密码状态,取值为 · 0:表示用户名/密码正确 · 1:表示用户名/密码错误 |
|
|
AAA |
设备 |
Portsec AuthN status |
端口安全认证状态,取值为 · 0:表示认证正常 · 1:表示认证异常,可能存在攻击 |
|
|
AAA |
设备 |
Portsec Usr&Pwd status |
端口安全用户名密码状态,取值为 · 0:表示用户名/密码正确 · 1:表示用户名/密码错误 |
|
|
AAA |
设备 |
StaticUser AuthN status |
静态用户认证状态,取值为 · 0:表示认证正常 · 1:表示认证异常,可能存在攻击 |
|
|
AAA |
设备 |
StaticUser Usr&Pwd status |
静态用户名密码状态,取值为 · 0:表示用户名/密码正确 · 1:表示用户名/密码错误 |
|
|
ATTACK |
设备 |
All-type attacks |
所有类型的攻击次数 |
|
|
TCP |
设备 |
TCP attacks |
TCP攻击次数 |
|
|
ARP-ATK |
设备 |
ARP attacks |
ARP攻击次数 |
|
|
ND-ATK |
设备 |
ND attacks |
ND攻击次数 |
|
|
AAA |
设备 |
Illegal user detections |
检测到非法用户的次数 |
缺省情况下,设备上所有支持KPI采集功能的业务模块都开启了KPI数据采集功能。
由于KPI数据采集的指标类型多、数据量会逐渐增加,为防止持续的采集过程对正常的业务造成影响,当设备内存或CPU利用率达到告警阈值时,KPI数据采集功能会处于抑制状态,此时KPI进程将暂停采集数据,建议关闭一些非CPU、非内存利用率相关指标的采集功能,仅保留DEV-RES的KPI采集功能。关于设备内存或CPU利用率的告警阈值的详细信息,请参见“设备管理配置指导”中的“硬件资源管理”。
KPI数据采集功能的配置任务如下:
· (可选)配置KPI数据的存储功能
· (可选)配置KPI数据的老化功能
· (可选)关闭指定业务模块的KPI数据采集功能
· (可选)配置指定模块的KPI数据采集周期
内存中KPI采集的数据文件每隔一定时间周期保存到存储介质。通过本功能可以修改KPI数据文件存储的目录和保存到存储介质的周期。
(1) 进入系统视图。
system-view
(2) 配置将内存中KPI采集的数据文件保存到存储介质的周期。
kpi file save-interval interval
缺省情况下,内存中KPI采集的数据文件每隔1440分钟将保存到存储介质。
(3) 配置存储KPI数据文件的目录。
kpi file directory dir-name
缺省情况下,存储KPI数据文件的目录是flash:/kpi。
当存储介质的剩余空间不足或者现有存储介质上KPI采集数据文件总大小过大时,KPI进程将主动老化早期的KPI数据。通过本功能可以修改触发KPI数据文件老化操作的剩余存储介质容量的阈值以及触发KPI数据文件老化操作的KPI数据文件阈值。
(1) 进入系统视图。
system-view
(2) 配置触发KPI数据文件老化操作的剩余存储介质容量的阈值。
kpi file aging threshold remain-disk-size size
缺省情况下,存储介质的剩余容量的阈值为128Mbyte。
(3) 配置触发KPI数据文件老化操作的KPI数据文件阈值。
kpi file aging threshold total-file-size size
缺省情况下,KPI数据文件阈值为128Mbyte。
KPI数据采集的指标类型多、数据量大,为防止对业务造成影响,当设备内存或CPU利用率较高时,可以配置本功能停止对某些业务模块指标的信息采集。
(1) 进入系统视图。
system-view
(2) 进入Probe视图。
probe
(3) 关闭指定业务模块的KPI数据采集功能。
undo kpi system internal collect module [ module-name ] enable
缺省情况下,设备上所有支持KPI采集功能的业务模块都开启了KPI数据采集功能。
配置可以修改指定业务模块的KPI数据采集周期。
(1) 进入系统视图。
system-view
(2) 进入Probe视图。
probe
(3) 关闭指定业务模块的KPI数据采集功能。
kpi system internal module module-name collect-interval collect-interval
缺省情况下,KPI数据采集功能的采集周期为300秒。
在完成上述配置后,在任意视图下执行display命令可以显示KPI采集数据的情况,通过查看显示信息验证配置的效果。
· 显示KPI采集的业务模块的信息。
display kpi module-info [ module-name ] [ verbose ]
· 显示指定时间内KPI采集的特定模块和对象的指标数据
display kpi data module module-name object object-name from time1 date1 to time2 date2 [ file file-path ]
智能监控和预测(EAI,Embedded Artificial Intelligence)是一种基于智能算法的设备KPI指标监控和预测技术。它能够根据KPI数据采集功能采集到的历史指标值对指标进行实时监控和智能预测,帮助网络管理员分析设备上关键指标的变化趋势,提前预防可能出现的故障。
设备根据KPI采集到的历史指标值,动态地为表2-1中的指标生成合理的告警门限和告警恢复门限。
· 当KPI数据采集功能采集到的指标值超出上述指标的告警门限范围时,设备将超限情况记录日志并将告警通过SNMP上报网管;
· 当KPI数据采集功能采集到的指标值从超出告警门限恢复到告警恢复门限范围内时,设备将恢复情况记录日志并将告警通过SNMP上报网管。
开启本功能后,根据KPI采集的历史指标数据信息,设备动态计算并预测该指标30天后的数值。
· 当智能预测的指标值超出指标的告警门限范围时,设备将超限情况记录日志并将告警通过SNMP上报网管;
· 当智能预测的指标数据值从超出告警门限范围恢复到告警恢复门限范围内时,设备将恢复情况记录日志并将告警通过SNMP上报网管。
|
KPI类 |
业务模块 |
对象 |
指标名称 |
指标说明 |
|
Device-resource (设备容量类) |
FWD-RES |
单板 |
ARP entry usage |
ARP表项利用率(used/total) |
|
FWD-RES |
单板 |
MAC entry usage |
MAC表项利用率(used/total) |
|
|
FWD-RES |
单板 |
FIB entry usage |
FIB转发表项利用率(used/total) |
|
|
FWD-RES |
单板 |
ND entry usage |
ND转发表项利用率(used/total) |
|
|
FWD-RES |
单板 |
IPv4L2multicast usage |
IPv4二层组播表项利用率(used/total) |
|
|
FWD-RES |
单板 |
IPv6L2multicast usage |
IPv6二层组播表项利用率(used/total) |
|
|
FWD-RES |
单板 |
IPv4L3multicast usage |
IPv4三层组播表项利用率(used/total) |
|
|
FWD-RES |
单板 |
IPv6L3multicast usage |
IPv6三层组播表项利用率(used/total) |
|
|
ACL-RES |
单板 |
ACL usage |
ACL资源利用率(used/total) |
|
|
STOR-RES |
单板 |
Storage usage |
存储空间利用率(used/total) |
|
|
DEV-RES |
单板 |
CPU usage |
CPU利用率(used/total) |
|
|
DEV-RES |
单板 |
Memory usage |
内存利用率(used/total) |
请确保表2-1中相关的业务模块的KPI数据采集功能处于开启状态。
智能监控和预测的配置任务如下:
· 开启智能监控功能
· 开启智能预测功能
(1) 进入系统视图。
system-view
(2) 进入智能监控和预测视图。
eai artificial intelligence
(3) 开启智能监控功能。
eai monitoring enable
缺省情况下,智能监控功能处于关闭状态。
(1) 进入系统视图。
system-view
(2) 进入智能监控和预测视图。
eai artificial intelligence
(3) 开启智能预测功能。
eai prediction enable
缺省情况下,智能预测功能处于关闭状态。
在完成上述配置后,在任意视图下执行display命令可以显示配置后智能监控和预测的情况,通过查看显示信息验证配置的效果。
· 显示智能监控的指标数据。
display eai monitoring
· 显示智能预测数据和KPI采集的历史数据
display eai prediction
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!
