• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

21-智能运维配置指导

目录

01-KPI数据采集配置

本章节下载 01-KPI数据采集配置  (306.47 KB)

01-KPI数据采集配置


1 KPI数据采集

1.1  KPI数据采集简介

设备的KPI(Key Performance Indicator,关键性能指标)用来表示某一时刻设备运行状态的一系列性能值。设备运行过程中自动采集KPI数据并将KPI数据存储在Flash介质中。

KPI数据采集功能可以周期性采集各种类型的设备性能指标,实时记录大量性能指标数据,用户可根据采集到的KPI信息了解设备运行状态、业务故障时间点、业务故障类型和疑似故障原因,通过这些信息快速定位故障。

1.1.1  KPI数据采集的基本概念

KPI数据采集功能收集到的数据量巨大,且采集的数据种类丰富,例如,采集到设备上某单板的CPU利用率为50%,该数据属于描述设备容量类的性能参数,同时,该参数还属于设备资源管理的业务模块,归属于某块单板,其具体指标为50%,为了方便描述所有类型的数据,对数据进行分类和检索,KPI采集到的数据以结构化信息来呈现,并且从以下四个维度来定义数据信息:

·     指标(Indicator):KPI数据采集功能采集的性能参数和状态,例如CPU利用率、内存利用率、FIB转发表项利用率、ARP表项资源利用率、各类板卡故障、电源故障、单板温度异常数据等等。

·     对象(Object):指标所属的设备、单板或子卡等物理实体,为了表示这些物理实体,定义了一类数据来标识对象。随着KPI采集功能可以采集到的指标越来越多,对象的种类也会越来越丰富,根据对象的类型不同,取值也各不相同,目前支持以下取值类型:

¡     device:标识设备。该对象的指标用来表示设备整体的情况。

¡     chassis.x/slot.y:标识单板。该对象的指标用于标识某个单板性能和状态,取值为chassis.x/slot.y,其中x取值为0,y表示单板所在的槽位号。

¡     chassis.x/slot.y/subslot.z:标识子卡,该对象的指标用于标识该子卡的性能和状态,取值为chassis.x/slot.y/subslot.z,其中x取值为0,y表示单板所在的槽位号,z表示子卡编号。

¡     interface-typeinterface-number:标识接口,该对象的指标用于标识某个物理接口的运行状态指标,对象取值为接口类型和接口编号。

·     业务模块(Module):指标所属的业务功能模块,例如CPU利用率和内存利用率属于设备资源模块(模块名称为DEV-RES),FIB转发表项利用率和ARP表项资源利用率属于转发资源模块(模块名称为FWD-RES)。

·     KPI类(Class):某一类指标的集合。一些KPI数据指标可以用来衡量设备某方面的运行状态,可以将这些指标划分为一个KPI类,系统中预定义了一些KPI类,例如网络性能类(Net-performace),端口状态类(Port-state)。

1.1.2  KPI数据采集的工作机制

KPI数据采集的工作机制如图1-1所示:

图1-1 KPI数据采集的工作机制示意图

 

(1)     数据采集:设备开启对指定业务模块的KPI数据采集功能后,KPI进程按一定时间周期采集该业务模块的数据指标。KPI进程将采集到的数据指标临时保存在设备内存中。缺省情况下,KPI数据指标采集周期为300秒,可以自定义修改指标的采集周期。

(2)     数据存储:KPI进程每隔一定周期将采集到的数据指标存储到Flash存储介质上。当存储介质的剩余空间不足或者现有存储介质上KPI采集数据文件总大小超出一定阈值时,KPI进程将主动老化早期的KPI数据,删除最早的KPI数据。

1.1.3  KPI数据采集功能支持的数据信息

表1-1 数据采集功能支持的数据信息

KPI类

业务模块

对象

指标名称

指标说明

Device-state

(设备状态类)

DEV

单板

Device restarts

设备反复重启次数

IRF(暂不支持)

设备

IRF splits

框式堆叠的分裂次数

IRF(暂不支持)

设备

IRF dual-active count

框式堆叠出现双主次数

DEV

单板

LPU failures

接口板故障次数

DEV

单板

MPU state

主控板状态,取值为:

·     0:不在位

·     1:正常

·     2:故障

DEV

单板

MPU failures

主控板故障次数

DEV

单板

SFU state

交换网板状态,取值为:

·     0:不在位

·     1:正常

·     2:故障

DEV

单板

SFU failures

交换网板故障次数

DEV

子卡

Subslot failure

子卡故障次数

FWD

设备

Inc H&S entries(Inconsistent hardware and software entries)

软硬件表项不一致数量

FAN

设备

Fan state

风扇状态,取值为:

·     0:正常

·     1:故障

POWER

设备

Power state

电源状态,取值为:

·     0:正常

·     1:故障

POE

设备

PoE state

PoE供电状态,取值为:

·     0:正常

·     1:故障

TEMP

设备

Card temperature

单板温度,取值为:

·     0:正常

·     1:故障

FS

设备

File exceptions

文件系统异常,保存失败次数

DEV

设备

Process abnormal reboot

进程异常重启次数

DEV

设备

Process normal reboot

进程正常重启次数

Device-resource

(设备容量类)

FWD-RES

单板

ARP entry usage

ARP表项利用率(used/total)

FWD-RES

单板

ARP threshold ratio

ARP表项使用的数量和ARP表项使用阈值的比值(used/threshold)

FWD-RES

单板

MAC entry usage

MAC表项利用率(used/total)

FWD-RES

单板

MAC threshold ratio

MAC表项使用的数量和MAC表项使用阈值的比值(used/threshold)

FWD-RES

单板

FIB entry usage

FIB转发表项利用率(used/total)

FWD-RES

单板

FIB threshold ratio

FIB转发表项使用的数量和FIB转发表项使用阈值的比值(used/threshold)

FWD-RES

单板

ND entry usage

ND转发表项利用率(used/total)

FWD-RES

单板

ND threshold ratio

ND转发表项使用的数量和ND转发表项使用阈值的比值(used/threshold)

FWD-RES

单板

IPv4L2multicast usage

IPv4二层组播表项利用率(used/total)

FWD-RES

单板

IPv4L2multicast ratio

IPv4二层组播表项使用程度,已使用的表项和阈值比值(used/threshold)

FWD-RES

单板

IPv6L2multicast usage

IPv6二层组播表项利用率(used/total)

FWD-RES

单板

IPv6L2multicast ratio

IPv6二层组播表项使用程度,已使用的表项和阈值比值(used/threshold)

FWD-RES

单板

IPv4L3multicast usage

IPv4三层组播表项利用率(used/total)

FWD-RES

单板

IPv4L3multicast ratio

IPv4三层组播表项资源使用程度,已使用的表项和阈值比值(used/threshold)

FWD-RES

单板

IPv6L3multicast usage

IPv6三层组播表项利用率(used/total)

FWD-RES

单板

IPv6L3multicast ratio

IPv6三层组播表项使用程度,已使用的表项和阈值比值(used/threshold)

ACL-RES

单板

ACL usage

ACL资源利用率(used/total)

ACL-RES

单板

ACL threshold ratio

ACL资源使用程度(used/threshold),已使用的表项和阈值比值

STOR-RES

单板

Storage usage

存储空间利用率(used/total)

STOR-RES

单板

Storage threshold ratio

存储空间使用程度(used/threshold),已使用的资源和阈值比值

DEV-RES

单板

CPU usage

CPU利用率(used/total)

DEV-RES

单板

CPU threshold ratio

CPU使用程度(used/threshold),已使用的资源和阈值比值

DEV-RES

单板

Memory usage

内存利用率(used/total)

DEV-RES

单板

Memory threshold ratio

内存使用程度(used/threshold),已使用的资源和阈值比值

Net-performance

(网络性能类)

LOOP-DCT

设备

L2 loop state

二层环路状态,取值为:

·     0:正常

·     1:故障

IF-CI

接口

Port congestion

端口拥塞导致的丢包数

IF-ERROR

接口

Port error

端口错包导致的丢包数

CPCAR

设备

CPCAR loss

控制平面配置流量监管进行限速导致的丢包数量

STP-SWT

设备

STP switchovers

STP切换次数

LACP-SWT

设备

LACP switchovers

链路聚合切换次数

IRF-SWT

设备

IRF switchovers

堆叠切换次数

DRNI-SWT

设备

DRNI switchovers

M-LAG切换次数

RRPP-SWT

设备

RRPP switchovers

RRPP切换次数

VRRP-SWT

设备

VRRP switchovers

VRRP切换次数

IF-USAGE

设备

Port BW usage

所有端口的带宽利用率

Port-state

(端口状态类)

PORT-ST

设备

Down ports

处于down状态的物理接口数量

PORT-ST

设备

Port flappings

端口震荡次数

TRAN-ST

设备

Opti-module health

光模块的健康度

Net-connection

(网络链接类)

RPNCS

设备

ISIS peer status

ISIS协议邻居连接状态,取值为

·     0:正常

·     1:故障

RPNCS

设备

OSPF peer status

OSPF协议邻居连接状态,取值为

·     0:正常

·     1:故障

RPNCS

设备

OSPv3 peer status

OSPFv3协议邻居连接状态,取值为

·     0:正常

·     1:故障

RPNCS

设备

BGP peer status

BGP协议邻居连接状态,取值为

·     0:正常

·     1:故障

MCRCS

设备

Multicast connection status

组播路由连接状态,取值为

·     0:正常

·     1:故障

DHCPCS

设备

DHCPv4 server state

DHCPv4 sever状态,取值为

·     0:正常

·     1:故障

DHCPCS

设备

DHCPv6 server state

DHCPv6 sever状态,取值为

·     0:正常

·     1:故障

DHCPCS

设备

DHCPv4 server switching

DHCPv4 sever切换次数

DHCPCS

设备

DHCPv6 server switching

DHCPv6 sever切换次数

DHCPCS

设备

DHCPv4 entry failures

DHCPv4表项建立失败的次数

DHCPCS

设备

DHCPv6 entry failures

DHCPv6表项建立失败的次数

Net-security

(网络安全类)

AAA

设备

1X AuthN status

802.1x认证状态,取值为

·     0:表示认证正常

·     1:表示认证异常,可能存在802.1X认证攻击

AAA

设备

1X Usr&Pwd status

802.1x用户名密码状态,取值为

·     0:表示用户名/密码正确

·     1:表示用户名/密码错误

AAA

设备

MAC AuthN status

MAC地址认证状态,取值为

·     0:表示认证正常

·     1:表示认证异常,可能存在攻击

AAA

设备

MAC Usr&Pwd status

MAC地址认证用户名密码状态,取值为

·     0:表示用户名/密码正确

·     1:表示用户名/密码错误

AAA

设备

Portsec AuthN status

端口安全认证状态,取值为

·     0:表示认证正常

·     1:表示认证异常,可能存在攻击

AAA

设备

Portsec Usr&Pwd status

端口安全用户名密码状态,取值为

·     0:表示用户名/密码正确

·     1:表示用户名/密码错误

AAA

设备

StaticUser AuthN status

静态用户认证状态,取值为

·     0:表示认证正常

·     1:表示认证异常,可能存在攻击

AAA

设备

StaticUser Usr&Pwd status

静态用户名密码状态,取值为

·     0:表示用户名/密码正确

·     1:表示用户名/密码错误

ATTACK

设备

All-type attacks

所有类型的攻击次数

TCP

设备

TCP attacks

TCP攻击次数

ARP-ATK

设备

ARP attacks

ARP攻击次数

ND-ATK

设备

ND attacks

ND攻击次数

AAA

设备

Illegal user detections

检测到非法用户的次数

 

1.2  配置限制和指导

缺省情况下,设备上所有支持KPI采集功能的业务模块都开启了KPI数据采集功能。

由于KPI数据采集的指标类型多、数据量会逐渐增加,为防止持续的采集过程对正常的业务造成影响,当设备内存或CPU利用率达到告警阈值时,KPI数据采集功能会处于抑制状态,此时KPI进程将暂停采集数据,建议关闭一些非CPU、非内存利用率相关指标的采集功能,仅保留DEV-RES的KPI采集功能。关于设备内存或CPU利用率的告警阈值的详细信息,请参见“设备管理配置指导”中的“硬件资源管理”。

1.3  配置任务简介

KPI数据采集功能的配置任务如下:

·     (可选)配置KPI数据的存储功能

·     (可选)配置KPI数据的老化功能

·     (可选)关闭指定业务模块的KPI数据采集功能

·     (可选)配置指定模块的KPI数据采集周期

1.4  配置KPI数据的存储功能

1. 功能简介

内存中KPI采集的数据文件每隔一定时间周期保存到存储介质。通过本功能可以修改KPI数据文件存储的目录和保存到存储介质的周期。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置将内存中KPI采集的数据文件保存到存储介质的周期。

kpi file save-interval interval

缺省情况下,内存中KPI采集的数据文件每隔1440分钟将保存到存储介质。

(3)     配置存储KPI数据文件的目录。

kpi file directory dir-name

缺省情况下,存储KPI数据文件的目录是flash:/kpi。

1.5  配置KPI数据的老化功能

1. 功能简介

当存储介质的剩余空间不足或者现有存储介质上KPI采集数据文件总大小过大时,KPI进程将主动老化早期的KPI数据。通过本功能可以修改触发KPI数据文件老化操作的剩余存储介质容量的阈值以及触发KPI数据文件老化操作的KPI数据文件阈值。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     配置触发KPI数据文件老化操作的剩余存储介质容量的阈值。

kpi file aging threshold remain-disk-size size

缺省情况下,存储介质的剩余容量的阈值为128Mbyte。

(3)     配置触发KPI数据文件老化操作的KPI数据文件阈值。

kpi file aging threshold total-file-size size

缺省情况下,KPI数据文件阈值为128Mbyte。

1.6  关闭指定业务模块的KPI数据采集功能

1. 功能简介

KPI数据采集的指标类型多、数据量大,为防止对业务造成影响,当设备内存或CPU利用率较高时,可以配置本功能停止对某些业务模块指标的信息采集。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     进入Probe视图。

probe

(3)     关闭指定业务模块的KPI数据采集功能。

undo kpi system internal collect module [ module-name ] enable

缺省情况下,设备上所有支持KPI采集功能的业务模块都开启了KPI数据采集功能。

1.7  配置指定模块的KPI数据采集周期

1. 功能简介

配置可以修改指定业务模块的KPI数据采集周期。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     进入Probe视图。

probe

(3)     关闭指定业务模块的KPI数据采集功能。

kpi system internal module module-name collect-interval collect-interval

缺省情况下,KPI数据采集功能的采集周期为300秒。

1.8  KPI数据采集显示和维护

在完成上述配置后,在任意视图下执行display命令可以显示KPI采集数据的情况,通过查看显示信息验证配置的效果。

·     显示KPI采集的业务模块的信息。

display kpi module-info [ module-name ] [ verbose ]

·     显示指定时间内KPI采集的特定模块和对象的指标数据

display kpi data module module-name object object-name from time1 date1 to time2 date2 [ file file-path ]

 

 


2 智能监控和预测

2.1  智能监控和预测简介

智能监控和预测(EAI,Embedded Artificial Intelligence)是一种基于智能算法的设备KPI指标监控和预测技术。它能够根据KPI数据采集功能采集到的历史指标值对指标进行实时监控和智能预测,帮助网络管理员分析设备上关键指标的变化趋势,提前预防可能出现的故障。

2.1.1  智能监控功能

设备根据KPI采集到的历史指标值,动态地为表2-1中的指标生成合理的告警门限和告警恢复门限。

·     当KPI数据采集功能采集到的指标值超出上述指标的告警门限范围时,设备将超限情况记录日志并将告警通过SNMP上报网管;

·     当KPI数据采集功能采集到的指标值从超出告警门限恢复到告警恢复门限范围内时,设备将恢复情况记录日志并将告警通过SNMP上报网管。

2.1.2  智能预测功能

开启本功能后,根据KPI采集的历史指标数据信息,设备动态计算并预测该指标30天后的数值。

·     当智能预测的指标值超出指标的告警门限范围时,设备将超限情况记录日志并将告警通过SNMP上报网管;

·     当智能预测的指标数据值从超出告警门限范围恢复到告警恢复门限范围内时,设备将恢复情况记录日志并将告警通过SNMP上报网管。

2.1.3  支持智能监控和预测的KPI指标

表2-1 支持智能监控和预测功能的指标

KPI类

业务模块

对象

指标名称

指标说明

Device-resource

(设备容量类)

FWD-RES

单板

ARP entry usage

ARP表项利用率(used/total)

FWD-RES

单板

MAC entry usage

MAC表项利用率(used/total)

FWD-RES

单板

FIB entry usage

FIB转发表项利用率(used/total)

FWD-RES

单板

ND entry usage

ND转发表项利用率(used/total)

FWD-RES

单板

IPv4L2multicast usage

IPv4二层组播表项利用率(used/total)

FWD-RES

单板

IPv6L2multicast usage

IPv6二层组播表项利用率(used/total)

FWD-RES

单板

IPv4L3multicast usage

IPv4三层组播表项利用率(used/total)

FWD-RES

单板

IPv6L3multicast usage

IPv6三层组播表项利用率(used/total)

ACL-RES

单板

ACL usage

ACL资源利用率(used/total)

STOR-RES

单板

Storage usage

存储空间利用率(used/total)

DEV-RES

单板

CPU usage

CPU利用率(used/total)

DEV-RES

单板

Memory usage

内存利用率(used/total)

 

2.2  智能监控和预测配置准备

请确保表2-1中相关的业务模块的KPI数据采集功能处于开启状态。

2.3  配置任务简介

智能监控和预测的配置任务如下:

·     开启智能监控功能

·     开启智能预测功能

2.4  开启智能监控功能

(1)     进入系统视图。

system-view

(2)     进入智能监控和预测视图。

eai artificial intelligence

(3)     开启智能监控功能。

eai monitoring enable

缺省情况下,智能监控功能处于关闭状态。

2.5  开启智能预测功能

(1)     进入系统视图。

system-view

(2)     进入智能监控和预测视图。

eai artificial intelligence

(3)     开启智能预测功能。

eai prediction enable

缺省情况下,智能预测功能处于关闭状态。

2.6  智能监控和预测显示和维护

在完成上述配置后,在任意视图下执行display命令可以显示配置后智能监控和预测的情况,通过查看显示信息验证配置的效果。

·     显示智能监控的指标数据。

display eai monitoring

·     显示智能预测数据和KPI采集的历史数据

display eai prediction

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们