01-AI智能运维命令
本章节下载: 01-AI智能运维命令 (265.04 KB)
目 录
1.1.2 display ai-service model
1.2.4 display ai ai-ecn logfile
1.3.1 ai ai-fault-analysis enable
1.3.2 ai ai-fault-analysis save
1.3.3 display ai ai-fault-analysis
1.4.1 ai key-resource-monitor enable
1.4.2 display ai key-resource-monitor logfile
ai-service命令用来进入AI-Service视图。
【命令】
ai-service
【视图】
系统视图
【缺省用户角色】
network-admin
mdc-admin
【使用指导】
开启各类AI智能运维功能时,需要先进入AI-Service视图。
【举例】
# 进入AI-Service视图。
<Sysname> system-view
[Sysname] ai-service
[Sysname-ai-service]
display ai-service model命令用来显示当前已经加载的AI模型文件信息。
【命令】
display ai-service model
【视图】
任意视图
【缺省用户角色】
network-admin
network-operator
【使用指导】
AI系统加载模型文件后,已经使能的AI业务会自动读取模型文件,基于智能算法对模型中大量的数据进行推理,最终可以获得最优的配置值从而实现AI业务的功能。
用户可执行本命令查看AI系统中当前以及加载的模型文件信息。
系统如果未导入任何模型包,该命令的查询结果为空。
【举例】
# 显示AI模型文件的信息。
<Sysname> display ai-service model
Model Name File Name
ai-ecn flash:/ai-ecn.cambricon
表1-1 display ai-service model命令显示信息描述表
字段 |
描述 |
Model Name |
AI模型文件适用的AI业务,取值包括: · ai-ecn:AI ECN功能 |
File Name |
AI模型文件的存储路径和文件名 |
【相关命令】
· model load
model load命令用来加载AI模型文件。
【命令】
model load filename
【视图】
AI-Service视图
【缺省用户角色】
network-admin
【参数】
filename:指定模型包文件的完整存储路径及文件名。
【使用指导】
请先将厂商提供的模型文件上传到设备中的flash:/路径下,再执行本功能加载该模型文件。
AI系统为设备上基于智能算法进行推理的AI业务提供公共的模型管理、数据获取和预处理功能,并且支持将处理后的数据通过模型加载的方式集成到设备上。
使用本命令加载模型文件后,已经使能的AI业务会自动读取模型文件,基于AI智能算法对模型中大量的数据进行推理,最终可以获得最优的配置值从而实现AI业务的功能。
AI系统会对加载的模型文件进行校验,校验不通过会加载失败,因此下载模型文件后,请不要修改文件名称和内容。
【举例】
# 加载AI-ECN模型文件。
<Sysname> ai-service
[Sysname-ai-service] model load flash:/ai-ecn.cambricon
【相关命令】
· display ai-service model
· model unload
model unload命令用来卸载AI模型文件。
【命令】
model unload filename
【视图】
AI-Service视图
【缺省用户角色】
network-admin
【参数】
filename:指定模型包文件名。
【使用指导】
使用本命令可以卸载AI系统上已经导入的模型文件。
AI系统会对卸载的模型文件进行校验,校验不通过会卸载失败。
【举例】
# 卸载AI-ECN模型文件。
<Sysname> ai-service
[Sysname-ai-service] model unload flash:/ai-ecn.cambricon
ai ai-ecn enable命令用来开启AI ECN功能,并配置AI ECN功能的模式。
undo ai ai-ecn enable命令用来恢复缺省情况。
【命令】
ai ai-ecn enable mode { centralized | distributed | neural }
undo ai ai-ecn enable
【缺省情况】
未开启AI ECN功能的模式。
【视图】
AI-Service视图
【缺省用户角色】
network-admin
【参数】
centralized:表示网络中设备的ECN门限由分析器集中计算并传递给设备,实现拥塞通知功能。
distributed:表示AI ECN功能随设备分布式部署在网络中。
neural:表示AI ECN功能由神经网络功能实现。
【使用指导】
设备会对现网的流量特征进行自动采集并上送至分析器或设备本地的AI业务组件,分析器或AI业务组件将根据预加载的流量模型文件动态为队列设置并下发最佳的ECN门限,保障队列的低时延和高吞吐。
AI ECN功能支持的模式有三类,采用不同的AI ECN功能模式,设备获取ECN门限的方式不同。
设备重启后,将会清空设备上由分析器或AI业务组件下发的ECN门限配置。
AI ECN功能受License限制,请在使用本功能前安装有效的License。有关License的详细介绍,请参见“基础配置指导”中的“License管理”。
【举例】
# 开启AI ECN功能,并配置AI ECN功能的模式为centralized。
<Sysname> system-view
[Sysname] ai-service
[Sysname-ai-service] ai ai-ecn enable mode centralized
【相关命令】
· queue (ai-ecn view)
ai ai-ecn save命令用来保存AI ECN日志文件。
【命令】
ai ai-ecn save logfile
【视图】
任意视图
【缺省用户角色】
network-admin
【参数】
logfile:保存AI ECN的日志文件到设备存储中。
【使用指导】
设备上开启指定队列的AI ECN功能之后,再配置本命令时,设备将调整队列的最佳ECN门限的操作记录以及调整ECN门限的依据信息即数据流预处理的结果都会记录到AI ECN的日志文件中,并自动保存在设备的本地存储上。通常自动保存的AI ECN的日志文件会包含“AIECN”字样的标识。
AI ECN的日志文件可以帮助运维和技术支持人员分析AI ECN的效果。
【举例】
# 保存AI ECN日志文件。
<Sysname> ai ai-ecn save logfile
【相关命令】
· ai ai-ecn enable
· display ai ai-ecn logfile
· queue (ai-ecn view)
ai-ecn命令用来进入AI-ECN视图。
【命令】
ai-ecn
【视图】
AI-Service视图
【缺省用户角色】
network-admin
【使用指导】
开启指定队列的AI ECN功能时,需要先进入AI-Service视图,再进入AI-ECN视图。
【举例】
# 进入AI-ECN视图。
<Sysname> system-view
[Sysname] ai-service
[Sysname-ai-service] ai-ecn
[Sysname-ai-service-ai-ecn ]
display ai ai-ecn logfile命令用来显示通过AI ECN功能下发ECN门限的日志信息。
【命令】
display ai ai-ecn logfile [ tail line-number ]
【视图】
任意视图
【缺省用户角色】
network-admin
network-operator
【参数】
tail line-number:显示日志中最近的若干行信息。其中line-number表示需要显示的行数,取值范围为1~1000。如果未指定本参数,则显示所有日志信息。
【举例】
# 显示通过AI ECN功能下发ECN门限的日志信息。
<Sysname> display ai ai-ecn logfile
time="2023-05-12 14:14:06" level=info msg="start collect AIECN config change log"
time="2023-05-12 14:29:53" level=info msg="switch ip: 127.0.0.1, interface index: 104, queue: 5, start inspire adjust config process, current config: kmin = 1000, kmax = 8000, pmax = 20, at inspire step 1\n"
time="2023-05-12 14:30:00" level=info msg="switch ip: 127.0.0.1, interface index: 104, queue: 5, start inspire adjust config process, current config: kmin = 1000, kmax = 8000, pmax = 20, at inspire step 1\n"
表1-2 display ai ai-ecn logfile命令显示信息描述表
字段 |
描述 |
time |
下发ECN门限的时间点 |
switch ip |
设备的IP地址 |
level=info msg |
ECN门限下发的详细信息,主要包括 · interface index:接口索引 · queue:接口上下发ECN门限的队列号 · current config:下发的配置参数,其中 ¡ kmin:ECN低门限 ¡ kmax:ECN高门限 ¡ pmax:标记ECN域的概率 |
【相关命令】
· queue (ai-ecn view)
queue命令用来开启指定队列的AI ECN功能。
undo queue命令用来恢复缺省情况。
【命令】
queue queue-id enable
undo queue queue-id
【缺省情况】
所有队列都未开启AI ECN通知功能。
【视图】
AI-ECN视图
【缺省用户角色】
network-admin
【参数】
queue-id:队列编号。取值范围为0~7。
【使用指导】
使用该命令开启指定队列的AI ECN功能,设备会对现网的流量特征进行采集并上送至分析器或设备本地的AI业务组件,AI业务组件将根据预加载的流量模型文件动态为队列设置并下发最佳的ECN门限,保障队列的低时延和高吞吐。
对于同一队列,配置本命令与在接口上应用WRED表、配置队列的WRED参数、配置计算平均队列长度的指数、开启指定队列的拥塞通知功能、配置基于队列的WRED表、配置基于队列的WRED表的内容、开启全局WRED Smart ECN功能互斥。
AI ECN功能受License限制,请在使用本功能前安装有效的License。有关License的详细介绍,请参见“基础配置指导”中的“License管理”。
设备重启后,将会清空设备上由AI业务组件下发的ECN门限配置。
【举例】
# 在AI-ECN视图中,开启队列1的AI ECN功能。
<Sysname> system-view
[Sysname] ai-service
[Sysname-ai-service] ai-ecn
[Sysname-ai-service-ai-ecn] queue 1 enable
【相关命令】
· qos wred apply(QoS和ACL命令参考/QoS命令)
· qos wred queue(QoS和ACL命令参考/QoS命令)
· qos wred queue ecn(QoS和ACL命令参考/QoS命令)
· qos wred queue weighting-constant(QoS和ACL命令参考/QoS命令)
· qos wred smart-ecn enable(QoS和ACL命令参考/QoS命令)
· queue (Wred table view)(QoS和ACL命令参考/QoS命令)
· queue ecn(QoS和ACL命令参考/QoS命令)
ai ai-fault-analysis enable命令用来开启AI日志聚合和根因分析功能。
undo ai ai-fault-analysis enable命令用来恢复缺省情况。
【命令】
ai ai-fault-analysis enable
undo ai ai-fault-analysis enable
【缺省情况】
AI日志聚合和根因分析功能处于关闭状态。
【视图】
AI-Service视图
【缺省用户角色】
network-admin
【使用指导】
信息中心可以接收所有模块生成的日志信息,并按照模块和等级进行日志信息的分类、管理,但用户仍无法从海量的日志信息中快速查找关键信息,并根据关键日志信息进行精准高效故障定位。
开启日志聚合和AI根因分析功能实现两方面功能:
根据日志间的相关性,AI分析程序将一段时间内信息中心接收到的所有日志信息进行聚合并根据日志聚合结果生成日志摘要文件,从而实现简化日志信息的作用,例如,因主接口故障而产生多条主接口及其子接口的日志信息将被聚合成一条日志摘要。
AI分析程序基于日志聚合结果和设备中的故障根因分析库,推导出可能导致故障的原因,并输出故障根因文件供用户参考。
【举例】
# 开启AI日志聚合和根因分析功能。
<Sysname> system-view
[Sysname] ai-service
[Sysname-ai-service] ai ai-fault-analysis enable
【相关命令】
· display ai ai-fault-analysis
ai ai-fault-analysis save命令用来保存日志聚合摘要文件或者故障根因文件或者AI日志聚合和根因分析功能的日志。
【命令】
ai ai-fault-analysis save { logfile | root-cause | summary }
【缺省情况】
缺省情况下,系统不会保存日志聚合摘要文件、故障根因文件和AI日志聚合和根因分析功能的日志。
【视图】
任意视图
【缺省用户角色】
network-admin
【参数】
logfile:将AI日志聚合和根因分析功能的日志保存到设备存储中。
root-cause:将故障根因文件保存到设备存储中。
summary:将日志聚合摘要文件保存到设备存储中。
【举例】
# 保存日志聚合摘要文件。
<Sysname> ai ai-fault-analysis save summary
【相关命令】
· display ai ai-fault-analysis
display ai ai-fault-analysis命令用来显示日志聚合摘要文件或者故障根因文件中的信息。
【命令】
display ai ai-fault-analysis { logfile | root-cause | summary } [ tail line-number ]
【视图】
任意视图
【缺省用户角色】
network-admin
network-operator
【参数】
logfile:显示AI日志聚合和根因分析功能运行日志。
root-cause:显示AI分析的故障根因信息。
summary:显示AI分析的日志聚合摘要信息。
tail line-number:显示日志聚合摘要或者故障根因信息中最近的若干行信息。其中line-number表示需要显示的行数,取值范围为1~1000。如果未指定本参数,则显示所有日志聚合摘要或者故障根因信息。
【使用指导】
AI系统基于各模块生成的日志信息,依据相关性对这些日志信息进行压缩聚合,并在聚合日志基础上推导出故障根因。日志聚合和AI根因分析功能既方便用户迅速查找日志中的关键信息,也便于精准定位故障。
执行ai ai-fault-analysis enable命令开启日志聚合和AI根因分析功能之后,系统将自动创建日志聚合摘要文件和故障根因文件,系统中最多存在新旧两个日志聚合摘要文件或故障根因文件。执行本命令,可以显示日志聚合摘要文件或者由日志聚合摘要信息推导出的故障根因文件中的信息。
【举例】
# 显示AI分析的日志聚合摘要信息。
<Sysname> display ai ai-fault-analysis summary
2021-03-09 11:56:00 to 11:56:59, device 77.1.1.41(7506X-G) encountered the following events: OSPF 8 IP conflicts for 11.11.11.1 on interface Vlan-interface11. Impact: OSPF conflict IP address 11.11.11.1. Aggregated entries: 1. Highest severity level: Information.
2021-03-09 11:55:00 to 11:55:59, device 77.1.1.41(7506X-G) encountered the following events: 1. IRF port 1 went down. 2. Interface Ten-GigabitEthernet1/0/50 physical down. Impact: IRF port down. Aggregated entries: 4. Highest severity level: Critical.
2021-03-09 11:54:00 to 11:54:59, device 77.1.1.41(7506X-G) encountered the following events: 1. BFD Session[3.3.3.1/3.3.3.2] change from down to up. 2. Interface GigabitEthernet0/5 physical down. 3. Interface GigabitEthernet0/5 physical up. Aggregated entries: 10. Highest severity level: Error.
本命令的显示信息请参见“AI智能运维配置指导”中的“AI智能运维”。
# 显示AI分析的故障根因信息。
<Sysname> display ai ai-fault-analysis root-cause
2021-03-09 11:57:43, fault OSPF_Neighbor_Down occurred on (device=77.1.1.41, route=OSPF, ospfId=600). root issue [severity=Notification], no causes found. Details: OSPF 600 Neighbor 6.6.6.12(Ten-GigabitEthernet2/0/51) changed from FULL to DOWN.
2021-03-09 11:54:09, fault BFD_Session_Down occurred on (device=77.1.1.41, session=3.3.3.1/3.3.3.2). Possible root cause: [severity=Error, probability=1.0] 2021-03-09 11:54:05, device 77.1.1.41(7506X-G) encountered IFNET_PORT_PHY_UPDOWN on (device=77.1.1.41, mdc=1, chassis=0, slot=0, port=GigabitEthernet0/5). Details: Physical state on the interface GigabitEthernet0/5 changed to down.
2021-03-09 10:44:25, fault OSPFv3_Neighbor_Down occurred on (device=77.1.1.41, route=OSPFv3, ospfv3Id=1). Possible root causes: 1. [severity=Error, probability=1.0] 2021-03-09 10:44:25, device 77.1.1.41(7506X-G) encountered IFNET_INTVLAN_PHY_UPDOWN on (device=77.1.1.41, mdc=1, port=Vlan-interface200). Details: Physical state on the interface Vlan-interface200 changed to down. 2. [severity=Error, probability=0.7] 2021-03-09 10:44:25, device 77.1.1.41(7506X-G) encountered IFNET_PORT_PHY_UPDOWN on (device=77.1.1.41, mdc=1, chassis=0, slot=1, port=GigabitEthernet1/0/17). Details: Physical state on the interface GigabitEthernet1/0/17 changed to down.
本命令的显示信息请参见“AI智能运维配置指导”中的“AI智能运维”。
# 显示AI日志聚合和根因分析功能的运行日志。
<Sysname> display ai ai-fault-analysis logfile
2023-05-16 14:06:02,094 [process.py] [run] [DEBUG] [114] raw syslog: {'host': '127.0.0.1', 'message': '<190>May 16 14:06:02 2023 H3C %%10SHELL/6/SHELL_CMD_EXECUTESUCCESS: -Line=aux0-User=**-IPAddr=**; Command model load flash:/h3cAIECN-0-neural-040501.cambricon in view ai-service succeed to be executed. Result=Success.'}
【相关命令】
· ai ai-fault-analysis enable
ai key-resource-monitor enable命令用来开启AI设备异常检测功能。
undo ai key-resource-monitor enable命令用来恢复缺省情况。
【命令】
ai key-resource-monitor enable
undo ai key-resource-monitor enable
【缺省情况】
AI设备异常检测功能处于关闭状态。
【视图】
AI-Service视图
【缺省用户角色】
network-admin
mdc-admin
【使用指导】
在管理和维护设备时,运维人员可以手工配置不同指标的资源使用率告警门限,例如执行resource-monitor resource命令配置CPU利用率或ARP表项资源等各类指标的告警门限,达到指定的告警门限时系统才会产生告警信息,但是,这类告警信息不能反映出相应资源使用率的变化趋势,而且手工指定告警门限的合理性存疑,如果误配置了告警门限以后会干扰对故障的判断,不利于未来智能运维手段发展。
AI设备异常检测功能借助AI算法来推测当前的设备各种资源表项使用率是否存在异常,判定异常之后才会产生告警信息,相较于传统静态设置告警门限触发告警的方式更加科学。
支持AI设备异常检测功能的告警指标为CPU使用率和设备的各类表项资源,具体设备表项资源可以通过display resource-monitor命令查看。
【举例】
# 开启AI设备异常检测功能。
<Sysname> system-view
[Sysname] ai-service
[Sysname-ai-service] ai key-resource-monitor enable
【相关命令】
· display resource-monitor(基础配置命令参考/设备管理)
· resource-monitor resource(基础配置命令参考/设备管理)
display ai key-resource-monitor logfile命令用来显示AI设备异常检测的运行日志。
【命令】
display ai key-resource-monitor logfile [ tail line-number ]
【视图】
任意视图
【缺省用户角色】
network-admin
network-operator
【参数】
tail line-number:显示日志中最近的若干行信息。其中line-number表示需要显示的行数,取值范围为1~1000。如果未指定本参数,则显示所有AI设备异常检测的日志信息。
【使用指导】
AI设备异常检测功能的运行日志显示比较复杂,主要用于技术人员排查AI设备异常检测功能运行的故障。关于日志的详细信息解释请联系技术支持。
【举例】
# 显示AI设备异常检测的运行日志。
<Sysname> display ai key-resource-monitor logfile
[AD]2023/05/13 09:48:02 server.go:76: result in SCM is 0
[AD]2023/05/13 09:48:02 main.go:59: err in RPC_call rpc_deepar_init : device exist
[AD]2023/05/13 09:48:02 main.go:66: global.Global_deepar_alg_info: {4611828954922221568 676 4611828954922225664 4056 4611828954922223616 4 4611828954922224128 4 [0 0 0 0]}
[AD]2023/05/13 09:48:02 main.go:72: global.Global_host_init: {11 23085056 23093248 23101440 23109632}
[AD]2023/05/13 09:48:02 main.go:74: host_return: 10
[AD]2023/05/13 09:48:02 server.go:131: enable netconf ...
[AD]2023/05/13 09:48:04 server.go:150: global.Netconf_url: http://www.h3c.com/netconf/config:1.0
[AD]2023/05/13 09:48:04 main.go:120: AI APP "AD" is running ...
[AD]2023/05/13 09:48:04 main.go:123: starting maodel load test
[AD]2023/05/13 09:48:04 cfg_parase.go:120: AlgorithmList: map[Device/ExtPhysicalEntities:{0 170 1 5s mean 5s timestamp [1 2 3] {{2 26} map[Grubbs:49 HistogramBins:49 MeanSubtractionCumulation:49 MedianAbsoluteDeviation:49 SimpleStddevFromMovingAverage:49 StddevFromMovingAverage:49] {1 168}} map[console:True logfile:True]}]
[AD]2023/05/13 09:48:04 cfg_parase.go:120: AlgorithmList: map[Device/ExtPhysicalEntities:{0 170 1 5s mean 5s timestamp [1 2 3] {{2 26} map[Grubbs:49 HistogramBins:49 MeanSubtractionCumulation:49 MedianAbsoluteDeviation:49 SimpleStddevFromMovingAverage:49 StddevFromMovingAverage:49] {1 168}} map[console:True logfile:True]} ResourceMonitor/Monitors:{0 50 60 300s mean 5s timestamp [2 1] {{2 26} map[Grubbs:49 HistogramBins:49 MeanSubtractionCumulation:49 MedianAbsoluteDeviation:49 SimpleStddevFromMovingAverage:49 StddevFromMovingAverage:49] {0 0}} map[console:True logfile:True]}]
// 模型初始化信息
[AD]2015/02/11 16:41:34 model_load_option.go:175: finish load and reload_model =1
eptdev_name is ipcm-dma_ipcm-0
create an endpoint device dma
align result is 0
bytes and rc in read_to_buffer is 2935864 and 2935864 Finish read_to_buffer_dma buffer is 0.000000 after read function
write data to file from memory buffer AND BYTES IS2935864
remote path is /root/deepar_1.cambricon
rpc_call rpc_write_file /root/deepar_1.cambricon
close_mlu_fd (IPCM_SEND_FILE_DMA)
close_fd (IPCM_SEND_FILE_DMA)
ipcm_destroy_client_endpoint (IPCM_SEND_FILE_DMA)
// AI设备异常检测的模型加载或卸载日志的信息
【相关命令】
· ai key-resource-monitor enable
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!