• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

20-AI智能运维

目录

01-AI智能运维配置

本章节下载 01-AI智能运维配置  (266.67 KB)

01-AI智能运维配置

1 AI智能运维

1.1  AI智能运维概述

AI(Artificial Intelligence,人工智能)正在以前所未有的速度深刻改变人类社会生活,各种ICT设备也在积极利用AI技术来提升设备运维效率,改进传统的设备运维手段,从而满足用户降本增效的需求。AI的三个核心要素是:算法、算力和数据,设备基于各种的AI智能算法,利用海量样本数据,再通过设备上芯片的算力来实现不同AI功能。

1.2  AI功能简介

1. AI ECN

AI ECN(Artificial Intelligence Explicit Congestion Notification,AI显式拥塞通知)利用AI算法和数据模型动态推测队列的最优队列的ECN门限,设备转发报文时,根据动态优化的ECN门限发送携带ECN标记的报文,降低网络中拥塞程度,保证在复杂网络环境下,接口上报文转发仍然能满足低时延和高吞吐率。关于AI ECN的详细介绍,请参见AI ECN

2. AI绿色节能

AI绿色节能基于多种深度强化学习的AI算法,调整网络设备的风扇转速,既满足了设备器件的温度和散热要求,也合理控制了设备的功耗,减少风扇的噪声。关于AI设备异常检测的详细介绍,请参见AI绿色节能

1.3  AI模型简介

通常一些AI功能需要基于实验室大量的数据训练生成一套可靠的算法模型。算法模型文件可以直接从指定官网下载后复制到设备上,或者由分析器通过Telemetry推送到设备上。

用户在设备上执行加载模型文件的命令之后,已经使能的各种AI功能将根据模型文件名称自动读取模型文件,基于算法模型文件进行推理获得最优的配置值,从而实现AI业务的功能。

1.4  管理AI模型文件

1. 配置限制和指导

为了使不同AI功能都可以正确识别各自的模型文件,从指定官网或者分析器获取的模型文件名称有一定的命名规范,不建议用户手工修改模型文件名称,修改模型文件名称之后可能导致AI功能无法识别该模型文件。例如,模型文件名称为h3caiecn-1-dqn-001,其中:

·     “aiecn”表示AI功能对应的进程名称;

·     “1”表示模型文件生成方式为分析器云端推送,如果取值为“0”则表示该文件从官网手工下载;

·     “dqn”表示AI功能采用的算法名称等描述的字符串,同一个AI功能可以基于不同AI算法实现;

·     “001”表示版本号信息。版本号信息可以修改,用以区分不同的模型文件。

如果当前加载的AI模型文件不适用于设备现网环境,则可以执行卸载模型文件的命令。

2. 配置步骤

(1)     进入系统视图。

system-view

(2)     进入AI-Service视图。

ai-service

(3)     加载AI模型文件。

model load file-name

缺省情况下,不存在AI模型文件。

请先将AI模型文件保存在设备的存储空间上,再执行加载AI模型文件的操作。

(4)     (可选)卸载AI模型文件。

model unload file-name

1.5  AI模型的显示和维护

可在任意视图下执行以下命令,显示通用AI模型文件信息:

表1-1 显示AI模型文件信息

操作

命令

显示当前已经导入的AI模型文件信息

display ai-service model

 

 

2 AI ECN

说明

仅缺省MDC支持配置AI ECN功能,非缺省MDC不支持执行AI ECN模块的所有命令。关于MDC的详细介绍请参见“虚拟化技术配置指导”中的“MDC”。

 

2.1  AI ECN简介

AI ECN(Artificial Intelligence Explicit Congestion Notification,AI显式拥塞通知)是一种利用AI算法来实现的动态拥塞通知技术。AI ECN通常使用在智能无损网络中,为RoCEv2(RDMA over Converged Ethernet)流量提供拥塞避免机制。

2.2  基本概念

ECN功能利用IP报文头中的DS域来标记报文传输路径上的拥塞状态。支持该功能的终端设备可以通过报文中的ECN标记判断出传输路径上是否发生了拥塞,从而调整报文的发送速率,避免拥塞加剧。

在RFC 2481标准中,IP报文头中DS域的最后两个比特位被定义为ECN域,并进行了如下定义:

·     比特位6用于标识发送端设备是否支持ECN功能,称为ECT位(ECN-Capable Transport)

·     比特位7用于标识报文在传输路径上是否经历过拥塞,称为CE位(Congestion Experienced)

图2-1 IPv4报文头中的ECN域示意图

 

图2-1所示以IPv4报文为例,RFC 3168对ECN域的取值进行如下规定:

·     ECN域的取值为00时,表示该报文不支持ECN功能。

·     ECN域的取值为01或者10时,表示该报文支持ECN功能,分别记为ECT(0)或ECT(1)。

·     ECN域的取值为11时,表示该报文在转发路径上发生了拥塞,记为CE。

类似IPv4报文,RFC 3168规定IPv6基本报文头中Traffic Class字段最后两位被定义为ECN域。

2.3  静态ECN功能

1. 静态ECN功能定义

ECN又被称为拥塞通知,通常普通的ECN功能需要和WRED策略配合应用,即手工为队列配置WRED队列平均长度的上下限和丢弃概率等参数,再为该队列开启ECN功能,这类通过手工指定WRED参数来实现的ECN功能称为静态ECN功能。关于拥塞通知的详细介绍,请参考“QoS和ACL配置指导”中的“QoS”。

2. 静态ECN功能优势和不足

部署了静态ECN功能具备如下优势:

·     通过合理设置WRED策略中队列长度的下限值,可以使转发设备提前感知到路径上的拥塞,并由报文接收端通知报文发送端放缓发送速率。

·     在转发设备上,对超出队列长度下限值的报文仅标记ECN域为11,而不再丢弃报文,避免网络中报文丢弃和重传的过程,减少了网络时延。

·     网络中出现拥塞时,发送端在一定时间内逐步降低报文发送速率,在拥塞现象消失后,发送端逐步提升报文发送速率,避免出现网络吞吐量在拥塞前后快速震荡的情况。

但是,各个队列转发的数据流量特征会随时间动态变化,网络管理员通过静态设置ECN门限时,并不能满足实时动态变化的网络流量特征:

·     ECN门限设置过高时,转发设备将使用更长的队列和更多缓存来保障流量发送的速率,满足吞吐敏感的大流的带宽需求。但是,在队列拥塞时,报文在缓存空间内排队,会带来较大的队列时延,不利于时延敏感的小流传输。

·     ECN门限设置偏低时,转发设备使用较短的队列和少量缓存尽快触发来降低队列排队的时延,满足小流对时延的需求。但是,过低的ECN门限会降低网络吞吐率,影响吞吐敏感的大流,限制了大流的传输。

基于以上原因,需要一种智能地实时ECN低门限控制功能,这种功能称为AI ECN功能。

2.4  AI ECN功能

图2-2所示,AI ECN功能利用设备本地或分析器上的AI业务组件,按照一定规则动态优化ECN门限。其中,AI业务组件是实现ECN动态调优的关键,是内置在网络设备或者分析器中的系统进程,它主要包括三个层次的功能框架:

·     数据采集分析层:提供用于获取海量待分析的特征数据的数据采集接口,并对获取到的这些数据进行预处理和分析。

·     模型管理层:管理模型文件,并基于用户加载的AI功能模型,推理得到AI ECN门限。

·     算法层:调用数据采集分析层的接口得到实时特征数据,按照固定步长的搜索试算法计算得到AI ECN门限。

图2-2 AI ECN功能实现示意图

 

图2-2所示,AI ECN功能实现的机制如下:

(1)     ‍设备内的转发芯片会对当前流量的特征进行采集,比如队列缓存占用率,流量吞吐率,当前大小流占比等特征数据,然后将网络流量实时特征信息通过Telemetry传递给AI业务组件中的数据采集分析层。

(2)     AI业务组件收到推送的流量特征信息后,数据采集分析层将对当前的流量特征进行分析,并判断当前的网络流量特征是否符合模型管理层中已加载的流量模型。

¡     如果该流量特征符合已加载流量模型中的一种,AI业务组件将根据已知流量模型推理出实时ECN门限的最优值。这种AI ECN的生成方式称为模型推理模式,采用Neural Network算法。

¡     如果该流量特征不符合已加载流量模型,AI组件将基于现网状态,在保障高带宽、低时延的前提下,对当前的ECN门限按照固定步长进行实时修正,修正后的ECN门限下发给转发芯片。然后再根据设置新ECN门限后一定周期内重新采集的流量特征结果不断循环修正ECN门限,最终得到最优的ECN门限配置。这种AI ECN的生成方式称为启发式推理模式。

(3)     网络设备上启用AI ECN功能后,转发芯片将自动接收AI业务组件的ECN数据推送,根据AI业务组件下发的最优ECN门限调整ECN门限值。

(4)     通过AI业务组件和转发芯片这种联动机制可以实时保证ECN门限跟随流量动态变化。

¡     当队列中小流占比高时,降低ECN触发门限,保证多数小流的低时延性。

¡     当队列中大流占比高时,提高ECN触发门限,保证多数大流的高吞吐性。

2.5  AI ECN与硬件适配关系

对于S12500G-AF,仅SF系列接口板和SG系列接口板支持AI ECN,但丝印前缀为LSXM1的单板不支持AI ECN。

2.6  AI ECN的配置任务简介

(1)     开启指定队列的AI ECN功能

(2)     保存AI ECN的日志文件

2.7  开启指定队列的AI ECN功能

1. 功能简介

开启指定队列的AI ECN功能,设备会使用NetAnalysis技术对现网的流量特征进行采集并上送至分析器或设备本地的AI业务组件,AI业务组件将根据预加载的流量模型文件动态为队列设置并下发最佳的ECN门限,保障队列的低时延和高吞吐。关于NetAnalysis的详细介绍,请参考“网络管理和监控配置指导”中的“NetAnalysis”。

根据设备芯片和硬件能力,AI ECN功能实现的模式有四类,采用不同的AI ECN功能模式,设备获取ECN门限的方式不同:

·     Centralized模式:网络中设备的ECN门限由分析器集中计算并传递给设备,实现拥塞通知功能,这种方式AI ECN功能由分析器完成计算分析,对设备本身硬件能力要求较低;

·     Distributed模式:设备本地实现的分布式AI ECN功能,设备根据加载到本地CPU的模型文件,智能地识别流量场景,并根据匹配的流量场景为队列设置最佳的ECN门限,这种方式AI ECN功能对设备硬件算力要求中等,会消耗设备CPU资源;

·     RLCPP模式:由设备CPU运行深度强化学习算法实现AI ECN功能,类似Distributed模式,设备根据加载到本地CPU的深度强化学习模型,推理出最优的ECN门限。RLCPP模式还会持续收集单节点流量数据至经验池,定期微调优化模型,让模型能够适应更多陌生场景。RLCPP模式实现的AI ECN功能对设备硬件算力要求很高,会大量消耗设备CPU资源。

2. 配置限制和指导

对于同一队列,配置本功能与在接口上应用WRED表、配置队列的WRED参数、配置计算平均队列长度的指数、开启指定队列的拥塞通知功能、配置基于队列的WRED表、配置基于队列的WRED表的内容功能互斥。

3. 配置准备

在智能无损网络中配置AI ECN功能时,需要先配置RoCEv2流量NetAnalysis功能,由NetAnalysis技术对现网的流量特征进行深度分析,关键配置包括:

·     使用netanalysis rocev2 mode命令配置RoCEv2流量NetAnalysis功能的工作模式;

·     使用netanalysis rocev2 statistics命令开启RoCEv2流量的NetAnalysis统计功能;

·     使用netanalysis rocev2 ai-ecn enable命令开启RoCEv2流量的AI ECN功能。

4. 配置步骤

(1)     进入系统视图。

system-view

(2)     进入AI-Service视图。

ai-service

(3)     配置AI ECN功能的模式。

ai ai-ecn enable mode { centralized | distributed | rlcpp }

(4)     进入AI-ECN视图。

ai-ecn

(5)     开启指定队列的AI ECN功能。

queue queue-id enable

缺省情况,所有队列都未开启AI ECN功能。

2.8  保存AI ECN的日志文件

1. 功能简介

设备上开启指定队列的AI ECN功能之后,再配置保存AI ECN的日志文件时,设备将调整队列的最佳ECN门限的操作记录以及调整ECN门限的依据信息即数据流预处理的结果都会记录到AI ECN的日志文件中,并自动保存在设备的本地存储上。通常自动保存的AI ECN的日志文件会包含“AIECN”字样的标识。

AI ECN的日志文件可以帮助运维和技术支持人员分析AI ECN的效果。

2. 配置步骤

(1)     在任意视图,执行保存AI ECN的日志文件命令。

ai ai-ecn save logfile

2.9  AI ECN的显示和维护

在完成上述配置后,在任意视图下执行display命令可以显示AI ECN日志信息,用户可以通过查看显示信息分析和定位故障。

表2-1 AI ECN的显示和维护

操作

命令

显示通过AI ECN功能下发ECN门限的日志信息

display ai ai-ecn logfile [ tail line-number ]

 

3 AI绿色节能

3.1  AI绿色节能简介

AI绿色节能基于多种深度强化学习的AI算法,调整网络设备的风扇转速,既满足了设备器件的温度和散热要求,也合理控制了设备的功耗,减少风扇的噪声。

3.1.1  背景介绍

通常情况下,对于网络设备而言,增加风扇转速会使得风扇的功耗变高,噪声变大,而设备的温度降低。反之,风扇功耗降低,噪声减小,但设备温度升高。设备的整体功耗会同时受到温度和风扇的影响。例如,设备上存在一些大功率芯片,器件功耗会随温度升高而增加,降低风扇转速虽然降低了风扇功耗,但反而可能使得设备总功耗增加。

为了降低设备整体功耗,合理调节风扇转速和温度,传统的处理方式是设置一个经验温度,采用绕点调速算法来调整风扇转速,这种方法无法保障节能效果,且当经验温度不合适时,设备温度会来回震荡。为了满足绿色节能的需求,在不同环境下使设备总体功耗最低,需要合理设置风扇转速,因此,提出了一种基于深度强化学习的AI绿色节能方案。该方案相较于传统的风扇调节方案,系统总功率降低15%。

3.1.2  工作原理

图3-1所示,AI绿色节能进程的工作流程如下:

(1)     设备通过NETCONF实时采集设备的各种状态数据,包括各个单板的温度及功率,各个风扇模块的功率和转速信息。

(2)     设备将采集到的数据作为AI绿色节能进程的初始输入数据,AI绿色节能根据初始数据计算得到初步的风扇转速。

(3)     AI绿色节能进程再基于多种AI算法,重复上述过程,不断循环优化得到最优的风扇转速。

(4)     最后,AI绿色节能进程将最优的风扇转速信息下发给设备的各个风扇,设备根据最优结果来调整风扇转速,控制风扇功耗和噪声,最终达到整体功耗最优的结果。

图3-1 AI绿色节能工作原理示意图

 

3.2  AI绿色节能的配置任务简介

(1)     开启AI绿色节能功能

3.3  开启AI绿色节能功能

(1)     进入系统视图。

system-view

(2)     进入AI-Service视图。

ai-service

(3)     开启AI绿色节能功能,并配置AI绿色节能功能的模式。

ai ai-fan-energy-saving enable mode energy-saving

缺省情况下,未开启AI绿色节能功能。

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们