• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

18-AI智能运维配置指导

目录

01-AI智能运维配置

本章节下载 01-AI智能运维配置  (237.35 KB)

01-AI智能运维配置


1 AI智能运维

1.1  AI智能运维概述

AI(Artificial Intelligence,人工智能)正在以前所未有的速度深刻改变人类社会生活,各种ICT设备也在积极利用AI技术来提升设备运维效率,改进传统的设备运维手段,从而满足用户降本增效的需求。AI的三个核心要素是:算法、算力和数据,设备基于各种的AI智能算法,利用海量样本数据,再通过设备上芯片的算力来实现不同AI功能。

1.2  AI功能简介

1. AI ECN

AI ECN(Artificial Intelligence Explicit Congestion Notification,AI显式拥塞通知)利用AI算法和数据模型动态推测队列的最优队列的ECN门限,设备转发报文时,根据动态优化的ECN门限发送携带ECN标记的报文,降低网络中拥塞程度,保证在复杂网络环境下,接口上报文转发仍然能满足低时延和高吞吐率。关于AI ECN的详细介绍,请参见2 AI ECN

2. AI日志聚合和根因分析

AI日志聚合和根因分析根据日志间的相关性将一段时间内信息中心接收到的的所有日志信息进行聚合,简化日志信息,并且基于日志聚合结果和故障根因分析库,推导出可能导致故障的原因,输出故障根因文件供用户参考。

3. AI设备异常检测

AI设备异常检测借助AI算法来判断当前的CPU使用率或者设备各种表项资源的使用率是否存在异常,根据异常判定结果输出告警信息。相对于静态手工配置的各类使用率告警阈值,AI设备异常检测更加准确合理。


2 AI ECN

2.1  AI ECN简介

AI ECN(Artificial Intelligence Explicit Congestion Notification,AI显式拥塞通知)是一种利用AI算法来实现的动态拥塞通知技术。AI ECN通常使用在智能无损网络中,为RoCEv2(RDMA over Converged Ethernet)流量提供拥塞避免机制。

2.2  基本概念

ECN功能利用IP报文头中的DS域来标记报文传输路径上的拥塞状态。支持该功能的终端设备可以通过报文中的ECN标记判断出传输路径上是否发生了拥塞,从而调整报文的发送速率,避免拥塞加剧。

在RFC 2481标准中,IP报文头中DS域的最后两个比特位被定义为ECN域,并进行了如下定义:

·     比特位6用于标识发送端设备是否支持ECN功能,称为ECT位(ECN-Capable Transport)

·     比特位7用于标识报文在传输路径上是否经历过拥塞,称为CE位(Congestion Experienced)

图2-1 IPv4报文头中的ECN域示意图

 

图2-1所示以IPv4报文为例,RFC 3168对ECN域的取值进行如下规定:

·     ECN域的取值为00时,表示该报文不支持ECN功能。

·     ECN域的取值为01或者10时,表示该报文支持ECN功能,分别记为ECT(0)或ECT(1)。

·     ECN域的取值为11时,表示该报文在转发路径上发生了拥塞,记为CE。

类似IPv4报文,RFC 3168规定IPv6基本报文头中Traffic Class字段最后两位被定义为ECN域。

2.3  静态ECN功能

1. 静态ECN功能定义

ECN又被称为拥塞通知,通常普通的ECN功能需要和WRED策略配合应用,即手工为队列配置WRED队列平均长度的上下限和丢弃概率等参数,再为该队列开启ECN功能,这类通过手工指定WRED参数来实现的ECN功能称为静态ECN功能。关于拥塞通知的详细介绍,请参考“QoS和ACL配置指导”中的“QoS”。

2. 静态ECN功能优势和不足

部署了静态ECN功能具备如下优势:

·     通过合理设置WRED策略中队列长度的下限值,可以使转发设备提前感知到路径上的拥塞,并由报文接收端通知报文发送端放缓发送速率。

·     在转发设备上,对超出队列长度下限值的报文仅标记ECN域为11,而不再丢弃报文,避免网络中报文丢弃和重传的过程,减少了网络时延。

·     网络中出现拥塞时,发送端在一定时间内逐步降低报文发送速率,在拥塞现象消失后,发送端逐步提升报文发送速率,避免出现网络吞吐量在拥塞前后快速振荡的情况。

但是,各个队列转发的数据流量特征会随时间动态变化,网络管理员通过静态设置ECN门限时,并不能满足实时动态变化的网络流量特征:

·     ECN门限设置过高时,转发设备将使用更长的队列和更多缓存来保障流量发送的速率,满足吞吐敏感的大流的带宽需求。但是,在队列拥塞时,报文在缓存空间内排队,会带来较大的队列时延,不利于时延敏感的小流传输。

·     ECN门限设置偏低时,转发设备使用较短的队列和少量缓存尽快触发来降低队列排队的时延,满足小流对时延的需求。但是,过低的ECN门限会降低网络吞吐率,影响吞吐敏感的大流,限制了大流的传输。

基于以上原因,我们需要一种智能地实时ECN低门限控制功能,这种功能称为AI ECN功能。

2.4  AI ECN功能

图2-2所示,AI ECN功能利用设备本地或分析器上的AI业务组件,按照一定规则动态优化ECN门限。其中,AI业务组件是实现ECN动态调优的关键,是内置在网络设备或者分析器中的系统进程,它主要包括三个层次的功能框架:

·     数据采集分析层:提供用于获取海量待分析的特征数据的数据采集接口,并对获取到的这些数据进行预处理和分析。

·     模型管理层:管理模型文件,并基于用户加载的AI功能模型,推理得到AI ECN门限。

·     算法层:调用数据采集分析层的接口得到实时特征数据,按照固定步长的搜索试算法计算得到AI ECN门限。

图2-2 AI ECN功能实现示意图

 

图2-2所示,AI ECN功能实现的机制如下:

(1)     设备内的转发芯片会对当前流量的特征进行采集,比如队列缓存占用率,流量吞吐率,当前大小流占比等特征数据,然后将网络流量实时特征信息通过Telemetry传递给AI业务组件中的数据采集分析层。

(2)     AI业务组件收到推送的流量特征信息后,数据采集分析层将对当前的流量特征进行分析,并并判断当前的网络流量特征是否符合模型管理层中已加载的流量模型。

¡     如果该流量特征符合已加载流量模型中的一种,AI业务组件将根据已知流量模型推理出实时ECN门限的最优值。这种AI ECN的生成方式称为模型推理模式,采用Neural Network算法。

¡     如果该流量特征不符合已加载流量模型,AI组件将基于现网状态,在保障高带宽、低时延的前提下,对当前的ECN门限按照固定步长进行实时修正,修正后的ECN门限下发给转发芯片。然后再根据设置新ECN门限后一定周期内重新采集的流量特征结果不断循环修正ECN门限,最终得到最优的ECN门限配置。这种AI ECN的生成方式称为启发式推理模式。

(3)     网络设备上启用AI ECN功能后,转发芯片将自动接收AI业务组件的ECN数据推送,根据AI业务组件下发的最优ECN门限调整ECN门限值。

(4)     通过AI业务组件和转发芯片这种联动机制可以实时保证ECN门限跟随流量动态变化。

¡     当队列中小流占比高时,降低ECN触发门限,保证多数小流的低时延性。

¡     当队列中大流占比高时,提高ECN触发门限,保证多数大流的高吞吐性。

2.5  AI ECN的License要求

AI ECN功能受License限制,请在使用本功能前安装有效的License。有关License的详细介绍,请参见“基础配置指导”中的“License管理”。

2.6  AI ECN的配置任务简介

(1)     开启指定队列的AI ECN功能

2.7  开启指定队列的AI ECN功能

1. 功能简介

开启指定队列的AI ECN功能,设备会使用NetAnalysis技术对现网的流量特征进行采集并上送至分析器或设备本地的AI业务组件,AI业务组件将根据预加载的流量模型文件动态为队列设置并下发最佳的ECN门限,保障队列的低时延和高吞吐。关于NetAnalysis的详细介绍,请参考“网络管理和监控配置指导”中的“NetAnalysis”。

根据设备芯片和硬件能力,AI ECN功能实现的模式有三类,采用不同的AI ECN功能模式,设备获取ECN门限的方式不同:

·     网络中设备的ECN门限由分析器集中计算并传递给设备,实现拥塞通知功能,这种方式AI ECN功能由分析器完成计算分析,对设备本身硬件能力要求较低;

·     设备本地实现的分布式AI ECN功能,设备智能地为队列设置最佳的ECN门限,这种方式AI ECN功能对设备硬件算力要求较高,可能消耗设备CPU资源;

·     设备的神经网络功能实现的AI ECN功能,神经网络算法智能地为队列设置最佳的ECN门限,需要设备硬件芯片支持该功能的算法。

2. 配置限制和指导

对于同一队列,配置本功能与在接口上应用WRED表、配置队列的WRED参数、配置计算平均队列长度的指数、配置基于队列的WRED表、配置基于队列的WRED表的内容互斥。

AI ECN功能受License限制,请在使用本功能前安装有效的License。有关License的详细介绍,请参见“基础配置指导”中的“License管理”。

对于显示端口队列出方向的统计信息,仅当使能AI ECN时才有数据。

IRF端口不支持ECN功能。

3. 配置准备

在智能无损网络中配置AI ECN功能时,需要先配置RoCEv2流量NetAnalysis功能,由NetAnalysis技术对现网的流量特征进行深度分析,关键配置包括:

·     使用netanalysis rocev2 mode命令配置RoCEv2流量NetAnalysis功能的工作模式;

·     使用netanalysis rocev2 statistics命令开启RoCEv2流量的NetAnalysis统计功能;

·     使用netanalysis rocev2 ai-ecn enable命令开启RoCEv2流量的AI ECN功能。

4. 配置步骤

(1)     进入系统视图。

system-view

(2)     进入AI-Service视图。

ai-service

(3)     配置AI ECN功能的模式。

ai ai-ecn enable mode { centralized | distributed | neural }

(4)     进入AI-ECN视图。

ai-ecn

(5)     开启指定队列的AI ECN功能。

queue queue-id enable

缺省情况,所有队列都未开启AI ECN功能。

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们