国家 / 地区
docurl=/cn/Service/Policy_Trends/Service_News/202011/1359193_30005_0.htm

智能化技术及应用 | AI加持 解锁ICT智能运维新势能

【发布时间:2020-11-26】

刚刚经历双十一的各位尾款人,是否遭遇过订单信息突然消失的恐怖瞬间?希望没有。而在2019年3月20日,某电商用户就曾经历无法查看订单和网购的惊魂一刻,原因是系统大范围故障导致平台崩溃。面对类似情况,企业如何快速发现故障?如何迅速定位故障原因?甚至如何在故障发生前即能检测异常,自动采取措施规避?种种诉求都在呼唤智能运维(AIOps,Artificial Intelligence for IT Operations)技术的普及应用。

探寻AI在ICT运维中的三大应用场景

智能运维的目标是基于已有的运维数据(日志、监控信息、应用信息等),借助AI,通过主动发现、动态数据分析和预测,增强 ICT 的技术能力,实现所维护产品的更高质量、合理成本及高效服务。在实践落地过程中,智能运维的典型应用场景可以划分为以下三个:

场景一、故障发现

智能化的故障发现是通过 AI 算法,自动地从监控数据中发现异常,实现对故障的主动提前发现,为后续诊断、自愈提供基础。因此,结合AI的智能运维可以实现自动学习阈值、自动调参,抑制告警风暴,提高告警准确性。

场景二、故障定位

故障定位是智能运维的核心。智能运维可以综合故障数据和固化下来的人工经验,自动提取故障特征,主动匹配,最终确定故障原因;也可以根据故障特征和特征之间的依赖关系推演出可能的故障原因,并在人工确认后形成固化的知识。

场景三、故障规避

故障出现之前会有征兆,智能运维可以开展主动健康度检查,针对重要特性数据进行预测算法学习,提前预测故障发生,帮助提前采取措施排除故障隐患,避免服务受损。另外,还可以对系统容量进行预测,辅助运维人员提前对系统扩容或升级进行规划。

面向 AIOps 的两大算法技术助推智能运维

运维场景的问题,通常无法直接基于某个通用AI算法整体解决所有问题,而需要把问题拆解成更细的模块有针对性地解决。目前常见的面向 AIOps 的算法技术可以分为两大类:基于数据分析的AI技术和基于知识图谱的AI技术。

首先,基于数据分析的AI技术。

具体包括指标趋势预测和异常检测,以及关联关系挖掘。指标趋势预测和异常检测:用于容量预测、容量规划、指标异常检测等场景,异常检测中又会涉及单指标异常检测和多指标异常检测。关联关系挖掘:用于构建故障传播关系,从而应用于故障诊断。

其次,基于知识图谱的AI技术。

一方面可以通过对运维数据自动挖掘构建运维知识图谱,涉及对各类运维主体、运维主体的特性规律和运维主体之间关系的分析和构建。在生成知识图谱过程中,会用到各类监控数据,包括指标、日志事件、Trace、变更、流程等等。

另一方面还可以通过对人工知识和运维经验进行固化形成知识图谱,比如对标准的网络协议过程进行整理固化后可以指导分析协议交互类的故障原因分析。

智能运维涉及的相关AI技术

智能运维涉及的相关AI技术

对于复杂的根因分析,根据需要会结合两类方法,比如在对故障传播关系挖掘过程中,会融合文本数据与指标数据,基于上述多指标联动关联挖掘、指标与事件关联挖掘、事件与事件关联挖掘等技术、由 tracing 推导出的模块调用关系图、辅以服务器与网络拓扑,构建组件之间的知识图谱故障传播关系。

五大阶段 推动智能运维演进

业界参照自动无人驾驶分级,将智能运维划分为以下五个发展阶段:

第一阶段开始尝试应用 AI 能力,还无较成熟单点应用。借助已经成熟的脚本批量化,可以实现一定的执行自动化。

第二阶段具备单场景的 AI 运维能力,可以初步形成供内部使用的单点智能应用模块。人工智能开始逐步发挥单项能力,比如指标监控,磁盘故障,光模块故障检测等。

第三阶段可以由多个单场景 AI 运维模块串联起来形成一定流程化 AI 运维能力。可以综合多个情况进行下一步的分析和操作,包括多维下钻分析寻找故障根因等。

第四阶段对主要运维场景均已实现流程化免干预 AI 运维能力,可以对外提供可靠的 AIOps 服务。可以基于故障的实际场景实现故障定位,然后进行故障自愈等操作。

第五阶段有核心中枢 AI,可以在成本、质量、效率间从容调整,实现多目标下的持续最优或按需最优。从故障发现到诊断到自愈整个流程由智能大脑统一控制,并由自动化和智能化自主实施。

智能运维五个发展阶段

智能运维五个发展阶段

通过以上五个阶段,智能运维的建设可以先由无到局部单点探索、再到单点能力完善,形成解决某个局部问题的模块,再由多个具有 AI 能力的单运维能力点组合成一个智能运维流程,然后逐渐联合形成整体的智能流程,最终达到根据目标自动持续全面优化的能力。

在智能运维的道路上,紫光股份旗下新华三集团不断探索,基于“AI in ALL”智能战略及“数字大脑计划2020”实践,构建出跨场景的智能网络管理、iService服务数字中枢、一站式统一运维等全新解决方案,实现了以AIOps为大脑,大数据采集和分析为输入,智能决策为输出的智能运维,推动行业智能运维水平的全面提升,助力数字化转型。

联系我们 联系我们
联系我们
回到顶部 回到顶部