《数字化领航》AI技术专刊

AI in ALL

智能驱动运维新范式：AI技术重塑ICT运维

文 | 新华三集团技术服务部李大维

摘要

在“人工智能+”国家战略推动下，ICT运维正经历从传统工业模式向智能驱动范式的深刻转型。传统运维依赖经验与规则，在面对云原生、微服务等高复杂度系统时已显乏力，面临业务稳定性要求高、人力紧缺及运维模式滞后三大挑战。AI技术，特别是大语言模型与智能体（Agent）的融合，为构建具备感知、决策、执行与学习能力的自愈式运维体系提供了新路径。本文提出通过多智能体协同、多模态数据融合与场景化重构，可实现从“被动响应”到“主动预防”、从“人力主导”到“系统自治”的跃迁。数据积累与场景建设是AI运维落地的关键支撑。该范式不仅提升运维效率，更重塑ICT运维的治理逻辑与产业价值。

关键词

智能运维；自感智愈

伴随“人工智能+”行动的实施推进，人工智能已从技术研发层面，上升至国家产业战略高度。在ICT领域内，智能运维正在成为驱动AI基础设施迈向高质量、自主发展的核心引擎。AI技术的应用普及将日常运维从依赖经验的“手艺活”，逐步转向为数据驱动的“研究学科”。

1 传统运维是工业模式对人工智能的错配

传统ICT运维，植根于工业时代的管控模式，一度以规则、流程与人力经验构筑起系统稳定的运维堤坝。然而，当云原生架构、微服务泛滥，这套建立在“确定性”与“可控性”基础上的旧体系，已难以应对现代运维体系的复杂性。智能运维升级不是技术工具的简单升级，而是认知范式的根本跃迁。其标志着ICT运维从“被动响应”转向“主动预防”，从“人力主导”迈向“系统自治”，从“保障职能”蜕变为“智能中枢”。经过业务实践，传统ICT运维模式在智能化时代下运行面临三大挑战。

◆挑战一：业务稳定性要求高

随着企业承载的业务对相关系统的安全稳定运行要求日益升高，业务功能间常需多应用调度配合。传统运维模式的要求一般是事件发生后的快速响应和高效处置，但经常会遇到异常定位困难、处置效率低等缺陷，这种被动响应模式已经不能满足运维异常事件的处置需求。

◆挑战二：人力紧缺

传统模式下运维工作需要耗费大量人力，对于企业运营产生巨大压力。但随着ICT基础设施规模快速扩张，如今的运维内容由于工作量大、工作内容重复且枯燥，运维岗位特别是值班岗位的意愿度逐渐降低。运维需求与人力资源紧缺的矛盾已成为运维发展历程中无法避免的矛盾。

◆挑战三：运维模式加速变革

从单设备向数据中心、多场景网络发展过程中，传统的现场运维方式因数据中心地点分散、现场巡检工作繁琐等困难，导致运维成本和压力增大。在AI时代背景下，如何通过技术手段实现真正的远程化、智能化运维，已成为解决数据中心规模化发展的关键问题。

2 AI时代智能运维模式跃迁理解

当前，ICT行业早已脱离集中式、静态化的旧有形态，演化为跨地域、多云、高动态、强耦合的复杂适应系统体系。以微服务架构为例，一次用户请求可能跨越数千服务节点，调用链路呈指数级扩展，系统状态空间近乎无穷。面对如此非线性、涌现性强的环境，仍沿用工业时代的还原论方法，采用拆解、监控、人工干预等方法，无异于用经典力学解释量子现象，其认知框架与现实结构之间已出现根本性断裂。

面对日益突出的传统运维模式下挑战，随着AI智能时代的到来，智能运维借助AI能力的全面升级恰好是对这些挑战的有效回应。它不再追求穷举规则或精确控制，而是接受不确定性，构建具备感知、学习与推理能力的智能代理，以适应而非掌控的方式参与系统演化。未来智能运维发展应向着自愈式服务演进。

2.1 从工具化到AI智能体化演进

初始传统运维阶段，ICT运维处于工具化与脚本运维阶段，火热的运维开发岗位常常使用Shell、Python等脚本语言开发自动化工具，通过SNMP、IPMI等标准协议进行设备监控与管理，并依赖运维监控系统实现基础性的阈值告警。这种运维模式下各工具独立运行，形成了严重的孤岛效应，同时运维事件处置高度依赖运维人员的个人经验和直觉判断，运维效率随着系统复杂度的提升而急剧下降。

在AI能力未形成规模前，机器学习取代简单规则和工具运维的方式火热一时。这一阶段在多元数据处理技术上取得了重大进展，通过孤立森林、STL分解等算法实现时序数据异常检测，利用聚类和文本分析技术进行日志模式挖掘，并借助图计算算法构建应用依赖关系。在智能分析方面，根因分析通过随机游走、因果推理等算法定位故障源头，学习算法帮助发现未知故障模式，ARIMA（自回归综合移动平均）、LSTM（长短期记忆网络）等时间序列预测模型则实现了预防性维护。

伴随着AI技术的井喷式发展，智能运维正在迈向真正自愈式的新时代。大语言模型（LLM）的出现解决了自然语言理解和复杂推理方面的瓶颈，通过自然语言交互、日志语义理解等能力，大幅降低了使用门槛。智能体形态的运维能力成为新方向，借助AI使其具备感知、思考、行动和学习等核心能力，这一阶段支持人类与智能体的自然语言协作，形成"感知-决策-执行-学习"的完整自治闭环，为实现最终无人参与的自愈式运维奠定了坚实基础。

2.2 多智能体间相互协同工作

随着AI技术的进步，以及行业内最小单元智能体呈指数级增长，单智能体（Agent）在解决复杂问题中面临token爆炸、上下文记忆等难题，如何像传统运维一样将“专家经验”串联协助，成为实际运维场景下迫切需要解决的难题。而借鉴人类社会分工角色，构建多智能体协同工作的模式，则成为了复杂运维实践中的有效方法。

具体而言，首先需要将复杂运维场景拆解呈标准化子任务，每个子任务都匹配相对应功能的单智能体，明确角色边界和协作规则。例如，运维排错场景可拆分为故障探测智能体（采集设备信息并分析）、异常诊断智能体（告警日志分析、定位问题根源）、执行操作智能体（执行重启服务、修改配置）等。

在工具与框架层面，需要搭建可以支持调度和大模型应用的基础模型编程框架，利用运维专用工具包括检测器、算法、诊断工具等，通过转换工具（如Text2Query、Data2Annotation）实现自然语言与系统指令间的双向转换。

最终，多智能体整合多种运维数据源，可形成统一的运维形态数据层，包括指标、日志、调用链等多模态数据，服务器结构、运行状态、设备告警等基础设施信息，知识图谱、安全策略、历史工单等运行数据，这些数据通过标准化接口被上层模型和Agent调用，支撑整个系统的智能判断与决策。

3 如何筹备迎接AI时代的到来

大语言模型与智能体技术的融合，正推动智能运维从理论构想迈向产业实践的新阶段。面对技术落地过程中的挑战，既需要保持理性的认知，也要秉持积极探索的态度。在AI大潮之中，作为ICT运维相关领域的从业者应该思考，如何更好将AI技术在运维场景中可靠落地。

3.1 数据：积累数据是AI运维建设的关键因素

伴随开源AI能力的持续迭代，各类AI模型在基础能力层面本质区别不大，如何在不同行业实现真正落地，其决定性因素集中在与长期数据积累和数据使用方式上。在运维场景中，数据是决定能否成功落地的关键，因此亟需对于运维数据进行快速积累。

具体而言，数据重要性在运维领域的体现主要在以下两方面。

其一，运维工作者长期积累的“运维经验”是构建AI体系下运维的核心内容。通过运维经验的数据治理，形成可供模型训练或挂载的数据集，丰富的数据集可以帮助模型更好的理解和捕捉不同运维场景下的相关对策。多样化的运维数据可以在复杂的运维场景中各类任务和领域表现出更好的泛化能力。同时通过海量数据进行训练，可以保证适应不同陌生输入，并在不同的运维情况下保持稳定的性能。

其二，ICT基础设施蓬勃发展下，面对运维数据洪流下的支持瓶颈。在当今运维体系中，常常出现每秒生成TB级日志，数据中心下万级告警并发，传统工具辅助的模式已结构性崩塌。传统运维系统处理能力有限，并发限制等限制。运维AI技术可以融合大语言模型的语义理解、强化学习的策略优化与因果推理的诊断能力，构建“机器认知+人类监督”的新型协同架构。同时将海量数据快速压缩为高价值运维信息，自动生成诊断报告与修复建议，降低运维门槛同时大幅提升运维效率。

3.2 场景：构建场景对AI运维完善有重要推动

当前，运维工作内容已不再是单一重复执行，伴随着组网复杂、规模扩张等现状，如何将运维场景按照运维工程师视角有序构建，将传统运维生态 “烟囱式”架构进行整合，把监控、日志、告警、配置、流程等原先运维孤岛按场景进行梳理，通过A2A协议完成不同场景下多智能体运维调度。同时，依托场景梳理也可以以“统一智能层”为核心理念，通过嵌入技术将多模态数据映射至统一空间，借助知识图谱整合拓扑、依赖与历史经验，自主规划任务路径，调用各类工具完成端到端闭环操作。

同时，企业运维已不局限于单一操作，传统运维工具系统一般仅针对单一场景进行优化提升，AI技术的发展彻底重构了这一格局。通过智能体可以完成从预防、发现、处置、总结各阶段的串联，这标志着ICT运维从“后台保障”向“前台赋能”的战略跃迁，打造真正统一的运维模式。

4 结束语

在这场变革中，我们正见证一种全新运维形态的诞生。 AI运维不仅赋予系统自愈能力，更在实践中探索重塑行业模式的新范式。历史使命远不止于提升稳定性或降低成本，更是构建人类与复杂共舞的智能生态。

如今，这场革命才刚刚开始。