《数字化领航》AI技术专刊

AI in ALL

AI时代运维新范式：智能运维服务探索实践

文 | 新华三集团技术服务部李大维

摘要

面对ICT基础设施日益增长的复杂性与稳定性挑战，传统运维模式已难以满足AI时代对敏捷性与连续性的要求。本文基于新华三“AI in ALL”战略，提出一种以AI原生为核心的新运维范式，通过构建“感知-决策-执行”闭环体系，实现从被动响应向主动预防、自服务生态的演进，并深入介绍三阶段能力建设路径：初期依托生成式大模型与私域知识库打造高精度智能问答系统；中期开发覆盖查询、排障、配置等场景的12类AI智能体，支持自然语言交互与自动化脚本下发；后期实现对软硬件系统的直接操控与“发现即治理”的闭环治理。该体系已在金融等复杂场景落地，显著提升故障处理效率并降低人为失误。

关键词

服务闭环；数据积累

在数字化热潮席卷全球的今天，人工智能正以前所未有的深度与广度重塑千行百业的技术架构、运营模式乃至商业逻辑。作为数字经济的底层支撑力量，ICT基础设施的规模与复杂性持续攀升，传统依赖人工经验与分散工具的运维方式已难以应对日益增长的系统稳定性、服务连续性与响应敏捷性等多重挑战。

新华三集团作为数字化及AI解决方案的领军企业，始终站在技术变革的前沿。依托深厚的技术积淀、百万级设备部署的实战经验，以及对行业需求的深刻洞察，新华三提出“AI in ALL”战略理念：不再将人工智能视为功能附加或局部优化手段，而是以AI为核心，重构产品能力、服务流程与用户交互的全链路逻辑，持续将AI技术运用于智能运维领域。

1 意识转变：从“AI赋能”到“AI原生”，建立智能运维发展方向

“AI in ALL”不仅是一句口号，更是一种全新的技术哲学。在这个体系中，AI不再是被动响应的助手，而是能够主动感知、深度理解、自主决策并执行动作的“数字员工”。从用户一句自然语言提问开始，到系统自动完成故障定位、生成处置方案、下发修复指令，再到事后沉淀知识反哺模型，整个过程无需人工干预，实现“端到端”的智能闭环。这种能力的背后，是新华三对“监、管、控”三大环节的彻底打通，是对数据孤岛的全面破除，更是对传统运维逻辑的根本性重构。

2 能力筑基：三阶跃迁打造端到端智能运维中枢

新华三的智能运维体系建设遵循“感知、决策、支撑”的演进路径，分阶段推进三大能力建设，逐步实现从“单点智能”升级为“全链路智能”的质变飞跃。

初始阶段侧重于AI智能问答能力的构建。基于业界领先的生成式大模型与私域知识库融合技术，新华三打造了首个面向ICT运维场景的AI智能客服系统。该系统已正式上线运行，月均交互量超过2.5万次，回答有效率高达93.45%，显著优于行业平均水平。系统深度融合了产品手册、技术白皮书、社区案例、工单记录等多源异构数据，构建起超千万级的向量化知识图谱，并引入意图识别、上下文理解与多轮对话管理机制，支持如“我的交换机频繁重启怎么办？”“如何查看H3C S6800的日志？”等高度口语化的自然语言提问，实现精准匹配与结构化输出。

更为关键的是，系统具备自我进化能力，每一次用户反馈都会被记录，并用于优化模型，形成“使用—学习—提升”的正向循环，真正实现知识服务的动态生长。

图1 智能客服系统工作流程架构图

在完成基础认知能力建设后，新华三迅速迈入下一阶段：智能阶段的构建。这一阶段最具代表性的载体是全天候AI风险防控系统客户端，该客户端包含 DMZ代理层，通过代理访问和网络安全隔离方式连接H3C云端平台。H3C云端平台提供已加解密、配置管理、技术公告等功能，并通过网关接入中心等模块支持网上风险监测、数据扫描等服务，系统核心由智能体调度、模型处理及结论输出、智能脚本下发三部分组成，其中智能体调度包括信息查询类、配置生成类、故障排查类、健康巡检类，模型处理及结论输出包含AI大模型处理、LLM 模型生成、合规检查、敏感词过滤，智能脚本下发支持仿真平台、设备控制台、CLI 命令行、RESTful API、Anvil Rayhook等接口，同时系统通过 RAG 知识库支持智能体调度，最终输出前台渲染输出脚本。

图2 智能阶段工作流程架构图

如果说智能问答解决了“知道什么”的问题，那么AI 智能体则致力于解决 “能做什么”，新华三创新性地规划并开发了覆盖交付全场景的12大AI智能体，涵盖查询、排障、配置、巡检、变更五大核心类别，目前已完成10 个智能体的阶段性建设与部署，查询类智能体已完成版本、日志、命令、技术公告、规格五大子类开发，支持跨产品线统一检索，准确率较传统方式提升 40% 以上；配置类智能体可理解用户模糊指令，例如“我想让这台防火墙只允许内网访问外网”，自动生成合规配置脚本并在人工确认后一键下发，当前配置准确率达85%，目标年内突破 90%；排障类智能体基于 RAG（检索增强生成）与因果推理引擎，构建“现象-根因-方案” 三层诊断模型，支持链路中断、性能下降、认证失败等典型故障的自动化排查路径推荐；变更类智能体则结合 AI 仿真平台，实现变更前风险评估、方案模拟、脚本生成、执行回滚全流程自动化，每年支撑超2万次变更任务，人为失误率下降70%。

这些智能体并非孤立存在，而是通过统一调度引擎协同工作，形成“问题入口-智能分诊-多体协作-闭环处置”的服务流水线，极大提升了复杂问题的处理效率与一致性。

进入智能阶段，新华三进一步聚焦“让AI成为执行者”，集成智能体实现对物理设备与软件系统的直接操控与闭环治理，硬件智能诊断系统已全面上线，月均调用量超 3200 次，单次故障的处理时间平均节省 45 分钟，系统可自动解析硬盘、内存、电源、风扇等关键部件日志，内置6000余条判据规则，自动化处理率达 70%，部分场景已实现 “零人工介入”，软件健康度评估系统建设进度已达 70%，可识别非标配置、固件兼容性问题、资源瓶颈等潜在风险，预计上线后每年可节省人力1250人/天，隐患治理闭环平台具备九大类风险预警能力，包括版本过期、配置偏差、容量超限、安全漏洞等，通过 “一键智愈” 功能自动触发修复动作，或引导用户完成补丁升级、配置优化、数据备份等操作，真正实现 “发现即治理”。

尤为值得一提的是，新华三已实现跨品牌设备纳管能力，支持主流第三方服务器、存储、网络设备接入云简平台，提供统一监控、告警聚合与智能分析，为多厂商混合环境下的客户提供了前所未有的运维便利。

3 服务跃迁：从被动响应到主动预防，再到自服务生态的不断深化

新华三的服务模式也正在经历一场深刻的范式转移。过去，依赖客户报障、工程师介入的被动服务模式，正逐步被全天候主动预警、智能预判的风险防控体系所取代。依托NSM监控平台与AI预测模型，系统可实现7×24小时不间断风险监测，提前识别潜在故障，变“救火”为“防火”。而未来的方向，则是构建一个开放、普惠的自服务生态——用户可通过云端平台自助完成设备纳管、健康检查、故障诊断与修复执行，尤其为缺乏AI建设能力的中小企业客户提供“开箱即用”的智能运维体验。这一转变不仅提升了服务效率，更重新定义了客户与厂商之间的关系：从“服务商与客户”升级为“伙伴与共创者”。用户不再是问题的提出者，而是智能系统的共同建设者与受益者。

新华三提出的AI运维新范式强调“真AI、全统一、个性化”三位一体：真AI指通过大模型驱动，实现从AI模型到应用的全链路自动化部署与进化，突破传统AI工具的局限，推动AI能力从“单点智选”向“全局智管”跃迁；全统一旨在构建统一的AI平台，打通“管、控、营”等多业务域，实现从“单点智选”到“全局智管”的转型；个性化则通过智能推荐与动态优化，结合业务场景与用户画像，实现从“单点智选”到“场景智选”的演进，最终迎来AI智能化服务的新时代。前端支持自然语言、语音、图形化界面等多种输入方式，极大降低使用门槛；中台集成CMDB、ITSM、EIA、NSM等系统数据，构建统一资产视图与事件关联分析能力；后端通过API网关与自动化引擎，直连设备CLI、RESTful接口、Ansible Playbook等，实现命令下发、配置变更、脚本执行；闭环层则确保每次问题解决后自动生成结构化案例，沉淀至知识库，持续训练AI模型，形成“实践—学习—优化”的飞轮效应。平台还与知了社区、备件管理系统、交付工具链深度集成，实现工单自动派发、备件智能推荐、变更记录追溯，全面提升服务协同效率。目前，该体系已在某大型金融机构等复杂场景成功落地验证，展现出卓越的稳定性与适应性。

图3 新华三智能运维系统架构图

4 未来展望：迈向“自愈式运维”，打造AI原生服务新标杆

未来，新华三将持续深化“AI in ALL ”战略布局，推动智能运维向更高阶形态演进。2025年第四季度，将完成信息查询类、运维类智能体的测试调优，发布智能体1.0版本，实现基础场景全覆盖；2026年第一季度，上线故障排查类与业务变更类智能体，推出智能体2.0，支持跨系统联动与复杂流程编排；长期愿景则是构建覆盖“异常感知—根因定位—策略生成—自动执行—效果验证—知识沉淀”全链条的大闭环智能运维体系，最终实现“系统自感知、问题自诊断、故障自修复、服务自优化”的自愈式运维理想状态。届时，运维将不再是成本中心，而是价值引擎；AI也不再是工具，而是组织的“数字孪生大脑”。

5 结束语

新华三的智能运维，不只是让机器更聪明，更是让服务更有温度；不只是提升效率，更是重构体验。它代表着一种全新的可能性：在一个万物互联、智能共生的时代，基础设施可以自我维护，服务可以自我进化，企业可以专注于创造，持续探索AI在运维道路上的最佳实践。