
摘要
随着AI算力需求的爆发式增长,智算中心正向万卡级超大规模集群演进,基础设施复杂度呈指数级上升,传统被动响应的“救火队”式运维模式面临严峻挑战。幽灵抖动、静默故障、数据富集而洞察匮乏等问题,导致训练中断风险与资源浪费激增。本文系统阐述了智算时代运维从“手动”到“自动化”最终迈向“AI自治”的范式革命,并深度解构了其核心支撑技术——一个由“感知-决策-执行”构成的智能闭环引擎。通过全域毫秒级感知构建数字镜像,依托知识图谱进行智能诊断与因果推理,并借由自动化工作流实现精准执行与闭环优化。通过实战案例展示了该体系如何将故障定位时间从数小时缩短至分钟级,有效保障大模型训练的稳定性。同时展望运维体系向具备前瞻性洞察与自主协同能力的“先知运维智能体”演进的未来路径,旨在推动算力基础设施走向“零中断”的可靠未来。
关键词
智算网络;自动驾驶;感知-决策-执行;毫秒级监控;知识图谱;运维智能体
1 智算时代的运维之痛:规模越大,风险越隐蔽
随着AI算力需求的爆发式增长,智算中心的规模正以前所未有的速度扩张。从千卡集群到万卡互联,算力基础设施的复杂度呈指数级上升,传统的运维模式正面临严峻挑战。
在超大规模集群中,硬件老化、网络拥塞、存储延迟等微小异常可能被海量数据所掩盖,直到引发雪崩效应才被发现。例如,某头部AI企业在训练万亿参数大模型时,曾因一条光链路的微秒级抖动导致整个集群训练效率下降30%,而传统监控系统却未能及时告警。类似“静默故障”在智算时代因其规模与复杂性而被凸显和放大,它们像潜伏的"幽灵",随时可能摧毁数周的训练成果。
当前运维团队普遍陷入“数据富裕,洞察贫困”的困境:每日产生超过TB级的监控数据,但真正转化为有效告警的不足0.1%。运维工程师如同在迷雾中航行,只能依赖阈值告警等传统手段进行被动响应,往往是"救火队员"式的疲于奔命,而非前瞻性的风险防控。
2 范式革命:从“救火队”到“自动驾驶”的运维演进
为应对智算基础设施的运维难题,行业正经历从被动处置到主动预防的范式迁移,其演进可分为三个阶段:
手动运维(救火队模式):完全依赖工程师经验,基于基础监控进行人工干预。故障定位依赖推测,响应延迟长达数小时,处理过程缺乏标准化,知识留存于个体;
自动化运维(辅助驾驶模式):通过规则引擎实现部分场景的自动化响应,提升了常见故障的处理效率。但规则维护成本高、灵活性不足,面对未知异常仍需人工介入,本质仍属“例外管理”;
AI自治运维(自动驾驶模式):引入机器学习和大模型技术,系统具备态势感知、智能诊断与自主决策能力。实现从“人找问题”到“问题找人”、从事后补救到事前预测的转变,最终迈向“无感运维”。
这一演进的核心动力在于运维对象从确定性IT基础设施转向高度不确定的AI工作负载。自治运维并非简单替代人力,而是构建一个持续学习、自适应优化的智能体系,释放专家资源以聚焦于高阶战略决策。
3 技术架构揭秘:解构"感知-决策-执行"的闭环引擎
面向AI算力场景,新华三集团构建了“感知-决策-执行”一体化智能运维体系。该架构已在多个超大规模训练集群中验证,实现故障平均修复时间降低90%以上,为千亿参数大模型训练提供稳定算力保障。

图1 新华三一体化智能运维体系
3.1 全域感知层:构建毫秒级精度的数字镜像
感知层作为自治运维体系的"感官系统",其核心任务是实现基础设施与工作负载的全景可视。传统监控系统往往局限于CPU、内存等基础指标,而智算运维需覆盖多模态、多层级的运行数据,构建高保真的数字镜像。
针对万卡集群中网络稳定性挑战,重点突破毫秒级监控与光模块深度运维能力。
毫秒级监控:通过设备侧高频采样(1ms周期),实时捕捉接口流量、队列缓存等指标,精准识别1~100ms级微突发拥塞,实现“秒级定界、毫秒洞察”。

图2 微突发监控
光模块深度运维:基于FEC直方图、误码率(BER)、光功率、温度等多维指标,通过专家规则引擎实现故障分钟级定位。例如,通过误码率升高(如达2E-8,远超1E-12阈值)与光功率下降关联判断激光器老化;通过多通道光衰差异识别端口脏污;通过多通道收光功率同步下降趋势,结合端口与温度稳定条件,识别光纤松动。

图3 基于专家规则引擎实现光模块故障定位
毫秒级监控与光模块深度运维共同构建了面向智算场景的高精度感知能力,前者破解瞬时流量盲区,后者实现物理链路健康状态透明化,为大模型训练提供稳定可靠的网络底座。
3.2 智能决策层:知识图谱驱动的因果推理引擎
决策层是自治运维体系的"大脑",承担着数据分析、推理判断和策略生成的核心职能。它接收感知层上报的海量数据,通过多级分析转化为可执行的运维决策。
基于感知层汇入的海量数据(监控指标、告警事件、设备与链路拓扑、配置与变更记录等)进行统一建模,通过多维数据关联、知识因果传播、影响权重分析等多种技术构建智算运维知识图谱。当检测到异常,系统沿因果链进行推理追溯,不仅能识别“哪些地方出问题”,更能分析“为什么会出问题”“下一步可能出什么问题”。例如,当出现训练作业失败、GPU 利用率异常、链路抖动等现象时,系统可沿着知识图谱自动追溯至可能的根因节点:光模块衰减、交换机端口异常、存储时延升高或近期变更操作等,并区分根因告警与衍生告警,给出排序后的疑似根因列表,大幅提升定位效率与准确性。

图4 智能决策流程及关键能力
3.3 精准执行层:策略驱动的自动化闭环
执行层将决策层的洞察转化为具体行动,通过自动化引擎实现对系统的主动干预。其核心设计原则是安全、可靠、可观测。
通过Agentic Workflow引擎将决策转化为安全、可观测的自动化操作:
基于场景的策略模板库:如“光模块预警处置”流程,涵盖验证、切换、更换等标准化步骤;
动态工作流生成:根据业务优先级、影响范围等上下文自适应调整执行路径;
闭环验证:每步执行后自动校验效果,确保干预达成预期目标,并沉淀数据用于持续优化。
Workflow需具备条件分支、并行执行、人工审核点等灵活控制结构,以网络拥塞处置为例:系统首先尝试 QoS策略调整,同时计算备选路径;若30分钟内未改善,自动触发流量调度;整个过程记录详细的操作日志和效果,形成学习反馈闭环。
4 实战案例:融合立体化监控,精准定界网络“幽灵抖动”
某头部AI企业在千亿参数模型训练与推理中,长期受随机性时延抖动(“幽灵抖动”)困扰,推理时延会在150μs至300μs间随机跳变,训练迭代时间不稳定。传统手段无法定位,跨部门联合排查一次需耗时8小时以上。引入立体化监控体系后,通过“指标-流量-日志”三维关联分析,实现根因快速锁定:
◆流量维度:基于RoCE全流分析发现关键业务流未正确启用PFC保障队列,与普通流量混跑,且存在大量“多对一”的 incast 流量模式,引发少数上游端口持续微拥塞。
◆指标维度:通过毫秒级监控精准捕捉端口的队列缓存异常(每隔数十毫秒就出现尖峰),同时通过对光模块深度检测识别出故障模块与亚健康链路(误码率处于“亚健康”临界状态),定位置具体机架端口。
◆日志维度:关联框架日志与网络事件,将应用层性能问题与底层拥塞、光链路异常串联成完整证据链。
通过统一配置、优化流路径与更换问题模块,推理时延稳定在150μs以内,训练稳定性提升至99.9%,故障定位时间从8小时缩短至15分钟。
5 未来展望:迈向SeerAnalyzer先知运维智能体
“感知-决策-执行”闭环的建立,标志着智算运维完成了从“自动化”到“智能化”的范式转变。然而,这仅是构建下一代自治系统的基石,未来,运维体系将向具备前瞻性洞察、自主协同与持续进化能力的智能体演进(SeerAnalyzer先知运维智能体),其发展将沿以下关键路径深化。
◆AI交互式运维:未来的运维入口将演变为一个以自然语言为核心、多模态交互的智能协同平台。它将深度集成大语言模型(LLM)与领域专业工具,实现意图理解与上下文感知、动态诊断脚本生成与验证、多模态分析决策,降低运维门槛、提升决策效率。
◆Agentic AI多智能体协同:运维智能体将发展为按功能域与职责划分、具备自主协商能力的多智能体系统,实现专业化分工与高效协同,涵盖规划智能体、仿真智能体、配置智能体、排障智能体、优化智能体及运营智能体等。
◆跨团队共享与人机协作:通过联邦学习、安全多方计算等隐私计算技术,在保障数据主权前提下,构建跨团队(计算、网络、存储、云平台、业务运营)、跨域的运维知识联邦,实现联合建模与知识共享。同时,建设开放的公共运维知识图谱作为智能体的“世界模型”,并结合人机协同决策框架,形成持续进化的智能飞轮。
6 结束语
从被动响应到主动预见,从人工操作到AI自治,构建“感知-决策-执行”一体的运维体系是释放智算潜能的必然路径。未来智算中心运维将不再是"抢险救灾",而是致力于"防患于未然"。正如自动驾驶重新定义出行,SeerAnalyzer先知运维体系,正推动算力基础设施走向“零中断”的可靠未来。



浙公网安备 33010802004375号