AI in ALL    AI in ALL
AI in ALL
智算运维未来:
Native AI与大模型融合驱动的服务器智能运维体系
文 | 新华三集团云与计算存储产品线 陈昊

摘要

面对大模型时代智算服务器规模激增与运维复杂化的挑战,本文提出并阐述了“大模型智能体”与“Native AI”深度融合的下一代智能运维体系。该体系通过大模型智能体实现自然语言交互与全局决策推理,借助Native AI完成硬件级精准监控与实时预测,二者协同实现了从故障智能诊断、预测性维护到能效调优的闭环,显著提升运维自动化水平与系统可靠性,推动数据中心向主动预防与自治优化的方向演进。

关键词

计算智能体;Naitive AI;硬盘故障预测;内存智能修复;能效调优

引言

近年来,大模型的快速发展已成为科技领域的焦点,其迭代升级的步伐仍在不断加快。这种趋势不仅推动了各行业AI智能体的广泛应用,同时催生的海量服务器需求对数据中心的智能运维能力提出了更高要求。作为大模型运行的核心基础设施,智算服务器面临着多重运维挑战:如何在日常运营中确保其高性能与高可靠性运行?面对数据中心的海量设备,如何实现高效监控与快速故障定位?针对日益复杂的服务器形态(如整机柜、超节点、内存池、异构服务器等),又该如何实现精准管理?这些问题已成为当前运维工程师亟需解决的关键难题。

在智能运维领域,Native AI(以下简称NAI)专注于对服务器特定部件(如CPU、GPU、存储、内存等)或关键性能指标(如温度、功耗、使用率等)的精细化监控,而服务器智能体AI则依托大语言模型的强大推理能力,推动运维模式从传统的命令行、界面操作向自然语言交互式运维演进。只有将NAI的精准感知能力与智能体的决策推理能力深度融合,才能构建更高效、更智能的下一代运维体系。

1 服务器运维智能体应用,助力轻松运维诊断

随着服务器技术的快速演进,为满足多样化业务场景的需求,服务器设备已呈现出高度差异化的形态,并衍生出种类繁多的交付件。在这一背景下,BMC(基板管理控制器)系统作为单节点计算管理的核心组件,其功能范畴持续扩展——从基础的设备监控、用户权限管理,到复杂的自动化部署、固件升级和配置管理,功能模块日益丰富。

以Redfish标准接口为例,当前已发展出数百种功能接口,且每个接口的响应体结构随着版本迭代日趋复杂。此外,运维工程师还需同时应对IPMI、SNMP等多种管理协议。这种接口标准的碎片化与数据模型的膨胀,给日常运维工作带来了显著的复杂性挑战:

学习成本剧增:需掌握多套接口规范及版本差异;

调试效率低下:嵌套式响应体导致故障定位困难;

自动化实施障碍:非标数据格式增加脚本开发复杂度。

生成式AI驱动的服务器智能体为传统运维模式带来革命性突破。通过大语言模型的自然语言理解与推理能力,运维工程师无需再记忆复杂的接口命令(如Redfish/SNMP/IPMI的语法规则),也不必解析多层嵌套的响应体数据结构——只需用日常语言描述需求,智能体即可自动完成意图翻译、结果提炼以及定制化的输出,从而实现从被动响应到主动预防的转变。以下是典型应用场景。

1) 交互式运维增强

自然语言查询:支持“最近3天节点A的CPU使用率趋势”“哪些服务器快要维保过期”等语义化查询,自动解析并返回可视化报表。

智能巡检:可定制部件(CPU/内存/磁盘)、健康状态、资产信息等多维度巡检策略,自动生成结构化报告。

2) 告警与根因分析

智能告警聚合:基于Redfish、日志、性能数据等多源信息,自动关联分析相关告警,定位根本原因,提供修复方案,缩短MTTR(平均修复时间)。

3) 预测性维护

硬件风险预测:结合传统NAI(如SMART检测、内存ECC错误统计),提前预警高风险部件(如“硬盘SN:12345当前处于预故障状态,建议及时更换”)。

4) 安全与配置优化

安全风险评估:分析配置偏差(如弱密码、安全证书快过期)、服务未使用加密传输协议,输出安全加固建议。

智能配置推荐:根据业务负载(如“当前数据库IOPS已达瓶颈”),推荐资源调整方案(如“扩容NVMe存储至2TB”)。

新华三凭借在服务器领域十余年的技术积累,构建了覆盖1500+故障采集点的HDM(自主研发的BMC系统)监控体系,并结合行业领先的故障诊断知识库,打造了高效的服务器排障智能体。当服务器触发告警(如SEL事件)并上报至统一管理平台UniSystem时,智能体将自动执行以下流程。

多源数据融合

◆基于RAG(检索增强生成)技术,从故障诊断库和通用知识库中检索相似案例。

◆结合HDM实时采集的性能日志、硬件状态、环境指标等数据进行深度分析。

智能分析与推理

◆告警关联:识别同一根因触发的多维度告警(如“CPU高温”关联“风扇转速异常”)。

◆告警聚合:合并重复或衍生告警,减少噪声干扰。

◆状态评估:输出服务器整体健康评分(如“健康度78%,建议优先处理内存故障”)。

最终给出可信的故障结论以及修复方案。

图1 智能排障概览

2 基于小模型的故障预测进一步提升大模型故障诊断的实用性

Native AI的故障模型处理方法如下所示,利用海量的数据对特定的机器学习算法不断的进行训练和调优,并得到一种理想的特定模型。并应用于现网实际的运行环境,进行故障预测。

图2 传统机器学习和预测模型

硬盘故障预测功能有效提前7-30天检出故障风险盘,对应SATA HDD盘而言能达到80%检出率,低于0.2%误报率。帮助用户提前识别风险盘,并伺机做好冗余备份工作,降低非预期故障导致的数据丢失,甚至系统宕机影响。数据源方面使用开源百万级数据与新华三现网收集的10万+数据有效结合。算法方面基于梯度提升决策树的LightGBM算法和五折交叉验证。

LightGBM算法是一种基于梯度提升决策树的高效机器学习框架,其核心优势包括直方图优化、单边梯度采样和互斥特征捆绑,显著提升训练速度与内存效率。通过分析硬盘SMART属性中的关键指标构建时序分类模型,实现早期故障预警。

而五折交叉验证是一种常用的机器学习模型评估方法,其基本思想为将原始数据集被分成五个相等大小的子集(子集需要保证两两互斥),其中四个子集用于训练模型,而剩下的一个子集用于测试模型。每次选择不同的子集作为测试集,最后将5次性能评估结果取平均以得到最终评估结果。通过多次随机划分数据集并取平均值,可以减小模型性能评估的随机性,提供更可靠的性能估计;同时具备更好的泛化能力:模型在多次不同的训练和测试集上进行训练和测试,有助于更好地了解模型的泛化能力,即模型对新数据的适应能力。

内存智能修复(NAI)不仅能够感知风险内存,还能在系统运行时动态隔离故障页,避免访问风险区域,从而显著减少因内存不可纠正错误(UCE)导致的宕机。现代CPU的内存控制器支持ECC(纠错码)校验,每次读取数据时都会检测以下错误。

单比特错误:可自动纠正,无需干预;

多比特错误:无法修复,但会上报故障内存位置。

针对不同错误模式,NAI采取相应措施:

单比特分散错误(同一行不同列):隔离该行所有系统页;

单比特列扩散错误(同一列不同行):隔离该列所有系统页;

无聚集性错误:暂不处理,持续监控。

图3 典型内存故障失效模型

总结来说,HDM持续监控内存CE错误发生的行列地址,通过算法模型识别具有聚集性的错误行或列。当错误密度达到阈值时,HDM系统通过BIOS间接将对应物理系统地址写入ACPI表并通知操作系统。OS驱动随后对故障物理页执行Page Offline操作:分配空闲页作为备份,迁移数据,并将原页标记为无效。整个过程对上层透明,且相对于典型的4KB物理页量级的损失对GB级内存容量影响微乎其微。以Intel MRT(Memory Reliability Technology)为例,该方法可减少40%以上因内存不可纠正错误(UCE)导致的宕机,显著提升系统稳定性。

图4内存智能修复流程

故障诊断智能体擅长大数据分析和综合诊断,而传统的NAI则体现了特定部件的精细化预测能力,共同协助,有机结合,二者相辅相成,形成“全局洞察+精准修复”的协同体系,最大化提升系统可靠性。

3 AI调优智能体应用,辅助数据中心节能减排

据IDC预测,AI应用需求促使智算中心的用电需求持续高增,预计到2028年电力消耗将翻倍。同时四部联合发文,推动数据中心低碳排放设施方案,在系统调优领域,传统Native AI通过多维度的细粒度监控实现整机性能优化。其核心能力体现在以下方面。

智能性能分析与预测:实时采集CPU、GPU、IO及内存等关键组件的周期性性能指标,采用Gauss算法进行时序预测,精准预判未来性能趋势,从而实现数据中心级的性能潮汐分析与智能负载均衡。

能效优化领域:基于电源在80%输出负载时能效转换比是最高的,通过HDM监控各个PSU的输出负载,实现电源主备智能切换,确保电源始终工作在最佳能效区间。

另外针对CPU本身,实时监控CPU Core的使用率并动态调整CPU工作频率,使CPU始终在满足业务需求的同时保持在最大性能输出的模式且无需额外安装驱动,主机业务几乎不感知。

如图5为Intel平台,使用R3900 G7 128核单路CPU(6976p)550W + 96G-2RX4-6400*12 内存M.2(系统盘)的配置,采用Power Spec业界标准的测试工具,由图可知,在启用CPU动态节能后,整体的输出能效比提升35%以上。

图5 Spec Power实测能效比

传统性能调优通常依赖复杂的非标准化手动配置,对运维人员的专业技能要求较高且存在操作风险,而基于大模型的智能调优方案通过自然语言交互实现自动化配置,用户只需描述需求即可获取实时监控数据并下发优化策略,不仅降低了学习成本和操作门槛,还能基于历史数据和实时负载动态调整CPU、内存、I/O等参数。在确保系统稳定性的同时显著提升调优效率和安全性,使得性能优化从专业技术转变为易用的标准化服务。实际的炭排放统计和碳足迹跟踪看板数据直观呈现节能减排效果,为企业实现绿色计算目标提供可靠的数据支撑。

图6 能效调优智能体

4 结束语

数据中心智能运维(AIOps)正迈向"大模型智能体+Native AI"的协同架构,其中大模型提供自然语言交互、知识推理和跨域决策能力,而Native AI则专注于实时数据处理、低延迟响应和硬件级优化,二者通过联邦学习实现知识共享与协同进化。大模型负责全局策略制定和异常根因分析,Native AI执行细粒度资源调度和能效优化,既保障了复杂场景下的决策质量,又满足了数据中心对实时性和可靠性的严苛要求,最终形成从芯片级调优到业务链全景监控的完整智能运维闭环。

关闭