《数字化领航》AI技术专刊

前沿技术

智能算力调度：异构算力统一纳管与弹性调度关键技术研究

文 | 新华三集团云与计算存储产品线李晶晶

摘要

在人工智能迈向通用化与大模型广泛应用的背景下，算力调度正从静态分配向智能动态协同演进。新华三集团以“灵犀使能平台”为核心，构建覆盖训练、推理、运维全生命周期的智能算力调度体系，推动“算力×联接”深度融合。该体系实现对40余款异构加速卡的统一纳管与弹性调度，支持“训推一体”的混合负载编排，显著提升算力利用率。通过拓扑感知与端网协同技术，优化任务部署与通信效率，降低延迟与拥塞，提升训练性能。结合预测性调度与边缘协同架构，系统可预判业务高峰、提前加载资源，并实现中心大模型与边缘智能体的分层协同。新华三的全栈调度方案标志着算力从被动资源向主动智能体的转变，成为驱动AI与联接融合的核心引擎。

关键词

算力调度；拓扑感知；预测性调度；边缘协同；AI基础设施

引言

在人工智能迈向通用化（AGI）与大模型爆发式演进的今天，算力已不再是单一的硬件堆叠，而是演变为一个高度协同、动态调优的“智能生命体”。随着DeepSeek、QWen、GPT-4o等大模型推动AI从实验室走向千行百业，企业对算力的需求呈现出多元化、实时化与场景化的特点。在此背景下，如何高效调度异构算力资源、打破“算力孤岛”、实现“算力×联接”的深度融合，已成为决定AI基础设施效能的关键命题。新华三集团以“灵犀使能平台”为核心载体，构建起一套覆盖训练、推理、运维全生命周期的智能算力调度体系，为AI时代的算力底座注入了真正的“智慧大脑”。

1 算力调度：从静态分配到动态协同

传统数据中心的算力调度多基于静态资源池划分，依赖人工干预或简单的负载均衡策略，难以应对AI工作负载的突发性、高并发与长周期特性。尤其在大模型训练中，数据并行、张量并行、流水线并行等复杂并行策略交织，GPU集群需在毫秒级完成数千次通信操作，任何一次网络拥塞或资源错配都可能导致训练中断，造成数百万美元的算力浪费。

面对这一挑战，新华三提出“算力×联接”理念，强调算力调度必须超越传统的资源管理范畴，向“感知—决策—执行”一体化的智能闭环演进。其核心在于：调度系统不仅要“看得见”算力资源，更要“听得懂”网络状态、“预判得了”任务需求。这要求调度引擎具备三大能力：一是对CPU、GPU、NPU等多元异构算力的统一纳管与池化；二是对Scale-up与Scale-out网络拓扑的实时感知与路径优化；三是对任务优先级、能耗阈值、SLA目标的综合权衡与动态调整。

图1 算力调度演进

2 异构算力统一调度框架：打破芯片壁垒，释放算力潜能

当前AI生态呈现百花齐放之势，英伟达、华为、寒武纪、壁仞等厂商的加速卡广泛应用于不同场景，各自具备独特的算力特性与软件栈。然而，在异构芯片并存的混合环境中，由于底层资源抽象不一、监控指标分散、任务调度策略缺乏统一视图，导致算力资源难以实现跨平台的协同编排与弹性调度。

新华三灵犀使能平台通过创新的容器化调度架构，实现了对40余款国产与国际主流加速卡的统一支持。其核心技术在于将设备驱动层抽象为可编程接口，通过CRD（Custom Resource Definition）机制将各类算力卡纳入Kubernetes资源池，实现“一次定义、全局调度”。无论用户选择何种芯片，调度系统均可根据任务特征自动匹配推荐最优算力组合，并通过统一API进行资源监控与故障隔离。某金融客户在部署灵犀使能平台后，成功将原有A100与国产卡混合组网，推理任务响应延迟降低38%，算力利用率提升至82%以上。

更重要的是，灵犀使能平台支持“训推一体”混合负载调度。白天高峰时段，系统可将闲置训练算力动态切换至在线推理服务，支撑智能客服、风控建模等实时业务；夜间则反向回收推理资源，用于大规模模型微调。这种“朝推夜训”式的弹性调度，使客户在不增加硬件投入的前提下，整体算力吞吐能力提升近40%。

图2 异构融合调度能力

3 拓扑感知与端网协同：让数据“走最短的路”

在大规模AI训推场景中，尤其是千卡乃至万卡级别的集群环境下，算力资源的物理分布与网络连接结构对任务性能具有决定性影响。即便拥有强大的GPU算力，若调度系统忽视底层硬件拓扑，将通信密集型任务分配到跨机柜甚至跨机房的节点上，极易引发高延迟、带宽瓶颈和通信拥塞，导致整体训练效率大幅下降。

为此，新华三在算力调度引擎中深度集成拓扑感知调度能力，使调度决策不再仅基于CPU、内存或GPU的负载情况，而是综合考虑节点间的NUMA架构、PCIe连接层级、NVLink带宽以及网络交换拓扑等多维信息。系统通过采集并建模集群内各计算单元之间的亲和性关系，构建“算力拓扑图”，确保在任务编排时优先将高通信频率的进程部署在物理距离更近、互联带宽更高的节点组合上。

例如，在部署Llama3等大语言模型的分布式训练任务时，调度器会根据数据并行组内各GPU之间的AllReduce通信模式，将同一组内的GPU尽可能分配至同一服务器或同一机架内的高速互联节点，最大限度利用NVLink和低延迟RoCE网络，减少跨交换机流量。实验数据显示，启用拓扑感知调度后，GPU间通信延迟平均降低21%，集合通信耗时减少17%，模型迭代速度提升超过10%。

在此基础上，调度系统进一步与底层网络形成轻量但高效的协同机制——即“端网协同”。该机制通过集合通信库（如NCCL）与网络控制器的联动，将任务通信特征实时反馈给网络层，支持参数网络的动态路由调整与拥塞预测。通过流量全局规划，实时调整，减少拥塞，提升通信效率，从而提升训练整体效率这种协同模式虽不依赖全栈可编程网络，却能在标准RoCEv2环境中显著提升通信稳定性与带宽利用率，为高密度训练任务提供更强保障。

图3 传统网络与拓扑感知网络对比

4 预测性调度与边缘协同：从被动响应到主动优化

在AI应用日益贴近业务场景的今天，算力调度的挑战已不仅局限于资源分配效率，更在于如何实现“需求未至、算力先行”的前瞻性服务。新华三灵犀使能平台通过引入基于时序行为分析的预测性调度机制，将调度决策由“响应式”转变为“预判式”，显著提升系统敏捷性与用户体验。

其核心在于对大模型推理服务的历史调用数据进行深度建模。系统通过采集每日、每周乃至季节性的访问峰值规律（如企业客服系统在工作日上午10点的咨询高峰、电商平台在促销期间的智能推荐请求激增），构建多维度的时间序列预测模型。当检测到即将进入高负载时段，调度引擎将自动预启动多个推理任务副本，并提前加载模型权重至目标节点，实现“秒级冷启动”向“零等待热服务”的转变。

与此同时，面对边缘侧低时延、高安全、轻量化的特殊需求，新华三提出“中心大模型+边缘垂类智能体”的协同架构，推动算力调度向“分层分级、按需协同”演进。在该模式下，通用大模型（如通义千问、DeepSeek）集中部署于区域或中心云节点，负责复杂语义理解、知识推理与全局决策；而在工厂产线、园区摄像头、医疗终端等边缘侧，则部署轻量化垂类模型与AI智能体，基于本地CPU或低功耗NPU运行特定任务，如设备异常检测、人脸比对、语音唤醒等。

图4 预测性调度与边缘协同能力

5 结束语：调度即服务，智能无处不在

算力调度已从后台支撑角色，跃升为驱动AI创新的核心引擎。新华三以灵犀使能平台为支点，通过异构融合、端网协同、预测调度与智能运维四大技术创新，构建起覆盖“芯—网—云—边—用”的全栈智能调度体系。这不仅是技术的突破，更是思维的革新——未来的算力不再是被动等待调用的资源，而是一个能够自我感知、自主决策、持续进化的智能体。

正如新华三所倡导的：“×AI”不是简单的功能叠加，而是让AI成为基础架构的“操作系统”。在这个新范式下，算力调度将成为连接物理世界与数字智能的神经中枢，真正实现“让每一度电都产生最大价值，让每一次计算都精准命中需求”。智能算力调度的时代已经到来，它不仅驱动着AI与联接的融合，更将重新定义数字化转型的边界与可能。

图5 “芯-网-云-边-用”全栈智能调度体系