
摘要
在人工智能迈向通用化与大模型广泛应用的背景下,算力调度正从静态分配向智能动态协同演进。新华三集团以“灵犀使能平台”为核心,构建覆盖训练、推理、运维全生命周期的智能算力调度体系,推动“算力×联接”深度融合。该体系实现对40余款异构加速卡的统一纳管与弹性调度,支持“训推一体”的混合负载编排,显著提升算力利用率。通过拓扑感知与端网协同技术,优化任务部署与通信效率,降低延迟与拥塞,提升训练性能。结合预测性调度与边缘协同架构,系统可预判业务高峰、提前加载资源,并实现中心大模型与边缘智能体的分层协同。新华三的全栈调度方案标志着算力从被动资源向主动智能体的转变,成为驱动AI与联接融合的核心引擎。
关键词
算力调度;拓扑感知;预测性调度;边缘协同;AI基础设施
引言
在人工智能迈向通用化(AGI)与大模型爆发式演进的今天,算力已不再是单一的硬件堆叠,而是演变为一个高度协同、动态调优的“智能生命体”。随着DeepSeek、QWen、GPT-4o等大模型推动AI从实验室走向千行百业,企业对算力的需求呈现出多元化、实时化与场景化的特点。在此背景下,如何高效调度异构算力资源、打破“算力孤岛”、实现“算力×联接”的深度融合,已成为决定AI基础设施效能的关键命题。新华三集团以“灵犀使能平台”为核心载体,构建起一套覆盖训练、推理、运维全生命周期的智能算力调度体系,为AI时代的算力底座注入了真正的“智慧大脑”。
1 算力调度:从静态分配到动态协同
传统数据中心的算力调度多基于静态资源池划分,依赖人工干预或简单的负载均衡策略,难以应对AI工作负载的突发性、高并发与长周期特性。尤其在大模型训练中,数据并行、张量并行、流水线并行等复杂并行策略交织,GPU集群需在毫秒级完成数千次通信操作,任何一次网络拥塞或资源错配都可能导致训练中断,造成数百万美元的算力浪费。
面对这一挑战,新华三提出“算力×联接”理念,强调算力调度必须超越传统的资源管理范畴,向“感知—决策—执行”一体化的智能闭环演进。其核心在于:调度系统不仅要“看得见”算力资源,更要“听得懂”网络状态、“预判得了”任务需求。这要求调度引擎具备三大能力:一是对CPU、GPU、NPU等多元异构算力的统一纳管与池化;二是对Scale-up与Scale-out网络拓扑的实时感知与路径优化;三是对任务优先级、能耗阈值、SLA目标的综合权衡与动态调整。

图1 算力调度演进
2 异构算力统一调度框架:打破芯片壁垒,释放算力潜能
当前AI生态呈现百花齐放之势,英伟达、华为、寒武纪、壁仞等厂商的加速卡广泛应用于不同场景,各自具备独特的算力特性与软件栈。然而,在异构芯片并存的混合环境中,由于底层资源抽象不一、监控指标分散、任务调度策略缺乏统一视图,导致算力资源难以实现跨平台的协同编排与弹性调度。
新华三灵犀使能平台通过创新的容器化调度架构,实现了对40余款国产与国际主流加速卡的统一支持。其核心技术在于将设备驱动层抽象为可编程接口,通过CRD(Custom Resource Definition)机制将各类算力卡纳入Kubernetes资源池,实现“一次定义、全局调度”。无论用户选择何种芯片,调度系统均可根据任务特征自动匹配推荐最优算力组合,并通过统一API进行资源监控与故障隔离。某金融客户在部署灵犀使能平台后,成功将原有A100与国产卡混合组网,推理任务响应延迟降低38%,算力利用率提升至82%以上。
更重要的是,灵犀使能平台支持“训推一体”混合负载调度。白天高峰时段,系统可将闲置训练算力动态切换至在线推理服务,支撑智能客服、风控建模等实时业务;夜间则反向回收推理资源,用于大规模模型微调。这种“朝推夜训”式的弹性调度,使客户在不增加硬件投入的前提下,整体算力吞吐能力提升近40%。

图2 异构融合调度能力
3 拓扑感知与端网协同:让数据“走最短的路”
在大规模AI训推场景中,尤其是千卡乃至万卡级别的集群环境下,算力资源的物理分布与网络连接结构对任务性能具有决定性影响。即便拥有强大的GPU算力,若调度系统忽视底层硬件拓扑,将通信密集型任务分配到跨机柜甚至跨机房的节点上,极易引发高延迟、带宽瓶颈和通信拥塞,导致整体训练效率大幅下降。
为此,新华三在算力调度引擎中深度集成拓扑感知调度能力,使调度决策不再仅基于CPU、内存或GPU的负载情况,而是综合考虑节点间的NUMA架构、PCIe连接层级、NVLink带宽以及网络交换拓扑等多维信息。系统通过采集并建模集群内各计算单元之间的亲和性关系,构建“算力拓扑图”,确保在任务编排时优先将高通信频率的进程部署在物理距离更近、互联带宽更高的节点组合上。
例如,在部署Llama3等大语言模型的分布式训练任务时,调度器会根据数据并行组内各GPU之间的AllReduce通信模式,将同一组内的GPU尽可能分配至同一服务器或同一机架内的高速互联节点,最大限度利用NVLink和低延迟RoCE网络,减少跨交换机流量。实验数据显示,启用拓扑感知调度后,GPU间通信延迟平均降低21%,集合通信耗时减少17%,模型迭代速度提升超过10%。
在此基础上,调度系统进一步与底层网络形成轻量但高效的协同机制——即“端网协同”。该机制通过集合通信库(如NCCL)与网络控制器的联动,将任务通信特征实时反馈给网络层,支持参数网络的动态路由调整与拥塞预测。通过流量全局规划,实时调整,减少拥塞,提升通信效率,从而提升训练整体效率这种协同模式虽不依赖全栈可编程网络,却能在标准RoCEv2环境中显著提升通信稳定性与带宽利用率,为高密度训练任务提供更强保障。

图3 传统网络与拓扑感知网络对比
4 预测性调度与边缘协同:从被动响应到主动优化
在AI应用日益贴近业务场景的今天,算力调度的挑战已不仅局限于资源分配效率,更在于如何实现“需求未至、算力先行”的前瞻性服务。新华三灵犀使能平台通过引入基于时序行为分析的预测性调度机制,将调度决策由“响应式”转变为“预判式”,显著提升系统敏捷性与用户体验。
其核心在于对大模型推理服务的历史调用数据进行深度建模。系统通过采集每日、每周乃至季节性的访问峰值规律(如企业客服系统在工作日上午10点的咨询高峰、电商平台在促销期间的智能推荐请求激增),构建多维度的时间序列预测模型。当检测到即将进入高负载时段,调度引擎将自动预启动多个推理任务副本,并提前加载模型权重至目标节点,实现“秒级冷启动”向“零等待热服务”的转变。
与此同时,面对边缘侧低时延、高安全、轻量化的特殊需求,新华三提出“中心大模型+边缘垂类智能体”的协同架构,推动算力调度向“分层分级、按需协同”演进。在该模式下,通用大模型(如通义千问、DeepSeek)集中部署于区域或中心云节点,负责复杂语义理解、知识推理与全局决策;而在工厂产线、园区摄像头、医疗终端等边缘侧,则部署轻量化垂类模型与AI智能体,基于本地CPU或低功耗NPU运行特定任务,如设备异常检测、人脸比对、语音唤醒等。

图4 预测性调度与边缘协同能力
5 结束语:调度即服务,智能无处不在
算力调度已从后台支撑角色,跃升为驱动AI创新的核心引擎。新华三以灵犀使能平台为支点,通过异构融合、端网协同、预测调度与智能运维四大技术创新,构建起覆盖“芯—网—云—边—用”的全栈智能调度体系。这不仅是技术的突破,更是思维的革新——未来的算力不再是被动等待调用的资源,而是一个能够自我感知、自主决策、持续进化的智能体。
正如新华三所倡导的:“×AI”不是简单的功能叠加,而是让AI成为基础架构的“操作系统”。在这个新范式下,算力调度将成为连接物理世界与数字智能的神经中枢,真正实现“让每一度电都产生最大价值,让每一次计算都精准命中需求”。智能算力调度的时代已经到来,它不仅驱动着AI与联接的融合,更将重新定义数字化转型的边界与可能。

图5 “芯-网-云-边-用”全栈智能调度体系



浙公网安备 33010802004375号