
从“内存语义”到“集合通信”的瓶颈突破
摘要
聚焦大模型训练中网络通信的性能瓶颈。深度分析集合通信(Collective Communication,如All-Reduce, All-to-All)的原理及其对网络的挑战。探讨如何通过网络侧优化(如自适应路由、拥塞控制算法)和协议层优化(如内存语义RDMA与消息语义的协同)来解决AI工作负载的流量风暴和长尾时延问题。
关键词
集合通信;网络拥塞(Incast);拥塞控制;RDMA;内存语义;消息语义;确定性网络
随着千亿级、万亿级参数大模型的普及,AI训练进入 “算力×联接”双轮驱动时代。然而,算力与带宽的增长失衡形成了显著的“木桶效应”——过去8年,单卡算力增长约40倍,而互联带宽仅提升4倍。特别是当模型规模突破千亿参数,采用张量并行(TP)、流水线并行(PP)、专家并行(EP)等复合并行策略模式是提升训练效率的有效手段。分布式并行通信效率成为了大模型训练的核心挑战。
1 以集合通信为代表的消息语义是并行训练性能的基础保障
集合通信(Collective Communication)作为分布式计算的“通信中枢”,负责协调多节点、多设备间的全局数据交互与协同。作为参数/梯度同步、张量分片交换的核心支撑环节,其通信量随并行规模呈指数级增长。All-Reduce、All-to-All是最核心的两类操作,前者适配数据并行,后者支撑张量并行/流水线并行。其性能直接决定训练吞吐与收敛速度。
集合通信的拓扑基础算法一般有树形算法(Tree All-Reduce),环形算法(Ring All-Reduce)。Ring为最主流实现。All-Reduce(全归约),核心目标是将所有参与节点将本地梯度 / 参数聚合(求和 / 求平均)后,每个节点最终持有完整的聚合结果,是数据并行的核心操作。以Ring为例,All-Reduce过程是将N个节点组成环,分 “Scatter-Reduce”和“Allgather”两阶段:阶段1(Scatter-Reduce),每个节点将数据分片后,逐段发送给环下一个节点并叠加计算,经过N-1轮传输后,每个节点持有聚合后的一个分片;阶段2(Allgather),节点间转发各自持有的聚合分片,最终每个节点获得完整聚合结果。
2 集合通信性能优化落地方案
All-to-All(全交换)张量分片全局交换,核心目标:N个节点中,每个节点将本地N个数据分片分别发送给对应节点,同时接收所有节点发来的对应分片,是张量并行(如 Megatron-LM)的核心操作。
1)通过RDMA通信的零拷贝+内核旁路+硬件卸载,可以避免TCP/IP需经过“用户空间→内核缓冲区→网卡缓冲区”的多次内存拷贝,及内核协议栈处理封装、校验等逻辑,消除数据传输冗余开销,使通信开销降低90%以上,精准适配All-Reduce、All-to-All 等操作的高带宽、低延迟需求,成为大语言模型初期集合通信从端侧到网络层首要的通信技术优化。
2)而在网络侧的组网模式上,大模型节点间,通常称为Scale-up网络,其互联一般采用SPINE-LEAF组成的CLOS架构网络互通,跨节点的CLOS架构虽号称“无阻塞”,仍需面对局部链路瓶颈。传统路由协议(如 OSPF、BGP),在网络间通过ECMP选择下一跳路径,基于静态拓扑计算路径,无法感知实时负载,导致部分路径拥堵而其他路径闲置。ECMP基于五元组流分类的粗粒度Hash调度会将All-Reduce的大流、长流集中到少数链路,加剧拥塞。
a)既然是大带宽流量出现拥塞,显而易见,在网络上一种优化思路是数据“切片”,更细粒度调度。并改静态为动态。
◆实现模式1:将流切为Flowlet子流调度,DLB的Eligible模式。对模型流量周期性突发的特点,设置t时间参数将父流切为子流。以子流为最小粒度参与逐流动态hash计算,根据动态算法,考虑多路径下一跳的负载状态,为每条子流选择负载较轻的下一跳。但Flowlet切割的t时间参数设置较为复杂,一般建议大于单向网络时延RTT,确保下一个子流不能先于上一个子流达到目的地,避免造成报文乱序。易用局限较大。
◆实现模式2:动态逐包Spray喷洒,交换机按照逐包喷洒调度,每包选择负载最轻链路发送。这种模式在端侧接收时会产生数据乱序,需要交换机支持乱序重排,或者搭配支持乱序重排的网卡。这种处理需要耗费硬件资源及效率,且能支持的硬件选型范围极度受限。
◆实现模式3:DDC信元切包机制,报文在Leaf被切成一个个等长的信元cell,在多路径下一跳轮询发送,此种模式,最小调度粒度为信元cell。交换机按照Cell信元调度,网络负载均衡效果好,网络自行组包保序,网卡和GPU也可以完全解耦,通过网络自身独立优化,是当前比较好的一种优化手段。只有H3C及个别厂商有此种交换机款型,业界目前大多数厂商的盒式款型无法支持此种机制。
b)那么如何避免切片带来的原始硬件依赖,而进行更优的负载均衡呢?另外一种思路是结合集合通信通过软件平台能力的配合来控制调度。
◆以新华三推出的路径导航方案来说,控制器与集合通信库配合, SDN计算不相交路径,利用设备的HASH算法,根据五元组信息预先计算出不同流量的必然路径。集合通信在建立通信链路同时将通信关系上报给控制器,控制器通过UCCL (Unified Collective Communication Library)设置QP通信数据通道所采用的报文源端口。实现基于端侧源端口src-port方式控制流量转发路径,达到规划最优路径,使得报文按照规划路径转发。极端情况当局部拥塞后,利用模型训练时反复迭代表现的通信模型固定的特点,还可以进一步微调达到整网流量最优分配。此种SDN模式,全局视角统一预规划路径。不依赖网卡厂商在当前的硬件限制,不依赖交换机特定款型的选择。也是当前互联网、大型模型训练场典型的有效优化手段。
大语言模型发展初期,集合通信底层承载的流量以All-Reduce为主,以及基于send/receive模式的AlltoAll流量。业界大多数厂商的落地实现上,还是消息语义模式。大体为“缓冲区封装 - 协议传输 - 解封装”的通信模式,数据通过显式消息队列传递。这种模式天然的兼容性强,对于各类入门级及数据中心GPU,其互联类似NVLink等专有互联或PCIe等通用互联链路无强依赖;CPU仅承担通信器初始化、拓扑管理等协调工作,数据传输通过NIC硬件卸载、轻量化,各部件为松耦合协作模式。消息语义方便灵活部署,适用于跨节点、硬件配置异构的分布式训练场景。
3 All-to-All 通信成为支撑DeepSeek MoE架构通信的核心依赖
当DeepSeekMoE(混合专家模型)针对大模型训练效率优化的典型架构出现,其核心通过“稀疏激活+专家并行”大幅降低计算量,All-to-Al通信成为支撑该架构的核心依赖。
流程如下述,输入序列的每个令牌经路由器,判定所归属的专家,将不同令牌分经All-to-All分发至对应GPU/ 节点上的专家,各GPU/节点上的专属专家处理分配到的令牌,输出计算结果;再经All-to-All将结果按原令牌归属,回传给对应GPU/节点,完成最终输出,整体为“令牌分发-专家计算-结果回传”的闭环。因专家分散在不同GPU,实现令牌精准分发和结果高效聚合,适配单机与跨节点部署,保障稀疏计算的效率。其本质依赖All-to-All通信的高效性。此时基于内存语义NVSHMEM,可以最大化GPU间All-to-All数据交互效率,又成为新的通信热点。
4 内存语义从底层重构数据交互范式优化数据交互
以NVSHMEM为代表的内存语义核心是基于分区全局地址空间(PGAS)的通信范式,将集群中所有GPU 的内存抽象为统一的对称内存区域,每个GPU可像访问本地内存一样无需显式收发消息,通过单边内存操作(如直接读/ 写、原子操作)透明访问其他GPU的远程内存。支持在CUDA内核内直接发起内存访问类通信操作,无需CPU/内核协议栈中转,核心特征是“内存访问即通信”。这种、依赖全局共享内存抽象和低延迟内存访问,对硬件有更进一步的要求,聚焦于GPU架构、高速直连链路及适配的CPU与网络设备,才能保障透明内存访问的效率。作为GPU互联的Scale-up网络架构成为突破算力瓶颈的重要一环。当前市场呈现NVIDIA为代表封闭生态与UALink/SUE (Scale-up Ethernet)等开放体系的竞争态势。
总体上,类似NVSHMEM的内存语义,硬件要求更苛刻,核心围绕“高速内存直连”打造,适配单机多GPU 同类硬件的高密度聚合,跨CPU、GPU、存储、网络的硬件互通,短时容易形成封闭壁垒;而类似NCCL的集合通信库模式,硬件兼容性更强,兼顾不同层级的互联与 GPU配置,更适合跨节点、规模化且硬件配置灵活的分布式互联。从技术发展的一般规律来看协同设计的起始源于封闭,发展得益于开放。高效的协议升级,如发挥极致效率必然带来CPU、GPU、内存硬件架构体系升级的需求。Scale-up/Scale-Out网络互联技术正向着超节点规模化、光互联集成、多协议兼容演进。未来,开放标准的普及与跨技术融合将成为主流,为千亿级参数模型提供更高效、灵活的算力基座。



浙公网安备 33010802004375号