《数字化领航》AI技术专刊

前沿技术

大模型训练的网络通信调优：
从“内存语义”到“集合通信”的瓶颈突破

文 | 新华三集团解决方案部张宗祎

摘要

聚焦大模型训练中网络通信的性能瓶颈。深度分析集合通信（Collective Communication，如All-Reduce, All-to-All）的原理及其对网络的挑战。探讨如何通过网络侧优化（如自适应路由、拥塞控制算法）和协议层优化（如内存语义RDMA与消息语义的协同）来解决AI工作负载的流量风暴和长尾时延问题。

关键词

集合通信；网络拥塞（Incast）；拥塞控制；RDMA；内存语义；消息语义；确定性网络

随着千亿级、万亿级参数大模型的普及，AI训练进入 “算力×联接”双轮驱动时代。然而，算力与带宽的增长失衡形成了显著的“木桶效应”——过去8年，单卡算力增长约40倍，而互联带宽仅提升4倍。特别是当模型规模突破千亿参数，采用张量并行（TP）、流水线并行（PP）、专家并行（EP）等复合并行策略模式是提升训练效率的有效手段。分布式并行通信效率成为了大模型训练的核心挑战。

1 以集合通信为代表的消息语义是并行训练性能的基础保障

集合通信（Collective Communication）作为分布式计算的“通信中枢”，负责协调多节点、多设备间的全局数据交互与协同。作为参数/梯度同步、张量分片交换的核心支撑环节，其通信量随并行规模呈指数级增长。All-Reduce、All-to-All是最核心的两类操作，前者适配数据并行，后者支撑张量并行/流水线并行。其性能直接决定训练吞吐与收敛速度。

集合通信的拓扑基础算法一般有树形算法（Tree All-Reduce），环形算法（Ring All-Reduce）。Ring为最主流实现。All-Reduce（全归约），核心目标是将所有参与节点将本地梯度 / 参数聚合（求和 / 求平均）后，每个节点最终持有完整的聚合结果，是数据并行的核心操作。以Ring为例，All-Reduce过程是将N个节点组成环，分 “Scatter-Reduce”和“Allgather”两阶段：阶段1（Scatter-Reduce），每个节点将数据分片后，逐段发送给环下一个节点并叠加计算，经过N-1轮传输后，每个节点持有聚合后的一个分片；阶段2（Allgather），节点间转发各自持有的聚合分片，最终每个节点获得完整聚合结果。

2 集合通信性能优化落地方案

All-to-All（全交换）张量分片全局交换，核心目标：N个节点中，每个节点将本地N个数据分片分别发送给对应节点，同时接收所有节点发来的对应分片，是张量并行（如 Megatron-LM）的核心操作。

1）通过RDMA通信的零拷贝+内核旁路+硬件卸载，可以避免TCP/IP需经过“用户空间→内核缓冲区→网卡缓冲区”的多次内存拷贝，及内核协议栈处理封装、校验等逻辑，消除数据传输冗余开销，使通信开销降低90%以上，精准适配All-Reduce、All-to-All 等操作的高带宽、低延迟需求，成为大语言模型初期集合通信从端侧到网络层首要的通信技术优化。

2）而在网络侧的组网模式上，大模型节点间，通常称为Scale-up网络，其互联一般采用SPINE-LEAF组成的CLOS架构网络互通，跨节点的CLOS架构虽号称“无阻塞”，仍需面对局部链路瓶颈。传统路由协议（如 OSPF、BGP），在网络间通过ECMP选择下一跳路径，基于静态拓扑计算路径，无法感知实时负载，导致部分路径拥堵而其他路径闲置。ECMP基于五元组流分类的粗粒度Hash调度会将All-Reduce的大流、长流集中到少数链路，加剧拥塞。

a)既然是大带宽流量出现拥塞，显而易见，在网络上一种优化思路是数据“切片”，更细粒度调度。并改静态为动态。

◆实现模式1：将流切为Flowlet子流调度，DLB的Eligible模式。对模型流量周期性突发的特点，设置t时间参数将父流切为子流。以子流为最小粒度参与逐流动态hash计算，根据动态算法，考虑多路径下一跳的负载状态，为每条子流选择负载较轻的下一跳。但Flowlet切割的t时间参数设置较为复杂，一般建议大于单向网络时延RTT，确保下一个子流不能先于上一个子流达到目的地，避免造成报文乱序。易用局限较大。

◆实现模式2：动态逐包Spray喷洒，交换机按照逐包喷洒调度，每包选择负载最轻链路发送。这种模式在端侧接收时会产生数据乱序，需要交换机支持乱序重排，或者搭配支持乱序重排的网卡。这种处理需要耗费硬件资源及效率，且能支持的硬件选型范围极度受限。

◆实现模式3：DDC信元切包机制，报文在Leaf被切成一个个等长的信元cell，在多路径下一跳轮询发送，此种模式，最小调度粒度为信元cell。交换机按照Cell信元调度，网络负载均衡效果好，网络自行组包保序，网卡和GPU也可以完全解耦，通过网络自身独立优化，是当前比较好的一种优化手段。只有H3C及个别厂商有此种交换机款型，业界目前大多数厂商的盒式款型无法支持此种机制。

b)那么如何避免切片带来的原始硬件依赖，而进行更优的负载均衡呢？另外一种思路是结合集合通信通过软件平台能力的配合来控制调度。

◆以新华三推出的路径导航方案来说，控制器与集合通信库配合， SDN计算不相交路径，利用设备的HASH算法，根据五元组信息预先计算出不同流量的必然路径。集合通信在建立通信链路同时将通信关系上报给控制器，控制器通过UCCL (Unified Collective Communication Library)设置QP通信数据通道所采用的报文源端口。实现基于端侧源端口src-port方式控制流量转发路径，达到规划最优路径，使得报文按照规划路径转发。极端情况当局部拥塞后，利用模型训练时反复迭代表现的通信模型固定的特点，还可以进一步微调达到整网流量最优分配。此种SDN模式，全局视角统一预规划路径。不依赖网卡厂商在当前的硬件限制，不依赖交换机特定款型的选择。也是当前互联网、大型模型训练场典型的有效优化手段。

大语言模型发展初期，集合通信底层承载的流量以All-Reduce为主，以及基于send/receive模式的AlltoAll流量。业界大多数厂商的落地实现上，还是消息语义模式。大体为“缓冲区封装 - 协议传输 - 解封装”的通信模式，数据通过显式消息队列传递。这种模式天然的兼容性强，对于各类入门级及数据中心GPU，其互联类似NVLink等专有互联或PCIe等通用互联链路无强依赖；CPU仅承担通信器初始化、拓扑管理等协调工作，数据传输通过NIC硬件卸载、轻量化，各部件为松耦合协作模式。消息语义方便灵活部署，适用于跨节点、硬件配置异构的分布式训练场景。

3 All-to-All 通信成为支撑DeepSeek MoE架构通信的核心依赖

当DeepSeekMoE（混合专家模型）针对大模型训练效率优化的典型架构出现，其核心通过“稀疏激活+专家并行”大幅降低计算量，All-to-Al通信成为支撑该架构的核心依赖。

流程如下述，输入序列的每个令牌经路由器，判定所归属的专家，将不同令牌分经All-to-All分发至对应GPU/ 节点上的专家，各GPU/节点上的专属专家处理分配到的令牌，输出计算结果；再经All-to-All将结果按原令牌归属，回传给对应GPU/节点，完成最终输出，整体为“令牌分发-专家计算-结果回传”的闭环。因专家分散在不同GPU，实现令牌精准分发和结果高效聚合，适配单机与跨节点部署，保障稀疏计算的效率。其本质依赖All-to-All通信的高效性。此时基于内存语义NVSHMEM，可以最大化GPU间All-to-All数据交互效率，又成为新的通信热点。

4 内存语义从底层重构数据交互范式优化数据交互

以NVSHMEM为代表的内存语义核心是基于分区全局地址空间（PGAS）的通信范式，将集群中所有GPU 的内存抽象为统一的对称内存区域，每个GPU可像访问本地内存一样无需显式收发消息，通过单边内存操作（如直接读/ 写、原子操作）透明访问其他GPU的远程内存。支持在CUDA内核内直接发起内存访问类通信操作，无需CPU/内核协议栈中转，核心特征是“内存访问即通信”。这种、依赖全局共享内存抽象和低延迟内存访问，对硬件有更进一步的要求，聚焦于GPU架构、高速直连链路及适配的CPU与网络设备，才能保障透明内存访问的效率。作为GPU互联的Scale-up网络架构成为突破算力瓶颈的重要一环。当前市场呈现NVIDIA为代表封闭生态与UALink/SUE (Scale-up Ethernet)等开放体系的竞争态势。

总体上，类似NVSHMEM的内存语义，硬件要求更苛刻，核心围绕“高速内存直连”打造，适配单机多GPU 同类硬件的高密度聚合，跨CPU、GPU、存储、网络的硬件互通，短时容易形成封闭壁垒；而类似NCCL的集合通信库模式，硬件兼容性更强，兼顾不同层级的互联与 GPU配置，更适合跨节点、规模化且硬件配置灵活的分布式互联。从技术发展的一般规律来看协同设计的起始源于封闭，发展得益于开放。高效的协议升级，如发挥极致效率必然带来CPU、GPU、内存硬件架构体系升级的需求。Scale-up/Scale-Out网络互联技术正向着超节点规模化、光互联集成、多协议兼容演进。未来，开放标准的普及与跨技术融合将成为主流，为千亿级参数模型提供更高效、灵活的算力基座。