《数字化领航》AI技术专刊

前沿技术

面向AI大规模集群组网的端网融合方案探索和实践

文 | 新华三集团技术委员会先进技术研究部刘锋

摘要

大模型训练和推理都依赖多机多卡的大规模集群的方式来进行。拥塞问题和负载不均是大规模集群网络吞吐下降的根本原因，端网融合是提升集群网络性能的主要途径，是业界主流的技术发展方向。本文将深入剖析端网融合的基本原理、关键技术、业界主流方案、未来发展方向以及我们的探索和实践。

关键词

Scale-out网络；智算网络；AI大模型；端网融合

引言

自Chat GPT掀起AIGC技术浪潮以来，大模型的演进速度与资源需求呈双重爆发态势，模型参数从千亿级跃升至万亿级，且正朝着十万亿级持续突破；以GPT-4、Sora为代表的标杆模型，其训练过程需要依赖海量算力支撑，由于集群规模巨大，GPU之间的高速数据传输吞吐量急剧下降。集群负载不均和网络拥塞问题是造成吞吐量下降的根本原因，将导致AI大模型训练效率下降，甚至造成任务执行中断或失败；这一现状推动全球超万卡集群架构的智算中心技术加速升级，端网融合方式，通过端网协同设计，打通数据传输、资源适配的全链路，才能满足大规模集群对低延迟、高带宽、高可靠性的需求。本文系统梳理当前智算集群端网融合的发展现状，深入剖析关键技术难点，并结合实践案例探讨未来技术演进方向，为智算中心基础设施的优化升级提供参考。

1 Scale-out网络业务需求和挑战

随着大模型技术的快速演进，模型参数量与训练数据量呈指数级增长，早已突破单块GPU的算力与存储极限，要支撑这类复杂模型的高效训练，必须将模型训练任务与数据处理流程拆解到上万级GPU集群中协同完成，多机多卡集群已成为行业标配，而这背后的核心诉求，正是构建适配AI训练特性的大规模集群组网架构。

从业务实际需求来看，不同并行训练模式对组网的性能、扩展性提出了差异化要求：张量并行与专家并行在训练过程中，需要GPU间进行高频次的数据交互与控制指令同步，单次迭代的交互数据量可达数百GB，且每秒通信交互次数高达数千次，这就需要先通过节点内垂直扩展（Scale-up）提升单节点GPU数量与内存容量，以降低近距离数据传输延迟；但受限于当前单节点普遍支持的8卡配置，仅靠垂直扩展无法满足全部需求，因此还需结合横向扩展（Scale-out）网络弥补算力与互联能力的缺口；流水并行和数据并行主要运行在节点之间，需要通过节点间的横向扩展来满足大规模节点的互联需求，由于其规模庞大，并不强调极致的低时延，并且与业务之间的耦合关系较为松散，通过网卡、交换机与服务器内的GPU互联。由于规模庞大，大规模组网容易带来整体网络吞吐的下降，主要会出现负载不均和网络拥塞两大问题，影响整体的集群性能。

1.1 负载不均是Scale-out网络面临的最大问题

AI训练流量特征：少流（低熵）、大流。传统ECMP针对此流量特征将不能哈希到所有端口上，导致负载不均，在通常场景下，数据流完全不相关，负载均衡分布。交换机通过等成本多路径（ECMP）,并根据熵值（UDP源端口）进行哈希。AI场景，基于ECMP流的哈希并不起作用，问题在于熵值数量少，因此哈希的结果也少，导致太多的大象流量被发送到相同的路径上。如此将导致一些端口被拥挤，而其他一些端口未被使用。最后一个流（最糟糕的流）预期持续时间比其他流大很多，导致拖延了整个训练的迭代周期。

图1 负载不均是Scale-out网络面临的最大问题

1.2 网络拥塞是Scale-out网络面临另一大问题

拥塞问题的本质是网络中如果存在太多的数据包，会导致包延迟，并且会因为超时而丢弃，从而降低传输性能。拥塞控制的核心是既要充分利用网络容量，提供低延迟网络传输的同时，又要尽可能的避免网络拥塞：当主机发送的数据包数量在网络的承载范围之内时，以尽可能快的速率发送，当负载接近/快要接近网络承载极限时，降低发送速率。

图2 拥塞控制的目标：
充分利用网络容量的同时，尽可能的避免网络拥塞

另外AI训练模型中All-reduce、All-to-All以及多任务训练和其他流量导致的多打一incast问题，会导致拥塞。

图3 多打一导致拥塞的问题

2 Scale-out网络技术发展现状

支撑万卡集群直面负载不均和网络拥塞这两大核心问题，从多方面进行技术创新来提升网络吞吐。

对于负载不均问题：其核心的原因是流数小于链路数，因此业界提出包喷洒（Packet Spraying）技术，将“流”拆成“包”在链路上跑。根据控制点不同分为网侧包喷洒和端侧包喷洒。

网侧包喷洒（控制点在交换机）：网侧leaf交换机配置需要从原来的逐流模式，修改为逐包模式，在此基础上博通和盛科的交换机提出DLB（Dynamic load balance，动态负载均衡），引入时间戳、实时负载度量（端口带宽负载、队列大小）因子，结合设备当时的状态，进行动态哈希，以保证哈希的效果是最佳的。

端侧包喷洒（控制点在网卡）：由端侧网卡进行数据包喷洒，对要发送的单个数据流，通过修改单个报文的熵（源UDP端口号），当leaf交换机收到数据报文时，保留原来逐流模式，并通过设置根据熵值作为哈希因子来进行哈希，端侧通过控制熵值来进行路径的调控。

对于网络拥塞问题：当前业界主要两种思路：被动Push模式和主动Pull模式。

被动Push模式的核心思想是先发送报文，再通过网络交换机或者网卡自己，感知网络拥塞，作为输入信号传递给接收端网卡；接收端网卡通过发送拥塞通知告知发送端网卡调整流量发送速率，实现拥塞控制。比较有代表性的是DCQCN拥塞控制算法，通过交换机上携带的ECN标记，在接收端网卡转化成CNP通知报文，来通知远端网卡进行发送速率控制。由于ECN信号过于简单，调控效果不明显，业界提出INT(in-band-telemetry)/CSIG，通过在报文中携带经过交换机设备ID、buffer、时延等信息，用于判断路径的LSA质量来提供更精确的信息用于发送端的速率调控；另外也有网卡通过对发送报文添加时间戳信息来进行计算，从而得到上一轮报文经历的时延变化情况来进行下一轮报文发送速率的调控。

主动Pull模式的核心思想是发送端网卡先获取授权额度，再根据授权额度发送报文；以此实现调节发送端网卡发送速率，实现拥塞控制。采用该方式，接收侧网卡和发送端网卡通过主动credit信号交互，在发送报文前/中实时交互信息，保证所发送流量在收端可以正常处理，采用特定的算法，来保证多个发送端往一个接收端发送流量时，各个发送端之间的信用公平分配。该方式当前业界组织UEC提出并将此拥塞控制算法作为标准进行发布，称为CBRC算法，目前已经在AMD和博通的网卡上实现。

3 新华三端网融合方案

支撑AI大规模集群组网需要端网融合的技术创新来满足需求，新华三提出了端网融合的全栈解决方案，包含网卡、交换机和控制器三方面协同工作的系统方案，发挥各个功能块的优势，以更好地支持大规模集群的能力提供。

图4 新华三端网融合技术方案

控制器：掌握整个网络的全局拓扑视图，掌握每一台交换机上的哈希算法能力，通过内部算法，生成适用于所有交换机的一组熵值列表，下发给所有网卡。这组熵值列表代表了从leaf到spine交换机的路径选择信息。

交换机：在负载均衡方面，提供标准的ECMP能力，根据RDMA报文的五元组（源IP、目的IP、源UDP端口、目的UDP端口、协议号）来进行哈希，也可以设定为只根据源UDP端口号（熵值）进行哈希；在拥塞信号的提供方面，给网卡的拥塞控制模块和路径感知包喷洒模块提供ECN和Trim信号。其中ECN信号代表轻度拥塞，而Trim信号发生在该报文已经无法在链路上传输形成的报文“残”片（报文的payload部分被去除）时，代表的是严重拥堵的信号。

网卡：执行核心的端侧路径感知包喷洒和拥塞控制部分。

路径感知包喷洒的执行在发送端网卡，采用基于单QP多路径进行喷洒，网卡做re-order，端侧根据网络状态进行路径调整，具体操作如下：

图5 路径感知包喷洒机制

◆端侧基于单QP进行多路径喷洒，通过修改报文的熵值来人为造熵；

◆使用可配置的、通常较大数量的熵（例如64-256），并在它们之间进行轮询；

◆网侧交换机根据熵值进行hash，将流量分散至多跳路径上；

◆端侧维护熵值对应的路径的信息，根据路径的信息进行熵值使用比例的调整，以最大化利用每一条链路（当反馈数据包表明与特定熵相关的路径拥塞时（例如通过ECN标记或修剪的数据包Trim），发送方可能决定减少放置在该路径上的数据包数量）。

拥塞控制的部分，本方案中采用基于credit机制的授权模式算法，如图6所示。

图6 基于credit机制的拥塞控制算法

具体操作如下：

◆通过接收侧网卡和发送端网卡的主动credit信号交互，在发报文前/中实时交互信息，保证所发送流量在收端可以正常处理；

◆采用特定的算法，来保证多个发送端往一个接收端发送流量时，各个发送端之间的信用公平分配；

◆监测网络信息（ECN,Trim），结合credit机制算法，精准调控每一条流。

图7 基于credit和网络信息的拥塞控制交互机制

4 端网融合方案测试验证

在本方案中，我们部署了实际组网并进行了端网融合方案的验证测试。

1）负载不均场景测试

图8 端网融合与传统DCQCN负载不均场景测试
（左：DCQCN;右：端网融合）

我们构建了All-to-All的测试场景,通过测试结果可以看到，传统DCQCN在All-to-All场景下，由于负载均衡能力不足，导致部分链路被闲置，而部分链路发生严重拥塞，而端网融合方案具备包喷洒的负载均衡能力，整体吞吐量要比传统DCQCN表现优异。

2）多打1场景测试

图9 6打1场景下DCQCN和端网融合方案对比测试

我们构建了6打1场景的测试的场景，并通过模拟多任务的情况，通过测试结果我们可以看到，传统DCQCN在多打1场景下，由于受到干扰，部分流量吞吐下降，最终导致长尾时延过大影响整体训练效果，而端网融合算法在credit机制下，同时考虑网络侧信号的反馈，能够做到流量的均匀分布，从而可以提升网络吞吐和整体的性能。

3）多打多混合负载场景测试

图10 多打多混合负载DCQCN与端网融合性能对比

我们构建5打1背景流和双网卡隔离1打1测试流的场景，通过同时切换所有网卡算法，对比测试性能。从测试结果我们可以看到，在背景流的干扰下，如采用传统DCQCN算法，将产生PFC，影响了被测试流，导致吞吐量的下降。而端网融合方案，具备抗干扰能力，能够动态地对网络中流量根据实时的端侧和网络侧的信号反馈进行流量的调度和拥塞控制，保证整个网络的高吞吐能力提供。