QYJS    前沿技术
前沿技术
构建零丢包智算底座:
基于“IP+光”融合架构的广域DCI无损传输方案
文 | 新华三集团网络产品线 侯静

摘要

针对广域智算场景中带宽利用率低、微丢包与流量突发等挑战,本文创新性地提出一种“IP+光”融合架构,通过深度整合IP网络灵活性与光网络高带宽特性,构建了面向智算广域的智能传输底座。在此基础上,结合智能大象流负载分担、精准拥塞控制算法以及超大缓存设计,最终形成了一套大带宽、高吞吐、零丢包的智算广域网解决方案。该方案显著提升了网络资源利用效率,有效应对了流量突发导致的拥塞问题,为分布式智算任务提供了可靠、高效的传输保障。

关键词

智算广域网;IP+光;大象流负载分担;精准拥塞调度;大缓存

引言

AI技术正以前所未有的速度融入各行各业,深刻改变着人们的生活方式,并成为数字化转型的核心驱动力。在这一进程中,个人、智能体与智算中心之间的高效互联日益凸显出网络的关键作用。与此同时,大模型规模持续扩大,如ChatGPT、DeepSeek等模型的参数已突破百亿级别,OpenAI更透露其下一代GPT-6的训练预计将涉及超过30万亿参数。AI技术的爆发式增长,直接推动了对智算中心需求的激增。然而,支撑这些复杂模型高效训练与推理的关键,已从单一算力节点转向集群整体能力。传统数据中心网络在带宽、延迟和扩展性等方面的局限,正逐渐成为制约算力潜能释放的瓶颈。面向未来,网络架构必须围绕智算中心的核心需求,以“大带宽、低时延、高可靠”为目标进行全面升级,着力构建面向智能计算的新型网络基础设施。这一网络架构的革新,将成为释放算力潜能、推动经济社会高质量发展的核心基石。

1 智算广域网络在算力时代面临三大核心挑战

1.1 大带宽需求

AI应用产生的数据量呈爆炸式增长,现有的网络基础设施难以满足需求。随着服务器不断升级以适应AI计算需求,其产生的数据量越来越大,对网络带宽的需求也相应急剧增长。网络带宽不足不仅限制了数据传输速度,还影响了数据中心的可扩展性和业务创新。

1.2 无损转发需求

AI计算任务对算力的需求极高,尤其是大规模模型的训练和推理。千分之一的数据传输丢包率都可能导致计算任务的延迟或错误。算力瓶颈不仅影响业务处理效率,还阻碍了新兴技术的应用,削弱了数据中心的竞争力。

1.3 高可靠性保障

长周期训练需毫秒级故障检测与自动恢复,任何中断都可能导致数周任务回滚。微软GPT-3训练因网络故障可能造成19万度电浪费。

2 新华三智算广域网高速互联无损解决方案

作为数字化解决方案领导者,新华三集团聚焦广域智算网络发展的根本需求,以技术革新为驱动,基于IPv6+技术作为智算广域互联技术底座不仅具有高速传输、广泛覆盖、连接能力强等特点,还通过高吞吐大象流分担技术及无损PFC/ECN机制等技术创新,为用户提供高吞吐、大带宽、高可靠、无损的网络连接体验。

图1 智算广域网高速互联

2.1 高速光传输:IP+光

◆工作原理

设备100G/400G/800G接口插入相干光模块(Coherent Optical Module),每接口发光波长不同,直接接入到波分设备的合波单元(MUX),节省传输电层和灰光模块。波分设备将彩光进行合波处理后在光纤中传到对端,对端设备将彩光进行分波处理后传递到对端设备,从而实现超远距离光传输。

◆客户价值

设备直出彩光,节省传输电层和灰光模块,降低投资成本40%,降低机架空间30%,并降低功耗25%;单光纤至少支持80波道*400G以上,也即32Tbps能力,支持800G、400G、100G、10G等各种速率彩光,通过配置不同波长,可实现同根光纤无缝升级带宽;可实现2000km超远距离光传输,提高传输的稳定可靠性。

2.2网络深度HASH:大象流负载分担

◆工作原理

为了保障智算业务大吞吐的需求,智算广域网需要部署SRv6多路径负载分担功能,通过控制器以网络通量最大为目标进行路径规划,将多条路径进行聚合,再配合大象流负载分担技术,实现SRv6多路径负载分担,实现网络运力最大化。

开启深度负载分担功能后,设备识别RDMA报文。RDMA报文特点是UDP Dest Port为4791。将RDMA报文的Dest QP(Destination Queue Pair)字段提取出来,在封装SRv6报文时,根据六元组(源IP地址、目的IP地址、源端口、目的端口、协议号、DestQP)生成哈希值,并将该值填入IPv6头的Flow Label字段中。在转发报文时,根据外层IPv6头中的FlowLabel作为HASH因子,从而实现广域网在SRv6多路径负载分担。

◆客户价值

大象流负载分担,实现网络全局负载均衡,提高了网络吞吐量。减少广域分担不均导致的拥塞,有效保障AI训练任务的连续性和高效性。

2.3 网络感知拥塞:微秒级拥塞感知与精准拥塞控制

◆工作原理

精准拥塞控制技术是对传统PFC技术的增强,在反压报文中除了携带需要进行流量控制的优先级外,还携带了用户流量特征信息。与租户级切片功能叠加,在满足不同业务对网络带宽、时延、抖动等差异化SLA需求的情况下,根据设置的缓冲阈值,控制租户专线切片内队列流量的通断,实现租户间拥塞不扩散。

通过硬件微秒级监控队列使用情况,一旦租户队列使用的缓存超出预设的反压阈值,设备会迅速生成精确的流控反压报文,并通过反向路径通知上游设备暂停该租户队列的数据传输;上游设备收到反压消息,会根据反压信息指示停止发送数据并存储在本地缓存,如果本地缓存消耗超过阈值则继续逐跳向上反压;在反压到网络边缘节点时,网络边缘节点将精准拥塞控制报文转换为标准PFC报文反压租户侧数据中心,实现端侧协同降速。

◆客户价值

精准拥塞控制技术配合网络切片,实现租户级拥塞控制,单个租户流量拥塞,不影响其他租户,实现差异化精准流控。

2.4 网络蓄水池:大缓存

◆工作原理

智算业务周期性突发较大易引发拥塞,为了避免瞬间突发超带宽引发丢包。单板单芯片缓存为16G共享大缓存的方式,若某个接口出现瞬间超带宽情况,可以通过大缓存方式将报文缓存起来,避免广域网传送丢包。

◆客户价值

基于网络级缓存来最大吸收突发流量,实现广域长距无损传输,保障AI训练任务的高效性。

新华三依托高可靠、高吞吐、无损网络技术创新,推出智算广域网解决方案。该方案通过高运力骨干网络、泛在灵活接入能力及长距无损传输技术,构建起弹性可扩展的智能算力承载平台,为各行业提供零丢包、低时延、高带宽的数据传输环境,显著提升跨数据中心AI集群训练效率,为智算时代的大规模分布式计算提供坚实网络底座。

3 智算广域跨区域DCI网络互联案例

2025年7月,新华三集团携手中国移动研究院及中国移动河北公司,在试验网环境联合完成了配置800G彩光模块的交换机智算协同方案的技术验证。本次验证场景设计涵盖短距和中短距(80公里)两种典型跨智算中心的互联模式,选用了新华三S12504CR高密800G接口交换机作为算间互连核心,并直接搭载800G-ZR彩光光模块。在架构层面,这一设计省去了传统架构中独立的传输设备扩容环节,能够用更简单的方式实现端到端的800GE组网,融合网络与传输资源,显著减少硬件堆叠和维护复杂度。

图2 智算中心跨区域互联

在性能优化方面,针对跨中心分布式训练中RDMA流量拥塞处理的延迟问题,交换机引入了FASTCNP机制。这项技术改进了传统CNP的响应方式,一旦互连交换机检测到RDMA队列出现拥塞,会结合队列长度和缓存占用情况,智能计算并主动生成拥塞通知报文,提前告知源端进行降速,避免拥塞持续积累。实测数据显示,在80公里互联场景下,快速CNP比标准CNP报文生成时间缩短了90%,使跨中心训练效率仅比同城智算降低约5%,几乎接近本地协同的性能水平。

本次的测试结果,与传统“路由器+传输设备”架构相比,新方案不仅在性能指标上显著提升:单比特传输成本降低40%、功耗下降35%、节点时延缩短20%,还在跨智算中心进行700亿参数规模的大模型流水线并行(PP)训练中实现了高达98%以上的等效算力效率。这意味着,即便在跨城市的复杂环境中,也可以借助这一架构维持接近本地计算的训练速度与吞吐,从而大幅降低网络建设的总拥有成本(TCO),并为未来多智算中心的大规模部署提供成熟可复制的技术范式。

这一成果不仅展示了高带宽、低时延、低能耗跨智算互联方案的可能性,也为中国智算网络走向更大规模、更高效率、更绿色可持续的发展提供了坚实支撑。在AI迈向十万亿参数级别的征途中,像这样高效稳定的跨中心互联技术,将成为推动算力协同和产业升级的关键“高速路”,连接起全国的智能计算资源。

4 智算广域网络技术展望

随着AI模型向万亿,十万亿参数规模发展演进,跨城市甚至跨省的长距智算数据中心互联成为智算广域网络的重要趋势。未来的技术演进可归纳为两个主要方向。

4.1 底层硬件与端网融合的创新

光模块速率将由800G提升至1.6T、3.2T,交换机将进一步提升端口密度与速率,支持CPO(Co-Packaged Optics,共封装光学)设计,借助相干光等技术将传输距离扩展到数千公里以上。交换机融合AI能力,优化端网融合的长距拥塞调优算法等,提升长距RDMA性能,AI驱动的故障预测,保障链路稳定可靠,支持更大规模,更高速率,更绿色的数据传输。

4.2 分布式计算通信与训练框架优化

上层训练框架将集成DC内,DC间的拓扑感知,结合各种并行策略,集合通信库算法的优化,减少长距数据交换,支持任务迁移与容错,在长距链路异常时保持训练的高效稳定性。

未来,智算广域网络将通过智算全栈的协同升级,以更高速率、更低能耗和更智能的方式支撑跨域智算算力的互联。

新华三将联合客户与合作伙伴,深耕智算中心创新与实践,不断突破技术边界,释放极致算力,全面推动AI应用落地,助力行业迈向智能未来。

关闭