_2610534_30005_0.jpg)
从30%空转到100%吞吐:DDC“信元魔法”打造智算性能极限
信元喷洒:颠覆性传输革命
DDC(Diversified Dynamic-Connectivity,多元动态联接)技术是一种革命性的网络架构创新。它将传统的框式交换机的核心交换网板与业务板卡完全解耦,重构为分布式互联的独立单元集群,通过采用信元技术,DDC实现了无阻塞传输,新华三创新地将信元交换与以太网协议融合,使这种架构不仅能够兼容多元算力,还实现了网络设备品牌的多元互联。DDC真正解决了智算网络面临的高效传输、多品牌GPU和网卡兼容性以及网络异构的多重难题,显著提升网络灵活性、可扩展性和整体性能。
DDC技术采用了创新的信元喷洒方式,将数据流切割为标准化的等长信元,就像把各种型号的车辆都统一改造成尺寸完全相同的"迷你车",每辆车的大小和形状都一样,可以高效地利用每条车道。这种方式对业务流透明、不关心数据的具体协议内容。与IB(InfiniBand)相比,DDC技术在网络侧重组数据报文,无需网卡支持硬件报文重组功能,实现了多品牌网卡的兼容。
与信元喷洒相比,传统的网络传输方式就显得相形见绌。逐流转发将所有相同特征(如五元组)的数据流都分配到同一条链路上,这种方式对流特征敏感,容易导致某些链路过载,而其他链路却闲置,需依赖运维人员的调优经验。逐包喷洒虽然尝试将数据包分散到不同的链路上,但由于数据包大小不一,仍然无法实现理想的负载均衡,这种方式对包容量敏感,可以想象成一条混行车道,大货车会挤占小轿车的空间,导致一定比率的负载不均衡。
图1 三种网络传输方式对比
让我们深入这个革新性的传输系统:当数据进入网络时,NCP(网络处理单元)将数据流精准地切片成标准化的"信元"。这些携带智能标签的信元进入NCF(网络交换单元)构建的高速交通网络。在这里,每个信元都能按照规划好的最优路径,如同精密调度的磁悬浮列车在专属轨道上高速运行。到达目的地后,系统又能像拼图大师一样,将这些分散的信元完美重组。这种设计的精妙之处在于,它创造性地划分了两个并行世界:一个是处理常规流量的"IP转发域",就像城市的普通道路;另一个是专为AI训练优化的"信元转发域",犹如专设的高速公路。两个世界既相互独立又智能协同,使得网络资源能够根据业务需求动态调配。
图2 DDC传输系统
架构革命:去中心化设计与开放生态
DDC技术通过革命性的架构创新,构建了一个去中心化、开放式的智能网络体系。这一创新架构将传统集中式控制平面的核心功能解耦下沉到网络边缘的NCP节点,实现了"分布式协同转发,边缘自主决策"的运作模式。每个NCP节点都具备完整的本地决策能力,可以实时接收来自NCF的网络状态数据,运行分布式调度算法,执行精细化的信元级流量调度。这种设计不仅简化了组网架构,还使部署过程更加简便。
图3 架构图
在开放生态建设方面,DDC技术基于标准BGP协议打造了开放的互操作框架。通过扩展BGP实现TEP信息发布,建立了统一的设备通信标准。新华三联合业界伙伴基于OSF(人工智能网络开放调度架构)制定DDC核心框架标准,这一标准化为技术生态的发展和落地提供了从需求、框架到技术方案的完整指导,推动形成了开放共赢的产业生态。这种标准化设计有效促进了多厂商设备的互联互通与协同创新,使得不同品牌的硬件可以在同一网络中无缝协同工作,真正实现了"硬件定义自由"。
这种"分布式智能+开放标准"的创新架构展现出三大核心优势:首先,通过本地化决策实现了毫秒级响应;其次,支持弹性扩展,每个新增NCP节点都能自动融入系统,线性提升整体处理能力;第三,具备故障自愈特性,单点故障不会影响全局网络运行。
AI场景的极致适配:DDC的架构突破与性能实测
在AI计算场景下,DDC技术展现出了强悍的适应能力。其架构设计首先在扩展能力上取得突破:单集群设计可支持近万张GPU卡的互联组网,而多集群方案更是将这一规模扩展至数万卡级别,完全能够满足当前最大规模AI模型的训练需求。 在网络性能方面,DDC针对分布式训练中的关键瓶颈进行了优化。通过创新的流量调度算法,相较传统ECMP组网方案实现了107%的有效带宽提升,这一突破性改进特别适应All-to-All通信模式,有效解决了多GPU卡协同训练时的网络拥塞问题。测试数据显示,在All-to-All这类高要求场景下,基于DDC架构的RoCE网络带宽性能较InfiniBand 方案平均提升2.5%,尤其在大消息传输场景下表现更为突出。与此同时,该架构保持即插即用、负载均衡以及端侧完全解耦的架构优势,为分布式训练提供了更高效的网络解决方案。
DDC的先进性还体现在多租户支持与异构兼容性上。通过软硬件特性结合,它实现16K级别的租户隔离,相比传统ACL和VxLAN方案,隔离粒度更精细,支持的租户规模更大,且保持零带宽损耗,特别适合多租户AI训练场景。面对异构算力环境,DDC能无缝连接不同厂商、不同型号的网卡和GPU设备,有效解决了由于网卡生态差异带来的各种技术难题。
在运维管理方面,DDC带来了革命性的简化体验。其芯片级故障探测机制,能够在故障发生的瞬间完成自动切换,确保AI长周期训练的业务连续性。而且,系统具备自优化能力,网络内无需调参即可自适应最优配置,显著降低部署复杂度。结合AD-DC智算版,设备支持一键式自动上线与即插即用,配合端到端可视化监控界面,运维人员可以清晰掌握整个网络的状态,大幅提升了网络运维效率。
随着DDC技术的成熟应用,AI算力传输的"最后一公里"瓶颈终被突破。这场由信元喷洒和硬件解耦引领的网络革命,正在重塑AI基础设施格局。当大模型向更大规模演进时,DDC凭借卓越的性能表现和灵活的扩展能力,成为支撑AI算力发展的关键基石。