• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

小红书

【发布时间:2025-09-03】

作为业内领先的社区平台,小红书始终致力于AI技术创新与应用,将AIGC深度融入内容推荐与智能创作场景,自2023年起基础网络团队积极布局高性能网络方案,探索创新的智算网络架构,为大模型应用提供强有力的基础设施支撑。

近日,国内领先的社区平台小红书携手紫光股份旗下新华三集团,率先完成了国内首个基于DDC架构的智算网络规模化验证。本次验证主要针对网络带宽和响应延迟性能、集合通信能力以及系统容灾水平等维度展开,测试表现效果优异,充分展现了DDC架构在支持大模型训练和高性能AI算力网络方面的技术优势,能够为小红书的AI业务创新提供高性能基础设施支撑。

随着大模型快速发展,智算网络正面临机间通信占比激增带来的拥塞风险、低时延与高吞吐双重压力、以及动态流量模式导致传统调优失效三大主要挑战。对此,新华三集团依托多年技术积累,重新定义DDC架构(Diversified Dynamic-Connectivity,多元动态联接),推出新一代无损网络解决方案并携手小红书率先在实际业务场景中完成规模化验证。

针对此次规模化验证,小红书基础网络负责人程俊峰表示:“小红书始终坚持网络的开放性,将持续探索基于开放以太网的高性能网络方案。此次与新华三联合测试基于DDC架构的智算网络方案,不仅验证了新一代网络架构的技术可行性,也为小红书后续开展大模型训练网络优化等创新性研究奠定了坚实基础。该方案在先进性与普适性之间取得了良好平衡,为行业提供了高性能、低成本且易部署的网络新选择。”

DDC架构实现全局负载均衡与高速AI通信

DDC架构采用分布式设计,通过信元交换技术实现网络100%负载均衡,并结合VOQ+Credit智能流量调度,实现训练集群的无阻塞转发和极速通信。该架构首次将信元交换与以太网协议融合,构建以太网原生的全局调度能力,实现端侧完全解耦,兼容主流GPU厂商,并顺应国产GPU趋势,充分释放硬件性能。此外,网络具备免调参能力,大幅降低运维和部署复杂度。DDC架构还全面适配All-Reduce、All-to-All等主流集合通信,为Dense、MoE等大模型提供稳定高效支撑,并保持对未来新兴训练范式的前瞻兼容性。

新华三集团高级副总裁、网络产品线总裁乔剡表示:“我们很高兴与小红书合作完成DDC架构的规模化落地。新华三一直致力于智算网络技术的创新突破,DDC架构是我们面向AI大模型时代推出的革命性网络解决方案。测试结果充分证明了DDC在性能、免调优和运营成本等方面的综合优势,这为大规模智算中心建设提供了新的选择。我们期待与小红书继续深化合作,共同推动AI基础设施的创新与发展,助力中国大模型生态繁荣。”

规模化验证

DDC智算网络高效、稳定、免调参

在测试阶段,双方团队根据小红书智算业务高并发、大流量特点,开展了带宽和延迟基准测试、All-to-All和All-Reduce集合通信测试,以及系统容灾测试。结果显示:DDC架构显著提升网络利用率,有效避免拥塞导致的时延和抖动。All to All场景中,GPU单卡吞吐量最高可达381.83Gbps,All Reduce场景中,GPU单卡吞吐量更可达到385.98Gbps。同时,架构可快速响应多种硬件故障,智能调度带宽资源,实现即插即用和“网络内免调参”,显著简化运维工作。

descript

上线测试基于已部署完毕的DDC智算网络集群,训练网络验证环境使用了2台NCF交换机,8台NCP交换机,4台GPU服务器。每台GPU服务器配备8张卡,分别连到8台NCP上,每台NCP分别与两台NCF相连,确保每台NCP和每台NCF间连线数量一致,构成DDC集群。

descript

此外,基于DDC架构的智算交换机H3C S12500AI系列也在实际部署中充分体现了其价值:它不仅提升了大规模智算网络的负载能力,缩短了模型训练时间,还为小红书的AI应用提供了高效、可靠的算力基础,推动AI与内容生态的深度融合,将大模型技术融入用户的每一篇笔记和每一次搜索中。未来,小红书技术团队将与新华三集团持续深化合作,基于DDC架构的AI加速能力,在内容推荐算法优化、智能创作工具开发和实时数据分析等领域共同探索,不断提升用户体验和创作效率。

descript

在验收测试阶段,双方团队通力协作。鉴于这是国内首个DDC集群落地项目,缺乏可借鉴的验收标准。团队以传统RoCE网络验收方案为基础,结合DDC实现无损网络的技术特性,共同制定了针对性的验收体系。通过系统调整集合通信库、QP、ECN、PFC ratio、Headroom、PXN等参数,全面验证了DDC集群的网络性能,并基于业务场景对系统冗余性进行了深度测试,高效完成了DDC集群交付验证及容灾保障工作,确保集群上线和生产业务承载。首批设备上线当天即完成调试与基础配置,为后续部署积累了标准化流程经验,确保项目高质量如期完成。

我们相信,随着大模型技术持续发展,这类创新网络架构带来的高性能、高开放度和免调优特性,将成为用户AI基础设施建设中的网络方案更优选择。

新华三官网
联系我们