欢迎user

随着大模型训练进入规模化落地阶段,单数据中心算力容量、功耗与空间资源日趋受限,同城多数据中心分布式协同训练成为破解算力瓶颈、扩充训练集群规模的关键。近日,紫光股份旗下新华三集团正式推出高密800G智算DCI交换机S12500R-64EP,围绕分布式训练的传输特性,打造百公里级同城算力无损互联,为城市级大模型协同训练筑牢网络底座。

800G超高密带宽
从容承载AI训练大流量并发
同城分布式大模型训练具备超大带宽、高并发、脉冲式突发的流量特征,多机房GPU集群联合训练过程中,海量模型参数交互、Token数据流持续吞吐,对跨中心互联带宽规模与端口吞吐密度提出极高要求。传统DCI设备端口带宽偏低、密度不足,极易出现流量拥堵、集群扩容受限等问题,制约大规模协同训练落地。新华三800G智算DCI交换机搭载超高密800G OSFP端口,构建超大带宽、高集约的硬件传输底座,单设备可支撑海量训练流量并行传输,大幅提升单纤带宽利用率,充分适配百公里同城场景下大模型持续训练、高频参数同步的带宽诉求,彻底解决训练流量带宽瓶颈,为同城多节点AI协同训练提供充足、稳定的带宽储备。
自研长距RDMA加速
百公里训练无损梯度同步
百公里同城长距链路的高时延、拥塞响应滞后、随机丢包等问题,是制约AI协同训练效果的核心瓶颈。大模型分布式训练高度依赖高频次梯度参数同步与连续Token传输,网络微小抖动、丢包重传都会导致训练收敛变慢、模型精度偏移,甚至出现训练任务中断重启、算力空转等问题。新华三自研长距RDMA加速技术,彻底打破传统RoCE v2协议往返确认的滞后机制,依托硬件级流表实现微秒级拥塞预判与实时控速,大幅提升长距链路吞吐量与传输稳定性。同时可精准识别AI训练专属流量,对梯度同步、模型训练核心流量做优先级隔离调度,杜绝业务流量挤占训练带宽,真正实现百公里级AI训练无损传输、梯度零抖动同步,保障协同训练任务持续高效运行。
32GB HBM高带宽缓存
零丢包与低时延兼得
AI训练流量存在极强的瞬时脉冲突发特性,同城百公里长距链路在流量峰值阶段,极易出现队列拥塞、短时丢包、时延漂移等问题,直接造成跨中心训练任务中断,大幅拉低GPU集群算力利用率。针对AI训练专属流量特征,该交换机配备32GB HBM高带宽深度缓存,搭配自研距离感知智能缓存调优技术,可实时感知百公里链路往返时延变化,动态精准计算并适配最优Headroom缓存空间。通过软硬协同的动态优化机制,设备在AI突发洪峰涌入时,能完美兼顾超低时延与海量吞吐,从根源上解决长距传输抖动、突发丢包等痛点,全程保障分布式训练任务零中断、零回滚、精度无偏移,最大化释放同城集群训练算力价值。
极简彩光架构
降本增效助力场景规模化落地
传统同城DCI组网依赖OTN设备多层堆叠,存在层级冗余、时延较高、运维成本高昂等问题。该设备支持800G ZR/ZR+彩光直连,采用极简IPoDWDM组网架构,省去传统OTN电层转发环节,有效压缩跨机房数据交互时延。该轻量化架构可精简组网拓扑、减少设备投入与机房功耗,驱动建设成本降低45%,同时依托AD-DC智算版全域智能管控能力,实现训练流量可视、策略自动部署,大幅提升跨域训练网络的运维效率,助力同城AI协同训练业务规模化落地。
新华三集团将持续深耕智算网络与AI训练场景的深度融合,不断迭代长距无损传输、智能流量调度技术,持续完善全域算力互联产品体系,助力各行业构建稳定高效的同城算力协同生态,加速人工智能产业规模化、高质量创新发展。

