《数字化领航》AI技术专刊

前沿技术

智算网络新范式：构建可扩展、可持续、高性能的AI基础设施

文 | 新华三集团网络产品线智维产品线王汉

摘要

随着大模型参数规模突破万亿级，AI算力集群正从千卡向万卡规模演进，网络通信效率低下、系统扩展性不足、运行可靠性差及资源利用率不均，已成为制约超大规模AI训练的主要障碍，其中网络通信等待最高可消耗超过90%的训练时间。本文系统论证了网络已从基础连接工具跃升为决定AI训练成败的核心基础设施，并提出了以可扩展（Scalable）、可持续（Sustainable）、高性能（Performance）为核心特征的智算网络新范式，深入解构了实现这三大维度的关键技术。结合某万卡级绿色智算中心的实战案例，验证了该范式在提升部署效率、保障训练连续性和逼近算力峰值等方面的显著成效，并展望智算网络向自驱、自愈、自优的自主智能的演进方向，旨在为构建下一代AI基础设施提供清晰的架构蓝图。

关键词

智算网络；超大规模集群；端网协同；路径导航；网络自治

1 智算网络的效率、规模与可靠性成为高效训练的关键支点

随着AI算力需求的爆发式增长，智算中心的规模正以前所未有的速度扩张。从千卡集群到万卡互联，算力基础设施的复杂度呈指数级上升，传统的运维模式正面临严峻挑战。

在AI发展的早期阶段，性能提升主要依赖于“暴力计算”模式，即通过简单堆叠GPU数量来驱动模型能力进步。训练规模多在数十至数百张GPU之间，网络仅作为基础连接工具，采用传统的TCP/IP协议与10G/25G带宽便能满足需求。然而，当大模型参数量从千亿级迅猛突破至万亿级，单机算力触及物理天花板，分布式训练集群规模随之从千卡级向万卡级跃进，单纯堆砌算力的模式遭遇了根本性瓶颈。通信效率、系统扩展性、运行可靠性与资源利用率四大核心痛点骤然凸显。研究表明，千亿参数模型的训练过程中，网络流量普遍具有高带宽、低熵值、强周期性的特征。传统网络协议与架构难以适应这一需求，容易引发链路拥塞和资源利用不均，导致超过90%的训练时间耗费在网络通信等待上，成为制约训练效率的主要瓶颈。更严重的是，一旦因网络问题造成训练中断，便可能带来高达数百万美元的资源浪费。这标志着，AI的发展范式已到了必须变革的关键节点。

解决上述挑战的关键在于网络技术的突破性创新：传统TCP/IP协议栈难以满足低延迟、高吞吐需求，而RDMA（远程直接内存访问）、智能流量调度等技术能大幅降低通信开销；同时，单机算力终有上限，网络使算力得以无限扩展——超大规模智算中心需支持数千乃至数万张GPU的协同训练，该需求要求网络具备极强扩展性，400G/800G以太网、无损网络架构（如CLOS拓扑）及多租户隔离技术可确保算力资源按需弹性分配。值得注意的是，可靠性同样至关重要，一次训练中断可能造成数百万损失，现代智算网络必须集成故障预测和快速自愈能力以保障稳定运行。

在这一背景下，网络已从单纯连接工具跃升为决定AI训练成败的核心基础设施。只有构建高效、可扩展、高可靠的网络底座，才能真正释放智能计算的潜力。网络的效率、规模与可靠性成为高效训练的三大关键支点，推动AI从：“蛮力”时代迈向“精巧”时代。

2 核心技术基石：Network for AI的三维能力解构

2.1 弹性可扩展 – Scalable

在超大规模集群中，其庞大的规模（万卡集群涉及数千台服务器与网络设备）和计算、存储、网络多域协同的复杂性，使传统人工运维模式面临效率低下、成本高企等挑战。端网协同自动化通过统一管理、智能配置、全域可控的技术架构，成为破解超大规模运维难题的关键。

1）自动化部署：从“月级人工”到“天级智能”

以万卡级规模为例，设备配置项总量可高达41万条，其中服务器相关参数超过3万项。人工操作难以确保配置准确性，由此引发的配置错误与返工现象屡见不鲜。此外，庞大的配置规模使得故障定位过程极为复杂，不仅严重影响部署效率，也造成了人力资源的严重浪费。

AIDC端网协同方案通过自动化上线、一键部署RoCE策略和“用户意图建网”模式，将传统数周甚至数月的部署周期缩短至天级。

◆自动化上线：以Fabric为单位，实现设备自动部署和扩容，支持自动分配IP、自动纳管设备，大幅降低网络配置复杂度，提升部署效率，减少人力投入。

◆一键部署RoCE策略：以Fabric为单位，批量在设备上自动下发RoCE无损配置，确保高性能网络环境快速就绪。

◆“用户意图建网”模式：通过可视化界面收集用户需求，自动规划拓扑并生成端侧服务器配置模板。在Leaf设备上自动下发VLAN和网关IP配置，服务器上线后，系统同步下发路由及RoCE无损配置，确保端网参数一致，彻底规避传统方案中的“规划脱节”问题。此外，部署过程全程可视化，拓扑图实时展示待下发配置与执行结果，失败原因清晰可见，并支持快速调整与复核，显著降低错误率。该模式支持参数网与存储网一键自动化部署，最大限度减少人工干预，提升开局效率，助力智算网络高效稳定运行。

图1 用户意图建网

2）连线异常排查：从“数日人工”到“分钟级智能”

在超大规模集群中，数万条物理连线极易出现交换机端口接错、服务器网卡与GPU绑定错误、网段冲突等问题。由于布线复杂度极高，实际部署中常需反复调试，而依赖人工排查的方式通常耗时长达数日，效率低下且难以保证完全覆盖。

AIDC智算版采用端网一体拓扑可视技术，完整呈现网络设备互联架构、计算节点连接关系、以及服务器内GPU与网卡的全链路拓扑。系统可从整网、设备、服务器三个维度自动检测连线异常，并在发现问题时实时告警，将原本耗时数天的排查压缩至分钟级，节省90%以上人力成本。

该方案的整网、设备、服务器等多维度可视化功能让组网状态、连接关系以及故障位置清晰直观，配合智能检测算法，实现从“事后排查”到“实时预警”的转变，有效保障AI训练、大数据分析等业务的高可靠运行。

图2 连线异常排查

3）多租户隔离：安全与资源调度双保障

在智算中心的日常运营中，通常需要将计算集群划分为多个虚拟资源池，以便同时服务于不同行业和地区的用户。这一需求对网络架构提出了明确要求：必须确保各租户间的数据隔离与性能独立性。为此，AIDC智算版采用VLAN结合ACL的技术方案，实现对租户网段的精细规划与管理。该方案不仅有效保障了参数网与样本网之间的租户隔离，同时也维持了样本网与存储服务之间的正常通信。通过网络层面的有效隔离，该方案有效避免了多租户环境下数据泄露与性能干扰。

2.2 健壮可持续 – Sustainable

在AI算力需求爆发式增长的今天，如何确保基础设施的稳定性和可持续性成为关键挑战。新华三通过全生命周期的可靠性管理，通过训前对集群软硬件、端+网环境配置及性能进行巡检和健康评估的巡检，训中高精度流量监控及故障快速识别，及训后故障溯源及根因定界、作业维度端到端全过程诊断，构建了一套完整的健壮性保障体系，确保超大规模集群的资源调度和通信效率达到最优。

在训练启动前，我们通过对算力、网络、存储等核心性能指标进行极限压测，确保超大规模集群的资源调度和通信效率达到最优，通过全方位的预检机制为超大规模集群保驾护航。系统会对驱动版本兼容性、节点间连通性、网络流量基准、集合通信库性能等关键环节进行深度验证，特别针对光模块异常、接口闪断等隐蔽性故障进行专项检测。确保通信效率达到最优状态，为后续的大规模训练任务构建高可靠的运行环境。

在训练过程中，我们对GPU利用率、网络流量等关键指标进行动态跟踪毫秒级实时监控，实现异常状态的秒级发现。当系统检测到链路拥塞或硬件亚健康状态时，会立即触发智能调度算法，通过NFLB（NetworkForwarding LoadBalance）技术自动优化数据传输路径，确保训练任务持续稳定运行。这套系统不仅能有效预防潜在故障，还能在问题发生时实现快速自愈，大幅提升整体训练可靠性。

图3 卡间流量监控

训练完成后，我们基于全网FET均值分布评估传输性能，精准定位训练异常时段，解决慢节点问题，通过作业级故障诊断工具，整合端网训练作业日志与全流程数据进行多维度综合深入分析，快速发现系统的潜在瓶颈和调优点。例如，针对跨数据中心协同训练中的网络丢包问题，基于专家经验复盘训练异常，提供智能化诊断决策建议，提升训练过程的可靠性。未来，我们将持续推动算力与网络的深度融合，通过开放标准和全局智能调度，打造更高效、更稳定的AI基础设施，为行业智能化升级提供坚实支撑。

2.3 极致高性能 – Performance

随着AI大模型训练规模的持续扩大，网络流量呈现出高带宽、低熵值、强周期性的特点，传统基于ECMP的负载均衡机制因缺乏全局视角，易导致链路拥塞与资源利用率不均，严重制约算力效率。为破解这一难题，新华三创新提出基于全局视角调度的路径导航技术。

路径导航技术通过多轮迭代收集流量信息，智能规划最佳业务路径，并将选路策略下发至交换机，从而实现网络流量的均衡分布，减少拥堵，显著提升任务处理效率，加速AI大模型的训练进程。该方案天然与端侧解耦，能够兼容任意GPU和网卡，实现最优效果。在32卡的调优性能测试中，路径导航相比传统ECMP在All ReduceRing基准测试Bus Bandwidth提升了49.8%。

图4 路径导航技术

路径导航技术拥有以下两个核心技术。

（1）流量时间片建模技术

流量时间片建模技术基于时间维度分析流量行为，构建模型精准量化时间片特征，智能解析流量的串/并行关系。

◆流量时间维度信息

通过交换机收集链路上现有流量的传输时间片规律（如flow1、flow2的占用时段）。

◆链路空闲窗口识别

通过对流量时间片信息建模，获取链路在时间轴上的空闲窗口idle （如flow1与flow2传输间隙的空闲时段）。

◆识别串/并行关系

将空闲窗口idle与待选路流量的时间片δ相匹配。

串行关系：idle >δ表示待选路流量能负载到链路上的空闲窗口，与该链路上已选路的流量为串行关系。

并行关系：idle <δ表示待选路流量不能负载到链路上的空闲窗口，与该链路上已选路的流量为并行关系。

图5 流量时间片建模技术

（2）基于链路权重的选路算法

路径导航通过基于链路权重的选路算法为业务流量进行规划，根据流量时间片建模技术识别的串/并行关系，将流量均衡分配到所有可用链路上，避免单链路拥塞并最大化带宽利用率。

图6 基于链路权重的选路算法并行流选路

冲突的并行流，路径导航将流分布到不同路径，选择权重较低的链路。选路后，链路权重累加。

◆串行流选路

不冲突的串行流，路径导航可以分配同一路径。选路后，链路权重不累加。

3 建设实践：为某行业巨头构建万卡级绿色智算中心

某行业巨头在构建万卡级绿色智算中心过程中，面临着海量设备配置、光模块故障频发、训练作业中断、日志分析低效等严峻挑战。新华三凭借业界领先的智能化运维能力，成功助力该企业打造高效稳定的超大规模AI训练平台。

◆弹性扩展架构

新华三为万卡级智算中心提供了卓越的弹性扩展能力。其创新的模块化设计支持：标准组网场景下通过图形化向导实现一键快速开局，非标组网场景则提供灵活的模板定制功能，完美适配不同规模集群的快速部署需求。端网协同配置技术实现分钟级资源同步下发，确保新增计算节点即插即用。在多租户管理方面，采用VLAN+ACL双重隔离机制，配合服务器一键纳管功能，实现分钟级资源分配，网络配置效率提升高达90%。更值得一提的是，基于全局的负载均衡路径导航技术，为弹性扩展的架构提供了坚实的网络基础，可实现网络流量的均衡分布，加速AI大模型训练进程。

◆不间断训练保障

新华三构建了完整的全生命周期训练保障体系，与作业调度系统深度协同，每日自动执行20+次智能集群巡检，将MTTI（平均故障发现时间）从60分钟缩短至20分钟，效率提升67%。全域日志平台可实时采集并分析计算、存储、网络设备日志，使MTTK（平均故障诊断时间）从4小时锐减至1小时，问题处理效率提升62.5%。针对4万余个光模块的管理难题，建立智能运维体系，通过实时监测关键参数并结合专家知识库分析，将MTTF（平均故障修复时间）从3小时大幅压缩至5分钟，实现漏检率为零的成果。这些创新功能形成了从预防、检测到恢复的完整闭环，确保大规模训练任务持续稳定运行，节省了大量的运维人力成本。

◆高性能基座优化

新华三打造了行业领先的高性能智能底座。其自动化部署方案可精准管理44万+配置项，实现100%的配置准确率，彻底消除人工操作风险。支持基于全局的负载均衡路径导航技术，支持训练前的网络性能预验证，并通过可视化界面实时展示全网流量状态，完美支撑千卡级训练的高带宽需求。基于这些高性能底座优化，推动万卡集群的算力输出效率逼近理论峰值，为AI大模型训练提供了"自动驾驶级"的高性能基础支撑。

4 未来展望：迈向自驱、自愈、自优的智算网络

随着AI模型规模的指数级增长，智算网络正从基础支撑设施向智能赋能平台演进。新华三未来网络将围绕Scalable、Sustainable、Performance三大核心维度，实现从“人工干预”到“自主智能”的范式跃迁。

在弹性可扩展（Scalable）维度，实现从自动化部署到自主驱动的跨越。AI通过实时分析业务需求与资源状态，自动规划最优拓扑并动态调整规模。例如，面对突发流量，系统能自主触发边缘节点扩容或云资源调配，无需人工干预，AI即可驱动网络架构的弹性伸缩，实现从“被动响应”到“主动调整”的跨越，彻底打破传统扩容的滞后性与资源浪费。

在健壮可持续（Sustainable）维度，构建全生命周期的自治闭环。通过实时采集网络拓扑、集合通信日志、设备告警等多元数据，依托AI进行深度分析，实现故障的“预测-诊断-修复”全流程自动化。系统不仅能提前预警GPU过热、光模块衰减等潜在风险，还能在训练中断时快速定位根因（如拥塞链路或异常进程），并动态执行最优恢复策略，例如自动隔离故障节点、切换备份路径等，智算中心将实现从“人工救火”到“无人值守”的跨越。

在极致高性能（Performance）维度，负载均衡技术向端侧逐包演进，从数据源头重塑分布式训练范式。通过构建端到端的细粒度负载均衡体系，有效消除计算资源分配不均和通信延迟问题，从根本上破解分布式训练中的“长尾效应”瓶颈。这一技术突破为AI算力基础设施带来了革命性的性能优化路径，大幅提升整体训练效率。