QYJS    前沿技术
前沿技术
智算网络新范式:构建可扩展、可持续、高性能的AI基础设施
文 | 新华三集团网络产品线智维产品线 王汉

摘要

随着大模型参数规模突破万亿级,AI算力集群正从千卡向万卡规模演进,网络通信效率低下、系统扩展性不足、运行可靠性差及资源利用率不均,已成为制约超大规模AI训练的主要障碍,其中网络通信等待最高可消耗超过90%的训练时间。本文系统论证了网络已从基础连接工具跃升为决定AI训练成败的核心基础设施,并提出了以可扩展(Scalable)、可持续(Sustainable)、高性能(Performance)为核心特征的智算网络新范式,深入解构了实现这三大维度的关键技术。结合某万卡级绿色智算中心的实战案例,验证了该范式在提升部署效率、保障训练连续性和逼近算力峰值等方面的显著成效,并展望智算网络向自驱、自愈、自优的自主智能的演进方向,旨在为构建下一代AI基础设施提供清晰的架构蓝图。

关键词

智算网络;超大规模集群;端网协同;路径导航;网络自治

1 智算网络的效率、规模与可靠性成为高效训练的关键支点

随着AI算力需求的爆发式增长,智算中心的规模正以前所未有的速度扩张。从千卡集群到万卡互联,算力基础设施的复杂度呈指数级上升,传统的运维模式正面临严峻挑战。

在AI发展的早期阶段,性能提升主要依赖于“暴力计算”模式,即通过简单堆叠GPU数量来驱动模型能力进步。训练规模多在数十至数百张GPU之间,网络仅作为基础连接工具,采用传统的TCP/IP协议与10G/25G带宽便能满足需求。然而,当大模型参数量从千亿级迅猛突破至万亿级,单机算力触及物理天花板,分布式训练集群规模随之从千卡级向万卡级跃进,单纯堆砌算力的模式遭遇了根本性瓶颈。通信效率、系统扩展性、运行可靠性与资源利用率四大核心痛点骤然凸显。研究表明,千亿参数模型的训练过程中,网络流量普遍具有高带宽、低熵值、强周期性的特征。传统网络协议与架构难以适应这一需求,容易引发链路拥塞和资源利用不均,导致超过90%的训练时间耗费在网络通信等待上,成为制约训练效率的主要瓶颈。更严重的是,一旦因网络问题造成训练中断,便可能带来高达数百万美元的资源浪费。这标志着,AI的发展范式已到了必须变革的关键节点。

解决上述挑战的关键在于网络技术的突破性创新:传统TCP/IP协议栈难以满足低延迟、高吞吐需求,而RDMA(远程直接内存访问)、智能流量调度等技术能大幅降低通信开销;同时,单机算力终有上限,网络使算力得以无限扩展——超大规模智算中心需支持数千乃至数万张GPU的协同训练,该需求要求网络具备极强扩展性,400G/800G以太网、无损网络架构(如CLOS拓扑)及多租户隔离技术可确保算力资源按需弹性分配。值得注意的是,可靠性同样至关重要,一次训练中断可能造成数百万损失,现代智算网络必须集成故障预测和快速自愈能力以保障稳定运行。

在这一背景下,网络已从单纯连接工具跃升为决定AI训练成败的核心基础设施。只有构建高效、可扩展、高可靠的网络底座,才能真正释放智能计算的潜力。网络的效率、规模与可靠性成为高效训练的三大关键支点,推动AI从:“蛮力”时代迈向“精巧”时代。

2 核心技术基石:Network for AI的三维能力解构

2.1 弹性可扩展 – Scalable

在超大规模集群中,其庞大的规模(万卡集群涉及数千台服务器与网络设备)和计算、存储、网络多域协同的复杂性,使传统人工运维模式面临效率低下、成本高企等挑战。端网协同自动化通过统一管理、智能配置、全域可控的技术架构,成为破解超大规模运维难题的关键。

1)自动化部署:从“月级人工”到“天级智能”

以万卡级规模为例,设备配置项总量可高达41万条,其中服务器相关参数超过3万项。人工操作难以确保配置准确性,由此引发的配置错误与返工现象屡见不鲜。此外,庞大的配置规模使得故障定位过程极为复杂,不仅严重影响部署效率,也造成了人力资源的严重浪费。

AIDC端网协同方案通过自动化上线、一键部署RoCE策略和“用户意图建网”模式,将传统数周甚至数月的部署周期缩短至天级。

◆自动化上线:以Fabric为单位,实现设备自动部署和扩容,支持自动分配IP、自动纳管设备,大幅降低网络配置复杂度,提升部署效率,减少人力投入。

◆一键部署RoCE策略:以Fabric为单位,批量在设备上自动下发RoCE无损配置,确保高性能网络环境快速就绪。

◆“用户意图建网”模式:通过可视化界面收集用户需求,自动规划拓扑并生成端侧服务器配置模板。在Leaf设备上自动下发VLAN和网关IP配置,服务器上线后,系统同步下发路由及RoCE无损配置,确保端网参数一致,彻底规避传统方案中的“规划脱节”问题。此外,部署过程全程可视化,拓扑图实时展示待下发配置与执行结果,失败原因清晰可见,并支持快速调整与复核,显著降低错误率。该模式支持参数网与存储网一键自动化部署,最大限度减少人工干预,提升开局效率,助力智算网络高效稳定运行。

图1 用户意图建网

2) 连线异常排查:从“数日人工”到“分钟级智能”

在超大规模集群中,数万条物理连线极易出现交换机端口接错、服务器网卡与GPU绑定错误、网段冲突等问题。由于布线复杂度极高,实际部署中常需反复调试,而依赖人工排查的方式通常耗时长达数日,效率低下且难以保证完全覆盖。

AIDC智算版采用端网一体拓扑可视技术,完整呈现网络设备互联架构、计算节点连接关系、以及服务器内GPU与网卡的全链路拓扑。系统可从整网、设备、服务器三个维度自动检测连线异常,并在发现问题时实时告警,将原本耗时数天的排查压缩至分钟级,节省90%以上人力成本。

该方案的整网、设备、服务器等多维度可视化功能让组网状态、连接关系以及故障位置清晰直观,配合智能检测算法,实现从“事后排查”到“实时预警”的转变,有效保障AI训练、大数据分析等业务的高可靠运行。

图2 连线异常排查

3) 多租户隔离:安全与资源调度双保障

在智算中心的日常运营中,通常需要将计算集群划分为多个虚拟资源池,以便同时服务于不同行业和地区的用户。这一需求对网络架构提出了明确要求:必须确保各租户间的数据隔离与性能独立性。为此,AIDC智算版采用VLAN结合ACL的技术方案,实现对租户网段的精细规划与管理。该方案不仅有效保障了参数网与样本网之间的租户隔离,同时也维持了样本网与存储服务之间的正常通信。通过网络层面的有效隔离,该方案有效避免了多租户环境下数据泄露与性能干扰。

2.2 健壮可持续 – Sustainable

在AI算力需求爆发式增长的今天,如何确保基础设施的稳定性和可持续性成为关键挑战。新华三通过全生命周期的可靠性管理,通过训前对集群软硬件、端+网环境配置及性能进行巡检和健康评估的巡检,训中高精度流量监控及故障快速识别,及训后故障溯源及根因定界、作业维度端到端全过程诊断,构建了一套完整的健壮性保障体系,确保超大规模集群的资源调度和通信效率达到最优。

在训练启动前,我们通过对算力、网络、存储等核心性能指标进行极限压测,确保超大规模集群的资源调度和通信效率达到最优,通过全方位的预检机制为超大规模集群保驾护航。系统会对驱动版本兼容性、节点间连通性、网络流量基准、集合通信库性能等关键环节进行深度验证,特别针对光模块异常、接口闪断等隐蔽性故障进行专项检测。确保通信效率达到最优状态,为后续的大规模训练任务构建高可靠的运行环境。

在训练过程中,我们对GPU利用率、网络流量等关键指标进行动态跟踪毫秒级实时监控,实现异常状态的秒级发现。当系统检测到链路拥塞或硬件亚健康状态时,会立即触发智能调度算法,通过NFLB(NetworkForwarding LoadBalance)技术自动优化数据传输路径,确保训练任务持续稳定运行。这套系统不仅能有效预防潜在故障,还能在问题发生时实现快速自愈,大幅提升整体训练可靠性。

图3 卡间流量监控

训练完成后,我们基于全网FET均值分布评估传输性能,精准定位训练异常时段,解决慢节点问题,通过作业级故障诊断工具,整合端网训练作业日志与全流程数据进行多维度综合深入分析,快速发现系统的潜在瓶颈和调优点。例如,针对跨数据中心协同训练中的网络丢包问题,基于专家经验复盘训练异常,提供智能化诊断决策建议,提升训练过程的可靠性。未来,我们将持续推动算力与网络的深度融合,通过开放标准和全局智能调度,打造更高效、更稳定的AI基础设施,为行业智能化升级提供坚实支撑。

2.3 极致高性能 – Performance

随着AI大模型训练规模的持续扩大,网络流量呈现出高带宽、低熵值、强周期性的特点,传统基于ECMP的负载均衡机制因缺乏全局视角,易导致链路拥塞与资源利用率不均,严重制约算力效率。为破解这一难题,新华三创新提出基于全局视角调度的路径导航技术。

路径导航技术通过多轮迭代收集流量信息,智能规划最佳业务路径,并将选路策略下发至交换机,从而实现网络流量的均衡分布,减少拥堵,显著提升任务处理效率,加速AI大模型的训练进程。该方案天然与端侧解耦,能够兼容任意GPU和网卡,实现最优效果。在32卡的调优性能测试中,路径导航相比传统ECMP在All ReduceRing基准测试Bus Bandwidth提升了49.8%。

图4 路径导航技术

路径导航技术拥有以下两个核心技术。

(1) 流量时间片建模技术

流量时间片建模技术基于时间维度分析流量行为,构建模型精准量化时间片特征,智能解析流量的串/并行关系。

◆流量时间维度信息

通过交换机收集链路上现有流量的传输时间片规律(如flow1、flow2的占用时段)。

◆链路空闲窗口识别

通过对流量时间片信息建模,获取链路在时间轴上的空闲窗口idle (如flow1与flow2传输间隙的空闲时段)。

◆识别串/并行关系

将空闲窗口idle与待选路流量的时间片δ相匹配。

串行关系:idle >δ表示待选路流量能负载到链路上的空闲窗口,与该链路上已选路的流量为串行关系。

并行关系:idle <δ表示待选路流量不能负载到链路上的空闲窗口,与该链路上已选路的流量为并行关系。

图5 流量时间片建模技术

(2)基于链路权重的选路算法

路径导航通过基于链路权重的选路算法为业务流量进行规划,根据流量时间片建模技术识别的串/并行关系,将流量均衡分配到所有可用链路上,避免单链路拥塞并最大化带宽利用率。

图6 基于链路权重的选路算法并行流选路

冲突的并行流,路径导航将流分布到不同路径,选择权重较低的链路。选路后,链路权重累加。

◆串行流选路

不冲突的串行流,路径导航可以分配同一路径。选路后,链路权重不累加。

3 建设实践:为某行业巨头构建万卡级绿色智算中心

某行业巨头在构建万卡级绿色智算中心过程中,面临着海量设备配置、光模块故障频发、训练作业中断、日志分析低效等严峻挑战。新华三凭借业界领先的智能化运维能力,成功助力该企业打造高效稳定的超大规模AI训练平台。

◆弹性扩展架构

新华三为万卡级智算中心提供了卓越的弹性扩展能力。其创新的模块化设计支持:标准组网场景下通过图形化向导实现一键快速开局,非标组网场景则提供灵活的模板定制功能,完美适配不同规模集群的快速部署需求。端网协同配置技术实现分钟级资源同步下发,确保新增计算节点即插即用。在多租户管理方面,采用VLAN+ACL双重隔离机制,配合服务器一键纳管功能,实现分钟级资源分配,网络配置效率提升高达90%。更值得一提的是,基于全局的负载均衡路径导航技术,为弹性扩展的架构提供了坚实的网络基础,可实现网络流量的均衡分布,加速AI大模型训练进程。

◆不间断训练保障

新华三构建了完整的全生命周期训练保障体系,与作业调度系统深度协同,每日自动执行20+次智能集群巡检,将MTTI(平均故障发现时间)从60分钟缩短至20分钟,效率提升67%。全域日志平台可实时采集并分析计算、存储、网络设备日志,使MTTK(平均故障诊断时间)从4小时锐减至1小时,问题处理效率提升62.5%。针对4万余个光模块的管理难题,建立智能运维体系,通过实时监测关键参数并结合专家知识库分析,将MTTF(平均故障修复时间)从3小时大幅压缩至5分钟,实现漏检率为零的成果。这些创新功能形成了从预防、检测到恢复的完整闭环,确保大规模训练任务持续稳定运行,节省了大量的运维人力成本。

◆高性能基座优化

新华三打造了行业领先的高性能智能底座。其自动化部署方案可精准管理44万+配置项,实现100%的配置准确率,彻底消除人工操作风险。支持基于全局的负载均衡路径导航技术,支持训练前的网络性能预验证,并通过可视化界面实时展示全网流量状态,完美支撑千卡级训练的高带宽需求。基于这些高性能底座优化,推动万卡集群的算力输出效率逼近理论峰值,为AI大模型训练提供了"自动驾驶级"的高性能基础支撑。

4 未来展望:迈向自驱、自愈、自优的智算网络

随着AI模型规模的指数级增长,智算网络正从基础支撑设施向智能赋能平台演进。新华三未来网络将围绕Scalable、Sustainable、Performance三大核心维度,实现从“人工干预”到“自主智能”的范式跃迁。

在弹性可扩展(Scalable)维度,实现从自动化部署到自主驱动的跨越。AI通过实时分析业务需求与资源状态,自动规划最优拓扑并动态调整规模。例如,面对突发流量,系统能自主触发边缘节点扩容或云资源调配,无需人工干预,AI即可驱动网络架构的弹性伸缩,实现从“被动响应”到“主动调整”的跨越,彻底打破传统扩容的滞后性与资源浪费。

在健壮可持续(Sustainable)维度,构建全生命周期的自治闭环。通过实时采集网络拓扑、集合通信日志、设备告警等多元数据,依托AI进行深度分析,实现故障的“预测-诊断-修复”全流程自动化。系统不仅能提前预警GPU过热、光模块衰减等潜在风险,还能在训练中断时快速定位根因(如拥塞链路或异常进程),并动态执行最优恢复策略,例如自动隔离故障节点、切换备份路径等,智算中心将实现从“人工救火”到“无人值守”的跨越。

在极致高性能(Performance)维度,负载均衡技术向端侧逐包演进,从数据源头重塑分布式训练范式。通过构建端到端的细粒度负载均衡体系,有效消除计算资源分配不均和通信延迟问题,从根本上破解分布式训练中的“长尾效应”瓶颈。这一技术突破为AI算力基础设施带来了革命性的性能优化路径,大幅提升整体训练效率。

关闭