
摘要
随着AI技术的快速发展,基于Scale-up、Scale-out的算力扩展方式已经难以满足Scaling-law带来的需求。2025年下半年,业界正式提出Scale-Across(跨域扩展)理念及相关方案,将不同区域部署的算力资源协同利用以满足更大规模的AI训练、推理需求。本文旨在通过对Scale-Across业务需求进行初步分析,梳理现有Scale-Across方案构成及技术方案,提炼出Scale-Across方案需具备的技术与方案特征,为技术人员更好理解该技术领域的现状与发展提供支撑、帮助。
关键词
AI;Scale-Across
引言
当前AI发展以万亿级参数的LLMs为核心,推动算力需求快速增长,AI模型的训练算力需求约5个月就翻一番。AI算力已成为全球大国科技竞争的重要领域,然而传统AI集群架构发展面临挑战,影响AI竞争力的持续提高。
一方面,规模定律(Scaling-law)持续发挥作用,大模型本身的能力与使用效果与算力资源息息相关,推动着智算中心建设。另一方面,随着算力规模激增,智算中心建设因能源、土地的限制逐步受限而影响发展。例如,全球顶级的AI超级计算机(如xAI的Colossus集群)其峰值功耗已超100兆瓦,对区域供电能力提出挑战,并带来更高的环境压力。
为克服上述瓶颈,并兼顾能源供给能力现状,AI基础设施的扩展必须超越本地局限,寻求将分散资源连接为统一逻辑平面的创新架构。因此,业界提出了Scale-Across这一新的算力扩展方式,通过该方式实现多智算中心算力资源协同,打造百万卡规模的AI超级工厂。
1 算力资源传统扩展方式及局限性
当前算力资源的扩展策略源于IT资源扩展的两大基本方法:Scale-up(设备扩展内部资源)和Scale-out(利用设备扩大规模)。这两种方法都能够解决因资源(如计算能力、内存容量或网络带宽)不足而无法满足特定工作负载需求的问题。
Scale-up的目标是增强现有处理单元的能力,在实践中是首选方案。在AI领域,Scale-up聚焦于计算节点内部,通过NVLink等技术实现GPU对HBM等的共享访问,最大化单节点算力,并维持管理和维护一致性。
Scale-out则基于分布式计算理论,通过增加节点,将工作负载通过并行处理或任务调度方式分配到网络的各资源节点上。这种方法提供了理论上无限的扩展能力,适用于需要处理大规模并行任务和高并发请求的场景。
在AI基础设施中,无论Scale-up还是Scale-out,其设计都聚焦于本地数据中心的资源优化。当多数据中心算力互联时,Scale-up仅限于提升单点算力密度,无法直接解决跨地域扩展问题;而Scale-out虽然可以连接海量资源,但受限于跨地域网络的物理延迟,难以支撑高频同步的TP训练,通常需转向PP或推理分发等对延迟容忍度更高的架构设计。因此,两者都无法直接破解AI发展过程中规模定律与资源约束之间的矛盾。
2 Scale-Across:业界破解算力发展挑战的尝试

图1 NVIDIA:AI所需的三种网络类型是
纵向扩展、横向扩展和跨域扩展
当前算力资源的扩展策略源于IT资源扩展的两大基本方法:Scale-up(设备扩展内部资源)和Scale-out(利用设备扩大规模)。这两种方法都能够解决因资源(如计算能力、内存容量或网络带宽)不足而无法满足特定工作负载需求的问题。
“跨域扩展是一种全新的AI计算架构连接方式,可以将其视为一个全新的维度,与现有的Scale-up、Scale-out截然不同。借助跨域扩展网络技术,可以将规模和距离各异的多个数据中心整合为一个大型AI工厂。”—NVIDIA《How to Connect Distributed Data Centers Into Large AI Factories with Scale-Across Networking》。
“数据中心网络为了满足AI工作负载的需求,一直在两个维度上进行扩展:Scale-up(连接机架内的GPU)和Scale-out(连接数据中心内的机架)。如今,第三个维度对于释放AI的全新潜能至关重要:“跨域扩展”(Scale-Across)将AI工作负载扩展到多个数据中心,并使它们作为一个统一的集群运行。”—Cisco《The third dimension of AI networking has arrived》。
AI训练及推理过程中需要通信网络兼具超高带宽、超低时延及确定性能力,保障训推过程稳定、可持续。传统广域网、DCI网络因跨区域互联而容易出现网络时延较高、网络抖动不可控、QoS部署复杂度高等情况,难以保障AI训推过程顺利完成。为了在跨域智算中心之间实现Scale-Across,目前业界提供了两种不同思路的技术方案。
2.1 实现方式1:基于“全家桶”实现Scale-Across跨域扩展
“全家桶”方案是通过已有的Scale-out以太网交换机和高性能网络卡的硬件组合,在算法层面针对跨域场景进行专门优化和提升实现。该方案的核心思路是基于端网协同和软硬件协同机制,利用算法根据智算中心间的物理距离动态调整网络配置,高效协同跨域智算中心之间算力资源。首批客户实际部署该方案实现了超500米的远距离连接,随着软硬件和算法的持续迭代优化,预计未来连接距离能够延伸到更远。
方案包括以下主要能力。
◆自适应长距离拥塞控制算法
该算法是“全家桶”方案实现的核心,根据智算中心间物理距离动态优化网络传输,并解决拥塞问题。包括:1)分析实时遥测数据,包括距离、流量模式、拥塞程度和性能指标等,动态调整拥塞控制、路由和负载均衡策略。2)考虑和补偿可能因站点而异的网络流量,通过结合通信库,对算法与参数进行动态调整,以确保最高性能。3)细粒度自适应路由和逐包调整,避免传统网络中常见的丢包或大缓存带来的时延不确定问题,确保长距离运行AI负载时网络和GPU保持同步。
◆时间同步与毫秒级延迟管理
时间同步技术及毫秒级故障恢复机制确保方案实现低时延。包括:1)硬件级时钟同步技术(如PTP)可确保分布式数据中心之间精确的时间协调,从而减少传输抖动。确保在AI训练中所有GPU节点之间保持严格的时间一致性。2)通过BGP协议优化和快速重路由技术,实现毫秒级链路故障恢复。
◆端到端遥测技术支持网络确定性
方案通过端到端遥测实时监控网络链路状态、拥塞程度和性能,确保跨多数据中心网络性能可预测。这些端到端遥测数据经过网卡工具平台处理,用于网络实现动态路由优化和负载均衡决策,确保端到端网络抖动水平维持在极窄区间内(确保了时延稳定在17-18ms,2025hot chips)。网络在性能可预测情况下,能够灵活处理长距离传输的数据流,并避免传统DCI网络设备因大缓存带来的时延不确定性。
◆引入CPO技术实现跨域互联
方案中交换机转发芯片采用CPO(Co-packaged Optics/光元器件与芯片共同封装),通过光纤实现数百米至数十公里数据传输。该芯片应用了定制激光器、MRM微环调制器、COUPE(Compact Universal Photonic Engine)平台等光及芯片领域新技术。交换机使用CPO后,每端口功耗降至9W,有效减少能源消耗;信号路径有效缩短提高了信号完整性;分立器件及连接点减少提升了可靠性。
2.2 实现方式2:以“网络自主”实现Scale-Across跨域扩展
“网络自主”方案认为要实现Scale-Across,需要应对来自业务与技术的双重挑战。业务挑战包括:1)智算中心规模增长引发电力供应紧张;2)传统DCI服务于ToC/ToB业务,而非ToAI业务;3)AI数据在跨越地理边界时需确保安全性与合规性;4)大型客户倾向开放网络并避免锁定单一供应商。
在技术方面,RDMA更多面向局域网应用,面向Scale-Across场景中需克服更多挑战,包括:1)AI业务依赖网络同时提供大带宽、低时延及确定性;2)AI业务带来微突发并导致网络性能下降、效率降低;3)跨域路由复杂、难以预测导致网络策略失效或未达预期。
与前述“全家桶”方案不同,“网络自主”方案完全基于网络设备实现。面向上述两类挑战,“网络自主”方案提出通过单一的融合型产品来满足Scale-Across业务场景。该融合型产品结合了交换机大带宽、高端口密度、高转发效率的特点以及路由器可编程、可扩展、大缓存、高安全的特点。该方案正在联合国际知名云服务公司开展试点验证。
该方案的主要应用技术如下。
◆多端口共享深度缓存能力
该方案认为在Scale-out场景中,是由于负载均衡及拥塞控制算法不佳导致了端口缓存易被填满,使得网络时延增大和出现抖动从而影响业务,但这些问题与缓存本身大小无关。而在Scale-Across场景中,大缓存反而能够吸收AI训练过程中的大量微突发、确保性能稳定以及避免重新训练,通过降低不必要的数据包传输并结合拥塞控制算法能够为AI训练跨域扩展来更高的可靠性、稳定性。因此融合型设备也为所有端口提供了共用的数据包大缓冲区。
◆提供综合性安全能力保障AI安全
该方案认为Scale-Across场景基于跨域实现,而广域网存在较高的安全风险,因此需要融合型设备提供多种安全功能保障AI安全能力。包括:1)支持MACsec、IPsec、ClearTag和CloudSec等加密技术;2)内置集成式、防篡改的信任根为系统完整性建立安全基础;3)提供需身份验证的数据平面软件和配置;4)通过内置硬件分析器提供纳秒级数据追溯能力。
◆支持部署多种操作系统及P4可编程
方案认为客户需要开放性,不能被单厂家方案绑定。因此融合型产品需要支持如SONiC等多种网络操作系统,用于满足各类用户对设备的使用需求。设备使用的转发芯片需支持可编程能力(如P4),一方面面向开发者和使用者提供SDK以满足产品开放能力的需求,另一方面有助于通过在网计算能力面向训练、推理数据进行处理。
3 Scale-Across业务需求及潜在技术要求
通过梳理“全家桶”和“网络自主”两类Scale-Across方案,可以看到方案实现技术虽然差异明显,但殊途同归。基于Scale-Across业务特征,该类场景可以定义为:为突破能源与物理限制,需要将多个跨域AI集群抽象为具有一致性、确定性的逻辑AI集群,以满足AI训练、推理业务平滑扩展需求。
针对业务场景定义,Scale-Across方案需要具备如下能力。
◆局域、广域协同能力:突破因能源供给、地理及空间因素导致的AI集群规模扩展限制,实现多个AI集群间的紧密协作。
◆资源抽象与整合能力:具备将多个AI集群抽象为一个统一的逻辑AI集群的能力,面向业务屏蔽掉底层差异。
◆资源协同一致性能力:实现多个AI集群的资源之间无缝协同和状态逻辑一致,让业务感知不到资源切换与调整过程。
◆确定性资源供需保障:通过统一的逻辑AI集群能够为业务提供稳定可预期的资源供需保障。
◆支持实现统一运营运维:需要各类资源具备一定开放可编程能力,支持实现统一运营运维。
Scale-Across方案的目标是将分散的AI集群资源整合成如同本地般高效可用的统一平台,既突破物理限制,又提升资源利用率与管理效率,为AI的持续发展提供坚实基础。同时,Scale-Across方案承载的AI业务的流量特征也存在明显差异。
◆AI训练流量特征是数据量巨大、持续时间长的高带宽流量(如梯度同步)。承载网络的挑战是避免拥塞与丢包,需要网络支持RDMA并提供高带宽、无损传输、低时延与零丢包。
◆AI推理随着PD分离架构引入了Prefill/Decode节点间的KVCache传输,流量呈现出高带宽、低时延、突发多、并发多的特点。承载网络挑战是网络必须同时提供超低端到端时延及高带宽,保障低时延与实时性。
综合业务场景特点与承载网络需求中,Scale-Across方案可能涉及应用到如下领域技术。
1)物理层与承载领域技术:提供高带宽、低延迟、高可靠联接。
◆CPO技术:采用CPO解决超高带宽下功耗和端口密度的限制。通过集成设计能有效解决设备散热、维护和可靠性挑战。未来需具备与OCS/OXC协同部署能力。
◆时钟同步能力:支持部署IEEE1588、PTP等时钟技术,利用GPS/北斗确保Scale-Across设备间达到统一时间基准。时钟同步技术是实现跨域逻辑一致性和确保传输时序的关键能力。
◆以太网协议优化/新链路层协议:面对广域确定性挑战,以太网需要引入如:LLR/链路层重传、CBFC/基于信用度流控、与各类通信库进行协同等新技术、新能力,解决较长时延下的拥塞控制和RDMA承载问题。最大程度兼容已有以太网标准。
◆空芯光纤(HCF)技术(可选):利用其空气导波特性,实现极致的物理低时延传输。该技术用于减少长距离互联时延,是提升物理传输速度的有效手段。
2)确定性流量保障:确保AI关键业务流可预知、可确定。
◆确定性转发能力:通过时钟同步和无阻塞数据交换机制,消除硬件拥塞和抖动。基于对沿路节点的确定时延建模,承诺延迟上限和极窄抖动,为跨域AI任务提供可靠的确定性传输承诺,保障时序可预知性。
◆确定性部署与控制实现:通过采用源路由、Segment Routing实现路径按需调度。应用时隙调度技术(类TSN)对AI流量进行周期性分配和流量整形。结合遥测驱动的流量工程(TTE),实现主动式拥塞规避,确保消除传输抖动并保障时序可预知性。
◆大容量、多队列共享缓存管理能力:设备实现大容量、多队列缓存,同时支持全局调度和显式资源预留吸收微突发流量。利用AI或算法能力,对业务流的缓存空间进行显式隔离和专用预留。确保关键AI流量在任何负载下都能获得资源保障,最大限度地降低丢包率。
3)全局感知与智能控制面:建立感知-决策-执行体系,实现全局最优的资源调度。
◆全局协同感知与智能流控技术:利用INT遥测进行分布式感知,建立基于Telemetry的全域采集体系,通过智能控制面实现统一决策。通过可编程能力(如P4 Runtime)在毫秒级内向网络注入动态流控策略,实现操作闭环。
◆数字孪生与可视化运维能力:建立与物理网络同步的数字孪生体,用于策略预验证、拥塞预测和故障模拟,降低智能控制面进行AI调度和实施流控策略的风险,确保决策安全性和准确性。通过可视化能力全面管理、运维承载的业务。
◆高性能分布式计算框架:引入分布式计算框架支持实时流处理,作为智能控制面的技术底座。该框架需具备高吞吐、低时延能力处理海量Telemetry数据,并支撑AI/ML的运行,保障全局协同决策的性能。
◆开放性与可编程能力:设备应具备开放性和可编程能力,芯片支持一定的数据面可编程能力,OS需提供开放API、可定制化接口。通过智能控制面跨设备、OS、芯片部署流控策略,实现闭环策略的高效执行。
4)系统韧性与安全边界技术:保障架构的安全性、可用性和物理层的快速恢复能力。
◆安全与恢复能力:设备需支持可信根、线速MACsec等加密与卸载能力,保障跨域数据可信、安全。通过智能控制面,确保系统在发生故障时,通过状态同步、FRR等可靠性技术实现快速自愈。
◆OCS/OXC技术(可选):引入光层OCS/OXC,实现对POD间、跨域联接拓扑的软件定义、动态配置。OCS/OXC还可用于弥补CPO在光功率和联接距离上的限制,并提供物理层故障隔离。
4 Scale-Across场景发展技术挑战与展望
Scale-Across的发展目标是将单AI集群资源整合为统一的逻辑AI集群,需要通过智能控制面将单AI集群Fabric的确定性能力延伸、跨域。当前的技术挑战主要集中在确定性交付、跨域语义协同和智能控制面的实时性这三大技术领域。
为应对AI集群协同需求以及随之而来的能源、空间挑战,并满足越来越多的AI推理使用需求,Scale-Across方案将持续推动分散的AI集群互联互通。Scale-Across场景与Scale-out场景、Scale-up场景将共同形成AI联接基础设施——AI承载网:一张仅用于AI训练、推理的专用网络,承载、处理AI产生的通信需求。



浙公网安备 33010802004375号