QYJS    前沿技术
前沿技术
AI超节点硬件架构演进趋势
文 | 新华三集团云与计算存储产品线 汪新新

摘要

MoE架构大模型的发展对AI超节点硬件提出了更大规模计算单元、更高显存容量与通信带宽的要求,推动超节点硬件架构从单机加速卡向OAM服务器、整机柜架构迭代,正朝着高密、高性能方向升级,正交背板互联、全液冷散热等技术成为关键,ORW双宽机柜更是突破传统机柜物理极限成为行业主流,国内外厂商均推出相关产品,本文旨在研究适配架构升级的核心技术演进,包括供电、散热、互联方案等系统性的演进方向和技术升级,为构建起支撑下一代万亿参数大模型训练的算力基座提供参考。

关键词

AI 超节点;硬件架构;MoE 架构;ORW 双宽机柜;集中式供电;液冷散热;微通道液冷;光互联;CPO;NPO

随着DeepSeek等大模型的兴起,基于MoE(Mixture of Experts)架构的专家模型对AI硬件基础设施提出了更高要求,包括更大规模的计算单元、显存容量以及通信带宽。从AI芯片到集群级硬件架构的演进路径中,硬件形态已从早期单机搭载8张PCIe加速卡,发展为集成度更高的OAM训练服务器;如今,整机柜超节点架构已成为行业热点,并持续向更高密度、更强性能的方向迭代升级,涵盖正交背板互联、双宽机柜设计、全液冷散热等关键技术。

随着单机柜功率密度逐渐逼近物理极限,新一代光互连技术如CPO(共封装光学)与NPO(近封装光学)有望推动AI超节点架构实现根本性重构。这类技术将支持单层交换网络通过高带宽直接互联256张甚至数千、数万张加速卡,从而实现极低延迟、超高带宽的全局通信。

在这一进程中,硬件架构的演进也驱动着供电、散热与互联方案的系统性升级——从传统风冷到液冷贯穿,从分立供电到集中式智能电源管理,从电互联主导到光电混合乃至全光互联,共同构建起面向下一代万亿参数模型训练的坚实算力基座。

图1 AI硬件架构及关键技术演进

1 架构

超节点是通过近乎无阻塞的高带宽互联,将数百上千个AI处理器池化为一个逻辑统一的高密计算体。大模型按照“规模定律”演进,覆盖预训练,后训练,推理等场景,而超节点是大模型MoE的最好的硬件载体,随着模型参数的不断增加,从超节点的趋势上看,需要在单机柜内部署越来越多的算力,也就是在需要部署下更多的GPU卡。从NVIDIA的产品趋势,在单机柜下从NVL72到NVL144,再到NVL576,单机柜的密度不断增加,互联方式采用正交方案,散热方式也从风液混合散热升级到全液冷散热,硬件的实现不管是散热,供电还是互联的瓶颈和难度也越来越大。

但是当传统的ORV3机柜的技术难度达到极限,在单机柜内设计部署更多的AI卡的需求,业内换了一个思路,为了解决传统机柜在散热密度、供电能力和布线空间等方面遇到的物理极限和瓶颈,把机柜加大——也就是2025 OCP Global Summit发布的ORW(Open Rack Wide)双宽机柜。

国外的AMD率先基于ORW架构发布的Helios产品,基于AMD下一代Instinct MI450系列开发。突破传统机柜的机械限制,GPU卡的尺寸,功耗,散热都得到进一步释放,拥有双倍传统ORV3机柜的空间,AMD Helios单GPU芯片可支持3000W,单GPU芯片尺寸更是高达120mm*150mm,单柜72卡。单柜性能可达1.4 exaFLOPS FP8,2.9 exaFLOPS FP4,HBM4内存总量31TB,总带宽高达1.4PB/s;具有高达 260 TB/s 的纵向扩展互连带宽和 43 TB/s 的基于以太网的横向扩展带宽,有助于确保跨 GPU、节点和机架的无缝通信。与前几代产品相比,“Helios”的性能提升高达17.9倍。

国内阿里云在2025云栖大会也发布了类似的双宽机柜产品,全新一代磐久AI Infra2.0 AL128超节点服务器,机柜左侧是23inch宽度部署GPU计算节点,右侧是19inch宽度部署CPU计算节点,整柜支持128颗GPU芯片,整柜支持高达350kW供电能力,支持单颗GPU芯片2kW的液冷散热能力,采用BusBar柜内集中供电。灵活的模块化、多维解耦系统架构,CPU节点与GPU节点解耦、GPU节点与ALink SW节点解耦、算力节点与供电节点解耦,不仅可以兼容行业主流CPU、GPU、ALink SW芯片,还可以灵活支持主力芯片独立演进、CPU与GPU数量的灵活配比。GPU节点与ALink SW节点采用正交互连架构,实现GPU和ALink SW的112G/224G Serdes高速互联,实现高速链路极致低损耗,还减少了繁杂的cable布线和耦合,提高了系统的可靠性和可运维性。

双宽机柜的下一个发展方向是什么?如果HBD域的GPU卡数量需要进一步增加,那再进一步增大机柜的尺寸么?这会对机柜的设计、运输、运维带来极大的挑战。因此猜测未来的架构会进一步解耦,由电互联转换为光互联,光互联可以摆脱机柜内互联的约束,可以长距离的跨柜互联。

图2 超节点整机柜的演进趋势

2 供电

整机柜供电技术演进的核心脉络是母线电压等级的不断提升。这不仅是技术的迭代,更是为了应对更高功率密度、追求极致效率的必然选择。

1)传统模式 - 分布式12V母线

这是过去几十年的经典模式。服务器内部的电源(PSU)将交流电(AC)转换为12V直流电,通过铜排或线缆分配到主板,再由主板上的VRM(电压调节模块)转换为CPU、内存等所需的低电压(如1V以下)。但是在10kW以上的高功率机柜中,12V母线上数百安培的电流会导致严重的发热和效率下降。需要极粗的铜排和大量的连接器,成本高、占用空间大、可靠性挑战大。

2)机架级优化 - 集中式48V/54V母线

这是当前整机柜供电和开放计算(如OCP)的主流趋势。将高压直流或交流电,在机柜级的Powershelf中统一转换为 48V(或54V)直流电,然后通过Busbar分配到每一个服务器节点。集中式48V/54V母线大幅降低传输损耗,电压提升4倍,在相同功率下,母线电流减少为原来的1/4,线路损耗降低至原来的约1/16,效率提升显著。服务器节点无需内置大型AC/DC PSU,只需一个高效的DC/DC模块(或直接利用主板上的VRM)将48V降至所需电压。这使服务器更小、更简单、成本更低。该方案已成为超大规模数据中心和高端企业数据中心整机柜方案的事实标准。

3)面向未来的探索 - 800V及以上高压母线

AI与GPU集群的极限功率已逐渐超过240KW,集群功耗迈向MW。即使使用54V/48V母线,电流很大,配电依然极具挑战。800V也会有几个发展阶段,第一阶段是800V直接进机柜的Powershelf,通过Powershelf里面的PSU转换为54V/48V,机柜的服务器节点还是54V/48V输入。第二阶段是在机房侧将交流电转换为800V,800V直接进机柜,机柜直接供给服务器节点,服务器节点内部通过电源转换模块将800V转换为54V后再给服务器内各个部件供电。第三阶段是800V直接进机房,无转换直接进机柜然后进计算节点。

当然800V的技术也有很多的挑战,首先是半导体的技术,需要能够承受800V以上电压并高效工作的新型功率器件(如GaN氮化镓、SiC碳化硅)。另外,高压带来的爬电距离、电气间隙和安全标准要求急剧提高,设计更复杂。

目前,48V/54V架构正处于大规模商用成熟期,而800V及以上架构则处于前沿探索和原型验证阶段,主要面向顶级超算和AI集群。这一演进路径充分证明了超节点供电是数据中心技术创新的前沿阵地。

图3 数据中心电源架构的演进

3 散热

1)机房侧:2MW级集中式CDU的逐渐成熟

2MW集中式CDU(Coolant Distribution Unit,冷却液分配单元)是一个额定散热能力高达2兆瓦(2000千瓦)的大型、集中式、工厂预制的液冷核心设备。它相当于将数十个乃至上百个传统机柜级CDU的功能整合、放大并升级,为一个大型机房模块或整个高密度计算池提供统一的冷却液分配、压力控制、流量调节、水质处理和热量导出服务。

可以预见的超节点的未来会达到MW级别,那对应的机房侧的散热系统核心部件,集中式CDU必然顺势升级,Google在OCP发起的open CDU项目《Project Deschutes:Data Center Facilities》,该规范已发布初稿,且多个厂家也在2025 OCP Global Summit发布了2MW的散热系统,甚至有2.5MW的集中式CDU展示,未来集中式CDU也会随着超节点系统水涨船高,散热功耗越来越高。

图4 OCP 2MW CDU和机房液冷管路部署

2)节点侧:全冷板液冷技术的成熟

全冷板液冷技术是一种当前数据中心高密度散热领域的主流且高速发展的核心技术。空间的极致压缩,带来散热空间的极限压缩,散热器需要进一步压缩,风扇的空间也被进一步挤压,需要在节点内对所有的发热部件,包括CPU、GPU、网卡,硬盘,以及单板上的高功耗器件等都采用液冷散热,节点内完全无风扇设计。

图5 NVIDIA Ru bin全液冷计算节点

3)芯片侧:微通道液冷散热技术

MLCP:(Micro-Channel Liquid Cooling Plate,微通道液冷板),为了解决超高功率芯片(例如2000W+)散热问题而设计的革命性散热技术,其通过微米级流道集成化设计,将冷却液与热源近距离接触,极限的减少热阻,最大化的提高换热效果,带走更多的热量。微米级流道设计:主流流道宽度50-100μm(传统冷板流道>1mm),热流密度达800W/cm²。

4 互联

随着超节点的规模逐渐增大,互联方案会从当前的正交方案(PCB方案)和Cable Tray(线缆方案)发展为走光,光互联会进一步释放对单一机柜内互联的要求,可以实现多柜跨轨柜的互联,实现超大规模超节点的硬件落地。但是传统的光模块互联方案,模块尺寸大,散热难,功耗大,可靠性等问题并不适合在超节点领域做大规模部署,新的NPO和CPO技术会是超节点光互联最好的落地方案,但是方案的成熟度还需要进一步验证。

NPO:Near-Packaged Optics,是将光模块中核心的、高功耗的、对热敏感的光电子器件即“光引擎”从可插拔模块外壳中剥离出来,并将其放置在离交换芯片或GPU芯片非常近的PCB板上。剩余的光学接口和机械部分则成为一个简化的、可插拔的远端光学组件。当然NPO也有很多工程上的难题,包括PCB上集成光芯片,以及NPO模块对布局的挑战,对散热的挑战 等等。

CPO:Co-Packaged Optics,将光引擎与交换芯片或计算芯片,通过先进的封装技术集成在同一个硅基板或中介层上,形成一个高度一体化的光电融合芯片。传统方案中,高速SerDes(112Gbps+)的驱动和均衡电路是耗电大户,其功耗随速率和距离呈指数增长。CPO将电信号传输距离从数十厘米缩短到毫米级,可以大幅简化甚至取消SerDes中的复杂均衡电路,预计可降低总互连功耗30%-50%以上,且传统可插拔模块受限于面板面积和散热,端口密度存在物理上限。CPO允许在芯片所有侧面密集排列光纤接口,实现前所未有的I/O带宽密度。CPO不仅仅是一项互联技术,它是一场深刻的“光电融合”范式转移。它将光的速度和带宽直接赋予芯片,是打破现有计算体系瓶颈、释放AI真正潜力的关键钥匙。虽然前路充满工程挑战,但它代表了数据中心和高性能计算无可争议的未来方向。

关闭