《数字化领航》AI技术专刊

前沿技术

超节点架构：智算基础设施的效率革命与技术实现

文 | 新华三集团云与计算存储产品线邵苏明

摘要

针对大模型训练推理面临的通信、算力与内存墙挑战，本文提出超节点架构以重构智算基座，通过Scale-Up高速互联实现纳秒级延迟与内存池化，构建“像一台计算机”的协同计算域。结合高密度液冷硬件、全栈软件调度及主动韧性设计，新华三超节点实现了软硬件全域协同与极简交付。实践表明，该架构显著突破系统效率瓶颈，为万亿参数模型提供高可靠、绿色且自主可控的算力基础设施。

关键词

超节点；智算中心；Scale-Up互联；内存池化；全域协同；液冷散热；智能调度

1 算力升维：从算力堆砌到系统协同，超节点定义智算新基座

在大模型参数迈向万亿级的时代，MoE稀疏化、TP/EP高频通信等技术趋势下，算力瓶颈已经从单卡性能转向系统效率，算力从“单点突破”转向“系统级创新”，使得算力设施具备了可持续演进的可能。超节点作为新一代算力形态，正在从根本上重构智算基础设施的底层逻辑，让大规模算力真正实现“像一台计算机一样工作”。

传统通过简单堆叠AI服务器和以太网来构建计算集群的方式，存在根本性的瓶颈。具体表现为三重系统性挑战。

1）通信墙：千亿级模型训练产生的海量梯度同步数据（TB级）远超传统网络的承载能力，导致计算卡大量时间在等待通信，集群效率随规模扩大而急剧下降。

2）算力墙：GPU算力（年均1.5倍）与模型参数（年均200倍）增长差距拉大。为提升算力密度而增加芯片数量，使得功耗和散热成为严峻的物理限制。

3）内存墙：模型复杂度爆发式增长与硬件内存/带宽性能缓慢提升形成矛盾；内存带宽不足使算力无法充分利用。

超节点正是对这一困境的系统性回应——它并非简单增加计算卡数量，而是一种系统级架构创新。超节点与传统智算集群的区别见表1。它通过高速互联总线等技术，将成百上千的AI计算芯片连接成为一个统一的、可像单台计算机一样高效协同的计算域，形成一个具备共享内存池、可统一灵活调度的整体，打破了传统算力设施的性能瓶颈。其核心是通过在互联、架构、软件和能效上的系统性创新和优化，为AI大模型提供一种性能更高、效率更优、使用更简便的智算基础算力设施。

表1 超节点与传统智算集群的对比

2 全域协同：软硬件融合驱动超节点极致效能

超节点作为支撑大规模AI模型训推与推理的核心载体，其效能释放的关键在于打破计算、网络、存储等资源孤岛，实现软硬件全要素的深度协同。新华三基于“算力×联接”的核心理念，构建多维度全域协同架构，从顶层设计到底层落地、从硬件基座到生态适配，形成全链路效能优化体系。

2.1 核心技术理念：全域协同的顶层设计

新华三超节点方案以“算力×联接”为技术内核，基于“算力芯片多元化、互联协议标准化、基础设施集成化”三大设计原则，构建全要素协同的顶层架构，推动智算基础设施从“分散部署”向“全域协同”转型。其中，算力芯片多元化聚焦主流算力芯片的适配，破解单一芯片生态的局限；互联协议标准化依托行业通用协议与自研优化技术，实现不同硬件组件的无缝互联；基础设施集成化则将计算、网络、存储、散热等模块纳入统一设计体系，打破资源壁垒。这一顶层设计的核心目标，在于通过软硬件深度融合最大化释放全域效能，解决大规模AI训练推理中效能痛点。如图1所示，整体超节点方案包含计算、存储、网络（Scale-Up、Scale-Out、存储、管理、业务）、业务平台、运维平台。

图1 超节点集群组网架构（256卡）

全域协同的边界延伸依赖开放生态的支撑，新华三超节点方案通过开放兼容的核心思路，在算力芯片、AI框架、行业应用三大维度，联动上下游合作伙伴，构建“算力、联接、应用、服务”的全域协同生态，提升方案的扩展性与可持续性。在算力芯片兼容方面，方案全面适配兼容国内多元算力国产算力芯片，实现多元算力超节点生态的覆盖。

2.2 硬件底座协同：高密度一体化绿色算力基座构建

硬件底座是全域协同的物理基础，新华三通过构建多元算力矩阵，整合高密度部署、高效液冷散热、高可靠运维三大核心能力，打造高密度、高可靠、高能效的一体化硬件协同基座，为全域协同提供坚实支撑。在算力矩阵构建上，方案推出H3C UniPoD S80000超节点，适配万亿级与千亿级模型训推场景。

其中，H3C UniPoD S80000聚焦顶级算力场景，如图2所示，单柜算力密度大幅提升，可支持64张AI加速卡的高密度部署，等效传统8台8卡服务器的算力规模；整柜采用一体化液冷散热方案，冷板散热覆盖CPU、GPU、内存等核心热源，散热功率可达80KW，将数据中心PUE控制在1.1以下，实现高算力与绿色节能的协同平衡。

图2 H3C UniPoD S80000 64卡超节点

2.3 互联架构协同：无阻塞全域联接体系

互联架构是全域协同的核心纽带，通过如NVLink、UAlink、SUE等Scale-Up高速互联协议，在GPU卡间建立点对点直接通信通道，打破单机扩展的硬件限制。其互联带宽可达TB/s级别，延迟可降至纳秒级，较Scale-Out网络提升一个数量级。Scale-Out网络负责连接多个超节点机柜，形成更大规模的算力集群。Scale-Up和Scale-Out网络对比见表2。

表2 Scale-Up和Scale-Out网络对比

内存池化，统一内存编址，构建全局共享物理地址空间，其核心是通过UVM统一寻址技术，让CPU和GPU可以使用相同的指针访问彼此的内存，无需显式的数据拷贝。此技术正是以Scale-Up互联协议作为底层通信能力。Scale-Up互联协议支持Load/Store内存语义。支持了统一编址（UVA）和跨GPU的直接内容访问（DMA）能力。前者可以实现CPU和GPU跨越不同的物理内存设备，进行统一地址空间的访问。后者可以实现GPU之间的点对点的内存读写能力。如NVIDIA的内存池化方案就是通过CUDA UVM（统一虚拟内存）与NVLink高速互联技术的互动协作完成的。Scale-Out网络下无法实现需要进行内存数据的通信和显示数据拷贝，如图3。

图3 不同GPU互联方式下内存交互方式

在Scale-Up和Scale-Out组网的技术协同下，如图4所示，新华三超节点支持全自研国产网络操作系统、兼容多厂商互联协议、光电一体化运维编排能力，构建起高效、灵活的通信网络，支撑不同规模大模型训练及推理业务。新华三256卡超节点基于SUE Scale-Up互联协议，可实现100%无阻塞通信，同时布局1024卡基于GLink互联协议的超节点，适配业务规模的全域增长需求。针对不同行业、不同规模的AI业务需求，新华三超节点方案推出32卡、40卡、64卡、256卡、未来1024卡等不同互联规模及算力形态，精准匹配用户业务，最大化释放全域协同价值。

图4 超节点互联架构

2.4 软件栈协同：全生命周期软硬融合调度

软硬件深度融合是全域协同的核心路径，超节点方案搭建全栈优化的软件体系，围绕全域资源调度、大模型全生命周期管理、智能运维三大核心场景，实现软件与硬件的精准适配，完成“硬件算力”到“业务价值”的高效转化。方案通过计算、网络、存储、算力资源的全域统一调度，全域资源灵活及精细化切分，优化资源分配效率。全栈软件体系如图5所示，由如下组成。

◆业务平台：提供高效算力调度、资源聚合、资源切分和全流程工具链能力。

◆管控平台：云算网深度融合,算、网感知联动,实现故障自动化隔离与恢复。

◆集合通信库、算子库：基于超节点硬件架构优化、深度协同，从底层互联到上层计算全栈优化。

◆运行库、开发工具：高效支撑训练推理运行态。

◆容器集群：统一容器底座，自动化组网部署。

◆GPU驱动：兼容主流GPU，提供极致性能。

◆操作系统：自研NingOS操作系统，提供超节点定制的操作系统底座。

◆HDM/BIOS/RMC：自研BMC和带外管理系统。

图5 AI软件栈和基础环境说明

2.5 工程交付协同：极简式一体化落地

为解决超节点方案“部署复杂、周期长、调试难度大”的落地痛点，新华三聚焦工程交付环节的协同优化，采用“整机柜集成+节点机柜解耦”双模式交付策略，实现方案的极简式一体化落地，兼顾部署灵活性与落地效率，适配不同数据中心的部署条件。通过“工厂预集成、现场快部署”的核心思路，将90%的组装、理线、调试工序前移至工厂，完成硬件、AI框架、模型、应用四层能力的预集成，用户现场可实现开箱即用，大幅缩短交付周期。

3 韧性护航：全层级韧性设计筑牢超节点可靠性根基

为确保大规模AI算力基础设施的持续稳定运行，超节点方案构建了覆盖硬件、网络、平台的全方位韧性保障体系，如图6所示。其核心在于通过“超节点全域资源监控与智能故障诊断系统”，为业务平台提供拓扑感知与主动容错能力，从而保障超节点集群的稳定运行与算力的高效利用。

构建“域内全栈资源拓扑图谱”，通过刻画从物理硬件到上层应用的软硬件资源依赖关系，支撑故障的快速精准定位，并为业务平台的智能调度提供实时的拓扑感知能力，实现资源与任务的高效匹配。

建立“统一的资源监控与故障感知体系”。通过标准化接口实现全栈数据的统一采集与实时汇聚，并主动推送至业务平台。这种深度协同使得系统能够构建一体化的高容错架构，实现故障的快速隔离与任务自动恢复，从而显著提升集群的有效作业时间占比。在网络层面，实施了“智能流量调优策略”。能够对参数服务器网络的流量进行动态负载均衡，并支持基于队列对粒度的精细化路径规划与调优。这一机制有效减少了网络拥塞，直接提升了分布式模型训练的通信效率与整体训练速度。

方案具备“开放的北向集成能力”，支持与云端运维平台及第三方运维系统无缝对接。这使得运维视角得以从基础设施层延伸至业务应用层，实现业务视角的全景化运维管理。

图6 全域运维

通过上述多层次、主动式的可靠性设计，为超大规模AI算力集群构筑了坚实的可靠性基石，确保其在应对硬件故障、网络波动等异常情况时，仍能保持高性能与高可用的服务状态。

4 效能突破：核心架构和关键技术优势引爆AI高效生产力

为应对上述挑战，本方案构建了从底层硬件到上层平台的全栈技术体系，其核心优势体现在高可靠架构、智能运维、高效调度及深度优化的推理引擎四个层面。

在基础架构采用多元算力形态，推出32卡、40卡、64卡、256卡、1024卡不同互联规模，精准匹配用户不同业务需求。Scale-Up交换机兼容多厂商互联协议，具备广泛兼容性。

在运维管理层面研发了领先的“算网存一体化”智能运维平台。该平台实现了从物理设施到AI任务的全栈统一可观测性，并深度融合知识图谱与毫秒级全链路追踪技术，实现了故障的精准定位与根因分析。其价值在于将运维模式从被动响应升级为主动预测与智能自愈，通过自动化完成资源部署、故障隔离与恢复等操作，极大提升了运维效率，为核心业务的稳定运行提供了坚实保障。

在资源调度层面设计了具备拓扑感知与负载感知能力的多级智能调度系统（见表3）。该系统支持从物理资源到应用任务的精细化管理，实现了资源的逻辑隔离与弹性伸缩。其价值在于实现了集群算力与AI负载的精准匹配，最大化资源利用率。同时，通过亲和性调度确保关键任务获得最优资源组合，并在多租户场景下提供安全、灵活的资源隔离方案。

表3 调度优化

在业务收益层面针对大模型场景深度优化了推理服务引擎。该引擎集成了动态批处理、分级智能缓存（见表4）（如KV Cache优化）与智能请求调度等高级特性。通过 KV-Aware 感知 + GPU 缓存使用率 + 请求队列长度三要素联合决策，实现了一套智能、高效、端到端的推理请求调度系统，从传统 “负载均衡” 升级为缓存感知的智能路由。能够在同等硬件资源下显著提升服务吞吐量并降低推理延迟，平滑应对业务流量波动。

表4 分级缓存

此外，作为上述能力的基石，我们的1024超节点提供了开放且强大的算力底座。其技术先进性主要体现在以下方面。

◆全栈自研与自主可控：提供从底层GLink互联协议、交换芯片到整机柜的全栈自研产品，确保技术自主权与深度优化能力。

◆开放生态与多元兼容：架构设计主动拥抱多元算力，支持客户灵活选择或混合部署不同加速芯片，避免供应商锁定。

◆超大算力规模：支持单集群1024卡的Scale-Up组网，为训练万亿参数模型提供了必需的、可线性扩展的强算力基础。

◆高性能互联技术：自研的GLink协议基于UCIe标准，支持原生内存语义与无损网络，提供高带宽、低延迟通信能力，并支持在网计算等加速特性。

◆高密绿色设计：支持单机柜72卡GPU的高密度部署，并集成高压直流供电与液冷散热，有效应对功率密度挑战，助力实现低碳数据中心目标。

◆一体化集成架构：采用“大禹”一体化架构，通过紧耦合设计实现机柜内全互联，简化系统层级，为分布式训练推理提供稳定高效的物理基础。

5 未来展望

超节点基础设施将向计算存储网络全池化、100%全液冷、更大Scale-Up域等方向演进。超节点互联协议当前虽碎片化、路线各异，但产业合力与开放规范将驱动行业走向标准化：通过统一互联协议、内存编址与硬件拓扑接口，实现跨厂商算力单元互联，统一运维调度，最终构建开放兼容、高效协同的下一代智算基础设施。

未来，新华三将持续深化超节点技术创新，一方面推进1024卡及以上更大规模互联架构研发，突破算力扩展边界；另一方面，加强与产业生态伙伴的协同，推动超节点行业标准完善，深化国产化算力生态布局，提升软硬协同优化水平。