QYJS    前沿技术
前沿技术
从MoE到长上下文:模型架构演进对“算力×联接”的颠覆性挑战
文 | 新华三集团解决方案部 唐侃毅

摘要

生成式AI爆发推动模型架构向混合专家(MoE)与超长上下文(LongContext)加速演进,重塑了算力与联接的交互逻辑。MoE的稀疏激活引发“All-to-All”通信模式,使需求从计算密集型转向通信密集型,易触发网络拥塞;超长上下文(1M+tokens)导致KVCache膨胀,突破高带宽内存(HBM)承载极限,催生分布式内存与CXL内存池化需求,对网络时延与带宽提出极致要求。

关键词

混合专家模型;超长上下文;算力×联接;Scale-up;Scale-out;分布式内存与高性能存储

引言

“杰文斯悖论”在AI领域显现:DeepSeek等模型通过架构创新将单模型训练算力门槛降低,推动全球智能算力需求以78%复合年增长率飙升,超三分之一增量源于MoE类模型渗透。算力结构向“集中式训练+边缘推理”演进,训练侧“挤效率”、推理侧需求井喷,对基础设施构成严峻挑战。MoE虽将单次推理计算量压缩至传统模型20%,但日均50亿次调用使总算力消耗翻番;长上下文技术拓展应用边界的同时,也凸显“内存墙”问题。两大架构创新让“联接”从辅助支撑变为核心变量,“算力×联接”协同成为突破AI发展瓶颈的关键。本文结合新华三技术实践,从四大维度提出系统性解决方案,为AI基础设施升级提供参考。

1 模型架构演进的两大核心方向

(1)混合专家模型(MoE):稀疏激活下的算力效率革命

混合专家模型(MoE)颠覆了传统大模型的密集型计算范式,通过将模型拆解为多个专业化“专家模块”,仅在处理特定任务时激活相关模块,实现算力资源的精准分配。以DeepSeek为代表的MoE模型,将单次推理计算量降至传统模型的20%,大幅降低了单个任务的算力门槛,推动了AI应用场景的规模化渗透。

但MoE的稀疏特性暗藏着复杂的系统性挑战:一方面,专家模块的动态激活需要频繁的参数调度与数据交互,形成了“All-to-All”的通信模式,每个计算节点需与其他所有节点进行数据传输,而非传统架构中的点对点通信;另一方面,低门槛催生的爆发式需求进一步放大了通信压力,DeepSeek生态日均50亿次的调用规模,使总算力消耗较传统模型翻了3倍,将通信瓶颈推向了台前。

(2)超长上下文(LongContext):内存墙下的存储与联接重构

超长上下文技术的突破,使大模型能够处理1M+tokens的海量文本、图像等数据,极大拓展了AI在长文档分析、多模态生成等场景的应用边界。这一突破的背后,会造成KVCache(键值缓存)的急剧膨胀,KVCache用于存储推理过程中的中间结果,以减少重复计算,其容量与上下文长度呈正相关,当上下文达到百万级tokens时,KVCache的体积将突破单卡HBM的承载极限。

传统依赖本地HBM的存储架构已无法满足需求,“内存墙”问题日益凸显:当HBM容量不足时,模型需频繁从远端存储读取数据,导致算力闲置;而跨节点、跨数据中心的协同训练与推理,进一步要求海量数据通过网络高速流动,使网络时延与带宽成为制约长上下文模型效率的核心瓶颈。这一变革迫使算力基础设施从“本地内存依赖”转向“分布式内存协同”,并对联接技术提出了极致要求。

2 架构演进引发的“算力×联接”核心挑战

(1)MoE架构:“All-to-All”通信与网络拥塞风暴

传统AI算力集群以计算密集型为主,网络仅需满足点对点传输。而MoE的“All-to-All”通信模式,使每个GPU节点需与集群所有节点实时交换参数,网络流量指数级增长,带宽占用剧增、时延上升。万卡级集群中,传统拥塞控制机制无法适配动态稀疏通信需求,易引发“网络拥塞风暴”,算力利用率从80%以上骤降至40%以下,对网络全局调度与动态路径调整能力提出更高要求。

(2)长上下文架构:KVCache膨胀与分布式内存联接需求

超长上下文场景下,KVCache容量可达数十GB至上百GB,远超主流GPU的80GB-120GB的HBM上限,“内存墙”问题凸显。需通过分布式内存或CXL内存池化整合节点资源,却面临两大挑战:一是远端内存访问时延需逼近本地HBM,避免算力空转;二是跨节点传输需解决物理时延、丢包等问题,保障数据一致性。同时,海量数据吞吐对存储带宽与IOPS提出高要求,形成“存储-联接-算力”协同优化命题。

3 “算力×联接”的技术突破与解决方案

面对模型架构演进带来的颠覆性挑战,新华三提出“算力×联接”核心理念,通过纵向扩展(Scale-up)、横向扩展(Scale-out)、高性能存储与广域数据传输四大技术方向的协同创新,构建适配MoE与长上下文模型的算力基础设施。

(1)Scale-up:纵向扩展突破MoE多GPU互联瓶颈

针对MoE模型“All-to-All”通信的高并发需求,Scale-up技术通过纵向扩展GPU互联规模,提升单集群内的通信效率。H3C UniServer G7系列模块化服务器已完成与10余家芯片厂商的联合设计,支持集群训练、训推一体等多场景应用;H3CUniPoD超节点则通过单机柜、多机柜等灵活形态,将Scale-up互联规模提升300%,支持几十到数百GPU的高效互联,大幅降低了MoE模型参数交换的时延,使算力利用率显著提升。

纵向扩展技术的核心价值在于,通过优化GPU间的直接互联架构,减少数据传输的中间环节,使“All-to-All”通信的带宽需求得到精准匹配,为千亿至万亿参数MoE模型的训练提供了稳定的算力支撑。

(2)Scale-out:横向扩展应对万卡级集群通信需求

针对大规模MoE集群与分布式内存架构的横向扩展需求,新华三推出全球首款单芯片51.2T800G“LPO+液冷”交换机,兼顾高吞吐、低时延与绿色节能特性。基于UEC技术的端网融合Scale-out解决方案,通过自研高效拥塞控制算法与网络控制器的全局调度能力,将集群网络的有效吞吐率大幅提升,可支持万卡甚至十万卡的大规模互联。

这一技术突破有效解决了MoE架构的“网络拥塞风暴”问题,使分布式内存池中的数据能够高效流转,为长上下文模型的跨节点KVCache访问提供了可靠保障。

(3)高性能存储:破解KV Cache的高带宽低时延需求

为满足长上下文模型对KVCache的高带宽、高吞吐、低延迟存储需求,新华三全面重构存储软件栈,打造下一代AI数据存储平台H3C UniStor Polaris X20000系列,实现单节点80GB/s带宽与200万IOPS的性能突破。通过冷热数据分离技术提升读取效率,结合NVMe-oF高速存储协议与全闪阵列,该平台可精准匹配KVCache的动态访问特性,减少数据在存储与算力间的传输时延。

高性能存储与Scale-up/Scale-out网络的协同,形成了“存储-联接-算力”的闭环优化,使长上下文模型的海量数据处理效率提升30%以上。

(4)广域数据传输:构建“数据高铁”支撑跨域协同

针对跨数据中心协同训练、分布式内存池访问等广域场景,新华三通过确定性网络与数据快递技术方案,对软硬件协议栈进行重构,在5000km距离下实现90%以上的带宽利用率,数据传输效率较传统协议提升5倍。这一技术突破有效解决了广域网络的物理时延、丢包与拥塞问题,使跨区域的分布式内存访问时延降至毫秒级,为长上下文模型的跨域部署与MoE模型的多中心协同训练提供了可能。

此外,通过AI运维与算力平台调度,新华三实现了低利用率服务器的任务集中与关停,在不牺牲性能的前提下,进一步提升了算力利用率与能效,呼应了“人工智能的尽头是能源”的行业共识。

4 生态共建与标准化:算力互联的长远之道

模型架构的持续演进要求算力基础设施具备高度的兼容性与扩展性,而标准化与生态开放是实现这一目标的核心路径。新华三以“技术纵深+生态广度”双螺旋驱动开放创新,积极参与UEC(超以太联盟)、UALink(加速卡超级互联联盟)等国际组织的标准建设,携手产业伙伴推动联接标准化。

通过“AI-in-ALL”技术战略,新华三构建了从硬件基础设施到行业解决方案的完整链条,以“技术融合、标准共建、场景赋能”为支点,实现生态兼容与差异化特色的平衡。在MoE与长上下文模型的应用场景中,标准化的联接接口使不同厂商的芯片、服务器、存储设备能够即插即用,而差异化的技术优化则确保了特定场景的性能优势,为百行百业的AI转型提供了灵活适配的解决方案。

5 结束语

MoE与长上下文模型的架构演进,不仅是AI技术自身的突破,更引发了算力基础设施的颠覆性变革——“联接”不再是算力的附属,而是与算力深度融合、协同增效的核心变量。“算力×联接”的协同效应,成为破解AI效率瓶颈、推动产业智能化跃迁的关键。

面对这一变革,新华三通过Scale-up、Scale-out、高性能存储与广域传输的技术创新,以及开放生态的构建,为模型架构演进提供了坚实的基础设施支撑。未来,随着大模型向芯片内、设备间、跨城市甚至跨国家的全域互联方向发展,联接标准的统一与技术的持续迭代将更为重要。新华三将继续以技术创新为引领,定义AI新纪元的算力演进法则,推动“算力互联”向“万物互联”跨越,为数字经济的高质量发展注入不竭动力。

关闭