《数字化领航》AI技术专刊

前沿技术

从MoE到长上下文：模型架构演进对“算力×联接”的颠覆性挑战

文 | 新华三集团解决方案部唐侃毅

摘要

生成式AI爆发推动模型架构向混合专家（MoE）与超长上下文（LongContext）加速演进，重塑了算力与联接的交互逻辑。MoE的稀疏激活引发“All-to-All”通信模式，使需求从计算密集型转向通信密集型，易触发网络拥塞；超长上下文（1M+tokens）导致KVCache膨胀，突破高带宽内存（HBM）承载极限，催生分布式内存与CXL内存池化需求，对网络时延与带宽提出极致要求。

关键词

混合专家模型；超长上下文；算力×联接；Scale-up；Scale-out；分布式内存与高性能存储

引言

“杰文斯悖论”在AI领域显现：DeepSeek等模型通过架构创新将单模型训练算力门槛降低，推动全球智能算力需求以78%复合年增长率飙升，超三分之一增量源于MoE类模型渗透。算力结构向“集中式训练+边缘推理”演进，训练侧“挤效率”、推理侧需求井喷，对基础设施构成严峻挑战。MoE虽将单次推理计算量压缩至传统模型20%，但日均50亿次调用使总算力消耗翻番；长上下文技术拓展应用边界的同时，也凸显“内存墙”问题。两大架构创新让“联接”从辅助支撑变为核心变量，“算力×联接”协同成为突破AI发展瓶颈的关键。本文结合新华三技术实践，从四大维度提出系统性解决方案，为AI基础设施升级提供参考。

1 模型架构演进的两大核心方向

（1）混合专家模型（MoE）：稀疏激活下的算力效率革命

混合专家模型（MoE）颠覆了传统大模型的密集型计算范式，通过将模型拆解为多个专业化“专家模块”，仅在处理特定任务时激活相关模块，实现算力资源的精准分配。以DeepSeek为代表的MoE模型，将单次推理计算量降至传统模型的20%，大幅降低了单个任务的算力门槛，推动了AI应用场景的规模化渗透。

但MoE的稀疏特性暗藏着复杂的系统性挑战：一方面，专家模块的动态激活需要频繁的参数调度与数据交互，形成了“All-to-All”的通信模式，每个计算节点需与其他所有节点进行数据传输，而非传统架构中的点对点通信；另一方面，低门槛催生的爆发式需求进一步放大了通信压力，DeepSeek生态日均50亿次的调用规模，使总算力消耗较传统模型翻了3倍，将通信瓶颈推向了台前。

（2）超长上下文（LongContext）：内存墙下的存储与联接重构

超长上下文技术的突破，使大模型能够处理1M+tokens的海量文本、图像等数据，极大拓展了AI在长文档分析、多模态生成等场景的应用边界。这一突破的背后，会造成KVCache（键值缓存）的急剧膨胀，KVCache用于存储推理过程中的中间结果，以减少重复计算，其容量与上下文长度呈正相关，当上下文达到百万级tokens时，KVCache的体积将突破单卡HBM的承载极限。

传统依赖本地HBM的存储架构已无法满足需求，“内存墙”问题日益凸显：当HBM容量不足时，模型需频繁从远端存储读取数据，导致算力闲置；而跨节点、跨数据中心的协同训练与推理，进一步要求海量数据通过网络高速流动，使网络时延与带宽成为制约长上下文模型效率的核心瓶颈。这一变革迫使算力基础设施从“本地内存依赖”转向“分布式内存协同”，并对联接技术提出了极致要求。

2 架构演进引发的“算力×联接”核心挑战

（1）MoE架构：“All-to-All”通信与网络拥塞风暴

传统AI算力集群以计算密集型为主，网络仅需满足点对点传输。而MoE的“All-to-All”通信模式，使每个GPU节点需与集群所有节点实时交换参数，网络流量指数级增长，带宽占用剧增、时延上升。万卡级集群中，传统拥塞控制机制无法适配动态稀疏通信需求，易引发“网络拥塞风暴”，算力利用率从80%以上骤降至40%以下，对网络全局调度与动态路径调整能力提出更高要求。

（2）长上下文架构：KVCache膨胀与分布式内存联接需求

超长上下文场景下，KVCache容量可达数十GB至上百GB，远超主流GPU的80GB-120GB的HBM上限，“内存墙”问题凸显。需通过分布式内存或CXL内存池化整合节点资源，却面临两大挑战：一是远端内存访问时延需逼近本地HBM，避免算力空转；二是跨节点传输需解决物理时延、丢包等问题，保障数据一致性。同时，海量数据吞吐对存储带宽与IOPS提出高要求，形成“存储-联接-算力”协同优化命题。

3 “算力×联接”的技术突破与解决方案

面对模型架构演进带来的颠覆性挑战，新华三提出“算力×联接”核心理念，通过纵向扩展（Scale-up）、横向扩展（Scale-out）、高性能存储与广域数据传输四大技术方向的协同创新，构建适配MoE与长上下文模型的算力基础设施。

（1）Scale-up：纵向扩展突破MoE多GPU互联瓶颈

针对MoE模型“All-to-All”通信的高并发需求，Scale-up技术通过纵向扩展GPU互联规模，提升单集群内的通信效率。H3C UniServer G7系列模块化服务器已完成与10余家芯片厂商的联合设计，支持集群训练、训推一体等多场景应用；H3CUniPoD超节点则通过单机柜、多机柜等灵活形态，将Scale-up互联规模提升300%，支持几十到数百GPU的高效互联，大幅降低了MoE模型参数交换的时延，使算力利用率显著提升。

纵向扩展技术的核心价值在于，通过优化GPU间的直接互联架构，减少数据传输的中间环节，使“All-to-All”通信的带宽需求得到精准匹配，为千亿至万亿参数MoE模型的训练提供了稳定的算力支撑。

（2）Scale-out：横向扩展应对万卡级集群通信需求

针对大规模MoE集群与分布式内存架构的横向扩展需求，新华三推出全球首款单芯片51.2T800G“LPO+液冷”交换机，兼顾高吞吐、低时延与绿色节能特性。基于UEC技术的端网融合Scale-out解决方案，通过自研高效拥塞控制算法与网络控制器的全局调度能力，将集群网络的有效吞吐率大幅提升，可支持万卡甚至十万卡的大规模互联。

这一技术突破有效解决了MoE架构的“网络拥塞风暴”问题，使分布式内存池中的数据能够高效流转，为长上下文模型的跨节点KVCache访问提供了可靠保障。

（3）高性能存储：破解KV Cache的高带宽低时延需求

为满足长上下文模型对KVCache的高带宽、高吞吐、低延迟存储需求，新华三全面重构存储软件栈，打造下一代AI数据存储平台H3C UniStor Polaris X20000系列，实现单节点80GB/s带宽与200万IOPS的性能突破。通过冷热数据分离技术提升读取效率，结合NVMe-oF高速存储协议与全闪阵列，该平台可精准匹配KVCache的动态访问特性，减少数据在存储与算力间的传输时延。

高性能存储与Scale-up/Scale-out网络的协同，形成了“存储-联接-算力”的闭环优化，使长上下文模型的海量数据处理效率提升30%以上。

（4）广域数据传输：构建“数据高铁”支撑跨域协同

针对跨数据中心协同训练、分布式内存池访问等广域场景，新华三通过确定性网络与数据快递技术方案，对软硬件协议栈进行重构，在5000km距离下实现90%以上的带宽利用率，数据传输效率较传统协议提升5倍。这一技术突破有效解决了广域网络的物理时延、丢包与拥塞问题，使跨区域的分布式内存访问时延降至毫秒级，为长上下文模型的跨域部署与MoE模型的多中心协同训练提供了可能。

此外，通过AI运维与算力平台调度，新华三实现了低利用率服务器的任务集中与关停，在不牺牲性能的前提下，进一步提升了算力利用率与能效，呼应了“人工智能的尽头是能源”的行业共识。

4 生态共建与标准化：算力互联的长远之道

模型架构的持续演进要求算力基础设施具备高度的兼容性与扩展性，而标准化与生态开放是实现这一目标的核心路径。新华三以“技术纵深+生态广度”双螺旋驱动开放创新，积极参与UEC（超以太联盟）、UALink（加速卡超级互联联盟）等国际组织的标准建设，携手产业伙伴推动联接标准化。

通过“AI-in-ALL”技术战略，新华三构建了从硬件基础设施到行业解决方案的完整链条，以“技术融合、标准共建、场景赋能”为支点，实现生态兼容与差异化特色的平衡。在MoE与长上下文模型的应用场景中，标准化的联接接口使不同厂商的芯片、服务器、存储设备能够即插即用，而差异化的技术优化则确保了特定场景的性能优势，为百行百业的AI转型提供了灵活适配的解决方案。

5 结束语

MoE与长上下文模型的架构演进，不仅是AI技术自身的突破，更引发了算力基础设施的颠覆性变革——“联接”不再是算力的附属，而是与算力深度融合、协同增效的核心变量。“算力×联接”的协同效应，成为破解AI效率瓶颈、推动产业智能化跃迁的关键。

面对这一变革，新华三通过Scale-up、Scale-out、高性能存储与广域传输的技术创新，以及开放生态的构建，为模型架构演进提供了坚实的基础设施支撑。未来，随着大模型向芯片内、设备间、跨城市甚至跨国家的全域互联方向发展，联接标准的统一与技术的持续迭代将更为重要。新华三将继续以技术创新为引领，定义AI新纪元的算力演进法则，推动“算力互联”向“万物互联”跨越，为数字经济的高质量发展注入不竭动力。