GJJS    前沿技术
前沿技术
大模型仿真技术研究与实践
文 | 新华三集团先进技术研究部 袁智

摘要

随着大模型参数规模和集群规模的不断攀升,训练与推理系统的设计空间急剧扩大,传统依赖大规模实机试错的方式在成本、周期与风险方面均已难以为继。本文系统梳理面向大模型训练与推理的仿真技术发展现状,从仿真器设计挑战出发,归纳工作负载生成、计算建模、通信建模、访存建模以及调度与执行引擎等关键技术路径。在此基础上,结合超节点场景的仿真实践案例,验证了仿真技术在架构预评估和设计空间探索中的工程价值。最后展望仿真技术的未来发展趋势,为进一步探索提供参考。

关键词

AI仿真;分布式训练;推理性能评估;并行策略

引言

近五年间,大模型参数规模从数十亿迈向数万亿,训练和推理系统的设计复杂度随之急剧攀升。一方面,单卡加速器已无法容纳完整模型,必须依赖数百甚至上万卡的分布式集群;另一方面,数据并行(Data Parallel,DP)、张量并行(Tensor Parallel,TP)、流水线并行(Pipeline Parallel,PP)、专家并行(Expert Parallel,EP)等多种并行策略,与网络拓扑、内存层次结构、调度算法和调优策略高度耦合,使系统设计空间呈爆炸式增长。在这种背景下,单纯依靠真实集群反复试错的方式面临成本高、周期长、风险大等问题。

AI仿真工具的出现有效解决了这些痛点。AI仿真工具通过将复杂软硬件协同系统“搬入”可控仿真环境,在无需庞大硬件的前提下精准模拟大规模训练与推理过程,预测计算、通信、访存等性能,量化不同硬件配置、并行策略、网络协议和调度方法的差异,进行快速评估,从而降低成本和时间、提供高保真性能预测、支撑架构与硬件选型,促进协同与风控,并使大模型研发和系统调优从高成本、低灵活度的试错模式跃迁至可快速迭代、低风险的精准设计阶段。

1 大模型仿真技术

1.1 仿真器设计挑战

要实现面向大规模训练/推理的高保真仿真器,并非简单叠加“计算+通信模型”,而是一项跨多维度的系统工程,面临多重挑战。

(1)复杂并行策略增加建模难度

DP/TP/PP/EP等混合并行在计算划分、通信模式、调度依赖上差异巨大,同一任务中不同节点角色各异,需将“策略描述”与“执行轨迹”解耦,才能还原系统行为。

(2)网络与内存难以简单参数化

大规模集群中存在拓扑异质、链路争用和多级路由,简单α+βn或固定带宽/平均延迟会低估拥塞与冲突。CXL、大内存池等也打破“本地显存+远程内存”二元模型,无法用单一带宽/延迟评估卸载、分页、预取策略。

(3)仿真精度与速度需要权衡

事件驱动等高保真方法可细致到算子/包级,但比解析模型慢几个数量级,不利于大规模搜索;解析模型虽快但过度简化,难提供可靠细节,需按“早期选型vs后期精评”折中。

(4)推理负载动态特征更加复杂

在线推理对TTFT/TBT极其敏感,请求模式、上下文长度、批策略变化会显著影响负载;Prefill/Decode解耦、MoE路由、PagedAttention、KV分页/前缀缓存等将算力、通信、内存高度耦合,增加预测难度。

因此,仿真器必须综合并行策略、网络拓扑、内存体系、仿真方法、负载模式和硬件多样性等因素,不只是性能预测工具,更是对AI系统架构建模与抽象能力的整体考验。

1.2 业界研究进展

目前面向大模型训练与推理的仿真工具仍处于快速演化、百家争鸣的阶段,学术界和工业界提出了大量研究工作(见表1、表2)。

从仿真方法上看,大致可以分为三类:第一类是基于公式和经验参数的解析型仿真器,如Calculon等,通过解析建模快速估算计算和通信开销,适合早期的设计空间探索和成本/吞吐粗评;第二类是基于剖析的仿真器,依托Megatron-LM、DeepSpeed、PyTorch等框架在真实硬件上采集trace,再在仿真器中重放,如vTrain、LLMEmu等,在精度和速度之间取得折中;第三类是执行驱动型仿真器,例如SimAI、Echo等,直接拦截或改写真实框架的计算与通信调用,将其重定向到仿真后端,能够提供端到端高保真仿真,但实现和运行开销相对更高。

表1 训练仿真研究工作

表2 推理仿真研究工作

1.3 仿真关键技术

各项仿真器研究在工作负载生成、计算与通信建模等环节都呈现出显著的技术多样性。这些环节构成了AI仿真器的核心技术框架,既可以作为独立模块按需优化,也可以整合实现为全栈的高保真平台。

图1 AI仿真器技术框架

如图1所示,我们将仿真器涉及的技术,抽象为五个关键环节:工作负载生成、计算建模、通信建模、访存建模、调度/执行引擎等,下文将针对每个关键环节的实现技术展开描述。

(1)工作负载生成

在大模型仿真中,工作负载生成决定仿真精度与适用范围,其目标是在目标软硬件尚不可用时,尽量还原训练/推理的执行轨迹。常用方法包括:

◆框架劫持/深度耦合:拦截PyTorch、DeepSpeed、Megatron-LM 等的算子与通信调用,生成带时间戳和依赖的轨迹,保留算子依赖、内核融合与通信调度等细节,但对硬件环境依赖强(如Echo、LLMEmu);

◆单GPU轨迹外推:在单卡采集计算 profile,再结合并行策略推断多卡行为(如SimAI、TrioSim),采集成本低,但对通信和重叠的外推模型要求高;

◆基于模型规格合成执行图:按模型层数、维度和并行划分生成抽象计算/通信DAG(如ASTRA-sim、Calculon),速度快、便于参数化探索,但难体现运行时优化,误差较大;

◆推理请求日志驱动:利用真实服务日志重现请求到达、上下文长度与混合负载特征(如TokenSim、Vidur、APEX),适合精确分析延迟分布和调度策略的效果。

(2)计算建模

计算建模用于刻画算子/内核执行,其精度直接决定仿真可靠性,大致有三类方法:

1)白盒解析模型

由算子FLOPs与硬件峰值性能估算延迟,可加入简化内存带宽和Cache行为。优点是速度快、可解释、易用于在线调优;缺点是过于理想化,难以刻画复杂调度、编译优化和异构硬件。

2)剖析与统计模型

在真实硬件上测算子/内核性能,构建插值或机器学习模型(如GBDT、随机森林),预测不同配置和输入下的时延,能隐式捕获调度、Cache、算子融合/分块等影响,代表工作有 SimAI、Echo、Vidur 及基于 Torch.fx profile 的仿真器。

3)内核级/微架构仿真

如ReaLLM,细致模拟每个内核算子的执行与映射,更接近真实硬件,但开销较大,不适合大规模系统仿真,更偏向微架构优化和细粒度分析。

总体上需在精度与速度间权衡:精细模型更逼真但适用范围小,快速模型适合大规模设计探索,但需验证其在不同输入分布下的可靠性。

(3)通信建模

通信建模是分布式大模型仿真中评估网络延迟与带宽利用的关键,尤其在高并行度下。主流方法包括:

1)消息级解析模型

用 α-β 模型近似传输时间,速度快、适合早期方案筛选,但难体现协议优化和拓扑差异。

2)拓扑感知模型

结合通信算法(Ring/Tree等)与多维拓扑方程(如ASTRA-Sim),在较高速度下区分Ring、FatTree等结构性能。

3)事件驱动/包级仿真

通过包级离散事件精细建模传输、路由与拥塞(SimAI、Multiverse),Echo则基于NCCL分块流水线刻画连接建立、传输与归约阶段,高保真但开销更大。

在真实训练与推理中,计算与通信往往重叠且瓶颈链路动态变化,关键在于刻画时序与资源的争用。常见做法有:

◆黑盒降速预测:用实测数据训练模型预测通信对计算的降速,如Echo。

◆时间回滚:事件驱动中若计算/通信交错与预期不符,则回退时间线修正重叠,如Phantora。

◆解析重叠估算:基于峰值性能和计算强度推算理论重叠比例,速度快但难反映运行时资源争用与调度细节。

(4)访存建模

访存建模用于刻画不同存储层次和访问模式对训练与推理性能的影响,也是评估大模型系统瓶颈的关键。训练侧主要关注参数、激活、梯度和优化器状态的存储与卸载,ASTRA-Sim 2.0、Calculon等通过区分本地/远程路径,对带宽与延迟参数化建模,用于评估分离式内存、内存池和卸载策略。推理侧访存模式更复杂,重点在缓存与卸载:LLMServingSim建模KV缓存分页、驱逐与回载延迟,LLMServingSim 2.0增加前缀缓存命中与加载,以反映多轮对话首Token延迟变化;TokenSim支持块级与Token 级内存利用率和传输延迟分析,用于评估批处理内存优化。整体趋势是从将内存影响折叠进计算延迟,演进为显式区分不同内存层次和访问路径,并与缓存、卸载策略联动建模。

(5)调度与执行引擎

调度与执行引擎负责将前述计算、通信、访存模型转化为系统级性能预测,是仿真平台的核心。常用方法包括以下三种。

◆事件驱动执行:通过离散事件队列推进计算和通信,如SimAI、Echo、TokenSim、ReaLLM,便于插入延迟和依赖,适合复杂多阶段任务。

◆并行加速:利用GPU Megakernel、多线程无锁等手段(如Multiverse、SimAI)缩短大规模设计空间探索时间。

◆混合执行:在真实框架上运行,只在关键调用处切换为仿真(如Phantora、LLMEmu),兼顾高保真和软件栈兼容性。

策略上,训练需支持多维混合并行映射、流水线调度和计算通信重叠;推理则侧重静态/连续批、多实例共置、Prefill/Decode解耦、MoE专家路由以及缓存与优先级调度等负载模式。

1.4 未来发展趋势

随着智算系统迈向大规模、多样化与绿色化,对AI仿真工具的需求持续增强,其演进主要体现在三方面:

趋势一:训练-推理统一化仿真

未来平台将在同一执行引擎中同时加载训练迭代轨迹与推理请求流,以统一的工作负载描述同时刻画训练场景的稳定计算模式和推理场景的动态延迟特征,支持混合集群统一调度与端到端资源评估,为训练与推理混合部署提供性能、功耗与成本分析,优化数据中心整体配置。

趋势二:融合自动并行搜索策略

仿真工具将结合自动并行策略搜索、批处理调度和 QoS约束,通过“策略生成+仿真验证”的闭环自动探索高性能、低能耗的非直观组合,缩短设计周期:训练侧用于发现最优并行配置,推理侧用于动态调优批策略,平衡延迟与能耗。

趋势三:性能/功耗/成本多目标优化

平台将把性能、功耗、成本乃至碳排放纳入统一决策框架,在模型中显式引入设备功耗曲线、能效指标、CapEx/OpEx(硬件、电价、PUE等)及隐含碳排放,既评估训练/推理配置的性能,又估算能耗预算、单位性能成本和碳足迹,支撑数据中心与算力集群在性能、经济性与绿色目标之间做系统级权衡。

2 仿真实践案例

2.1 案例背景

随着大模型在参数规模、数据量和推理复杂度上持续攀升,智算基础设施面临算力密度与通信效率双重挑战,集成超高带宽互联、统一内存和灵活拓扑的超节点逐渐成为新一代算力平台核心形态。

但在超节点研发早期,物理硬件尚未就绪,直接在大规模集群上验证性能与优化策略周期长、成本高。此时可借助大模型仿真,在硬件定型前对不同超节点规模、网络拓扑和并行组合进行量化评估,为架构决策提供支撑。

2.2 仿真实验

我们构建了支持某国产加速卡超节点的AI仿真器,并对Llama、DeepSeek、Qwen等典型大模型开展大规模训练评估。

图2 DeepseekV3-671B在不同超节点规格下的吞吐仿真

在1024卡集群规模下,对DeepSeekV3-671B 采用TP=2、PP=2固定配置,比较“单机8卡”与“超节点32~1024卡”下不同EP的相对吞吐,结果如下。

◆EP=64:64卡超节点较单机8卡提升20.6%,256卡提升62.6%。

◆EP=128:128卡超节点提升14.3%,256卡提升69.1%。

◆EP=256:256卡超节点提升71.6%。

2.3 仿真价值

通过仿真,我们可在超节点设计早期快速评估不同模型类型与规模、并行策略组合(单模型遍历<1小时),探索不同超节点规模下的性能-成本拐点,并为互联带宽、拓扑、机框规模等参数提供量化依据。同时可对超节点场景下MoE推理进行仿真,评估不同专家路由与批策略下的TTFT/TBT指标。实践表明,基于仿真评估可显著减少真实原型的试错次数和规模,为智算系统迭代提供可靠决策支撑。

3 总结和展望

大模型仿真已成为连接模型算法、系统软件和硬件架构的关键“中介层”,在资源受限下支持更大规模、更高维度的设计空间探索,显著降低试错成本和决策风险。

未来,AI仿真器的作用愈加重要,将成为常规基础设施:既是架构师的早期“虚拟实验室”,也是运维与调度优化的“离线沙盒”,并通过与真实系统的闭环校准,长期支撑大规模AI系统在性能、成本与可持续性之间取得更优平衡。

关闭