GJJS    前沿技术
前沿技术
计算熵与范式共生:AI基础软件栈的演进逻辑与异构融合路径
文 | 新华三集团智算创新业务部 马小龙

摘要

随着深度学习模型参数规模突破万亿量级,AI算力正面临从“单一架构垄断”向“多元异构共生”的历史性转折。然而,硬件架构的爆发式创新与滞后的软件栈之间形成了难以逾越的“软件之墙”。本文从计算机体系结构视角出发,引入“计算熵”概念,揭示了产业界为应对算力瓶颈而分化出的两种截然不同的演进逻辑:一是以“不确定性应对”为核心的通用协同范式,通过冗余灵活性适配高计算熵场景(如算法探索与科研);二是以“确定性效能”为核心的垂直整合范式,依托静态编译与爆款模型的牵引效应,在低计算熵场景(如规模化推理)中实现极致能效。未来,AI算力生态将呈现“开放通用底座”与“封闭专用孤岛”并存的格局:前者依靠IR技术的平权化效应打破单一厂商垄断,后者依靠特定算法的超专门化优势占据效能高地。

关键词

AI基础软件栈;计算熵;异构算力解耦;中间表示(IR);软硬协同设计

引言

在后摩尔定律时代,通用处理器(CPU)的单核性能提升已无法匹配AI模型训练计算量每年10倍的增长速度。这一“算力剪刀差”迫使计算机工业界转向领域专用架构(Domain-Specific Architectures, DSA)。从NVIDIA的GPGPU到Google的TPU,再到Cerebras的晶圆级芯片,硬件层面的寒武纪大爆发为AI提供了理论上的澎湃算力。

然而,硬件算力的理论峰值往往难以在实际业务中兑现,其核心阻碍在于基础软件栈的滞后与割裂。长期以来,学术界与产业界过度关注上层深度学习框架(如PyTorch, TensorFlow)的易用性,却忽视了连接框架与硬件的“中间层”——即驱动、编译器、算子库与通信库——的复杂性。这导致了当下的尴尬局面:虽然异构芯片百花齐放,但软件生态的厚重壁垒却将算力锁死在单一架构之中。

面对这一挑战,产业界并未简单收敛至某一类架构,而是根据场景“计算熵”的差异,演化出了截然不同的生存法则:一类是追求通用性的协同范式,试图通过软件栈的灵活性来对抗算法迭代的“不确定性”;另一类则是追求极致效能的垂直整合范式,试图通过固化模型与硬件的“确定性”来换取成本优势。本文将深入剖析这两种范式的耦合机制与演进路径,并重点探讨中间层(IR)技术如何作为通用范式内部的“破壁人”,赋能异构计算厂商打破头部厂商的生态封锁,以及这一趋势如何重塑未来“双范式共生”的算力格局。

1 解构“软件之墙”:单体生态的耦合机制与异构困境

在AI算力从通用向专用迁移的过程中,硬件创新的速度已远超软件生态的演进速度。所谓的“软件之墙”,其本质并非单一的技术门槛,而是一套由既得利益者通过长期工程积累构建的系统性排他机制。本章将从计算机体系结构的视角,深入解构这道墙体的物理构成:一方面剖析主流单体生态(以CUDA为例)内部纵向的深度耦合机制,另一方面揭示其对外部异构硬件形成的横向阻滞效应,从而厘清异构算力难以释放的根源。

1.1 纵向耦合:从微架构到框架的深井结构

图 1 主流AI基础软件栈的层级耦合与锁定机制

AI芯片的基础软件体系并非简单的工具包,而是一个负责将上层“高维张量计算图”映射为底层“微观指令流”的复杂中间件系统。为了厘清其中的锁定机制,必须首先解剖当前占据统治地位的单体生态。该生态通过五个紧密耦合的层级(如图1所示),构建了一个从算法定义到晶体管调度的严密闭环,形成了难以迁移的“重力场”。

◆硬件层(Physical Layer):物理算力的非对称基座。除了通用的CUDA核心,其核心壁垒在于专用加速单元(TensorCore)与私有互联(NVLink)。这两者的物理特性被深度硬编码进上层软件库中,使得任何缺乏对应物理单元的异构硬件,在运行标准代码时天然处于“降频”状态。

◆驱动层(Driver Layer):JIT编译器的黑盒垄断。该层通过即时编译器(JIT Compiler)将开放的中间表示(PTX,Parallel Thread Execution)转译为封闭的机器码(SASS,Streaming Assembler)。这种“非对称开放策略”确保了原厂对“如何最高效利用硬件”拥有唯一的解释权,构建了极高的逆向工程法律壁垒。

◆运行时层(Runtime Layer):SIMT模型的固化。该层隐式假定了单指令多线程(SIMT)的执行范式,并依赖Warp(线程束)内的同步原语。这种设计将硬件的微观调度行为固化为软件标准,迫使所有非SIMT架构(如DSA或存内计算)必须以极低效率去模拟这一行为。

◆算子库层(Library Layer):手工优化的深水区。cuBLAS、cuDNN等核心库的性能优势,源于针对特定指令流水线(Pipeline)和显存层级的手工汇编级优化。这是“软件之墙”最厚重的一层,它将通用算法变成了特定硬件的“私有方言”,异构厂商极难通过自动转译达到同等性能。

◆框架层(Framework Layer):生态入口。PyTorch、TensorFlow等框架虽然开源,但其后端调用路径长期被主流生态的原语(Primitives)所主导,形成了路径依赖。

1.2 横向阻滞:异构计算的三重排他性壁垒

当异构芯片试图融入这一单体生态时,遭遇的并非简单的API接口不兼容,而是底层体系结构设计哲学的根本性冲突。这种冲突具体表现为编程模型、算子实现与通信协议三个维度的“排异反应”。

1)编程模型的“翻译丢失”:SIMT范式的统治

主流编程模型(CUDA)建立在SIMT(单指令多线程)架构假设之上,隐式依赖了轻量级线程切换与Warp内的同步原语(如Shuffle指令)。这对于非SIMT架构构成了逻辑高墙。

以GoogleTPU为例,其核心采用脉动阵列(Systolic Array)架构,擅长宏观的大矩阵推演;而Graphcore IPU则采用MIMD(多指令多数据)架构。当这些硬件试图兼容主流CUDA代码时,编译器被迫将细粒度的线程逻辑“模拟”或展开为硬件原语。这种强行映射不仅导致了严重的流水线气泡(Pipeline Bubble),更使得异构硬件特有的优势(如TPU的确定性延迟、IPU的片上SRAM大带宽)无法在标准代码中被表达,陷入“效能倒挂”的陷阱。

◆算子适配的“N×M”复杂度灾难

在AI负载中,GEMM(通用矩阵乘)、Attention等核心算子占据了90%以上的计算量。为了追求极致性能,主流库(如cuBLAS)的实现早已脱离高级语言,进入了汇编级微操的深水区。高性能算子的实现严重依赖于目标硬件的物理参数。例如,利用特定的寄存器堆大小来分配分块(Tiling)策略,或利用特定的预取指令掩盖DRAM延迟。异构厂商若采用转译工具,由于无法通过编译自动推导最优的分块参数,性能往往仅为原生优化的20%-30%。若选择原生重写,则面临“N个算子适配M种硬件”的指数级工作量,这使得追赶者将绝大部分资源消耗在“重复造轮子”上,而非架构创新。

2)通信协议的封闭性:集群扩展的“阿喀琉斯之踵”

在万卡集群时代,跨芯片互联决定了训练规模的上限。主流集合通信库(NCCL)与私有协议(NVLink)深度绑定,能够利用交换机的算力实现网络内计算(In-Network Computing/SHARP),极大降低了通信延迟。相比之下,异构集群通常依赖标准的以太网(RoCE)。虽然RoCE在物理带宽上已无瓶颈,但现有的开源通信栈往往缺乏对标准网络拓扑的白盒感知能力。当异构芯片混入数据中心时,通信库无法根据物理拓扑进行自适应路由择优。这种软件栈对私有协议的“过度拟合”,而非标准网络本身的能力缺陷,成为了制约异构算力构建大规模线性集群的最后一道物理围墙。

2 计算熵驱动的范式分化:双范式演进逻辑

针对AI基础软件栈中“上层算法演进的随机性”与“底层硬件架构的固定性”这一根本矛盾,全球产业界并未收敛至单一最优解,而是根据“计算熵”的差异,演化出了两种截然不同的生存范式。这并非简单的商业选择,而是体系结构在应对“不确定性”与追求“确定性”之间形成的必然分化。

表 1 不同计算熵下的双范式

2.1 范式一:以不确定性为前提的通用协同范式

以NVIDIAGPGPU为代表的“通用计算范式”,其核心设计哲学是“最大熵”策略:假定上层业务是不确定的,因此必须构建一个尽可能完备的、软硬高度协同的平台,以冗余的硬件灵活性来消解业务的不确定性。

1)协同平台的“覆盖率悖论”与认知壁垒

该范式致力于提供普适性的算力支撑。然而,随着模型架构的非线性迭代,标准算子库面临着必然的“覆盖率悖论”:即通用的官方库(如cuBLAS)往往难以即时响应前沿模型(如DeepSeek、Mamba等)对新型算子的极致性能需求。

◆原生开发的“双栖”认知壁垒:当标准库失效时(例如DeepSeek团队为了追求FP8极限性能而绕过cuBLAS),开发者被迫下沉至底层进行原生开发。这一过程要求开发者具备极度稀缺的“双栖能力”:既需精通高维算法语义,又需掌控微架构级的指令流水与显存层级管理。这种跨学科的人才稀缺性,构成了该范式极高的人力资本护城河。

◆非对称开放策略:这一壁垒被NVIDIA的“指令集非对称暴露”机制进一步强化。尽管PTX作为中间指令集是开放的,但直接映射硬件物理行为的SASS机器码保持绝对封闭。这种策略在利用全球社区丰富上层生态的同时,通过隐蔽底层微架构细节,确立了对硬件性能解释权的绝对垄断。

2)“类CUDA”路线的技术负债与跟随者困境

受限于主流生态引力,众多异构芯片厂商选择了兼容CUDA的跟随策略。然而,这种基于“接口同构”的路径面临严重的内生性缺陷:

◆指令映射的性能惩罚:由于异构硬件在线程调度(WarpScheduling)与存储层级上与NVIDIA架构存在本质差异,强制性的代码转译往往引发严重的流水线气泡与算力损耗。

◆生态维护的“西西弗斯困境”:只要遵循CUDA定义的编程范式,跟随者就必须疲于应对主导者不断更新的指令集和算子标准,永远处于被动适配的状态,难以构建独立的技术护城河。

3)破局变量:基于中间层编译技术的抽象重构

值得注意的是,针对上述困境,以Triton、TileLang 为代表的新型编译器技术标志着通用范式的自我迭代,第一种通用范式正在经历从“私有指令集锁定”向“编译器抽象解耦”的深刻自我演进。

图 2 CUDA 与 T riton 编程模型在矩阵乘法算子实现上的范式对比 (Source: OpenAI)

◆从Thread到Block的认知降维: 传统的算子优化依赖于手工汇编,这是一种低效的“手工业”模式。Triton等语言通过引入块级(Block-Level)抽象语义,屏蔽了复杂的线程同步与内存冲突细节,将算子开发的认知门槛从“微架构专家”降低至“算法工程师”。这极大地扩充了能够进行底层优化的人才基数,从供给侧稀释了传统CUDA生态建立的人才壁垒。

◆异构厂商的“搭车效应”:更关键的是,它改变了异构厂商的生存法则。通用路线的追随者(如AMD、国产GPU)无需再各自投入巨资维护一套庞大且封闭的私有算子库(如各自复刻cuDNN),竞争焦点转移至“对标准IR(IntermediateRepresentation)的编译器后端支持”。一旦打通了Triton/TileLang的后端,异构芯片即可直接继承开源社区贡献的海量上层算子。这使得异构厂商能够以极低的边际成本融入主流生态,从而化解了通用范式长期积累的生态规模优势。

2.2 范式二:以确定性为锚点的垂直整合范式

与通用范式试图通过硬件的动态调度来适应软件不同,以Google TPU、AWS Trainium等头部云厂商为代表的“垂直整合范式”采用了截然相反的策略。其核心逻辑是:假定计算负载在微观层面是高度确定的(低熵),因此可以通过激进的“静态全图编译”,将运行时的硬件调度复杂度转移至编译期,从而实现极致的能效比。

1)架构哲学的倒置:从“运行时调度”到“编译期编排”

通用GPU依赖复杂的硬件单元(如乱序执行、分支预测、动态缓存管理)来在运行时应对指令流的不确定性。而垂直整合范式通过“架构极简主义”重构了软硬边界。

◆硬件的“去控制化”与确定性执行:该范式通常采用脉动阵列(SystolicArray)或大核心架构,剔除了大量用于动态调度的冗余晶体管。硬件不再具备复杂的自主决策能力,而是严格按照编译器生成的指令序列进行“机械式”的数据吞吐。

◆全知全能的静态编排:复杂性并未消失,而是发生了转移。编译器(如XLA、CANN)取代硬件成为了系统的“大脑”。它需要在编译阶段拥有“上帝视角”,对整个计算图进行全局静态分析,精确计算出每个张量在每个时钟周期的内存地址与传输路径。这种“空间-时间路由”的预计算能力,是该范式能够突破存储墙的核心机制。

2)全栈封闭的内生缺陷:“全有或全无”的编译壁垒

如果说通用范式的壁垒是“算子难写”,那么垂直整合范式的壁垒则是“编译难通”。这种过度依赖静态分析的模式,构建了另一种形态的技术高墙:

◆动态性恐惧与“填充陷阱”:由于极度依赖静态Shape推导,该范式对动态Shape和稀疏计算存在天然的“排异反应”。当遇到变长序列时,往往被迫采用最大值填充(Padding),导致算力浪费。这种对静态性的苛刻要求,严重限制了其对某些高动态性算法的亲和力。

◆黑盒编译器的“不可调试性”:垂直整合路线通常提供高度封装的黑盒编译器。当性能不达标时,开发者往往无法介入底层流水线干预。这种“全有或全无”的交付模式,导致其在应对非标准算子时显得极度僵化,且无法享受通用IR(如Triton)带来的生态红利。

3)垂直生态的演进逻辑:“爆款模型”牵引下的协同进化

由于缺乏通用性,该路线的演进呈现出鲜明的“共生进化”特征,其商业闭环高度依赖于特定算法范式的统治力。

◆Gemini 3 的牵引效应与超专门化:以Google TPU为例,其架构演进并非盲目追求通用指标,而是与自研的 Gemini 3 模型家族紧密耦合。Gemini 3 在万亿参数规模上的收敛,创造了单一且稳定的超大规模计算负载。这使得TPU可以针对Gemini特有的注意力机制变体进行超专门化设计。

◆“无模型即无芯片”的孤岛风险:这种策略是一把双刃剑。它本质上是将芯片的生命周期绑定于特定算法的生命周期。若缺乏类似Gemini 3级别的统治级模型支撑,或者算法范式发生剧烈转移(例如从DenseAttention转向全稀疏架构),这类专用ASIC往往因缺乏灵活性和规模效应而瞬间沦为“电子垃圾”。因此,该路线的本质不是卖通用芯片,而是“以算法定义算力,以全栈交付价值”。

3 未来趋势:计算熵驱动下的双范式共生与生态重构

随着AI产业从“技术狂热”迈向“价值落地”,基础软件栈正经历一场深刻的范式重构。单一的单体生态已无法同时满足“科研探索的高灵活性”与“商业推理的高能效性”双重需求。打破“软件之墙”的最终形态,将不再是某一种架构的独大,而是基于场景计算熵的功能解耦与异质共生。

3.1 异质性的动态均衡

未来的AI计算设施不会收敛于单一架构,而将在“通用灵活性”与“专用能效性”之间维持一种动态的Pareto最优均衡,形成“GPGPU+ASIC”的双模态异质共生格局。

图 3 基于计算熵特征的双模态算力范式分布

◆GPGPU作为“算法熵增”的承载者:在算法演进的“探索期”,计算图的拓扑结构与算子类型表现出高度的随机性与高熵特征(如当前从Transformer向State Space Models演进)。GPGPU凭借其细粒度线程调度与指令集的可编程性,是应对这种不确定性的唯一解。它将在科研与超前沿模型训练中持续占据主导地位,负责处理无法被ASIC静态固化的长尾计算负载。

◆ASIC作为“计算熵减”的收割者:一旦特定算法范式进入“落地期”,计算负载表现出低熵与确定性特征。此时,专用架构(ASIC)通过剔除乱序执行、分支预测等硬件冗余,将以数量级的能效优势(Performance/Watt)接管规模化推理市场。

3.2 编译范式的跃迁:从启发式手工优化到自动化搜索

随着硬件微架构复杂度的指数级上升(涉及HBM3e带宽利用、Tensor Core流水线排布、片上SRAM层级管理),依赖人类专家基于经验进行汇编级优化的传统模式已逼近认知极限。软件栈的核心竞争力正经历从“库导向”向“编译器导向”的范式跃迁。

◆设计空间的自动化探索:未来的编译器后端将不再仅仅是代码翻译器,而是基于成本模型(Cost Model)的搜索器。通过结合多面体模型(Polyhedral Model)与机器学习自动调优(ML-based Auto-tuning),编译器能够在庞大的参数空间中自动推导最优的分块(Tiling)、循环展开(Loop Unrolling)与指令流水掩盖(Latency Hiding)策略。

◆软件定义算子的演进:这一趋势标志着“算子库手工业时代”的终结。编译器将成为屏蔽底层硬件异构性的核心抽象层,实现“算法描述”与“硬件执行”的彻底解耦。对于芯片厂商而言,竞争焦点将从“维护庞大的静态算子库”转移至“构建高泛化能力的编译器后端”。

3.3 沙漏型生态与统一异构底座

面对“N种上层框架适配M种底层硬件”的N×M复杂度爆炸难题,单纯的算力堆叠已失效,产业界将加速收敛于一种经典的“沙漏型”分层架构,并最终走向统一的平台化纳管。

◆中间层的标准化收敛(沙漏细腰):以TritonIR或StableHLO为代表的中间表示层将构成生态的“细腰”。这一层向下屏蔽了SIMT(GPU)与DSA等不同微架构的指令集差异,向上提供了统一的语义接口。这是通用异构阵营对抗垂直整合封闭生态的最后防线,也是实现算力普惠的必由之路。

◆双模态的统一纳管(终局形态):基于此,AI基础设施的终局将不再是单一架构的垄断,而是走向“分而治之,统一纳管”。核心挑战演变为如何构建一个超级异构底座:既能通过标准IR纳管海量的通用算力(应对高熵探索),又能通过透传通道集成垂直专用算力(应对低熵落地)。谁能解决这一跨范式的系统级调度难题,谁就掌握了定义下一代智算中心的钥匙。

站在新的产业周期起点,我们有理由相信,随着编译范式的跃迁与统一底座的成熟,困扰行业多年的“软件之墙”终将由堵变疏,化作连接多元异构算力的“生态之桥”。在这场从封闭走向共生的变革中,唯有拥抱开放、尊重差异的长期主义者,方能穿越周期的迷雾,构筑起支撑数字经济蓬勃发展的坚实基座。

关闭