《数字化领航》AI应用专刊

前沿技术

计算熵与范式共生：AI基础软件栈的演进逻辑与异构融合路径

文 | 新华三集团智算创新业务部马小龙

摘要

随着深度学习模型参数规模突破万亿量级，AI算力正面临从“单一架构垄断”向“多元异构共生”的历史性转折。然而，硬件架构的爆发式创新与滞后的软件栈之间形成了难以逾越的“软件之墙”。本文从计算机体系结构视角出发，引入“计算熵”概念，揭示了产业界为应对算力瓶颈而分化出的两种截然不同的演进逻辑：一是以“不确定性应对”为核心的通用协同范式，通过冗余灵活性适配高计算熵场景（如算法探索与科研）；二是以“确定性效能”为核心的垂直整合范式，依托静态编译与爆款模型的牵引效应，在低计算熵场景（如规模化推理）中实现极致能效。未来，AI算力生态将呈现“开放通用底座”与“封闭专用孤岛”并存的格局：前者依靠IR技术的平权化效应打破单一厂商垄断，后者依靠特定算法的超专门化优势占据效能高地。

关键词

AI基础软件栈；计算熵；异构算力解耦；中间表示（IR）；软硬协同设计

引言

在后摩尔定律时代，通用处理器（CPU）的单核性能提升已无法匹配AI模型训练计算量每年10倍的增长速度。这一“算力剪刀差”迫使计算机工业界转向领域专用架构（Domain-Specific Architectures, DSA）。从NVIDIA的GPGPU到Google的TPU，再到Cerebras的晶圆级芯片，硬件层面的寒武纪大爆发为AI提供了理论上的澎湃算力。

然而，硬件算力的理论峰值往往难以在实际业务中兑现，其核心阻碍在于基础软件栈的滞后与割裂。长期以来，学术界与产业界过度关注上层深度学习框架（如PyTorch, TensorFlow）的易用性，却忽视了连接框架与硬件的“中间层”——即驱动、编译器、算子库与通信库——的复杂性。这导致了当下的尴尬局面：虽然异构芯片百花齐放，但软件生态的厚重壁垒却将算力锁死在单一架构之中。

面对这一挑战，产业界并未简单收敛至某一类架构，而是根据场景“计算熵”的差异，演化出了截然不同的生存法则：一类是追求通用性的协同范式，试图通过软件栈的灵活性来对抗算法迭代的“不确定性”；另一类则是追求极致效能的垂直整合范式，试图通过固化模型与硬件的“确定性”来换取成本优势。本文将深入剖析这两种范式的耦合机制与演进路径，并重点探讨中间层（IR）技术如何作为通用范式内部的“破壁人”，赋能异构计算厂商打破头部厂商的生态封锁，以及这一趋势如何重塑未来“双范式共生”的算力格局。

1 解构“软件之墙”：单体生态的耦合机制与异构困境

在AI算力从通用向专用迁移的过程中，硬件创新的速度已远超软件生态的演进速度。所谓的“软件之墙”，其本质并非单一的技术门槛，而是一套由既得利益者通过长期工程积累构建的系统性排他机制。本章将从计算机体系结构的视角，深入解构这道墙体的物理构成：一方面剖析主流单体生态（以CUDA为例）内部纵向的深度耦合机制，另一方面揭示其对外部异构硬件形成的横向阻滞效应，从而厘清异构算力难以释放的根源。

1.1 纵向耦合：从微架构到框架的深井结构

图 1 主流AI基础软件栈的层级耦合与锁定机制

AI芯片的基础软件体系并非简单的工具包，而是一个负责将上层“高维张量计算图”映射为底层“微观指令流”的复杂中间件系统。为了厘清其中的锁定机制，必须首先解剖当前占据统治地位的单体生态。该生态通过五个紧密耦合的层级（如图1所示），构建了一个从算法定义到晶体管调度的严密闭环，形成了难以迁移的“重力场”。

◆硬件层（Physical Layer）：物理算力的非对称基座。除了通用的CUDA核心，其核心壁垒在于专用加速单元（TensorCore）与私有互联（NVLink）。这两者的物理特性被深度硬编码进上层软件库中，使得任何缺乏对应物理单元的异构硬件，在运行标准代码时天然处于“降频”状态。

◆驱动层（Driver Layer）：JIT编译器的黑盒垄断。该层通过即时编译器（JIT Compiler）将开放的中间表示（PTX，Parallel Thread Execution）转译为封闭的机器码（SASS，Streaming Assembler）。这种“非对称开放策略”确保了原厂对“如何最高效利用硬件”拥有唯一的解释权，构建了极高的逆向工程法律壁垒。

◆运行时层（Runtime Layer）：SIMT模型的固化。该层隐式假定了单指令多线程（SIMT）的执行范式，并依赖Warp（线程束）内的同步原语。这种设计将硬件的微观调度行为固化为软件标准，迫使所有非SIMT架构（如DSA或存内计算）必须以极低效率去模拟这一行为。

◆算子库层（Library Layer）：手工优化的深水区。cuBLAS、cuDNN等核心库的性能优势，源于针对特定指令流水线（Pipeline）和显存层级的手工汇编级优化。这是“软件之墙”最厚重的一层，它将通用算法变成了特定硬件的“私有方言”，异构厂商极难通过自动转译达到同等性能。

◆框架层（Framework Layer）：生态入口。PyTorch、TensorFlow等框架虽然开源，但其后端调用路径长期被主流生态的原语（Primitives）所主导，形成了路径依赖。

1.2 横向阻滞：异构计算的三重排他性壁垒

当异构芯片试图融入这一单体生态时，遭遇的并非简单的API接口不兼容，而是底层体系结构设计哲学的根本性冲突。这种冲突具体表现为编程模型、算子实现与通信协议三个维度的“排异反应”。

1）编程模型的“翻译丢失”：SIMT范式的统治

主流编程模型（CUDA）建立在SIMT（单指令多线程）架构假设之上，隐式依赖了轻量级线程切换与Warp内的同步原语（如Shuffle指令）。这对于非SIMT架构构成了逻辑高墙。

以GoogleTPU为例，其核心采用脉动阵列（Systolic Array）架构，擅长宏观的大矩阵推演；而Graphcore IPU则采用MIMD（多指令多数据）架构。当这些硬件试图兼容主流CUDA代码时，编译器被迫将细粒度的线程逻辑“模拟”或展开为硬件原语。这种强行映射不仅导致了严重的流水线气泡（Pipeline Bubble），更使得异构硬件特有的优势（如TPU的确定性延迟、IPU的片上SRAM大带宽）无法在标准代码中被表达，陷入“效能倒挂”的陷阱。

◆算子适配的“N×M”复杂度灾难

在AI负载中，GEMM（通用矩阵乘）、Attention等核心算子占据了90%以上的计算量。为了追求极致性能，主流库（如cuBLAS）的实现早已脱离高级语言，进入了汇编级微操的深水区。高性能算子的实现严重依赖于目标硬件的物理参数。例如，利用特定的寄存器堆大小来分配分块（Tiling）策略，或利用特定的预取指令掩盖DRAM延迟。异构厂商若采用转译工具，由于无法通过编译自动推导最优的分块参数，性能往往仅为原生优化的20%-30%。若选择原生重写，则面临“N个算子适配M种硬件”的指数级工作量，这使得追赶者将绝大部分资源消耗在“重复造轮子”上，而非架构创新。

2）通信协议的封闭性：集群扩展的“阿喀琉斯之踵”

在万卡集群时代，跨芯片互联决定了训练规模的上限。主流集合通信库（NCCL）与私有协议（NVLink）深度绑定，能够利用交换机的算力实现网络内计算（In-Network Computing/SHARP），极大降低了通信延迟。相比之下，异构集群通常依赖标准的以太网（RoCE）。虽然RoCE在物理带宽上已无瓶颈，但现有的开源通信栈往往缺乏对标准网络拓扑的白盒感知能力。当异构芯片混入数据中心时，通信库无法根据物理拓扑进行自适应路由择优。这种软件栈对私有协议的“过度拟合”，而非标准网络本身的能力缺陷，成为了制约异构算力构建大规模线性集群的最后一道物理围墙。

2 计算熵驱动的范式分化：双范式演进逻辑

针对AI基础软件栈中“上层算法演进的随机性”与“底层硬件架构的固定性”这一根本矛盾，全球产业界并未收敛至单一最优解，而是根据“计算熵”的差异，演化出了两种截然不同的生存范式。这并非简单的商业选择，而是体系结构在应对“不确定性”与追求“确定性”之间形成的必然分化。

表 1 不同计算熵下的双范式

2.1 范式一：以不确定性为前提的通用协同范式

以NVIDIAGPGPU为代表的“通用计算范式”，其核心设计哲学是“最大熵”策略：假定上层业务是不确定的，因此必须构建一个尽可能完备的、软硬高度协同的平台，以冗余的硬件灵活性来消解业务的不确定性。

1）协同平台的“覆盖率悖论”与认知壁垒

该范式致力于提供普适性的算力支撑。然而，随着模型架构的非线性迭代，标准算子库面临着必然的“覆盖率悖论”：即通用的官方库（如cuBLAS）往往难以即时响应前沿模型（如DeepSeek、Mamba等）对新型算子的极致性能需求。

◆原生开发的“双栖”认知壁垒：当标准库失效时（例如DeepSeek团队为了追求FP8极限性能而绕过cuBLAS），开发者被迫下沉至底层进行原生开发。这一过程要求开发者具备极度稀缺的“双栖能力”：既需精通高维算法语义，又需掌控微架构级的指令流水与显存层级管理。这种跨学科的人才稀缺性，构成了该范式极高的人力资本护城河。

◆非对称开放策略：这一壁垒被NVIDIA的“指令集非对称暴露”机制进一步强化。尽管PTX作为中间指令集是开放的，但直接映射硬件物理行为的SASS机器码保持绝对封闭。这种策略在利用全球社区丰富上层生态的同时，通过隐蔽底层微架构细节，确立了对硬件性能解释权的绝对垄断。

2）“类CUDA”路线的技术负债与跟随者困境

受限于主流生态引力，众多异构芯片厂商选择了兼容CUDA的跟随策略。然而，这种基于“接口同构”的路径面临严重的内生性缺陷：

◆指令映射的性能惩罚：由于异构硬件在线程调度（WarpScheduling）与存储层级上与NVIDIA架构存在本质差异，强制性的代码转译往往引发严重的流水线气泡与算力损耗。

◆生态维护的“西西弗斯困境”：只要遵循CUDA定义的编程范式，跟随者就必须疲于应对主导者不断更新的指令集和算子标准，永远处于被动适配的状态，难以构建独立的技术护城河。

3）破局变量：基于中间层编译技术的抽象重构

值得注意的是，针对上述困境，以Triton、TileLang 为代表的新型编译器技术标志着通用范式的自我迭代，第一种通用范式正在经历从“私有指令集锁定”向“编译器抽象解耦”的深刻自我演进。

图 2 CUDA 与 T riton 编程模型在矩阵乘法算子实现上的范式对比（Source: OpenAI）

◆从Thread到Block的认知降维： 传统的算子优化依赖于手工汇编，这是一种低效的“手工业”模式。Triton等语言通过引入块级（Block-Level）抽象语义，屏蔽了复杂的线程同步与内存冲突细节，将算子开发的认知门槛从“微架构专家”降低至“算法工程师”。这极大地扩充了能够进行底层优化的人才基数，从供给侧稀释了传统CUDA生态建立的人才壁垒。

◆异构厂商的“搭车效应”：更关键的是，它改变了异构厂商的生存法则。通用路线的追随者（如AMD、国产GPU）无需再各自投入巨资维护一套庞大且封闭的私有算子库（如各自复刻cuDNN），竞争焦点转移至“对标准IR（IntermediateRepresentation）的编译器后端支持”。一旦打通了Triton/TileLang的后端，异构芯片即可直接继承开源社区贡献的海量上层算子。这使得异构厂商能够以极低的边际成本融入主流生态，从而化解了通用范式长期积累的生态规模优势。

2.2 范式二：以确定性为锚点的垂直整合范式

与通用范式试图通过硬件的动态调度来适应软件不同，以Google TPU、AWS Trainium等头部云厂商为代表的“垂直整合范式”采用了截然相反的策略。其核心逻辑是：假定计算负载在微观层面是高度确定的（低熵），因此可以通过激进的“静态全图编译”，将运行时的硬件调度复杂度转移至编译期，从而实现极致的能效比。

1）架构哲学的倒置：从“运行时调度”到“编译期编排”

通用GPU依赖复杂的硬件单元（如乱序执行、分支预测、动态缓存管理）来在运行时应对指令流的不确定性。而垂直整合范式通过“架构极简主义”重构了软硬边界。

◆硬件的“去控制化”与确定性执行：该范式通常采用脉动阵列（SystolicArray）或大核心架构，剔除了大量用于动态调度的冗余晶体管。硬件不再具备复杂的自主决策能力，而是严格按照编译器生成的指令序列进行“机械式”的数据吞吐。

◆全知全能的静态编排：复杂性并未消失，而是发生了转移。编译器（如XLA、CANN）取代硬件成为了系统的“大脑”。它需要在编译阶段拥有“上帝视角”，对整个计算图进行全局静态分析，精确计算出每个张量在每个时钟周期的内存地址与传输路径。这种“空间-时间路由”的预计算能力，是该范式能够突破存储墙的核心机制。

2）全栈封闭的内生缺陷：“全有或全无”的编译壁垒

如果说通用范式的壁垒是“算子难写”，那么垂直整合范式的壁垒则是“编译难通”。这种过度依赖静态分析的模式，构建了另一种形态的技术高墙：

◆动态性恐惧与“填充陷阱”：由于极度依赖静态Shape推导，该范式对动态Shape和稀疏计算存在天然的“排异反应”。当遇到变长序列时，往往被迫采用最大值填充（Padding），导致算力浪费。这种对静态性的苛刻要求，严重限制了其对某些高动态性算法的亲和力。

◆黑盒编译器的“不可调试性”：垂直整合路线通常提供高度封装的黑盒编译器。当性能不达标时，开发者往往无法介入底层流水线干预。这种“全有或全无”的交付模式，导致其在应对非标准算子时显得极度僵化，且无法享受通用IR（如Triton）带来的生态红利。

3）垂直生态的演进逻辑：“爆款模型”牵引下的协同进化

由于缺乏通用性，该路线的演进呈现出鲜明的“共生进化”特征，其商业闭环高度依赖于特定算法范式的统治力。

◆Gemini 3 的牵引效应与超专门化：以Google TPU为例，其架构演进并非盲目追求通用指标，而是与自研的 Gemini 3 模型家族紧密耦合。Gemini 3 在万亿参数规模上的收敛，创造了单一且稳定的超大规模计算负载。这使得TPU可以针对Gemini特有的注意力机制变体进行超专门化设计。

◆“无模型即无芯片”的孤岛风险：这种策略是一把双刃剑。它本质上是将芯片的生命周期绑定于特定算法的生命周期。若缺乏类似Gemini 3级别的统治级模型支撑，或者算法范式发生剧烈转移（例如从DenseAttention转向全稀疏架构），这类专用ASIC往往因缺乏灵活性和规模效应而瞬间沦为“电子垃圾”。因此，该路线的本质不是卖通用芯片，而是“以算法定义算力，以全栈交付价值”。

3 未来趋势：计算熵驱动下的双范式共生与生态重构

随着AI产业从“技术狂热”迈向“价值落地”，基础软件栈正经历一场深刻的范式重构。单一的单体生态已无法同时满足“科研探索的高灵活性”与“商业推理的高能效性”双重需求。打破“软件之墙”的最终形态，将不再是某一种架构的独大，而是基于场景计算熵的功能解耦与异质共生。

3.1 异质性的动态均衡

未来的AI计算设施不会收敛于单一架构，而将在“通用灵活性”与“专用能效性”之间维持一种动态的Pareto最优均衡，形成“GPGPU+ASIC”的双模态异质共生格局。

图 3 基于计算熵特征的双模态算力范式分布

◆GPGPU作为“算法熵增”的承载者：在算法演进的“探索期”，计算图的拓扑结构与算子类型表现出高度的随机性与高熵特征（如当前从Transformer向State Space Models演进）。GPGPU凭借其细粒度线程调度与指令集的可编程性，是应对这种不确定性的唯一解。它将在科研与超前沿模型训练中持续占据主导地位，负责处理无法被ASIC静态固化的长尾计算负载。

◆ASIC作为“计算熵减”的收割者：一旦特定算法范式进入“落地期”，计算负载表现出低熵与确定性特征。此时，专用架构（ASIC）通过剔除乱序执行、分支预测等硬件冗余，将以数量级的能效优势（Performance/Watt）接管规模化推理市场。

3.2 编译范式的跃迁：从启发式手工优化到自动化搜索

随着硬件微架构复杂度的指数级上升（涉及HBM3e带宽利用、Tensor Core流水线排布、片上SRAM层级管理），依赖人类专家基于经验进行汇编级优化的传统模式已逼近认知极限。软件栈的核心竞争力正经历从“库导向”向“编译器导向”的范式跃迁。

◆设计空间的自动化探索：未来的编译器后端将不再仅仅是代码翻译器，而是基于成本模型（Cost Model）的搜索器。通过结合多面体模型（Polyhedral Model）与机器学习自动调优（ML-based Auto-tuning），编译器能够在庞大的参数空间中自动推导最优的分块（Tiling）、循环展开（Loop Unrolling）与指令流水掩盖（Latency Hiding）策略。

◆软件定义算子的演进：这一趋势标志着“算子库手工业时代”的终结。编译器将成为屏蔽底层硬件异构性的核心抽象层，实现“算法描述”与“硬件执行”的彻底解耦。对于芯片厂商而言，竞争焦点将从“维护庞大的静态算子库”转移至“构建高泛化能力的编译器后端”。

3.3 沙漏型生态与统一异构底座

面对“N种上层框架适配M种底层硬件”的N×M复杂度爆炸难题，单纯的算力堆叠已失效，产业界将加速收敛于一种经典的“沙漏型”分层架构，并最终走向统一的平台化纳管。

◆中间层的标准化收敛（沙漏细腰）：以TritonIR或StableHLO为代表的中间表示层将构成生态的“细腰”。这一层向下屏蔽了SIMT（GPU）与DSA等不同微架构的指令集差异，向上提供了统一的语义接口。这是通用异构阵营对抗垂直整合封闭生态的最后防线，也是实现算力普惠的必由之路。

◆双模态的统一纳管（终局形态）：基于此，AI基础设施的终局将不再是单一架构的垄断，而是走向“分而治之，统一纳管”。核心挑战演变为如何构建一个超级异构底座：既能通过标准IR纳管海量的通用算力（应对高熵探索），又能通过透传通道集成垂直专用算力（应对低熵落地）。谁能解决这一跨范式的系统级调度难题，谁就掌握了定义下一代智算中心的钥匙。

站在新的产业周期起点，我们有理由相信，随着编译范式的跃迁与统一底座的成熟，困扰行业多年的“软件之墙”终将由堵变疏，化作连接多元异构算力的“生态之桥”。在这场从封闭走向共生的变革中，唯有拥抱开放、尊重差异的长期主义者，方能穿越周期的迷雾，构筑起支撑数字经济蓬勃发展的坚实基座。