《数字化领航》AI应用专刊

前沿技术

模型技术下一站：多模态融合、世界模型与具身智能

文 | 新华三集团解决方案部陈韬

摘要

随着大模型领域技术和应用的不断发展，大模型正在从单模态迈向多维度融合与认知升级的新阶段。本文以此为切入点，聚焦其核心演进方向并展开探讨。首先探讨多模态大模型（MM-LLM），其通过构建统一表征空间、挖掘跨模态语义关联，实现文本、图像、语音等信息的深度融合，进而形成与人类的感知与理解更贴近的能力。在此基础上，前瞻性探讨世界模型（World Models, WMs）的原理与机制，重点分析其在具身智能（EmbodiedAI）领域的应用前景，揭示其推动AI 突破 “感知 - 决策” 壁垒、实现统一认知与行动能力的颠覆性价值，为大模型技术的下一个发展阶段提供方向参考。

关键词

大型语言模型（LLM）；多模态大模型（MM-LLM）；世界模型（World Models, WMs）；具身智能（Embodied AI）；统一感知与决策

引言：大模型技术的演进方向

以Transformer架构为核心的大型语言模型（LLM）已在文本理解、生成领域中实现了突破性进展，但其仅局限于单一模态处理能力，缺乏物理世界交互经验的局限性日益凸显。大模型技术的下一阶段，必然是突破模态壁垒限制，构建能够像人类一样整合多维度感官信息、理解物理世界规律并自主行动的智能系统。

多模态大模型（MM-LLM）通过融合文本、图像、语音等异构信息，解决了传统模型 “感官单一” 的问题。世界模型（World Models, WMs）则为智能体提供了“预测未来”的能力，通过构建环境动态的内部表征实现预测推理，具身智能（Embodied AI）则将这种能力落地于物理世界，完成“感知 - 决策 - 执行”的闭环。三者的协同融合，正在推动人工智能从“单一感知”到“多维感知”，从“被动认知” 到 “主动预测”，迈向“统一感知与决策”的新阶段，这也是通向通用人工智能（AGI）的必然发展趋势。

1 多模态大语言模型（MM-LLM）：跨模态理解的技术基石

1.1 核心架构：

多模态大模型（MM-LLM，Multimodal Large Language Model）是一种结合了大型语言模型（LLMs）的自然语言处理能力与对其他模态（如视觉、音频等）数据的理解与生成能力的模型，其核心特征是打破单模态模型的认知局限，构建跨模态的统一语义空间，多模态大模型通过整合文本、图像、声音等多种类型的输入和输出，可以提供更加丰富和自然的交互体验。

多模态大模型是以多模态输入，多模态输出的架构，其架构一般包括编码器、连接器以及 LLM。

图1 多模态大语言模型（MM-LLM）架构

模态编码是多模态融合的“特征提取关口”，其主要任务是将不同模态的输入数据转换成模型能够进一步处理的特征表示。这些输入数据可以包括图像、文本、音频、视频等多种形式，目前存在几种主流的编码器方案：

图2 CLIP双编码器架构

双编码器：双编码器将不同模态的数据分别编码，然后仅使用简单的相似度匹配将模态表征映射到同一特征空间。典型代表是OpenAI的CLIP模型，它通过在大量的“图像—文本对”数据上进行预训练，实现了图像与文本之间的联合理解和推理。CLIP的文本编码器通常采用Transformer，图像编码器可以选择ViT（Vision Transformer）或CNN等模型架构。训练过程中，CLIP利用对比学习，提高正样本（即图像及其相应的文本描述）的特征相似性，同时降低负样本（即图像与非配对的文本描述）的特征相似性，以此将图像和文本映射到同一特征空间，以理解并对齐多模态信息。

融合编码器：以CLIP为代表的双编码器模型在下游分类和检索任务上展现了出色的泛化能力，然而在复杂推理（如视觉推理和视觉问答）任务中的表现仍然不尽人意。主要是在模态的融合阶段，CLIP仅使用了简单的相似度匹配方法，无法充分综合多模态推理所需的不同模态信息。为了解决这个问题，融合编码器架构采用的方案是，在编码过程中就进行模态特征融合，以提取更深层次的跨模态特征。

融合编码器早期通常依赖于在特定任务上预训练的模型来提取多模态特征，例如ViLBERT模型使用预训练的目标检测模型Faster-RCNN来提取图像特征。这种方法特征提取效率较低，多模态表征能力也因在特定领域上的训练而受限。随着Transformer在各个单模态任务上的广泛应用，它也逐渐成为融合编码器中通用特征提取架构的主流技术。ViLT提出去除传统的目标检测器，采用ViT的方式将图像转化为离散的图像块嵌入，和文本嵌入拼接后输入Transformer编码器进行模态融合，以此来建模图像和文本之间的联系。

图3 ViT编码器架构

连接器则进一步将特征处理成LLM 易于理解的形式，即视觉Token，相对前两者来说，连接器的重要性略低。例如，MM1通过实验发现，连接器的类型不如视觉Token 数量（决定之后LLM可用的视觉信息）及图片的分辨率（决定视觉编码器的输入信息量）重要。

目前，三者的参数量通常并不等同，以Qwen-VL模型为例，LLM作为“大脑”参数量为7.7B，约占总参数量的80.2%，视觉编码器次之，参数量1.9B，约占 19.7%，而连接器参数量仅有 0.08B。

1.2 数据与训练

多模态大模型的训练大致可以划分为预训练阶段、指令微调阶段和对齐微调阶段。预训练阶段主要通过大量配对数据将图片信息对齐到LLM的表征空间，即让LLM读懂视觉Token。指令微调阶段则通过多样化的各种类型的任务数据提升模型在下游任务上的性能，以及模型理解和服从指令的能力。对齐微调阶段一般使用强化学习技术使模型对齐人类价值观或某些特定需求。

早期的一些工作，预训练阶段主要使用粗粒度的图文对数据，如LAION-5B模型采用的数据主要来源于互联网上的图片及其附带的文字说明，因此具有规模大（数十亿规模）但噪声多、文本短的特点，容易影响对齐的效果。后续的工作则探索使用更干净、文本内容更丰富的数据做对齐。如ShareGPT4V（香港中文大学 MMLab联合上海人工智能实验室等机构于2024年推出的工作，核心思想是“用高质量图文对齐数据提升多模态大模型”），使用 GPT-4V生成的详细描述来做更细粒度的对齐，在一定程度上缓解了对齐不充分的问题，获得了更好的性能。

指令微调阶段，微调数据一方面可以来源于各种任务的数据，如VQA数据、OCR数据等，也可以来源于 GPT-4V生成的数据，如问答对。虽然后者一般能够生成更复杂、更多样化的指令数据，但这种方式也显著地增加了成本。值得一提的是，指令微调阶段的训练中一般还会混合部分纯文本的对话数据，这类数据可以视为正则化的手段，保留LLM原有的能力与内嵌知识。

2 世界模型：AI通向通用智能的核心引擎

当Sora实现了超写实视频对物理现实的复刻，AI领域正迎来一场从“感知数据”到“理解世界”的范式跃迁。而在这一变革之中，OpenAI、Meta等公司也争相布局“世界模型”——它打破了传统AI仅能在固定数据集内完成模式匹配的局限，通过构建对现实世界的动态内部模拟，将数据转化为可解释、可预测、可推理的物理世界认知，使得大模型真正具备了类人智能的核心能力。

从多模态大模型的技术演进来看，语言、图像、视频等多维度数据的融合，为世界模型提供了感知世界的“多感官输入”，而世界模型则在此基础上实现了从信息整合到认知建模的关键跨越：它不仅能理解多模态数据的表层关联，更能够通过现象看透本质，理解物理规律、因果逻辑与环境交互的底层逻辑。这种深度认知能力，在涉及自主决策的系统中，发挥着越来越重要的作用。在具身智能领域，它更成为连接数字世界与物理世界的桥梁，让智能体在真实环境中具备自主规划、实时交互的能力。

2.1 世界模型的核心原理与技术路径

世界模型（World Models, WMs）作为一种生成式AI模型，能够通过构建内部表征理解真实世界的动态规律（包括物理特性、空间属性等）。通过从感官数据中学习表征和预测运动、力和空间关系等动态特性，实现对现实环境物理属性的理解并通过生成环境及动作，从而模拟、指导及实施决策。

这类模型已在具身智能、自动驾驶等前沿领域展现出巨大应用潜力，成为驱动智能系统向高阶感知与决策能力跃升的核心技术支柱。

图4 世界模型的核心原理

2.2 世界模型的发展历程

“WorldModels”这一词最早出现在2018年 Jurgen在机器学习顶会NeurIPS上发表的一篇名为《Recurrent World Models Facilitate Policy Evolution》的文章中。文章以认知科学中人脑的mental model 来类比世界模型，认为mental model参与了人类的认知、推理、决策过程。

近年来，随着深度学习技术的不断发展和计算资源的增加，世界模型的研究取得了显著的进展。例如，2019 年DeepMind发表的MuZero算法、2024年META提出的 JEPA表征模型等，都推动了世界模型在不同领域的应用探索。

图5 世界模型的研究进展

2.3 世界模型的核心要素

——Worlds Labs联合创始人李飞飞

◆感知与建模

世界模型始于感知，视觉、听觉、触觉等信号的整合，并将其转化为对环境的认知。这一过程由传感器、图像识别、自然语言处理等技术接力完成。

◆状态表示

感知到的原始数据需被提炼成“状态”。在强化学习中，状态是某一时刻环境的抽象快照，在更广义的场景里，它可以是属性向量，也可以是带时间戳的序列集合，可以将原始感知转换成数字化表达。

◆学习与更新

世界模型的另一重要特征是能够通过学习不断更新自己的结构。通过积累的人类经验数据，以及人工智能通过训练数据，能够随着新信息的加入而不断优化，以提高其对未来预测的准确性。

◆动态与预测

拥有状态与更新机制后，模型便获得“先演算、再行动”的能力：它能依据已有信息对未来做出预

测，帮助决策者在不确定中做出更理性、更高效的选择。

2.4 世界模型的关键技术能力

因果推理能力：生活中大多数数据为动态视觉信息，如何利用图像、视频等视觉输入自发地理解现实概念并实现与人类的交互一直是一大难题，最先进的多模态模型在视觉因果推理方面与人类相比仍存在较大改进空间，世界模型通过构建视觉感知组件与记忆组件，所学习到的关于环境的表征与对于未来的预测能有效地帮助模型理解现实概念，构建强大的复杂因果推理能力，提升AI在动态环境中的自主决策能力。

场景重建时空一致性：常见的视频生成通常侧重于以单一模态或单一视角生成数据，虽然其已经初步展现出对时空一致性、视觉因果链的建模能力，但受限于物体遮挡、视角信息固定、缺乏3D结构信息等因素，难以实现真正的时空一致性。在3D世界中，我们的视角通常会随心所欲地沿着不同路径，向各种各样的方向移动，在这一场景下世界模型需要更强的时空一致性与动态3D环境生成能力。如何保持空间结构稳定（如物体形状、位置、遮挡关系）和时间演化连贯（如运动轨迹、因果关系、物理规律）等问题，是一大挑战。当前世界模型通过长期记忆机制、潜在空间建模、对象中心表征等技术在更高维度空间利用潜变量向量代替像素重建，带来泛化能力和样本效率的提升，从而达成更优的时空一致性。

多模数据物理规则描述：模拟复杂的物理规则仍然是一项极具挑战性的任务，现实世界中的流体运动、物体碰撞等物理现象涉及到大量的参数和变量，具有高度的非线性和不确定性。以流体模拟为例，水的流动受到重力、粘度、表面张力等多种因素的影响，不同场景下的流体行为差异巨大，想要精确模拟十分困难。在物体碰撞模拟中，不仅要考虑物体的材质、形状、质量等属性，还需要准确计算碰撞瞬间的力的传递和能量转换，稍有偏差就会导致模拟结果与现实不符。

执行与实时反馈：在真实世界中，获取实时的交互数据面临诸多困难，收集数据需要耗费大量的时间、人力和物力，而且存在安全风险，难以获取足够丰富和多样化的数据。而世界模型通过结合强化学习，可以实现从感知→ 建模→ 规划→ 执行→ 感知更新→ 模型修正的动态循环过程，甚至在过程中还可以根据主动干预来验证预测，并利用反馈信号持续优化自身。

2.5 世界模型应用，从感知智能向具身智能的跃迁

具身智能（EmbodiedAI）起源于1950年图灵提出的具身图灵测试，旨在探索智能体是否能模仿人类智能以实现通用人工智能（ArtificialGeneralIntelligence, AGI）。具身智能基于认知科学和神经科学的见解，认为智能是从感知、认知和交互的动态耦合中涌现出来的。具身智能包括三个关键组成部分：主动感知（通过传感器驱动的环境观察）、具身认知（基于历史经验驱动的认知更新）和动态交互（通过执行器介导的动作控制）。

具身智能的发展经历了从单模态到多模态的转变。早期具身智能主要关注单个模态，如视觉、语言或动作，每个模块由单一的感官输入驱动。然而，单模态方法存在信息范围有限和跨模块模态间存在固有差距的局限性。因此，具身智能逐渐向多模态融合的方向发展，以创建更具适应性、灵活性和鲁棒性的智能体，使其能够在动态环境中执行复杂任务。

世界模型通过构建外部世界的内部表示和未来预测，为具身智能提供了与物理规律契合的交互能力。内部表示将丰富的感官输入压缩成结构化的潜在空间，捕捉物体动态、物理定律和空间结构，使具身智能能够推理其周围环境中“存在什么”以及“事物如何行为”。未来预测则通过模拟符合物理定律的序列动作的潜在奖励，从而预防风险或低效行为。世界模型通过构建外部世界的内部表示和未来预测，显著增强了具身AI的物理交互能力。

3 大模型技术展望

大模型技术的演进正经历从单一模态向多模态融合的演进，多模态融合、世界模型构建与具身智能形成了感知、认知、行动的技术三角，多模态融合奠定感知基础，世界模型赋予认知核心，具身智能实现行动落地，三者的协同演进已清晰勾勒出通用人工智能（AGI）的发展路径。未来，随着大模型技术的持续迭代，大模型将更深入地融入物理世界，推动人工智能迈向新高度。