

AI教父杨立昆离开Meta创办AMI Labs时撂下一句话:"整个行业都陷入了LLM思维的泥潭。"
这句话在2026年2月得到资本市场最强烈的回应。李飞飞的World Labs官宣10亿美元新融资,估值冲破50亿美金——从10亿到50亿,这家公司只用了不到2年。 Anthropic达到同等估值花了25个月,而World Labs更快。

AMD、英伟达、富达、Autodesk同时下注。这不是简单的财务投资,而是一场关于"空间智能"的产业合围。当黄仁勋在CES上宣称"物理AI的ChatGPT时刻已然来临"时,大晓机器人首席科学家陶大程给出了更精准的坐标:"我们正处于爆发的前夜。"
前夜与黎明之间,横亘着一道40年未解的"莫拉维克悖论":让AI下棋容易,让它像1岁婴儿般感知物理世界却很难。世界模型,正是跨越这道鸿沟的桥梁。

一、LLM的致命盲区:为什么语言模型无法"脚踏实地"?
当前的大语言模型(LLM)和多模态大模型(MLLM)在数字世界所向披靡,却在物理世界频频碰壁。根源在于一个根本性的认知断层:它们擅长符号推理,却缺乏物理常识。
清华大学与复旦大学联合发表在IEEE的综述论文指出,MLLM能实现上下文任务推理,但忽略物理约束;而世界模型(WM)擅长物理感知仿真,却缺乏高级语义。这种割裂导致了三个致命问题:
1. 物理不可行性
LLM可以优雅地分解"把杯子放到桌上"这个指令,但它不知道陶瓷杯从1.5米高度跌落会碎裂,不理解玻璃与木桌的摩擦力差异。当MLLM生成的动作序列违反重力或材料力学时,机器人只能" hallucinate"(幻觉)出危险动作。正如新加坡国立大学教授Harold Soh警告:"语言模型幻觉出一个事实只是个笑话,但机器人的动作幻觉极其危险。"
2. 实时适应性缺失
LLM依赖静态预训练知识,面对动态环境时响应滞后。当传送带速度突然变化,或光照条件急剧改变时,纯LLM驱动的系统往往无法实时调整。论文数据显示,现有MLLM在动态环境中的实时反馈延迟普遍超过物理安全阈值。
3. 数据饥渴与成本黑洞
VLA(视觉-语言-动作)模型需要海量机器人数据训练。收集1小时真实机器人交互数据的成本,是爬取100万条网页文本的300倍以上。物理世界的经验不存在于互联网历史数据库中,只能通过真实交互生成。这种"数据暗物质"构成了规模化落地的首要壁垒。

这正是世界模型登场的必然性。World Labs的首款产品Marble模型,能够将文本、图像、视频或3D输入转化为几何一致、永久稳定的可交互3D世界。与Sora等视频生成模型不同,Marble构建的世界遵循物理规律——物体不会凭空消失,重力始终指向地心,碰撞会产生符合动量守恒的反作用。
二、技术深析:世界模型的三大架构路线与融合范式
世界模型并非单一路径,而是呈现出明显的技术谱系分化。根据IEEE综述论文的梳理,当前主流架构可分为三大流派:

1. RSSM路线:概率与确定性的平衡(Dreamer家族)
由DeepMind提出的循环状态空间模型(RSSM),通过将隐藏状态正交分解为概率性组件与确定性组件,显式建模环境的不确定性。Dreamer-v3等算法在机器人运动控制中展现出强大的样本效率,仅需10万次交互即可学会复杂策略。这种架构的优势在于预测能力的数学严谨性,但局限在于对高维语义的理解能力较弱。
2. JEPA路线:非生成式的表征学习(杨立昆路线)
联合嵌入预测架构(JEPA)是杨立昆批判LLM范式的核心武器。与生成式模型不同,JEPA在抽象潜空间中建立输入数据与预测结果的映射关系,优先提取语义特征而非像素级重建。这种架构通过自监督学习训练,能够从未标注视频数据中学习物理规律,在视觉与非视觉领域均展现出跨任务泛化能力。
3. Transformer路线:注意力机制的世界建模(Genie范式)
谷歌的Genie框架采用时空Transformer(ST-Transformer),通过大规模自监督视频预训练创建可交互的合成环境。这种架构在需要持久记忆和显式记忆寻址的认知推理任务中表现优异,相比RSSM在内存密集型交互场景中准确率提升15-20%。
然而,单一架构无法解决所有问题。正如论文提出的关键洞察:
MLLM提供语义智能,WM提供物理智能,二者的融合才是下一代具身物理AI的终极形态。
EvoAgent:自进化智能体的样本

清华大学团队提出的EvoAgent架构,正是MLLM-WM融合的典型代表。该系统通过三重闭环实现自主进化:
这种架构在跨环境长程任务中实现了零样本迁移,无需人工干预即可完成数十步的复杂操作。数据显示,融合架构在任务成功率上比纯MLLM方案提升40%,比纯WM方案提升35%。

三、数据范式革命:从Sim-to-Real到Real-Sim-Real
物理AI的落地瓶颈,本质是数据成本与现实鸿沟(Reality Gap)的博弈。
早期采用Sim-to-Real范式:先在虚拟环境中训练,再迁移到真实硬件。但物理引擎的手工调参难以模拟真实世界的摩擦力、形变与噪声,导致迁移失败率高达60%以上。
Real-to-Real范式主张直接通过物理交互学习,虽然数据真实,但单次试错成本极高:一台工业机械臂的碰撞损坏维修费用可达数万元,且数据采集速度仅为虚拟仿真的1/1000。
2026年,行业正加速收敛至Real-Sim-Real闭环:
这种范式将数据获取成本降低两个数量级,同时通过世界模型的物理一致性约束,将Sim-to-Real的迁移成功率提升至85%以上。李飞飞提到的"混合数据策略"正是此意:结合互联网文本/图像、模拟数据与真实世界采集数据,构建上亿小时规模的训练数据集。

四、产业落地的三级阶梯:从工厂到家庭
物理AI的商业化遵循严格的认知复杂度阶梯。陶大程提出的分析框架清晰界定了三个层级:
第一级:空间理解(已规模化)
巡检、安防、物流场景只需理解"从A到B"的几何关系。亚马逊仓储系统通过物理AI优化,客户交付速度提升25%,机器人行驶效率再优化10%,站点事故率降低15%。这类任务规则明确,容错率高,是当前渗透率最高的领域。
第二级:物体操作(工业爆发期)
富士康电子组装线引入物理AI与数字孪生后,新产线部署时间缩短40%,运营成本降低15%,生产周期缩短20-30%,缺陷率大幅下降25%。这一阶段要求AI理解材质、形状与力学特性,世界模型提供的虚拟训练环境使数据采集成本降低90%。
第三级:理解人类(终极战场)
家庭场景是物理AI的"圣杯"。当用户说"帮我收拾客厅"时,AI需要理解物品归属、清洁标准与人类活动习惯。这类常识无法通过规则编程,必须从大规模物理交互中习得。当前技术成熟度不足20%,但代表万亿级市场的终极方向。
五、硬件与架构的协同进化
世界模型的落地不仅依赖算法,更需要硬件-软件协同设计。论文指出三个关键方向:
模型压缩与量化:通过硬件感知的剪枝与低比特量化,将大模型压缩至边缘设备可承载的体量,功耗降低70%的同时保持95%以上精度。
领域专用加速器(DSA):TPU、FPGA与CGRA架构针对世界模型的矩阵运算与注意力机制优化,推理延迟降至10毫秒级,满足实时控制需求。
存算一体架构:世界模型需要频繁访问环境记忆,传统冯·诺依曼架构的"内存墙"成为瓶颈。新型存内计算芯片可将能效比提升100倍。
结语:从必然王国到自由王国
李飞飞的10亿融资与50亿估值,不是终点,而是产业飞轮启动的信号。当世界模型解决了物理常识的表示问题,当Real-Sim-Real闭环填平了数据鸿沟,当MLLM-WM融合架构打通了感知-认知-行动的闭环,物理AI才能真正跨越"前夜"。
正如恩格斯所言,这是"从必然王国走向自由王国"的历程。当机器人能够理解重力、摩擦力与人类意图的微妙平衡,当它们能在未见过的新环境中像人类一样推理与适应,我们才可以说:物理AI的ChatGPT时刻,真正到来了。
而此刻,资本、算法与硬件的三重奏正在加速这一进程。World Labs的估值翻倍,只是这场变革的序章。

END
本文数据和图表来源:清华大学&复旦大学综述论文《Embodied AI: From LLMs to World Models》(IEEE Circuits and Systems Magazine, 2025)、World Labs官方公告及公开访谈。
完整论文及技术路线图(含RSSM/JEPA/Transformer架构对比表、Real-Sim-Real实施 checklist、物理AI产业链图谱)请去知识星球下载阅读。

