具身智能的“盗梦空间”！GigaAI最新重磅发布GigaBrain-0：世界模型驱动的VLA模型

AI生成未来

发布于 2025-11-17 18:32:44

1470

作者：GigaAI

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2510.19430 主页链接：https://gigabrain0.github.io/

亮点直击

以世界模型为核心的数据引擎: 提出并利用一个名为 GigaWorld 的世界模型框架，作为强大的数据生成引擎。它能通过多种方式（如真实到真实、模拟到真实、新视角生成等）大规模生成多样化、逼真的训练数据，从而极大地减少了对昂贵且耗时的真实世界机器人数据的依赖。
增强的泛化能力: 通过在世界模型生成的覆盖不同外观、光照、物体摆放和视角的丰富数据上进行训练，GigaBrain-0 在未曾见过的场景中表现出卓越的泛化能力，解决了传统 VLA 模型泛化性不足的核心痛点。
创新的模型架构与训练方法: GigaBrain-0 引入了 embodied Chain-of-Thought (CoT) 机制，让模型能够生成中间推理步骤（如轨迹、子目标语言），显著提升了其在长时程、复杂任务中的规划和决策能力。同时，模型融合了 RGBD 输入，增强了对三维空间的理解。
高效的轻量级模型: 还推出了一个轻量级变体 GigaBrain-0-Small，该模型经过深度优化，参数量和计算延迟远低于基线模型，却能在 NVIDIA Jetson AGX Orin 这样的边缘设备上达到同等的任务成功率，展示了 VLA 模型在真实设备上实时部署的巨大潜力。

图 1：GigaBrain-0 是一个视觉-语言-动作（VLA）模型，使用真实世界的机器人数据和世界模型生成的各种数据（包括视频生成数据、Real2Real 传输数据、人类传输数据、视图传输数据和 Sim2Real 传输数据）进行训练，以增强其在真实世界环境中的泛化能力。

解决的问题

本文主要解决了当前视觉-语言-动作 (Vision-Language-Action, VLA) 模型在训练和应用中面临的核心挑战：

数据瓶颈: 训练强大的通用机器人需要大规模、多样化的真实世界交互数据，但这类数据的采集成本高昂、耗时耗力，且场景和任务多样性有限，这严重制约了 VLA 模型的扩展性和泛化能力。
泛化能力不足: 由于训练数据通常局限于特定环境，现有模型在面对新的物体外观（颜色、纹理）、物体摆放位置或摄像机视角变化时，性能会急剧下降。
长时程任务的挑战: 对于需要多步骤、复杂推理的长期任务（如准备果汁、整理桌面），传统模型难以进行有效的规划和连贯的决策。
端侧部署困难: 现有强大的 VLA 模型通常参数量巨大，计算复杂，难以部署在资源受限的机器人硬件（边缘设备）上，限制了其实际应用。

提出的方案

为了解决上述问题，提出了 GigaBrain-0，一个由世界模型驱动的 VLA 基础模型。其核心方案包括：

构建 GigaWorld 数据引擎: 不再主要依赖物理采集，而是构建一个强大的世界模型 GigaWorld 来生成海量训练数据。GigaWorld 通过多种互补的pipeline合成数据，包括：
- Real2Real Transfer: 将真实采集的视频数据进行风格迁移，改变物体的材质、纹理和光照。
- View Transfer: 从单一视角的真实视频中，生成多个新视角的视频。
- Sim2Real Transfer: 在模拟器中创建场景，然后通过世界模型渲染成逼真的视频，并系统性地改变场景参数。
- Human Video Transfer: 将人类第一视角的演示视频，自动转换成由机器人手臂执行的视频。
- Video Generation: 根据文本指令和初始图像，生成全新的机器人操作视频。
设计 GigaBrain-0 模型架构: 这是一个端到端的 VLA 模型，其特点是：
- 融合 RGBD 输入: 同时利用颜色和深度信息，以增强对场景三维几何的理解。
- 引入 Embodied CoT: 模仿人类解决问题的思维链，模型在输出最终动作前，会先生成一系列中间推理步骤（包括操作轨迹、子目标描述和离散动作令牌），这使得模型能更好地处理长时程任务。
- 混合Transformer架构: 采用混合架构，结合了用于理解多模态输入的预训练视觉语言模型 (VLM) 和用于生成连续动作的扩散Transformer (DiT)。

用到的技术点

世界模型 (World Models): 作为核心，用于生成多样化的合成数据，是本文数据驱动范式的基石。
扩散模型 (Diffusion Models): 广泛用于 GigaWorld 的各个数据生成pipeline中，如基于 DiT (Diffusion Transformer) 的视频生成、补全和风格迁移。
视觉-语言模型 (VLM): 使用预训练的 PaliGemma2 作为多模态编码器，理解视觉和语言指令。
流匹配 (Flow Matching): 用于训练动作预测模块中的扩散Transformer (DiT)，以生成平滑和连续的动作序列。
知识绝缘 (Knowledge Insulation): 一种训练技术，用于防止动作预测的学习过程与 VLM 的语义推理能力之间产生干扰，确保两个模块都能独立优化。
具身思维链 (Embodied Chain-of-Thought, CoT): 借鉴大语言模型的 CoT 思想，让模型在物理环境中进行显式的中间步骤推理。
RGB-D 视觉处理: 通过扩展 SigLIP 模型的输入层来处理四通道的 RGB-D 数据，增强空间感知。

达到的效果

任务性能: 在六项涵盖灵巧操作、长时程任务和移动操作的真实世界机器人任务中，GigaBrain-0 的成功率全面超越了基线模型 π₀，在部分任务上提升幅度高达10%-30%。
泛化性能: 实验明确证明，随着训练数据中世界模型生成数据的比例 (α) 增加，模型对新外观、新位置和新视角的泛化能力显著提升。例如，在仅使用真实数据时成功率很低的任务中，当 α 增加到90%时，成功率可以跃升至80%以上。
端侧部署性能: 轻量级变体 GigaBrain-0-Small 在 NVIDIA Jetson AGX Orin 平台上的推理延迟仅为0.13秒，远低于 π₀ 的1.28秒，而任务成功率与 π₀ 持平 (80%)，证明了其在资源受限设备上进行高效实时推理的能力。

方法

GigaBrain-0 模型

GigaBrain-0 是一个端到端的 VLA 模型，在给定视觉观察和高级语言指令的情况下，它能对具身场景进行推理，以生成兼容的动作序列，用于控制一个带轮子的双臂机器人（例如 Agilex G1）。为了增强指令跟随的保真度并实现更平滑的动作生成，如图2所示，GigaBrain-0 采用了一种混合Transformer (mixture-of-transformers) 架构。它利用一个预训练的视觉-语言模型 (VLM)——PaliGemma2，来编码多模态输入；并采用一个带有流匹配 (Lipman et al., 2022) 的动作扩散Transformer (DiT) 来预测动作块。这种混合架构使得语义理解和连续动作生成的过程可以解耦但又协同工作。在训练期间，我们引入了知识绝缘 (Knowledge Insulation)技术，以减轻连续动作空间学习与 VLM 语义推理能力之间的干扰。此外，通过离散动作令牌预测来增强 VLM 的头部，这显著加速了预训练的收敛速度。

图 2：GigaBrain-0 的框架。GigaBrain-0 采用 RGB-D 输入来增强空间感知，并输出体现式思维链（Embodied CoT）作为中间表征，以加强操作的体现式推理。在训练过程中，GigaBrain-0 采用了知识绝缘技术，以防止动作预测和嵌入式 CoT 生成的优化过程相互干扰。

为了增强空间推理能力，在预训练中加入了 RGB-D 数据。给定一个形状为 B × H × W × 4 (RGB + 深度) 的输入张量，我们首先对输入进行归一化，并使用 SigLIP提取视觉特征。为了让 SigLIP 适应 RGB-D 输入，我们用零初始化的核扩展了其第一个卷积层，以处理深度通道。这在保留预训练的 RGB 特征提取能力的同时，也使其能够进行深度感知的表示学习。值得注意的是，在 GigaBrain-0 的整个训练过程中，SigLIP 保持完全可训练状态，从而可以自适应地微调以感知具身的 RGB-D 信息。在训练期间，我们随机丢弃深度通道（用零填充替换），以确保在推理时能与仅有 RGB 的输入兼容。

受到大语言模型 (LLMs) 中思维链 (CoT) 推理的启发，本文引入了具身 CoT (Embodied CoT) 来改善 GigaBrain-0 在具身环境中的推理能力。与标准的 LLMs 不同，GigaBrain-0 显式地生成中间推理令牌，包括：(1) 操作轨迹：末端执行器路径在图像平面上的二维投影，由10个均匀采样的关键点表示；(2) 子目标语言：对中间目标的自然语言描述；以及 (3) 离散动作令牌：加速后续基于 DiT 的连续动作块预测训练收敛的离散表示。

为了平衡模型的表达能力和推理效率，放弃了用于轨迹预测的自回归解码方式。取而代之的是，我们引入了10个可学习的轨迹令牌作为视觉-语言模型 (VLM) 的辅助输入。在特征提取过程中，这些令牌通过双向（非因果）注意力与完整的视觉上下文进行交互，从而实现了对场景的整体空间推理。最终输出的轨迹令牌随后被传递到一个轻量级的 GRU 解码器中，以回归出末端执行器操作轨迹的二维像素空间坐标。

相比之下，子目标语言和离散动作令牌是自回归生成的，并通过标准的下一令牌预测进行监督。所有组件，包括轨迹回归、基于语言的子目标、离散动作令牌，以及由扩散Transformer (DiT) 预测的连续动作块，都在一个统一的目标函数下进行联合优化：

其中表示训练数据集。是流匹配的时间步，是高斯噪声。是在流匹配中使用的加噪动作块。是一个逐令牌的掩码，指示位置是否属于 CoT 推理流（子目标语言或离散动作）。和分别表示预测的和真实的二维轨迹关键点。是一个平衡轨迹回归损失的超参数。值得注意的是，本文没有手动为语言和动作预测项分配损失权重，因为知识绝缘技术能从本质上防止它们优化过程之间的干扰，允许每个流独立学习。

GigaBrain-0 的训练数据

下面详细阐述用于训练 GigaBrain-0 的多元化数据来源。核心论点是，仅靠真实世界数据存在瓶颈，而 GigaBrain-0 通过一个名为 GigaWorld 的世界模型框架，大规模生成合成数据，从而极大地扩展了数据的多样性和规模，这是模型实现强大泛化能力的基础。

表 1：各 VLA 模型训练数据使用情况比较。GigaBrain-0 利用多种数据源增强泛化能力，减少对真实世界机器人数据的依赖性

真实世界数据 (Real-World Data)

图 3：GigaBrain-0 自收集的真实世界机器人数据来自 PiPER 机械臂和 AgiBot G1 平台，涵盖家庭、超市、工厂和办公室等各种环境。

数据构成: 模型训练的基础数据结合了多个公开数据集（如 AgiBotWorld、Open X-Embodiment 等）和团队自己采集的 1182小时的私有数据。

采集场景: 自有数据的采集环境极其多样，横跨工业、商业、办公、住宅和实验室五大类共14种真实场景，确保了数据源的广泛性。

处理与标注: 团队采用了一套高效的半自动化流程来处理数据。对于缺失深度信息的视频，使用 MoGe 模型生成深度图。对于长时程任务，利用机械臂夹爪的开合状态自动分割子任务，再结合 Qwen-VL-2.5 模型和预设模板生成标准化的子目标描述语言。这种方法在保证标注质量的同时，极大地节约了人工成本。

世界模型生成的数据 (World-Model-Generated Data)

这是 GigaBrain-0 数据策略的核心创新。为了克服物理采集的局限性，团队使用 GigaWorld 框架通过多种互补的pipeline来合成数据：

真实到真实迁移 (Real2Real Transfer): 获取真实的机器人操作视频，利用扩散模型在保持动作和场景结构不变的前提下，改变物体的材质、纹理、颜色和光照。这能在不增加物理采集成本的情况下，成倍增加数据的视觉多样性。

图 4：GigaWorld 通过获取真实世界的捕捉数据并生成纹理、颜色、光照和材料属性的通用变化，实现了 Real2Real 外观传输。

新视角迁移 (View Transfer): 将单一固定视角的真实视频，通过3D重投影和视频补全技术，重新渲染出多个不同虚拟视角下的视频。这个过程会自动计算并调整机器人的姿态以保证任务的连贯性和物理真实性，有效训练了模型的视角不变性。

图 5：GigaWorld 支持视图转移，从不同视角重新渲染现实世界中捕捉到的数据，从而以不同的视角变化丰富数据集。

模拟到真实迁移 (Sim2Real Transfer): 在 Isaac Sim 等模拟器中构建任务场景，然后利用扩散模型将模拟器的输出渲染得极其逼真，以缩小与现实世界的视觉差距。这种方法的巨大优势在于可以完全控制场景中的所有变量（如物体初始位置、物理属性等），从而实现对特定数据分布的系统性、大规模生成。

图 6：GigaWorld 通过在纹理、色彩、照明和材料属性方面对模拟收集的数据进行概括，实现了 Sim2Real 传输，从而更好地弥合了领域差距并增强了真实感。

人类视频迁移 (Human Video Transfer): 将大规模的人类第一视角演示视频（EgoDex 数据集），通过分割人手、替换为渲染的机械臂模型等方法，自动转化为机器人可执行的、视角稳定的操作视频。这使得模型能从海量的人类经验中学习。

图 7：GigaWorld 支持以自我为中心的人类视频传输，将第一人称的人类手部动作转换为机器人操纵场景，有效地将人类演示映射为机器人可执行的任务

视频生成与逆动力学建模 (Video Generation & IDM): GigaWorld 还能仅根据一张初始图像和一句文本指令，直接生成全新的机器人操作视频，并利用逆动力学模型 (IDM) 推断出相应的动作序列。这实现了从无到有的数据创造。

图 8：GigaWorld 可以根据不同的文本提示，从相同的初始帧生成不同的未来轨迹，从而用新颖的操作序列来扩充数据集。

此外，GigaWorld 还集成了多视角视频生成、推理加速（比基线模型快50倍以上）和数据质量检查等机制，确保了生成数据的质量和效率。

实验

通过一系列在真实世界机器人上的实验，全面验证了 GigaBrain-0 模型的性能及其核心优势。

真实世界任务性能评估

实验设置: GigaBrain-0 在六个涵盖三大类的真实世界任务上进行了评估：灵巧操作: 叠衣服、准备纸巾长时程任务: 收拾餐桌、准备果汁移动操作: 搬箱子、移动洗衣篮实验结果: 在所有六项任务中，GigaBrain-0 的成功率均显著高于基线模型 π₀，部分任务的领先优势达到 10% 至 30%。这证明了其在多种复杂场景下的强大能力，尤其是其 Embodied CoT 机制对于完成长时程任务至关重要。

泛化能力实验

这是验证 GigaWorld 数据有效性的核心实验。分别针对外观、物体摆放和相机视角这三个泛化挑战进行了测试。

实验方法: 模型首先在少量、单一的真实数据（例如，只见过白色衣物）上训练，然后逐渐增加由 GigaWorld 生成的多样化数据（用混合比例 α 表示）进行微调。最后，在从未见过的新物体或新条件下进行测试。

实验结果: 结果极具说服力。如图17所示，当完全不使用生成数据时 (α=0)，模型在面对新外观、新位置或新视角时成功率极低。但随着 α 的增加，成功率急剧攀升。当生成数据的比例达到 75% 或 90% 时，模型在这些极具挑战性的泛化场景中成功率能超过 80% 甚至 90%。这强有力地证明了世界模型生成的数据是提升模型泛化能力的关键。

端侧设备部署实验

实验模型: 团队推出了一个轻量级变体 GigaBrain-0-Small，它采用了更小的视觉语言模型，并进行了一系列系统级优化（如混合精度、torch.compile 等）。
实验平台: 在资源受限的边缘计算设备 NVIDIA Jetson AGX Orin 上进行测试。
实验结果: 如表2所示，GigaBrain-0-Small 的表现令人惊叹：
参数量: 仅为基线模型 π₀ 的 12.5%。
推理延迟: 0.13秒，比 π₀ 的 1.28 秒快了近10倍。
显存占用: 仅需 1.9GB，远低于 π₀ 的 17.5GB。
任务成功率: 达到了与 π₀ 完全相同的 80%。

这个实验结果表明，GigaBrain-0 的架构不仅强大，而且可以被高效优化，使其在真实机器人的端侧硬件上进行实时、低延迟的部署成为可能。

结论与未来工作

GigaBrain-0，一个利用世界模型生成的数据来克服真实世界机器人数据收集的可扩展性和多样性限制的视觉-语言-动作模型。通过在跨越不同场景外观、物体摆放和相机视角的丰富、逼真的轨迹上进行训练，GigaBrain-0 在从灵巧操作到长时程移动操作的广泛真实世界机器人任务中，实现了强大的泛化能力。关键的架构创新，包括 RGBD 输入建模和具身思维链监督，进一步增强了其空间推理和序贯决策能力。此外，引入了 GigaBrain-0-Small，一个为边缘部署优化的轻量级变体，例如在 NVIDIA Jetson AGX Orin 平台上，证明了 VLA 模型在实时、端侧机器人控制上变得实用是可行的。

展望未来，本工作为未来的研究开辟了几个有前景的方向。首先，虽然目前将世界模型用作可扩展的数据引擎，但一个自然的下一步是将它们集成为用于强化学习的交互式策略环境。通过让 VLA 智能体在世界模型中展开轨迹并接收奖励信号，可以极大地减少对真实世界试错的需求，同时通过模拟经验支持策略的优化。其次，世界模型可能会学习到物理动态和任务结构的通用表示。这样的表示可以让世界模型从被动的模拟器演变为主动的策略生成器，能够直接提出可行的动作序列或子目标。最后，通过自改进循环——即真实世界的部署不断优化世界模型，而世界模型反过来又生成更好的训练数据——来闭合 VLA 策略和世界模型之间的环路，可能为实现真正自主的、终身学习的机器人系统铺平道路。