作者:GigaAI
解读:AI生成未来

文章链接:https://arxiv.org/pdf/2510.19430 主页链接:https://gigabrain0.github.io/

图 1:GigaBrain-0 是一个视觉-语言-动作(VLA)模型,使用真实世界的机器人数据和世界模型生成的各种数据(包括视频生成数据、Real2Real 传输数据、人类传输数据、视图传输数据和 Sim2Real 传输数据)进行训练,以增强其在真实世界环境中的泛化能力。
本文主要解决了当前视觉-语言-动作 (Vision-Language-Action, VLA) 模型在训练和应用中面临的核心挑战:
为了解决上述问题,提出了 GigaBrain-0,一个由世界模型驱动的 VLA 基础模型。其核心方案包括:
GigaBrain-0 是一个端到端的 VLA 模型 ,在给定视觉观察和高级语言指令的情况下,它能对具身场景进行推理,以生成兼容的动作序列,用于控制一个带轮子的双臂机器人(例如 Agilex G1)。为了增强指令跟随的保真度并实现更平滑的动作生成,如图2所示,GigaBrain-0 采用了一种混合Transformer (mixture-of-transformers) 架构。它利用一个预训练的视觉-语言模型 (VLM)——PaliGemma2,来编码多模态输入;并采用一个带有流匹配 (Lipman et al., 2022) 的动作扩散Transformer (DiT) 来预测动作块。这种混合架构使得语义理解和连续动作生成的过程可以解耦但又协同工作。在训练期间,我们引入了知识绝缘 (Knowledge Insulation)技术,以减轻连续动作空间学习与 VLM 语义推理能力之间的干扰。此外,通过离散动作令牌预测来增强 VLM 的头部,这显著加速了预训练的收敛速度。

图 2:GigaBrain-0 的框架。GigaBrain-0 采用 RGB-D 输入来增强空间感知,并输出体现式思维链(Embodied CoT)作为中间表征,以加强操作的体现式推理。在训练过程中,GigaBrain-0 采用了知识绝缘技术,以防止动作预测和嵌入式 CoT 生成的优化过程相互干扰。
为了增强空间推理能力,在预训练中加入了 RGB-D 数据。给定一个形状为 B × H × W × 4 (RGB + 深度) 的输入张量,我们首先对输入进行归一化,并使用 SigLIP提取视觉特征。为了让 SigLIP 适应 RGB-D 输入,我们用零初始化的核扩展了其第一个卷积层,以处理深度通道。这在保留预训练的 RGB 特征提取能力的同时,也使其能够进行深度感知的表示学习。值得注意的是,在 GigaBrain-0 的整个训练过程中,SigLIP 保持完全可训练状态,从而可以自适应地微调以感知具身的 RGB-D 信息。在训练期间,我们随机丢弃深度通道(用零填充替换),以确保在推理时能与仅有 RGB 的输入兼容。
受到大语言模型 (LLMs) 中思维链 (CoT) 推理的启发,本文引入了具身 CoT (Embodied CoT) 来改善 GigaBrain-0 在具身环境中的推理能力。与标准的 LLMs 不同,GigaBrain-0 显式地生成中间推理令牌,包括:(1) 操作轨迹:末端执行器路径在图像平面上的二维投影,由10个均匀采样的关键点表示;(2) 子目标语言:对中间目标的自然语言描述;以及 (3) 离散动作令牌:加速后续基于 DiT 的连续动作块预测训练收敛的离散表示。
为了平衡模型的表达能力和推理效率,放弃了用于轨迹预测的自回归解码方式。取而代之的是,我们引入了10个可学习的轨迹令牌作为视觉-语言模型 (VLM) 的辅助输入。在特征提取过程中,这些令牌通过双向(非因果)注意力与完整的视觉上下文进行交互,从而实现了对场景的整体空间推理。最终输出的轨迹令牌随后被传递到一个轻量级的 GRU 解码器中,以回归出末端执行器操作轨迹的二维像素空间坐标。
相比之下,子目标语言和离散动作令牌是自回归生成的,并通过标准的下一令牌预测进行监督。所有组件,包括轨迹回归、基于语言的子目标、离散动作令牌,以及由扩散Transformer (DiT) 预测的连续动作块,都在一个统一的目标函数下进行联合优化:

其中 表示训练数据集。是流匹配的时间步,是高斯噪声。是在流匹配中使用的加噪动作块。是一个逐令牌的掩码,指示位置是否属于 CoT 推理流(子目标语言或离散动作)。和分别表示预测的和真实的二维轨迹关键点。 是一个平衡轨迹回归损失的超参数。值得注意的是,本文没有手动为语言和动作预测项分配损失权重,因为知识绝缘技术能从本质上防止它们优化过程之间的干扰,允许每个流独立学习。
下面详细阐述用于训练 GigaBrain-0 的多元化数据来源。核心论点是,仅靠真实世界数据存在瓶颈,而 GigaBrain-0 通过一个名为 GigaWorld 的世界模型框架,大规模生成合成数据,从而极大地扩展了数据的多样性和规模,这是模型实现强大泛化能力的基础。

表 1:各 VLA 模型训练数据使用情况比较。GigaBrain-0 利用多种数据源增强泛化能力,减少对真实世界机器人数据的依赖性

图 3:GigaBrain-0 自收集的真实世界机器人数据来自 PiPER 机械臂和 AgiBot G1 平台,涵盖家庭、超市、工厂和办公室等各种环境。
数据构成: 模型训练的基础数据结合了多个公开数据集(如 AgiBotWorld、Open X-Embodiment 等)和团队自己采集的 1182小时 的私有数据。
采集场景: 自有数据的采集环境极其多样,横跨工业、商业、办公、住宅和实验室五大类共14种真实场景,确保了数据源的广泛性。
处理与标注: 团队采用了一套高效的半自动化流程来处理数据。对于缺失深度信息的视频,使用 MoGe 模型生成深度图。对于长时程任务,利用机械臂夹爪的开合状态自动分割子任务,再结合 Qwen-VL-2.5 模型和预设模板生成标准化的子目标描述语言。这种方法在保证标注质量的同时,极大地节约了人工成本。
这是 GigaBrain-0 数据策略的核心创新。为了克服物理采集的局限性,团队使用 GigaWorld 框架通过多种互补的pipeline来合成数据:
真实到真实迁移 (Real2Real Transfer): 获取真实的机器人操作视频,利用扩散模型在保持动作和场景结构不变的前提下,改变物体的材质、纹理、颜色和光照。这能在不增加物理采集成本的情况下,成倍增加数据的视觉多样性。

图 4:GigaWorld 通过获取真实世界的捕捉数据并生成纹理、颜色、光照和材料属性的通用变化,实现了 Real2Real 外观传输。
新视角迁移 (View Transfer): 将单一固定视角的真实视频,通过3D重投影和视频补全技术,重新渲染出多个不同虚拟视角下的视频。这个过程会自动计算并调整机器人的姿态以保证任务的连贯性和物理真实性,有效训练了模型的视角不变性。

图 5:GigaWorld 支持视图转移,从不同视角重新渲染现实世界中捕捉到的数据,从而以不同的视角变化丰富数据集。
模拟到真实迁移 (Sim2Real Transfer): 在 Isaac Sim 等模拟器中构建任务场景,然后利用扩散模型将模拟器的输出渲染得极其逼真,以缩小与现实世界的视觉差距。这种方法的巨大优势在于可以完全控制场景中的所有变量(如物体初始位置、物理属性等),从而实现对特定数据分布的系统性、大规模生成。

图 6:GigaWorld 通过在纹理、色彩、照明和材料属性方面对模拟收集的数据进行概括,实现了 Sim2Real 传输,从而更好地弥合了领域差距并增强了真实感。
人类视频迁移 (Human Video Transfer): 将大规模的人类第一视角演示视频(EgoDex 数据集),通过分割人手、替换为渲染的机械臂模型等方法,自动转化为机器人可执行的、视角稳定的操作视频。这使得模型能从海量的人类经验中学习。

图 7:GigaWorld 支持以自我为中心的人类视频传输,将第一人称的人类手部动作转换为机器人操纵场景,有效地将人类演示映射为机器人可执行的任务
视频生成与逆动力学建模 (Video Generation & IDM): GigaWorld 还能仅根据一张初始图像和一句文本指令,直接生成全新的机器人操作视频,并利用逆动力学模型 (IDM) 推断出相应的动作序列。这实现了从无到有的数据创造。

图 8:GigaWorld 可以根据不同的文本提示,从相同的初始帧生成不同的未来轨迹,从而用新颖的操作序列来扩充数据集。
此外,GigaWorld 还集成了多视角视频生成、推理加速(比基线模型快50倍以上)和数据质量检查等机制,确保了生成数据的质量和效率。
通过一系列在真实世界机器人上的实验,全面验证了 GigaBrain-0 模型的性能及其核心优势。
实验设置: GigaBrain-0 在六个涵盖三大类的真实世界任务上进行了评估:灵巧操作: 叠衣服、准备纸巾长时程任务: 收拾餐桌、准备果汁移动操作: 搬箱子、移动洗衣篮实验结果: 在所有六项任务中,GigaBrain-0 的成功率均显著高于基线模型 π₀,部分任务的领先优势达到 10% 至 30%。这证明了其在多种复杂场景下的强大能力,尤其是其 Embodied CoT 机制对于完成长时程任务至关重要。
这是验证 GigaWorld 数据有效性的核心实验。分别针对外观、物体摆放和相机视角这三个泛化挑战进行了测试。
实验方法: 模型首先在少量、单一的真实数据(例如,只见过白色衣物)上训练,然后逐渐增加由 GigaWorld 生成的多样化数据(用混合比例 α 表示)进行微调。最后,在从未见过的新物体或新条件下进行测试。
实验结果: 结果极具说服力。如图17所示,当完全不使用生成数据时 (α=0),模型在面对新外观、新位置或新视角时成功率极低。但随着 α 的增加,成功率急剧攀升。当生成数据的比例达到 75% 或 90% 时,模型在这些极具挑战性的泛化场景中成功率能超过 80% 甚至 90%。这强有力地证明了世界模型生成的数据是提升模型泛化能力的关键。

这个实验结果表明,GigaBrain-0 的架构不仅强大,而且可以被高效优化,使其在真实机器人的端侧硬件上进行实时、低延迟的部署成为可能。
GigaBrain-0,一个利用世界模型生成的数据来克服真实世界机器人数据收集的可扩展性和多样性限制的视觉-语言-动作模型。通过在跨越不同场景外观、物体摆放和相机视角的丰富、逼真的轨迹上进行训练,GigaBrain-0 在从灵巧操作到长时程移动操作的广泛真实世界机器人任务中,实现了强大的泛化能力。关键的架构创新,包括 RGBD 输入建模和具身思维链监督,进一步增强了其空间推理和序贯决策能力。此外,引入了 GigaBrain-0-Small,一个为边缘部署优化的轻量级变体,例如在 NVIDIA Jetson AGX Orin 平台上,证明了 VLA 模型在实时、端侧机器人控制上变得实用是可行的。
展望未来,本工作为未来的研究开辟了几个有前景的方向。首先,虽然目前将世界模型用作可扩展的数据引擎,但一个自然的下一步是将它们集成为用于强化学习的交互式策略环境。通过让 VLA 智能体在世界模型中展开轨迹并接收奖励信号,可以极大地减少对真实世界试错的需求,同时通过模拟经验支持策略的优化。其次,世界模型可能会学习到物理动态和任务结构的通用表示。这样的表示可以让世界模型从被动的模拟器演变为主动的策略生成器,能够直接提出可行的动作序列或子目标。最后,通过自改进循环——即真实世界的部署不断优化世界模型,而世界模型反过来又生成更好的训练数据——来闭合 VLA 策略和世界模型之间的环路,可能为实现真正自主的、终身学习的机器人系统铺平道路。
[1] GigaBrain-0: A World Model-Powered Vision-Language-Action Model