MoManipVLA——面向通用移动操作的视觉-语言-动作模型迁移

一点人工一点智能

发布于 2025-03-27 14:34:38

1000

文章被收录于专栏：一点人工一点智能一点人工一点智能

编辑：陈萍萍的公主@一点人工一点智能

论文链接：https://arxiv.org/pdf/2503.13446v1

项目链接：https://gary3410.github.io/momanipVLA/

摘要与引言简介

论文提出了一种名为 MoManipVLA 的移动操作策略迁移框架，旨在将预训练的视觉-语言-动作（VLA）模型从固定基座操作任务扩展到移动操作场景。传统移动操作方法因依赖大规模训练数据而泛化能力受限，而现有VLA模型虽在固定基座任务中表现优异，却无法处理移动基座与机械臂的协同动作。MoManipVLA的核心创新在于利用预训练VLA模型生成高泛化能力的末端执行器路径点，并通过双层次轨迹优化框架（Bi-Level Optimization）联合规划基座与机械臂的运动轨迹，确保物理可行性（如可达性、平滑性、碰撞避免）。实验结果表明，该方法在仿真环境（OVMM）和真实场景中分别实现了 4.2% 的成功率提升，且仅需 50条专家轨迹即可完成真实部署，验证了其高效性与泛化能力。

研究背景：移动操作（Mobile Manipulation）要求机器人在大范围空间内协同控制移动基座与机械臂，以完成复杂交互任务（如家庭服务、物流搬运）。然而，传统方法通常将导航与操作模块分离训练，导致误差累积；端到端方法虽能联合优化，但依赖大量专家轨迹，数据成本高昂。

现有问题：VLA模型通过预训练在固定基座任务中展现出强大泛化能力，但其设计未考虑移动操作中基座与机械臂的协同运动规划。

解决方案：MoManipVLA通过以下方式弥补这一缺陷：

1）策略迁移：利用预训练VLA模型生成末端执行器路径点，指导移动操作轨迹生成。

2）物理可行性设计：引入可达性、平滑性与碰撞避免的运动规划目标。

3）双层次优化框架：上层优化基座位姿以扩展操作空间，下层优化末端轨迹以完成任务。

相关工作综述

在探讨移动操纵框架时，现有的解决方案大致可分为两类：端到端方法和模块化方法。端到端方法如Qiu等人提出的统一场景信息表示法，结合了几何和语义信息来提高操作的成功率；Yan等人则采用扩散策略生成全身体控制轨迹，以实现特定任务的扩散策略生成。

然而，模仿学习需要大量专家轨迹，导致高昂的训练成本。相比之下，模块化框架如Home-Robot和OK-Robot采用了基础模型规划器和基于强化学习的控制器，能够更有效地处理长时间跨度的移动操纵任务。SPIN则提出了一种反应式移动操纵框架，实现了人类般的全身协调能力和手眼协调能力。尽管这些方法各有优势，但在面对多样化的实际任务和环境时，它们普遍面临着低泛化能力的问题，主要是因为缺乏大规模的预训练数据集。

另一方面，近年来发展的视觉-语言-动作（VLA）模型在各种操纵任务中展现了出色的泛化性能。当前最前沿的VLA模型可以直接根据RGB图像输出7自由度的末端执行器动作，无需依赖预测的对象类别和姿态。早期的VLA架构使用自回归离散化表示动作，而后续的研究如ManipLLM引入了链式思考（Chain-of-Thought, CoT）机制来激发基础模型中的操纵推理能力，并进一步提出了一种主动阻抗适应策略来规划下一个路点。

OpenVLA探索了视觉编码器对VLA模型性能的影响，通过组合不同的基础模型组件实现了满意的表现。TinyVLA则利用基础模型特征先验引导动作解码器的扩散过程，显著增强了VLA模型在视点变化、对象多样性等方面的泛化能力。尽管这些VLA模型在跨任务和环境方面表现出了令人印象深刻的泛化能力，但由于它们专注于固定基座任务，无法生成移动基座与机械臂之间协同的动作。因此，MoManipVLA的提出正是为了填补这一空白，它将预训练的固定基座VLA模型成功转移到移动操纵任务中，实现了更高的泛化性和效率。

方法详析

MoManipVLA的核心在于将预先训练好的固定基座视觉-语言-动作（VLA）模型迁移到移动操纵任务中，从而实现在不同任务和环境中具备高度泛化的策略。首先，该框架明确了一个核心问题：移动操纵任务要求机器人能够在不同位置与物体互动，同时协调控制移动基座和机械臂以完成交互动作，并确保轨迹的物理可行性。

为此，MoManipVLA采用了两步走的方法：第一步是利用预训练的VLA模型生成具有高泛化性的末端执行器路点；第二步则是基于这些路点，联合生成移动基座和机械臂的轨迹，以最大化物理可行性。这里的关键在于如何有效地解决这样一个复杂的多目标优化问题，即既要保证路径的安全性和平滑度，又要确保末端执行器的可达性。

为了达成上述目标，MoManipVLA设计了一系列动作规划目标，并引入了一个双层轨迹优化框架。上层优化负责预测基座移动的路点，以此扩大后续操纵策略的空间；而下层优化则专注于选择最优的末端执行器轨迹以实现由VLA模型生成的路点。这种双层优化策略不仅提高了轨迹生成的效率，还使得原本专为固定基座设计的VLA模型能够适应移动操纵的需求。特别值得一提的是，这种方法极大地减少了重新训练所需的数据量，因为它直接利用了预训练模型的泛化能力。例如，给定两个连续的路点

和

，优化目标函数如下：

受制于起点和终点与路点一致的约束条件：

其中，

表示计划轨迹中从一个路点到下一个路点所需的步数，O是评估轨迹物理可行性的目标函数。通过这种方式，MoManipVLA能够有效地调整机器人的位置，即使是在零样本情况下也能使由固定基座VLA模型预测出的路点变得可行。

进一步地，为了确保生成的轨迹满足物理可行性，MoManipVLA定义了三个主要的成本函数：可达性成本、平滑度成本和碰撞成本。可达性成本衡量的是每个候选轨迹是否能让机械臂达到目标位置，考虑到逆向运动学（IK）求解器的最大迭代次数Nmax ，如果能在限定次数内找到关节角度解，则认为轨迹可达。平滑度成本则关注于关节角度和基座姿态在连续位置上的变化是否平稳，避免突然的变化影响电机安全及整体稳定性。最后，碰撞成本通过计算机器人表面查询点与环境物体表面的距离来评估，确保机器人在整个移动操纵过程中不会发生碰撞。这三个成本函数共同作用，形成了一个综合的目标函数：

其中，

是超参数，分别控制各成本项的重要性。通过这种方法，MoManipVLA不仅能够生成符合物理约束的轨迹，还能充分利用预训练VLA模型的强大泛化能力，应对复杂多变的真实世界任务。

实验分析

为了验证MoManipVLA的有效性，作者们在其开发过程中进行了详尽的实验，包括在Open Vocabulary Mobile Manipulation (OVMM)基准测试和现实世界中的应用。OVMM基准包含了60个模拟真实房屋布局的场景模型以及超过18,000个日常物品的3D模型。

实验设定的任务是“将目标物体从容器A移动到容器B”，其中目标物体是一个可以被Hello Robot Stretch抓取的小物件。在这个过程中，机器人需要依次执行“导航至容器A、注视、抓取物体、导航至容器B、放置”等阶段，任何阶段的错误都会导致操作失败。

为了微调现成的VLA模型以弥合跨实体差距，研究人员收集了基于OVMM提供的启发式基线的移动操纵专家轨迹。他们使用OpenVLA-7B生成精细的交互轨迹，并通过一系列包含视觉感知、机器人状态和执行动作的元组构建了200次拾取和放置演示片段。这些数据经过高效的LORA微调，在4块RTX 3090 GPU上完成了10,000轮次的训练。

实验结果表明，MoManipVLA相比现有最佳方法在总体成功率上提升了4.2%，部分成功率提高了11.2%。特别是在拾取成功率方面，得益于预训练VLA模型的强大泛化能力，MoManipVLA比SOTA方法高出12.4%，这证明了所提出方法能有效迁移预训练VLA模型策略至移动操纵任务中。值得注意的是，尽管步骤数量接近启发式方法，但延迟接近基于强化学习的方法，进一步显示了所提策略转移和分层优化框架的效率。此外，通过对失败案例的统计分析，如“找不到接收容器”、“导航至放置位置失败”或“对齐失败”，强调了基座路点在移动操纵中的重要性。这些发现不仅验证了MoManipVLA在提升移动操纵性能方面的潜力，也为未来研究提供了宝贵的见解。