DemoGen：用于数据高效视觉运动策略学习的合成演示生成

一点人工一点智能

发布于 2025-04-02 02:26:26

1090

文章被收录于专栏：一点人工一点智能一点人工一点智能

编辑：陈萍萍的公主@一点人工一点智能

论文链接：https://demo-generation.github.io/paper.pdf

项目链接：https://demo-generation.github.io/

简介

1.1 研究背景与问题提出

视觉运动策略（Visuomotor Policy）在机器人操作任务中展现出显著能力，但其训练通常依赖大量人类收集的演示数据。例如，复杂任务（如披萨涂抹酱料或灵巧手卷曲操作）需要数百甚至上千次演示才能达到中等成功率。这一数据密集型特性的核心原因在于策略的空间泛化能力不足：现有方法即使结合预训练视觉编码器或3D感知模型，其有效操作范围仍局限于演示数据覆盖的局部区域。这种局限性迫使研究者反复调整物体位置以覆盖整个工作空间，导致数据收集效率低下。论文指出，关键操作动作集中在少量接触密集的片段中，而人类演示的冗余性主要体现在自由空间中的路径规划上，这构成了数据效率与任务复杂性之间的矛盾。

1.2 现有方法的不足

现有解决方案如MimicGen通过分割演示轨迹并插值生成新配置的执行计划，但其依赖开环机器人部署（on-robot rollouts）验证计划可行性，成本几乎与原始数据收集相当。此外，基于模拟到现实迁移（sim-to-real）的方法因视觉域差异面临挑战。这些方法无法从根本上解决数据效率问题，且难以扩展到复杂的长时程任务。

1.3 DemoGen的核心贡献

DemoGen提出一种全合成数据生成系统，通过任务与运动规划（TAMP）技术适配动作，并利用3D点云编辑生成合成观察数据，从而避免昂贵的机器人部署。其核心创新包括：

1）动作生成：将源轨迹分解为自由运动段和技能段，分别进行运动规划和整体变换；

2）观察生成：基于3D点云的空间编辑策略，实现物体与机械臂姿态的同步变换；

3）高效性：单条轨迹生成仅需0.01秒计算时间，支持从单次演示扩展到覆盖全工作空间。

相关工作

2.1 视觉运动策略学习

视觉运动策略学习，代表性的有Diffusion Policy及其延伸版本，指的是从视觉观察中直接预测动作的模仿学习方法。虽然这种方法灵活性强，能够学习人类示范中的灵巧技能，但缺乏结构化的技能原语使其本质上数据密集。面对巨大的数据需求和机器人数据收集的巨大成本之间的冲突，越来越多的研究转向了以数据为中心的研究，包括更高效的数据收集系统、大规模数据集的合作收集以及关于数据扩展的经验研究。DemoGen则展示了一种替代方案，即通过合成数据生成来大幅减少人工劳动。

2.2 数据高效的模仿学习

旨在从少量示范中开发操纵策略，数据高效的模仿学习方法通常基于任务和运动规划（TAMP）原则，同时用模仿学习取代TAMP管道中的某些组件。一个常见的做法是学习拾取和放置时末端执行器的位置。整个轨迹是使用运动规划工具包生成的，然后以开环方式执行。尽管这些方法对于简单的马尔科夫式任务有效，但由于依赖开环执行，限制了其应用于需要闭环重试和重规划的更灵巧的任务。相比之下，DemoGen利用TAMP原理进行合成数据生成，随后使用合成的演示来训练闭环视觉运动策略，从而结合了两种方法的优点。

2.3 机器人操作的数据生成

自动化演示生成提供了以显著减少人工努力培养强大的视觉运动策略的机会。近期的一些研究尝试通过利用大型语言模型（LLM）进行任务分解，然后使用规划或强化学习解决子任务来生成演示。然而，这种方法产生的操纵技能常常受限于LLM、规划或强化学习的能力。另一种研究路线以MimicGen为代表，它通过适应一些人类收集的源演示到新的对象配置来生成相应的执行计划。这种方法理论上适用于广泛的操纵技能和对象类型。但是，由MimicGen框架产生的执行计划不是现成可用的演示形式。因此，DemoGen在此基础上进一步发展，采用高效的全合成生成过程，使得在物理机器人上的部署成为可能。

实证研究

3.1 空间泛化能力可视化

通过MetaWorld的按钮按压任务，论文可视化策略的空间有效范围与演示数据分布的关系。实验表明，策略的有效操作区域近似为演示位置的邻域并集（图2）。例如，当按钮尺寸缩小（Button-Small任务）时，精确性要求提高，有效范围显著收缩。这验证了数据覆盖密度与任务精度需求的负相关关系。

3.2 空间泛化基准测试

在精密插桩任务（Precise-Peg-Insertion）中，论文量化不同策略在完整、半固定和固定工作空间下的表现。结果显示：

1）3D表示（DP3）显著优于2D方法，因其能建模空间几何关系；

2）预训练编码器（如DINOv2）提升泛化能力，但无法突破数据覆盖的物理限制；

3）当物体随机范围扩大时，所需演示数量呈超线性增长（图3）。例如，完整工作空间下DP3需200次演示才能达到80%成功率，而半固定范围仅需50次。

这一发现强调了空间随机化与数据需求的本质矛盾，为DemoGen的设计提供了理论依据。

DemoGen方法

4.1 问题形式化

设源演示为

，其中s0为初始物体配置（SE(3)位姿集合）。DemoGen的目标是生成新配置

下的合成演示

。动作at包含机械臂目标位姿

和手部指令（如夹持器开合），观察ot包括点云

与本体感知状态。

动作生成

1）轨迹解析：

将源轨迹按语义分割为运动段（自由移动）和技能段（物体接触操作）。例如，插花任务可分为“接近花朵”“拾取”“转移”“插入花瓶”四个阶段（图4）。

2）技能段变换：

对技能段进行整体SE(3)变换，保持末端执行器与物体的相对位姿：

其中

为物体k的初始位姿，

为目标位姿。

3）运动段规划：

使用运动规划算法（如RRT-Connect）连接相邻技能段，生成平滑路径：

线性插值或障碍物避让规划可根据环境复杂度选择。

观察生成

1）点云分割与变换：

利用Grounded SAM获取首帧物体掩码，投影至点云实现实例分割。对每个物体点云施加与动作相同的SE(3)变换：

其中

为源点云，

为变换后点云。

2）机械臂点云同步：

本体感知状态（如关节角）通过逆运动学（IK）控制器映射到位姿变换：

3）阶段融合：

根据任务阶段（准备、操作、完成）动态融合物体与机械臂点云。例如，在接触阶段（doing），物体点云与末端执行器点云合并，反映物理接触状态（图6）。

失败规避与鲁棒性

通过绝对位姿控制与IK求解器（如MuJoCo-based Mink）减少累计误差，避免开环执行中的轨迹偏移。实验表明，相比增量位姿控制（Delta Pose），该方法在长时程任务中成功率提升约30%。

模拟环境实验

5.1 实验设计与有效性验证

在模拟环境中，作者基于MetaWorld基准任务构建了8个任务，通过单次人类演示生成100-200条合成数据，并与10次、25次人类收集的演示进行对比。实验结果显示（表1），使用DemoGen生成的策略在抽屉关闭（Drawer-Close）、水龙头开启（Faucet-Open）等任务中成功率均超过90%，甚至接近25次人类演示的水平（平均成功率91% vs. 94%）。例如，在堆叠方块（Stack-Cube）任务中，合成数据使成功率从0%提升至79%。这一结果表明，合成数据能够有效覆盖工作空间的关键区域，减少对重复人工演示的依赖。

5.2 视觉失配问题与性能饱和

尽管合成数据表现出色，但其性能仍略低于同等数量的人类演示。作者将此归因于单视角点云的视觉失配问题（图8）。当物体远离源演示配置时，点云仅反映物体的固定视角，无法捕捉真实世界中多角度观察的动态变化。例如，在Pick-Cube任务中，当合成配置的空间覆盖范围超过一定阈值时，成功率趋于饱和（图9a）。这一现象揭示了3D点云编辑的固有局限性：其依赖于静态视角下的几何变换，难以模拟真实场景中视角变化带来的视觉多样性。

真实世界实验：空间泛化

6.1 多平台任务验证

在Franka Panda单臂平台和Galaxea R1双足人形机器人上，作者测试了7个单臂任务和1个双足任务。结果显示（表3），DemoGen生成的策略在8个任务中平均成功率达74.6%，显著高于仅使用3次源演示的11%。例如，在Spatula-Egg任务中，策略成功率从10%提升至88%。关键发现包括：

· 灵巧手动态适应性：在Dex-Rollup任务中，策略能根据塑料泥的塑性动态调整缠绕次数（2-5次），体现了闭环策略的灵活性；

· 双足人形泛化能力：Fruit-Basket任务中，通过俯视视角点云编辑，策略对香蕉的偏航角偏移（45°-135°）表现出90.8%的成功率。