
编辑:陈萍萍的公主@一点人工一点智能
摘要:文章提出了一种高效的灵巧抓取合成流程,旨在解决机器人抓取中一个长期存在的挑战:如何为任意抓取类型、任意物体和任意多指手合成具有丰富接触、无穿透且物理合理的抓取姿态。
该方法的出发点是为每种手型和抓取类型仅需一个由人工标注的抓取模板,通过两阶段流程实现抓取合成:首先对物体位姿进行采样与优化以适配手部模板,随后在物理仿真环境中对手部姿态进行局部微调以进一步贴合物体。为了验证合成抓取的质量,论文提出了一种接触感知的控制策略,使手部能够在每个接触点上施加合适的力。
实验表明,该方法在仿真中显著优于以往不考虑抓取类型的基线方法。基于该算法,作者构建了一个包含10.7千个物体和9.5百万次抓取的大规模数据集,覆盖了GRASP分类学中的31种抓取类型。进一步地,论文训练了一个类型条件生成模型,能够根据单视角物体点云生成指定类型的抓取,在真实世界实验中取得了82.3%的成功率。

论文地址:https://arxiv.org/pdf/2504.18829
项目地址:https://pku-epic.github.io/Dexonomy/

引言
灵巧抓取是机器人与环境进行灵活交互的基础能力。然而,现有研究大多关注“是否能够抓取成功”,而忽视了“如何以合适的抓取类型进行抓取”。真正的灵巧抓取不仅在于使用多指手,更在于根据任务需求选择合适的抓取类型。例如,抓取苹果或刀具时应使用力量型抓取以包裹物体,而抓取轻量或扁平物体时则更适合使用指尖精确抓取。实现这类智能技能面临两大挑战:一是如何根据任务选择合适的抓取类型,二是如何为指定类型和物体生成高质量的抓取。本文聚焦于第二个挑战,即类型感知的抓取合成问题。

现有抓取合成方法存在明显局限。分析方法虽然通用性强,但往往无法指定灵活的抓取类型,且生成的抓取姿态不够自然。功能抓取迁移方法虽能生成更接近人类的抓取,但对物体几何形状和位姿有较强假设,扩展性受限。为此,本文提出了一种基于采样与优化的新型流程,能够从单一人工标注模板出发,高效合成高质量抓取。其核心思想是将抓取建模为一个几何匹配问题:通过优化物体位姿使其与手部模板的接触点对齐,再通过仿真微调手部姿态以进一步贴合物体。该方法不仅在合成质量上显著优于基线,还支持构建大规模数据集,并进一步推动基于学习的抓取生成研究。

相关工作
2.1 分析式抓取合成
分析式方法通常基于力闭合等指标寻找抓取,适用于已知完整物体几何的场景。对于自由度较低的手型(如平行夹爪),可通过大量随机采样并筛选高质量抓取;而对于高自由度的灵巧手,则需借助优化方法。早期研究采用模拟退火等采样优化方法,近年来的工作则倾向于引入可微能量函数以利用梯度优化。然而,这些方法往往从手部静止姿态开始优化,容易陷入局部最优,且生成的姿态不够自然。本文方法结合了随机采样与梯度优化的优势,显著降低了优化复杂度。
2.2 抓取分类学
GRASP分类学基于人类日常活动定义了33种抓取类型。以往的分析方法大多只能合成有限的抓取类型(如指尖抓取),部分方法虽然支持非指尖接触,但仍无法指定具体类型。功能抓取研究虽能处理更复杂的抓取类型,但受限于物体几何的相似性。相比之下,本文方法能够合成所有33种抓取类型,且不对物体形态做任何假设。
2.3 基于学习的抓取合成数据收集
基于学习的方法(如CVAE、扩散模型、归一化流)在处理部分观测和真实部署方面具有优势,但其性能高度依赖训练数据质量。现有抓取数据收集方式包括遥操作、从人手抓取迁移、以及强化学习。本文提出的合成方法在扩展性上具有潜力:所需人工标注少于遥操作,避免了人手形态差异带来的问题,且比强化学习更高效。
2.4 物理仿真在抓取中的应用
MuJoCo、Bullet等刚体物理仿真器广泛用于抓取验证和强化学习。然而,以往研究较少利用仿真器进行手部姿态的局部微调。多数方法通过设计自定义能量函数和优化器来改善手物接触,但往往导致厘米级穿透,且需大量调参。本文利用MuJoCo进行手部微调,实现了亚毫米级接触收敛,且在不同实验设置下仅需最小参数调整。

抓取质量指标的初步理论
为了系统评估抓取质量,论文总结了一套统一的抓取质量指标公式,该公式在近年研究中被广泛使用。尽管本文方法不直接优化该指标,但它在后过滤和接触感知控制等环节中具有重要作用。
假设物体被具有m个接触点的机器人手抓取。对每个接触点i,定义其位置

、向内法向量

,以及两个切向量di,ci满足

。Coulomb摩擦锥Fi和物体在接触点i的Jacobian矩阵Jo,i定义如下:


其中μ为摩擦系数。摩擦锥描述了接触点处所有可行的力向量,Jacobian矩阵则将接触力映射为作用在物体上的 wrench。
为平衡外部 wrench

(如物体重力),最优接触力通过以下二次规划问题求解:



其中λ为最小法向力约束。为降低计算复杂度,摩擦锥通常被近似为棱锥,从而将问题转化为线性约束二次规划。最终,抓取质量指标定义为:

该值越低,表示抓取越稳定。本文采用g=0的设定,在计算成本与准确性之间取得平衡。


抓取合成方法
4.1 抓取模板定义
抓取模板包括手部关节配置

、手部接触点

及其法向量

,以及每个接触点所属的手部连杆名称。每种手型和抓取类型仅需一个模板作为初始化。
4.2 物体位姿的轻量级全局对齐
该阶段通过采样与优化物体位姿,使其与选定模板的手部接触点对齐,同时固定手部姿态。优化变量为物体的缩放so、旋转Ro和平移to。首先进行密集采样:随机选择模板、手部接触点、物体及物体表面点,初始化物体位姿使其与手部接触对齐。随后通过最小化以下能量函数优化物体位姿:

其中

为物体表面上距离手部接触点最近的点。优化后,根据能量阈值、穿透检测、抓取质量指标和去重策略对结果进行过滤。
4.3 基于仿真的手部姿态局部微调
该阶段固定物体位姿,通过MuJoCo仿真微调手部姿态以改善接触。在每个手部接触点施加虚拟力:

其中

为手部接触点的转置Jacobian矩阵,将力映射为关节扭矩。该控制策略迭代执行200步,过程中固定物体接触点位置,避免漂移。为确保无穿透,设置1毫米的接触边界,最终接触距离控制在0至2毫米之间。

4.4 接触感知的仿真验证
为验证抓取稳定性,手部需施加力以握紧物体。本文提出一种接触感知控制策略:首先基于QP求解各接触点的理想力,再通过转置Jacobian控制将其转换为关节扭矩。在MuJoCo中,对物体施加六个方向的外部力,若抓取能在2秒内保持稳定,则视为成功。
4.5 新抓取模板的构建
成功通过验证的抓取将被用于构建新模板。新模板的关节配置取自成功抓取,接触信息仅在检测到实际接触时更新。新模板可加入模板库,用于后续合成迭代。


Dexonomy数据集
基于所提流程,作者构建了一个面向Shadow手的大规模抓取数据集,涵盖GRASP分类学中的31种抓取类型。数据集包含10.7千个物体资产,其中5,697个来自DexGraspNet,5,000个来自Objaverse。所有物体经归一化处理,保留成功的抓取共计9.5百万条。整个合成过程在8张NVIDIA RTX 3090 GPU的服务器上耗时不到3天。

每条数据包含三种关键姿态:抓取姿态、预抓取姿态(用于无碰撞运动规划)和握紧姿态(用于施加接触力)。这些姿态为生成完整的抓取轨迹提供了基础,兼容多种机械臂和初始手型配置。

类型条件抓取生成模型
为实现从部分观测中生成指定类型的抓取,论文提出一个类型条件的生成模型。模型输入为单视角物体点云和从抓取类型代码库中选择的类型特征ft。点云通过稀疏3D卷积网络编码为视觉特征fv,与类型特征拼接后形成条件特征fc。在此基础上,Möbius归一化流将基分布中的随机样本映射为抓取姿态(Rg,Tg),并输出姿态质量概率p。最终,通过MLP进一步预测预抓取姿态和三种手部关节角度。整个模型端到端训练,类型特征亦参与优化。

实验与分析
7.1 评估指标
实验采用多种指标全面评估合成流程与抓取质量:
· 抓取成功率(GSR):成功抓取占尝试次数的比例。
· 物体成功率(OSR):至少有一个成功抓取的物体比例。
· 速度(S):单位时间内完成的尝试次数。
· 接触连杆数(CLN):与物体距离小于2毫米的手部连杆数量。
· 接触距离一致性(CDC):各手指接触距离的极差。
· 穿透深度(PD)与自穿透深度(SPD):手与物体、手部连杆之间的最大穿透距离。
· 多样性(D):抓取姿态在PCA首成分上的方差占比。
7.2 类型无关抓取合成对比
在Allegro手上与DexGraspNet、FRoGGeR、SpringGrasp和BODex等基线方法对比。实验使用5,697个物体,每个物体设置六种尺度,每种方法尝试20次抓取合成。结果表明,本文方法在GSR、CLN、CDC、PD和SPD上均优于基线,速度略低于BODex,多样性稍低但整体可接受。可视化分析显示,本文方法生成的抓取更自然稳定,尤其在复杂几何物体上表现突出。


7.3 类型感知抓取合成分析
由于缺乏合适的公开基线,论文通过统计数据分析类型感知合成的效果。将抓取类型分为力量型、中间型和精确型三类。整体成功率低于指尖抓取,因某些类型仅适用于特定物体。力量型抓取在低摩擦条件下表现更稳定,精确型抓取则适应性更广但稳定性较差。数据集的多样性优于以往工作。
7.3 消融实验
模块消融表明,全局对齐阶段的优化与后过滤、局部微调阶段的优化、以及模板更新策略均对提升成功率有重要作用。控制策略消融显示,接触感知控制在中介型和精确型抓取中效果显著,力量型抓取因接触丰富而对控制策略不敏感。初始模板鲁棒性实验证明,模板更新策略能有效缓解初始标注噪声的影响。
7.4 基于学习的抓取合成
在仿真中比较不同数据集与模型对抓取生成的影响。使用Dexonomy数据集训练的类型条件模型在GSR上显著优于基于BODex数据的模型。即使仅使用单一抓取类型,其性能仍优于基线。类型条件特征的引入有效提升了模型对多样抓取类型的学习能力。

7.5 真实世界实验
使用13个未见物体和12种抓取类型进行真实世界验证。模型根据单视角点云和指定类型生成抓取候选,通过运动规划后执行抓取。整体成功率达82.3%。主要失败原因为抓取类型与物体不匹配,或某些类型对噪声敏感。




应用与展望
论文还展示了一个基于所提算法开发的标注界面,用户仅需两次点击即可指定接触点和抓取类型,系统自动合成高质量抓取。该工具降低了语义抓取数据收集的门槛。
未来工作方向包括:研究更适合机器人抓取的分类体系、生成包含接触变化的动态抓取轨迹、拓展至杂乱场景中的抓取合成等。

结论
本文提出了一种从单一人工标注模板出发,高效合成高质量灵巧抓取的新型流程。该方法在仿真中显著优于类型无关的基线,并构建了涵盖31种抓取类型的大规模数据集。基于该数据集训练的类型条件生成模型,能够从单视角点云中生成指定类型的抓取,在真实世界中取得82.3%的成功率,为机器人灵巧抓取的研究与应用提供了重要基础。