论文地址:https://arxiv.org/abs/2506.22827
项目地址:https://vlp-humanoid.github.io/
简介
论文明确了人形机器人执行多步操作任务的两大核心矛盾:仿人形态带来的环境兼容性优势与高维控制复杂性之间的冲突,以及单技能演示成功与长时程任务自主性之间的鸿沟。
现有基于强化学习(RL)和模仿学习(IL)的方法虽在单技能控制(如行走、抓取)上表现优异,但缺乏将离散技能串联成连贯任务的能力,其根本瓶颈在于:
(1)高维连续动作空间对实时视觉反馈的依赖;
(2)技能间过渡的精确判定需求;
(3)非结构化环境中语义理解的缺失。
为此,研究提出三层级架构,通过视觉语言模型(VLMs)的引入,构建了从底层运动控制到高层语义规划的完整闭环。实验数据表明,在40次真实世界测试中,系统以73%的成功率完成了包含障碍物避让的抓取-放置任务,验证了分层框架的可行性。
从技术演进脉络看,本文突破了传统人形机器人“开环技能链”的局限,其创新性体现在三方面:
首先,将VLM的语义推理能力与低层控制策略解耦,避免端到端模型对海量数据的依赖;
其次,设计PDDL-like的自然语言技能描述框架,在符号逻辑的严谨性与现实任务的灵活性间取得平衡;
最后,通过实时视觉监控模块实现技能执行的动态验证,为长时程任务提供闭环保障。
这些设计直指当前人形机器人从实验室演示走向实际应用的关键痛点。
,时长00:17
相关工作
“人形机器人分层控制”部分,梳理了从ExBody到HumanPlus的技术迭代路径。
ExBody系列工作奠定了“RL跟踪层+IL技能层”的二级架构基础,其核心思想是通过模拟器中的大规模并行训练(如Isaac Gym)实现运动目标的鲁棒跟踪。
HumanPlus进一步引入Transformer架构和AMASS动作数据集,显著提升了动作多样性。
然而,这些工作均需人工干预技能切换,暴露出高层规划能力的缺失。本文的创新点在于新增第三层级——VLM规划监控层,通过语义理解实现自主技能编排。
关于“VLM在长时程操作中的应用”,对比了RT-2等端到端模型与RT-H等分层方法的优劣。
前者虽能直接映射视觉语言输入到动作,但存在数据需求量大、可解释性差的问题;后者通过中间语义表示(如空间关系谓词)提升泛化性,却受限于手工规则的局限性。
本文提出的“软PDDL”描述方法兼具两者优势:利用自然语言定义技能前提与效果(如“手部空闲”“物体可抓取”),既保留了符号逻辑的结构化特性,又通过VLM的常识推理能力处理现实场景的模糊性。这种设计使得系统能够理解“需先移开障碍物再抓取目标”等隐含因果逻辑,而无需显式编程规则。
方法:三层架构设计解析
3.1 低层跟踪策略:高鲁棒性运动控制基础
低层策略的核心任务是实现关节空间目标的高精度跟踪,其数学形式化表示为策略函数:
其中目标空间G分为根运动目标Gm(线速度vref与角速度ωref)和表达目标Ge(关节角qref与关键点位置pref)。状态空间S包含本体感知信息(关节位置/速度、IMU数据等)。策略输出通过PD控制器转化为扭矩:
作者采用PPO算法训练三层MLP(256维隐藏层),并在4096个并行环境中施加六类动力学随机化:重力扰动(±0.1 m/s²)、摩擦系数变化(0.6-2.0)、质量分布偏移(±5kg)、外力冲击(0.3m/s)、电机强度波动(±20%)、崎岖地形等。这种“超参数化”训练策略使模拟到现实的迁移误差降至3.4°(关节角)和13.88cm(关键点),为上层技能提供稳定执行基础。
奖励函数设计体现多目标优化思想,包含跟踪精度项与正则化项。前者采用指数衰减形式(如
)强化对参考轨迹的贴合;后者引入足部空中时间、碰撞惩罚等物理约束,避免能量过耗或动力学不可行解。特别值得注意的是“投影重力惩罚”项
,通过抑制躯干倾斜来维持双足平衡,这一设计显著提升了真实环境中的抗干扰能力。
3.2 中层模仿学习技能:从人类演示到自主执行
中层模块的核心创新在于构建“视觉-动作”的直接映射,其策略函数定义为:
其中观测状态
包含双目RGB图像和本体感知。关键技术突破体现在三方面:
第一,基于HybrIK的视觉遥操作。通过混合逆向运动学模型,从单目RGB视频中提取3D人体姿态,再经形态学重定向(Algorithm 1)适配机器人关节限制。该过程包含坐标系对齐(Ralign)、全局旋转计算(Rrel)、地面接触调整等步骤,解决了人-机肢体比例差异导致的运动失真问题。
第二,Humanoid Imitation Transformer (HIT)架构。基于ACT模型改进,以ResNet-18提取视觉特征,通过Transformer解码器预测50步动作块(25Hz)。辅助视觉嵌入损失(L2权重0.005)增强了跨视角泛化能力,使抓取技能在物体位置偏移±15cm时仍保持90%成功率。
第三,双目视觉的深度感知。采用外部ELP高速相机替代RealSense,通过视差计算提升空间定位精度。实验数据显示,该配置使放置动作的末端执行器定位误差减少42%,验证了主动感知对操作任务的关键作用。
3.3 高层VLM规划监控:语义推理与执行验证
高级规划与监控模块是本文提出的三层次分层控制系统的核心组成部分,负责将高层次的任务目标转化为具体的技能序列,并持续监控每一步的执行情况以确保任务顺利完成。首先,一个技能被定义为单独的、短时长的操纵能力,例如捡起或放置物体;而任务则是涉及至少两个顺序执行技能的更高层次目标,这些技能会改变世界中物体的状态。
系统的工作流程是这样的:首先,视觉语言模型(VLM)规划器
根据自然语言目标g(例如“拿起包并放在桌子上”)和初始视觉观察o0,自动生成并可靠地执行一系列参数化的技能σ=[π(1), π(2),..., π(N)],以满足目标g的要求。
该模块由两部分组成:VLM规划器P和VLM技能监控器M。
VLM规划器是一个基于GPT-4o模型的组件,它能够从视觉和文本任务输入中生成结构化且可解释的技能序列。具体而言,给定初始图像o0、任务指令g和结构化的技能库,VLM规划器P输出一个可执行的技能序列σ。GPT-4o通过视觉基础技能的前提条件和效果,将其转化为二元视觉问答查询,从而实现逻辑连贯性。例如,规划器能够隐式理解因果顺序,比如先拿起一个物体再放到其他地方的必要性,而无需明确的符号规划约束。
VLM技能监控器M则是一个轻量级的Gemini-2.0-Flash-Lite模型,它以大约1Hz的频率持续验证每个已执行技能的完成情况。监控器通过检查预设的前提条件和效果字段,确保每一个技能都正确无误地完成了预期的动作。例如,对于Pick技能,描述为“拿起一个物体并保持”,前提条件包括“手为空”、“物体可抓取”、“物体位于表面上”,效果则包括“机器人正在拿着物体”、“物体不再位于表面上”。监控器还会不断发出示例验证查询,如“机器人是否成功拿起了包并现在正握着它?” 这种PDDL-like的表示方式平衡了逻辑严谨性和灵活性,使得规划器能够在不穷举所有可能状态的情况下进行常识推理。
通过这种迭代式的规划-监控循环,系统确保了多步骤任务执行的一致性和有效性。无论是简单还是复杂的任务,高级规划与监控模块都能够高效地分解任务,并通过连续监控每一小步的执行情况,确保整个任务的成功完成。
实验与讨论
在Unitree G1平台上的40次试验揭示了系统性能边界:73%的总成功率中,技能策略失败占54%(主要因物体位姿超出训练分布),监控误判占32%(如边缘放置误判为成功),规划错误占14%(如冗余技能插入)。这些数据指向三个改进方向:
第一,技能泛化增强。当前IL策略仅在30次成功演示上训练,数据多样性不足导致抓取位姿容错率低。引入扩散策略或数据增强可改善分布外泛化。
第二,监控粒度优化。1Hz的视觉采样率对快速动作(如动态平衡恢复)不足,需探索轻量化VLM的实时推理。
第三,失败恢复机制。现有系统缺乏异常检测后的重规划能力,可借鉴TAMP的回溯搜索算法。
值得注意的是,作者特别强调模块化设计的扩展优势——新增技能只需添加到库L中即可被自动编排。这种特性使人形机器人能像人类一样通过“技能组合”应对复杂任务,而非重新训练整个系统。
结论
本文的学术价值在于证明了语义推理与运动控制的分层融合可实现长时程人形操作。其技术框架的普适性体现在:
(1)VLM规划器与底层策略的松耦合,允许灵活更换基础模型;
(2)自然语言接口降低领域知识门槛;
(3)实时监控机制为动态环境适应奠定基础。
未来工作可沿三个维度拓展:结合CLIP的细粒度语义控制、非prehensile操作技能库扩充、以及多模态异常检测系统。这项研究标志着人形机器人从“单技能演示”迈向“多任务自主”的关键一步,为家庭服务、工业协作等场景提供了可扩展的技术蓝图。