引言:在科技界,AI和机器人技术已经成为了近几年最火热的话题。在2025年初的春节联欢晚会上,宇树科技的人形机器人给全国的观众带来了一次玩手绢的视觉盛宴,引起了众多网友的热烈讨论。那么,除了丢手绢这种对机器人上肢运动功能要求较高的玩法,作为与人类形体最接近的机器人,人形机器人是否可以完成更多、更具有挑战的任务呢?比如打篮球、跳舞、跑酷等等,这些运动对于人形机器人的全身运动性能要求更高,尤其是全身运动的协调性和灵活性方面。近期,来自CMU和英伟达的研究团队发布了人形机器人的全身敏捷运动技能学习策略,可以实现更加灵活、敏捷和仿人的人形机器人全身运动过程。
【基本信息】
论文标题:ASAP: Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills
发表期刊:arXiV 预印版
发表时间:2025年2月3日
【访问链接】
论文链接:https://arxiv.org/abs/2502.01143
项目链接:https://agile.human2humanoid.com/
代码链接:https://github.com/LeCAR-Lab/ASAP
【研究背景】
人形机器人是近年来的重要话题热点,在2025年初的央视春节联欢晚会上的丢手绢节目也引起了众多网友的热烈讨论,甚至有网友调侃就算是村口的大爷大妈都能聊上几句机器人相关的话题了。
全尺寸的人形机器人拥有数十个运动的关节和自由度,是典型的复杂动态运动系统,其控制难度极高。在丢手绢这样的节目中,考验的主要是机器人的整体平衡能力和上肢灵活运动的能力,机器人整体的运动幅度不大。
但是,人形机器人绝不仅限于这类相对“静止”的运动场景,得益于其与人类十分接近的形体和关节设置,人形机器人可以实现更多更复杂的“动态”运动,包括打篮球、跳舞、跑酷等等。
理论上,人类可以做到的各种动作,人形机器人都能做到,而且可以做得更好。
因此,从人类的各种复杂运动中学习人形机器人自身的控制策略是人形机器人研究的一个重要方向,包括且不限于模仿学习、深度学习、迁移学习、自适应控制等多个研究领域。
本论文主要由美国卡内基梅隆大学(CMU)联合英伟达的研究团队发表,旨在研究电驱型人形机器人如何从人类的运动中模仿学习自身的全身敏捷控制策略,以实现更加复杂的动态运动技能。
该方法在宇树科技的人形机器人G1上进行了真机实验,最终能实现人类的多种高难度动作模拟,包括跳跃转身投篮动作、高抬腿动作、横跨动作、下蹲动作、跳远动作等,显著提升了人形机器人全身运动的敏捷性、协调性和动作仿人性。
【科学问题】
1. 场景描述
人形机器人在执行类人全身技能方面具有无与伦比的多功能潜力,现有的许多方法都试图在机器人全身动作的学习和控制方面突破技术瓶颈,且往往采用从人类的自然运动数据库中学习机器人的全身运动策略来实现。
首先在仿真环境中构建机器人的动力学仿真模型并学习得到控制策略,然后将控制策略迁移到真实的机器人上,在这个过程中解决仿真到现实环境的物理差别问题。
2. 科学问题
然而,仿真环境毕竟是对现实世界的物理模拟,无法做到真正完全还原现实的物理世界环境,导致仿真模拟与现实世界之间的动力学不匹配。这就导致从仿真环境中学习得到的控制策略难以直接应用到真实的机器人上,尤其在实现敏捷且协调的全身运动方面,是目前人形机器人研究的一个重大挑战。
现有的方法,如系统辨识(System Identification, SysID)和领域随机化(Domain Randomization, DR)方法,由于所需要的参数巨大,通常需要劳动密集型的参数调整,费时费力且效果不佳。或者,通过减少模型和算法的参数来使得学习过程更快,从而学习到过于保守的策略,牺牲了运动控制的敏捷性,最终使得机器人的运动过程显得机械、呆板且灵巧度不够。
【核心思路】
在该论文中,研究团队提出了一种新的人形机器人全身敏捷动作技能学习策略ASAP(Aligning Simulation and Real Physics),可以从人类运动的视频数据中学习得到机器人的运动控制策略。这是一个两阶段框架,旨在解决仿真与现实环境动力学不匹配问题,并实现敏捷的人形机器人全身技能学习。
其中:
第一阶段:研究团队使用了重新定向的人类运动数据(主要是视频数据)在仿真环境中预训练人形机器人的运动跟踪策略,主要依赖于基于强化学习(Reinforcement Learning, RL)的学习策略;
第二阶段:在现实世界中部署这些策略并收集现实世界的真实数据,用来训练一个增量(残差)动作模型,从而补偿仿真与现实世界动力学不匹配导致的控制偏差。
论文所提出的算法ASAP的核心框架和流程如下:
包含4个步骤:
运动跟踪预训练与真实轨迹收集:利用从人类视频数据库中重新定位的运动数据,基于强化学习策略预训练多个运动跟踪策略以生成真实世界的机器人运动轨迹;
增量动作模型训练:基于真实世界中机器人的运动数据反馈获得跟踪误差数据,通过最小化模拟状态
与真实世界状态
之间的差异来训练增量动作模型;
策略微调:冻结增量动作模型,并将其纳入仿真环境以对齐真实世界的物理特性,然后对预训练的运动跟踪策略进行微调;
真实世界部署:最后,在真实世界中直接部署微调后的运动跟踪策略,且不再需要增量动作模型来进行调整。
以下为该论文核心思路的详细介绍:
1. 数据生成:人类视频数据重定位
如下图所示,该论文使用了来自人类的不同运动视频数据,并使用一种叫TRSM的方法将其转换为仿真环境中的3D运动数据,主要包括运动过程中各个肢体部位的位置和姿态。
然后,在仿真环境中根据机器人的运动限制(比如某些关节运动的范围、某些目标位置的可达性等)将人类的运动数据进行清洗和重新映射,使用了包括 MaskedMimic 在内的物理轨迹跟踪方法,最终将所有的运动数据重新定位为机器人的目标运动数据,用于后续的运动跟踪控制。
2. 基于相位的运动跟踪策略训练
在这个部分,研究团队将机器人的运动跟踪问题建模为一个全局协同的强化学习任务,目的是学习机器人跟踪目标轨迹的控制策略,其奖励函数的设置包括了如下表所示的各个参数,包括惩罚项、正则化和任务奖励三个部分。
算法引入了包括 PPO 和 Asymmetric Actor-Critic方法进行模型的参数学习和训练,最终可以在仿真环境中学习得到仿真模型的运动轨迹跟踪控制策略。
上述两个部分为第一阶段的模型预训练,主要通过在仿真环境中学习人类的运动数据来获得仿真模型的控制策略,接下来将会部署到真机中进行实际模型的学习。
由于仿真模型和现实环境的物理差异,在真实的机器人上直接使用仿真环境中学习得到的控制策略会导致不稳定的控制过程,因此还需要进行进一步的 sim2real 优化,其基本思路是把仿真中预训练得到的控制策略用于真实机器人,通过获得的实际机器人的数据进行控制策略的调整。
3. 增量动作模型训练
作者在强化学习的框架中引入了一个增量动作模型来解决仿真环境和实际系统的模型差异问题,如下图所示。
其中,相比于学习增量动力学模型的方法,ASAP 通过从真实机器人的数据中学习动作的增量模型来使得仿真环境中的模型也可以复现真实世界中的机器人运动过程,比如由于仿真环境中电机扭矩很大而实际机器人的电机扭矩不够从而导致仿真中可以实现跳跃动作而实际机器人无法完成跳跃动作的失败案例。
该方法可以从真实的机器人数据中学习得到真实机器人的运动限制,从而更好地学习适合真实机器人的控制策略。
4. 策略微调
通过上述增量动作模型的引入,可以在原先仿真环境中学习到的控制策略基础上进行策略的微调:
其中,所使用的奖励函数设置与之前相同,但是权重参数略有差别。
4. 策略部署
将微调后的策略去掉增量模型以后重新部署到真实的机器人上,从而可以实现更好的运动跟踪效果。
【实验结果】
论文在三种不同的迁移场景下评估了 ASAP的有效性,包括从 IsaacGym 到 IsaacSim、从 IsaacGym 到 Genesis 以及从 IsaacGym 到现实世界中的宇树 G1 人形机器人,并且与传统的方法进行了对比,包括 Oracle、Vanilla、SysID 和DeltaDynamics 的方法。
1. 单一任务效果对比
以下为在仿真环境 IsaacSim 的策略学习效果,机器人仿真模型学习了一个踢足球的运动策略,并且是在开环的动作控制下进行的。
实验结果表明,该论文提出的方法在各种动态运动中显著提高了人形机器人运动的敏捷性和全身协调性,与 SysID、DR 和增量动力学学习算法相比,ASAP(红色曲线)显著减少了轨迹的跟踪误差。
2. 仿真环境之间的策略迁移效果对比
该论文对比了ASAP与其他方法在策略学习以后迁移到其他仿真环境中(IsaacSim 和 Genesis)的控制效果,并且引入了更多更复杂的控制任务来对比效果,包括前向跳跃、侧向跳跃、单脚平衡站立、下蹲、前进/后退以及步行任务。
实验结果表明,与其他方法相比,ASAP方法都能取得更好的跟踪控制效果。
3. 策略部署到真实的机器人
除了在仿真环境之间进行策略迁移和部署,该论文还验证了将所学习和微调后的策略部署到真实的机器人上的有效性,并收集了真实机器人的运动数据和实验结果用于展示该算法的优点,所使用的机器人平台是宇树科技的人形机器人 G1,该机器人一共有23个运动控制自由度,因此需要23个增量动作模型。
实验结果如视频所示:
可以看到,该方法可以让人形机器人成功学习得到多种复杂的类人运动过程,从而实现高度敏捷的人形机器人全身协调控制过程。
当然,实验过程中的挑战也很大,作者在论文中也提到了在收集真实机器人运动数据的时候,损坏了2台G1才做到了最后的实验效果。
【总结】
ASAP 实现了人形机器人以前难以实现的高度敏捷的运动控制效果,展示了增量动作学习在弥补仿真与现实世界动力学差异方面的潜力。相比于其他方法(系统辨识、领域随机化等),ASAP 在不同的迁移场景下都展现出了较大优势,大幅降低了运动跟踪的控制偏差,为开发更具表现力和敏捷性的人形机器人提供了一个有前途的从仿真到现实的研究方向。
未来,研究人员可开发损伤感知策略架构、利用无标记姿态估计或传感器融合技术、探索增量动作模型的少样本适应技术,以克服硬件限制、减少对运动捕捉系统的依赖和提高数据利用效率。
领取专属 10元无门槛券
私享最新 技术干货