引言:从2022年开始,人形机器人的研究进入了一个爆发期,全球多个大学和科技企业在人形机器人的学术研究、计算平台、系统研发、应用场景推广等方面进行了全面布局。机器人的硬件平台已经发展到了一定的阶段,那么其软件控制及智能性的发展也逐步成为限制人形机器人在实际场景中应用的重要技术瓶颈。本文主要针对仿人双足机器人的高性能全身控制策略研究,构建了基于强化学习方法的人类复杂动作模仿及学习框架,可实现包括跳舞、拳击等高难度的人类动作模拟,且其动作的拟人性和稳定性超过了行业现有水平。
【基本信息】
论文标题:ExBody2: Advanced Expressive Humanoid Whole-Body Control
发表期刊:arXiv 预印版
发表时间:2024年12月17日
【访问链接】
论文链接:https://exbody2.github.io/resources/exbody2.pdf
项目主页:https://exbody2.github.io/
代码仓库:暂无
【背景简介】
仿人双足机器人是一个典型的复杂动态的机器儿动力学系统,具有与人类高度相似的形态,因此理论上其可以完全适应人类社会,辅助或替代人类完成大部分的工作。
为了像人一样使用双腿走路,并利用躯干和双手来完成许多人类的活动,他们往往需要一些高性能的硬件平台以及软件控制策略,以实现机器人在各种复杂的场景中维持运动平衡的同时还能实现复杂的搬运、操作等任务。
在人形机器人的发展历史上,控制策略已经迭代了许多次,产生了不同的分支,从简单的关节控制、倒立摆模型及其后续衍生策略、模型预测控制相关的策略(波士顿动力目前已经提出了MPC 3.0的架构)到全身控制策略(Whole-Body Control),全球的学者们已经积累了许多研究经验和方法。
但是,目前市面上的大多数人形机器人仍旧只具有简单的运动技能,距离实现人类可以完成的高动态运动还有一定的差距。
波士顿动力公司的液压版人形机器人在某些运动能力上确实已经展现了较好的效果(比如后空翻、原地起跳、搬运重物的同时跑跳等),但是也仅仅停留在Demo展示的实验室阶段,从应用的角度来说还有很长的路。
波士顿动力公司液压版人形机器人的部分控制技术也已经逐步迁移到电驱版人形机器人了,且看起来具有更加干脆和平顺的控制效果。
本田公司的Asimo虽然已经停止了进一步的研发,但在室内结构化的地形场景中已经可以实现包括跑跳、单腿跳、上下楼、踢足球、辅助拿水等基本能力,对于更加复杂的人类动作(比如大幅度的跳舞、人机协同运动等)不能很好地完成。
特斯拉机器人可以实现看起来更“柔顺灵活”和“拟人”的动作,最新发布的视频甚至可以模拟真人的交流动作、语气等,但这属于是远程遥控的技术且更多是在上肢的动作上,对系统运动稳定性的要求不如下肢的控制过程高,因此对于全身大幅度的自主跑跳动作实现还不够成熟。
【核心科学问题】
如何能够完美控制人形机器人全身的各个关节协同运动,以实现高保真度的人类动作全模拟,从而具有更好的运动性能,一直是人形机器人研究,尤其是腿足研究者们追求的目标。
随着机器学习方法的发展,强化学习技术在各个领域展现了惊人的性能和可扩展性,在机器人领域也已经在足式机器人的控制策略学习方面有了广泛的研究。
因此,为了解决人形机器人高维度状态空间和复杂控制过程中的全身控制问题,使得人形机器人可以很好地学习和适配人类的生活环境,需要设计一种可以真正模拟人类各种运动模式的人形机器人全身控制策略,尤其是机器人本体结构和人类身体结构在物理上的差异导致的动作匹配问题以及机器人自主控制的平衡稳定问题。
如果只是对人类动作进行关节层面的简单模仿或者全局关键位置点的简单跟踪,难度其实不大,但是在这个基础上还要能够平衡稳定地控制机器人的全身关节从而实现“高保真”的人类运动模拟,在机器人机构与人类躯体物理差异较大的情况下,这个难度就不小了。
是否有一种策略可以在模拟人类动作的同时还能较为容易地适应不同的机器人结构呢?这样的策略可以极大地降低算法的迁移成本。
【核心研究思路】
本论文提出的算法名叫高级富有表现力的全身控制策略(Advanced Expressive Whole-Body Control),其核心目标是实现稳定跟踪人类运动的同时让机器人更富有表现力,从而可以模拟十分丰富的人类动作,让机器人的整体表现能力更好。
算法引入了强化学习策略用于机器人的模仿学习和策略迁移,核心框架和流程如下:
核心流程包括三个部分:
动作数据集整理:算法利用了一些开源的人体运动数据集,且在整理运动数据集时,重点关注动作的详细分析和选择,尤其是区分上半身和下半身运动所需的能力。
两阶段策略学习:算法引入了两阶段师生策略学习。教师阶段的学习使用现成的强化学习PPO算法进行训练,从动作数据集和仿真环境中提取关键信息,包括躯干速度、各连杆位置信息和环境的摩擦系数等物理属性,从而可以学习得到高精度的动作跟踪策略;学生阶段的学习有一点不同,去掉了从仿真环境中得到的一些物理属性信息,仅使用自身历史状态观测信息,包括来自仿真环境的和来自真实机器人的。
Sim2Real迁移:这部分引入了一个条件变分自编码器(Conditional Variational Autoencoder,CVAE)来基于历史动作对未来动作进行预测和生成,从而可以用于机器人全身控制策略的学习和真机部署。学生策略的学习发生在仿真环境中,也可以发生在真机部署上,从仿真环境学习到的策略在真机部署后也可以继续学习更新。
此外,与其他方法(H2O、OmniH2O等)直接跟踪全局的关键位置不同,本论文将全局的关键点位置映射到机器人的局部坐标系,使用基于速度的全局跟踪策略,从而提升了对动作跟踪学习的鲁棒性。并且,在训练阶段是允许一部分全局偏移的,并且会在机器人的局部坐标系中进行周期性的矫正。
【实验结果】
实验平台包括基于英伟达机器人仿真平台IsaacGym的仿真学习和宇树科技人形机器人G1和H1上的部署,最终可以实现从人类示教动作数据库中学习并迁移到人形机器人平台的全身动作模仿策略。
相比于其他方法,本论文提出的方法可以获得更好的人类动作“高保真”学习效果,使得机器人的动作更加富有表现力,可以实现包括跳恰恰舞、抱拳、下蹲、侧移转身拳击、防守姿势等高难度的人类动作模仿。
结果演示:
综上,本论文提出的方法可以让人形机器人从人类运动数据库中学习更加富有表现力的动作,并且同时保持高度的运动稳定性,且该方法可以方便地将学习到的策略迁移到不同结构的真实人形机器人上,提升了人形机器人的仿生性。
领取专属 10元无门槛券
私享最新 技术干货