专访 OmniH2O 项目发起人何泰然：探索人形机器人遥操作通向具身智能的可行之路

AI科技评论

发布于 2024-07-05 10:30:03

1110

发布于 2024-07-05 10:30:03

文章被收录于专栏：AI科技评论AI科技评论

最强的机器人模型一定不只有一种数据来源。

作者丨饶舒玮

编辑丨岑峰

“既要又要”是何泰然的野心，也是决心。

在谈到人形机器人遥操作的可行路径时，何泰然表示他既可以实现机器人的全身控制，还可以用强化学习来实现这一点。在他所探索的这条路上，不必因为技术瓶颈或短期目标而妥协，可以“既要又要”。

遥操作，即远程操作（Teleoperation）。在机器人领域，人们通过某种设备操控机器人完成指令下的各种动作，从而收集机器人的训练数据，为后续自动化学习提供数据。因此，机器人遥控几乎是每一个机器人公司不可绕开的部分。

尽管市场潜力无限，但在何泰然看来，目前领域依然囿于技术难关，并未得到长足的发展。而现在，具身智能的兴起，为这一领域带来一些新的生机。

2015年前后，人工智能领域实现了从“感知智能”向“认知智能”研究范式的重大转变。ResNet、Transformer 等创新架构的提出，不仅推动了深度学习技术的飞跃，更为大模型的问世奠定了基础。大模型以其空前的计算能力和数据处理能力，极大地拓展了机器学习在处理复杂任务时的边界，尤其是在自然语言处理和计算机视觉等关键领域取得了革命性的进步。这些技术进步，为机器人的感知、决策和交互能力的提升，奠定了坚实的算法基础。

得益于此，自然语言处理、计算机视觉和机器学习领域的专家学者们，与机器人方向的研究者一道，成为引领这一波具身智能发展浪潮的关键力量。他们正推动着具身智能不断突破边界，向着更加智能化、更具人性化的方向发展。

尽管具身智能被视为未来人工智能研究的一个重要方向，但其发展仍处于起步阶段，正面临着技术、规范、安全等多方面的挑战。正如一百多年前汽车刚刚出现的时代，我们迫切需要打通从感知到认知的层面，建立起一套更大、更统一的系统。

OmniH2O 项目正是孵化于这样的一个时代背景之下。其发起者何泰然是卡内基梅隆大学（CMU）的一名博士生，连同他在内的9人小组就是一整个团队。在何泰然博士导师石冠亚、刘畅流以及之前在上海交通大学的导师张伟楠的指导和协助下，OmniH2O 不仅展示了全尺寸人形机器人的全身遥控和自主学习的能力，更是在人形机器人控制的自然性和灵活性上有所提升。

OmniH2O 项目的核心在于其基于学习的方法，通过使用运动学姿势作为通用的控制接口，实现多种控制人形机器人的方式。项目的一个关键贡献是其开发的端到端全身策略，该策略协调了上半身和下半身的动作，以支持灵巧的操控和稳健的移动。此外，OmniH2O项目还发布了首个针对人形机器人全身控制的数据集 OmniH2O-6，包含六个日常任务，并通过这些任务展示了人形机器人全身技能的学习能力。

在AI科技评论对何泰然博士的专访中，我们深入了解了 OmniH2O 项目的成立初衷、创新点以及其在具身智能领域中的潜在影响。何博士分享了他们团队如何通过遥操作实现数据收集和学习，解锁人形机器人的潜力，并讨论了在这一过程中遇到的挑战和解决经验。

以下即为AI科技评论与何泰然就 OmniH2O 项目的访谈实录，限于篇幅，AI科技评论进行了不改原意的编辑：

1、不再“从头开始”的遥操作

AI科技评论：在具身智能领域的生态链中， OmniH2O 项目的定位是什么？

何泰然：我们这个工作自身是一个概念验证（Proof of Concept）的定位。我想通过这个项目证明，人可以通过 VR 眼镜或者其他的设备比如 RGB 相机遥操作一个人形机器人来收集数据，使其完成日常生活的任务。

在这过程中，我们还希望能够有一些新发现，比如怎么样可以把控制和自主性做的更好、更鲁棒、更聪明。但我觉得在这一方面需要工业界的帮助，一起将整个系统进行优化升级，单凭我们学术界的实验室很难把这件事推动到极致。所以我称这个工作只是一个 Proof of Concept。

AI科技评论：为什么会选择人形机器人这个载体进行遥操作的研究？

何泰然：因为这个世界的所有设计都是围绕人类的身材和活动规律来设计的，只有人形的机器人，才能够无缝融入我们的物理世界。

此外，在遥操作一个机器人去进行学习训练的过程中，因为身体构造的相似，使得我们人类遥控人形机器人的学习成本最低，这也是关键因素之一。人类的大脑就是一个最强的预训练模型，我们可以将人类大脑的认知和控制能力提炼出来以此教会人形机器人，如此便可直接将人类世界的经验分享给机器人，从而进行遥操作，没必要再一切从头开始从零训练。

AI科技评论：那么，又为何会选择 VR 头盔进行遥操作？

何泰然：当时也有使用 RGB 相机，从一些 2D 的图像还原成 3D 的人类姿态估计，将这些数据去做遥操作然后喂给 tracking policy，这个方法可行，但精度和鲁棒性不如头戴式 VR。另外一些更好的 interface （比如动作捕捉设备或者全身的外骨骼）又太贵了，性价比不高。

后来我们发现使用 VR 眼镜可以很好地平衡价格和实用性。它有得天独厚的两个优势，一是它本身就是个显示器，可以完全代入机器人视角，相比别的设备更加直观。二是，VR 眼镜有非常准确的头、手追踪和位置估计。像是苹果就已经把这点做到极致了，每个手有25个点位，长什么样？分别的角度是多少？Apple Vision Pro 可以预估得非常精准。所以用这个设备来做遥操作，是再合适不过了。

所以目前来看，我们认为 VR 这个赛道很好，但如果未来有更好的设备出现，我们也会追求更好、更合适的设备来进行遥操作和训练。

AI科技评论：ChatGPT 出现之后，会考虑将 ChatGPT 跟 OmniH2O 打通实现自主操作吗？

何泰然：其实打通就是让类似 GPT-4o 这样的大模型来替换人类的遥操作员。但人类的遥操作员不管通过什么设备，其所传输给下游的都是人形机器人的控制策略，也就是一些人形机器人关键点（头/手/手指）的位置。我认为，如果下游的控制策略做得好，那么上游来自什么其实不重要。

如果我们要利用 GPT-4o 进行遥操作，就是通过人形机器人头上相机，将看到的东西实时传给 GPT-4o，告诉它现在要怎么做。但目前如果让 GPT-4o 直接执行指令，它的响应时间太长了，所以我们让 GPT-4o 进行行动的选择，而不是完全自主决策，我觉得这对现在的方案来说是最可行的。

当然之后我觉得像 GPT-4o 这样的 vision language model 一定会有非常大的进步，到时候甚至可以不用上传到云端，不会有网络的延迟，可以在机器人自己的设备上进行 inference。那个时候就不用做选择题了，直接做写作题就行了。

AI科技评论：现在有和哪些工业界的公司进行接触和合作吗？在和他们接触的时候会如何介绍这个项目？

何泰然：现在和工业界的接触还不多，一般我们是工业界的用户。因为我们实验室会买一些宇树或是其他公司的机器人。我觉得对于每一个公司来说，人形机器人遥操作都是一个不可缺失的部分。现在学术界有很多成果，来自UCSD、清华、Stanford和CMU，我相信未来工业界一定会有相当成熟的方案整合。

但现在很多公司在进行机器人遥操作过程中都有或多或少的妥协，要么是对上下半身分离控制，不做全身的控制，要么有些公司偏向于更稳定成熟的传统控制方法，不会选择上强化学习。而我们现在在做的事就是想传递给工业界这样一个信息：人形机器人遥操作可以既做全身控制又做强化学习，还能够达到很好的完成度。

2、最珍贵的数据最难得

AI科技评论：你们是如何解决在遥操作和自主学习方面遇到的一些技术障碍？

何泰然：我们不追求一步到位的解决。首先，我们会把问题进行拆分，比如我们会用一个很好的 interface （VR）来做遥操作，在下游用追踪策略（tracking policy）来追踪人类的动作。由此，我们就把这个挑战拆分成身体控制和认知的的挑战，其中在认知层面，我们就可以用遥操作来代替。

在我看来，其实遥操作和自主学习这两类不同任务的边界很模糊。因为本质上，遥操作是为了让机器人实现自主学习。而这一切的基础都建立在一个非常好的控制策略上。上游的话，不论是来自人类的大脑，或是自己训练的自动智能体都是可行的。

AI科技评论：现在具身智能的发展需要各种各样的数据集，你认为哪些数据集比较重要？

何泰然：我觉得现在的问题在于每一种机器人形态都有它的数据集，但是我们很难把不同的数据整合到一起。今年年初 Stanford 发布的一个研究成果叫 UMI ，就是一个很好的 Manipulation Data 的尝试。

我认为，不管是狗式的机器臂，还是人形机器人的机械臂，都可以共享数据。但人形机器人不同于纯机械臂的manipulation，除了臂之外，腿、腰等部位的数据我觉得也相当重要。

AI科技评论：除了遥操作之外，我们知道还可以通过仿真获得数据，你认为 3D 仿真这种方式能从多大程度上解决数据问题？

何泰然：我觉得会从很大程度上解决。正是因为我们没有足够机器人在真实世界的数据，所以才需要仿真。虽然可能通过仿真获得的数据并不是那么准确，但能够提供足够好的起始数据。我相信未来最好的系统，一定不会只由一种数据所训练出来。

老生常谈，数据价值可以用金字塔的结构来比喻，最易得的模拟器仿真数据在最低层，无穷无尽也大致正确；最高层的数据最难得，但价值也最高。未来最好的算法或者最强的机器人模型，一定会是那种完美地融合了不同数据来源的类型。

AI科技评论：这个项目的数据集包含了哪些任务？未来还希望达到哪些任务目标？

何泰然：数据集包含了 6 个任务。第一个是打拳击，我作为教练，它要能够识别并执行拳套颜色和左右拳的指令。

第二个是玩儿石头剪刀布，输入游戏规则后，通过几次训练，让它学会怎么在石头剪刀布中赢。

第三个是关于下蹲躲避障碍物的任务。我们设置了一个长木横杠的自动装置不断向人形机器人靠近，如果机器人不能够学会下蹲进行躲避就会一直被打。

第四、五个都是抓取的任务，机器人用右手抓取物体放置在一个盒子上，再用左手给放回原处，如此左右手重复此过程。

第六个任务是关于扔垃圾的，比如我们将垃圾递给人形机器人，它要学会自主抓住，并使其放进垃圾桶。

未来我们希望能将控制做得更好，在行动效率、鲁棒性和准确性方面都有提升，这样收集数据的效率也会更高，我们也会更多在日常生活场景中去收集数据。

AI科技评论：你认为上述的数据集离实际应用还有多远？

何泰然：这个数据集虽然包含了 6 个任务的高质量数据，但主要贡献是为学术界和工业界收集数据，验证机器人是否能摆脱遥操作进行自主学习。

实际上这个数据量总共加起来其实不到一个小时的操作数据。若要真正实际应用，可能需要收集几千上万人长时间的遥操作数据，没有人知道准确答案。我认为需要工业界和学术界一起去回答，要怎么样更高效地收集、利用这些数据，要怎么设计数据结构，才能使数据得到最大化使用。

3、形成具身智能的数据飞轮

AI科技评论：什么时候开始对人形机器人遥操作这一领域产生兴趣？在哪个阶段有了想做 OmniH2O 项目的想法？

何泰然：我的兴趣是从小时候那部科幻电影《铁甲钢拳》开始的。那部电影讲述了人类通过遥操作机器人来代替自己进行拳击赛的未来。看过电影之后，我心里就埋下了种子，希望自己未来也能够设计出电影里的那套机器人系统。

我在上海交通大学完成了我的本科学位，然后在2023年8月份来到 CMU 开始我的博士生涯，也是在这里我正式开始准备 OmniH2O 项目。在 CMU 入学后，我就和导师石冠亚教授沟通了这个想法。除了个人兴趣的原因，开展 OmniH2O 项目也有一定的研究意义。这个项目可以利用遥操作技术收集到驱动机器人的数据飞轮。

因为在计算机视觉和自然语言处理领域，可以通过网络等方式找到语料库作为数据，但是在机器人领域目前并没有现成的数据可以获取。我认为遥操作可以作为一种解决办法，由人来控制机器人完成一些日常的重要任务，以此收集数据，开启研发自动版机器人第一步，然后再让自动版机器人去迭代更多的数据，形成数据飞轮。这是我认为真正可以让具身智能实现的一条路。

AI科技评论：在你看来的话，近十年来，机器人的进步主要体现在哪些方面？

何泰然：其实这十年来机器人的突破，比起 AI 的其他领域还是远远不足的。实话说，我认为机器人的突破主要来自 AI 其他社区的进步。

机器人领域主要分为感知、规划和控制。我觉得第一大进步是感知，第二个是硬件，如国内的宇树公司所造的人形机器人，成本低，性能也非常好。

另外，在控制上，我看到了强化学习在控制机器人上面的潜力。在10年前，世界上能够让一个人形机器人走起来的专家，一只手都数得过来。现在因为深度强化学习在 AlphaGo 之后得到了长足的发展，使这项任务难度大大降低。

此外，芯片方面的支持也是一大助力。如果只是用单线程在 CPU 上跑模拟器的速度是做不了机器人的控制的。但是英伟达的 Isaac gym，包括像 Mujoco3，可以同时跑几千甚至上万个 environment，一秒可以跑几十万甚至几百万步，这在以前是不可想象的。

所以我认为，近十年来机器人的进步来自于计算机视觉的认知能力，强化学习算法的进步，以及机器人硬件和高度并行的 GPU 模拟环境的进步。

AI科技评论：你怎么看待不同领域的研究者参与到具身智能领域的研究中？

何泰然：我觉得这是好事。如果一个人只懂计算机视觉或者只懂强化学习、NLP，那么具身智能都没有办法实现。不管是系统的设计控制，还是更高层的智能连接，要怎么实现最优机器人系统需要大家一起讨论。

在整个讨论过程中，不同研究背景的人是如何思考问题的，他们有什么好的解决方案，这背后有没有什么共通的能够让机器人变得更好的逻辑等等，能碰撞出不同的火花。比如我们从 ChatGPT 里面学到 Scaling Law，数据越多，模型越大，表现越好。但是同样的 Scaling Law 我们怎么让它在机器人领域也同样适用，怎么去获得这个量级的数据，怎么获得一个机器人版本的 GPT？我非常喜欢大家没有确定性答案的这种研究领域。大家拥有不同的背景，但都有对研究问题的共同信仰——让机器人变得更好，让每个人的生活变得更好。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-28，如有侵权请联系 cloudcommunity@tencent.com 删除

科技