Nature深度：大模型如何“赋能”机器人？机器人又如何“训练”大模型？

用户9861443

发布于 2024-05-31 14:23:05

5380

文章被收录于专栏：图灵人工智能图灵人工智能

原文作者：

Elizabeth Gibney，《自然》物理、人工智能和政策记者

原文链接：

https://www.nature.com/articles/d41586-024-01442-5

对于看着《星球大战》长大的一代人来说，我们的城市和家庭中缺少像 C-3PO 一样的机器人，这令人失望。那些充满常识、能在家中和工作场所提供帮助的人形机器人在哪里？

人工智能（AI）的飞速发展可能会填补这一空白。斯坦福大学机器学习和机器人学研究员 Alexander Khazatsky 说：“如果我们是最后一代没有实现这些科幻场景的人，我也不会感到惊讶。”

从 OpenAI 到 Google DeepMind，几乎所有掌握人工智能技术的大型科技公司，都在致力于将支持聊天机器人的多功能学习算法（即基础模型）接入机器人中。这样做的目的是让机器人具备常识性知识，从而能够处理各种任务。许多研究人员认为，机器人可以很快变得非常强大。英伟达机器人技术营销经理 Gerard Andrews 说：“我们相信，我们正处于机器人技术变革的关键时刻。”

与此同时，机器人还有助于改进人工智能。许多研究人员希望，在人工智能训练中加入具身体验，可以让他们更接近实现“通用人工智能（AGI）”的目标——人工智能在任何任务中都具有类似人类的认知能力。Meta 人工智能研究员 Akshara Rai 说：“真正智能的最后一步必须是物理智能（physical intelligence）。”

不过，尽管许多研究人员对最近将人工智能带入机器人感到兴奋，但他们也提醒说，一些更令人印象深刻的演示仅仅是演示而已，往往来自那些急于引起轰动的公司。麻省理工学院机器人专家 Rodney Brooks 说，从演示到部署可能是一条漫长的道路。

这条道路上有很多障碍，包括收集足够多的正确数据来供机器人学习、处理易受影响的硬件以及解决安全问题。新加坡国立大学人机互动专家 Harold Soh 说，“应该探索”用于机器人的基础模型。但他对这一战略能否像一些研究人员预测的那样带来机器人革命持怀疑态度。

坚实的基础

从广泛应用于制造业的机械臂，到用于救援任务的自动驾驶汽车和无人机，机器人系统涵盖了多种自动化设备。大多数机器人都采用了某种人工智能技术，比如识别物体。MassRobotics 联合创始人 Joyce Sidopoulos 说，但它们也被编程用于执行特定任务、在特定环境中工作或依赖某种程度的人工监管。即使是由波士顿动力（Boston Dynamics）制造的机器人 Atlas，也是通过仔细映射环境并从内置模板库中选择最佳动作来工作的。

对于大多数涉足机器人领域的人工智能研究人员来说，他们的目标是创造出更自主、适应范围更广的机器人。这可能会从能够“取放”任何工厂产品的机械臂开始，进而发展成能够为老年人提供陪伴和支持的人形机器人。“应用领域非常广泛，” Sidopoulos 说。

人类的形态很复杂，而且并不总是针对特定的物理任务进行优化，但它有一个巨大的优势，那就是完全适合人类构建的世界。人形机器人也应该可以像人一样与世界进行物理互动。

然而，控制任何机器人都非常困难，更不用说人形机器人了。看似简单的任务，比如开门，实际上却非常复杂，需要机器人了解不同的门机械装置如何工作，对把手施加多大的力，以及如何在操作过程中保持平衡。而现实世界是千变万化、瞬息万变的。

目前正在兴起的一种方法是使用与图像生成器和聊天机器人（如 ChatGPT）相同的人工智能基础模型来控制机器人。这些模型使用大脑启发的神经网络，从大量通用数据中学习。它们在训练数据的元素之间建立关联，当在被要求输出时，利用这些关联生成适当的单词或图像，往往能取得惊人的效果。

同样，机器人基础模型也是通过互联网上的文本和图像进行训练的，为其提供有关各种物体的性质及其背景信息。它还能从机器人操作的实例中学习。例如，可以通过机器人试验和出错的视频，或人类远程操作机器人的视频，以及与这些操作相关的指令来训练机器人基础模型。经过训练的机器人基础模型可以观察场景，并利用其学习到的关联来预测什么操作会带来最佳结果。

Google DeepMind 建立了一个先进的机器人基础模型——Robotic Transformer 2（RT-2），其可以操作移动机械臂。与其他机器人基础模型一样，它也是通过互联网和机器人操作视频进行训练的。得益于在线训练，RT-2 可以按照指令进行操作，即使这些指令超出了机器人以前见过的其他机器人的操作范围。例如，当被要求将饮料罐移到 Taylor Swift 的照片上时，RT-2 可以成功完成，尽管 Swift 的照片并没有出现在 RT-2 接受训练的 130000 次演示中。

换句话说，从互联网搜索中收集到的知识（比如 Swift 的长相）被带到了机器人的行动中。Google DeepMind 人工智能和机器人研究员 Keerthana Gopalakrishnan 说：“很多互联网概念就这样被转移了。”这从根本上减少了机器人为应对不同情况而需要获得的物理数据量。

但要完全理解动作的基本原理及其（可能产生的）后果，机器人仍然需要从大量物理数据中学习。这就是问题所在。

数据匮乏

尽管聊天机器人正在接受来自互联网的数十亿个单词的训练，但对于机器人相关的活动，却没有相应的大型数据集。数据的缺乏让机器人“进步缓慢”，Khazatsky 说。

数据池化（pooling data）是解决这一问题的方法之一。Khazatsky 和他的同事创建了 DROID2，这是一个开源数据集，收集了一种机械臂（Franka Panda 7DoF）约 350 小时的视频数据。机器人相机记录了数百种环境下的视觉数据，包括浴室、洗衣房、卧室和厨房。Khazatsky 说，这种多样性有助于机器人出色地完成以前从未遇到过的任务。

Gopalakrishnan 是由数十个学术实验室组成的合作小组的成员之一，该小组也在收集机器人数据，其中包括从单臂到四足动物等各种机器人形态的数据。合作小组的理论是，学习一个机器人的物理世界，应该有助于人工智能操作另一个机器人身体——就像学习英语可以帮助语言模型生成中文一样，因为单词所描述的世界的基本概念是相同的。这似乎行之有效。合作产生的基础模型名为 RT-X，与其他研究人员在一种机器人架构上训练的模型相比，它在实际任务中的表现更好。

许多研究人员表示，这种多样性是必不可少的。Covariant 联合创始人、人工智能研究员 Peter Chen 说：“我们认为，真正的机器人基础模型不应该只与一种具身方式绑定。”

Covariant 也在努力扩大机器人数据的规模。该公司自 2018 年开始收集全球仓库中 30 种不同机械臂的数据，这些机械臂均使用 Covariant 软件运行。Covariant 的机器人基础模型 RFM-1 不仅收集视频数据，还包括传感器读数，比如举起的重量或施加的力。Gopalakrishnan 说，这种数据应该有助于机器人执行任务，比如操纵柔软的物体——理论上，可以帮助机器人知道如何避免破坏香蕉。

，时长00:06

Covariant 建立了一个专有数据库，其中包括数千亿个 token——现实世界中机器人的信息单位——这与训练 GPT-3 的数据规模大致相当。“我们拥有比别人多得多的真实世界数据，” Chen 说，RFM-1 将允许运行 Covariant 软件的机器人操作员输入或说出通用指令，如“把垃圾桶里的苹果捡出来”。

另一种获取大型动作数据库的方法是关注人形机器人的形态，这样人工智能就可以通过观看人类视频来学习——互联网上有数十亿人类的视频。Andrews

举例说，英伟达 Project GR00T 基础模型正在观看大量人类执行任务的视频。Gopalakrishnan 说，虽然模仿人类在提高机器人技能方面潜力巨大，但要做到这一点却很难。例如，机器人视频一般都带有上下文和指令数据，而人类视频则没有。

虚拟现实

研究人员说，获得无限物理数据的最后一个可行方法是通过模拟。许多机器人学家正在努力构建 3D 虚拟现实环境，其物理原理与真实世界类似，然后将其连接到机器人大脑进行训练。模拟器可以产生大量数据，让人类和机器人在罕见或危险的情况下无风险地进行虚拟互动，而且不会磨损机械。Andrews 说：“如果你不得不让大量机械臂进行训练，直到它们达到高度灵巧的水平，那么它们的电机可能会因为过热而损坏。”

然而，开发一个好的模拟器是一项艰巨的任务。Khazatsky 说：“模拟器具有良好的物理特性，但不是完美的物理特性，制作多样化的模拟环境几乎与收集多样化的数据一样困难。”

为扩大机器人数据的规模，Meta 和英伟达都在仿真方面做了大量工作，并分别建立了复杂的仿真世界——Habitat 和 Isaac Lab。在这些模拟世界中，机器人在几个小时内就可以获得相当于多年的经验，然后在试验中成功地将学到的知识应用于在现实世界中从未遇到过的情况。Rai 说：“模拟是机器人技术中一个极其强大但却被低估的工具，我很高兴看到它的发展势头越来越好。”

许多研究人员乐观地认为，基础模型将有助于制造出可以替代人类劳动的通用机器人。今年 2 月，机器人公司 Figure 获得了 6.75 亿美元的投资，该公司计划在其通用人形机器人中使用 OpenAI 开发的语言和视觉模型。在一段演示视频中，机器人回应了一个人提出的“吃点东西”的要求，给了他一个苹果。

目前还不清楚这个机器人的基础模型究竟是如何训练出来的，也不清楚它在各种环境下的表现细节。Soh 说，这种演示应该谨慎看待。他说，视频中的环境非常稀疏。添加更复杂的环境可能会让机器人感到困惑——就像复杂环境可以欺骗自动驾驶汽车一样。“机器人专家对机器人视频持怀疑态度是有道理的，因为我们制作视频时知道，在 100 个镜头中，通常只有一个是有效的。”

未来的障碍

随着人工智能研究社区在机器人大脑方面的不断进步，许多实际制造机器人的人提醒道，硬件同样是一个挑战：机器人很复杂，而且经常损坏。Chen 说，硬件一直在进步，但“很多人只看到了基础模型的前景，却不知道部署这些类型的机器人有多么困难”。

另一个问题是，机器人基础模型在使用视觉数据（占其物理训练的绝大部分）时能走多远。Soh 说，机器人可能需要大量其他类型的感官数据，比如触觉或本体感觉（一种身体在空间中的位置感）。这些数据集目前还不存在。“所有这些都是缺失的，我认为这是人形机器人在世界上高效工作所必需的。”

将基础模型应用于现实世界还面临另一个重大挑战——安全性。自大型语言模型（LLMs）开始大量出现以来的两年里，它们已经被证明会产生错误和有偏见的信息。它们还可能被诱骗去做程序设定它们不能做的事情。让人工智能系统拥有身体，可以将这些错误和威胁带到物理世界。Gopalakrishnan 说：“如果机器人出错，它实际上会对你造成身体伤害，或者打碎东西，或者造成其他损坏。”

她表示，机器人领域也需要人工智能安全领域正在进行的宝贵工作。此外，她的团队还在一些机器人人工智能模型的学习基础上添加了一些规则，比如甚至不尝试与人、动物或其他生物体互动的任务。“在我们对机器人有信心之前，我们将需要大量的人类监督。”

尽管存在风险，但利用人工智能改进机器人——以及利用机器人改进人工智能——的趋势愈发明显。Gopalakrishnan 认为，将人工智能大脑与实体机器人连接起来，可以改善基础模型，比如让它们具有更好的空间推理能力。Rai 说，Meta 是追求“只有当智能体（agent）能够与物理世界互动时，才能产生真正的智能”这一假设的机构之一。有人说，现实世界中的互动可以让人工智能超越学习模式和预测，真正理解这个世界，并做出正确的推理。

未来会发生什么？Brooks 说，机器人将不断得到改进并应用于新的领域，但它们的最终用途“远没有人形机器人取代人类劳动那样吸引人”。但也有人认为，开发一种能够做晚饭、跑腿和叠衣服的实用安全的人形机器人是有可能的，只是可能要花费数亿美元。Khazatsky 说，“我相信会有人做到的，只是需要花费大量的金钱和时间。”

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-05-30，如有侵权请联系 cloudcommunity@tencent.com 删除

数据