英伟达的研究人员在斯坦•伯奇菲尔德(Stan Birchfield)和乔纳森•特伦布利(Jonathan Tremblay)的带领下,开发出了只需观察人类的行动就能教机器人完成任务的基于深度学习的系统,这是同类中第一个。该方法旨在加强人类与机器人的沟通,同时促进将使人们能够与机器人轻松自如地并肩工作的研究。
研究人员在撰写的研究论文(见文末)中指出:“机器人若要在真实世界环境下执行有用的任务,就要很容易将任务传达给机器人;这包括期望的结果和关于实现该结果的最佳方法的任何提示。通过演示,用户可以将任务传达给机器人,并提供关于如何最有效地执行任务的线索。”
研究人员使用英伟达Titan X GPU,训练了一系列神经网络来执行与感知、程序生成和程序执行有关的任务。因而,机器人只要观看一下真实世界中的演示,就能够学会执行任务。
简要介绍一下其方法的工作原理:摄像头获取某个场景的实时视频镜头,一对神经网络实时推断出场景中诸物体的位置和关系。由此获得的感知信息被馈送给另一个网络,该网络生成一个计划,解释如何再现那些感知信息。最后,执行网络读取该计划,为机器人生成动作,并考虑到真实世界的现状,确保能够抵御外部的干扰。
一旦机器人看到任务,它就会生成人类可读的内容,描述重新执行该任务所必需的几个步骤。该描述内容让用户得以在真实机器人执行任务之前,迅速识别和纠正机器人解读人类演示方面存在的任何问题。
获得这种能力的关键是,充分利用合成数据(synthetic data)的力量来训练神经网络。目前训练神经网络的方法需要大量的已标记训练数据,这是这类系统面临的严重瓶颈。通过生成合成数据,不费吹灰之力就可以生成几乎无限量的已标记训练数据。
这还是第一次在机器人上使用以图像为中心的域随机化(domain randomization)方法。域随机化这种技术用来生成极具多样性的合成数据,随后合成数据让感知网络误以为看到的实际数据只是其训练数据的另一种变体。研究人员选择以图像为中心的方式来处理数据,以确保网络不依赖于摄像头或环境。
研究人员说:“所描述的感知网络适用于任何刚性的真实世界的物体,可以通过3D边界长方体合理地得出这些物体的概况。尽管在训练过程中从不观察真实图像,但即使在严重遮蔽的情况下,感知网络也能可靠地检测出真实图像中物体的边界长方体。”
为了演示,该团队在几个彩色木块和一辆玩具车上训练了物体检测器。系统学习了解了木块的空间关系,无论它们是堆在一起还是放在相邻放置。
在上面的视频中,操作人员向机器人展示了一对堆叠的立方体。然后系统推断出适当的程序,按正确的次序正确放置了立方体。由于系统在执行过程中考虑到了真实世界的现状,遇到错误后能实时恢复过来。
本周,国际机器人与自动化大会(ICRA)将在澳大利亚布里斯班举行,到时研究人员将发表研究论文和工作成果。
该团队表示,他们将继续探究使用合成训练数据用于机器人操控,将其方法的功能扩展到其他场景。
论文:
领取专属 10元无门槛券
私享最新 技术干货