NVIDIA研究员如何进行机器人的抓取研究（附Deep Object Pose Estimation 代码）

GPUS Lady

发布于 2018-12-05 16:15:23

1.5K0

发布于 2018-12-05 16:15:23

文章被收录于专栏：GPUS开发者

英伟达的机器人研究人员开发了一种基于深度学习的新系统，该系统允许机器人在其环境中感知家居物体，以获取物体并与之互动。通过这种技术，机器人能够对已知的家用物体进行简单的拾取操作，比如把一个物体交给一个人，或者从一个人的手中抓住一个物体。

这项研究基于英伟达研究人员之前的研究成果，允许机器人通过标准的RGB摄像机精确推断周围物体的位置。了解场景中物体的3D位置和方向(通常被称为6自由度至关重要，因为它允许机器人操纵物体，即使这些物体每次不在同一个位置。

英伟达(NVIDIA)首席研究科学家斯坦•伯奇菲尔德(Stan Birchfield)表示:“我们希望机器人能够以安全和熟练的方式与环境互动。”他解释说:“通过我们的算法和一张图像，机器人可以推断出一个物体的三维姿态，从而抓住并操纵它。”　

该算法比目前的方法表现得更加健壮，其目的是解决计算机视觉和机器人技术上的脱节问题，也就是说，目前大多数机器人不具备处理环境干扰所需的感知能力。这项工作很重要，因为这是计算机视觉领域的第一次，一种只在合成数据(由计算机生成)上训练的算法，能够打败在真实图像上训练的最先进的网络，在标准基准的几个对象上进行物体姿态估计。合成数据比真实数据具有优势，因为它可以为深层神经网络生成几乎无限数量的标记训练数据。

伯奇菲尔德解释说:“如今销售的大多数工业机器人缺乏感知能力，它们对周围的世界没有真正的感知能力。”“我们正在为下一代机器人奠定基础，我们离合作机器人的工作又近了一步。”　

通过在DGX站上使用NVIDIA Tesla V100 gpu，结合cudnn加速PyTorch深度学习框架，研究人员训练了一个深度神经网络，使用由NVIDIA为虚幻引擎开发的定制插件生成的合成数据。这个插件可以让其他研究人员公开使用。“具体来说，我们使用非真实感领域随机(DR)数据和真实感数据的组合来利用两者的优势，”研究人员在论文中说。“这两种类型的数据相互补充，产生的结果比任何一种单独获得的结果都要好得多。”合成数据还有一个额外的优点，那就是它避免了对特定数据集分布的过度拟合，从而产生了一个对光照变化、相机变化和背景有很强鲁棒性的网络。

在NVIDIA TITAN X GPU上进行了推断。推理代码也可以公开使用（点击阅读原文可以访问源代码）。

“我们已经证明，一个只接受合成数据训练的网络，与接受真实数据训练的网络相比，能够获得最先进的性能，并且由此产生的姿态对于机器人操作来说具有足够的准确性。”这项研究将在瑞士苏黎世举行的机器人学习会议上发表。

英伟达的团队由研究人员乔纳森·特伦布莱(Jonathan Tremblay)、唐图(Thang To)、巴拉库玛·桑达林加姆(Balakumar Sundaralingam)、于翔(Yu Xiang)、迪特尔·福克斯(Dieter Fox)和斯坦·伯奇菲尔德(Stan Birchfield)组成。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-10-30，如有侵权请联系 cloudcommunity@tencent.com 删除

机器人

本文分享自 GPUS开发者微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

机器人

登录后参与评论

0 条评论

热度

NVIDIA研究员如何进行机器人的抓取研究（附Deep Object Pose Estimation 代码）

NVIDIA研究员如何进行机器人的抓取研究（附Deep Object Pose Estimation 代码）

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐