机器之心报道
参与:shooting、一鸣、杜伟
我们可以通过视觉、听觉和触觉来感知物体,而且这几种感知是可以同时进行且互相感受的。但是机器人却很难做到这一点,它也许能“看”,也可以“触摸”,但是这些感知信息却无法交换。 最近,来自MIT CSAIL的博士、曾经的北大学神李昀烛(一作)联合朱俊彦(二作)等人提出一种预测性的人工智能,使机器人能够通过触摸来“看”物体,并且反过来通过视觉图像来预测触摸的感受。
加拿大作家玛格丽特•阿特伍德曾在小说《盲刺客》中写道:「触觉先于视觉,先于语言。它是第一语言,也是最后的语言,它不会骗人。」
的确,有时候眼见未必为真,耳听也未必为实。但你用手去触摸的感知总不会骗人。
不过,虽然触觉让我们可以直接感受物理世界,但眼睛却可以帮助我们立即理解这些触觉信号的全貌,让我们快速获得关于物体的认知。
但对我们来说很简单的一件事,对机器人来说却并不容易。带有摄像头的机器人可以直接看世界,带有触觉系统的机器人可以直接感知。但具有触觉或视觉的机器人无法互换这些信号。
为了缩小这种感官差距,麻省理工计算机视觉和人工智能实验室的研究人员提出了一种预测性的人工智能,可以通过触觉来「看」世界,再通过「看」来感受。
下面,我们来看一下具体研究(先上动图感受下):
绿色:真实结果;红色:预测结果
更多实验动图,请参考:http://visgel.csail.mit.edu
这篇论文到底做了什么?
人类感知世界的方式有很多种,包括视觉、听觉和触觉。在这项研究中,研究人员探索了视觉和触觉之间的跨模态联系。
这项跨域建模任务的主要挑战在于两者之间显著的比例差异:当我们的眼睛同时感知整个视觉场景时,只能感受到物体的一小部分。
为了将视觉和触觉联系起来,研究人员引入了两个跨模态任务:1)从视觉输入中合成可信的触觉信号,2)从视觉输入中直接预测哪个物体和哪个部分正在被触摸。
为了完成此目标,研究人员构建了一个机器人系统来自动化收集大规模视觉-触觉对的过程。如图 1a 所示,机器人手臂装有一个触觉传感器,称为 GelSight。
他们还设置了独立的网络摄像机来记录物体和机械臂的视觉信息。研究人员总共记录了对 195 个不同物体的 12000 次触摸。每个触摸动作包含 250 帧的视频序列,最后产生了 300 万个视觉和触觉对图像。
为了缩小图像数据和触摸数据之间的数据量比例差距,他们提出了新的条件对抗模型,该模型结合了触觉的比例和位置信息。人类的感知研究表明,该模型可以根据触觉数据生成逼真的视觉图像,反之亦然,即它也可以根据视觉数据生成触觉感知。
最后,研究人员给出了关于不同系统设计的定性和定量实验结果,并可视化了模型学习到的表征,以帮助我们理解它捕捉到的东西。
这项研究可以帮助机器人更好的理解物体的性质,而相关的拓展甚至可以协助盲人更好的通过触摸感知环境。
机器人如何通过触觉来「看」世界,或者通过视觉图像来「想象」触觉
在模型层面,研究人员构建了一个跨模型的预测系统,以根据触觉预测视觉,反之亦然。他们首先将触觉中的程度、规模、范围和位置信息结合在模型中。然后,使用数据平衡的方法多样化其结果。最后,通过考虑时间信息的方法进一步提高准确性。
研究中的模型基于 pix2pix 方法,是一个用于图像到图像任务的条件 GAN 框架。
在任务中,生成器接受视觉图像或触觉图像作为输入,并生成一个对应的触觉或视觉图像。而判别器观察输入的图像和输出的图像。
在训练中,判别器分辨输出和真实图像的区别,同时生成器生成真实的,可以迷惑判别器的图像。
在实验中,研究人员使用视觉-触觉图像对来训练模型。在从触觉还原视觉的任务中,输入触觉图像,而输出是对应的视觉图像。而在视觉预测触觉的任务中,则输入和输出对调。
模型
图 3:视觉-触觉的模型结构。生成器包括编码器和解码器两个部分。输入使用了视觉图像和参考视觉-触觉图像一起编码,并产生触觉图像作为输出。对触觉-视觉的任务上,使用同样的结构,但是交换视觉图像和触觉图像的输入输出位置。
模型使用编码器-解码器架构用于生成任务。在编码器上分别使用两个 ResNet-18 模型用于输入图像(视觉或触觉图像)和参考的视觉-触觉图像。
将来自编码器的两个向量合并后,研究人员将其输入解码器。解码器包括五层标准的卷积神经网络,因为输出和一些参考图像相似,研究人员在编码器和解码器之间其中加入了一些跨层连接。对于判别器,研究人员使用了 ConvNet。
为防止模式崩塌,研究人员采取数据重均衡策略来帮助生成器生成不同的模式。评估包括关于结果真实感的人类感知研究以及触摸位置的准确性和 GelSight 图像中变形量等客观度量。
机器人设置
研究人员使用 KUKA LBR iiwa 工业机械臂来实现数据收集过程的自动化。机械臂上安装的 GelSight 传感器用以收集原始触觉图像。
他们还在机械臂背面的三脚架上安装了一个网络摄像头,以捕捉机械臂触摸物体的场景视频。此外,研究人员还利用时间戳记录来同步视觉和触觉图像。
数据集和方法
图 2: 参与实验的物品集合。使用了很多日用品和食品。
表 1: 数据集的划分。
研究的数据集是 YCB(Yale-CMU-Berkeley)数据集,一个标准的日用品数据集,被广泛用于机器人操作研究。研究人员在研究中使用了 195 个物品,其中 165 个作为训练集,并使用 30 个已训练的和 30 个模型未见过的物品进行测试。
训练
模型使用 Adam 学习器,学习率 0.0002。L1 loss 的λ为 10。使用 LSGAN 而非标准 GAN 的损失函数。同时对图像采用了一些数据增强机制,如随机剪裁,或图像亮度、对比度、饱和度和色调微调。
实验创新
为了提高模型的表现,研究人员在实验上采取了一些创新措施:
实验结果
图 5:模型和其他基线结果的可视化对比。模型可以更好地根据视觉图像预测物体表面的触觉信息,也能够更好地根据触觉信息还原图像表面。
表 2:真假测试中的模型表现。模型可以更好地分辨真实和虚假的触觉信号,不管是对已知的物体还是未知的物体。
图 6:从视觉到触觉的量化评测结果。上图:测试机器人是否已经认知到触摸了物体表面的错误数。下图:根据图像还原触觉点位置的失真错误情况。实验模型表现基本上比其它模型好。
图 7:从视觉还原触觉的情况。上图:模型是否能够及时检测到已经触摸了物体表面的曲线。下图:根据图像还原的触觉点阵信息。
一作介绍
李昀烛
不看不知道,一看吓一跳。
一作小哥哥也是枚妥妥的学神。
本科毕业于北京大学,被选入拔尖人才培养计划,曾获学院十佳毕业论文、北京大学优秀毕业生等荣誉。
本科期间在北京大学和斯坦福大学的多个实验室进行科研活动,并以一作身份发表多篇计算机视觉和机器学习顶级会议论文。
李昀烛发表论文列表,我们只截取了部分。
不愧是学神,在这么多顶级大会上发表过论文。而且仔细看,有好几篇都是和朱俊彦合作的。一个出自清华,一个出自北大,妥妥的强强联合。
李昀烛现为麻省理工学院计算机科学与人工智能实验室博士二年级学生,师从计算机视觉科学家安东尼奥·托拉尔巴(Antonio Torralba)和 Atlas 机器人设计团队负责人罗斯‧泰得瑞克(Russ Tedrake)。
他的专业领域是计算机视觉、机器学习和机器人技术,尤其是基于深度学习的机器人动力学建模和多模态感知。他希望自己的研究能够使机器人更好地感知环境,并在动态环境中做出更好的决策。
此前机器之心报道的一篇关于可伸缩触觉手套的论文,李昀烛也参与其中。
参考内容:
http://news.mit.edu/2019/teaching-ai-to-connect-senses-vision-touch-0617 http://visgel.csail.mit.edu/visgel-paper.pdf