Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >让光学3D传感器「看见」透明杯子,这是来自谷歌、哥大的新研究

让光学3D传感器「看见」透明杯子,这是来自谷歌、哥大的新研究

作者头像
机器之心
发布于 2020-03-11 10:19:07
发布于 2020-03-11 10:19:07
6390
举报
文章被收录于专栏:机器之心机器之心

选自Google AI Blog

作者:Shreeyak Sajjan

机器之心编译

参与:王子嘉、蛋酱

业界已经广泛应用的光学 3D 距离传感器,一直有个解决不了的问题——每次遇见透明物体就会失灵。最近,谷歌与来自 Synthesis AI 和哥伦比亚大学的研究人员合作开发了一种机器学习算法 ClearGrasp,能够从 RGB-D 图像中估计透明物体的准确 3D 数据。

自动驾驶汽车到自动机器人等领域,光学 3D 距离传感器与 RGB-D 相机的应用一样广泛,它可以生成丰富而精确的 3D 环境地图。

但它也有个「天敌」,透明的物体就可以让一套常用的昂贵传感器挠头,哪怕只是一个普通的玻璃容器

这是因为光学三维传感器的算法都是基于一个前提——假设所有表面都是 Lambertian 的,也就是说这个表面反射的光线是均匀的,从而从各个角度看,表面的亮度都是一致的。然而,透明物体显然不符合这个假设,因为它们的表面除了反射光线,还会折射光线。因此,大多数透明对象的深度数据是无效的,或者是包含不可预测的噪声。

光学三维传感器通常无法探测到透明物体。右上:例如,Intel®RealSense™D415 RGB-D 摄像机拍到的 3D 深度图像中没有显示玻璃瓶。底部:对深度图像点云的三维可视化。

让机器更好地感知透明的表面,不仅能提高安全性,还能在非结构化应用中开辟新的交互——比如处理厨房用具或对塑料进行回收分类的机器人,或是在室内环境中导航或在玻璃桌面上生成增强现实 (AR) 可视化效果。

为了解决这个问题,谷歌与来自 Synthesis AI 和哥伦比亚大学的研究人员合作开发了 ClearGrasp。ClearGrasp 是一种机器学习算法,它能够从 RGB-D 图像中估计透明物体的准确 3D 数据。

这种效果的实现主要得益于谷歌同时公开的一个大规模的合成数据集。ClearGrasp 的输入可以来自任何标准的 RGB-D 摄像机,然后它会使用深度学习来精确地重建透明物体的深度,并将其泛化成一种全新的物体,这种物体在训练过程中是看不到的。这与以前的方法不同,以前的方法需要事先了解透明物体(如它们的 3D 模型),然后结合背景照明和摄像机位置图来进行建模。在这项工作中,谷歌还证明了 ClearGrasp 可以通过将其整合到其 pick and place 机器人的控制系统中,来提高机器人的操作效率,在该系统中透明塑料物体的抓取成功率有了显著的提高。

ClearGrasp 通过深度学习来重建透明表面的精确三维深度数据。

透明对象的可视化数据集

任何有效的深度学习模型都需要需要大量的数据来训练(如视觉领域的 ImageNet 和 BERT 使用的 wikipedia),ClearGrasp 也不例外。不幸的是,并没有这种带透明物体 3D 数据的数据集。现有的 3D 数据集(如 Matterport3D、ScanNet 等)都没有透明表面的记录,因为这种标记过程耗时耗力。

为了克服这个问题,谷歌创建了自己的大型透明对象数据集,其中包含 5 万多个具有相应表面法线(表示表面曲率)、分割掩模、边缘和深度的真实感渲染,这对于训练各种 2D 和 3D 检测任务非常有用。每个图像包含的透明物体多达 5 个,有的在一个平面上,有的在一个手提袋里,而且包含了各种背景和照明的场景。

ClearGrasp 合成数据集的一些透明物体实例。

谷歌还在数据集中收集了 286 张实景图的测试集,这些图像都有深度标注。实景图的拍摄过程是艰苦的,拍摄时需要在场景中的每个透明物体的位置上绘制一个跟其位置大小完全一致的图像。这些图像是在许多不同的室内照明条件下拍摄的,使用了各种不同的布和饰面背景,而且包含了散落在场景周围的随机不透明物体。它们既包含合成训练集中已有的对象,也包含新对象。

左:实景图拍摄设置;中:自定义用户界面支持精确地用喷漆复制替换每个透明对象;右:捕获数据的示例。

挑战

虽然通过透明物体看到的扭曲的背景视图混淆了典型的深度估计方法,但是也有一些线索暗示了物体的形状。透明的表面也有镜面反射,这种反射跟镜子一样,在光线充足的环境中就变成亮点了。由于这些视觉线索在 RGB 图像中比较突出,并且主要受到物体形状的影响,因此卷积神经网络可以利用这些反射来推断出准确的表面法线,然后再用于深度估计。

透明物体上的镜面反射反映了不同的特征,这些特征根据物体的形状而变化,并为估计表面法线提供了极其有用的视觉线索。

大多数机器学习算法试图直接从单目 RGB 图像中估计深度。然而,即便对人类来说,单目深度估计也是一个非适定(ill-posed)的任务。团队观察到,在估计平坦背景表面的深度时存在较大的误差,这就增加了对位于其上的透明物体深度估计的误差。因此,与直接估计所有几何图形的深度不同,纠正 RGB-D 3D 相机的初始深度估计值可能更实用——能够使用非透明表面的深度来通知透明表面的深度。

ClearGrasp 算法

ClearGrasp 用了 3 种神经网络:一种网络用于估计表面法线,一种用于遮挡边界(深度上不连续),另一种用于遮挡透明对象。遮挡会删除跟透明对象有关的所有像素,以便填充其正确的深度。然后,使用一个全局优化模块,从已知的表面开始扩展深度,并使用预测的表面法线来指导重建的形状,然后使用预测的遮挡边界来保持不同对象之间的分离。

方法概述:点云首先根据输出深度生成,然后根据其表面法线着色。

每个神经网络都在透明的合成数据集上训练,它们在实景图中的透明物体上表现良好。然而,对于其他表面,如墙壁或水果,表面的法线估计是很差的。这个合成数据集还存在局限性,它只包含地面上的透明对象。为了减轻这个问题的影响,团队在表面法线训练循环中加入了一些来自 Matterport3D 和 ScanNet 数据集的真实室内场景。通过对域内的合成数据集和域外的实景数据集的训练,该模型在测试集中表现良好。

在 a) Matterport3D 和 ScanNet (MP+SN),b) 谷歌的合成数据集,c) MP+SN 以及谷歌的合成数据集训练后的表面法线估计。注意,在 MP+SN 上训练的模型没有检测到透明的物体。只训练合成数据的模型能很好地识别真实的塑料瓶,但却无法识别其他物体和物体表面。当模型同时在这两中数据集上训练时,就可以同时满足这两方面的需求。

结果

总体而言,定量实验表明 ClearGrasp 能够重建透明物体的深度,且比其他方法有更高的保真度。尽管模型只在合成透明物体上训练,但能够很好地适应真实世界的领域,比如在跨领域的已知物体上实现了几乎一样的定量重建性能。这个模型还可以很好地推广到具有从未见过的复杂形状的新对象。

为了检验 ClearGrasp 的定量性能,团队基于输入和输出深度图像构建了 3D 点云,如下图所示(更多的例子可以在项目页面上找到:https://sites.google.com/view/cleargrasp/results)。由此估计出的三维表面具有干净且连贯的重建形状——这对三维制图和三维物体检测等应用来说很重要,也没有在单目深度估计方法中看到的锯齿噪声。可以证明模型是稳健的,并在复杂的条件下(如识别位于图案背景中的透明对象或区分部分遮挡的透明对象)表现良好。

对真实图像的定量结果。前两行:已知对象的结果。底部两行:对新对象的结果。点云是基于其相应的深度图像生成生成的,用其表面法线着色。

最重要的是,ClearGrasp 的输出深度可以直接用作使用 RGB-D 图像的最先进的操作算法的输入。用 ClearGrasp 的输出深度估计替换原始的传感器数据后,UR5 机器人手臂抓取算法在抓取透明物体的成功率上有了显著的提高。当使用平行颌夹持器时,成功率从基线的 12% 提高到 74%,吸物时从 64% 提高到 86%。

使用 ClearGrasp 操作新的透明对象。值得注意的是,这些条件是有挑战性的:没有纹理的背景,复杂的物体形状和定向光,同样有令人困惑的阴影和焦散(当光线从表面反射或折射时产生的光的模式)。

局限性及未来的工作

这一合成数据集的限制之一是它不能准确地表示焦散,这个问题同样来自于传统的路径跟踪算法渲染的限制。因此,模型忽略了明亮焦散和阴影是独立的透明物体这一点。尽管有这些缺点,谷歌与 ClearGrasp 的合作表明,合成数据仍然是一种可行的方法,可以得到基于学习的深度重建方法的有效结果。未来工作中一个比较好的方向是通过生成物理上正确的焦散和表面缺陷(如指纹)来改进到真实世界图像的域迁移。

ClearGrasp 证明了高质量的渲染可以成功地训练出在现实世界中表现良好的模型。团队还希望该数据集可以推动对数据驱动的透明对象感知算法的进一步研究。下载链接和更多的示例图像可以在谷歌的项目网站(前文提过)和谷歌的 GitHub 页面(https://github.com/Shreeyak/cleargrasp)中找到。

原文链接:https://ai.googleblog.com/2020/02/learning-to-see-transparent-objects.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器人收集 + Keypose 算法:准确估计透明物体的 3D 姿态
计算机视觉应用领域的核心问题是 3D 物体的位置与方向的估计,这与对象感知有关(如增强现实和机器人操作)。在这类应用中,需要知道物体在真实世界中的 3D 位置,以便直接对物体进行操作或在其四周正确放置模拟物。
磐创AI
2020/09/28
9270
机器人收集 + Keypose 算法:准确估计透明物体的 3D 姿态
大盘点|6D姿态估计算法汇总(下)
http://mi.eng.cam.ac.uk/projects/relocalisation/
3D视觉工坊
2020/12/11
1.3K0
大盘点|6D姿态估计算法汇总(下)
6D目标姿态估计,李飞飞夫妇等提出DenseFusion
6D 目标姿态估计对许多重要的现实应用都很关键,例如机器人抓取与操控、自动导航、增强现实等。理想情况下,该问题的解决方案要能够处理具有各种形状、纹理的物体,且面对重度遮挡、传感器噪声、灯光条件改变等情况都极为稳健,同时还要有实时任务需要的速度。RGB-D 传感器的出现,使得在弱灯光环境下推断低纹理目标姿态的准确率比只用 RGB 方法的准确率更高。尽管如此,已有的方法难以同时满足姿态估计准确率和推断速度的需求。
机器之心
2019/04/30
1.1K0
6D目标姿态估计,李飞飞夫妇等提出DenseFusion
单视图三维重建
《Learning Shape Priors for Single-View 3D Completion and Reconstruction 》。再此分享给大家。同时也抛砖引玉吸引大家能够积极参与分享中。
点云PCL博主
2019/07/30
2.1K0
单视图三维重建
CVPR 2022 | 常见3D损坏和数据增强
论文名称:3D Common Corruptions and Data Augmentation(CVPR2022[Oral])
3D视觉工坊
2023/04/29
6580
CVPR 2022 | 常见3D损坏和数据增强
谷歌公布13GB 3D扫描数据集:17大类、1030个家用物品
选自arXiv 作者:Laura Downs等 机器之心编译 编辑:蛋酱、泽南 谷歌的研究者提出了 Google Scanned Objects (GSO) 数据集,这是一个由超过 1000 个 3D 扫描的家用物品组成的精选集。 近年来,深度学习技术使得计算机视觉和机器人领域的许多进展成为可能,但训练深度模型需要各种各样的输入,以泛化到新的场景。 此前,计算机视觉领域已经利用网页抓取技术收集了数百万个主题的数据集,包括 ImageNet、Open Image、Youtube-8M、COCO 等。然而,
机器之心
2022/05/17
7010
谷歌公布13GB 3D扫描数据集:17大类、1030个家用物品
用于类别级物体6D姿态和尺寸估计的标准化物体坐标空间
本文的目的是估计RGB-D图像中未见过的对象实例的6D姿态和尺寸。与“实例级”6D姿态估计任务相反,我们的问题假设在训练或测试期间没有可用的精确对象CAD模型。为了处理给定类别中不同且未见过的对象实例,我们引入了标准化对象坐标空间(NOCS)-类别中所有可能对象实例的共享规范表示。然后,我们训练了基于区域的神经网络,可以直接从观察到的像素向对应的共享对象表示(NOCS)推断对应的信息,以及其他对象信息,例如类标签和实例蒙版。可以将这些预测与深度图结合起来,共同估算杂乱场景中多个对象的6D姿态和尺寸。为了训练我们的网络,我们提出了一种新的上下文感知技术,以生成大量完全标注的混合现实数据。为了进一步改善我们的模型并评估其在真实数据上的性能,我们还提供了具有大型环境和实例变化的真实数据集。大量实验表明,所提出的方法能够稳健地估计实际环境中未见过的对象实例的姿态和大小,同时还能在标准6D姿态估计基准上实现最新的性能。
计算机视觉
2020/12/29
8510
个人如何更高效地学习3D视觉?
很多粉丝在公众号后台留言,不知如何入门3D视觉、3D领域的主线是什么,一些难点该如何解决,有哪些方法,导师新开的3D视觉方向无人指导等等。这些痛点,工坊的许多童鞋都踩过坑,也为大家提出了许多非常有价值的问题和解决思路,涵盖了计算机视觉与深度学习、点云处理、SLAM、三维重建、结构光、双目视觉、深度估计、3D检测、自动驾驶、多传感器融合等多个方向,超详细的问题和资料汇总请移步至【3D视觉从入门到精通知识星球】,一个有点干货的学习社区!
3D视觉工坊
2021/01/28
1.7K0
个人如何更高效地学习3D视觉?
SilhoNet:一种用于3D对象位姿估计和抓取规划的RGB方法
论文题目:SilhoNet:An RGB Method for 3D Object Pose Estimation and Grasp Planning
计算机视觉
2020/12/11
9630
SilhoNet:一种用于3D对象位姿估计和抓取规划的RGB方法
「单张图像重建3D网格」告别卡顿,从30分钟提速到45秒!浙大、加州大学等联合发布One-2-3-45:在线Demo可试玩
基于单幅图像进行三维重建是一项具有重要应用价值的任务,但实现起来也非常困难,需要模型对对自然世界具有广泛的先验知识。
新智元
2023/08/07
6600
「单张图像重建3D网格」告别卡顿,从30分钟提速到45秒!浙大、加州大学等联合发布One-2-3-45:在线Demo可试玩
基于深度学习的RGBD深度图补全算法文章鉴赏
【GiantPandaCV导语】本文针对3维视觉中的深度图补全问题,介绍了一下近年基于深度学习的RGB-D深度图补全算法进展。深度图的质量对3维视觉至关重要,深度图的优劣极大地影响了后续的3d识别等工作,但目前较多研究聚焦于自动驾驶领域的Lidar深度图的补全,而对RGB-D相机涉猎较少,故本文介绍几篇基于consumer RGB-D cameras深度图补全的深度学习方法,以此来看看近期该领域的发展现状。
BBuf
2021/07/01
2.4K0
基于深度学习的RGBD深度图补全算法文章鉴赏
NeRF新研究来了:3D场景无痕移除不需要对象,精确到毛发
神经辐射场(NeRF)已经成为一种流行的新视图合成方法。虽然 NeRF 正在快速泛化到更广泛的应用以及数据集中,但直接编辑 NeRF 的建模场景仍然是一个巨大的挑战。一个重要的任务是从 3D 场景中删除不需要的对象,并与其周围场景保持一致性,这个任务称为 3D 图像修复。在 3D 中,解决方案必须在多个视图中保持一致,并且在几何上具有有效性。
机器之心
2023/08/04
4780
NeRF新研究来了:3D场景无痕移除不需要对象,精确到毛发
3D重建算法综述
三维重建算法广泛应用于手机等移动设备中,常见的算法有SfM,REMODE和SVO等。
小白学视觉
2022/09/28
1.3K0
工业应用中基于三维模型的6D目标检测综述
文章名称:A Survey of 6D Object Detection Based on 3D Models for Industrial Applications,J. Imaging | Free Full-Text | A Survey of 6D Object Detection Based on 3D Models for Industrial Applications (mdpi.com)
3D视觉工坊
2023/04/29
1.4K0
工业应用中基于三维模型的6D目标检测综述
从2D到3D的目标检测综述
论文阅读模块将分享点云处理,SLAM,三维视觉,高精地图相关的文章。公众号致力于理解三维视觉领域相关内容的干货分享,欢迎各位加入我,我们一起每天一篇文章阅读,开启分享之旅,有兴趣的可联系微信dianyunpcl@163.com。
点云PCL博主
2020/11/19
2.2K0
从2D到3D的目标检测综述
3D Imaging Using Extreme Dispersion in Optical Metasurfaces
由于超表面对入射光的相位、偏振和振幅的极端控制,因此具有革新成像技术的潜力。它们依靠增强的光的局部相互作用来实现所需的相位轮廓。由于光的局部相互作用增强,超表面是高度色散的。这种强分散被认为是实现常规超表面成像的主要限制。在这里,我们认为这种强色散为计算成像的设计自由度增加了一个程度,潜在地打开了新的应用。特别是,我们利用超表面的这种强分散特性,提出了一种紧凑、单镜头、被动的3D成像相机。我们的设备由一个金属工程,聚焦不同的波长在不同的深度和两个深度网络,恢复深度和RGB纹理信息从彩色,散焦图像获得的系统。与其他基于元表面的3D传感器相比,我们的设计可以在更大的视场(FOV)全可见范围内运行,并可能生成复杂3D场景的密集深度图。我们对直径为1毫米的金属的模拟结果表明,它能够捕获0.12到0.6米范围内的3D深度和纹理信息。
狼啸风云
2021/06/17
1.7K0
3D Imaging Using Extreme Dispersion in Optical Metasurfaces
用于形状精确三维感知图像合成的着色引导生成隐式模型 | NeurIPS2021
编译 | 莓酊 编辑 | 青暮生成辐射场的发展推动了3D感知图像合成的发展。由于观察到3D对象从多个视点看起来十分逼真,这些方法引入了多视图约束作为正则化,以从2D图像学习有效的3D辐射场。尽管取得了进展,但由于形状-颜色的模糊性,它们往往无法捕获准确的3D形状,从而限制了在下游任务中的适用性。在这项研究工作中,来自马普所和港中文大学的学者通过提出一种新的着色引导生成隐式模型ShadeGAN来解决这种模糊性,它学习了一种改进的形状表示。 论文地址:https://arxiv.org/pdf/2110.15
AI科技评论
2022/03/03
7920
NeurIPS 2022 | GeoD:用几何感知鉴别器改进三维感知图像合成
‍‍原文:Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator
一点人工一点智能
2022/12/27
6910
NeurIPS 2022 | GeoD:用几何感知鉴别器改进三维感知图像合成
从数据集到2D和3D方法,一文概览目标检测领域进展
目标检测任务的目标是找到图像中的所有感兴趣区域,并确定这些区域的位置和类别。由于目标具有许多不同的外观、形状和姿态,再加上光线、遮挡和成像过程中其它因素的干扰,目标检测一直以来都是计算机视觉领域中一大挑战性难题。
机器之心
2020/11/13
1K0
从数据集到2D和3D方法,一文概览目标检测领域进展
3D视觉技术的6个问答
自从加入学习圈「3D视觉技术」以来,与小伙伴们一起讨论交流了近200多个学术问题,每每遇到一些令我难以回答的问题,我都会为自己学识有限而深感焦虑。好在圈里有很多热心的小伙伴总能在我「危难」之时,替我补充回答,并且每每补充回答总是让我惊叹不已。在此深表感谢。
3D视觉工坊
2020/12/11
5850
3D视觉技术的6个问答
推荐阅读
相关推荐
机器人收集 + Keypose 算法:准确估计透明物体的 3D 姿态
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档