Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MonoRec:无需激光雷达,只需单个相机就可以实现三维场景的稠密重建

MonoRec:无需激光雷达,只需单个相机就可以实现三维场景的稠密重建

作者头像
点云PCL博主
发布于 2021-01-18 06:35:39
发布于 2021-01-18 06:35:39
9190
举报
文章被收录于专栏:点云PCL点云PCL

点云PCL免费知识星球,点云论文速读。

标题:MonoRec: Semi-Supervised Dense Reconstruction in Dynamic Environments from a Single Moving Camera

作者:Felix Wimbauer1 Nan Yang1,2 Lukas von Stumberg1 Niclas Zeller1,2 Daniel Cremers1

主页:https://vision.in.tum.de/research/monorec

编译:点云PCL

欢迎各位加入免费知识星球,获取PDF论文,欢迎转发朋友圈分享快乐。

论文阅读模块将分享点云处理,SLAM,三维视觉,高精地图相关的文章。公众号致力于理解三维视觉领域相关内容的干货分享,欢迎各位加入我,我们一起每天一篇文章阅读,开启分享之旅,有兴趣的可联系微信dianyunpcl@163.com。

摘要

在本文中,我们提出了MonoRec,一种半监督的单目密集重建架构,该方案可在动态环境中根据单个移动摄像机预测深度图。MonoRec提出了一种新型的多阶段训练方案,该方案可以不需要LiDAR深度值的半监督损失公式。在KITTI数据集上仔细评估了MonoRec,并表明与多视图和单视图方法相比,它具有最先进的性能。通过在KITTI上训练的模型,我们进一步证明了MonoRec能够很好地推广到牛津RobotCar数据集和手持摄像机记录的更具挑战性的TUM-Mono数据集上

相关工作与主要贡献

多视图立体视觉(MVS)方法基于具有已知姿势的一组图像来估计3D环境的稠密点云。在过去的几年中,基于经典的优化方法已经开发出很多种方案来解决MVS问题。

基于单目的深度预测仅依赖于单个图像,单目深度预测通常在训练期间仍然消耗视频序列或立体图像。它的目的是解决与本文提出的类似的问题,即对包括静态和动态对象的3D场景进行稠密点云重构。

为了结合具有深度的MVS和单目深度预测的优势,我们提出了MonoRec,这是一种新颖的单目密集重建架构,由MaskModule和DepthModule组成。使用成本量对来自多个连续图像的信息进行编码,这些成本量是基于结构相似性指标度量(SSIM)而不是像以前的工作一样基于绝对差之和(SAD)构建的。MaskModule能够识别运动像素并降低成本量中的相应体素。因此,与其他MVS方法相比,MonoRec不受移动物体上的伪影的影响,因此可提供静态和动态物体的准确深度估计。与KITTI数据集上的其他MVS和单目深度预测方法相比,通过提出的多阶段训练方案,MonoRec可以实现最先进的性能。下图显示了该方法生成的密集点云

MonoRec可以通过单个移动相机提供了高质量的稠密重建的点云。该图显示了通过简单地累积预测的深度图来进行大规模室外点云重建(KITTI数据集)的示例。

主要内容

MonoRec使用一组连续的图像帧和相应的相机位姿来预测给定关键帧的稠密深度图。MonoRec结构结合了MaskModule和DepthModule。MaskModule预测可提高深度精度的运动对象mask,并允许我们消除3D重建中的噪声。DepthModule根据mask的代价来预测深度图。

MonoRec架构

细化损失:a)MaskModule细化和b)DepthModule细化损失函数。

实验对比

由kitti数据集生成的稠密点云的质量

MonoRec与KITTI测试集中的其他方法之间的比较。“数据集”列显示了相应方法使用的训练数据集,评估结果表明,该的方法总体上取得了最佳性能。

运动对象深度估计的比较:与其他MVS方法相比,MonoRec能够预测可能的深度。此外,深度预测在场景的静态区域中具有较少的噪声和伪像

总结

本文简单MonoRec,这是一种深度学习架构,仅通过单个移动相机即可估算出精确3D重建后的稠密点云。论文首先建议使用SSIM作为光度测量来构建成本量。为了处理室外场景中常见的动态对象,提出了一种新颖的MaskModule,它可以根据输入成本量预测移动对象mask。使用预测的mask,使用提出的DepthModule能够估计静态和动态对象的准确深度。此外,我们提出了一种新颖的多阶段训练方案以及用于训练深度预测的半监督损失公式。综合起来,MonoRec能够在KITTI上定性和定量地胜过最新的MVS和单目深度预测方法,并且在Oxford Oxford RobotCar和TUM-Mono上表现较好。这种从单个移动摄像机中恢复准确的3D稠密点云的能力将有助于将摄像机确立为智能系统的先导传感器。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 点云PCL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MonoRec:无需激光雷达,只需单个相机就可以实现三维场景的稠密重建
标题:MonoRec: Semi-Supervised Dense Reconstruction in Dynamic Environments from a Single Moving Camera
3D视觉工坊
2021/01/14
1.3K0
MonoRec:无需激光雷达,只需单个相机就可以实现三维场景的稠密重建
无需相机信息,UniDepth 自提示相机模块,仅从单一图像跨领域重建度量3D场景 !
精确的逐像素深度估计对于理解几何场景结构至关重要,其应用包括3D建模[10]、机器人学[11, 63]和自动驾驶车辆[38, 51]。然而,为了有效地进行3D重建,提供可靠的度量尺度深度输出是必要的,这促使了单目度量深度估计(MMDE)这一具有挑战性和内在不适定问题的任务。
未来先知
2024/08/08
8680
无需相机信息,UniDepth 自提示相机模块,仅从单一图像跨领域重建度量3D场景 !
基于激光雷达和单目视觉融合的SLAM和三维语义重建
文章:SLAM and 3D Semantic Reconstruction Based on the Fusion of Lidar and Monocular Vision
点云PCL博主
2023/08/21
1.9K0
基于激光雷达和单目视觉融合的SLAM和三维语义重建
基于边缘辅助极线Transformer的多视角场景重建
为计算机视觉领域广泛研究的核心问题之一,多视角立体几何( MVS)通过具有重叠区域的多幅图像以及预先标定的相机参数,旨在重建出稠密的3维场景。该技术正广泛应用于机器人导航、虚拟增强现实、无人搜救、自动驾驶等领域。传统方法[1]通过多个视图间的投影关系恢复3D点,在理想的散射方案下取得了不错的效果,但在镜面反射、弱纹理等区域难以保证准确的密集匹配。
一点人工一点智能
2023/01/15
2.2K0
基于边缘辅助极线Transformer的多视角场景重建
基于深度学习的三维重建算法综述
目前,三维重建技术已在游戏、电影、测绘、定位、导航、自动驾驶、VR/AR、工业制造以及消费品领域等方面得到了广泛的应用。方法同样也层出不穷,我们将这些方法依据原理分为两类:
3D视觉工坊
2020/12/11
1.9K0
基于深度学习的三维重建算法综述
激光雷达深度补全
对于自动驾驶汽车和机器人,使用激光雷达是必不可少的,以实现精确的深度预测。许多应用程序依赖于周围环境的意识,并使用深度信息来推理和做出相应的反应。一方面,单目深度预测方法无法生成绝对和精确的深度图。另一方面,双目立体匹配方法仍然明显优于基于LiDAR的方法。深度补全任务的目标是从稀疏和不规则点云生成密集的深度预测,然后将预测的深度信息映射到2D平面。最近有一些优秀的工作,提出了一种精确完成RGB图像引导的稀疏LiDAR图的新方法。
SIGAI学习与实践平台
2019/08/26
1.7K0
激光雷达深度补全
多视图立体匹配MVSNet网络解析:保姆级教程
论文题目:MVSNet: Depth Inference for Unstructured Multi-view Stereo, (ECCV2018 Oral)
计算机视觉
2021/04/30
3.5K0
多视图立体匹配MVSNet网络解析:保姆级教程
基于单目视觉的三维重建算法综述
三维计算机视觉在计算机视觉是偏基础的方向,随着2010年阿凡达在全球热映以来,三维计算机视觉的应用从传统工业领域逐渐走向生活、娱乐、服务等,比如AR/VR,SLAM,自动驾驶等都离不开三维视觉的技术。
SIGAI学习与实践平台
2019/03/01
5K0
基于单目视觉的三维重建算法综述
TANDEM 基于深度多视图立体视觉的实时跟踪和稠密建图
文章:TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view Stereo
点云PCL博主
2022/01/27
8750
TANDEM 基于深度多视图立体视觉的实时跟踪和稠密建图
【SLAM】开源 | 使用ORBSLAM2组织面元,只需在CPU上就可以实时得到精确性较高的稠密环境地图
本文提出了一种新颖的稠密建图系统,在只使用CPU的情况下,可以在应用与不同的环境中。使用稀疏SLAM系统来估计相机姿势,本文所提出的建图系统可以将灰度图像和深度图像融合成全局一致的模型。该系统经过精心设计,目的是可以使用RGB-D摄像机,立体摄像机甚至单目摄像机的深度图像,完成从室内环境到城市室外环境的地图构建。首先,从灰度和深度图像中提取超像素,用于构建面元模型。基于超像素的面元处理,使本文的方法可以兼顾运行效率和内存使用率,降低了算法对系统资源的使用。其次,面元的拼接构建是基于SLAM系统估计的位姿,这种方法可以实现O(1)时间的时间复杂度,而不会受到重建环境规模大小的影响。第三,利用优化后的位姿图实现快速的地图变换,可以使地图实时达到全局一致性。提出的面元建图系统与合成数据集上的其他最先进的方法进行比较。使用KITTI数据集和自主攻击飞行分别演示了城市规模和房间重建的表现。
CNNer
2020/06/19
1.3K0
【SLAM】开源 | 使用ORBSLAM2组织面元,只需在CPU上就可以实时得到精确性较高的稠密环境地图
多视图几何三维重建实战系列之MVSNet
MVS是一种从具有一定重叠度的多视图视角中恢复场景的稠密结构的技术,传统方法利用几何、光学一致性构造匹配代价,进行匹配代价累积,再估计深度值。虽然传统方法有较高的深度估计精度,但由于存在在缺少纹理或者光照条件剧烈变化的场景中的错误匹配,传统方法的深度估计完整度还有很大的提升空间。
计算机视觉
2020/11/11
3.2K3
多视图几何三维重建实战系列之MVSNet
多视图几何三维重建实战系列之COLMAP
为了方便大家了解基于多视图立体的三维重建技术,更重要的是能亲手利用开源数据集或者自己采集的影像跑一遍流程,进而对整个流程更为熟悉,本文整理了近年来几种经典的基于传统方法和基于深度学习方法的三维重建技术Pipeline,并详细介绍从多视图影像到深度图估计,再到恢复三维点云的整个过程。
3D视觉工坊
2020/12/11
4.7K0
谷歌AI:根据视频生成深度图,效果堪比激光雷达
目前自动驾驶的核心技术是LiDAR(激光雷达),一种运用雷达原理,采用光和激光作为主要传感器的汽车视觉系统。LiDAR传感器赋予了自动驾驶汽车能够看到周边环境的“双眼”,激光雷达技术越先进,视觉感知的精准程度越高,这是自动驾驶得以实现的底层技术基础。
新智元
2019/05/08
1.3K0
谷歌AI:根据视频生成深度图,效果堪比激光雷达
基于线段的激光雷达和单目联合曲面重建
在缺乏鲁棒的视觉特征的环境中,运动结构(SfM)通常无法估计准确的姿势,在这种情况下,最终3D网格的质量会降低,克服这个问题的,一种方法是将单目相机的数据与激光雷达的数据结合起来。这种联合传感器的方法可以捕捉环境中精细的细节和纹理,同时仍能准确地表示无特征的对象,然而,由于这两种传感器的特性根本不同,因此融合这两种传感器模式是非常具有挑战性。
点云PCL博主
2021/12/01
9640
基于线段的激光雷达和单目联合曲面重建
IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测
标题:IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving
3D视觉工坊
2020/11/19
1K0
IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测
SLAM3R:基于单目视频的实时密集3D场景重建
北京大学陈宝权教授团队联合港大等开发的 SLAM3R系统取得突破:首次仅用普通手机RGB视频,就能实时(20+FPS)生成高质量、高密度3D场景模型。 它颠覆传统流程,通过神经网络直接端到端预测3D点云,无需求解复杂相机参数。核心是“图像到点”和“本地到世界”双模块,利用滑动窗口处理视频片段并融合局部点云为全局模型。实验证明其精度和完整性超越现有实时方法,为AR、机器人等应用打开大门。
CoovallyAIHub
2025/06/11
5330
SLAM3R:基于单目视频的实时密集3D场景重建
CVPR2019——MonoDepth2论文阅读
逐像素的真实尺度深度数据的大量获取,是具有挑战性的任务。为了克服这个限制,自监督学习已经成为一个有希望的替代训练模型,用来执行单目深度估计。本文中,我们提出了一系列的改进手段,用来提升自监督深度学习深度估计方法的精度。
zjkkk
2020/05/22
4.9K0
CVPR2019——MonoDepth2论文阅读
ECCV2020优秀论文汇总|涉及点云处理、3D检测识别、三维重建、立体视觉、姿态估计、深度估计、SFM等方向
ECCV2020的oral和spotlight名单已经发布,与往年相比,accepted paper list中增加了很多3D方向相关的作品,实在值得鼓舞。
3D视觉工坊
2020/12/11
1K0
基于深度学习的视觉三维重建研究总结
三维重建作为环境感知的关键技术之一,可用于自动驾驶、虚拟现实、运动目标监测、行为分析、安防监控和重点人群监护等。现在每个人都在研究识别,但识别只是计算机视觉的一部分。真正意义上的计算机视觉要超越识别,感知三维环境。我们活在三维空间里,要做到交互和感知,就必须将世界恢复到三维。所以,在识别的基础上,计算机视觉下一步必须走向三维重建。本文笔者将带大家初步了解三维重建的相关内容以及算法。
小白学视觉
2019/10/21
4.4K0
基于相机和低分辨率激光雷达的三维车辆检测
标题:3D Vehicle Detection Using Camera and Low-Resolution LiDAR Zhang, Rui Huang, Le Cui, Siyu Zhu, and Ping Tan
点云PCL博主
2022/02/10
5750
基于相机和低分辨率激光雷达的三维车辆检测
推荐阅读
相关推荐
MonoRec:无需激光雷达,只需单个相机就可以实现三维场景的稠密重建
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档