前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Orbeez-SLAM:基于ORB特征和NeRF的单目实时视觉SLAM

Orbeez-SLAM:基于ORB特征和NeRF的单目实时视觉SLAM

作者头像
点云PCL博主
发布于 2024-05-20 08:57:47
发布于 2024-05-20 08:57:47
8130
举报
文章被收录于专栏:点云PCL点云PCL

文章:Orbeez-SLAM: A Real-time Monocular Visual SLAM with ORB Features and NeRF-realized Mapping

作者:Chi-Ming Chung , Yang-Che Tseng , Ya-Ching Hsu , Xiang-Qian Shi , Yun-Hung Hua , Jia-Fong Yeh , Wen-Chin Chen , Yi-Ting Chen and Winston H. Hsu

编辑:点云PCL

欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。

摘要

通过视觉信号执行复杂任务并与人类合作的人工智能备受期待,为了实现这一目标,通常需要一种视觉SLAM,它能够在没有预先训练的情况下轻松适应新场景,并能够实时生成稠密地图,以供下游任务使用。由于其组件固有的限制,以往基于学习和非学习的视觉SLAM都不能满足所有需求。在这项工作中,我们开发了一种名为Orbeez-SLAM的视觉SLAM,它成功地与隐式神经表示和视觉里程计协作,实现了我们的目标。此外由于Orbeez-SLAM只需要RGB输入,因此可以与单目摄像头配合使用,使其在现实世界中具有广泛的适用性。结果表明,我们的SLAM比强大的基线快高达800倍,并具有优越的渲染效果。代码链接:

https://github.com/MarvinChung/Orbeez-SLAM。

主要贡献

本文致力于开发一种无需预训练且能够实时推理的单目视觉SLAM,以满足实际应用需求。为此提出了Orbeez-SLAM,结合了基于特征的SLAM(例如ORB-SLAM2)和基于instant-ngp框架的NeRF。与之前的方法不同,这里强调了VO(在ORB-SLAM2中)甚至在训练的早期阶段也能提供更好的相机姿态估计,这使得Orbeez-SLAM可以使用单目相机,即无需深度监督。此外通过VO同时估计相机姿态并更新NeRF网络。值得注意的是,训练过程是在线和实时的,无需预训练,如图1所示。

图1:Orbeez-SLAM流程。相机上方的数字表示跟踪的时间戳。左侧图像显示了从零开始培训27秒的NeRF结果。右侧图像显示,在左侧看到未曾见过的区域(即新颖视角)后,NeRF模型可以在几秒钟内更新该区域。Orbeez-SLAM是实时的且无需预训练。

因此,Orbeez-SLAM可以渲染诸如场景深度和颜色等的密集信息。此外,它在各种室内场景中得到了验证,并在速度、相机跟踪和重建方面优于NeRF-SLAM基线。总的来说,我们的贡献有三个方面:

  • 提出了Orbeez-SLAM,这是第一个无需预训练且能够提供密集地图的实时单目视觉SLAM,专为空间AI应用而设计。
  • 通过结合视觉测距和快速NeRF框架,该方法实现了实时推理并生成了密集地图。
  • 在具有挑战性的基准测试上广泛验证了Orbeez-SLAM与最先进的基线方法,展示了优越的定量和定性结果。

内容概述

系统概述

与之前需要深度信息以更好地感知几何形状的NeRF-SLAM不同,我们开发了Orbeez-SLAM,利用VO进行准确的姿态估计,以使用单目摄像头生成密集地图。此外,它实现了免预训练适应和实时推断。图3显示了我们的系统流程。跟踪过程从输入图像流I中提取图像特征,并通过VO估计相机姿态。映射系统通过三角剖分生成地图点,并通过束调整(重投影误差)优化相机姿态和地图点。这些地图点表示稀疏点云。然后,我们利用更新的相机姿态和地图来训练NeRF。由于该过程是可微分的,因此我们仍然可以通过NeRF的光度损失来优化相机姿态。最后,NeRF可以为下游任务生成密集地图。此外,这个流程应该适用于提供稀疏点云的任何SLAM系统。

图3:系统流程,跟踪和建图过程同时运行。图像流中的一帧必须满足两个条件才能成为关键帧。第一个条件筛选出跟踪结果较弱的帧。第二个条件在建图过程繁忙时丢弃帧,跟踪过程提供相机姿态估计,建图过程优化相机姿态并维护地图。

B.优化

优化OrbeezSLAM系统所使用的三个主要目标:姿态估计、束调整和NeRF回归。

  1. 姿态估计的目标。在这个目标中使用了复投影误差来衡量相机姿态的准确性。复投影误差是基于观察到的图像像素位置和通过三维地图点投影得到的像素位置之间的差异来计算的。作者指出,姿态估计的目标是通过最小化复投影误差来优化相机的姿态参数。
  2. 捆集调整的目标。在这个目标中,作者继续使用了复投影误差,不过这次是针对地图点的位置和相机姿态的优化。在视觉里程计的三角测量步骤之后,新的地图点被添加到局部地图中,然后使用捆集调整来优化这些地图点的位置和相机的姿态。
  3. NeRF回归的目标。在这个目标中,作者介绍了使用NeRF来最小化光度误差,以回归图像颜色。并且解释了如何使用射线表达,并通过应用跳跃体素策略来采样接近表面的位置,如图2。最后NeRF光度损失是预测颜色和观测颜色之间L2范数的损失。

C.射线投射三角测量

图2:跳跃体素策略,在沿着投射射线采样位置时,如果一个体素未被占用(标记为0),则会跳过该体素;我们只采样与表面相交的体素(标记为1)

图2展示了密度网格如何加速渲染过程。然而这种结构只考虑了一个射线,并且高度依赖于NeRF模型的密度预测。我们额外存储了每个体素的采样次数。一个频繁阻挡射线的体素更有可能是表面,如图4所示。

图4:NeRF中的射线投射三角测量,这里记录了每个密度网格体素的采样计数。如果一个体素的权重超过了成为表面候选的阈值,将为该体素计数器加1,那些采样计数高的体素很可能包含表面,并被添加为稠密点云的地图点

为了抑制噪声,我们只对位于经常被射线扫描的体素内的点进行三角测量。这里选择64作为实际实现的阈值,因为根据我们的经验,这个值具有最佳的可视化效果,我们还利用了数据结构中从稀疏点云生成的地图点,由于地图点周围更有可能是表面,在密度网格的采样计数器中增加了大量数字。我们声称这种方法可以找到更可靠的表面,并且可以使用训练过的NeRF在线生成地图点,在图3中展示了由此方法生成的稠密点云。

实验评估

数据集。为了公平比较,我们在三个基准数据集上进行实验,包括TUM RGB-D、Replica和ScanNet,它们提供了大量的图像、深度和相机轨迹数据,并且在先前的工作中被广泛使用。基线方法。我们将提出的Orbeez-SLAM与两类基线方法进行比较:

  • 基于学习的SLAM:DI-Fusion 、iMap、iMap∗、以及NICESLAM。
  • 基于传统方法的SLAM:BAD-SLAM、Kintinuous和ORB-SLAM2。

实现细节。我们在一台搭载Intel i7-9700 CPU和NVIDIA RTX 3090 GPU的台式电脑上进行所有实验。按照ORB-SLAM2和instant-ngp的官方代码实现了Orbeez-SLAM。需要注意的是Orbeez-SLAM从ORB-SLAM2中继承了闭环检测过程,以提高轨迹的准确性。我们没有像ORB-SLAM2那样剔除关键帧,以确保关键帧在传递给NeRF后不会被删除。代码使用C++和CUDA编写。关于损失函数,我们通过g2o框架优化重投影误差,通过tiny-cuda-nn框架优化NeRF中的光度误差。

定量结果。我们的目标是验证Orbeez-SLAM在我们具有挑战性的设置下(即,无需预训练即可进行实时推理),是否能够产生准确的轨迹(ATE)、精确的三维重建(Depth)和详细的感知信息(PSNR)。

TUM RGB-D(小规模)数据集上的评估,表I列出了所有方法的跟踪结果。需要注意的是Orbeez-SLAM在跟踪结果方面表现优异,与所有深度学习基线相比有着显著的差距(前半部分)。此外由于我们的方法是基于ORB-SLAM2构建的,因此ORB-SLAM2是我们跟踪结果的上限。然而即使提供了由NeRF生成的密集地图,Orbeez-SLAM在性能上只有轻微的下降。

ScanNet(大规模)数据集上的评估。如表II所示,我们在所有场景中获得了最佳的平均结果。我们认与ORB-SLAM2之间的性能差异是由于随机性造成的。此外,在某些情况下,NICE-SLAM的性能最佳。

Replica数据集上的评估。NICE-SLAM在Replica上评估了建图结果,因为它提供了GT网格。我们认为从NeRF生成网格的过程并不统一且棘手,因此,使用了NeRF工作中常用的指标Depth L1和PSNR。如表III所示,当在渲染深度时支持GT深度时,NICE-SLAM在Depth L1上获得了最佳值。然而,当在渲染时没有GT深度时,我们的Depth L1值优于NICE-SLAM。

运行时间比较。表IV描述了我们的Orbeez-SLAM和NICE-SLAM在TUM RGB-D基准测试上运行的耗时,由于VO在训练的早期阶段估算了准确的相机姿态,Orbeez-SLAM比NICE-SLAM快360 ∼ 800倍。

消融研究。表V展示了消融研究的结果,我们可以观察到,仅由Lrpj引导的相机姿态比同时由Lrpj和Lpht引导的结果更好。

图5: 渲染结果对比。展示了Orbeez-SLAM和NICE-SLAM渲染结果的RGB和深度图像,提供了Orbeez-SLAM(单目和RGB-D)和NICE-SLAM(RGB-D,包含和不包含推理时的GT深度)的结果。值得注意的是,在RGB-D设置中,我们在NeRF渲染时没有使用深度信息(深度仅用于跟踪过程),因此NICE-SLAM提供了更好的深度渲染结果。

我们在图5和图6中提供了定性结果,如图5所述,NICE-SLAM在GT深度的帮助下渲染图像。为了明确起见,两种NICE-SLAM情况的训练均使用了GT深度。相比之下,Orbeez-SLAM在渲染图像时不使用深度监督,即使在RGB-D情况下,GT深度仅用于跟踪。值得注意的是,Orbeez-SLAM在两种设置下都提供了优于NICE-SLAM的RGB结果。我们强调,NICE-SLAM由于使用了GT深度,因此提供了更好的深度结果。此外在图6中提供了不同时间戳下的Orbeez-SLAM渲染结果。在实时SLAM结束后,我们对NeRF进行离线训练直到损失完全收敛。Orbeez-SLAM在TUM和Replica案例中展示了出色的结果(前两行),但在大规模的ScanNet案例中失败了。

图6: NeRF结果随时间变化,展示了在TUM-fr3/office、Replica-office和ScanNet0207上的NeRF渲染结果随时间的变化。

总结

本文旨在开发一种无需预训练即可实现实时推理并提供密集地图用于下游任务的视觉SLAM系统,为此提出了Orbeez-SLAM,它利用了ORB特征和NeRF实现的地图构建,与视觉里程计和快速NeRF实现在instant-ngp平台上合作。此外Orbeez-SLAM可以与单目摄像头配合工作,从而实现灵活、实用的应用。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 点云PCL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
NeRFs和3D高斯溅射技术如何重塑SLAM:综述
文章:How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey
点云PCL博主
2024/06/21
1.7K0
NeRFs和3D高斯溅射技术如何重塑SLAM:综述
​OA-SLAM:在视觉SLAM中利用物体进行相机重定位
文章:OA-SLAM: Leveraging Objects for Camera Relocalization in Visual SLAM
点云PCL博主
2023/08/25
7760
​OA-SLAM:在视觉SLAM中利用物体进行相机重定位
​SLAM | 融合激光雷达与图像数据,通过3D高斯溅射实现室内精确定位!
光学传感器外方位估计以及同时重建三维(3D)环境的问题在计算机视觉领域中通常被称为SfM(Structure from Motion),在机器人学中被称为SLAM(Simultaneous Localisation and Mapping)[1]。
AIGC 先锋科技
2024/07/08
2.1K0
​SLAM  |   融合激光雷达与图像数据,通过3D高斯溅射实现室内精确定位!
基于图割优化的多平面重建视觉 SLAM(ISMAR2021)
作者提出了一种语义平面 SLAM 系统,该系统使用来自实例平面分割网络的线索来改进位姿估计和映射。虽然主流方法是使用 RGB-D 传感器,但在这样的系统中使用单目相机仍然面临着鲁棒的数据关联和精确的几何模型拟合等诸多挑战。在大多数现有工作中,几何模型估计问题,例如单应性估计和分段平面重建(piece-wise planar reconstruction,PPR),通常由标准(贪婪)RANSAC解决。然而,在缺乏场景信息(即尺度)的情况下,设置RANSAC的阈值是很非常困难的。在这项工作中,作者认为可以通过最小化涉及空间相干性的能量函数来解决两个提到的几何模型(单应性/3D平面),即图割优化,这也解决了经过训练的CNN的输出是不准确的问题。此外,作者根据实验提出了一种自适应参数设置策略,并完成了对各种开源数据集的综合评估。
计算机视觉
2021/08/24
3880
ORB特征提取策略对ORB-SLAM2性能的影响
博主推荐,作者总结了SLAM中常见的算法,由理论到代码实践,十分有用。欢迎大家关注作者的知乎专栏:https://www.zhihu.com/column/slamTech,
点云PCL博主
2020/12/03
1.1K1
ORB特征提取策略对ORB-SLAM2性能的影响
VP-SLAM:具有点、线和灭点的单目实时VSLAM
传统的单目视觉SLAM(VSLAM)可以分为三类:使用特征的方法、基于图像本身的方法和混合模型。
一点人工一点智能
2022/12/24
2.1K0
VP-SLAM:具有点、线和灭点的单目实时VSLAM
两万字 | 视觉SLAM研究综述与未来趋势讨论
摘要:近年来,基于视觉传感器在同时定位与地图构建(SLAM)系统中展示出了显著的性能、准确性和效率。在这里,视觉同时定位与地图构建(VSLAM)方法是指使用相机进行姿态估计和地图生成的SLAM方法。
一点人工一点智能
2022/12/25
1.6K0
两万字 | 视觉SLAM研究综述与未来趋势讨论
GEVO: 基于高斯的内存高效单目视觉里程计
文章:GEVO: Memory-Efficient Monocular Visual Odometry Using Gaussians
点云PCL博主
2024/11/25
1470
GEVO: 基于高斯的内存高效单目视觉里程计
Canny-VO: 基于几何3D-2D边缘对准的RGB-D视觉里程计
本文回顾了自由曲线配准的经典问题, 并将其应用于一个有效的称为Canny-VO的RGBD视觉里程计系统, 因为它能有效地跟踪从图像中提取的所有Canny边缘特征. 提出了边缘配准中常用的距离变换的两种替代方法:近似最近邻域和定向最近邻域. 3D/2D边缘对齐在效率和精度方面受益于这些替代公式. 它消除了对数据到模型配准、双线性插值和亚梯度计算等计算要求更高的范例的需求. 为了确保系统在存在异常值和传感器噪声时的鲁棒性, 配准被公式化为最大后验概率问题, 并且所得到的加权最小二乘目标通过迭代重新加权最小二乘方法来解决. 研究了各种稳健的权函数, 并根据残差的统计量进行了最优选择. 最近邻场的自适应采样定义进一步提高了效率. 对公共SLAM基准序列的广泛评估证明了最先进的性能和优于经典欧几里德距离场的优势.
3D视觉工坊
2021/01/04
6290
Canny-VO: 基于几何3D-2D边缘对准的RGB-D视觉里程计
一文详解SLAM的主要任务和开源框架
SLAM是Simultaneous localization and mapping缩写,意为“同步定位与建图”.
3D视觉工坊
2021/04/13
2.9K0
一文详解SLAM的主要任务和开源框架
VSLAM(1)视觉SLAM的发展现状
RGB-D相机作为一种特殊形式的相机,主要通过主动发射红外结构光或计算飞行时间(TOF)来直接获得图像深度。它使用方便,但对光线敏感,大多数情况下只能在室内使用。
一点人工一点智能
2023/01/13
1.4K0
VSLAM(1)视觉SLAM的发展现状
ORB-SLAM——a Versatile and Accurate Monocular SLAM System)
本文提出了ORB-SLAM,在大小场景、室内室外环境下都可以实时操作的一种基于特征的单目SLAM系统。系统对复杂的剧烈运动具有鲁棒性,允许宽基线的闭环和重定位,且包含完整的自动初始化。基于最近几年的优秀算法之上,我们从头开始设计了一种新颖的系统,它对所有SLAM任务使用相同的特征:追踪、建图、重定位和闭环。合适策略的存在使得选择的重建点和关键帧具有很好的鲁棒性,并能够生成紧凑的可追踪的地图,只有当场景内容发生变化地图才改变,从而允许长时间操作。本文从最受欢迎的数据集中提供了27个序列的详尽评估。相对于其他最先进的单目SLAM方法,ORB-SLAM实现了前所未有的性能。为了社会的利益,我们将源代码公开。
全栈程序员站长
2022/06/26
8820
ORB-SLAM——a Versatile and Accurate Monocular SLAM System)
NID-SLAM:动态环境中基于神经隐式表示的RGB-D SLAM
论文标题:NID-SLAM: NEURAL IMPLICIT REPRESENTATION-BASED RGB-D SLAM IN DYNAMIC ENVIRONMENTS
BBuf
2024/01/17
6090
NID-SLAM:动态环境中基于神经隐式表示的RGB-D SLAM
VINGS-Mono:大规模场景中的视觉-惯性高斯溅射单目SLAM
文章:VINGS-Mono: Visual-Inertial Gaussian Splatting Monocular SLAM in Large Scenes
点云PCL博主
2025/02/19
2970
VINGS-Mono:大规模场景中的视觉-惯性高斯溅射单目SLAM
基于激光雷达和单目视觉融合的SLAM和三维语义重建
文章:SLAM and 3D Semantic Reconstruction Based on the Fusion of Lidar and Monocular Vision
点云PCL博主
2023/08/21
1.7K0
基于激光雷达和单目视觉融合的SLAM和三维语义重建
多楼层室内环境下的三维几何重建
在智能制造、AR、机器人、室内导航等领域,三维重建都有很广泛的应用前景。随着消费级RGB-D相机的普及,三维重建的应用场景也得到了进一步的扩展。奥比中光自主研发的深度相机Astra Pro的成本相对较低,同时也可以方便、快捷地对物体进行3D成像,并且具有精度高的优点。针对三维重建相关技术进行研究和加以应用,必将极大程度地促进计算机视觉等领域的发展,并进一步深度影响工业生产活动以及人们的生活方式。
点云PCL博主
2021/09/15
1.3K0
多楼层室内环境下的三维几何重建
时隔多年,ORB-SLAM3终于来了
首先回顾一下历史:ORB-SLAM首次在2015年被提出,它的改进版ORB-SLAM2在2017年被提出,同年提出了ORB-SLAM-VI,时隔3年,ORB-SLAM3横空出世,朋友圈、学术群里到处都在热议这个挂在Arxiv才不到3天的论文。好奇心的驱使下,本人偷瞄了一下论文,就在这里总结一下吧。
好好学SLAM
2021/05/28
2.3K0
ORB-SLAM3 单目地图初始化(终结篇)
请阅读本文之前最好把ORB-SLAM3的单目初始化过程再过一遍(ORB-SLAM3 细读单目初始化过程(上)、超详细解读ORB-SLAM3单目初始化(下篇)),以提高学习效率。单目初始化过程中最重要的是两个函数实现,分别是构建帧(Frame)和初始化(Track)。接下来,就是完成初始化过程的最后一步:地图的初始化,是由CreateInitialMapMonocular函数完成的,本文基于该函数的流程出发,目的是为了结合代码流程,把单目初始化的上下两篇的知识点和ORB-SLAM3整个系统的知识点串联起来,系统化零碎的知识,告诉你平时学到的各个小知识应用在SLAM系统中的什么位置,达到快速高效学习的效果。
计算机视觉
2020/12/29
2.1K0
TT-SLAM:用于平面环境的密集单目SLAM(IEEE 2021)
发表于:2021 IEEE International Conference on Robotics and Automation (ICRA)
3D视觉工坊
2023/04/29
5430
TT-SLAM:用于平面环境的密集单目SLAM(IEEE 2021)
PLVS:一种具有点、线、栅格建图和3D增量分割的SLAM系统
文章:PLVS: A SLAM System with Points, Lines, Volumetric Mapping, and 3D Incremental Segmentation
点云PCL博主
2023/10/07
7880
PLVS:一种具有点、线、栅格建图和3D增量分割的SLAM系统
推荐阅读
相关推荐
NeRFs和3D高斯溅射技术如何重塑SLAM:综述
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档