Neural Radiance Fields (NeRF) 最近在计算机视觉领域获得了极大的关注,它提供了一种崭新的合成真实世界场景新视角的方法。然而,NeRF的一个局限性是它需要准确的相机位姿来学习场景表征。本文提出了一种 Bundle-Adjusting Neural Radiance Fields(BARF)算法,用于从不够准确(甚至是未知)的相机姿势中训练NeRF,可用于同时学习3D表征以及完成相机注册。本文从理论上建立了与经典图像对齐(image alignment)之间的联系,并阐明从粗到细的相机注册也适用于NeRF。此外,本文还发现,在NeRF中简单地使用位置编码对合成目标有负面影响(本文有改进)。在合成和真实世界数据上的实验表明,BARF可以有效地优化神经场景表征,并同时解决摄像机的姿势的错位。这使得视频序列的视图合成和来自未知摄像机姿势的定位成为可能,这为视觉定位系统(如SLAM)开辟了新的途径,也为密集的3D重建提供了潜在的应用。
代码:github.com/chelnhsuanlin/bundle-adjusting-NeRF
论文:arxiv.org/abs/2104.06405
主页:chenhsuanlin.bitbucket.io/bundle-adjusting-NeRF
给出一只猫的5个图像块(如下图),神经网络能否学会将它们对齐,同时将它们拟合到一个高质量的基于坐标(coordinate-based)的神经图像表示?
可以的——但传统的位置编码会对注册过程产生负面影响。我们将优化过程可视化,证明了位置编码的影响。没有位置编码的简单MLPs在重建中缺乏保真度,而具有完全位置编码的MLPs则会导致次优的注册。通过利用从粗到细的策略,BARF解决了上述问题,并得到高度精确的几何变换和图像表示效果。
下面的视频展示了传统的NeRF使用改进前位置编码以及BARF对于相机注册任务的对比效果(其中红线表示与真值之间的差异)
(左:NeRF,右:BARF)
下面比较了本文提出的新型视图合成结果。BARF 优化了高保真的三维场景表现,减少了伪影。
(左:NeRF w/o positional encoding; 中:NeRF w/ full positional encoding;右:BARF )
下面的视频展示了BARF如何从RGB视频序列中学习未知摄像机姿势的3D场景。比较了视图合成的结果以及优化过程中的摄像机位姿。在NeRF中直接应用位置编码对注册过程是不利的,它很容易陷入次优解。
(第一行:合成图像,深度图;第二行:优化的摄像机位姿;第三行:相机位姿与COLMAP位姿对齐后的效果;(前两列为ReRF,后两列为BARF))