作者:Ashkan Mirzaei, Tristan Aumentado-Armstrong 等 来源:ICCV 2023 论文题目:Reference-guided Controllable Inpainting of Neural Radiance Fields 论文链接:https://arxiv.org/abs/2304.09677 内容整理:王秋文
长期以来,由于内容创建用途的广泛性,人们对编辑图像产生了浓厚的兴趣。与图像修复任务相对应的对象移除和插入是研究最多的编辑操作之一。当前的修复模型能够从概念上生成符合周围图像的内容,然而这些模型仅限于处理单个 2D 图像。本文的目标是在将这种模型应用于三维场景,在三维的编辑操作方面继续取得进展。相比于 2D 图像的修复,对三维场景进行修复需要考虑不同视角下的一致性。同时,基于 NeRF 的隐式神经表征方式使得直接基于几何理解编辑表征数据结构也是不可行的。一种解决方法是通过简单的像素对齐的损失或者是感知损失来约束神经辐射场进行填补,但这一做法不能满足填入与原场景有不同感知语义的新物体的需要。
本文使用了单个补全后的图像作为参考,从而避免了视角的不一致性,并提出了一种新的算法来解决单个图像作为参考所带来的距离参考视角较远位置的较差的视觉质量、视角依赖的影响以及被遮挡部分的问题。首先,为了对填补的区域进行几何层面的监督,作者使用了单目深度估计进行优化。此外,作者展示了如何从参考视角模拟非参考视角下的视角依赖外观。这实现了一种将非参考颜色(带有VDE)传播到 mask 的部分中的引导修复方法。最后,本文以视角一致的方式修复了被遮挡的外观和几何结构。
本文的主要贡献可以概括为:
本文设定的输入是
张图像,
,它们的相机变换矩阵
,以及相应的进行编辑操作的 mask
,从而标出图中不想要的区域。假定有一个补全后的参考视角图像,
,其中
,其中提供了用户希望可以在 3D 区域中修复的信息。
本文中对修补后的 NeRF 进行拟合的约束为:
其中,
分别表示没有被 mask 掉的部分的外表损失,mask 掉的部分的几何损失,mask 掉的部分的视角依赖外观损失,被遮挡损失。
图1 本文方法整体框架示意图
首先,作者对 NeRF 模型
通过
次迭代对没有 mask 的区域的像素进行监督,通过标准 NeRF 重建损失:
其中,
是在
中对应像素的光线的集合。
是光线
的真实颜色。当没有被 mask 掉的部分的几何和外观开始收敛的时候,被mask 掉的区域仍然保持没有拟合的状态。对于 mask 掉的区域仅能在
获得重建的指引,然而单一的图像只能提供外观信息,而无法直接提供几何监督。
为了解决上面所提到的问题,作者提出使用单目深度估计模型
来预测参考视角的未标定视差
,并指导几何。然而,预测的参考深度
在不同的坐标系中是非度量的,并且存在不准确的结果。因此,在使用
监督 NeRF 的视差之前,作者首先将
与渲染 NeRF 参考视角的视差
。尽管在 mask 的区域是欠拟合的,
中没有被 mask 掉的部分有着可靠的依据。
然而,并非所有未被 mask 的像素都同样重要:靠近 mask 边界的区域需要紧密对齐,以确保 mask 的边缘在最终结果中可见的程度最小,而远离 mask 的深度并不需要完全对齐,因为只有被 mask 掉的像素才会接受具有对齐参考视差的监督。因此,作者提出以加权的方式对齐未 mask 掉的像素上的参考视图的
和
,从而为更靠近 mask 的点赋予更高的权重。
传统来说,2.5D 的视差图
一般通过尺度
和偏置
进行仿射变换得到
,其中
和
是图像的尺寸。此外,作者还进一步地增加了对齐的程度,以在 mask 边缘处具有更紧密的对齐。作者使用了两个额外的尺寸为
的矩阵
和
,则对齐后的预测深度为:
由于更靠近 mask 的像素对填补的应用更重要,作者使用如下的加权的目标函数来求解系数
:
其中,
是源视角中没有被 mask 掉的像素,而
是
的权重,是该像素与 mask 中心点的距离的倒数。
虽然
的配准有了显著的提升,但在
的边缘附近,错误的配准仍然存在。因此,作者进行了额外的优化步骤,在该步骤中,作者纠正
以促进 mask 周围更平滑,从而产生
。
在配准和平滑后,
通过如下方式对参考视图
的 mask 区域进行监督:
既然修复区域已经在几何上受到深度损失
的影响,则也可以用
来监督掩蔽区域中的 NeRF 外观。作者将密度相关的的梯度分离了出来,以防止颜色损失影响场景的几何结构。然而,仅来自
的 mask 区域内的监督并不能考虑视角依赖的变化。为了弥补这一点,作者提出了一种方法,通过校正参考颜色以匹配其他视角下的周围环境,进而从非参考视点向 mask 区域添加视图依赖的效果。在这一部分,主要考虑一个目标视角
。
图2 视角替代过程示意图
本文的视角替代技术可以从参考视角观看场景,并将得到的点的颜色进行转换从而渲染得到目标视角下的颜色。直观上说,这使得模型可以为参考视角创建出多种版本,其中每一种对应着一个目标视角下的视角依赖效果。
图 2 展示了本文所提出的视角替代方法的流过程。考虑一个参考视角下的像素
,在标准的 NeRF 渲染过程中,光线经过像素
从相机原点
投射在场景中,可以被参数化为
其中
是光线的方向。接着,在光线上采样出了着色点,并将着色点坐标与光线方向输入到 NeRF 模型中获得点的体密度
和在参考视角下的颜色
。然而,除了在参考视角下的着色点颜色之外,还需要得到目标视角下对应着色点的颜色。因此,作者将视角方向
替换成了目标视角下的方向
,这一目标方向通过连接目标相机原点以及着色点得到:
作者在参考视角下对替换了视角方向后推理得到的结果进行体渲染,从而得到了渲染图像
。这样的图像拥有参考视角的几何结构,同时具有目标视角的外观。
此时,在对目标视角的 mask 的区域进行监督之前,经过视角替换渲染得到的图像
中的 mask 的区域是没有经过拟合的,但是其中没有被 mask 的部分得到的颜色是有意义的。残差
测量的呃事参考颜色与目标颜色间的差别。作者希望使用mask 外的残差值来对 mask 内的残差的合理值进行预测。作者基于残差在参考视角图像中没有边缘的区域不能存在高频的变化这一假设,也就是说,如果给定一个参考图像中没有强对比度图案的区域,我们应该希望残差在这一部分只有较为平滑的变化。因此,双边解算器
,是修复 mask 内部残差的直观方法,因为它能够直接使用
的边缘进行引导。简言之,
在额外 RGB 参考图像的结构的指导下,能够优化图像信号,平衡置信加权的重建保真度和双侧平滑度。这类似于在参考的指导下,从 mask 外部的区域扩散像素值到 mask 内。在本文的情况下,
使用
作为参考输入(通过双边仿射进行边缘引导),同时使用
作为目标(仅在 mask 外有效)。作者将 mask 外的置信度设置为最大可能值(
),在 mask 内设为零,然后运行
来获得修复残差:
然后,目标颜色被获得为
。需要注意的是,
在 mask 外等于
,只需要遮罩内的值进行监督。为了确保这种监督随着 NeRF 的变化而保持更新,每经过
次迭代中,都会重新渲染视图替换的图像,运行
,并计算
。
在进行视角替换和双边求解器修补之后,可以得到
。需要注意的是这样的图像是在参考视角下观察场景,但具有目标视角颜色的。作者利用这些经过双边求解器得到的颜色,来监督目标视角下在 mask 内的外观。为了实现这一目标,作者首先渲染出每个视角替换图像中被 mask 的部分,接着通过比较其与双边求解器得到的图像计算重建损失:
本文的视角依赖效果部分如图 3 所示。
图3 视角依赖效果部分示意图
虽然基于单参考图像进行修复可以防止视图不一致的修复所带来的问题,但它在修复区域中缺少多视角的信息。例如,当将一只鸭子插入场景中时,由于遮挡,从另一个角度观看场景自然会发现鸭子及其周围的新内容。本文提供了一种构建这些缺失细节的方法。
图4 遮挡处理方法的流程示意图
给定修复后的参考视图
和目标图像
,作者首先识别出 mask
内
中被遮挡的像素。给定参考视差图
,作者将每个像素
逆投影到 3D 场景中,然后将其重新投影到
中,像素位置
。
中没有接收到投影点的每个掩码像素都是被遮挡的;即
中没有相应的像素来提供场景信息。这样就能够获得一个与它相关的被遮挡的 mask
。接下来,需要填补与
相关的NeRF渲染,被
mask 得到:
。最后,我们渲染视差图像
,并填充它:
。同样的,作者在每
次迭代中重新计算
以及
。为了拟合,作者使用从
中得到的遮挡像素的光线集
。在一组摄像机
上,然后使用一下的loss进行训练:
其中,
。
在本文中,作者使用前向场景数据进行实验。在定量评估中,使用了 SPIn-NeRF 数据集进行测试;在定性评估中,使用 SPIn-NeRF 和 LLFF 数据集进行比较。在定量实验中的结果如图 5 和图 6 所示。
图5 在全参考条件下的定量比较表
图6 在无参考条件下的定量比较表
可以看出本文的方法结合 stable diffusion 在有参考或者无参考的情况下均有最好的表现。定性的渲染比较结果以及场景的自由视结果分别如图 7 以及图 8 所示,可以看出本文修补后的NeRF可以渲染相对自然的图像。
图7 移除物体后修复的定性渲染比较
图8 移除物体后修复的自由视结果展示