Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2023 | ReRF:用于流媒体自由视视频的神经残差辐射场

CVPR 2023 | ReRF:用于流媒体自由视视频的神经残差辐射场

作者头像
用户1324186
发布于 2024-02-21 09:35:24
发布于 2024-02-21 09:35:24
4110
举报
文章被收录于专栏:媒矿工厂媒矿工厂

来源:CVPR 2023 题目:Neural Residual Radiance Fields for Streamably Free-Viewpoint Videos 作者:Liao Wang, Qiang Hu, Qihan He, Ziyu Wang, Jingyi Yu,Tinne Tuytelaars, Lan Xu, Minye Wu. 项目主页:https://aoliao12138.github.io/ReRF/ 内容整理:陈梓煜 神经辐射场成功建模和自由视角渲染静态物体的经验,激发了对动态场景的研究兴趣。当前使用神经渲染进行自由视角视频(FVV)处理的技术存在一些限制,要么局限于离线渲染,要么只能处理短暂序列以及较小的运动。本文引入了一种名为 ReRF 的新技术,它是一种高度紧凑的神经表示方法,旨在实现在长时间动态场景中的实时 FVV 渲染。ReRF 专门建模了在时空特征空间中相邻时间戳之间的残差信息,采用全局坐标为基础的小型多层感知器(MLP)作为特征解码器。具体而言,ReRF 使用了一个紧凑的运动网格和一个残差特征网格,以有效地利用帧间特征的相似性。这一策略使 ReRF 能够处理大幅度的物体运动而不降低渲染质量。此外,我们提出了一个顺序训练方案,以确保运动和残差网格的平滑性和稀疏性。基于 ReRF,我们设计了一种特殊的 FVV 编解码器,实现了比传统方法高三个数量级的压缩率,并提供了一个 ReRF 播放器,用于支持在线流式传输长时间动态场景的 FVV。大量实验结果证明了 ReRF 在紧凑表示动态辐射场方面的有效性,从而实现了前所未有的自由视角查看体验,并且兼顾速度和质量。

介绍

图 1

真实的自由视角视频(Free-Viewpoint Videos,FVVs),尤其是人物表演这一类的动态场景,可以缩小表演者与观众之间的距离。但是将生成和观看 FVVs 变得像点击和观看常规 2D 视频一样简单,仍然是非常困难的目标。面临包括从数据处理和压缩到流媒体和渲染的各个方面的挑战。

基于几何的方法可以重建动态 3D 网格或点,而基于图像的方法可以在密集传输的镜头中插值出新的视角。这两种技术都依赖于高质量的重建,通常容易受到遮挡和无纹理区域的影响。而 NeRF 提供了一种绕过显式几何重建的替代方法。神经辐射场(Neural Radiance Field,NeRF)开创性地通过以坐标为输入的多层感知器(Multi-Layer Perceptron,MLP)紧凑地表示静态场景,以进行真实的图像渲染。然而,即使使用中等深度的 MLP 也难以进行实时渲染。因此,各种延伸方法使用混合或更新颖的表示来压缩特征空间,以在计算速度和准确性之间达到微妙的平衡。例如哈希编码,三平面等。

但是几乎所有方法迄今都是针对处理静态场景而设计的。相比之下,流媒体动态辐射场需要使用全局坐标为基础的 MLP,将特征从空间和时间上连续的特征空间解码为辐射输出。一种直接逐帧解决方案是在一系列独立的空间特征空间上应用静态方法。这种方案会丢弃重要的时间一致性,导致长序列的低质量和低效率。最近的方法试图通过在全局规范空间内对其进行时间变形,以在每个实时帧中复制特征来维护一个规范特征空间。通过采用隐式匹配或数据驱动的先验,如深度、傅里叶特征、光流或骨骼面部运动先验,提出了各种补偿时间运动的方案。然而,过于依赖全局规范空间会使它们对大幅度运动或拓扑变化变得不稳定。与此同时,根据序列长度,训练的开销也会显著增加。

ReRF 提出一种“残差辐射场”(Residual Radiance Field,ReRF),作为动态场景的高度紧凑表示,实现高质量的 FVV 流媒体和渲染(见图 1)。ReRF 明确地模拟了相邻时间戳之间的时空特征空间中辐射场的残差。具体而言,本方法采用全局小 MLP 以顺序方式近似动态场景的辐射输出。为了在训练和推断中保持高效率,ReRF 使用类似于的显式网格表示来模拟特征空间。然而,ReRF 只对第一个关键帧进行训练,以获得整个序列的 MLP 解码器,同时使用生成的网格体素作为初始特征体积。对于每个随后的帧,ReRF 使用紧凑的运动网格和残差特征网格:低分辨率的运动网格表示当前帧与上一帧之间的位置偏移,而稀疏的残差网格用于补偿错误和新观察到的区域。这种设计的一个主要优点是 ReRF 充分利用了相邻帧之间的特征相似性,其中当前帧的完整特征网格可以简单地从两者中获取,同时避免使用全局规范空间。此外,运动和残差网格都易于压缩,特别是对于长时间动态场景。

本方法提出了一种通过顺序训练从 RGB 视频高效获得 ReRF 的两阶段方案。具体而言,本方法提出了一种运动池化策略,以维护帧间运动网格的平滑性和紧凑性,同时引入了稀疏正则化器以提高 ReRF 的紧凑性。为了让 ReRF 在应用层面更为实用,本方法进一步设计了一个基于 ReRF 的编解码器,遵循传统的基于关键帧的策略,与每帧的神经表示相比,实现了三个数量级的压缩率。最后,本方法展示了一个适用于在线流媒体长时间动态场景的 ReRF 播放器。通过 ReRF,用户首次可以像观看 2D 视频一样暂停、播放、快进/快退和查找动态辐射场,实现了前所未有的高质量自由视角观看体验。

相关工作

静态场景的新视图合成

最近,新视角合成,即在给定一组 2D 图像的情况下合成新的视角,引起了相当大的关注。早期的方法通过插值生成新视角的光线,这可以实现实时渲染,但需要缓存所有光线。最近的工作使用神经网络进行紧凑存储。基于网格的表示允许高效存储,并可以记录视图相关的纹理。然而,优化网格以适应具有复杂拓扑的场景仍然是一个挑战。多平面图像由于无需考虑拓扑,因此能够处理复杂场景。NeRF 极大地提高了渲染的逼真度,并启发了许多后续工作,包括多尺度、重新照明、编辑、3D 感知生成等。然而,NeRF 假设场景是静态的,不能处理随时间变化的场景。

动态场景的新视图合成

动态场景更加复杂,因为涉及到照明变化和物体运动。一种方法是重建动态场景并从新视角渲染几何。RGB 或 RGB-D 的解决方案已被广泛研究。其他方法通过神经网络来建模动态场景进行视图合成。使用运动导向特征向量进行静止图像运动也是一个热门方向。最近,将 NeRF 扩展到动态设置中。一些方法直接将神经辐射场条件于时间以处理空间变化。其他方法学习从当前场景到每个时间戳的学习规范辐射场的空间偏移。在 NeRF 的基础上添加了额外的高维坐标来处理连续变形场之外的不连续拓扑变化。通过建模场景中每个点的轨迹来处理场景动态变化。使用明确的体素来模拟动态场景的规范空间和变形场。通过傅里叶系数来建模时间变化的密度和颜色,以将基于八叉树的辐射场扩展到动态场景。

NeRF 的加速和压缩

NeRF 在自由视角渲染方面表现出色,但其训练和渲染速度较慢。最近的方法通过将 NeRF 分解为具有浅 MLP 解码器的显式 3D 特征编码来减少复杂的 MLP 计算。已经探讨了涉及体素网格、八叉树、三平面、多尺度哈希、码本、张量分解和带纹理多边形的方法。使用显式编码大大降低了训练和推断时间,但与这些 3D 结构相关的额外存储消耗是一个问题。一些方法通过 CP 分解、秩降低或矢量量化实现了高压缩比,但局限于静态场景。最近的动态方法通过稀疏体素网格的窄带调谐实现了高效的视频序列训练,但每帧仍然具有 MB 级别的大小。将 4D 空间分解为静态、变形和新区域,以实现高效的动态场景训练和渲染,但受视频序列长度的限制。相比之下,我们采用了残差辐射场和基于 ReRF 的编解码方案,实现了高压缩率和流媒体传输,适用于具有大运动的长序列。

方法

图 2

基于运动的残差场

在 NeRF 中,颜色和密度

({c},\sigma)

被公式化为

{c},\sigma = \Psi({x},{d})

,其中使用 MLP 作为解码器,给定 3D 位置

{x}

和观察方向

{d}

。然后,采用体积渲染来进行基于辐射场的新视角合成。为了在训练和推理中保持高效性,ReRF 使用与之前工作类似的显式网格表示。具体而言,使用显式密度网格

{V}_{\sigma}

和颜色特征网格

{V}_{c}

,静态场景的辐射场表示为:

\begin{split} \sigma &= interp({x},{V}_{\sigma}) \\ {c} &= \Phi(interp({x},{V}_{c}),{d}), \end{split} \quad (1)

其中

interp(\cdot)

表示网格上的三线性插值函数,

\Phi

是相对较浅的MLP用于加速。为了简化,本方法可以将

{V}_{\sigma}

{V}_{c}

合并为一个通用的特征网格

{f}

,通过在

{V}_{c}

中附加一个额外的通道来实现。因此,静态辐射场的显式网格表示包括特征网格

{f}

和一个小型MLP

\Phi

作为隐式特征解码器。

为了进一步表示动态辐射场,本方法采用坐标为基础的小型MLP

\Phi

作为空间-时间特征空间的全局特征解码器。一个直接的解决方案是在动态场景的每帧上使用特征网格

\{{f}_t\}_{t=1}^N

,但会丧失重要的时间一致性。最近的工作DeVRF通过在全局规范空间内维护一个基准特征网格

{f}_1

和密集的运动场

\{{D}_t\}_{t=1}^N

来复制每个实时帧中的特征,但由于依赖规范空间,容易受到大幅度运动或拓扑变化的影响。与之前的工作不同,本方法建议明确地在相邻时间戳之间的时空特征空间中利用特征的相似性。在这里,本方法为当前帧

t

引入紧凑的运动网格

{M}_t

和残差特征网格

{r}_t

。低分辨率的运动网格

{M}_t

表示了当前帧中的每个体素与上一帧中的体素之间的位置偏移。残差网格

{r}_t

表示了当前帧中的体素的稀疏补偿,用于补偿相邻帧之间的差异和新观察到的区域。这种设计的主要优点之一是ReRF充分利用了相邻帧之间的特征相似性,其中当前帧的完整特征网格可以简单地从两者中获取,同时避免了使用全局规范空间。此外,运动和残差网格都易于压缩,特别是对于长时间动态场景。

图 3

顺序残差场生成

本方法介绍了一个两阶段和顺序训练方案,以从长时间RGB视频输入中获得包括

\Phi

{f}_1

\{{M}_t,{r}_t\}_{t=1}^N

的ReRF表示,从而自然地强制残差和运动网格的紧凑性。在一开始,本方法使用现成的方法来获取第一帧的完整显式特征网格

{f}_1

,伴随全局MLP

\Phi

作为特征解码器。然后,在给定前一帧的特征网格

{f}_{t-1}

和当前帧的输入图像的情况下,本方法紧凑地生成以下两个阶段中的运动网格

{M}_t

和残差网格

{r}_t

运动网格估计

首先,本方法遵循DeVRF的方法来生成当前帧到前一帧的密集运动场

{D}_t

,但只从当前帧到前一帧。为了保持平滑和紧凑的运动网格

{M}_t

,本方法进一步引入了运动池化策略。体素

{p}_{t}

中的运动向量可能指向前一帧中的不同体素

{p}_{t-1}

因此,类似于标准平均池化操作,本方法选择均值向量指向的体素

{\bar p}_{t-1}

作为体素运动

{M}_t({p}_{t}) = {\bar p}_{t-1}

。具体而言,本方法首先将

{D}_t

分割成立方体,其中每个立方体包含连续的

8\times 8 \times 8

个体素。然后,对于每个立方体,本方法在

8\times 8 \times 8

的内核上对

{D}_t

进行平均池化,以确保每个立方体共享相同的运动向量。之后,本方法将其降采样以生成低分辨率的运动网格

{M}_t

。注意,本方法紧凑的运动网格

{M}_t

是易于压缩的,因为其大小比原始密集网格小512倍。这样,前一帧中的一些特征立方体可以通过运动场进行跟踪,从而进一步降低残差体素的熵。通过这种方式,本方法生成了一个低分辨率的

{M}_t

,以紧凑地表示跨帧的平滑运动。

残差网格优化

在紧凑的运动网格

{M}_t

的帮助下,本方法将先前的特征网格

{f}_{t-1}

翘曲成当前的基础特征网格

{\hat f}_{t}

,从而粗略地补偿了因帧间运动引起的特征差异。在优化残差网格时,本方法固定

{\hat f}_{t}

\Phi

并将梯度反向传播到残差网格

{r}_t

,以仅更新

{r}_t

。除了光度损失外,本方法还通过使用L1损失对

{r}_t

进行正则化,以增强其稀疏性以提高紧凑性。这种稀疏的表述也强制

{r}_t

仅补偿了帧间残差或当前帧中新观察到的稀疏信息。学习

{f}_t

的总损失函数

{L}_{total}

如下所示:

L_{total} = \sum_{l \in \mathbb L}||c(l)-\hat c(l)||^2 + \lambda ||r_t||_1 \quad (2)

实验

对 ReRF 在各种具有挑战性的场景中进行评估。本方法的捕获的动态数据集包含约 74 个视图,分辨率为 1920×1080,帧率为 25fps。本方法使用 PyTorch 框架在单个 NVIDIA GeForce RTX3090 上训练所提出的网络。本方法还实现了一个伴随的 ReRF 播放器,用于在线流式传输长序列的动态场景。为了验证所提出的 ReRF 播放器的有效性,本方法使用一台 PC,配备 Intel(R) Core(TM) i9-11900 CPU @ 2.5 GHz 和 NVIDIA GeForce RTX3090 GPU 作为测试平台。在实验中,每个 GOF 的长度设置为 20。正如在图 4,本方法可以在具有长序列和大幅挑战性运动的内部 360° 和前向场景中生成高质量的外观结果。本方法的方法可以通过调整图 4 第三行所示的量化因子来灵活地调整存储。

图 4

方法对比

图 5

本方法提供实验结果,以展示本方法提出的 ReRF 方法的有效性。本方法将其与其他用于动态场景的最先进方法进行了定性和定量比较,包括 DeVRF、DVGO、INGP、INGP-T 和 TiNeuVox。INGP-T 是一种修改后的时间条件 NGP 版本。它将标准化的 4D 输入

[x,y,z,t]

作为哈希表输入。在图 5 中,本方法报告了不同方法的视觉质量结果,与本方法的 ReRF 压缩方法在短序列和长序列上进行了比较。具体而言,本方法的方法可以实现与逐帧重建的 DVGO 和 INGP 相媲美的逼真的自由视角渲染,但存储开销要小得多。与动态重建方法(DeVRF、INGP-T、TiNeuVox)相比,本方法在逼真度和清晰度方面实现了最生动的渲染结果,此外,不会在长序列中失去性能。DeVRF 从实时帧到第一帧学习明确的变形场。当运动较大,特别是在长序列中时,直接从第一帧进行变形是困难的。INGP-T 和 TiNeuVox 随着帧数的增加遭受严重的模糊效应。请注意,无论帧数如何增加(甚至达到 4000 帧),本方法的方法始终保持高逼真度和清晰度,如图 6 所示。

图 6

对于定量比较,本方法采用峰值信噪比(PSNR)和结构相似性指数(SSIM)作为评估渲染准确性的指标。本方法选择 70 个捕获的视图作为训练集,其他 4 个视图作为测试集。在表 1 中,本方法展示了本方法可以有效地使用小型存储来获得高质量的结果。在具有大运动的长序列中,本方法的方法在外观方面优于其他动态方法。另外,请注意本方法的方法可以实现快速训练(每帧约 10 分钟)和快速渲染(20fps),比 NeRF 和许多先前的方法快得多。

表 1

存储分析

本方法在表 2 中展示了本方法的高质量版本中各个组件的存储情况。本方法报告了本方法压缩后的残差特征、体素运动场、PCA 反投影矩阵

V^T

以及其他信息,包括用于指示空白空间和头文件信息的掩码的平均比特率。请注意,本方法的总体平均模型大小为 793KB,比原始模型大小小了三个数量级。

表 2

运行时分析

如表 3 中所示,在 ReRF 播放器的每个阶段中,本方法展示了每帧处理时间的详细分析。每帧解码和渲染的平均时间分别约为 47.03 毫秒和 44.62 毫秒。此外,解码时间和渲染时间相近,更有利于并行处理。播放器的总处理时间,通过并行解码和渲染实现,约为 50 毫秒。用户可以以高帧率流畅地体验自由视角视频,就像在 YouTube 上观看 2D 视频一样。

表 3

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR2023 | Tensor4D 高效动态神经辐射场
由一个将所有场景变形映射到一个共同的正则配置的变形网络和一个从每个相机射线回归体积密度相关和视相关的RGB颜色的规范网络构成。
用户1324186
2023/09/09
7530
CVPR2023 | Tensor4D 高效动态神经辐射场
经典论文 | Nerf: 将场景表示为用于视图合成的神经辐射场
计算机视觉中一个研究方向是在 MLP 的权重中编码对象和场景,使得该 MLP 直接从 3D 空间位置映射到形状的隐式表示。然而,之前的方法无法使用离散的方式(如三角形网格或体素网格)以相同的保真度再现具有复杂几何形状的真实场景,迄今为止也仅限于表示具有低几何复杂性的简单形状,从而导致渲染过度平滑。NeRF提出将一个静态场景表示为5D输入,即:空间中某个位置的3D坐标以及观察方向,通过MLP神经网络得到该位置的颜色以及体密度,使用体绘制技术可以得到输入相机位姿条件下的视角图片,然后和 ground truth 做损失即可完成可微优化,从而渲染出连续的真实场景。
用户1324186
2022/11/07
3.7K0
经典论文 | Nerf: 将场景表示为用于视图合成的神经辐射场
CVPR 2024 | 巨幅提升24%!LiDAR4D会是LiDAR重建的答案么?
尽管神经辐射场(NeRFs)在图像新视角合成(NVS)方面取得了成功,但激光雷达NVS的发展却相对缓慢。之前的方法follow图像的pipeline,但忽略了激光雷达点云的动态特性和大规模重建问题。有鉴于此,我们提出了LiDAR4D,这是一种用于新的时空LiDAR视图合成的LiDAR-only的可微分框架。考虑到稀疏性和大规模特征,进一步设计了一种结合多平面和网格特征的4D混合表示,以实现从粗到细的有效重建。此外引入了从点云导出的几何约束,以提高时序一致性。对于激光雷达点云的真实重建,我们结合了ray-drop概率的全局优化,以保持cross-region模式。在KITTI-360和NuScenes数据集上进行的大量实验证明了我们的方法在实现几何感知和时间一致的动态重建方面的优越性。
公众号-arXiv每日学术速递
2024/04/25
7540
CVPR 2024 | 巨幅提升24%!LiDAR4D会是LiDAR重建的答案么?
ICCV 2023 | 单阶段扩散神经辐射场:3D生成与重建的统一方法
在计算机视觉和图形领域,由于神经渲染和生成模型的进步,三维视觉内容的合成引起了显著关注。尽管出现了许多处理单个任务的方法,例如单视图/多视图三维重建和三维内容生成,但开发一个综合框架来整合多个任务的最新技术仍然是一个主要挑战。例如,神经辐射场(NeRF)在通过每个场景的拟合解决逆向渲染问题方面展示了令人印象深刻的新视图合成结果,这适用于密集视图输入,但难以泛化到稀疏观察。相比之下,许多稀疏视图三维重建方法依赖于前馈图像到三维编码器,但它们无法处理遮挡区域的不确定性并生成清晰的图像。在无条件生成方面,三维感知的生成对抗网络(GAN)在使用单图像鉴别器方面部分受限,这些鉴别器无法推理跨视图关系以有效地从多视图数据中学习。 在这篇论文中,作者通过开发一个全面模型来从多视图图像中学习可泛化的三维先验,提出了一种统一的方法来处理各种三维任务。受到二维扩散模型成功的启发,论文提出了单阶段扩散NeRF(SSDNeRF),它使用三维潜在扩散模型(LDM)来模拟场景潜在代码的生成先验。 虽然类似的LDM已经应用于之前工作中的二维和三维生成,但它们通常需要两阶段训练,其中第一阶段在没有扩散模型的情况下预训练变分自编码器(VAE)或自解码器。然而,在扩散NeRF的情况下,作者认为两阶段训练由于逆向渲染的不确定性特性,特别是在从稀疏视图数据训练时,会在潜在代码中引入噪声模式和伪影,这阻碍了扩散模型有效地学习清晰的潜在流形。为了解决这个问题,论文引入了一种新的单阶段训练范式,使扩散和NeRF权重的端到端学习成为可能。这种方法将生成和渲染偏差协调地融合在一起,整体上提高了性能,并允许在稀疏视图数据上进行训练。此外,论文展示了无条件扩散模型学习到的三维先验可以在测试时从任意观察中灵活地采样用于三维重建。 论文在多个类别单一对象场景的数据集上评估了SSDNeRF,整体展示了强大的性能。论文的方法代表了朝着各种三维任务统一框架的重要一步。总结来说,论文的主要贡献如下:
用户1324186
2024/03/20
5070
ICCV 2023 | 单阶段扩散神经辐射场:3D生成与重建的统一方法
CVPR 2024 | Scaffold-GS:自适应视角渲染的结构化 3D 高斯
神经辐射场利用基于学习的参数模型来产生连续的渲染图像,并保留更多的细节。然而,其耗时的随机采样,会导致性能下降和出现潜在的噪声。
用户1324186
2024/05/20
1.8K0
CVPR 2024 | Scaffold-GS:自适应视角渲染的结构化 3D 高斯
InstantAvatar:从 60 秒单目视频中学习数字人化身
创建高保真数字人类对于许多应用都很重要,包括全息投影、AR/VR、3D 图形学和新兴的元宇宙等概念。目前获取个性化头像是一个复杂的过程,通常需要使用校准的多摄像头系统,并产生大量的计算成本。在本文中,作者着手构建一个仅从单眼视频学习 3D 虚拟人的系统,该系统足够轻便,可以广泛部署,并且速度足够快,可以实现步行和使用场景。
用户1324186
2023/02/03
2K0
AAAI 2024 | 深度引导的快速鲁棒点云融合的稀疏 NeRF
具有稀疏输入视图的新视角合成方法对于AR/VR和自动驾驶等实际应用非常重要。大量该领域的工作已经将深度信息集成到用于稀疏输入合成的NeRF中,利用深度先验协助几何和空间理解。然而,大多数现有的工作往往忽略了深度图的不准确性,或者只进行了粗糙处理,限制了合成效果。此外,现有的深度感知NeRF很少使用深度信息来创建更快的NeRF,总体时间效率较低。为了应对上述问题,引入了一种针对稀疏输入视图量身定制的深度引导鲁棒快速点云融合NeRF。这是点云融合与NeRF体积渲染的首次集成。具体来说,受TensoRF的启发,将辐射场视为一个的特征体素网格,由一系列向量和矩阵来描述,这些向量和矩阵沿着各自的坐标轴分别表示场景外观和几何结构。特征网格可以自然地被视为4D张量,其中其三个模式对应于网格的XYZ轴,第四个模式表示特征通道维度。利用稀疏输入RGB-D图像和相机参数,我们将每个输入视图的2D像素映射到3D空间,以生成每个视图的点云。随后,将深度值转换为密度,并利用两组不同的矩阵和向量将深度和颜色信息编码到体素网格中。可以从特征中解码体积密度和视图相关颜色,从而促进体积辐射场渲染。聚合来自每个输入视图的点云,以组合整个场景的融合点云。每个体素通过参考这个融合的点云来确定其在场景中的密度和外观。
用户1324186
2024/03/07
8500
AAAI 2024 | 深度引导的快速鲁棒点云融合的稀疏 NeRF
联合NeRF与特征网格,实现超大规模城市渲染,高效且逼真
机器之心报道 编辑:侯佳宁 在这项工作中,研究人员以大型城市场景渲染为目标,提出一个新的框架,集成了基于 MLP 的 NeRF 与显式 3D 重建的特征网格,以有效地编码局部和全局场景信息。该方法克服了现有方法在大规模场景中应用的各种缺点,即使在大规模城市场景中也能实现高保真度的渲染,这对于现实世界的应用场景至关重要。 纯基于 MLP 的神经辐射场(NeRF)由于模型容量有限,在大规模场景模糊渲染中往往存在欠拟合现象。最近有研究者提出对场景进行地理划分、并采用多个子 NeRF,分别对每个区域进行建模,然而,
机器之心
2023/05/09
4780
联合NeRF与特征网格,实现超大规模城市渲染,高效且逼真
SceneRF具有辐射场的自监督单目三维场景重建
之前一直都是在基于ColMap、OpenMVG、OpenMVS这些传统多视图几何的方法进行三维重建,但这些框架一方面无法在线端到端得完成重建,另一方面需要很多张高质量的RGB图。深度学习三维重建的方案往往又需要大量的标签来训练,泛化能力也比较弱,自监督3D重建方案一般也是去重建某个目标物体,直接对场景进行重建的工作还比较少。偶然间看到了SceneRF这篇论文,它可以基于单帧图像进行三维重建,感觉很神奇!
BBuf
2022/12/29
1.3K0
SceneRF具有辐射场的自监督单目三维场景重建
SIGGRAPH Asia 2023 | Im4D:动态场景的高保真实时新视角合成
动态视图合成是在给定输入视频的情况下渲染出真实动态场景的新视图,这是计算机视觉和图形学中一个长期存在的研究问题。这个问题的关键在于从多视角视频中有效地重建动态场景的 4D 表示,并允许在任意视点和时间上保持高保真度和实时渲染。
用户1324186
2023/12/28
5450
SIGGRAPH Asia 2023 | Im4D:动态场景的高保真实时新视角合成
六问Nerf | 简单易懂的神经辐射场入门介绍
最近零散时间,翻了一批讲Nerf原理的CSDN/知乎/B站文章和视频,有些讲的还是不错的,但是有些实在是让人感觉,作者本身就没搞懂啥是神经辐射场。所以本文使用自问自答的方式,尝试直击要害的讲清楚Nerf是干什么的。
一点人工一点智能
2023/01/15
5.6K0
六问Nerf | 简单易懂的神经辐射场入门介绍
6DoF视频技术研究进展
作者:王旭, 刘琼, 彭宗举, 侯军辉, 元辉, 赵铁松, 秦熠, 吴科君, 刘文予, 杨铀
一点人工一点智能
2023/08/24
8670
6DoF视频技术研究进展
ICCV 2023 | Seal-3D:神经辐射场的交互式像素级编辑
NeRF 在例如 3D 重建、自由视角合成以及 VR/AR 等众多 3D 应用中都具有巨大的潜力。随着这种隐式表征方式的流行,能够与这种类型的 3D 模型进行用户友好型编辑交互的工具被迫切需要。由于捕获数据的噪声和重建算法的限制,从真实世界重建的对象可能包含伪影。一方面,在典型的 3D 扫描流程中经常会有手动校正和细化以去除伪影的阶段。另一方面,在 3D 游戏、动画和拍摄等 3D 内容创建应用程序中,艺术创作者通常需要基于现有的 3D 模型创建新内容。
用户1324186
2023/09/09
4940
ICCV 2023 | Seal-3D:神经辐射场的交互式像素级编辑
ICCV 2023 | LERF:语言嵌入的辐射场
神经辐射场(NeRFs)已成为一种强大用于捕捉复杂现实世界 3D 场景的真实数字表征的技术。然而,NeRF 的即时输出只是一个有颜色的密度场,没有实际意义或上下文信息,这阻碍了构建与所生成的 3D 场景进行交互的接口。自然语言是用于与 3D 场景交互的直观接口。以图 1 中的厨房为例,想象一下,通过询问“餐具”在哪里,或者更具体地说,询问你可以用来“搅拌”的工具,甚至询问你最喜欢的带有特定标志的马克杯,你就可以对这个厨房了如指掌。这不仅需要处理自然语言输入查询的能力,还需要具有在多个尺度上整合语义,并与长尾和抽象概念相关的能力。
用户1324186
2023/11/24
4740
ICCV 2023 | LERF:语言嵌入的辐射场
神经辐射场去掉「神经」,训练速度提升100多倍,3D效果质量不减
没有了神经网络,辐射场(Radiance Fields)也能达到和神经辐射场(Neural Radiance Fields,NeRFs)相同的效果,但收敛速度快了 100 多倍。 2020 年,加州大学伯克利分校、谷歌、加州大学圣地亚哥分校的研究者提出了一种名为「NeRF」的 2D 图像转 3D 模型,可以利用少数几张静态图像生成多视角的逼真 3D 图像。其改进版模型 NeRF-W (NeRF in the Wild)还可以适应充满光线变化以及遮挡的户外环境,分分钟生成 3D 旅游观光大片。
机器之心
2021/12/28
1.6K0
神经辐射场去掉「神经」,训练速度提升100多倍,3D效果质量不减
SIGGRAPH 2023 | 用于实时辐射场渲染的 3D Gaussian Splatting
网格和点是最常见的可以用于基于 GPU/CUDA 快速光栅化的显式三维场景表征方式。而神经辐射场基于 MLP 使用体渲染对捕捉的场景化进行自由视角合成。而提升辐射场效率的方案目前多基于体素、哈希网格或是点。辐射场方法的连续性有助于场景的优化,但是渲染过程中所需的随机采样需要的花销较大同时会带来噪声。因此,在本文中,作者提出了一种新的方法:本文所提出的 3D 高斯表达在能达到 sota 视觉质量和可比的渲染时间的同时,本文所提出的基于 tile 的 Splatting 方法可以实时渲染 1080p 的结果。
用户1324186
2023/10/10
1.8K0
SIGGRAPH 2023 | 用于实时辐射场渲染的 3D Gaussian Splatting
【他山之石】3D Gaussian Splatting:实时的神经场渲染
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注。
马上科普尚尚
2023/12/15
3K0
【他山之石】3D Gaussian Splatting:实时的神经场渲染
每日学术速递3.29
1.Grid-guided Neural Radiance Fields for Large Urban Scenes
AiCharm
2023/05/15
2610
每日学术速递3.29
NeRFs和3D高斯溅射技术如何重塑SLAM:综述
文章:How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey
点云PCL博主
2024/06/21
1.7K0
NeRFs和3D高斯溅射技术如何重塑SLAM:综述
CVPR2024 | HUGS:人体高斯溅射
真实渲染和人体动态是一个重要的研究领域,具有在AR/VR、视觉特效、虚拟试衣、电影制作等众多应用。早期的工作创建人类化身依赖于多相机捕捉设置中的高质量数据捕捉、大量计算和大量手工努力。最近的工作通过使用3D参数化身体模型如SMPL,直接从视频生成3D化身来解决这些问题,这些模型具有高效光栅化和适应未见变形的能力。然而,参数化模型的固定拓扑结构限制了对衣物、复杂发型和其他几何细节的建模。最近的进展探索了使用神经场来建模3D人类化身,通常使用参数化身体模型作为建模变形的模版。神经场在捕捉衣物、配饰和头发等细节方面表现出色,超越了通过纹理和其他属性光栅化参数化模型所能实现的质量。然而,它们也有不足,特别是在训练和渲染效率方面较低。
用户1324186
2024/05/31
6220
CVPR2024 | HUGS:人体高斯溅射
推荐阅读
相关推荐
CVPR2023 | Tensor4D 高效动态神经辐射场
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档