Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

作者头像
机器之心
发布于 2024-03-07 05:56:49
发布于 2024-03-07 05:56:49
5100
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

机器之心编辑部

单目动态场景(Monocular Dynamic Scene)是指使用单眼摄像头观察并分析的动态环境,其中场景中的物体可以自由移动。单目动态场景重建对于理解环境中的动态变化、预测物体运动轨迹以及动态数字资产生成等任务至关重要。

随着以神经辐射场(Neural Radiance Field, NeRF)为代表的神经渲染的兴起,越来越多的工作开始使用隐式表征(implicit representation)进行动态场景的三维重建。尽管基于 NeRF 的一些代表工作,如 D-NeRF,Nerfies,K-planes 等已经取得了令人满意的渲染质量,他们仍然距离真正的照片级真实渲染(photo-realistic rendering)存在一定的距离。

来自浙江大学、字节跳动的研究团队认为,上述问题的根本原因在于基于光线投射(ray casting)的 NeRF pipeline 通过逆向映射(backward-flow)将观测空间(observation space)映射到规范空间(canonical space)无法实现准确且干净的映射。逆向映射并不利于可学习结构的收敛,使得目前的方法在 D-NeRF 数据集上只能取得 30 + 级别的 PSNR 渲染指标。

为了解决这一问题,该研究团队提出了一种基于光栅化(rasterization)的单目动态场景建模 pipeline,首次将变形场(Deformation Field)与 3D 高斯(3D Gaussian Splatting)结合,实现了高质量的重建与新视角渲染。研究论文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被计算机视觉顶级国际学术会议 CVPR 2024 接收。值得一提的是,这是首个使用变形场将 3D 高斯拓展到单目动态场景的工作。

  • 项目主页:https://ingra14m.github.io/Deformable-Gaussians/
  • 论文链接:https://arxiv.org/abs/2309.13101
  • 代码:https://github.com/ingra14m/Deformable-3D-Gaussians

实验结果表明,变形场可以准确地将规范空间下的 3D 高斯前向映射(forward-flow)到观测空间,不仅在 D-NeRF 数据集上实现了 10 + 的 PSNR 提高,而且在相机位姿不准确的真实场景也取得了渲染细节上的增加:

图 1 HyperNeRF 真实场景的实验结果。

相关工作

动态场景重建一直以来是三维重建的热点问题。随着以 NeRF 为代表的神经渲染实现了高质量的渲染,动态重建领域涌现出了一系列以隐式表征作为基础的工作。D-NeRF 和 Nerfies 在 NeRF 光线投射 pipeline 的基础上引入了变形场,实现了稳健的动态场景重建。TiNeuVox,K-Planes 和 Hexplanes 在此基础上引入了网格结构,大大加速了模型的训练过程,渲染速度有一定的提高。然而这些方法都基于逆向映射,无法真正实现高质量的规范空间和变形场的解耦。

3D 高斯泼溅是一种基于光栅化的点云渲染 pipeline。其 CUDA 定制的可微高斯光栅化 pipeline 和创新的致密化使得 3D 高斯不仅实现了 SOTA 的渲染质量,还实现了实时渲染。Dynamic 3D 高斯首先将静态的 3D 高斯拓展到了动态领域。然而,其只能处理多目场景非常严重地制约了其应用于更通用的情况,如手机拍摄等单目场景。

研究思想

Deformable-GS 的核心在于将静态的 3D 高斯拓展到单目动态场景。每一个 3D 高斯携带位置,旋转,缩放,不透明度和 SH 系数用于图像层级的渲染。根据 3D 高斯 alpha-blend 的公式,不难发现,随时间变化的位置,以及控制高斯形状的旋转和缩放是决定动态 3D 高斯的决定性参数。然而,不同于传统的基于点云的渲染方法,3D 高斯在初始化之后,位置,透明度等参数会随着优化不断更新。这给动态高斯的学习增加了难度。

该研究创新性地提出了变形场与 3D 高斯联合优化的动态场景渲染框架。具体来说,该研究将 COLMAP 或随机点云初始化的 3D 高斯视作规范空间,随后通过变形场,以规范空间中 3D 高斯的坐标信息作为输入,预测每一个 3D 高斯随时间变化的位置和形状参数。利用变形场,该研究可以将规范空间的 3D 高斯变换到观测空间用于光栅化渲染。这一策略并不会影响 3D 高斯的可微光栅化 pipeline,经过其计算得到的梯度可以用于更新规范空间 3D 高斯的参数。

此外,引入变形场有利于动作幅度较大部分的高斯致密化。这是因为动作幅度较大的区域变形场的梯度也会相对较高,从而指导相应区域在致密化的过程中得到更精细的调控。即使规范空间 3D 高斯的数量和位置参数在初期也在不断更新,但实验结果表明,这种联合优化的策略可以最终得到稳健的收敛结果。大约经过 20000 轮迭代,规范空间的 3D 高斯的位置参数几乎不再变化。

研究团队发现真实场景的相机位姿往往不够准确,而动态场景更加剧了这一问题。这对于基于神经辐射场的结构来说并不会产生较大的影响,因为神经辐射场基于多层感知机(Multilayer Perceptron,MLP),是一个非常平滑的结构。但是 3D 高斯是基于点云的显式结构,略微不准确的相机位姿很难通过高斯泼溅得到较为稳健地矫正。

为了缓解这个问题,该研究创新地引入了退火平滑训练(Annealing Smooth Training,AST)。该训练机制旨在初期平滑 3D 高斯的学习,在后期增加渲染的细节。这一机制的引入不仅提高了渲染的质量,而且大幅度提高了时间插值任务的稳定性与平滑性。

图 2 展示了该研究的 pipeline,详情请参见论文原文。

图 2 该研究的 pipeline。

结果展示

该研究首先在动态重建领域被广泛使用的 D-NeRF 数据集上进行了合成数据集的实验。从图 3 的可视化结果中不难看出,Deformable-GS 相比于之前的方法有着非常巨大的渲染质量提升。

图 3 该研究在 D-NeRF 数据集上的定性实验对比结果。

该研究提出的方法不仅在视觉效果上取得了大幅度的提升,在渲染的定量指标上也有着相应的改进。值得注意的是,研究团队发现 D-NeRF 数据集的 Lego 场景存在错误,即训练集和测试集的场景具有微小的差别。这体现在 Lego 模型铲子的翻转角度不一致。这也是为什么之前方法在 Lego 场景的指标无法提高的根本原因。为了实现有意义的比较,该研究使用了 Lego 的验证集作为指标测量的基准。

图 4 在合成数据集上的定量比较。

如图 4 所示,该研究在全分辨率(800x800)下对比了 SOTA 方法,其中包括了 CVPR 2020 的 D-NeRF,Sig Asia 2022 的 TiNeuVox 和 CVPR2023 的 Tensor4D,K-planes。该研究提出的方法在各个渲染指标(PSNR、SSIM、LPIPS),各个场景下都取得了大幅度的提高。

该研究提出的方法不仅能够适用于合成场景,在相机位姿不够准确的真实场景也取得了 SOTA 结果。如图 5 所示,该研究在 NeRF-DS 数据集上与 SOTA 方法进行了对比。实验结果表明,即使没有对高光反射表面进行特殊处理,该研究提出的方法依旧能够超过专为高光反射场景设计的 NeRF-DS,取得了最佳的渲染效果。

图 5 真实场景方法对比。

虽然 MLP 的引入增加了渲染开销,但是得益于 3D 高斯极其高效的 CUDA 实现与我们紧凑的 MLP 结构,我们依旧能够做到实时渲染。在 3090 上 D-NeRF 数据集的平均 FPS 可以达到 85(400x400),68(800x800)。

此外,该研究还首次应用了带有前向与反向深度传播的可微高斯光栅化管线。如图 6 所示,该深度也证明了 Deformable-GS 也可以得到鲁棒的几何表示。深度的反向传播可以推动日后很多需要使用深度监督的任务,例如逆向渲染(Inverse Rendering),SLAM 与自动驾驶等。

图6 深度可视化。

作者简介

论文第一作者:杨子逸,浙江大学硕士二年级,主要研究方向为三维高斯、神经辐射场、实时渲染等。

论文其他作者:高新宇,浙江大学硕士三年级,主要研究方向为神经辐射场,隐式场景组合。

张宇晴:浙江大学硕士二年级,主要研究方向为 3D 生成,逆向渲染。

论文通讯作者为浙江大学计算机科学与技术学院金小刚教授。

  • Email: jin@cad.zju.edu.cn
  • 个人主页:http://www.cad.zju.edu.cn/home/jin/

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
100行Pytorch代码实现三维重建技术神经辐射场 (NeRF)
转载自:DeepHub IMBA 原文:100行Pytorch代码实现三维重建技术神经辐射场 (NeRF)
一点人工一点智能
2023/02/15
1.4K0
100行Pytorch代码实现三维重建技术神经辐射场 (NeRF)
4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍
当 4K 画质、60 帧视频在某些 APP 上还只能开会员观看时,AI 研究者已经把 3D 动态合成视频做到了 4K 级别,而且画面相当流畅。
机器之心
2023/10/24
5340
4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍
Nerf技术在三维重建中起到什么作用?
NeRF的核心思想是将三维场景建模成一个连续的函数,这个函数可以接收三维空间中的一点以及观察这个点的相机的方向,然后输出该点的颜色和不透明度。这样,通过学习这个函数,我们就可以得到整个三维场景的信息,从而可以渲染出从任何角度观察这个场景的结果。
一点人工一点智能
2024/04/02
6910
Nerf技术在三维重建中起到什么作用?
CVPR 2024 | DNGaussian: 全局局部深度归一化优化的稀疏三维高斯辐射场
从稀疏输入合成新视图对于辐射场来说是一个挑战。神经辐射场(NeRF)的最新进展在仅使用少量输入视图就能重建出高度逼真的外观和准确的几何信息方面取得了卓越成果。然而,大部分基于稀疏视图的NeRF实现速度较慢,内存消耗也较大,导致时间和计算成本很高,限制了它们的实际应用。
用户1324186
2024/05/31
1.6K0
CVPR 2024 | DNGaussian: 全局局部深度归一化优化的稀疏三维高斯辐射场
仅用三张图,合成高质量的3D场景,NTU提出SparseNeRF
随着深度学习与 3D 技术的发展,神经辐射场(NeRF)在 3D 场景重建与逼真新视图合成方面取得了巨大的进展。给定一组 2D 视图作为输入,神经辐射场便可通过优化隐式函数表示 3D。
机器之心
2023/09/08
5930
仅用三张图,合成高质量的3D场景,NTU提出SparseNeRF
基于少量图像的三维重建综述
基于少量图像的三维重建被认为是第三代人工智能的经典应用之一。在计算机图形学和计算机视觉领域,基于少量图像的三维重建任务因具有广泛的应用场景和很高的研究价值,长期以来吸引着众多学者的目光。引入深度学习方法后,该领域于近年来得到了长足发展。对此类基于少量图像的三维重建任务进行了全面阐述,并介绍了本研究组在该方面的系列工作,对其中涉及的数据类型进行分析,阐明其适用性和一般处理方法。此外,对常见的数据集进行分析、整理,针对不同重建方法,归纳出其基本框架、思路。最后,展示了一些常见三维重建的代表性实验结果,并提出了未来可能的研究方向。
一点人工一点智能
2023/08/25
1.3K0
基于少量图像的三维重建综述
生成高精细节,新方法AligNeRF解决NeRF对齐问题
机器之心报道 机器之心编辑部 与当前最先进的 NeRF 模型相比,AligNeRF 可以恢复更多的高频细节。 虽然 NeRF 能够用不同视角的视图中渲染复杂的 3D 场景,但很少有人致力于探索其在高分辨率设置中的局限性。具体来说,现有的基于 NeRF 的方法在重建高分辨率的真实场景时面临着一些限制,包括大量的参数、未对齐的输入数据和过于平滑的细节。 在 UC Austin、谷歌、香港中文大学等机构提出的一项新研究中,作者找到了相应的解决方案:1) 将多层感知器(MLP)与卷积层相结合,可以编码更多的邻域信息
机器之心
2023/05/01
4230
生成高精细节,新方法AligNeRF解决NeRF对齐问题
CVPR2024 | HUGS:人体高斯溅射
真实渲染和人体动态是一个重要的研究领域,具有在AR/VR、视觉特效、虚拟试衣、电影制作等众多应用。早期的工作创建人类化身依赖于多相机捕捉设置中的高质量数据捕捉、大量计算和大量手工努力。最近的工作通过使用3D参数化身体模型如SMPL,直接从视频生成3D化身来解决这些问题,这些模型具有高效光栅化和适应未见变形的能力。然而,参数化模型的固定拓扑结构限制了对衣物、复杂发型和其他几何细节的建模。最近的进展探索了使用神经场来建模3D人类化身,通常使用参数化身体模型作为建模变形的模版。神经场在捕捉衣物、配饰和头发等细节方面表现出色,超越了通过纹理和其他属性光栅化参数化模型所能实现的质量。然而,它们也有不足,特别是在训练和渲染效率方面较低。
用户1324186
2024/05/31
6790
CVPR2024 | HUGS:人体高斯溅射
5秒手机猫片也能重建猫咪3D模型,Meta提出新算法为变形物体建模 | CVPR 2022
晓查 发自 凹非寺 量子位 | 公众号 QbitAI 众所周知,猫是一种液体。 这也给CVer带来了极大的烦恼:如何从2D视频中准确地对一只猫进行3D重建? 在很多情况下,3D重建模型得到的真是一滩液体。 而最近Meta团队提出的BANMo(Builder of Animatable 3D Neural Models),实现了对猫精确的3D重建。 这种方法既不需要专门的传感器,也不需要预定义的模板形状,甚至只用你平时给猫咪拍摄的休闲小视频,就可以做3D重建。 这篇关于BANMo的论文最近被CVPR 20
量子位
2022/03/08
1.1K0
VINGS-Mono:大规模场景中的视觉-惯性高斯溅射单目SLAM
文章:VINGS-Mono: Visual-Inertial Gaussian Splatting Monocular SLAM in Large Scenes
点云PCL博主
2025/02/19
4430
VINGS-Mono:大规模场景中的视觉-惯性高斯溅射单目SLAM
无论真实还是AI视频,「摩斯卡」都能重建恢复4D动态可渲染场景
雷嘉晖,美国宾夕法尼亚大学计算机系博士生 (2020 - 今), 导师为 Kostas Daniilidis 教授,目前主要研究方向为四维动态场景几何的建模表示和算法以及应用。他在计算机视觉和机器学习顶会 (CVPR、NeurIPS、ICML、ECCV) 以第一或共一作者身份发表文章 7 篇。此前他本科 (2016-2020) 以专业第一名的成绩毕业于浙江大学控制系,竺可桢学院混合班。
机器之心
2024/06/27
2290
无论真实还是AI视频,「摩斯卡」都能重建恢复4D动态可渲染场景
几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型
在AR、VR、3D打印、场景搭建以及电影制作等多个领域中,高质量的穿着衣服的人体3D模型非常重要。
新智元
2024/01/18
4660
几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型
100行Pytorch代码实现三维重建技术神经辐射场 (NeRF)
来源:Deephub Imba本文约3300字,建议阅读9分钟本文通过100行的Pytorch代码实现最初的 NeRF 论文。 提起三维重建技术,NeRF是一个绝对绕不过去的名字。这项逆天的技术,一经提出就被众多研究者所重视,对该技术进行深入研究并提出改进已经成为一个热点。不到两年的时间,NeRF及其变种已经成为重建领域的主流。 NeRF全称为Neural Radiance Fields(神经辐射场),是一项利用多目图像重建三维场景的技术。该项目的作者来自于加州大学伯克利分校,Google研究院,以及加州大
数据派THU
2023/04/03
7110
100行Pytorch代码实现三维重建技术神经辐射场 (NeRF)
CVPR 2024 | VastGaussian:用于大型场景重建的3D高斯
基于NeRF的方法在处理大型场景时,渲染时间长且渲染效果差。而现有基于3D高斯的方法由于训练内存大、优化时间长和外观变化剧烈,难以扩展到大型场景。
用户1324186
2024/04/12
1.8K0
CVPR 2024 | VastGaussian:用于大型场景重建的3D高斯
CVPR 2021 | pixelNeRF:一种基于NeRF的多视图三维重建网络
项目、论文地址:在公众号「计算机视觉工坊」,后台回复「pixelNeRF」,即可直接下载。
计算机视觉
2021/05/20
2.6K0
GauHuman开源:基于Gaussian Splatting,高质量3D人体快速重建和实时渲染框架
图1 GauHuman可以快速重建(1~2分钟)和实时渲染(高达189帧每秒) 高质量3D人体。
机器之心
2024/01/11
9550
GauHuman开源:基于Gaussian Splatting,高质量3D人体快速重建和实时渲染框架
基于图像的单目三维网格重建
代码地址:https://github.com/ShichenLiu/SoftRas
3D视觉工坊
2020/12/11
1.4K0
基于图像的单目三维网格重建
比LERF提速199倍!清华哈佛发布LangSplat:三维语义高斯泼溅 | CVPR 2024 Highlight
人类生活在一个三维世界中,并通过文本语言描述三维场景,构建三维语义场以支持在三维空间中的开放文本查询最近越来越受到关注。
新智元
2024/06/28
2620
比LERF提速199倍!清华哈佛发布LangSplat:三维语义高斯泼溅 | CVPR 2024 Highlight
CVPR 2024 | Scaffold-GS:自适应视角渲染的结构化 3D 高斯
神经辐射场利用基于学习的参数模型来产生连续的渲染图像,并保留更多的细节。然而,其耗时的随机采样,会导致性能下降和出现潜在的噪声。
用户1324186
2024/05/20
1.9K0
CVPR 2024 | Scaffold-GS:自适应视角渲染的结构化 3D 高斯
伦敦大学提出 SAMa: 材料感知三维选择和分割 !
了解作者周围的材料是一项极其常见的任务,但对于机器视觉方法来说仍然具有挑战性。在本文中,作者专注于3D物体的材料选择任务。
未来先知
2025/02/19
2340
伦敦大学提出 SAMa: 材料感知三维选择和分割 !
推荐阅读
相关推荐
100行Pytorch代码实现三维重建技术神经辐射场 (NeRF)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档