Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >卫星图片重建洛杉矶3D模型,效果就像谷歌地球,港中大团队提出CityNeRF

卫星图片重建洛杉矶3D模型,效果就像谷歌地球,港中大团队提出CityNeRF

作者头像
量子位
发布于 2021-12-22 05:51:56
发布于 2021-12-22 05:51:56
1.4K0
举报
文章被收录于专栏:量子位量子位
晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI

看到下面这张动图,你会想到什么?是谷歌地球,还是苹果自带的3D地图?

其实都不是,它是用卫星和航拍图片直接渲染生成的洛杉矶。

很难想象,如此精细的城市3D模型,竟然是用几张不同角度和高度的2D图片重建的。

这项研究来自香港中文大学多媒体实验室团队,叫做CityNeRF

说到这里,有人应该想到了这两年大热的“神经辐射场”(NeRF),它可以用多张角度照片重建3D对象,性能出色。量子位之前对此进行了相关报道和解读。

NeRF虽然恢复室内场景效果惊艳,但是直接用到城市级的卫星地图上,却面临着巨大的挑战。

首先是拍摄相机有很大的运动自由度。随着相机的上升,场景中的地物外观越来越粗糙,几何细节越来越少,纹理分辨率越来越低。

同时,随着空间覆盖范围的扩大,来自外围区域的新对象会加入到视图中。

相机在这个一系列场景中,产生了具有不同细节级别和空间覆盖范围的多尺度数据。

如果使用原来的NeRF渲染,那么生成的远景往往不完整,周边场景区域存在伪影,近景总是具有模糊的纹理和形状。

什么原理?

针对上述问题,作者提出了采用多阶段渐进式学习范式的CityNeRF。

作者根据相机距离将整个训练数据集划分为预定义数量的尺度。从最远的尺度开始,每个训练阶段逐渐将训练集扩大一个更近的尺度,并同步增长模型。

通过这种方式,CityNeRF可以稳健地学习跨场景所有尺度的表示层次结构。

CityNeRF引入了两个特殊的设计:

1、具有残差块结构的生长模型:

在每个训练阶段附加一个额外的块来扩展模型。每个块都有自己的输出head,用于预测连续阶段之间的颜色和密度残差,促使块在近距离观察中关注新兴细节;

2、包容的多级数据监督:

每个块的输出head由从最远尺度到其对应尺度的图像联合监督。

换句话说,最后一个块接受所有训练图像的监督,而最早的块只暴露于最粗尺度的图像。通过这样的设计,每个块模块都能够充分利用其能力,在更近的视图中对复杂的细节进行建模,并保证尺度之间一致的渲染质量。

总体来说,CityNeRF是一种渐进式学习范式,可同步增长NeRF模型和训练集。从用浅基块拟合远景开始,随着训练的进行,添加新的块以适应越来越近的视图中出现的细节。

该策略有效地激活了位置编码中的高频通道,并随着训练的进行展开更复杂的细节。

简而言之,使用基本神经网络多层感知器的权重,NeRF将提前处理所有图像,知道其观点位置。NeRF将使用相机的光线找到每个像素的颜色和密度。

因此,它知道相机的方向,并可以同时使用所有数组来了解深度和相应的颜色。然后,使用损失函数优化了神经网络的收敛性,

模型训练数据数据来自Google Earth Studio中的12个城市图像。结果显示在几种常见重建模型中达到了最佳的效果。

最后,作者又将该模型用于重建无人机拍摄的空中图像,依然收到了更佳的效果。

团队简介

本篇论文的两位一作是来自香港中文大学MMLab的两位博士生相里元博徐霖宁。前者曾有一篇论文被ICLR 2020收录,后者有多篇论文被CVPR、ICCV等顶会收录。

通讯作者是以上两位的导师林达华

林达华是香港中文大学信息工程系副教授,也是港中大-商汤科技联合实验室主任。

论文地址: https://arxiv.org/abs/2112.05504

项目地址: https://city-super.github.io/citynerf/

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一个NeRF搞定全尺度:港中大团队BungeeNeRF从单建筑到地球都能渲染|ECCV2022
Pine 发自 凹非寺 量子位 | 公众号 QbitAI 你敢相信这是AI利用图像重建出来的3D场景吗? 这么大规模的场景竟然还能保持这么高的清晰度,确定不是和谷歌地图搞错了? 并没有!这是港中大团队提出的一个模型:BungeeNeRF(也称CityNeRF),适用于各种尺度的场景还原。 目前,这篇论文已经被ECCV2022收录。 从单个建筑到整个地球等大规模的场景,都可以通过多个2D图片还原为3D场景,细节渲染也很到位。 网友们对BungeeNeRF这一研究成果也很兴奋。 这或许就是我最近几周最喜欢的
量子位
2022/08/26
5880
一个NeRF搞定全尺度:港中大团队BungeeNeRF从单建筑到地球都能渲染|ECCV2022
滑铁卢大学使用谷歌地球图像和高斯溅射进行真实感3D城市场景重建和点云提取!
从2D图像中进行3D重建和建模近年来受到了极大的关注,这要归功于具有3D重建能力的真实感视图合成方法的最新进展。从技术角度来看,这是一个跨计算机视觉、计算机图形学和摄影测量学的交叉研究领域。
AIGC 先锋科技
2024/07/08
8950
滑铁卢大学使用谷歌地球图像和高斯溅射进行真实感3D城市场景重建和点云提取!
InstantMesh:利用稀疏视图大规模重建模型从单张图像高效生成3D网格
摘要:本文提出了InstantMesh,这是一个用于从单视角图像生成即时3D网格的前馈框架,具有当前非常优秀的生成质量和显著的训练可扩展性。
一点人工一点智能
2024/04/18
3K0
InstantMesh:利用稀疏视图大规模重建模型从单张图像高效生成3D网格
生成高精细节,新方法AligNeRF解决NeRF对齐问题
机器之心报道 机器之心编辑部 与当前最先进的 NeRF 模型相比,AligNeRF 可以恢复更多的高频细节。 虽然 NeRF 能够用不同视角的视图中渲染复杂的 3D 场景,但很少有人致力于探索其在高分辨率设置中的局限性。具体来说,现有的基于 NeRF 的方法在重建高分辨率的真实场景时面临着一些限制,包括大量的参数、未对齐的输入数据和过于平滑的细节。 在 UC Austin、谷歌、香港中文大学等机构提出的一项新研究中,作者找到了相应的解决方案:1) 将多层感知器(MLP)与卷积层相结合,可以编码更多的邻域信息
机器之心
2023/05/01
3990
生成高精细节,新方法AligNeRF解决NeRF对齐问题
CVPR 2024 | VastGaussian:用于大型场景重建的3D高斯
基于NeRF的方法在处理大型场景时,渲染时间长且渲染效果差。而现有基于3D高斯的方法由于训练内存大、优化时间长和外观变化剧烈,难以扩展到大型场景。
用户1324186
2024/04/12
1.6K0
CVPR 2024 | VastGaussian:用于大型场景重建的3D高斯
为了自动驾驶,谷歌用NeRF在虚拟世界中重建了旧金山市
训练自动驾驶系统需要高精地图,海量的数据和虚拟环境,每家致力于此方向的科技公司都有自己的方法,Waymo 有自己的自动驾驶出租车队,英伟达创建了用于大规模训练的虚拟环境 NVIDIA DRIVE Sim 平台。近日,来自 Google AI 和谷歌自家自动驾驶公司 Waymo 的研究人员实践了一个新思路,他们尝试用 280 万张街景照片重建出整片旧金山市区的 3D 环境。
计算机视觉
2022/02/16
8630
为了自动驾驶,谷歌用NeRF在虚拟世界中重建了旧金山市
上交&微软 | Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!
人类具有一种与生俱来的能力,可以轻松地想象3D几何和虚构出从不同角度看物体的外观,这基于他们对世界的先验知识。
公众号-arXiv每日学术速递
2023/08/26
1.2K0
上交&微软 | Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!
VR丝滑全景指日可待?谷歌这个360° NeRF让人看到未来
选自arXiv 机器之心编辑部 NeRF 家族的 360° 全景 3D 效果真是越来越丝滑了。  前段时间,CVPR 2022 公布了今年的论文接收结果,同时也意味着投稿的论文终于熬过了静默期。不少作者都感叹:终于可以在社交媒体上聊聊我们的论文了! 今天要介绍的论文来自谷歌研究院和哈佛大学。谷歌研究科学家、论文一作 Jon Barron 表示,他们开发了一种名为 Mip-NeRF 360 的模型,该模型能够生成无界场景的逼真渲染,给我们带来了 360° 的逼真效果和漂亮的深度图。 下面是几张效果图:
机器之心
2022/03/09
7000
CVPR 2024丨文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF
美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了3D场景编辑方法——CustomNeRF,同时支持文本描述和参考图像作为3D场景的编辑提示,该研究成果已被CVPR 2024接收。
AI科技评论
2024/04/12
2230
CVPR 2024丨文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF
CVPR 2024 | 文本或图像提示精准编辑3D场景,美图&信工所&北航&中大联合提出3D编辑方法CustomNeRF
美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了3D场景编辑方法——CustomNeRF,同时支持文本描述和参考图像作为3D场景的编辑提示,该研究成果已被CVPR 2024接收。
CV君
2024/04/18
2610
CVPR 2024 | 文本或图像提示精准编辑3D场景,美图&信工所&北航&中大联合提出3D编辑方法CustomNeRF
仅用三张图,合成高质量的3D场景,NTU提出SparseNeRF
随着深度学习与 3D 技术的发展,神经辐射场(NeRF)在 3D 场景重建与逼真新视图合成方面取得了巨大的进展。给定一组 2D 视图作为输入,神经辐射场便可通过优化隐式函数表示 3D。
机器之心
2023/09/08
5620
仅用三张图,合成高质量的3D场景,NTU提出SparseNeRF
CVPR 2021 Oral | 商汤、港中文提出生成式渲染器+反向渲染,3D人脸重建效果逼真
在传统计算机图像学里,渲染一张真实的人脸需要对人脸进行几何建模的同时,还需获得复杂的环境光照条件和人脸皮肤表面的反射材质,因而通过以图像渲染结果与真实图片之间的误差来优化可变形的人脸模型的过程中会进行繁琐的求导和不稳定的优化过程,而简单的利用卷积神经网络的回归特性来学习人脸模型和图片直接的转换过程会丧失比较多的生成细节,从而难以通过该方式比较高效地从拍摄图片获得人脸 3D 模型。
机器之心
2021/06/08
1K0
联合NeRF与特征网格,实现超大规模城市渲染,高效且逼真
机器之心报道 编辑:侯佳宁 在这项工作中,研究人员以大型城市场景渲染为目标,提出一个新的框架,集成了基于 MLP 的 NeRF 与显式 3D 重建的特征网格,以有效地编码局部和全局场景信息。该方法克服了现有方法在大规模场景中应用的各种缺点,即使在大规模城市场景中也能实现高保真度的渲染,这对于现实世界的应用场景至关重要。 纯基于 MLP 的神经辐射场(NeRF)由于模型容量有限,在大规模场景模糊渲染中往往存在欠拟合现象。最近有研究者提出对场景进行地理划分、并采用多个子 NeRF,分别对每个区域进行建模,然而,
机器之心
2023/05/09
4670
联合NeRF与特征网格,实现超大规模城市渲染,高效且逼真
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
在 3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程,如 3D 人体模型回归、绑定、蒙皮、纹理贴图和驱动等。为了自动化 3D 内容生成,此前的一些典型工作(比如 DreamFusion [1] )提出了分数蒸馏采样 (Score Distillation Sampling),通过优化 3D 场景的神经表达参数,使其在各个视角下渲染的 2D 图片符合大规模预训练的文生图模型分布。然而,尽管这一类方法在单个物体上取得了不错的效果,我们还是很难对具有复杂关节的细粒度人体进行精确建模。
机器之心
2023/12/12
6920
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
无需多视图!Google重磅升级NeRF:仅需一张平面图即可生成3D模型
---- 新智元报道   编辑:LRS 【新智元导读】NeRF最大的弊端被攻克! 人类视觉中,有一个很重要的能力就是可以从二维图像中理解图像的三维形状。 理解三维几何对于了解物体和场景的物理和语义结构至关重要,但当下计算机的视觉仍然很难从二维照片中抽取出三维几何信息。 2020年,神经辐射场(NeRF)模型发布,仅根据二维图像即可生成三维模型,不过缺陷也很明显:模型需要同一个场景(scene)的多个视图(views)作为监督学习的输入。 如果多视角数据不足,模型就无法估计体积表征,生成的场景很容易崩溃
新智元
2022/09/20
1.5K0
无需多视图!Google重磅升级NeRF:仅需一张平面图即可生成3D模型
CVPR 2024 满分论文!浙大&字节提出基于可变形3D高斯的单目动态重建新方法
随着以神经辐射场(Neural Radiance Field, NeRF)为代表的神经渲染的兴起,越来越多的工作开始使用隐式表征(implicit representation)进行动态场景的三维重建。尽管基于 NeRF 的一些代表工作,如 D-NeRF,Nerfies,K-planes 等已经取得了令人满意的渲染质量,他们仍然距离真正的照片级真实渲染(photo-realistic rendering)存在一定的距离。
Python编程爱好者
2024/03/26
1.7K0
CVPR 2024 满分论文!浙大&字节提出基于可变形3D高斯的单目动态重建新方法
单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法
2D 扩散模型极大地简化了图像内容的创作流程,2D 设计行业也因此发生了变革。近来,扩散模型已扩展到 3D 创作领域,减少了应用程序(如 VR、AR、机器人技术和游戏等)中的人工成本。有许多研究已经对使用预训练的 2D 扩散模型,生成具有评分蒸馏采样(SDS)损失的 NeRFs 方法进行了探索。然而,基于 SDS 的方法通常需要花费数小时来优化资源,并且经常引发图形中的几何问题,比如多面 Janus 问题。
机器之心
2023/11/27
3280
单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法
ICCV 2023 | 单阶段扩散神经辐射场:3D生成与重建的统一方法
在计算机视觉和图形领域,由于神经渲染和生成模型的进步,三维视觉内容的合成引起了显著关注。尽管出现了许多处理单个任务的方法,例如单视图/多视图三维重建和三维内容生成,但开发一个综合框架来整合多个任务的最新技术仍然是一个主要挑战。例如,神经辐射场(NeRF)在通过每个场景的拟合解决逆向渲染问题方面展示了令人印象深刻的新视图合成结果,这适用于密集视图输入,但难以泛化到稀疏观察。相比之下,许多稀疏视图三维重建方法依赖于前馈图像到三维编码器,但它们无法处理遮挡区域的不确定性并生成清晰的图像。在无条件生成方面,三维感知的生成对抗网络(GAN)在使用单图像鉴别器方面部分受限,这些鉴别器无法推理跨视图关系以有效地从多视图数据中学习。 在这篇论文中,作者通过开发一个全面模型来从多视图图像中学习可泛化的三维先验,提出了一种统一的方法来处理各种三维任务。受到二维扩散模型成功的启发,论文提出了单阶段扩散NeRF(SSDNeRF),它使用三维潜在扩散模型(LDM)来模拟场景潜在代码的生成先验。 虽然类似的LDM已经应用于之前工作中的二维和三维生成,但它们通常需要两阶段训练,其中第一阶段在没有扩散模型的情况下预训练变分自编码器(VAE)或自解码器。然而,在扩散NeRF的情况下,作者认为两阶段训练由于逆向渲染的不确定性特性,特别是在从稀疏视图数据训练时,会在潜在代码中引入噪声模式和伪影,这阻碍了扩散模型有效地学习清晰的潜在流形。为了解决这个问题,论文引入了一种新的单阶段训练范式,使扩散和NeRF权重的端到端学习成为可能。这种方法将生成和渲染偏差协调地融合在一起,整体上提高了性能,并允许在稀疏视图数据上进行训练。此外,论文展示了无条件扩散模型学习到的三维先验可以在测试时从任意观察中灵活地采样用于三维重建。 论文在多个类别单一对象场景的数据集上评估了SSDNeRF,整体展示了强大的性能。论文的方法代表了朝着各种三维任务统一框架的重要一步。总结来说,论文的主要贡献如下:
用户1324186
2024/03/20
4880
ICCV 2023 | 单阶段扩散神经辐射场:3D生成与重建的统一方法
只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是有线上VR看房那味儿了? 不只是室内效果,来个远景长镜头航拍也是so easy: 而且渲染出的图像通通都是高保真效果,仿佛是用真相机拍出来的一样。 最近一段时间,用2D图片合成3D场景的研究火了一波又一波。 但是过去的许多研究,合成场景往往都局限在一个范围比较小的空间里。 比如此前大火的NeRF,效果就是围绕画面主体展开。 这一次的新进展,则是将视角进一步延伸,更侧重让AI预测出远距离的画面
量子位
2022/03/24
3540
PaintScene4D 引领文本到 4D 场景生成框架 ,以简洁架构,绘就逼真动态四维场景 !
从文本描述生成动态3D场景,这被称为文本到4D场景生成,是计算机视觉和图形学领域最具挑战性的前沿之一。尽管近年来的研究已经极大地增强了作者从文本生成静态3D内容以及2D图像和视频的能力,但合成时间连贯且动画化的3D场景仍然是一个基本的挑战。这一任务不仅需要生成空间一致的3D几何形状和外观,还需要产生符合真实世界物理定律和语义约束的逼真运动——所有这些都需要在多个视角下保持时间一致性。
AIGC 先锋科技
2025/02/07
2220
PaintScene4D 引领文本到 4D 场景生成框架 ,以简洁架构,绘就逼真动态四维场景 !
推荐阅读
一个NeRF搞定全尺度:港中大团队BungeeNeRF从单建筑到地球都能渲染|ECCV2022
5880
滑铁卢大学使用谷歌地球图像和高斯溅射进行真实感3D城市场景重建和点云提取!
8950
InstantMesh:利用稀疏视图大规模重建模型从单张图像高效生成3D网格
3K0
生成高精细节,新方法AligNeRF解决NeRF对齐问题
3990
CVPR 2024 | VastGaussian:用于大型场景重建的3D高斯
1.6K0
为了自动驾驶,谷歌用NeRF在虚拟世界中重建了旧金山市
8630
上交&微软 | Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!
1.2K0
VR丝滑全景指日可待?谷歌这个360° NeRF让人看到未来
7000
CVPR 2024丨文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF
2230
CVPR 2024 | 文本或图像提示精准编辑3D场景,美图&信工所&北航&中大联合提出3D编辑方法CustomNeRF
2610
仅用三张图,合成高质量的3D场景,NTU提出SparseNeRF
5620
CVPR 2021 Oral | 商汤、港中文提出生成式渲染器+反向渲染,3D人脸重建效果逼真
1K0
联合NeRF与特征网格,实现超大规模城市渲染,高效且逼真
4670
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
6920
无需多视图!Google重磅升级NeRF:仅需一张平面图即可生成3D模型
1.5K0
CVPR 2024 满分论文!浙大&字节提出基于可变形3D高斯的单目动态重建新方法
1.7K0
单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法
3280
ICCV 2023 | 单阶段扩散神经辐射场:3D生成与重建的统一方法
4880
只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022
3540
PaintScene4D 引领文本到 4D 场景生成框架 ,以简洁架构,绘就逼真动态四维场景 !
2220
相关推荐
一个NeRF搞定全尺度:港中大团队BungeeNeRF从单建筑到地球都能渲染|ECCV2022
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档