前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2025 | GaussianCity: 60倍加速,让3D城市瞬间生成

CVPR 2025 | GaussianCity: 60倍加速,让3D城市瞬间生成

作者头像
机器之心
发布于 2025-04-06 14:33:27
发布于 2025-04-06 14:33:27
1510
举报
文章被收录于专栏:机器之心机器之心

想象一下,一座生机勃勃的 3D 城市在你眼前瞬间成型 —— 没有漫长的计算,没有庞大的存储需求,只有极速的生成和惊人的细节。

然而,现实却远非如此。现有的 3D 城市生成方法,如基于 NeRF 的 CityDreamer [1],虽然能够生成逼真的城市场景,但渲染速度较慢,难以满足游戏、虚拟现实自动驾驶模拟对实时性的需求。而自动驾驶的 World Models [2],本应在虚拟城市中训练 AI 驾驶员,却因无法保持多视角一致性而步履维艰。

现在,新加坡南洋理工大学 S-Lab 的研究者们提出了 GaussianCity,该工作重新定义了无界 3D 城市生成,让它变得 60 倍更快。过去,你需要数小时才能渲染一片城区,现在,仅需一次前向传播,一座完整的 3D 城市便跃然眼前。无论是游戏开发者、电影制作者,还是自动驾驶研究者,GaussianCity 都能让他们以秒级的速度构建世界。

城市不该等待生成,未来应该即刻抵达。

🎥观看Demo,发现GaussianCity与其他方法的显著差异!

📄阅读论文,深入了解GaussianCity的技术细节。

  • Paper:https://arxiv.org/abs/2406.06526
  • Code:https://github.com/hzxie/GaussianCity
  • Project Page:https://haozhexie.com/project/gaussian-city
  • Live Demo: https://huggingface.co/spaces/hzxie/gaussian-city

引言

3D 城市生成的探索正面临着一个关键挑战:如何在无限扩展的城市场景中实现高效渲染与逼真细节的兼得?现有基于 NeRF 的方法虽能生成细腻的城市景观,但其计算成本极高,难以满足大规模、实时生成的需求。近年来,3D Gaussian Splatting(3D-GS)[3] 凭借其极高的渲染速度和优异的细节表现,成为对象级 3D 生成的新宠。然而,当尝试将 3D-GS 扩展至无界 3D 城市时,面临了存储瓶颈和内存爆炸的问题:数十亿个高斯点的计算需求轻易耗尽上百 GB 的显存,使得城市级别的 3D-GS 生成几乎无法实现。

为了解决这一难题,GaussianCity 应运而生,首个用于无边界 3D 城市生成的生成式 3D Gaussian Splatting 框架。它的贡献可以被归纳为:

  • 通过创新性的 BEV-Point 表示,它将 3D 城市的复杂信息高度压缩,使得显存占用不再随场景规模增长,从而避免了 3D-GS 中的内存瓶颈。
  • 借助空间感知 BEV-Point 解码器,它能够精准推测 3D 高斯属性,高效生成复杂城市结构。
  • 实验表明,GaussianCity 不仅在街景视角和无人机视角下实现了更高质量的 3D 城市生成,还在推理速度上比 CityDreamer 快 60 倍,大幅提高了生成效率。

具体来说,得益于 BEV-Point 的紧凑表示,GaussianCity 可以在生成无界 3D 城市时保持显存占用的恒定,而传统 3D-GS 方法在点数增加时显存使用大幅上升(如下图(b)所示)。同时,BEV-Point 在文件存储增长上也远远低于传统方法(如下图(c)所示)。不仅如此,GaussianCity 在生成质量和效率上都优于现有的 3D 城市生成方法,展现了其在大规模 3D 城市合成中的巨大潜力(如下图(d)所示)。

方法

如上图所示,GaussianCity 将 3D 城市生成过程分为三个主要阶段:BEV-Point的初始化、特征生成和解码。

BEV-Point 初始化

在 3D-GS 中,所有 3D 高斯点在优化过程中都会使用一组预定义的参数进行初始化。然而,随着场景规模的增加,显存需求急剧上升,导致生成大规模场景变得不可行。为此,GaussianCity 采用 BEV-Point 进行优化,以缓解这一问题。

BEV 图 是生成 BEV-Point 的基础,包含三个核心图像:高度图(Height Map)、语义图(Semantic Map)和 密度图(Density Map)。从 BEV 图 中,BEV-Point 被生成:

  • 高度图 决定每个点在空间中的 3D 坐标。
  • 语义图 提供每个点的语义标签,如建筑、道路等。
  • 密度图 调整采样密度,根据不同区域的特征决定是否增加或减少采样点。

BEV-Point 通过只保留可见点大幅减少计算量。由于相机视角固定,场景中不可见的点不影响渲染结果,因而不占用显存。这样,随着场景扩展,显存使用量保持恒定。

为了优化计算,二值密度图根据语义类别调整采样密度。对于简单纹理(如道路、水域)减少密度,复杂纹理(如建筑物)则增加密度。

通过射线交点(Ray Intersection)方法筛选出可见的 BEV-Point,确保仅这些点参与后续渲染和优化,进一步提升计算效率。

BEV-Point 特征生成

在 BEV-Point 表示中,特征可分为三大类:实例属性、BEV-Point 属性和样式查找表。

1.实例属性

实例属性包括每个实例的基本信息,如实例标签、大小和中心坐标等。语义图提供了每个 BEV 点的语义标签。为了处理城市环境中建筑物和车辆的多样性,引入了实例图来区分不同的实例。通过检测连接组件(Connected Components)的方式,将语义图进行实例化,从而得到每个实例的标签、大小和边界框的中心坐标。

2.BEV-Point 属性

在 BEV-Point 初始化时,生成了每个点的绝对坐标,并设定其原点在世界坐标系的中心。为了更精确地描述每个实例的相对位置,相对坐标系被引入。其原点设置在每个实例的中心,并通过标准化的方式来计算相对坐标。

为了融入更多的上下文信息,场景特征

从 BEV 图中提取,并通过点的绝对坐标进行索引,进一步为每个 BEV 点提供更丰富的上下文信息。

3.样式查找表(Style Look-up Table)

在 3D-GS 中,每个 3D 高斯点的外观都由其自身的属性决定,导致存储开销随着高斯点数量的增加而显著增长,使得大规模场景的生成变得不可行。为了解决这一问题,BEV-Point 采用隐向量(Latent Vector)来编码实例的外观,使得相同的实例共享同一个隐向量,并通过样式查找表

为不同实例分配样式,从而减少计算与存储开销。

BEV-Point 解码

BEV-Point 解码器用于从 BEV-Point 特征生成高斯点属性,主要包括五个模块:位置编码器、点序列化器、Point Transformer、Modulated MLPs、以及高斯光栅化器。

1.位置编码器(Positional Encoder)

为了更好地表达空间信息,BEV-Point 坐标和特征不会直接输入网络,而是经过位置编码转换为高维嵌入,从而提供更丰富的表征能力。

2.点序列化器(Point Serializer)

BEV-Point 是无序点云,直接用 MLP 可能无法充分利用其结构信息。因此,我们引入点序列化方法,将点坐标转换为整数索引,使相邻点在数据结构中更具空间连续性,优化信息组织方式。

3.Point Transformer

序列化后的点特征经过 Point Transformer V3 [10] 进一步提取上下文信息,增强 BEV-Point 的全局和局部关系建模能力。

4.Modulated MLPs

在生成 3D 高斯点属性时,MLP 结合 BEV-Point 特征、Point Transformer 提取的特征、实例的样式编码及标签,以确保生成的高斯点具有一致的外观和风格。

5.高斯光栅化器(Gaussian Rasterizer)

最终,结合相机参数,BEV-Point 生成的 3D 高斯点属性通过高斯光栅化器进行渲染。对于未生成的某些属性,如尺度、旋转、透明度,则使用默认值填充。

实验

下图展示了 GaussianCity 和其他 SOTA 方法的对比,这些方法包括 PersistentNature [4]、SceneDreamer [5] 、InfiniCity [6] 和 CityDreamer [1]。实验结果表明,GaussianCity 的效果明显优于其他方法,相比于 CityDreamer 更是取得了 60 倍的加速。

在街景图生成上,GaussianCity 在 KITTI-360 [7] 数据集上进行训练,其生成效果超越了 GSN [8] 和 UrbanGIRAFFE [9] 等多种方法。

总结

本研究提出了 GaussianCity,首个针对无边界 3D 城市生成的生成式 3D Gaussian Splatting 框架。通过引入创新性的 BEV-Point 表示,GaussianCity 在保证高效生成的同时,克服了传统 3D-GS 方法在大规模场景生成中面临的显存瓶颈和存储挑战。该方法不仅实现了在街景和无人机视角下的高质量城市生成,还在推理速度上相比 CityDreamer 提升了 60 倍,显著提高了生成效率。实验结果表明,GaussianCity 能够在确保细节还原的同时,高效处理无边界 3D 城市生成,为大规模虚拟城市的实时合成开辟了新路径。

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
清华大学最新成果 3D 语义占用预测框架 GaussianFormer !
激光雷达是否用于3D感知,长期以来一直是自动驾驶公司核心争论的焦点。尽管以视觉为中心的系统具有经济优势,但它们无法捕捉任意形状的障碍物,这限制了驾驶的安全性和鲁棒性。3D语义占用预测方法的出现缓解了这个问题,通过预测周围3D空间中每个 Voxel (voxel)的占用状态,这促进了包括端到端自动驾驶[46],4D占用预测[58]和自监督3D场景理解[15]等新兴任务的发展。
未来先知
2024/08/29
5790
清华大学最新成果 3D 语义占用预测框架 GaussianFormer  !
CityDreamer:一键生成无边界的3D城市
近些年,3D 自然场景的生成出现了大量的研究工作,但是 3D 城市生成的研究工作还寥寥无几。这主要是因为 3D 城市生成更难,人类对于其中的结构失真更敏感。近日,来自南洋理工大学 S-Lab 的研究者提出了一个新的框架 CityDreamer,专注于生成无边界的 3D 城市,让我们先看一下效果。
机器之心
2023/10/24
5930
CityDreamer:一键生成无边界的3D城市
CityDreamer4D: 下一个世界模型,何必是视频生成模型?
在过去的两年里,城市场景生成技术迎来了飞速发展,一个全新的概念 ——世界模型(World Model)也随之崛起。当前的世界模型大多依赖 Video Diffusion Models(视频扩散模型)强大的生成能力,在城市场景合成方面取得了令人瞩目的突破。然而,这些方法始终面临一个关键挑战:如何在视频生成过程中保持多视角一致性?
机器之心
2025/02/03
1470
CityDreamer4D: 下一个世界模型,何必是视频生成模型?
CVPR 2024 | Scaffold-GS:自适应视角渲染的结构化 3D 高斯
神经辐射场利用基于学习的参数模型来产生连续的渲染图像,并保留更多的细节。然而,其耗时的随机采样,会导致性能下降和出现潜在的噪声。
用户1324186
2024/05/20
1.7K0
CVPR 2024 | Scaffold-GS:自适应视角渲染的结构化 3D 高斯
SIGGRAPH 2023 | 用于实时辐射场渲染的 3D Gaussian Splatting
网格和点是最常见的可以用于基于 GPU/CUDA 快速光栅化的显式三维场景表征方式。而神经辐射场基于 MLP 使用体渲染对捕捉的场景化进行自由视角合成。而提升辐射场效率的方案目前多基于体素、哈希网格或是点。辐射场方法的连续性有助于场景的优化,但是渲染过程中所需的随机采样需要的花销较大同时会带来噪声。因此,在本文中,作者提出了一种新的方法:本文所提出的 3D 高斯表达在能达到 sota 视觉质量和可比的渲染时间的同时,本文所提出的基于 tile 的 Splatting 方法可以实时渲染 1080p 的结果。
用户1324186
2023/10/10
1.8K0
SIGGRAPH 2023 | 用于实时辐射场渲染的 3D Gaussian Splatting
VINGS-Mono:大规模场景中的视觉-惯性高斯溅射单目SLAM
文章:VINGS-Mono: Visual-Inertial Gaussian Splatting Monocular SLAM in Large Scenes
点云PCL博主
2025/02/19
2970
VINGS-Mono:大规模场景中的视觉-惯性高斯溅射单目SLAM
滑铁卢大学使用谷歌地球图像和高斯溅射进行真实感3D城市场景重建和点云提取!
从2D图像中进行3D重建和建模近年来受到了极大的关注,这要归功于具有3D重建能力的真实感视图合成方法的最新进展。从技术角度来看,这是一个跨计算机视觉、计算机图形学和摄影测量学的交叉研究领域。
AIGC 先锋科技
2024/07/08
9030
滑铁卢大学使用谷歌地球图像和高斯溅射进行真实感3D城市场景重建和点云提取!
CVPR 2025 | 2D 大模型赋能3D Affordance 预测,GEAL助力可泛化的3D场景可交互区域识别
GEAL 由新加坡国立大学的研究团队开展,第一作者为博士生鲁东岳,通讯作者为该校副教授 Gim Hee Lee,团队其他成员还包括孔令东与黄田鑫博士。
机器之心
2025/04/11
810
CVPR 2025 | 2D 大模型赋能3D Affordance 预测,GEAL助力可泛化的3D场景可交互区域识别
NeRFs和3D高斯溅射技术如何重塑SLAM:综述
文章:How NeRFs and 3D Gaussian Splatting are Reshaping SLAM: a Survey
点云PCL博主
2024/06/21
1.7K0
NeRFs和3D高斯溅射技术如何重塑SLAM:综述
【源头活水】CityGaussian:VR/AR时代的城市重建新标杆
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
马上科普尚尚
2024/07/17
3600
【源头活水】CityGaussian:VR/AR时代的城市重建新标杆
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
在 3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程,如 3D 人体模型回归、绑定、蒙皮、纹理贴图和驱动等。为了自动化 3D 内容生成,此前的一些典型工作(比如 DreamFusion [1] )提出了分数蒸馏采样 (Score Distillation Sampling),通过优化 3D 场景的神经表达参数,使其在各个视角下渲染的 2D 图片符合大规模预训练的文生图模型分布。然而,尽管这一类方法在单个物体上取得了不错的效果,我们还是很难对具有复杂关节的细粒度人体进行精确建模。
机器之心
2023/12/12
6920
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
【他山之石】3D Gaussian Splatting:实时的神经场渲染
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注。
马上科普尚尚
2023/12/15
3K0
【他山之石】3D Gaussian Splatting:实时的神经场渲染
嵌入基础模型的高斯溅射
3D场景理解是计算机视觉和机器人应用中的重要任务。然而,大多数现有方法主要集中在3D几何和外观估计或基于封闭类别数据集的3D对象检测和场景分割上。然而,为了使智能代理能够与物理世界平稳互动,仅仅理解由预先识别的标签特征化的空间子集是不足够的。受最新的基础模型在语言和视觉语义方面取得的进展所启发,本方法旨在开发更自然的3D场景表示。它整合了几何和开放词汇语义信息,便于后续任务中用语言查询。
用户1324186
2024/01/24
3950
嵌入基础模型的高斯溅射
FlashSplat: 以最佳方式求解 2D 到 3D 高斯展开分割 !
本研究旨在解决准确分割3D高斯分水(3D-GS) FROM 2D Mask 的挑战。传统方法通常依靠迭代梯度下降为每个高斯分配唯一的标签,导致长久的优化和次优解。
未来先知
2024/12/30
2380
FlashSplat: 以最佳方式求解 2D 到 3D 高斯展开分割 !
三维场景重建3D高斯点渲染复现
多视图立体视觉网络(MVSNet, Multi-View Stereo Network)是计算机视觉领域中用于从多视角图像中重建3D几何结构的一种深度学习方法。MVSNet通过利用卷积神经网络(CNNs)对输入的多张图像进行特征提取,然后基于这些特征来计算不同视角之间的匹配代价,并构建代价体积(cost volume)。接下来,通过3D卷积操作对这个代价体积进行处理,以预测每个像素的深度值,最终生成稠密的深度图和点云数据。
Srlua
2024/12/28
5230
三维场景重建3D高斯点渲染复现
让3D编辑像PS一样简单,新算法GaussianEditor在几分钟内完成3D场景增删改
3D 编辑在游戏和虚拟现实等领域中发挥着至关重要的作用,然而之前的 3D 编辑苦于耗时间长以及可控性差等问题,很难应用到实际场景。近日,南洋理工大学联合清华和商汤提出了一种全新的 3D 编辑算法 GaussianEditor,首次实现了在 2-7 分钟完成对 3D 场景可控的多样化的编辑,全面超越了之前的 3D 编辑工作。
机器之心
2023/12/05
4150
让3D编辑像PS一样简单,新算法GaussianEditor在几分钟内完成3D场景增删改
TCLC-GS:用于自动驾驶场景的紧耦合激光雷达-相机高斯溅射技术
文章:TCLC-GS: Tightly Coupled LiDAR-Camera Gaussian Splatting for Surrounding Autonomous Driving Scenes
点云PCL博主
2024/06/08
3440
TCLC-GS:用于自动驾驶场景的紧耦合激光雷达-相机高斯溅射技术
GaussianEditor:快速可控的3D高斯编辑
开发用户友好的 3D 表征和编辑算法是计算机视觉领域的一个关键目标。NeRF等隐式三维表征具有高保真的渲染能力,但其限制了对场景部分的直接修改,使得编辑任务更为复杂,阻碍了实际应用。基于这些挑战,本文额定研究重点是开发一种先进的三维编辑算法,该算法旨在灵活快速地编辑3D场景,集成隐式编辑(如基于文本的编辑)和显式控制(如特定区域修改的边界框使用)。为了实现这些目标,作者选择高斯表征(GS)进行实时渲染和显式点云表示。本文提出的 GaussianEditor 提供快速、可控和通用的 3D 编辑功能。单个编辑会话通常只需要 5-10 分钟,比以往的编辑过程快得多。本文的贡献可以概括为四个方面:
用户1324186
2024/01/04
9810
GaussianEditor:快速可控的3D高斯编辑
CVPR 2024 | VastGaussian:用于大型场景重建的3D高斯
基于NeRF的方法在处理大型场景时,渲染时间长且渲染效果差。而现有基于3D高斯的方法由于训练内存大、优化时间长和外观变化剧烈,难以扩展到大型场景。
用户1324186
2024/04/12
1.6K0
CVPR 2024 | VastGaussian:用于大型场景重建的3D高斯
增强无界 3D 高斯扫描与视图一致的 2D 扩散优先级,3DGS-Enhancer在NVS增强中的先进效果 !
新视角合成(NVS)在计算机视觉和图形学领域有着数十年的历史,旨在从多个输入图像或视频中生成场景的视角。最近,三维高斯分裂(3DGS)[18]在生成具有高效渲染管线的照片级渲染方面表现出色。然而,在远离现有视角渲染高质量的新视角仍然具有很大的挑战性,这在稀疏视图设置中经常遇到,因为低采样区域的信息不足。如图1所示,当只有三个输入视图时,会出现明显的椭球形和空洞状的伪影。由于实际中存在这些低质量的渲染结果,因此有必要增强3DGS,以确保其在实际应用中的可行性。
AIGC 先锋科技
2024/11/21
3450
增强无界 3D 高斯扫描与视图一致的 2D 扩散优先级,3DGS-Enhancer在NVS增强中的先进效果 !
推荐阅读
相关推荐
清华大学最新成果 3D 语义占用预测框架 GaussianFormer !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档