Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害

一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害

作者头像
机器之心
发布于 2023-03-29 05:10:19
发布于 2023-03-29 05:10:19
4910
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

机器之心编辑部

不再需要任何 3D 或 4D 数据,来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Video3D)。

仅输入一行文本,就能生成 3D 动态场景?

没错,已经有研究者做到了。可以看出来,目前的生成效果还处于初级阶段,只能生成一些简单的对象。不过这种「一步到位」的方法仍然引起了大量研究者的关注:

在最近的一篇论文中,来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Video3D)。

  • 论文链接:https://arxiv.org/abs/2301.11280
  • 项目链接:https://make-a-video3d.github.io/

具体而言,该方法运用 4D 动态神经辐射场(NeRF),通过查询基于文本到视频(T2V)扩散的模型,优化场景外观、密度和运动的一致性。任意机位或角度都可以观看到提供的文本生成的动态视频输出,并可以合成到任何 3D 环境中。

MAV3D 不需要任何 3D 或 4D 数据,T2V 模型只对文本图像对和未标记的视频进行训练。

让我们看一下 MAV3D 从文本生成 4D 动态场景的效果:

此外,它也能从图像直接到 4D,效果如下:

研究者通过全面的定量和定性实验证明了该方法的有效性,先前建立的内部 baseline 也得到了改进。据悉,这是第一个根据文本描述生成 3D 动态场景的方法。

方法

该研究的目标在于开发一项能从自然语言描述中生成动态 3D 场景表征的方法。这极具挑战性,因为既没有文本或 3D 对,也没有用于训练的动态 3D 场景数据。因此,研究者选择依靠预训练的文本到视频(T2V)的扩散模型作为场景先验,该模型已经学会了通过对大规模图像、文本和视频数据的训练来建模场景的真实外观和运动。

从更高层次来看,在给定一个文本 prompt p 的情况下,研究可以拟合一个 4D 表征

,它模拟了在时空任意点上与 prompt 匹配的场景外观。没有配对训练数据,研究无法直接监督

的输出;

然而,给定一系列的相机姿势

就可以从

渲染出图像序列

并将它们堆叠成一个视频 V。然后,将文本 prompt p 和视频 V 传递给冻结和预训练的 T2V 扩散模型,由该模型对视频的真实性和 prompt alignment 进行评分,并使用 SDS(得分蒸馏采样)来计算场景参数 θ 的更新方向。

上面的 pipeline 可以算作 DreamFusion 的扩展,为场景模型添加了一个时间维度,并使用 T2V 模型而不是文本到图像(T2I)模型进行监督。然而,要想实现高质量的文本到 4D 的生成还需要更多的创新:

  • 第一,需要使用新的、允许灵活场景运动建模的 4D 表征;
  • 第二,需要使用多级静态到动态优化方案来提高视频质量和提高模型收敛性,该方案利用几个 motion regularizer 来生成真实的运动;
  • 第三,需要使用超分辨率微调(SRFT)提高模型的分辨率。

具体说明见下图:

实验

在实验中,研究者评估了 MAV3D 从文本描述生成动态场景的能力。首先,研究者评估了该方法在 Text-To-4D 任务上的有效性。据悉,MAV3D 是首个该任务的解决方案,因此研究开发了三种替代方法作为基线。其次,研究者评估了 T2V 和 Text-To-3D 子任务模型的简化版本,并将其与文献中现有的基线进行比较。第三,全面的消融研究证明了方法设计的合理性。第四,实验描述了将动态 NeRF 转换为动态网格的过程,最终将模型扩展到 Image-to-4D 任务。

指标

研究使用 CLIP R-Precision 来评估生成的视频,它可以测量文本和生成场景之间的一致性。报告的指标是从呈现的帧中检索输入 prompt 的准确性。研究者使用 CLIP 的 ViT-B/32 变体,并在不同的视图和时间步长中提取帧,并且还通过询问人工评分人员在两个生成的视频中的偏好来使用四个定性指标,分别是:(i) 视频质量;(ii) 忠实于文本 prompt;(iii) 活动量;(四) 运动的现实性。研究者评估了在文本 prompt 分割中使用的所有基线和消融。

图 1 和图 2 为示例。要想了解更详细的可视化效果,请参见 make-a-video3d.github.io。

结果

表 1 显示了与基线的比较(R - 精度和人类偏好)。人工测评以在特定环境下与该模型相比,赞成基线多数票的百分比形式呈现。

表 2 展示了消融实验的结果:

实时渲染

使用传统图形引擎的虚拟现实和游戏等应用程序需要标准的格式,如纹理网格。HexPlane 模型可以轻易转换为如下的动画网格。首先,使用 marching cube 算法从每个时刻 t 生成的不透明度场中提取一个简单网格,然后进行网格抽取(为了提高效率)并且去除小噪声连接组件。XATLAS 算法用于将网格顶点映射到纹理图集,纹理初始化使用以每个顶点为中心的小球体中平均的 HexPlane 颜色。最后,为了更好地匹配一些由 HexPlane 使用可微网格渲染的示例帧,纹理会被进一步优化。这将产生一个纹理网格集合,可以在任何现成的 3D 引擎中回放。

图像到 4D

图 6 和图 10 展示了该方法能够从给定的输入图像产生深度和运动,从而生成 4D 资产。

更多研究细节,可参考原论文。

探寻隐私计算最新行业技术,「首届隐语开源社区开放日」报名启程

春暖花开之际,诚邀广大技术开发者&产业用户相聚活动现场,体验数智时代的隐私计算生态建设之旅,一站构建隐私计算产业体系知识:

  • 隐私计算领域焦点之性
  • 分布式计算系统的短板与升级策略
  • 隐私计算跨平台互联互通
  • 隐语开源框架金融行业实战经验

3月29日,北京·798机遇空间,隐语开源社区开放日,期待线下面基。

点击阅读原文,立即报名。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-03-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
视频生成领域的发展概述:从多级扩散到LLM
2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。
deephub
2024/02/21
7850
视频生成领域的发展概述:从多级扩散到LLM
ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界
过去一年,3D 生成技术迎来爆发式增长。在大场景生成领域,涌现出一批 “静态大场景生成” 工作,如 SemCity [1]、PDD [2]、XCube [3] 等。这些研究推动了 AI 利用扩散模型的强大学习能力来解构和创造物理世界的趋势。
机器之心
2025/02/19
1300
ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界
每周AI论文速递(241104-241108)
当前构建 GUI 智能体的工作主要依赖于如 GPT-4o 和 GeminiProVision 等稳健的商业视觉语言模型 (VLM)。由于开源 VLM 在 GUI 接地和分布外 (OOD) 场景中与闭源 VLM 相比存在显著性能差距,实践者通常不愿使用开源 VLM。为推动该领域研究,我们开发了 OS-Atlas——一个在 GUI 接地和 OOD 智能体任务中表现卓越的基础 GUI 动作模型,这归功于数据和建模方面的创新。我们投入大量工程资源,开发了一个开源工具包,用于跨 Windows、Linux、MacOS、Android 和 Web 等多个平台合成 GUI 接地数据。利用此工具包,我们发布了迄今最大的开源跨平台 GUI 接地语料库,包含超过 1300 万个 GUI 元素。该数据集与模型训练创新相结合,为 OS-Atlas 理解 GUI 截图并泛化至未见界面提供了坚实基础。在涵盖移动设备、桌面设备和 Web 三个平台的六个基准上进行广泛评估后,OS-Atlas 显示出相较于之前最先进模型的显著性能提升。我们的评估还揭示了持续改进和扩展开源 VLM 智能体能力的宝贵见解。
叶子的技术碎碎念
2025/04/08
480
每周AI论文速递(241104-241108)
AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?
---- 新智元报道   编辑:LRS 【新智元导读】文本到2维图像、2维视频、3维模型,现在终于发展到3维模型视频了! AI生成模型在过去这段时间里取了巨大的进展,就图像领域来说,用户可以通过输入自然语言提示来生成图像(如DALL-E 2,Stable Diffusion),也可以在时间维度上扩展生成连续的视频(如Phenaki),或者在空间维度上扩展直接生成3D模型(如Dreamfusion)。 但到目前为止,这些任务仍然处于孤立的研究状态,彼此之间不存在技术交集。 最近Meta AI的研究人员结
新智元
2023/02/24
4390
AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
Apple MM1Team 再发新作,这次是苹果视频生成大模型,关于模型架构、训练和数据的全面报告,87 亿参数、支持多模态条件、VBench 超 PIKA,KLING,GEN-3。
机器之心
2025/02/14
1360
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
PaintScene4D 引领文本到 4D 场景生成框架 ,以简洁架构,绘就逼真动态四维场景 !
从文本描述生成动态3D场景,这被称为文本到4D场景生成,是计算机视觉和图形学领域最具挑战性的前沿之一。尽管近年来的研究已经极大地增强了作者从文本生成静态3D内容以及2D图像和视频的能力,但合成时间连贯且动画化的3D场景仍然是一个基本的挑战。这一任务不仅需要生成空间一致的3D几何形状和外观,还需要产生符合真实世界物理定律和语义约束的逼真运动——所有这些都需要在多个视角下保持时间一致性。
AIGC 先锋科技
2025/02/07
1540
PaintScene4D 引领文本到 4D 场景生成框架 ,以简洁架构,绘就逼真动态四维场景 !
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
prompt:Wide shot of battlefield, stormtroopers running...
机器之心
2024/04/12
2330
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025
构建支持开放词汇查询的语言场在机器人导航、3D场景编辑和交互式虚拟环境等众多应用领域展现出巨大的潜力。
新智元
2025/04/04
880
动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025
让PyTorch创始人直呼「Amazing」的视频「脑补」,动态场景NeRF合成速度提升百倍
选自arXiv 作者:Ang Cao等 机器之心编译 编辑:袁铭怿 来自的密歇根大学的研究者提出了「HexPlane」,一种能高效合成动态场景新视图的方法。该研究引起了 PyTorch 创始人 Soumith Chintala 的关注。 从一组 2D 图像中重建和重新渲染 3D 场景,一直是计算机视觉领域的核心问题,它使许多 AR/VR 应用成为可能。过去几年,重建静态场景方面取得了巨大的进展,但也存在局限性:现实世界是动态的,在复杂场景中,运动应是常态的,而非例外情况。 目前许多表征动态 3D 场景的
机器之心
2023/02/23
3840
让PyTorch创始人直呼「Amazing」的视频「脑补」,动态场景NeRF合成速度提升百倍
3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot
---- 点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 新智元 授权 【导读】给一个文本提示就能生成3D模型! 自从文本引导的图像生成模型火了以后,画家群体迅速扩张,不会用画笔的人也能发挥想象力进行艺术创作。 但目前的模型,如DALL-E 2, Imagen等仍然停留在二维创作(即图片),无法生成360度无死角的3D模型。 想要直接训练一个text-to-3D的模型非常困难,因为DALL-E 2等模型的训练需要吞噬数十亿个图像-文本对,但三维合成并不存在如此大规模的标注数据,也没有一个高效的模型
OpenCV学堂
2022/10/10
8030
3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot
AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定
机器之心报道 编辑:陈萍、小舟 AI会是未来的「造物者」吗? 近来,视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了。 相比于 GauGAN,「女娲」的生成模式更加多样,不仅有文本涂鸦生成图像,还能从文本生成视频。 随着 VQ-VAE 这种离散化 VAE 方案的出现,高效和大规模的预训练被逐渐应用于视觉合成任务,例如 DALL-E(图像)、GODIVA(视频)。这些模型虽然取得了巨大的成功,但仍然存在一些局限性——它们分别处理图
机器之心
2023/03/29
4250
AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定
每日学术速递3.27
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2025/03/28
420
每日学术速递3.27
GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理
扩散模型的出现推动了文本生成视频技术的发展,但这类方法的计算成本通常不菲,并且往往难以制作连贯的物体运动视频。
机器之心
2023/11/27
3580
GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理
每日学术速递2.10
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2025/02/12
980
每日学术速递2.10
首个4D视频生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集已开源!
本文介绍由多伦多大学,北京交通大学,德克萨斯大学奥斯汀分校和剑桥大学团队最新提出的4D生成扩散模型,该方法可以在几分钟之内可以完成时空一致的4D内容生成。
CV君
2024/06/27
2850
首个4D视频生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集已开源!
DynamiCrafter: 利用扩散先验的开放域图片动画化
VideoCrafter的网络架构如图所示,它包括T2V和I2V两个子任务,相应的需要注入Text prompt和image prompt。Motion speed用fps控制,fps和timestep有同样的结构。
用户1324186
2024/05/11
6350
DynamiCrafter: 利用扩散先验的开放域图片动画化
生成模型的2022年——人工智能AIGC顶级论文回顾
2022年是生成模型奇幻发展的一年,Stable Diffusion🎨创造了超现实主义的艺术, ChatGPT 💬回答了生命意义的问题,Make a Video🎥从文本生成了栩栩如生的马儿,DreamFusion✨生成了不可思议的三维模型,多个AI领域得以迅速发展,绘画、音乐、新闻创作、主播等诸多行业正在被重新定义。
中杯可乐多加冰
2024/05/04
4050
一拖一拽,玫瑰复活了!谷歌提出生成图像动力学,从此万物皆有灵
https://generative-dynamics.github.io/static/pdfs/GenerativeImageDynamics.pdf
新智元
2023/09/19
4020
一拖一拽,玫瑰复活了!谷歌提出生成图像动力学,从此万物皆有灵
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
昨日,Stability AI 继推出文生图 Stable Diffusion、文生视频 Stable Video Diffusion 之后,又为社区带来了 3D 视频生成大模型「Stable Video 3D」(简称 SV3D)。
机器之心
2024/03/26
6590
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image
3D资产生成正受到大量关注,受到最近文本引导的2D内容创建成功的启发,现有的文本到3D方法使用预训练文本到图像扩散模型来解决优化问题,或在合成数据上进行微调,这往往会导致没有背景的非真实感3D物体。
公众号机器学习与AI生成创作
2024/04/18
2.8K0
CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image
推荐阅读
视频生成领域的发展概述:从多级扩散到LLM
7850
ICLR 2025 Spotlight | 让城市「动」起来!DynamicCity突破4D大场景生成技术边界
1300
每周AI论文速递(241104-241108)
480
AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?
4390
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
1360
PaintScene4D 引领文本到 4D 场景生成框架 ,以简洁架构,绘就逼真动态四维场景 !
1540
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
2330
动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025
880
让PyTorch创始人直呼「Amazing」的视频「脑补」,动态场景NeRF合成速度提升百倍
3840
3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot
8030
AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定
4250
每日学术速递3.27
420
GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理
3580
每日学术速递2.10
980
首个4D视频生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集已开源!
2850
DynamiCrafter: 利用扩散先验的开放域图片动画化
6350
生成模型的2022年——人工智能AIGC顶级论文回顾
4050
一拖一拽,玫瑰复活了!谷歌提出生成图像动力学,从此万物皆有灵
4020
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
6590
CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image
2.8K0
相关推荐
视频生成领域的发展概述:从多级扩散到LLM
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档