前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害

一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害

作者头像
机器之心
发布于 2023-03-29 05:10:19
发布于 2023-03-29 05:10:19
4910
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

机器之心编辑部

不再需要任何 3D 或 4D 数据,来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Video3D)。

仅输入一行文本,就能生成 3D 动态场景?

没错,已经有研究者做到了。可以看出来,目前的生成效果还处于初级阶段,只能生成一些简单的对象。不过这种「一步到位」的方法仍然引起了大量研究者的关注:

在最近的一篇论文中,来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Video3D)。

  • 论文链接:https://arxiv.org/abs/2301.11280
  • 项目链接:https://make-a-video3d.github.io/

具体而言,该方法运用 4D 动态神经辐射场(NeRF),通过查询基于文本到视频(T2V)扩散的模型,优化场景外观、密度和运动的一致性。任意机位或角度都可以观看到提供的文本生成的动态视频输出,并可以合成到任何 3D 环境中。

MAV3D 不需要任何 3D 或 4D 数据,T2V 模型只对文本图像对和未标记的视频进行训练。

让我们看一下 MAV3D 从文本生成 4D 动态场景的效果:

此外,它也能从图像直接到 4D,效果如下:

研究者通过全面的定量和定性实验证明了该方法的有效性,先前建立的内部 baseline 也得到了改进。据悉,这是第一个根据文本描述生成 3D 动态场景的方法。

方法

该研究的目标在于开发一项能从自然语言描述中生成动态 3D 场景表征的方法。这极具挑战性,因为既没有文本或 3D 对,也没有用于训练的动态 3D 场景数据。因此,研究者选择依靠预训练的文本到视频(T2V)的扩散模型作为场景先验,该模型已经学会了通过对大规模图像、文本和视频数据的训练来建模场景的真实外观和运动。

从更高层次来看,在给定一个文本 prompt p 的情况下,研究可以拟合一个 4D 表征

,它模拟了在时空任意点上与 prompt 匹配的场景外观。没有配对训练数据,研究无法直接监督

的输出;

然而,给定一系列的相机姿势

就可以从

渲染出图像序列

并将它们堆叠成一个视频 V。然后,将文本 prompt p 和视频 V 传递给冻结和预训练的 T2V 扩散模型,由该模型对视频的真实性和 prompt alignment 进行评分,并使用 SDS(得分蒸馏采样)来计算场景参数 θ 的更新方向。

上面的 pipeline 可以算作 DreamFusion 的扩展,为场景模型添加了一个时间维度,并使用 T2V 模型而不是文本到图像(T2I)模型进行监督。然而,要想实现高质量的文本到 4D 的生成还需要更多的创新:

  • 第一,需要使用新的、允许灵活场景运动建模的 4D 表征;
  • 第二,需要使用多级静态到动态优化方案来提高视频质量和提高模型收敛性,该方案利用几个 motion regularizer 来生成真实的运动;
  • 第三,需要使用超分辨率微调(SRFT)提高模型的分辨率。

具体说明见下图:

实验

在实验中,研究者评估了 MAV3D 从文本描述生成动态场景的能力。首先,研究者评估了该方法在 Text-To-4D 任务上的有效性。据悉,MAV3D 是首个该任务的解决方案,因此研究开发了三种替代方法作为基线。其次,研究者评估了 T2V 和 Text-To-3D 子任务模型的简化版本,并将其与文献中现有的基线进行比较。第三,全面的消融研究证明了方法设计的合理性。第四,实验描述了将动态 NeRF 转换为动态网格的过程,最终将模型扩展到 Image-to-4D 任务。

指标

研究使用 CLIP R-Precision 来评估生成的视频,它可以测量文本和生成场景之间的一致性。报告的指标是从呈现的帧中检索输入 prompt 的准确性。研究者使用 CLIP 的 ViT-B/32 变体,并在不同的视图和时间步长中提取帧,并且还通过询问人工评分人员在两个生成的视频中的偏好来使用四个定性指标,分别是:(i) 视频质量;(ii) 忠实于文本 prompt;(iii) 活动量;(四) 运动的现实性。研究者评估了在文本 prompt 分割中使用的所有基线和消融。

图 1 和图 2 为示例。要想了解更详细的可视化效果,请参见 make-a-video3d.github.io。

结果

表 1 显示了与基线的比较(R - 精度和人类偏好)。人工测评以在特定环境下与该模型相比,赞成基线多数票的百分比形式呈现。

表 2 展示了消融实验的结果:

实时渲染

使用传统图形引擎的虚拟现实和游戏等应用程序需要标准的格式,如纹理网格。HexPlane 模型可以轻易转换为如下的动画网格。首先,使用 marching cube 算法从每个时刻 t 生成的不透明度场中提取一个简单网格,然后进行网格抽取(为了提高效率)并且去除小噪声连接组件。XATLAS 算法用于将网格顶点映射到纹理图集,纹理初始化使用以每个顶点为中心的小球体中平均的 HexPlane 颜色。最后,为了更好地匹配一些由 HexPlane 使用可微网格渲染的示例帧,纹理会被进一步优化。这将产生一个纹理网格集合,可以在任何现成的 3D 引擎中回放。

图像到 4D

图 6 和图 10 展示了该方法能够从给定的输入图像产生深度和运动,从而生成 4D 资产。

更多研究细节,可参考原论文。

探寻隐私计算最新行业技术,「首届隐语开源社区开放日」报名启程

春暖花开之际,诚邀广大技术开发者&产业用户相聚活动现场,体验数智时代的隐私计算生态建设之旅,一站构建隐私计算产业体系知识:

  • 隐私计算领域焦点之性
  • 分布式计算系统的短板与升级策略
  • 隐私计算跨平台互联互通
  • 隐语开源框架金融行业实战经验

3月29日,北京·798机遇空间,隐语开源社区开放日,期待线下面基。

点击阅读原文,立即报名。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-03-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【笔记】《人月神话》——从"焦油坑"到"胸有成竹"
这是最近看《人月神话》时中途记录的一些笔记,目前计划是1-8章写一篇,9-17章写一篇,剩余章节和后记一篇。这本书篇幅不长,内容主要是项目管理的相关经验,还算是比较轻度,可以放松点看。
ZifengHuang
2020/07/29
1K0
【笔记】《人月神话》——从"焦油坑"到"胸有成竹"
为什么软件行业仍在重蹈 50 年前的覆辙?——《人月神话》读书笔记
“人月神话” 这个词,你知道是什么意思吗?我的第一反应是当面阿姆斯特朗在月球上留下的人类的一大步。然而实质上,这是一本软件工程的经典书籍,它最大的影响是让 “人月” 这个概念传遍整个软件工程行业。
amc
2024/09/02
5590
【人月神话】01 人月神话
这部写于1974年的软件工程管理经典著作,至今已有43年历史。但是可惜的是,这样的著作至今少之又少,今天我们重温这部经典。或许它已成为一个时代,但依然给当下人之深思。—imagineXie 一、焦油坑
前端修罗场
2023/10/07
2610
【人月神话】01 人月神话
IBM 大型机之父、人月神话作者 Fred P. Brooks 去世
据消息,美国计算机架构师、软件工程师和计算机科学家 Fred P. Brooks 于当地时间 2022 年 11 月 17 日去世,享年 91 岁 (1931 年 4 月 19 日 - 2022 年 11 月 17 日)。
深度学习与Python
2022/11/28
4420
IBM 大型机之父、人月神话作者 Fred P. Brooks 去世
《人月神话》要点总结
1.1 编程系统产品(Programming Systems Product)开发的工作量是供个人使用的、独立开发的构件程序的九倍。我估计软件构件产品化引起了 3 倍工作量,将软件构件整合成完整系统所需要的设计、集成和测试又强加了 3 倍的工作量,这些高成本的构件在根本上是相互独立的。
SeanCheney
2022/05/31
3.4K0
《人月神话》要点总结
《人月神话》:软件工程的成本寓言与生存法则
1975年,Fred Brooks在《人月神话》中写下那句振聋发聩的断言——“向进度落后的项目增加人力,只会让进度更加落后”——时,他或许未曾料到,这一观点会在半个世纪后的人工智能与云原生时代,依然如达摩克利斯之剑般悬在每一个技术团队的头顶。在软件吞噬世界的今天,开发成本早已不再是简单的预算数字,而是一场关于复杂性、人性和技术哲学的永恒博弈。
不惑
2025/03/10
1090
《人月神话》:软件工程的成本寓言与生存法则
透过《人月神话》,看清开发问题
在软件开发领域,布鲁克斯博士的《人月神话》是一本关于大型项目管理的经典之作。它不仅对每一个软件行业的项目经理(PM)来说是一本必读读物,对每个软件行业的参与者,都是一本不可错过的经典。
架构精进之路
2022/04/28
7170
透过《人月神话》,看清开发问题
盘点|开发者必读的十大经典书籍
编者按:人生如逆水行舟,不进则退。开发者想要保持自身的竞争力,做到所向披靡,知识储备必不可缺。这就意味着,简单的代码阅读远远不够。 快速迭代的信息社会,技术前进的速度远超人类历史上的任何时期,技术攫取呈现出碎片化的特征,开发者更倾向于通过网络搜素寻求问答。然而,这种浅尝辄止的阅读方式,会给人深沉的浮躁感,难以做到为自己切实所用。 新语言、新工具持续更替,让人目不暇接,学习过程中必定伴随着各种琐碎的问题。事实上,许多伟大的技术人在以前就遇到过同样的难题,并且提出了相应的策略和解决方法。虽然具体问题具体对待,
CSDN技术头条
2018/02/08
9080
盘点|开发者必读的十大经典书籍
人月神话不是神
用人月来衡量一项工作的规模是一个危险和带有欺骗性的神话,因为它暗示了人员数量和时间是可以相互替换的。(注:人月是用来衡量工作量的,规模是通过功能点或代码行等方式来衡量的,规模除以个体生产率后可以得到人月数据)。
PM吃瓜
2020/07/20
7980
9本醍醐灌顶的计算机好书
本文集合了鹅厂程序员们强烈推荐的9本经典计算机图书,“工作以后重新读来让我有种醍醐灌顶之感”,这是他们对这些书籍的评价。
腾讯云开发者
2024/08/09
5690
9本醍醐灌顶的计算机好书
中文书籍中对《人月神话》的引用(一)
有同学说2014-2020年出版的引用《人月神话》的书(2020年1月30日更新)里都是英文,难以阅读。特整理中文书籍引用--其实还是老外写的。
用户6288414
2020/04/12
9340
【必读】每位程序员职业生涯必读书单
很多小伙伴都在问,要成为一个更好的开发人员,我应该读哪些书?我真的需要读书吗? 这是一个很值得探讨的问题,而且很多人推荐的是不同主题的不同书籍。 他们推荐的书在他们看来是伟大的、必要的,但没有人能说,
老九君
2018/03/27
8480
【必读】每位程序员职业生涯必读书单
个人 产品 团队(下):个人与团队
上篇主要讲个人发展,本篇谈谈我对敏捷开发的认识。现在很多新员工一上来就是敏捷开发的方式,形式上是有了,可能理解上还有不到位的地方,希望能对这些人有所收获。最后结合两个段子,解释一下我是如何适应环境的。 1为什么采用敏捷开发 首先给出一个不言自证的结论:世间的物质都在进化成越来越复杂的东西。项目,团队也是如此。想想你的团队或产品,是否越来越大,越来越复杂。 同时,软件行业有一个很有意思的现象,大项目通常表现平平,小项目小团队往往更容易成功。到底是什么原因导致大项目难以成功呢?《人月神话》中巴比伦塔的例子说明,
Peter Lu
2018/06/20
5930
AI是银弹吗?AI时代开发软件要看懂这本书
五十年前,软件工程大神 FrederickP.Brooks 在《人月神话》一书中提出一个观点:没有一种能够解决软件工程中所有问题的技术或方法。即没有“银弹”能杀死软件本身的复杂性这头可怕的“人狼”。
程序猿DD
2025/02/10
910
AI是银弹吗?AI时代开发软件要看懂这本书
围绕开源的系列思考——国家篇
我非常喜欢看各种网络小说,其中最大的一类,自然是穿越小说。其中又可以细分为很多类型。按照穿越回到的时代,从远古到近现代的都有,这其中有一个很小的分类,是回到大约20世纪70年代末、80年代初的。那些主人公,大概率都是要搭上改革开放的顺风车,赚取巨额红利的了。比如抢先去上海,购买股票认购证之类。
开源社
2020/01/16
5020
围绕开源的系列思考——国家篇
最受程序员欢迎的 20 本书!
大家好,我是逆锋起笔小编,今天推荐的书籍都是行业经典,这就不太适合初级水平阅读,部分提供了电子版本,关注公众号后联系小编获取。
逆锋起笔
2021/07/19
1.2K1
2020年出版的新书中提到的《人月神话》(2)
《人月神话》于1975年出版,1995年出二十周年版。自出版以来,该书被大量的书籍和文章引用,直到现在热潮不退。
用户6288414
2021/01/14
7400
2020年出版的新书中提到的《人月神话》(2)
享年91岁!图灵奖得主、软件工程圣经《人月神话》作者Fred Brooks逝世
1999年图灵奖得主,美国国家科学院院士、对计算机体系结构、操作系统和软件工程做出里程碑式贡献的计算机科学家Frederick Phillips Brooks, Jr.逝世,享年91岁。
新智元
2023/01/07
4060
享年91岁!图灵奖得主、软件工程圣经《人月神话》作者Fred Brooks逝世
10年后编程还有意义吗?
这个是Quora上提出的一个问题。随着AI在近年来成为热门话题,并且在AlphaGo自学围棋击败了人类近10年最好的围棋选手之后,有人开始提出这个问题。具体来说这个问题有三层意思: 到2025年程序员还有没有用,到那个时候所谓的“程序员”是指什么? 代码本身还有没有用,到那时候代码会变成什么样子? 机器智能会不会取代(目前意义的)代码或程序员两者的其中一个或者全部? 大家基本上倾向于认为,到2025年时编程仍然有意义,但有人说2025年以后情况可能就不是这样了。 而那些认为编码将死、程序员将失业的人的理
用户1667431
2018/04/18
6420
10年后编程还有意义吗?
【笔记】《人月神话》——从"削足适履"到"另外一面"
这是最近看《人月神话》时中途记录的一些笔记,稍稍改变下计划,这个是9-15章节的笔记,这样后面的银弹和记录能记录得比较连贯些。
ZifengHuang
2020/07/29
5680
【笔记】《人月神话》——从"削足适履"到"另外一面"
推荐阅读
相关推荐
【笔记】《人月神话》——从"焦油坑"到"胸有成竹"
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档