Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Meta生成式AI连放大招:视频生成超越Gen-2,动图表情包随心定制

Meta生成式AI连放大招:视频生成超越Gen-2,动图表情包随心定制

作者头像
机器之心
发布于 2023-11-18 10:29:34
发布于 2023-11-18 10:29:34
3010
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:张倩、陈萍

生成式 AI 进入视频时代了。

提到视频生成,很多人首先想到的可能是 Gen-2、Pika Labs。但刚刚,Meta 宣布,他们的视频生成效果超过了这两家,而且编辑起来还更加灵活。

这个「吹小号、跳舞的兔子」是 Meta 发布的最新 demo。从中可以看出,Meta 的技术既支持灵活的图像编辑(例如把「兔子」变成「吹小号的兔子」,再变成「吹彩虹色小号的兔子」),也支持根据文本和图像生成高分辨率视频(例如让「吹小号的兔子」欢快地跳舞)。

其实,这其中涉及两项工作。

灵活的图像编辑由一个叫「Emu Edit」的模型来完成。它支持通过文字对图像进行自由编辑,包括本地和全局编辑、删除和添加背景、颜色和几何转换、检测和分割等等。此外,它还能精确遵循指令,确保输入图像中与指令无关的像素保持不变。

给鸵鸟穿裙子

高分辨率的视频则由一个名叫「Emu Video」的模型来生成。Emu Video 是一个基于扩散模型的文生视频模型,能够基于文本生成 512x512 的 4 秒高分辨率视频(更长的视频在论文中也有讨论)。一项严格的人工评估表明,与 Runway 的 Gen-2 以及 Pika Labs 的生成效果相比,Emu Video 在生成质量和文本忠实度方面的得分都更高。以下是它的生成效果:

在官方博客中,Meta 展望了这两项技术的应用前景,包括让社交媒体用户自己生成动图、表情包,按照自己的意愿编辑照片和图像等等。关于这点,Meta 在之前的 Meta Connect 大会上发布 Emu 模型时也提到过(参见:《Meta 版 ChatGPT 来了:Llama 2 加持,接入必应搜索,小扎现场演示》)。

接下来,我们将分别介绍这两个新模型。

EmuVideo

大型文生图模型在网络规模的图像 - 文本对上经过训练,可生成高质量的多样化图像。虽然这些模型可以通过使用视频 - 文本对进一步适用于文本 - 视频(T2V)生成,但视频生成在质量和多样性方面仍然落后于图像生成。与图像生成相比,视频生成更具挑战性,因为它需要建模更高维度的时空输出空间,而能依据的仍然只是文本提示。此外,视频 - 文本数据集通常比图像 - 文本数据集小一个数量级。

视频生成的主流模式是使用扩散模型一次生成所有视频帧。与此形成鲜明对比的是,在 NLP 中,长序列生成被表述为一个自回归问题:以先前预测的单词为条件预测下一个单词。因此,后续预测的条件信号(conditioning signal)会逐渐变强。研究者假设,加强条件信号对高质量视频生成也很重要,因为视频生成本身就是一个时间序列。然而,使用扩散模型进行自回归解码具有挑战性,因为借助此类模型生成单帧图像本身就需要多次迭代。

因此,Meta 的研究者提出了 EMU VIDEO,通过显式的中间图像生成步骤来增强基于扩散的文本到视频生成的条件。

论文地址:https://emu-video.metademolab.com/assets/emu_video.pdf

项目地址:https://emu-video.metademolab.com/

具体来说,他们将文生视频问题分解为两个子问题:(1) 根据输入的文本提示生成图像;(2) 根据图像和文本的强化条件生成视频。直观地说,给模型一个起始图像和文本会使视频生成变得更容易,因为模型只需预测图像在未来将如何演变即可。

Meta 的研究者将文生视频分为两步:首先生成以文本 p 为条件的图像 I,然后使用更强的条件 —— 生成的图像和文本 —— 来生成视频 v。为了以图像约束模型 F,他们暂时对图像进行补零,并将其与一个二进制掩码(指示哪些帧是被补零的)以及带噪声的输入连接起来。

由于视频 - 文本数据集比图像 - 文本数据集要小得多,研究者还使用权重冻结的预训练文本 - 图像 (T2I) 模型初始化了他们的文本 - 视频模型。他们确定了关键的设计决策 —— 改变扩散噪声调度和多阶段训练 —— 直接生成 512px 高分辨率的视频。

与直接用文本生成视频的方法不同,他们的分解方法在推理时会显式地生成一张图像,这使得他们能够轻松保留文生图模型的视觉多样性、风格和质量(如图 1 所示)。这使得 EMU VIDEO 即使在训练数据、计算量和可训练参数相同的情况下,也能超越直接 T2V 方法。

这项研究表明,通过多阶段的训练方法,文生视频的生成质量可以得到大幅提高。该方法支持直接生成 512px 的高分辨率视频,不需要先前方法中使用的一些深度级联模型。

研究者设计了一个稳健的人工评估方案 ——JUICE,要求评估者在两两比较中做出选择时证明他们的选择是正确的。如图 2 所示,EMU VIDEO 在质量和文本忠实度方面的平均胜率分别为 91.8% 和 86.6%,大大超越了包括 Pika、Gen-2 等商业解决方案在内的所有前期工作。除 T2V 外,EMU VIDEO 还可用于图像 - 视频生成,即模型根据用户提供的图像和文本提示生成视频。在这种情况下,EMU VIDEO 的生成结果有 96% 优于 VideoComposer。

从展示的 demo 中可以看到,EMU VIDEO 已经可以支持 4 秒的视频生成。在论文中,他们还探讨了增加视频时长的方法。作者表示,通过一个小的架构修改,他们可以在 T 帧上约束模型并扩展视频。因此,他们训练 EMU VIDEO 的一个变体,以「过去」16 帧为条件生成未来 16 帧。在扩展视频时,他们使用与原始视频不同的未来文本提示,效果如图 7 所示。他们发现,扩展视频既遵循原始视频,也遵循未来文本提示。

Emu Edit :精确的图像编辑

每天都有数百万人使用图像编辑。然而,流行的图像编辑工具要么需要相当多的专业知识,使用起来很耗时,要么非常有限,仅提供一组预定义的编辑操作,如特定的过滤器。现阶段,基于指令的图像编辑试图让用户使用自然语言指令来解决这些限制。例如,用户可以向模型提供图像并指示其「给鸸鹋穿上消防员服装」这样的指令(见图 1)。

然而,虽然像 InstructPix2Pix 这类基于指令的图像编辑模型可以用来处理各种给定的指令,但它们通常很难准确地解释和执行指令。此外,这些模型的泛化能力有限,通常无法完成与训练时略有不同的任务(见图 3),例如让小兔子吹彩虹色的小号,其他模型要么把兔子染成彩虹色,要么是直接生成彩虹色的小号。

为了解决这些问题,Meta 引入了 Emu Edit,这是首个在广泛且多样化的任务上训练而成的图像编辑模型,Emu Edit 可以根据指令进行自由形式的编辑,包括本地和全局编辑、删除和添加背景、颜色改变和几何变换、检测和分割等任务。

论文地址:https://emu-edit.metademolab.com/assets/emu_edit.pdf

项目地址:https://emu-edit.metademolab.com/

与当今许多生成式 AI 模型不同,Emu Edit 可以精确遵循指令,确保输入图像中与指令无关的像素保持不变。例如,用户给出指令「将草地上的小狗移除」,移除物体后的图片几乎看不出来有什么变化。

移除图片中左下角的文本,再给图片换个背景,Emu Edit 也能处理得很好:

为了训练这个模型,Meta 开发了一个包含 1000 万个合成样本的数据集,每个样本都包含一个输入图像、对要执行任务的描述以及目标输出图像。因而 Emu Edit 在指令忠实度和图像质量方面都显示出前所未有的编辑结果。

在方法层面,Meta 训练的模型可以执行十六个不同的图像编辑任务,这些任务涵盖基于区域的编辑任务、自由格式编辑任务和计算机视觉任务,所有这些任务都被表述为生成任务,Meta 还为每个任务开发了一个独特的数据管理 pipeline 。Meta 发现,随着训练任务数量的增加,Emu Edit 的性能也会随之提高。

其次,为了有效地处理各种各样的任务,Meta 引入了学习任务嵌入(learned task embedding)的概念,它用于引导生成过程朝着正确的生成任务方向发展。具体来说,对于每个任务,本文学习一个独特的任务嵌入向量,并通过交叉注意力交互将其集成到模型中,并将其添加到时间步嵌入中。结果证明,学习任务嵌入显着增强了模型从自由格式指令中准确推理并执行正确编辑的能力。

今年 4 月,Meta 上线「分割一切」AI 模型,效果惊艳到很多人开始怀疑 CV 领域到底还存不存在。短短几个月的时间,Meta 在图像、视频领域又推出 Emu Video 和 Emu Edit ,我们只能说,生成式 AI 领域真的太卷了。

了解更多内容,请查看原论文。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
视频生成领域的发展概述:从多级扩散到LLM
2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。
deephub
2024/02/21
8040
视频生成领域的发展概述:从多级扩散到LLM
AIGC下一站:期待、警惕充斥着AI剪辑师的世界
大数据文摘转载自学术头条 上月底,名为“chaindrop”的 Reddit 用户,在 r/StableDiffusion subreddit 上分享了一个由人工智能生成的视频,在业内引起了不小的争议。 视频中,一个由 AI 生成的丑陋畸形的 “威尔·史密斯”,以一种可怕的热情将一把意大利面条铲进嘴里。这一 “地狱般” 的视频迅速传播到其他形式的社交媒体,数字媒体和广播公司 Vice 表示该视频将 “伴随你的余生”,美国娱乐网刊 The A.V. Club 称其为 “AI 开发的自然终点”。仅在 Twit
大数据文摘
2023/04/21
4730
AIGC下一站:期待、警惕充斥着AI剪辑师的世界
媲美Gen-2,Meta多模态创AI生图新里程碑!破文生视频历史难题,静图秒变视频逼真到炸裂
Emu Video,是一种基于扩散模型的文本到视频生成方法,可以分解步骤生成高质量的视频。
新智元
2023/11/19
6390
媲美Gen-2,Meta多模态创AI生图新里程碑!破文生视频历史难题,静图秒变视频逼真到炸裂
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
prompt:Wide shot of battlefield, stormtroopers running...
机器之心
2024/04/12
2370
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
MuseV:不限视频时长的AI视频生成工具
在不久前 OpenAI Sora 以其优秀且惊人的视频生成效果迅速走红,更是在一众文生视频模型中脱颖而出,成为了文生视频领域的领头羊。
Python兴趣圈
2024/04/13
8970
MuseV:不限视频时长的AI视频生成工具
首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
最近,OpenAI 视频生成模型 Sora 的爆火,给基于 Transformer 的扩散模型重新带来了一波热度,比如 Sora 研发负责人之一 William Peebles 与纽约大学助理教授谢赛宁去年提出的 DiT(Diffusion Transformer)。
机器之心
2024/03/07
1170
首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,代码将开源
北大与快手AI有解了,他们提出新框架VideoTetris,就像拼俄罗斯方块一样,轻松组合各种细节~
量子位
2024/06/17
1540
北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,代码将开源
【AI视频】Runway: Gen-2 与 Gen-3 文本生视频详解
Gen-3 是 Runway 在2024年6月18日推出的全新生成视频模型。作为 Gen-2 的继任者,Gen-3 引入了更先进的技术,在效率和图像生成效果上都得到了显著提升。 新推出的功能 相比 Gen-2,Gen-3 主要增强了以下功能:
CSDN-Z
2024/10/17
2.3K0
【AI视频】Runway: Gen-2 与 Gen-3 文本生视频详解
谷歌10秒视频生成模型破世界记录!LLM终结扩散模型,效果碾压顶流Gen-2
回看过去几个月,RunWay的Gen-2、Pika Lab的Pika 1.0,国内大厂等大波视频生成模型纷纷涌现,不断迭代升级。
新智元
2023/12/20
3940
谷歌10秒视频生成模型破世界记录!LLM终结扩散模型,效果碾压顶流Gen-2
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
Apple MM1Team 再发新作,这次是苹果视频生成大模型,关于模型架构、训练和数据的全面报告,87 亿参数、支持多模态条件、VBench 超 PIKA,KLING,GEN-3。
机器之心
2025/02/14
1440
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?
---- 新智元报道   编辑:LRS 【新智元导读】文本到2维图像、2维视频、3维模型,现在终于发展到3维模型视频了! AI生成模型在过去这段时间里取了巨大的进展,就图像领域来说,用户可以通过输入自然语言提示来生成图像(如DALL-E 2,Stable Diffusion),也可以在时间维度上扩展生成连续的视频(如Phenaki),或者在空间维度上扩展直接生成3D模型(如Dreamfusion)。 但到目前为止,这些任务仍然处于孤立的研究状态,彼此之间不存在技术交集。 最近Meta AI的研究人员结
新智元
2023/02/24
4410
AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?
AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑
文生图模型Stable Diffusion开源后,将「AI艺术」彻底平民化,只需一张消费级显卡即可制作出非常精美的图片。
新智元
2023/08/07
1.9K0
AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑
超越Sora极限,120秒超长AI视频模型诞生!
从Pika和Runway的4秒,到VideoPoet的理论无限长,各个团队都在通过各种不同的技术路径不断延长视频生成长度的上限。
新智元
2024/03/27
2430
超越Sora极限,120秒超长AI视频模型诞生!
谷歌抢先手发布视频生成类AIGC,网友:可以定制电影了
机器之心报道 编辑:杜伟、陈萍 AIGC 已经火了很长时间了,出现了文本生成图像、文本生成视频、图像生成视频等广泛的应用场景,如今谷歌研究院的一项新研究可以让我们根据输入视频生成其他视频了! 我们知道,生成模型和多模态视觉语言模型的进展已经为具备前所未有生成真实性和多样性的大型文本到图像模型铺平了道路。这些模型提供了新的创作过程,但仅限于合成新图像而非编辑现有图像。为了弥合这一差距,基于文本的直观编辑方法可以对生成和真实图像进行基于文本的编辑,并保留这些图像的一些原始属性。与图像类似,近来文本到视频模型也提
机器之心
2023/03/29
7410
谷歌抢先手发布视频生成类AIGC,网友:可以定制电影了
AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述
AI 生成内容已经成为当前人工智能领域的最热门话题之一,也代表着该领域的前沿技术。近年来,随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布,AI 图像生成和编辑领域实现了令人惊艳的视觉效果,并且在学术界和工业界都受到了广泛关注和探讨。这些方法大多基于扩散模型,而这正是它们能够实现强大可控生成、照片级生成以及多样性的关键所在。
机器之心
2023/10/24
7590
AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述
视频生成新突破:PixelDance,轻松呈现复杂动作与炫酷特效
最近,除了大语言模型继续持续刷屏,视频生成技术也取得了重大进展,多家公司相继发布了新模型。
机器之心
2023/11/24
3470
视频生成新突破:PixelDance,轻松呈现复杂动作与炫酷特效
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。在Sora横空出世之前,Runway一直被视为AI生成视频的默认选择,尤其是自去年11月推出第二代模型以来,Runway还被称为“AI视频界的MidJourney”。第二代模型Gen-2不仅解决了第一代AI生成视频中每帧之间连贯性过低的问题,在从图像生成视频的过程中也能给出很好的结果。
汀丶人工智能
2024/02/19
2.3K0
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
AI视频生成哪家强?一键安装 VBench,测一测就知道!
AI视频生成这块儿,最近可真是火得不得了。这几个月以来,好几个视频生成模型相继亮相。各个高校实验室、互联网巨头AI Lab、创业公司纷纷加入了AI视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM等视频生成模型让人眼前一亮。
CV君
2024/01/23
5640
AI视频生成哪家强?一键安装 VBench,测一测就知道!
Gen-2颠覆AI生成视频!一句话秒出4K高清大片,网友:彻底改变游戏规则
就在深夜,Runway家标志性的AI视频生成工具Gen-2,迎来了“iPhone时刻”般的史诗级更新——
量子位
2023/11/03
5970
Gen-2颠覆AI生成视频!一句话秒出4K高清大片,网友:彻底改变游戏规则
[AI里程碑] Sora | 最强AI视频生成大模型
AI视频技术的发展历程可以追溯到2022年,当时初创公司Runway在这一领域取得了显著成就,其技术甚至被用于热门科幻电影《瞬息全宇宙》的视频编辑。此后,AI视频技术经历了快速的发展,Runway、Pika、Meta(Emu Video)等公司纷纷加入竞争。然而,早期的AI视频通常存在一些限制,如视频长度有限(通常只有几秒钟),场景逼真度不足,元素突然出现或消失,以及运动不连贯等问题,这些问题使得视频内容容易被识别为AI生成。
iResearch666
2024/03/13
5470
[AI里程碑] Sora | 最强AI视频生成大模型
推荐阅读
视频生成领域的发展概述:从多级扩散到LLM
8040
AIGC下一站:期待、警惕充斥着AI剪辑师的世界
4730
媲美Gen-2,Meta多模态创AI生图新里程碑!破文生视频历史难题,静图秒变视频逼真到炸裂
6390
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
2370
MuseV:不限视频时长的AI视频生成工具
8970
首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
1170
北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,代码将开源
1540
【AI视频】Runway: Gen-2 与 Gen-3 文本生视频详解
2.3K0
谷歌10秒视频生成模型破世界记录!LLM终结扩散模型,效果碾压顶流Gen-2
3940
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
1440
AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?
4410
AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑
1.9K0
超越Sora极限,120秒超长AI视频模型诞生!
2430
谷歌抢先手发布视频生成类AIGC,网友:可以定制电影了
7410
AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述
7590
视频生成新突破:PixelDance,轻松呈现复杂动作与炫酷特效
3470
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
2.3K0
AI视频生成哪家强?一键安装 VBench,测一测就知道!
5640
Gen-2颠覆AI生成视频!一句话秒出4K高清大片,网友:彻底改变游戏规则
5970
[AI里程碑] Sora | 最强AI视频生成大模型
5470
相关推荐
视频生成领域的发展概述:从多级扩散到LLM
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档