Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >媲美Gen-2,Meta多模态创AI生图新里程碑!破文生视频历史难题,静图秒变视频逼真到炸裂

媲美Gen-2,Meta多模态创AI生图新里程碑!破文生视频历史难题,静图秒变视频逼真到炸裂

作者头像
新智元
发布于 2023-11-19 08:17:29
发布于 2023-11-19 08:17:29
6250
举报
文章被收录于专栏:新智元新智元


新智元报道

编辑:编辑部

【新智元导读】文生视频,直接被革命了!Meta连发两个重磅研究,多模态模型Emu的变体 Emu Video和Emu Edit联动解锁生成式AI未来。

就在刚刚,Meta一连解锁两个重磅研究,生成式AI,再次到达全新的里程碑!

Emu Video,是一种基于扩散模型的文本到视频生成方法,可以分解步骤生成高质量的视频。

论文地址:https://emu-video.metademolab.com/assets/emu_video.pdf

经过Emu Video处理过的视频,具有高度的风格化,当图像动起来、添加运动之后,一切变得如此栩栩如生。

兔子手中忽然就变出一只小号,然后开始开心地跳舞,然后小号变成了彩虹色,兔子开始随着音乐惬意地慢摇。

下一秒,兔子就戴上了VR眼镜,在夏威夷的海岛上散步,然后开始跳起草裙舞,又变身DJ、粉色金发娃娃……

Emu Edit,可以仅仅基于文本指令就对图像进行编辑,通过识别和生成任务,编辑得格外精确。

论文地址:https://emu-edit.metademolab.com/assets/emu_edit.pdf

Emu Edit对于指令遵循得如此精准,以至于能确保输入图像中与指令无关的像素保持不变。

比如,让一杯橙汁出现在游泳池边,它立马完美地瞬移了。

我们还可以让这杯橙汁变成一个金色的高脚杯,背景还可以瞬穿到文艺复兴时期。

网友惊呼,这简直是AI生图的下一个里程碑!

Emu Video:高质量视频生成「分解法」

目前,视频生成中最主流的方式,就是使用扩散模型一次性生成所有的帧。

而与之形成鲜明对比的是,在NLP中,长序列生成被表述为一个自回归问题——根据先前预测的单词来预测下一个单词。这样,每个后续预测的调节信号就逐渐变强。

由于视频本质上是时间序列,因此可以假设加强调节信号对于高质量的视频生成也很重要。

An Emu on a ski trip, 4k, high resolution

但这其中就有一个问题:使用扩散模型的自回归解码很有挑战性,因为从此类模型生成单个帧,本身就需要多次迭代。

Meta研究者想到的办法是,将文本到视频的生成分解为两个子问题——

1. 根据输入文本提示生成图像; 2. 基于图像和文本的更强条件生成视频。

为模型提供起始图像和文本的方法,就让视频生成变得更容易了,因为模型需要做的,只是预测图像未来将如何演变。

这种「分解」的视频生成方法,可以有效地训练模型,并且可以通过单个扩散模型来实现。

基于Emu模型,Meta团队提出了一种基于扩散模型的T2V生成的简单方法——Emu Video。

这是一种用于视频生成任务的统一架构,可对各种输入做出响应:文本、图像,以及文本和图像。

由于视频文本数据集比图像文本数据集小得多,因此研究者还使用了权重保持冻结的预训练文本到图像(T2I)模型来初始化分解文本到视频模型。

其中最关键的设计决策,就是调整视频扩散的噪声时间表,以及让我们直接生成更高分辨率视频的多阶段训练。

分解文本到视频的生成,首先要生成以文本p为条件的图像I,然后使用更强的条件(生成的图像和文本)来生成视频V。为了在图像上条件化模型F,研究者对图像进行了临时的零填充,并将其与二进制掩码连接起来,指示哪些帧是零填充,哪些是噪声输入

与直接的T2V方法不同,在推理时,Meta的分解法能够显式生成图像,这就能够轻松地保留文本到图像模型的视觉多样性、风格和质量。

Emu Video可以生成高质量且时间一致的视频,同时使用文本提示作为输入 (顶部两行)或用户提供的附加图像(底部行)

这使得Emu Video的性能优于直接的T2V方法,即使在考虑相同数量的训练数据、计算和可训练参数时,也是如此。

大多数先前的工作,都是通过利用T2I模型来解决T2V生成问题。比如,有几项工作是采用免训练方法,通过在T2I模型中注入运动信息,来生成零样本的T2V。

虽然这些方法不需要或需要有限的训练,但生成的视频的质量和多样性,都是有限的。

与之前需要深度串联多个模型的工作不同(比如用于Make-A-Video的5个模型),新方法仅使用2个扩散模型,能够以每秒16帧的速度,生成512x512的4秒长视频。

实验

研究者在3400万个许可视频文本对的数据集上,训练了Emu Video。

视频时长从5秒到60秒不等,涵盖了各种自然世界概念。

这些视频不是针对任何特定任务而策划的,也没有针对任何文本框架相似性或美观性进行过滤。

研究者使用了之前工作中的文本提示集来生成视频。

这些提示涵盖了各种各样的类别,可以测试模型生成自然和梦幻视频以及组成不同视觉概念的能力。

然后,研究者会使用JUICE评估方案进行可靠的人工评估,并使用5名评估者的多数票,每次都进行比较。

该表反映了Emu Video中的关键设计决策。每个表都显示了采用设计决策与不采用设计决策的模型在质量(Q) 和忠实度(F)方面的偏好

Emu Video中的设计选择如下。

第一行是直接从文本到视频生成的视频,结果的视觉质量低,且不一致。

第二行是使用分解的文本到视频方法,这种方法生成的视频质量高,一致性也得到了提高。

第三行是在512px生成时,不使用零终端SNR噪声计划,这会导致各代图像之间出现明显的不一致。

第四行是使用HQ数据微调第二行的模型,来增加生成视频中的运动。

另外,通过小的架构修改,研究者还在T帧上调节了模型,并且进行了扩展。

他们训练了Emu Video的变体,生成了以「过去」的16帧为条件的未来16帧。

对于两个不同的未来提示,模型会生成合理的扩展模型,既尊重原始视频,也尊重未来文本。

效果拔群

在人工评估中,与以前的工作相比,Emu Video的视频生成更受欢迎——有趣的是,不同的受访者偏重不同,其中96%的人更看重视频质量,85%的人更看重视频对文本提示的忠实度。

与Imagen Video和Align Your Latents相比,Emu Video在风格和一致性方面,质量都更高

由于不再需要像之前的工作那样深度串联多个模型,Emu Video产出的视频质量和分辨率都极高,在人工评估中已经接近许多成功的生成式AI视频工具。

比起谷歌的Imagen,比分是81:100;比起英伟达的PYOCO,比分是91:100;比起的Meta的Make-A-Video,比分是96:100。

比起Runway的Gen-2和Pika Labs,Emu Video的表现仍然很强劲。

在质量方面,Emu 胜过了VideoMake-A-Video或Imagen Video。原因主要是人们更喜欢它的像素清晰度和运动平滑度

最后,同一模型可以根据文本提示,对用户提供的图像进行「动画化」,再次刷新SOTA。

一些演示

two sloths are playing chess in slow motion, 4k, high resolution

A supernova explosion in space

A clear wine glass with turquoise-colored waves inside it

A robot dj is playing the turntable, in heavy raining futuristic tokyo rooftop cyberpunk night, sci-fi, fantasy, intricate, elegant, neon light, highly detailed, concept art, soft light, smooth, sharp focus, illustration

A phoenix flying over an active volcano in Iceland, photorealistic

一个场景转换多种动作、多种场景

柯基转换成浣熊、熊猫的多种形象

不同风格的熊猫

Emu Edit:高精度图像编辑

基于指令进行图像编辑的模型,已经屡见不鲜。

然而,当前像InstructPix2Pix在内等模型能够处理任何给定的指令,但仍无法准确地去解释和执行这些指令。

可见,它们的泛化能力是有限的,有时无法完成与训练时有偏差的任务。

对此,Meta研究人员提出了Emu Edit——首个在广泛、多样的任务集上经过训练的图像编辑模型,包括图像编辑和计算机视觉任务。

Emu Edit强大之处在于,它能够通过指令进行自由格式编辑。

比如,擦除绿草坪中的小狗,再添加一个放置在红色长椅上的笔记本,然后还可以将草坪背景变成沙漠。

Emu Edit还可以将抱枕的情绪从微笑,替换成困惑,甚至还可以「检测面部」。

香蕉拿着的吉他,立马变成了冲浪板,然后就来到幻想世界,戴上了蓝手套。

小老鼠戴上了小丑帽,然后变成了一只面无表情的熊猫,接着又变成一只兴奋大笑的熊猫。

总而言之,Emu Edit能够做到对图像局部和全局的编辑、删除和添加背景、颜色和几何变换、检测和分割等任务。

实现了一键可以处理各种图像任务,并且还能高精度生成。

当前的研究方法,通常倾向于过度修改,或在各种编辑任务上表现不佳。Meta认为,图像编辑的主要目标不应该只是制作一个「可信」的形象。

相反,模型应专注于仅精确更改与编辑请求相关的像素。

与当今许多生成式AI模型不同,Emu Edit精确地遵循指令,确保输入图像中与指令无关的像素保持不变。

Emu Edit是多任务模型,它结合了各种编辑和视觉任务来进行精确的图像编辑

例如,在棒球帽上添加文字「Aloha!」时,棒球帽本身应保持不变。

研究人员认为,将CV任务作为图像生成模型的指令,可为图像生成和编辑提供前所未有的控制。

为了训练模型,Meta团队开发了一个包含1000万个合成样本的数据集,每个样本都包括输入图像、文本指令、目标图像、任务索引。

如下,是所有数据样本的分布,由任务组成主要分为三大类:基于区域的编辑、自由格式的编辑、视觉任务,细分为16个任务。

由于Emu Edit是针对各种任务进行训练的,其中最重要一点是,能够根据用户指令识别需要应用的语义编辑,如全局/局部/纹理。

但是,如果指令非常特殊(图4中的「修复缓冲器」),或者编辑类型含糊不清(图4中「将天空改为灰色」既可解释为全局编辑,也可解释为纹理编辑),模型在确定预期的编辑类型时可能会遇到困难。

为了给模型提供一个强有力的条件,来引导生成过程走向正确的任务,Meta提出为每个任务学习一个独特的嵌入任务,并将其集成到模型中。

在训练过程中,任务嵌入与模型权重一起学习。

后期训练,Emu Edit能够通过少样本学习新的任务嵌入来适应新的任务,使模型的其余部分处于冻结状态。

最后,研究人员还发现,在多轮编辑场景中,重复应用模型,聚合重建和数值误差,从而产生明显的人工痕迹。

为了缓解这一问题,研究人员在每一轮编辑后,增加了一个按像素阈值处理的步骤,进而保持生成图像的质量。

实验

1. Emu Edit基准

研究人员比较了MagicBrush测试集和Emu Edit基准测试的结果。

与在Emu Edit测试集和MagicBrush测试集上评估的图像编辑基线的比较

为了收集具有较低偏差和较高多样性的数据集,研究人员采用了不同的方法。

他们首先定义了7种不同类型的潜在图像编辑操作:背景修改(背景)、全局图像修改(全局)、样式修改(样式)、对象移除(移除)、对象添加(添加)、局部修改(局部)和颜色/纹理修改(纹理)。

然后,利用来自MagicBrush基准的各种输入图像集,对于每个编辑操作,让工作者设计相关的、创造性的和具有挑战性的说明。此外,为了提高所收集样本的质量,Meta还采用了验证后阶段。

2. 基线比较

研究人员将Emu Edit模型与两个基于指令的图像编辑基线模型进行比较:InstructPix2Pix和Mag-icBrush。

结果表明,与所有基线相比,人类评估者一致地喜欢Emu Edit。

此外,除了空文本反转(Null-Text Inversion)在推理过程中使用了ground-truth字幕外,Emu Edit方法明显优于现有基线,

3. 消融研究

- 计算机视觉任务增强图像编辑任务

这部分,Meta团队演示了视觉任务对图像编辑任务中Emu Edit性能的重要性。

为此,研究人员训练了两个额外的模型的所有任务,除了「检测和分割」任务,和「图像到图像翻译」任务。

如下表4,增加的「检测和分割任务」提高了基于局部编辑任务中的模型性能。

此外,他们还观察到图像到图像的翻译任务,提高了自由形式编辑任务的性能。

- 学习任务嵌入的贡献

研究人员比较了Emu Edit的三种变体:(i) 以ground-truth任务嵌入为条件;(ii) 以任务嵌入为条件 (iii) 不以任务类型为条件。

表3显示了基准验证集的结果。可以看出,对任务类型进行调节,可以提高模型的性能。此外,任务预测器缩小了与ground-truth条件模型的差距。

在图9中,展示了在指令和输入图像保持不变的情况下,对任务进行调整的效果。可以看出,改变任务嵌入会直接影响模型执行的任务。

4. 少样本学习新任务

研究中,Meta还通过任务反转来探索,Emu Edit对未知任务泛化。

在此过程中,保持模型权重不变,仅更新任务嵌入以适应新任务。

实验证明,Emu Edit可以迅速适应新任务,如超分辨率、轮廓检测等。当标注样本有限或计算资源有限时,Emu Edit的任务逆向适应有着巨大的优势。

虽然Meta目前的工作还仅仅是基础研究,但其潜在的应用场景可以预见。

想象一下,聊天时即时生成动画贴纸、GIF,不用再去搜索表情包,又或者编辑自己的照片或图像,不需要任何技能,就能搞定。

发个生活动态,可以将你的静态图动态化,能吸引不少人前看。

不过,Emu Video和Emu Edit虽不能替代专业艺术家和动画师,但它们可以帮助人们以一种全新的方式表达自己。

参考资料:

https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/

https://emu-video.metademolab.com/

https://emu-edit.metademolab.com/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Meta生成式AI连放大招:视频生成超越Gen-2,动图表情包随心定制
提到视频生成,很多人首先想到的可能是 Gen-2、Pika Labs。但刚刚,Meta 宣布,他们的视频生成效果超过了这两家,而且编辑起来还更加灵活。
机器之心
2023/11/18
2960
Meta生成式AI连放大招:视频生成超越Gen-2,动图表情包随心定制
好莱坞大导预测成真,Meta 让 AI “一句话生成一部电影” 不再是梦
11 月 16 日,Meta 宣布推出两款 AI 视频编辑工具:Emu Video 与 Emu Edit。
深度学习与Python
2023/11/18
2830
好莱坞大导预测成真,Meta 让 AI “一句话生成一部电影” 不再是梦
Sora 与文本到视频生成,探索通用人工智能的里程碑与挑战!
近期在AI生成内容(AIGC)领域的快速发展标志着向实现人工通用智能(AGI)迈出的关键一步,特别是继OpenAI在2023年初推出大型语言模型(LLM)GPT-4之后。AIGC 吸引了学术界和工业界的广泛关注,例如基于LLM的对话代理ChatGPT[1],以及文本转图像(T2I)模型如DALLLE[2],Midjourney[3]和Stable Diffusion[4]。这些成果对文本转视频(T2V)领域产生了重大影响,OpenAI的Sora[5]在图1中展示的出色能力便是例证。
AIGC 先锋科技
2024/07/08
2880
Sora 与文本到视频生成,探索通用人工智能的里程碑与挑战!
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
Sora虽爆火但闭源,给学术界带来了不小的挑战。学者们只能尝试使用逆向工程来对Sora复现或扩展。
新智元
2024/03/25
1390
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?
---- 新智元报道   编辑:LRS 【新智元导读】文本到2维图像、2维视频、3维模型,现在终于发展到3维模型视频了! AI生成模型在过去这段时间里取了巨大的进展,就图像领域来说,用户可以通过输入自然语言提示来生成图像(如DALL-E 2,Stable Diffusion),也可以在时间维度上扩展生成连续的视频(如Phenaki),或者在空间维度上扩展直接生成3D模型(如Dreamfusion)。 但到目前为止,这些任务仍然处于孤立的研究状态,彼此之间不存在技术交集。 最近Meta AI的研究人员结
新智元
2023/02/24
4380
AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
Apple MM1Team 再发新作,这次是苹果视频生成大模型,关于模型架构、训练和数据的全面报告,87 亿参数、支持多模态条件、VBench 超 PIKA,KLING,GEN-3。
机器之心
2025/02/14
1270
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
[AI里程碑] Sora | 最强AI视频生成大模型
AI视频技术的发展历程可以追溯到2022年,当时初创公司Runway在这一领域取得了显著成就,其技术甚至被用于热门科幻电影《瞬息全宇宙》的视频编辑。此后,AI视频技术经历了快速的发展,Runway、Pika、Meta(Emu Video)等公司纷纷加入竞争。然而,早期的AI视频通常存在一些限制,如视频长度有限(通常只有几秒钟),场景逼真度不足,元素突然出现或消失,以及运动不连贯等问题,这些问题使得视频内容容易被识别为AI生成。
iResearch666
2024/03/13
5060
[AI里程碑] Sora | 最强AI视频生成大模型
AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述
AI 生成内容已经成为当前人工智能领域的最热门话题之一,也代表着该领域的前沿技术。近年来,随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布,AI 图像生成和编辑领域实现了令人惊艳的视觉效果,并且在学术界和工业界都受到了广泛关注和探讨。这些方法大多基于扩散模型,而这正是它们能够实现强大可控生成、照片级生成以及多样性的关键所在。
机器之心
2023/10/24
7540
AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述
即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了
图像到视频生成(I2V)任务旨在将静态图像转化为动态视频,这是计算机视觉领域的一大挑战。其难点在于从单张图像中提取并生成时间维度的动态信息,同时确保图像内容的真实性和视觉上的连贯性。大多数现有的 I2V 方法依赖于复杂的模型架构和大量的训练数据来实现这一目标。
机器之心
2024/01/17
4610
即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了
14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍
就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。
机器之心
2023/12/28
1670
14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍
视频生成无需GAN、VAE,谷歌用扩散模型联合训练视频、图像,实现新SOTA
机器之心报道 编辑:杜伟、陈萍 扩散模型正在不断的「攻城略地」。 扩散模型并不是一个崭新的概念,早在2015年就已经被提出。其核心应用领域包括音频建模、语音合成、时间序列预测、降噪等。 那么它在视频领域表现如何?先前关于视频生成的工作通常采用诸如GAN、VAE、基于流的模型。 在视频生成领域,研究的一个重要里程碑是生成时间相干的高保真视频。来自谷歌的研究者通过提出一个视频生成扩散模型来实现这一里程碑,显示出非常有希望的初步结果。本文所提出的模型是标准图像扩散架构的自然扩展,它可以从图像和视频数据中进行联合训
机器之心
2022/04/11
5940
视频生成无需GAN、VAE,谷歌用扩散模型联合训练视频、图像,实现新SOTA
CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image
3D资产生成正受到大量关注,受到最近文本引导的2D内容创建成功的启发,现有的文本到3D方法使用预训练文本到图像扩散模型来解决优化问题,或在合成数据上进行微调,这往往会导致没有背景的非真实感3D物体。
公众号机器学习与AI生成创作
2024/04/18
2.8K0
CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。在Sora横空出世之前,Runway一直被视为AI生成视频的默认选择,尤其是自去年11月推出第二代模型以来,Runway还被称为“AI视频界的MidJourney”。第二代模型Gen-2不仅解决了第一代AI生成视频中每帧之间连贯性过低的问题,在从图像生成视频的过程中也能给出很好的结果。
汀丶人工智能
2024/02/19
2.2K0
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
被误解的「中文版Sora」背后,字节跳动有哪些技术?
这几年,视频生成领域的技术迭代持续加速,很多科技公司也公布了相关技术进展和落地成果。在此之前,Pika、Runway 都曾推出过类似产品,但 Sora 放出的 Demo,显然以一己之力抬高了视频生成领域的标准。
机器之心
2024/03/18
1190
被误解的「中文版Sora」背后,字节跳动有哪些技术?
大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
随着 Sora 的爆火,人们看到了 AI 视频生成的巨大潜力,对这一领域的关注度也越来越高。
机器之心
2024/03/07
1750
大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
万字长文 | Sora技术解析报告
在深度学习革命之前,传统的图像生成技术依赖于基于手工创建特征的纹理合成和纹理映射等方法。这些方法在生成复杂而生动的图像方面能力有限。
NewBeeNLP
2024/03/07
1.6K0
万字长文 | Sora技术解析报告
一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害
机器之心报道 机器之心编辑部 不再需要任何 3D 或 4D 数据,来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Video3D)。 仅输入一行文本,就能生成 3D 动态场景? 没错,已经有研究者做到了。可以看出来,目前的生成效果还处于初级阶段,只能生成一些简单的对象。不过这种「一步到位」的方法仍然引起了大量研究者的关注: 在最近的一篇论文中,来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Vide
机器之心
2023/03/29
4810
一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害
谷歌10秒视频生成模型破世界记录!LLM终结扩散模型,效果碾压顶流Gen-2
回看过去几个月,RunWay的Gen-2、Pika Lab的Pika 1.0,国内大厂等大波视频生成模型纷纷涌现,不断迭代升级。
新智元
2023/12/20
3900
谷歌10秒视频生成模型破世界记录!LLM终结扩散模型,效果碾压顶流Gen-2
真·拿嘴做视频!Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度
鱼羊 Alex 发自 凹非寺 量子位 | 公众号 QbitAI 画家执笔在画布上戳戳点点,形成手绘作品独有的笔触。 你以为这是哪部纪录片的画面? No,No,No! 视频里的每一帧,都是AI生成的。 还是你告诉它,来段“画笔在画布上的特写”,它就能直接整出画面的那种。 不仅能无中生画笔,按着马头喝水也不是不可以。 同样是一句“马儿喝水”,这只AI就抛出了这样的画面: 好家伙,这是以后拍视频真能全靠一张嘴的节奏啊…… 不错,那厢一句话让AI画画的Text to Image正搞得风生水起,这厢Meta AI
量子位
2022/10/08
7010
真·拿嘴做视频!Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度
2022年AI顶级论文 —生成模型之年(上)
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 过去十年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的认知。 2012年,在ImageNet图像识别挑战赛中,一种神经网络模型(AlexNet)首次展现了明显超越传统方法的能力。 2016年,AlphaGo在围棋这一当时人们认为其复杂性很难被人工智能系统模拟的围棋挑战赛中战胜了世界冠军。 2017年,Google的Ashish Vaswani等人提出了 Transformer 深度学习新模型
AiCharm
2023/05/15
4660
2022年AI顶级论文 —生成模型之年(上)
推荐阅读
Meta生成式AI连放大招:视频生成超越Gen-2,动图表情包随心定制
2960
好莱坞大导预测成真,Meta 让 AI “一句话生成一部电影” 不再是梦
2830
Sora 与文本到视频生成,探索通用人工智能的里程碑与挑战!
2880
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
1390
AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?
4380
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
1270
[AI里程碑] Sora | 最强AI视频生成大模型
5060
AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述
7540
即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了
4610
14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍
1670
视频生成无需GAN、VAE,谷歌用扩散模型联合训练视频、图像,实现新SOTA
5940
CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image
2.8K0
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
2.2K0
被误解的「中文版Sora」背后,字节跳动有哪些技术?
1190
大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
1750
万字长文 | Sora技术解析报告
1.6K0
一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害
4810
谷歌10秒视频生成模型破世界记录!LLM终结扩散模型,效果碾压顶流Gen-2
3900
真·拿嘴做视频!Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度
7010
2022年AI顶级论文 —生成模型之年(上)
4660
相关推荐
Meta生成式AI连放大招:视频生成超越Gen-2,动图表情包随心定制
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文