今天给大家介绍视频生成的新工具,它的名字叫做Emu Video
它是由Meta的AI团队开发的一款基于扩散模型的文本到视频生成工具。
它可以根据你的文本输入,生成4秒钟的高清视频,分辨率为512×512像素,帧率为每秒16帧。
你可以输入纯文本,也可以输入文本和图片,或者只输入图片,Emu Video都能根据你的输入,生成相应的视频。
效果如何?我们看一下
Meta的研究团队在一个包含3400万个视频文本对的数据集上训练了Emu Video,并使用了两个不同的文本提示集来测试它的性能。
这些文本提示涵盖了各种各样的类别,可以测试模型生成自然和梦幻视频以及组合不同视觉概念的能力。
可以看到,Emu Video生成的视频非常流畅和自然,没有明显的拼接痕迹,就像是一段真实拍摄的视频一样。
Emu Video的原理是什么呢?
Emu Video是基于扩散模型的,扩散模型是一种生成式AI模型,它可以从噪声中重建出清晰的图像或视频。
Emu Video的生成过程包括两个步骤:
第一步是根据文本输入生成一张图像
第二步是根据图像和另一个文本输入生成视频
这样,就可以利用已有的文本到图像模型来初始化视频生成模型,然后在大规模的视频文本数据集上进行微调,提高视频的质量和一致性。
具体的可以看官网的论文。
项目地址:
https://emu-video.metademolab.com/
论文地址:
https://emu-video.metademolab.com/assets/emu_video.pdf
领取专属 10元无门槛券
私享最新 技术干货