首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌重磅发布零样本视频生成模型!10秒生成视频,效果碾压顶流Gen-2

你敢信?大熊猫都会打牌了!

看这毛茸茸的脑袋、抓牌的动作……而这其实都是AI生成的,还是零样本那种。这就是谷歌最新大语言模型VideoPoet。

自从人工智能诞生以来,科技巨头们就在不断探索如何利用这个强大的工具改变世界。

在图像生成、语音识别、自然语言处理等领域取得突破后,人工智能的下一个目标就是视频生成。

回看过去几个月,RunWay的Gen-2、Pika Lab的Pika 1.0,国内大厂等大波视频生成模型纷纷涌现,不断迭代升级。

这不,RunWay一大早就宣布Gen-2支持文本转语音的功能了,可以为视频创建画外音。

当然,谷歌在视频生成上也不甘落后,先是与斯坦福李飞飞团队共同发布了W.A.L.T,用Transformer生成的逼真视频引来大波关注。

最近谷歌团队又发布了一个全新的视频生成模型VideoPoet,而且无需特定数据便可生成视频。

最令人惊叹的是,VideoPoet一次能够生成10秒超长,且连贯大动作视频,完全碾压Gen-2仅有小幅动作的视频生成

另外,与领先模型不同的是,VideoPoet并非基于扩散模型,而是多模态大模型,便可拥有T2V、V2A等能力,或将成为未来视频生成的主流。

下面我们直接看下更多的生成效果吧!

文本到视频生成:

图像到视频生成:

画面逼真动作稳定

当前,Gen-2、Pika 1.0视屏生成的表现足以惊人,但是遗憾的是,无法在连贯大幅动作的视频生成上表现惊艳。

通常,它们在产生较大动作时,视频会出现明显的伪影。

对此,谷歌研究人员提出了VideoPoet,能够执行包括文本到视频、图像到视频、视频风格化、视频修复/扩展和视频到音频等多样的视频生成任务。

具体来看VideoPoet的能力非常全面。包括:

文本-视频;

图像-视频;

视频编辑;

风格化处理;

画面补充;

文本到视频任务,视频输出长度可调整,而且可以基于文本内容应用一系列动作和风格。

三大优势

概括来说,VideoPoet比起Gen-2等视频生成模型,具备以下三大优势。

更长的视频

VideoPoet通过对视频的最后1秒进行调节,并预测接下来的1秒,就可以生成更长的视频。

通过反复循环,VideoPoet通不仅可以很好地扩展视频,而且即使在多次迭代中,也能忠实地保留所有对象的外观。

精准的控制

视频生成应用一个非常重要的能力在于,对于生成的动态效果,用户有多大的控制能力。

这将很大程度上决定了模型能否被用来制作复杂连贯的长视频。

VideoPoet不但可以为输入的图像通过文字描述来添加动态效果,并通过文本提示来调整内容,来达到预期的效果。

除了支持输入图像的视频编辑,视频输入也可以通过文字进行精确控制。

针对最左边的小浣熊跳舞视频,用户可以通过文字描述不同的舞姿来让它跳不同的舞蹈。

运镜的手法

VideoPoet还可以通过在文本提示中,附加所需的运镜方式,来精确控制画面的变化。

例如,研究人员通过模型生成了一幅图像,提示为「冒险游戏概念图,雪山日出,清澈河流」。下面的示例将给定的文本后缀添加到所需的动作中。

从目前的情况来看,VideoPoet在生成速度和视频质量上都具有一定的优势。

然而,要想在竞争激烈的市场中站稳脚跟,VideoPoet还需要不断优化和升级。

首先,谷歌需要继续加大在大型语言模型领域的研发力度,提高VideoPoet的理解能力和生成质量。

其次,谷歌还需要完善VideoPoet的生态系统,吸引更多的开发者加入,推出更多创新性的应用。

但谷歌全新视频生成模型VideoPoet的问世,再次证明了人工智能在视频生成领域的巨大潜力。

尽管面临众多竞争对手的挑战,但谷歌VideoPoet凭借其在生成速度和视频质量上的优势,有望在竞争中脱颖而出

对于未来的研究方向,谷歌研究人员表示,VideoPoet框架将会实现「any-to-any」的生成,比如扩展文本到音频、音频到视频,以及视频字幕等等。

网友不禁发问,Runway和Pika能否抵挡住谷歌和OpenAI即将推出的文本到视频创新技术?

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OfPRJ_EV1a8pM_sB9zTPH09w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券