谷歌最近推出了一款名为 Lumiere 的最新人工智能模型。这款多模态视频生成工具能够仅使用文本或静态图像作为提示来生成长达 5 秒的逼真视频,这一技术展现了谷歌在人工智能领域与 OpenAI 竞争的决心和创新能力。
Lumiere的核心功能之一是其支持文本到视频和图像到视频的转换能力。这得益于其采用的时空 U-Net (STUNet) 架构,这一架构的设计重点在于提高 AI 生成视频中运动的真实感。Lumiere能够在单个过程中生成完整的视频序列,而非简单组合静态帧。这种技术能够同时处理视频的空间(即视频中的对象)和时间(即视频中的运动)方面,为用户带来更加自然和流畅的运动感知体验。
具体来说,Lumiere 通过空间和时间的下采样及上采样过程,结合预训练的文本到图像扩散模型,生成了高达 80 帧的视频序列。此外,它还利用了稳定扩散技术,以产生 25 帧的高质量视频。
下面让我们一起来看一看
Lumiere还具有生成不同风格视频的能力,这使得它在多种应用场景中都显得格外有用。例如,在电影制作中,它可以用于快速原型制作或视觉效果的初步设计。在广告领域,Lumiere 可以帮助创意团队快速转化创意为视觉内容。此外,该工具还能创建动态图像,对特定视频部分进行动画处理,甚至能根据用户的提示完成遮蔽视频或图像的修复工作。
在与市场上现有的 AI 模型相比较,Google 的 Lumiere 显得更加出色。例如,Runway Gen-2(于 2023 年 3 月推出)和 Pika Lab 的 Pika 1.0 都是公众可用的多模态视频生成工具。Pika 1.0 能创建长达 3 至 4 秒的视频,而 Runway 则能生成长达 4 秒的视频。这两种模型都提供多模态功能并支持视频编辑,但 Lumiere 在视频长度和生成过程的复杂性方面表现得更强。
Lumiere的推出不仅是谷歌在 AI 领域的又一次飞跃,也预示着未来人工智能技术将如何改变我们创造和享受视觉内容的方式。
领取专属 10元无门槛券
私享最新 技术干货