前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一张图即出AI视频!谷歌全新扩散模型,让人物动起来

一张图即出AI视频!谷歌全新扩散模型,让人物动起来

作者头像
新智元
发布于 2024-03-29 05:50:16
发布于 2024-03-29 05:50:16
2920
举报
文章被收录于专栏:新智元新智元


新智元报道

编辑:alan

【新智元导读】近日,来自谷歌的研究人员发布了多模态扩散模型VLOGGER,只需一张照片,和一段音频,就能直接生成人物说话的视频!

只需一张照片,和一段音频,就能直接生成人物说话的视频!

近日,来自谷歌的研究人员发布了多模态扩散模型VLOGGER,让我们朝着虚拟数字人又迈进了一步。

论文地址:https://enriccorona.github.io/vlogger/paper.pdf

VLOGGER接收单个输入图像,使用文本或者音频驱动,生成人类说话的视频,包括口型、表情、肢体动作等都非常自然。

我们先来看几个例子:

如果感觉视频使用别人的声音有点违和,小编帮你关掉声音:

可以看出整个生成的效果是非常优雅自然的。

VLOGGER建立在最近生成扩散模型的成功之上,包括一个将人类转成3D运动的模型,以及一个基于扩散的新架构,用于通过时间和空间控制,增强文本生成图像的效果。

VLOGGER可以生成可变长度的高质量视频,并且这些视频可以通过人脸和身体的高级表示轻松控制。

比如我们可以让生成视频中的人闭上嘴:

或者闭上双眼:

与之前的同类模型相比,VLOGGER不需要针对个体进行训练,不依赖于面部检测和裁剪,而且包含了肢体动作、躯干和背景,——构成了可以交流的正常的人类表现。

AI的声音、AI的表情、AI的动作、AI的场景,人类开始的价值是提供数据,再往后可能就没什么价值了?

在数据方面,研究人员收集了一个新的、多样化的数据集MENTOR,比之前的同类数据集大了整整一个数量级,其中训练集包括2200小时、800000个不同个体,测试集为120小时、4000个不同身份的人。

研究人员在三个不同的基准上评估了VLOGGER,表明模型在图像质量、身份保存和时间一致性方面达到了目前的最优。

VLOGGER

VLOGGER的目标是生成一个可变长度的逼真视频,来描绘目标人说话的整个过程,包括头部动作和手势。

如上图所示,给定第1列所示的单个输入图像和一个示例音频输入,右列中展示了一系列合成图像。

包括生成头部运动、凝视、眨眼、嘴唇运动,还有以前模型做不到的一点,生成上半身和手势,这是音频驱动合成的一大进步。

VLOGGER采用了基于随机扩散模型的两阶段管道,用于模拟从语音到视频的一对多映射。

第一个网络将音频波形作为输入,以生成身体运动控制,负责目标视频长度上的凝视、面部表情和姿势。

第二个网络是一个包含时间的图像到图像的平移模型,它扩展了大型图像扩散模型,采用预测的身体控制来生成相应的帧。为了使这个过程符合特定身份,网络获取了目标人的参考图像。

VLOGGER使用基于统计的3D身体模型,来调节视频生成过程。给定输入图像,预测的形状参数对目标标识的几何属性进行编码。

首先,网络M获取输入语音,并生成一系列N帧的3D面部表情和身体姿势。

然后渲染移动3D身体的密集表示,以在视频生成阶段充当2D控件。这些图像与输入图像一起作为时间扩散模型和超分辨率模块的输入。

音频驱动的运动生成

管道的第一个网络旨在根据输入语音预测运动。此外还通过文本转语音模型将输入文本转换为波形,并将生成的音频表示为标准梅尔频谱图(Mel-Spectrograms)。

管道基于Transformer架构,在时间维度上有四个多头注意力层。包括帧数和扩散步长的位置编码,以及用于输入音频和扩散步骤的嵌入MLP。

在每一帧中,使用因果掩码使模型只关注前一帧。模型使用可变长度的视频进行训练(比如TalkingHead-1KH数据集),以生成非常长的序列。

研究人员采用基于统计的3D人体模型的估计参数,来为合成视频生成中间控制表示。

模型同时考虑了面部表情和身体运动,以生成更好的表现力和动态的手势。

此外,以前的面部生成工作通常依赖于扭曲(warped)的图像,但在基于扩散的架构中,这个方法被忽视了。

作者建议使用扭曲的图像来指导生成过程,这促进了网络的任务并有助于保持人物的主体身份。

生成会说话和移动的人类

下一个目标是对一个人的输入图像进行动作处理,使其遵循先前预测的身体和面部运动。

受ControlNet的启发,研究人员冻结了初始训练的模型,并采用输入时间控件,制作了编码层的零初始化可训练副本。

作者在时间域中交错一维卷积层,网络通过获取连续的N帧和控件进行训练,并根据输入控件生成参考人物的动作视频。

模型使用作者构建的MENTOR数据集进行训练,因为在训练过程中,网络会获取一系列连续的帧和任意的参考图像,因此理论上可以将任何视频帧指定为参考。

不过在实践中,作者选择采样离目标剪辑更远的参考,因为较近的示例提供的泛化潜力较小。

网络分两个阶段进行训练,首先在单帧上学习新的控制层,然后通过添加时间分量对视频进行训练。这样就可以在第一阶段使用大批量,并更快地学习头部重演任务。

作者采用的learning rate为5e-5,两个阶段都以400k的步长和128的批量大小训练图像模型。

多样性

下图展示了从一个输入图片生成目标视频的多样化分布。最右边一列显示了从80个生成的视频中获得的像素多样性。

在背景保持固定的情况下,人的头部和身体显著移动(红色意味着像素颜色的多样性更高),并且,尽管存在多样性,但所有视频看起来都很逼真。

视频编辑

模型的应用之一是编辑现有视频。在这种情况下,VLOGGER会拍摄视频,并通过闭上嘴巴或眼睛等方式改变拍摄对象的表情。

在实践中,作者利用扩散模型的灵活性,对应该更改的图像部分进行修复,使视频编辑与原始未更改的像素保持一致。

视频翻译

模型的主要应用之一是视频翻译。在这种情况下,VLOGGER会以特定语言拍摄现有视频,并编辑嘴唇和面部区域以与新音频(例如西班牙语)保持一致。

参考资料:

https://enriccorona.github.io/vlogger/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
【Soft】一个可以自定义安装Office的小工具 – OfficeTool Plus
OfficeTool Plus 是一个可以自定义安装Office的小工具,免费,小巧,无广告,无捆绑的小工具? 使用Office Tool Plus,您可以轻松地配置您的Office安装,指定安装什么
Hyejeong小DD
2018/06/25
1.6K0
#工具#Office Tool Plus - 一键下载、激活、管理Office
Office Tool Plus 是基于 Office Deployment Tool 所打造的一款 Office 工具,可以说是 ODT 的图形化实现。除了 ODT 所包含的下载与安装功能外,OTP 还包含额外的功能,让你可以很方便地配置 Office。
Alone88
2019/10/22
1.6K0
#工具#Office Tool Plus - 一键下载、激活、管理Office
Windows office2016官方原版安装+激活工具可用office365
不知道是我自己操作的原因还是其他原因。使用wps总是丢数据。明明记得保存了,第二天却找不到昨天编辑的东西。欲哭无泪,在其他地方小细节使用也感觉很别扭。不是不好,就是不喜欢。(可能因为我学的就是office吧23333)
AlexTao
2019/09/24
3.7K0
Windows office2016官方原版安装+激活工具可用office365
Windows激活工具Office 激活工具HEU KMS Activator下载使用教程
Windows操作系统是由微软公司开发的一款计算机操作系统。自1985年发布以来,Windows操作系统成为了全球最受欢迎的操作系统之一,被广泛应用于个人电脑、笔记本电脑、服务器等各种计算机设备。
用户10519170
2023/04/21
4.9K0
❤️ 推荐 21 款爆赞 Windows 软件,还不来白嫖,使用舒适度满分!!!【收藏备用】
经常会有朋友让我推荐一些好用的软件,因此我打算来介绍一下这些我认为爱不释手的软件!
Lucifer三思而后行
2021/09/08
2.5K0
Microsoft Office 365 Pro Plus产品密钥 office365永久激活密钥key分享
有不少用户在寻找office365产品密钥,office365是一种订阅版软件,一般是每个月或每年支付一定的费用在线订阅购买激活码并安装激活。有些用户可以下载到离线版office365,安装后提示要激活的产品,有用户打算使用秘钥破解,下面小编跟大家整理分享office365激活序列号key。
用户9208731
2023/02/24
21.7K0
Microsoft Office 365 Pro Plus产品密钥 office365永久激活密钥key分享
HEU KMS Activator v27.0.2 官方版(电脑系统全能激活器)
HEU KMS Activator,简洁高效的KMS/OEM智能激活工具,适用所有Windows, Office版本,无需联网即可一键激活,支持UEFI的KMS激活工具。KMS服务是微软对Windows, Office等产品的批量许可服务,利用KMS可以激活局域网内的产品。该工具利用KMS机制在系统搭建KMS服务器,从而实现在线或离线激活。
零点
2023/03/03
11.1K0
HEU KMS Activator v27.0.2 官方版(电脑系统全能激活器)
Office Tool Plus 8.2.3.0 office部署工具 2021 2019 2016
Office Tool Plus(简称OTP)是一款微软Office办公软件下载、安装、管理的部署工具。 支持下列产品: Microsoft 365 Office 2021、2019、2016 Visio Online Plan 2 & 2021、2019、2016 Project Online Desktop Client & 2021、2019、2016 运行要求.NET 5.0 Desktop Runtime x86 Windows 10, Windows Server 2019
叼同学
2021/08/09
1.5K0
Office Tool Plus 8.2.3.0 office部署工具 2021 2019 2016
适用于windows && office 可用kms服务器激活地址汇总
是一款支持Office2013,Office2016,Win7,Win8,Win10的本地离线激活工具
Khan安全团队
2022/01/27
108.2K2
适用于windows && office 可用kms服务器激活地址汇总
安装和激活Office 2019
版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/u011054333/article/details/83448671
乐百川
2019/07/02
3.7K0
安装和激活Office 2019
超详细!安装与激活Office 2010 2012 2020 365
Office Tool Plus是一款好用的Office部署软件,可以帮助我们快速部署Microsoft Office软件,本文将使用Office Tool Plus来演示如何安装激活Office 365。
叼同学
2021/08/09
7.6K0
超详细!安装与激活Office 2010 2012 2020 365
office2016安装包安装教程
假设你并行安装了 MicrosoftOffice Professional Plus 2016,然后卸载了Office2016。在这种情况下,您可能会遇到下列问题之一。当您尝试在MicrosoftPublisher2013和MicrosoftPowerPoint2013中打开Word文档时,会收到以下错误信息:抱歉,PowerPoint可以 不要读它*docx。没有足够的内存来转换文本格式。
用户10307898
2023/01/15
1K0
超详细Revo Uninstaller Pro 4.4.8免费下载安装
免费下载适用于 Windows PC 的 Revo Uninstaller Pro 4 完整版独立离线安装程序包括一些清理工具,例如垃圾文件清理器、浏览器清理器、MS Office 清理器、Windows 清理器和自动运行管理器,可用于控制自动启动的程序与 Windows。
用户5417553
2021/09/20
6600
Microsoft Office Word2016下载与安装教程
Office2016是微软推出的一款办公软件,包含Word、Excel、微软公司生产的制作幻灯片和简报的软件、OneNote、Outlook、Skype、Project、组件和服务,如Visio和Publisher。与Office2013相比,Office2016的识别度很高,所有应用的标题栏都有自己的颜色此外,GigJam的私人预览版已经推出,允许用户跨设备和应用程序进行协作。Office2016中的Excel还增加了几个新的图表表单,并改进了一些细节,比如功能区的搜索引擎,让用户可以快速找到想要使用的功能。Office2016中的Word已添加“InsightsforOffice”读取模式读取模式”和其他新功能,powerpoint也有所增加“演示者视图”功能。
用户10307898
2023/02/10
1.9K0
Office365安装激活图文教程
建议下载包含框架的版本,比较方便。 成功下载之后解压打开软件。 (以下将 Office Tool Plus 简写为 otools)
MUKAPP
2022/11/28
22.4K2
Office365安装激活图文教程
一行命令激活windows系统和Office
window系统和office办公软件都是我们日常工作必备的,目前对于Windows系统的激活工具,网上是多如牛毛,各式各样的都有,之前本站也分享了不少系统的激活工具,大多都还不错!
Inkedus
2020/04/16
9.3K0
推荐 21 款博主常用 Windows 软件
经常会有朋友让我推荐一些好用的软件,因此我打算来介绍一下这些我认为爱不释手的软件!
Lucifer三思而后行
2022/06/15
4.5K0
推荐 21 款博主常用 Windows 软件
office2016下载安装步骤详细解析--全版本office软件下载
如何安装office办公软件呢?首先获取到office全版本的安装包:ruanjianduo.top
用户8187027
2023/03/11
1.7K0
Office 2016软件安装包下载及安装教程
Microsoft office 2016简体中文版是一款非常受人欢迎的办公软件,包含了Word、Excel、PowerPoint、OneNote、Lync、Publisher和Access等等多款组件,且每个功能都支持独立打开使用,满足用户的所有使用需求。新版本还支持用户直接预览PDF并对其进行编辑,功能强大。
肉肉软件安装
2022/10/16
7.4K1
Office 2016软件安装包下载及安装教程
系统激活小工具可激活win7-win8-win10
杨小杰以前分享过安装系统的教程,现在分享一下激活工具,请勿做非法使用(低调使用)! 一款无需联网即可激活Windows 10、Windows 8.1、Windows 8、Windows 7(企业版/专业版)、Office 2013 (VL版)、Office 2010(VL版)的工具。其为单一可执行的绿色工具,使用完毕后对系统无任何残留,可以直接删除。此工具为知彼而知己原创工具,根据网友的使用要求及问题反馈进行更新,最新版修复了已知bug,并兼容Windows XP至Windows 10,可以直接使用无
Youngxj
2018/06/07
3.3K2
推荐阅读
相关推荐
【Soft】一个可以自定义安装Office的小工具 – OfficeTool Plus
更多 >
LV.0
这个人很懒,什么都没有留下~
目录
  • 【新智元导读】近日,来自谷歌的研究人员发布了多模态扩散模型VLOGGER,只需一张照片,和一段音频,就能直接生成人物说话的视频!
  • 音频驱动的运动生成
  • 生成会说话和移动的人类
  • 多样性
  • 视频编辑
  • 视频翻译
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档