前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR2022 | 曾经火爆全网的算法!升级版来袭,支持卡通形象!

CVPR2022 | 曾经火爆全网的算法!升级版来袭,支持卡通形象!

作者头像
AI算法与图像处理
发布于 2022-09-02 06:59:25
发布于 2022-09-02 06:59:25
7930
举报

大家好,我是阿潘 之前 ”蚂蚁呀嘿“ 的算法 火的不行。今年的CVPR 2022 ,又有一个新算法,效果更加炸裂!相比之前,现在对于动漫头像的驱动效果也可以做到非常的逼真!

按照惯例,先看效果视频:

http://mpvideo.qpic.cn/0bc3giaacaaa4aaj4pf54rrfamwdaezaaaia.f10002.mp4?

论文:Depth-Aware Generative Adversarial Network for Talking Head Video Generation

资料汇总:

https://arxiv.org/pdf/2203.06605.pdf https://github.com/harlanhong/CVPR2022-DaGAN https://harlanhong.github.io/publications/dagan.html

摘要

talking head 视频生成旨在生成合成人脸视频,其中包含分别来自给定源图像和驱动视频的身份和姿势信息。这项任务的现有工作严重依赖从输入图像中学习的 2D 表示(例如外观和运动)。然而,密集的 3D 面部几何(例如像素深度)对于这项任务非常重要,因为它对我们从本质上生成准确的 3D 面部结构并将噪声信息与可能杂乱的背景区分开来特别有益。然而,密集的 3D 几何标注对于视频来说成本高得令人望而却步,并且通常不适用于此视频生成任务。在本文中,我们首先介绍了一种自监督几何学习方法,可以自动从人脸视频中恢复密集的 3D 几何(即深度),而不需要任何昂贵的 3D 标注数据。基于学习到的密集深度图,我们进一步建议利用它们来估计捕捉人头关键运动的稀疏面部关键点。以更密集的方式,深度还用于学习 3D 感知的跨模态(即外观和深度)注意力,以指导生成运动场以扭曲源图像表示。所有这些贡献构成了一个新颖的深度感知生成对抗网络(DaGAN),用于talking head 生成。进行的大量实验表明,我们提出的方法可以生成高度逼真的人脸,并在看不见的人脸上取得显着效果

Talking Head Generation 是什么

Talking Head Generation 的目的是合成一个人脸视频,这个合成视频的身份和姿态信息分别来源一个给定的source图片和驱动视频

相关方法

Xface

FOMM(目前最流行的方法,之前爆火)

Face-vid2vid 等等

主要挑战

1、现有的工作严重依赖于 2D 表征

2、现有方法确实人脸细节

3、3D 几何标注不可用

然而密集的 3D 面部几何结构对于这项人物非常重要,因为它对我们生成准确的3D面部结果特别又帮助。密集的 3D 几何标注对于视频来说成本很高,并且通常不适用于此视频生成任务。

主要贡献:

1、引入自监督学习方法来从面部视频中恢复显式密集 3D 几何以生成说话头视频的方法

2、提出了一个与深度图合作的框架来解决说话头的生成问题

3、与现有方法相比,我们的方法可以产生更好的结果

模型框架

我们首先引入了一种自监督的几何学习方法,可以自动从人脸视频中恢复密集的 3D 几何,而不需要任何昂贵的 3D 标注数据。

基于学习到的密集深度图,进一步使用深度图来估计稀疏的面部关键点,以捕捉人体头部的关键运动。以更密集的方式,深度还用于学习 3D 感知的跨模态注意力以改进生成结果。

在自监督人脸深度学习模块中,我们使用估计的深度图、源视图和相机矩阵通过公式 3 重构目标视图。

因此,我们可以通过重构损失学习一个满意的人脸深度网络。

从人脸深度网络获得深度图后,我们采用特征扭曲策略来捕捉源图像和目标图像之间的头部运动。

重要的是,在这个模块中预测了一个运动流掩码和一个遮挡图。运动流掩码为估计的密集 2D 运动场分配不同的置信度值,而遮挡图旨在掩盖由于头部旋转变化而应修复的特征图区域,有效嵌入学习的深度图 ,以更密集的方式促进生成。。

我们提出了一种跨模态注意机制,使模型能够更好地保留面部结构并生成与表情相关的微面部运动,因为深度可以为我们提供密集的 3D 几何,这对于保持 面部结构和识别关键动作我们首先展示了从所提出的面部深度网络中恢复的人脸深度图。

我们将学习到的人脸深度图及其对应的 3d 点云可视化。学习到的密集 3D 面部结构显然非常有益,并有显着改善。

此外,我们将密集的深度感知注意力图可视化

每个查询点的高激活区域主要位于人脸表情相关的部分。

这些可视化结果表明,我们设计的跨模态注意力模块,确实可以解决人脸的微运动,从而在生成过程中产生更生动的表情

另外代码部分作者已开源,感兴趣的可以去尝试哈:

今天的分享就到这里,大家喜欢的话,可以多多支持,感谢!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI算法与图像处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
图片+音频秒变视频!西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌
---- 新智元报道   编辑:LRS 【新智元导读】让图片配合你的音频出演,配套sd-webui插件已发布! 随着数字人概念的火爆、生成技术的不断发展,让照片里的人物跟随音频的输入动起来也不再是难题。 不过目前「通过人脸图像和一段语音音频来生成会说话的人物头像视频」仍然存在诸多问题,比如头部运动不自然、面部表情扭曲、视频和图片中的人物面部差异过大等问题。 最近来自西安交通大学等的研究人员提出了SadTalker模型,在三维运动场中进行学习从音频中生成3DMM的3D运动系数(头部姿势、表情),并使用一
新智元
2023/05/09
1.2K0
图片+音频秒变视频!西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
扩散概率模型(DPMs)在高分辨率图像生成方面显示出显著性能,但由于通常需要大量采样步骤,其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而,大多数采样方法仍使用均匀的时间步长,在使用少量步骤时并不是最优的。
公众号机器学习与AI生成创作
2024/04/18
7.3K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
每周AI论文速递(250331-250404)
大语言模型 (Large Language Models, LLMs) 的出现引发了人工智能领域的变革,推动了一系列具备复杂推理能力、强健感知能力和跨领域多任务执行能力的先进智能体的发展。随着这类智能体在 AI 研究和实际应用中的作用日益凸显,其设计、评估与持续改进过程也面临着多维度、高复杂度的挑战。本综述采用模块化的类脑架构框架,融合认知科学、神经科学与计算研究的核心原理,对智能体技术进行全面梳理。研究内容分为四个相互关联的部分:首先解析智能体的模块化基础架构,通过系统化映射其认知、感知与执行模块与人脑功能的对应关系,深入阐释记忆系统、世界模型、奖励机制及类情绪系统等核心组件;其次探讨智能体的自我增强与自适应进化机制,重点分析其通过自动化优化范式(包括新兴的 AutoML 和大语言模型驱动的优化策略)实现能力自主提升、动态环境适应与持续学习的方法;第三部分研究协作型进化多智能体系统,揭示智能体通过交互协作与社会化组织产生的群体智能,及其与人类社交行为的相似性;最后针对 AI 系统的安全性、可靠性及社会效益这一关键命题,系统分析内生与外源安全威胁、伦理对齐要求、系统鲁棒性保障等核心问题,提出确保实际部署可信度的有效缓解策略。
叶子的技术碎碎念
2025/04/08
1740
每周AI论文速递(250331-250404)
CVPR2020 best paper:对称可变形三维物体的无监督学习
项目地址:https://elliottwu.com/projects/unsup3d/
3D视觉工坊
2020/12/11
6730
今日 Paper | Social-STGCNN;说话人脸视频生成;食材图像合成;光场角度超分辨率等
论文名称:Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction
AI科技评论
2020/03/10
6270
今日 Paper | Social-STGCNN;说话人脸视频生成;食材图像合成;光场角度超分辨率等
【CVPR2023】高保真自由可控的说话头视频生成
来源:专知本文为论文介绍,建议阅读5分钟本文提出一种新的模型,可以产生高保真的头部视频,可以自由控制头部姿态和表情。 说话头生成是根据给定的源身份和目标运动生成视频。然而,目前的方法面临着一些挑战,限制了生成视频的质量和可控性。首先,生成的人脸往往存在意想不到的变形和严重的失真。其次,驾驶图像没有明确地解缠运动相关信息,如姿态和表情,这限制了在生成过程中对不同属性的操作。第三,由于相邻帧之间提取的地标不一致,生成的视频往往存在闪烁伪影。本文提出一种新的模型,可以产生高保真的头部视频,可以自由控制头部姿态和
数据派THU
2023/05/11
3430
【CVPR2023】高保真自由可控的说话头视频生成
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
近日,国际语音及信号处理领域顶级会议 ICASSP2023 在希腊成功举办。大会邀请了全球范围内各大研究机构、专家学者以及等谷歌、苹果华为、Meta AI、等知名企业近 4000 人共襄盛会,探讨技术、产业发展趋势,交流最新成果。
机器之心
2023/08/07
5890
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
这项工作提出一种新的“基于编辑”的方法,即属性组编辑(Attribute Group Editing,AGE),用于少样本图像生成。思路是任何图像都是属性的集合,并且特定属性的编辑方向在所有类别中共享。AGE 检查在 GAN 中学习的内部表示并识别语义上有意义的方向。
公众号机器学习与AI生成创作
2022/05/27
9280
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
CVPR 2020 | 将深度学习算法应用于移动端最新研究汇总
在最近结束的2020年CVPR会议上,有很多优秀的计算机视觉研究。在本文中,我们将重点关注与移动或与边缘计算相关的任务和内容。虽然并非所有这些论文都直接接触到移动相关的应用,但它们对移动端机器学习的影响是巨大的。它们推动了通常在移动设备和边缘设备上执行的ML任务,因此它们的进步对推动行业向前发展至关重要。
AI算法与图像处理
2020/07/20
1.1K0
CVPR 2020 | 将深度学习算法应用于移动端最新研究汇总
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
最近,扩散模型在图像生成方面取得了巨大的成功。然而,当涉及到布局生成时,由于图像通常包含多个物体的复杂场景,如何对全局布局图和每个详细对象进行强大的控制仍然是一个具有挑战性的任务。
公众号机器学习与AI生成创作
2023/08/22
4.5K1
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
CV领域研究"face"的真不少,不过研究识别的论文不如以前多了
人看人,首先看的是脸,计算机视觉领域研究人脸的人也非常多,甚至在学术领域出一本专门收录人脸图像处理、识别、生成方向论文的期刊,恐怕都是很有市场的。
CV君
2023/03/06
6380
CV领域研究"face"的真不少,不过研究识别的论文不如以前多了
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
公众号机器学习与AI生成创作
2023/08/22
1.8K0
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
腾讯AI大迈步!58篇论文入选CVPR 2019,超去往年总和
今年CVPR入选论文已公布,全球共有5165篇投稿,1299篇收录,同比去年增长32%(2017年论文录取979篇)。
量子位
2019/04/23
9450
腾讯AI大迈步!58篇论文入选CVPR 2019,超去往年总和
CVPR 2021 | GAN的说话人驱动、3D人脸论文汇总
一、说话人驱动(talking head) 1、Audio-Driven Emotional Video Portraits 尽管此前一些方法在基于音频驱动的说话人脸生成方面已取得不错的进展,但大多数
公众号机器学习与AI生成创作
2021/07/05
3.9K0
人脸表情和姿态变化万般丝滑——基于3D人脸动态的图像-视频生成方法
从单一的人脸图像生成其对应的视频是一个有趣的问题,研究者们通常利用人脸图像的稀疏特征点(landmarks)结合生成对抗网络(Generative Adversarial Networks, GANs)来进行人脸视频的生成。然而,由稀疏人脸特征点生成的人脸图像通常会遭受质量损失、图像失真、身份改变,以及表情不匹配等问题。
AI科技评论
2021/08/25
2.2K0
人脸表情和姿态变化万般丝滑——基于3D人脸动态的图像-视频生成方法
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成,基于diffusion扩散/GAN生成对抗
公众号机器学习与AI生成创作
2023/08/22
1.1K0
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
22篇入选,15 篇 CVPR 2020 精选论文详解
近日,计算机视觉领域“奥斯卡”CVPR 2020官方公布论文收录结果,伴随投稿数量激增,接收率开始经历了一个持续下降的过程。今年,在6656篇有效投稿中,共有1470篇论文被接收,接收率为22%左右,相较去年25%的入选率,同比下降3%。
AI科技评论
2020/03/24
6900
22篇入选,15 篇 CVPR 2020 精选论文详解
CVPR 2019 | 37篇!Facebook今年被CVPR收录的论文都说了啥?
AI 科技评论按:CVPR 2019 已于 6 月 16 日至 20 日在美国加利福利亚州长滩市盛大举办,吸引了超过万人参加,AI 科技评论的记者也前往现场为大家带来了精彩的大会报道。作为工业界的学术实力干将之一,Facebook AI 研究院在本次大会上的成果也备受瞩目。而 Facebook AI 研究院也对自己今年的战绩进行了统计:共有 37 篇论文被收录,其中包括 15 篇 Oral 论文。下面就让我们一起来看看这些成果吧。
AI研习社
2019/07/04
9120
【CVPR2020】百度入选22篇论文涵盖全视觉领域!
近日,计算机视觉领域“奥斯卡”CVPR 2020官方公布论文收录结果,伴随投稿数量激增,接收率开始经历了一个持续下降的过程。今年,在6656篇有效投稿中,共有1470篇论文被接收,接收率为22%左右,相较去年25%的入选率,同比下降3%。在论文接收率下降的同时,中国科技企业被录取论文数量却不降反增,百度作为 AI 代表企业今年中选22篇,比去年的17篇增加了5篇。
深度学习技术前沿公众号博主
2020/05/18
6040
【CVPR2020】百度入选22篇论文涵盖全视觉领域!
[计算机视觉论文速递] 2018-03-18
通知:这篇推文有10篇论文速递信息,涉及人脸表情识别、人脸替换、3D人脸重建、Re-ID、目标检测和目标跟踪等方向 Note:最近一直有童鞋私聊问我,有没有相关的讨论群,于是今天我新建了CVer微信讨论群。愿意加入群聊的童鞋请下拉至文末,扫码进群,谢谢 往期回顾 [计算机视觉] 入门学习资料 [计算机视觉论文速递] 2018-03-16 [计算机视觉论文速递] 2018-03-14 人脸 [1]《Deep Structure Inference Network for Facial Action Un
Amusi
2018/04/12
1.3K0
[计算机视觉论文速递] 2018-03-18
推荐阅读
图片+音频秒变视频!西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌
1.2K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
7.3K0
每周AI论文速递(250331-250404)
1740
CVPR2020 best paper:对称可变形三维物体的无监督学习
6730
今日 Paper | Social-STGCNN;说话人脸视频生成;食材图像合成;光场角度超分辨率等
6270
【CVPR2023】高保真自由可控的说话头视频生成
3430
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
5890
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
9280
CVPR 2020 | 将深度学习算法应用于移动端最新研究汇总
1.1K0
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
4.5K1
CV领域研究"face"的真不少,不过研究识别的论文不如以前多了
6380
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
1.8K0
腾讯AI大迈步!58篇论文入选CVPR 2019,超去往年总和
9450
CVPR 2021 | GAN的说话人驱动、3D人脸论文汇总
3.9K0
人脸表情和姿态变化万般丝滑——基于3D人脸动态的图像-视频生成方法
2.2K0
【CVPR 2023的AIGC应用汇总(8)】3D相关(编辑/重建/生成) diffusion扩散/GAN生成对抗网络方法
1.1K0
22篇入选,15 篇 CVPR 2020 精选论文详解
6900
CVPR 2019 | 37篇!Facebook今年被CVPR收录的论文都说了啥?
9120
【CVPR2020】百度入选22篇论文涵盖全视觉领域!
6040
[计算机视觉论文速递] 2018-03-18
1.3K0
相关推荐
图片+音频秒变视频!西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档