前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

作者头像
马上科普尚尚
发布2020-05-11 15:50:35
1.6K0
发布2020-05-11 15:50:35
举报
文章被收录于专栏:人工智能前沿讲习

关注文章公众号 回复"杨凌波"获取PPT资料 视频资料可点击下方阅读原文在线观看

导读


合成特定姿态下的人物图像,并进一步让人物动起来,做出逼真,连贯的动作,是多媒体领域颇具趣味的研究方向。近年来,图像生成及图像翻译领域快速发展,为人物动作视频合成问题提供了有效的实现路径。利用骨架+纹理特征合成视频帧的研究思路,现有研究取得了一定突破,已经能够合成较为流畅的高分辨率人物动作视频,但在处理遮挡,提升动作真实性,以及特征解耦等方面还有明显改进空间。本次讲座将带大家一同回顾人物动作视频生成的发展历程,解读若干最新的重要成果,并同大家共同探讨未来的发展趋势。

作者简介


杨凌波,北京大学数字媒体研究所在读博士生,本科毕业于北大数学系数学与应用数学专业。目前主要研究方向为骨架引导下的人物图像/视频生成。

杨凌波

前言


基于姿态的人物图像/视频合成,可以分为两个子问题:学习足以表达,刻画人体结构及人物动作的特征表示,以及学习从特征表示到人物图像/视频帧空间的生成映射。随着人体姿态估计及条件图像生成/翻译领域的发展,上述两个子问题有了相应的解决途径,在若干局部取得了可喜的进展。下面将扼要介绍四篇人物图像/视频生成领域的经典工作,简要分析其创新点及局限性,并简要总结该领域当前面临的问题与挑战。

相关工作


MaLiqian等人于2017年NIPS(现NeurIPS)发文“Pose guided Person Image Generation”,首次明确了人物姿态图像合成问题的一般形式:给定一张内容图像(content image)和待合成目标姿态(target pose),生成图像中人物在新姿态下的外观,如下图所示:

本篇文章中提出了一种两段式学习框架,通过从粗到精的方式合成新姿态下的人物图像:第一阶段首先合成目标姿态下人物的大体轮廓,并大致保持衣着颜色;第二阶段在前一阶段的结果基础上再学习精细的残差,增强合成图像的细节纹理。训练流程图如下所示:

在DeepFashion数据集上的生成效果如下所示:

在生成方面,作者直接借鉴了同时期图像翻译工作pix2pix的网络设计,通过引入跳层连接(skip connection)保持原图的纹理细节。

Alexander Siarohin等人考虑到姿态迁移问题中的结构不一致性,提出了Deformable GAN,利用“形变跳层连接“(deformable skip connection)来保持纹理信息与骨架位置的对应关系,原理图如下:

通过形变跳层连接将人体不同部位的纹理信息“搬“到新的姿态骨架上,Deformable GAN能够保留更多的纹理信息,显著提升了生成的图像质量:

前两种方法都只考虑2D层面的人物特征提取,因此无法很好处理遮挡的情形,下图即为一例:

Facebook则另辟蹊径,提出了一种更为丰富,考虑人体3D表面信息的姿态表示Densepose(http://densepose.org/):

基于Densepose表示,Facebook进一步提出了Dense Pose Transfer,通过融合生成网络预测(predict)模块及人物纹理形变(warpping)模块的结果来获得更为鲁棒的人体姿态外观表征:

与Deformable GAN相比,Dense Pose Transfer由于在姿态表示中融合了人体表面纹理信息,从而能够更好地保持衣着纹理细节,并有效解决一部分的遮挡,断肢等问题。下图中第一行为Deformable GAN的结果,第二行为Dense pose transfer的结果:

与图像生成不同,视频动作生成的工作更多收到图像翻译(Image-to-image translation)的启发,直接学习人体骨架图到真实视频帧的映射,纹理信息完全由数据驱动的方式从训练视频中提取。Berkeley AI Lab的Caroline Chan等人于2018年Siggraph提出EverybodyDance Now,首次合成了高分辨率的人物舞蹈动作视频(视频地址:https://www.youtube.com/watch?v=PCBTZh41Ris)。

EverybodyDance Now综合了生成领域的各种实现技巧:骨架尺寸归一化,前后帧联合预测提升时域一致性,以及人脸部分单独增强等(相应的图可以从PPT里直接找到)。

问题与挑战


人物动作视频生成问题自提出至今不足两年,尚属初期阶段,各种不同的特征表示及生成策略纷纷出现。其中基于骨架的特征表示,以及基于图像翻译领域的pix2pix生成网络结构引领了当前研究的主流,并取得了较好的结果。个人认为,目前人物视频合成领域面临两个核心问题:其一,人物肢体遮挡造成纹理细节缺失,单纯依靠单帧图像提供纹理信息有明显缺陷,需要引入更多3D-aware的姿态特征表示,如Densepose;其二,对于自然人物动作视频的统计特性学习及表示还有待进一步发展,以便更好地建模人体运动,避免动作生硬,不连续等问题。未来基于3D人体模型及人物纹理贴图渲染的思路可能会带来下一个新的突破点。

参考文献


[1] Ma, Liqian, et al."Pose guided person image generation." Advances in NeuralInformation Processing Systems. 2017.

[2] Siarohin, Aliaksandr, etal. "Deformable gans for pose-based human image generation." CVPR20 18-Computer Vision and Pattern Recognition. 2018.

[3] Neverova, Natalia, RızaAlp Güler, and Iasonas Kokkinos. "Dense pose transfer." arXivpreprint arXiv:1809.01995 3 (2018).

[4] Chan, Caroline, et al."Everybody dance now." arXiv preprint arXiv:1808.07371 (2018).

SFFAI讲者招募

为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。

SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展,将对线下讨论的内容进行线上传播,使后来者少踩坑,也为讲者塑造个人影响力。

SFFAI还将构建人工智能领域的知识树(AI Knowledge Tree),通过汇总各位参与者贡献的领域知识,沉淀线下分享的前沿精华,使AI Knowledge Tree枝繁叶茂,为人工智能社区做出贡献。

这项意义非凡的社区工作正在稳步向前,衷心期待和感谢您的支持与奉献!

有意加入者请与我们联系:wangxl@mustedu.cn

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-01-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档