还记得前些天风靡网络的FaceApp吗,它是利用AI算法的自拍应用,把人们上传的照片中的人脸变年轻或者老化。
显然这是针对移动设备的,而且需要静态照片,自然图像的生成模型通过对尺度的强大利用,已经向高保真度的样本发展。那么对于视频建模来说,如今的算法技术又有什么突破呢?
DeepMind在该领域的研究又进一步,最新论文“Efficient Video Generation on Complex Datasets”详细介绍了AI剪辑生成领域的最新进展,通过展示在复杂的Kinetics-600数据集上训练的大型生成式对抗网络能够生成比以往复杂得多的视频样本。
生成自然视频对于生成建模来说是一个明显的进一步挑战,但却受到数据复杂性和计算要求增加的困扰,过去许多关于视频生成的研究都围绕着相对简单的数据集或可获得强时间条件信息的任务。团队专注于视频合成和视频预测的任务,旨在将生成图像模型的强大结果扩展到视频领域。
论文摘要
研究人员提出模型双视频鉴频器GAN(DVD-GAN),通过利用其鉴频器的计算效率分解,扩展到更长的和更高分辨率的视频,得到显著的高保真度,256 x 256像素视频,最多48帧。
团队围绕尖端的AI架构构建了他们的系统,并引入了视频特定的调整,使其能够在Kinetics-600上进行训练,这是一个比常用语料库大一个数量级的自然视频数据集。
具体来说,研究人员利用扩大的生成对抗网络,这里用的是BigGANs,它们以其大批量和数百万个参数而著称。
一组4秒合成视频剪辑,在Kinetics-600的12个128×128帧上训练
DVD-GAN包含双鉴别器:空间鉴别器,通过随机采样全分辨率帧并单独处理它们来批评单个帧的内容和结构,以及提供学习信号以产生运动的时间鉴别器。一个单独的模块变换器,允许学习的信息在整个AI模型中传播。
至于训练数据集(Kinetics-600),是根据最初为人类行为识别策划的50万个10秒高分辨率YouTube剪辑编制的,多样化且不受限制,因此这些数据消除了过度拟合的担忧。
该团队报告说,在经过谷歌加速的第三代Tensor处理单元训练12到96小时后,DVD-GAN成功地创建了具有物体组成、运动、甚至像溜冰场侧面这样复杂纹理的视频。
它在更高的分辨率下创建连贯的物体并不容易,其中运动由更多的像素组成,但研究人员指出,在UCF-101(13320个人类行为视频的较小数据集)上评估,DVD-GAN生产的样本最先进的成绩分数为32.97。
DeepMind DVD-GAN
团队表示,“我们希望强化在大型复杂视频数据集上训练生成模型,例如Kinetics-600,我们设想通过DVD-GAN在此数据集上建立的强大基线,将被生成建模社区用作参考点。虽然在不受约束的环境中可以始终如一地生成逼真的视频还有很多工作要做,但我们相信DVD-GAN是朝这个方向迈出的一大步。”
论文:
arxiv.org/pdf/1907.06571.pdf
Kinetics数据集:
deepmind.com/research/open-source/open-source-datasets/kinetics