雷锋网 AI 科技评论按:本文发布于Google AI Blog,介绍了 Google 一项最新研究成果——自监督学习下的视频着色模型,还可以直接用于视频目标跟踪和人体姿态估计。雷锋网 AI 科技评论根据原文进行了编译。
跟踪视频中的运动对象是计算机视觉中的一个基本问题,这对于动作识别(Activity recognition)、对象交互(Object interaction)或者是视频风格转化(Video Stylization)等应用的研究而言尤为重要。但是,由于教会机器以可视化的方式去跟踪视频中的主体,需要数量巨大且具有标签的数据(大规模标注视频数据不具有可行性)用来训练,所以这项任务也非常具有挑战性。
在论文《Tracking Emerges by Colorizing Videos》中,谷歌的研究人员们构思了一种卷积网络,该网络可以从单个参考帧中复制颜色,然后对灰度视频中的内容上色。通过这种做法,网络学会了在没有监督信息辅助的情况下,自动地可视化跟踪视频中的主体。重要的是,尽管该模型从未显式地进行过「目标跟踪任务」的训练,但是它却能够同时跟踪多个对象,甚至在遇到遮挡或者变形的情况下依然保持健壮性(Robust),这一切的实现都不需要用到任何标签数据。
目标跟踪预测结果样例展示,这些样例来自于公开的学术数据集DAVIS 2017。在模型学会了给视频着色之后,目标跟踪机制会在没有提供任何监督信息的情况下自动被模型掌握。研究人员们会在第一帧中为模型指定感兴趣的区域(通过不同的颜色表示),然后模型在没有进行任何额外的学习或者提供监督信息的情况下,自动为后续帧中的目标进行着色。
学习为视频再着色
谷歌的研究人员们提出了一个假设,颜色的时间域一致性(Temporal coherency)为教导机器跟踪视频中特定区域提供了极好的大规模训练数据。显然,当颜色在时间域上不连贯时(例如灯光突然亮起)会有例外情况,但是通常情况下,随着时间的推移视频中的颜色都能够保持稳定。此外,大多数视频都是彩色的,为模型的训练提供了规模可变的自我监督学习信号。他们将彩色视频转换为灰度视频,然后再添加着色步骤,因为一个视频中可能存在有多个物体具有相同的颜色,但是通过着色操作,他们可以教会机器去跟踪特定的目标或区域。
为了训练该系统,谷歌的研究人员们使用了来自Kinetics数据集的视频,这是一个大型且公开的视频数据集,里边的视频主要与日常活动有关。他们将除了第一帧之外的所有视频帧转换为灰度格式,然后训练神经网络以预测的方式还原后续帧中的图像色彩。为了能够准确地还原视频中的色彩,我们希望模型能够学会跟踪图像中的特定区域。他们通过观察实验结果得出的主要结论是,为了还原色彩而让模型学会跟踪图像中的特定区域,也会促使模型自动习得物体跟踪的能力。
使用来自DAVIS 2017 数据集的视频来说明视频再着色任务。该模型接收单帧彩色视频帧和一个灰度格式视频作为输入,然后预测还原出视频中其它帧的颜色。该模型学会了从给出的参考帧中复制所需的颜色,这个能力也让模型在没有人工监督的情况下学会了目标跟踪的能力。
要模型学会从给出的单帧参考图像中复制到正确颜色,这就要求模型能够隐式地学会图像帧之间的区域映射关系。这迫使模型习得可用于目标跟踪的显式机制。为了帮助读者们更好地理解视频再着色算法的机制,我们在下面展示了一些预测着色的结果,这些视频来自于 Kinetics 数据集。
通过提供的参考帧预测还原剩余帧的图像色彩,输入视频来自于公开的Kinetics 数据集
虽然网络是在没有标注数据(Ground-truth)的情况下进行训练的,但我们的模型学会了跟踪视频第一帧中指定的任意视觉区域。模型可以跟踪轮廓中的对象或是视频中的单个像素点。所需要做的唯一改变就是,现在在整个视频中传播的是代表感兴趣区域的标签,而不是颜色。
跟踪器分析
由于模型是针对大量未标记的视频进行训练的,因此谷歌的研究人员们希望能够深入了解模型学到的内容。下面的视频显示了一个标准技巧,即通过使用主成分分析法(PCA)将模型学到的嵌入向量(Embeddings)投影到 RGB 颜色空间,从而实现嵌入向量的可视化。结果表明,在模型学习到的嵌入向量空间中,最近邻倾向于等价为同一对象主体,即便是存在变形和视点变化的情况下也是如此。
第一行展示了来自于DAVIS 2017数据集的视频。第二行可视化了来自着色模型的内部嵌入向量。图中相似的嵌入向量在可视化之后会呈现出相近的颜色。这表明了学习到的嵌入向量是按照对象主体来划分图像中的像素点。
姿态跟踪
谷歌的研究人员们发现该模型还可以在初始帧给定了人体关键点之后,跟踪人体姿态。他们在公开的学术数据集JHMDB上做了可视化,展示了人体姿态估计跟踪。
该样例展示了使用着色模型实现人体骨骼点跟踪。在这种情况下,输入的第一帧是人体姿态,接着后续的姿态运动将被自动跟踪。该模型可以实现跟踪人体姿态,即便是从未被显示地针对这项任务训练过。
虽然着色模型的精确度还不能超过监督学习模型,但是它很好地学会了跟踪视频对象(Video segments)和人体姿态(Human pose),并且性能要好于最新的基于光流的模型方法(https://arxiv.org/abs/1612.01925)。对于不同运动类型的追踪性能测试表明,对于许多自然复杂性(例如动态背景、快速运动和遮挡)场景,他们的模型要优于光流模型。请阅读论文以获得更多的详情。
展望未来
谷歌的结果表明,视频着色提供了一种信号,可以用于在没有监督信息的情况下学习跟踪视频中的对象。此外,他们还发现我们模型系统的失败与视频着色的失败有关,这表明要进一步改进视频着色模型可以从推进自监督跟踪研究入手。
领取专属 10元无门槛券
私享最新 技术干货