今天,Google发布了一组视频中人类动作识别数据集。虽然听起来有些晦涩难懂,但对致力于解决计算机视觉问题研究的人来说,这是一件大事。如果一直关注这个领域的话,你会发现各个公司推出的类似于人的第二双眼睛的产品和服务比重有明显增长,比如Matroid视频探测器,Lighthouse安全系统,甚至是通过视频对环境做出了解的无人驾驶汽车,他们均是基于良好的标签数据集来进行训练和基准测试的。
Google的AVA是原子视觉动作(Atomic Visual Actions)的缩写。与其他数据集相比,AVA是通过在相关场景中提供多个标签来提升档次的。这就在复杂场景中增加了更多细节要求,并为现有模型带来了更严格的挑战。
在谷歌的博客文章中,对人类行为难以归类的原因作出了详细的解释。与静态对象不同的是,动作会随着时间的推移而展开,也就是说会有更多的不确定因素需要解决。一张一个人跑步的照片实际上可能只是一个人在跳的照片,但是随着时间的推移,随着越来越多的画面添加进去,才能清楚的知道到底发生了什么。可以想象下,两个人在一个场景中互动会有多复杂。
在其博客文章中,Google做了很好的工作,解释了人类行为如何难以分类。随着时间的推移,动作与静态对象不同,简单说就是要解决更多的不确定性。一个人的照片实际上可能只是一个人的图片,但随着时间的推移,随着越来越多的帧被添加,它变得清楚了真正发生了什么。你可以想象,两个人在一个场景中进行互动,会有多么复杂的事情。
尽管许多基准数据集,例如UCF101,ActivityNet和DeepMind Kinetics,采用了图像分类的标签方案,并为数据集中的每个视频或视频剪辑分配一个标签,但包含多人不同动作的复杂场景的数据集仍不存在。 而AVA由超过57,000个视频片段组成,其中人类标签有96000个,标签数量总计210000个。这些从YouTube视频中提取的片段间隔只有三秒。然后再用80个潜在的动作类型(如步行,踢腿或拥抱)进行手动标记。
Google五月份在arXiv上发表了一篇文章,首次公布了AVA的创建工作,并于7月份做出更新。 该文章中的初步实验表明,Google的数据集对于现有的分类技术来说是非常困难的——下面显示了旧版JHMDB数据集与新版AVA数据集性能之间的对比。
谷歌表示,AVA的发布将有助于人类行为识别系统的研发,在个人行为的层面,为基于精确时空粒度的标签对复杂活动进行建模提供了机会。
领取专属 10元无门槛券
私享最新 技术干货