OPPO研究院智能感知与交互研究部近期在国际顶级计算机视觉会议CVPR的多项比赛中获得领先成绩,本文将对其中一项研究成果进行概要性介绍。在论文《Visual Localization Using Semantic Segmentation and Depth Prediction》中,研究团队为视频行为识别提出了全新的工作流程,极大地提高了处理效率与识别精度。
行为检测识别是计算机视觉近些年的一个重要发展方向,从基于Kinetics的trimmed activity recognition 任务,到基于AVA的spatial-temporal action localization任务,逐步往更细致化、实用化的方向发展,核心聚焦于识别何时何地发生了什么行为。本次ActivityNet Task D ActEV SDL, 属于真实场景的行为识别,主要基于MEVA数据进行研究。
目前在spatial-temporal action localization问题上,比较主流的方法是先单独提取人体检测结果,将视频输入3D Conv模型,在最后的feature map上结合检测结果进行特征提取。在AVA(Atomic Visual Actions)数据库中定义的行为都是原子级的,持续时间短,因此用一帧的检测结果就能抽取对齐的行为特征。
然而在真实场景MEVA数据库上,主要会面临如下新问题:
ActEV SDL是ActivityNet20 guest task,由美国标准局NIST主办,需要参赛者提交整套软件系统,从而保证结果公平性、可复现,这里从系统框架开始介绍整体解决方案。
系统框架:
上图是我们的系统框架,检测跟踪用于提取人体和车辆tracklet;候选生成模块用来处理原始tracklet结果,生成后续行为分类所需的固定长度切片及人车交互片段;行为分类模块基于tracklet切片,裁剪局部范围上下文区域,结合检测结果及3D Conv进行分类;结果融合模块将结果切分的proposal结果再进行融合,形成最终结果。本工作主要聚焦于行为分类,后面介绍行为分类主体网络。
主体网络:
首先我们将行为识别任务分成人相关19类、车相关6类以及人车交互相关8类,总共三个分类模型。
其次,我们基于tracklet切片结果,设计了上下文区域选取逻辑,保证两个条件:第一,选取区域在整个视频片段中固定,而非随着人体位置变动而偏移;第二,包含一定背景区域,这对于一些交互性行为类别很有帮助。最终的选取原则是,基于tracklet切片中间帧的中心位置为区域中心,裁剪的长宽为中间帧检测长宽最大值的两倍。后续实验结果证明,该上下文区域选取有较好的效果。
我们的3D Conv模型类似于SlowFast的结构,但对两个分支都进行了修改以适应MEVA数据行为的特点:低帧率的SlowPath,在最后一层特征上不进行检测框的特征提取,以保留所有上下文信息;高帧率的FastPath在最后feature map上结合时域对齐后的多帧检测结果,经过multi-frame RoiAlign,提取到了multi-frame feature再concatenate进行分类,充当了一个前景分支的作用。这样的好处是例如骑自行车、进出门等行为类别,检测框在短时间内移动得非常明显,基于单帧抽取的feature存在明显的不对齐问题,因此multiframe特征能更好地对行为进行描述。分类实验结果也表明这个操作在MEVA上优势明显。
上图是分类模块的实验结果,可以从人体19分类的任务结果看出,多帧对齐特征的优势明显,尤其在开关门、进出场景、骑自行车等类别。
上图是NIST测试集上最终的指标结果,PARTIAL AUDC*是评价指标,我们一共提交了两个版本的软件解决方案,一个采用Ensemble策略以及5FPS的检测频率,另一个未采用Ensemble以及稍低的检测FPS,两者在运行时间上有较大变化,在指标上仅有一个点的差异。
该比赛吸引了全球范围很多行为识别方面的顶级研究机构,例如UCF、CMU、UMD、Purdue、IBM等,最终OPPO取得了第三的成绩。
领取专属 10元无门槛券
私享最新 技术干货