【今日聚焦】
自动化所胡卫明研究员课题组提出一个新的非线性层级正交自适应子空间自组织映射网络(NOASSOM),可以自适应地、无监督地学习有效的特征表示。
特征提取是行为识别中的关键步骤。手工特征往往因其固定的形式而受到限制,深度特征十分有效,但需要大规模的标签数据进行训练。
自动化所胡卫明研究员课题组提出一个新的非线性层级正交自适应子空间自组织映射网络(NOASSOM),可以自适应地、无监督地学习有效的特征表示。ASSOM是一种不同于卷积神经网络(CNN)的模型,通常情况下不用于分类预测,而是用于特征表示。ASSOM可以从数据中学习统计模式,并对学到的模式进行自组织排列,从而对输入数据进行特征表示。但是ASSOM只能处理有标签的数据,并且只针对线性化的数据有效,无法胜任其他复杂情形。NOASSOM的提出解决了ASSOM的这两个重要问题,相关成果发表在AAAI2018上。
来自网络
首先,研究人员引入一个非线性正交映射层,NOASSOM能够处理非线性的输入数据,并使用核函数来避免定义该映射的具体形式。其次,修改ASSOM的损失函数,使输入数据的每个样本可以独立地贡献于损失函数,而不需要标签。这样,NOASSOM可以有效地、无监督地学习数据的统计模式。
来自文章
通过修改损失函数使每个样本独立地贡献于损失函数,而不必使用Class-specific 的数据进行有监督训练。研究人员使用随机梯度下降法对网络进行训练。在每次迭代之后,重新对基向量进行正交化处理。
研究人员还同时提出了一个层级的NOASSOM来提取高层的抽象的特征表示,来有效地描述视频中行为轨迹的表观和运动信息。最后研究人员构建了一个层级的NOASSOM结构提取视频中的局部行为特征,使用FISHER VECTOR进行聚合编码,采用SVM进行分类。
研究人员可视化了训练结束后的基向量,从动作行为的表观信息和运动信息学到的滤波器,如上图所示。左边是表观信息滤波器,右边是运动信息滤波器。可以看出表观信息滤波器可以学到一些类似边缘检测的滤波器,这样类型的滤波器对图像的水平边沿和垂直边沿能进行检测,从而提取良好的轮廓纹理信息。右边的运动信息滤波器学到了一些类似Gabor滤波器的滤波器,这样的滤波器对运动信息更加敏感,实现对运动信息进行良好的提取。
来自网络
NOASSOM在国际公开大型数据集UCF101, HMDB51和小型数据集KTH上进行了评测,获得了93.8%,69.3%和98.2%的识别率。在UCF101和HMDB51上,分别超出使用手工特征的iDt+HSV基准方法5.9%和8.2%,并且分别超出使用卷积神经网络模型的iDt+CNN方法2.3%和3.4%,在KTH上超过iDT+MBH的基准方法3.2%以及基于3D CNN的方法8.0%。公开数据集上的实验结果表明,这种方法优于之前基于手工特征的方法和大多基于深度特征的方法。该方法的独特优势在于,可以从大量没有标签的数据进行更加快速的训练,并且获得和其他基于有标签数据方法性能相当甚至更加优越的性能。此外,在小数据库上,性能更加由于基于CNN的方法。
文章信息
Hierarchical Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map based Feature Extraction for Human Action Recognition
Yang Du, Chunfeng Yuan*, Weiming Hu, Hao Yang
领取专属 10元无门槛券
私享最新 技术干货