获取完整原文和代码,公众号回复:09079897621
论文地址: http://arxiv.org/pdf/2009.00210v5.pdf
代码: 公众号回复:09079897621
来源: 中山大学
论文名称:Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision Action Recognition
原文作者:Yang Liu
内容提要
现有的基于视觉的动作识别容易受到遮挡和外观变化的影响,而可穿戴传感器可以通过一维时间序列信号(如加速度、陀螺仪和方向)捕捉人体运动,从而减少上述问题。对于同样的动作,从视觉传感器(视频或图像)和可穿戴传感器学到的知识可能是相关和互补的。然而,可穿戴传感器与视觉传感器采集的动作数据在数据维度、数据分布、固有信息内容等方面存在显著的模态差异。在本文中,我们提出了一个新的框架,名为语义感知自适应知识蒸馏网络(SAKDN),通过从多个可穿戴传感器中自适应地转移和提取知识来增强视觉传感器模式(视频)中的动作识别。SAKDN使用多个可穿戴传感器作为教师模式,并使用RGB视频作为学生模式。为了保持局部时间关系,促进视觉深度学习模型的应用,我们设计了一个基于格拉姆角场的虚拟图像生成模型,将可穿戴传感器的一维时间序列信号转化为二维图像。然后,我们引入了一种新的保持相似度的自适应多模态融合模块(SPAMFM)来自适应地融合来自不同教师网络的中间表示知识。最后,为了充分利用多个训练有素的教师网络的知识并将其转移到学生网络中,我们提出了一个新的图引导语义判别映射(GSDM)模块,它利用图形引导消融分析产生一个良好的视觉解释,突出各模式的重要区域,同时保存原始数据的相互关系。在Berkeley-MHAD、UTD-MHAD和MMAct数据集上的实验结果很好地证明了我们提出的SAKDN对于从可穿戴传感器模式到视觉传感器模式的自适应知识转移的有效性。
主要框架及实验结果
声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请联系删除。