前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >【动作识别】开源 | 基于语义感知的自适应知识蒸馏的传感器-视觉动作识别

【动作识别】开源 | 基于语义感知的自适应知识蒸馏的传感器-视觉动作识别

作者头像
CNNer
发布于 2021-12-05 03:22:20
发布于 2021-12-05 03:22:20
7320
举报
文章被收录于专栏:CNNerCNNer

获取完整原文和代码,公众号回复:09079897621

论文地址: http://arxiv.org/pdf/2009.00210v5.pdf

代码: 公众号回复:09079897621

来源: 中山大学

论文名称:Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision Action Recognition

原文作者:Yang Liu

内容提要

现有的基于视觉的动作识别容易受到遮挡和外观变化的影响,而可穿戴传感器可以通过一维时间序列信号(如加速度、陀螺仪和方向)捕捉人体运动,从而减少上述问题。对于同样的动作,从视觉传感器(视频或图像)和可穿戴传感器学到的知识可能是相关和互补的。然而,可穿戴传感器与视觉传感器采集的动作数据在数据维度、数据分布、固有信息内容等方面存在显著的模态差异。在本文中,我们提出了一个新的框架,名为语义感知自适应知识蒸馏网络(SAKDN),通过从多个可穿戴传感器中自适应地转移和提取知识来增强视觉传感器模式(视频)中的动作识别。SAKDN使用多个可穿戴传感器作为教师模式,并使用RGB视频作为学生模式。为了保持局部时间关系,促进视觉深度学习模型的应用,我们设计了一个基于格拉姆角场的虚拟图像生成模型,将可穿戴传感器的一维时间序列信号转化为二维图像。然后,我们引入了一种新的保持相似度的自适应多模态融合模块(SPAMFM)来自适应地融合来自不同教师网络的中间表示知识。最后,为了充分利用多个训练有素的教师网络的知识并将其转移到学生网络中,我们提出了一个新的图引导语义判别映射(GSDM)模块,它利用图形引导消融分析产生一个良好的视觉解释,突出各模式的重要区域,同时保存原始数据的相互关系。在Berkeley-MHAD、UTD-MHAD和MMAct数据集上的实验结果很好地证明了我们提出的SAKDN对于从可穿戴传感器模式到视觉传感器模式的自适应知识转移的有效性。

主要框架及实验结果

声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请联系删除。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CNNer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CIR-DFENet:结合跨模态图像表示和双流特征增强网络进行活动识别
人类活动识别(HAR)在健康监测、智能家居、运动辅助等领域有着广泛的应用。随着可穿戴设备的普及,基于传感器数据的HAR成为了研究热点。传统的HAR方法依赖于专家手动提取特征,虽然具有一定的透明性和计算效率,但存在以下问题:
是Dream呀
2025/03/02
1250
CIR-DFENet:结合跨模态图像表示和双流特征增强网络进行活动识别
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
近期,机器人技术和自动驾驶系统利用实时的深度传感器,如激光雷达(LiDARs),来实现三维感知。激光雷达产生的点云可以提供丰富的几何信息,并帮助机器理解环境感知。早期方法集中于从静态点云中解析现实世界,忽略了时间变化。为了更好地理解时间变化的世界,近期研究更专注于在4D空间理解点云视频,包括三个空间维度和一个时间维度。已有几项工作在4D点云建模方面取得进展。这些方法要么旨在设计改进的网络来建模4D点云,要么采用自监督方法来提高4D点云表示的效率。
AIGC 先锋科技
2024/07/08
3740
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
融合YOLO11与行为树的人机协作智能框架:动态工效学优化与自适应安全决策
人工智能技术要真正发挥其价值,必须与生产生活深度融合,为产业发展和人类生活带来实际效益。近年来,基于深度学习的机器视觉技术在工业自动化领域取得了显著进展,其中YOLO(You Only Look Once)算法作为一种先进的实时目标检测算法,在工业视觉检测中展现出独特优势。今天本文介绍YOLO11算法与工业场景落地应用的相结合。
CoovallyAIHub
2025/03/27
1080
融合YOLO11与行为树的人机协作智能框架:动态工效学优化与自适应安全决策
ICCV2023开源 DistillBEV:巧妙利用跨模态知识蒸馏方法,斩获目标检测SOTA!
目前基于多相机BEV的三维目标检测方法与基于激光雷达的方法还存在明显的性能差距 ,这是由于激光雷达可以捕获精确的深度和几何信息 ,而仅从图像中推断三维信息具有挑战性。文章提出了一种跨模态知识蒸馏方法DistillBEV ,通过让学生模型(基于多相机BEV)模仿教师模型(基于激光雷达)的特征 ,实现多相机三维检测的性能提升。提出了区域分解、自适应缩放、空间注意力等机制进行平衡 ,并扩展到多尺度层和时序信息的融合。在nuScenes数据集上验证了方法的有效性 ,多个学生模型都获得了显著提升 ,优于其他蒸馏方法和当前多相机三维检测SOTA。特别是BEVFormer的mAP提升达4.4% ,NDS提升4.2%。这种跨模态的知识蒸馏为弥合多相机三维检测与激光雷达检测的差距提供了新的思路。方法具有通用性 ,可广泛应用于包括CNN和Transformer的各种学生模型。是自动驾驶领域一个值得关注的进展。未来可将该方法推广到其他多相机三维感知任务 ,如分割、跟踪等;结合更多传感器进行跨模态融合;探索其他表示学习与迁移的方式等。三维环境理解仍需持续努力 ,期待跨模态学习带来更大突破。
BBuf
2023/10/19
8010
ICCV2023开源 DistillBEV:巧妙利用跨模态知识蒸馏方法,斩获目标检测SOTA!
C-MHAD:多模态/连续动作检测数据集(附数据+Baseline代码)
2020年,UTD Embedded Machine Learning Lab 发布了一个新的多模态(视频+惯性传感)连续运动检测数据集。基于这个数据集,作者也同时发布了基于pytorch的baseline代码。
代码医生工作室
2020/06/16
1.7K0
C-MHAD:多模态/连续动作检测数据集(附数据+Baseline代码)
LLM 视觉语言模型在动作识别中是否有效?
近年来,得益于大规模预训练,许多视觉语言基础模型在许多下游视觉任务上取得了显著成果,展现出了强大的泛化能力。其中,具有视觉语言预训练的模型,如 CLIP 及其在视频任务上的成功继承者,彻底改变了众多下游任务,展示了前所未有的灵活性和性能。
AIGC 先锋科技
2024/11/11
2080
LLM 视觉语言模型在动作识别中是否有效?
多模态数据的行为识别综述
摘要:行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。
一点人工一点智能
2022/12/27
2.6K0
多模态数据的行为识别综述
一文读懂:图卷积在基于骨架的动作识别中的应用
人的骨架是什么?相信没有谁比我们自己更了解我们身体的构造了。通俗地说,人骨架框架包括六个部分——头部、左手、右手、躯干、左脚和右脚。
机器之心
2019/12/11
1.8K0
一文读懂:图卷积在基于骨架的动作识别中的应用
多模态人机交互国内研究进展
在大数据可视化领域,国内的发展也已经逐渐走向成熟,每年都有许多可视分析系统不断涌现。近年,沉浸式大数据可视化得到了发展,浙江大学的探索了如图 1所示的无缝结合羽毛球比赛数据绘制的2D和3D可视化视图的问题,Chu等人(2022)探索了结合高度来凸显羽毛球数据中多个战术之间存在的差异性问题,如图 2所示。由此可以看出,沉浸式大数据可视化对数据分析和展示问题提出了有效的解决方法。
一点人工一点智能
2022/12/27
1.3K0
多模态人机交互国内研究进展
万字综述 | 自动驾驶多传感器融合感知
原文:Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
一点人工一点智能
2022/10/07
5K0
万字综述 | 自动驾驶多传感器融合感知
基于CLIP,浙大提出:ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
本文分享论文『ActionCLIP: A New Paradigm for Video Action Recognition』,假设视频动作识别不是分类问题,而是检索问题?并基于 CLIP,浙大提出 ActionCLIP,用检索的思想做视频动作识别!性能 SOTA!代码已开源!
CV君
2021/12/02
2.6K0
基于CLIP,浙大提出:ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
传感器是未来世界的核心(上)
我们知道未来整个科技行业最大的主题是5G,5G是整个通信的基础设施,在5G之后主要是三个问题,第一个是如何输入数据,第二是如何处理数据,第三,如何输出转化数据。在输入数据中,最核心的是物联网,而物联网中最重中之重是传感器。所以整个传感器行业未来空间是比较大的。这里先介绍一下传感器,第一,市场需求、需求的空间;第二,介绍一下技术路线;第三,介绍一下目前的竞争格局。
物流IT圈
2019/12/23
5920
多模态人机交互国际研究现状
陶建华, 巫英才, 喻纯, 翁冬冬, 李冠君, 韩腾, 王运涛, 刘斌. 2022. 多模态人机交互综述. 中国图象图形学报, 27(6): 1956-1987
一点人工一点智能
2022/12/27
2.3K0
多模态人机交互国际研究现状
提高人类活动识别准确性的新方法:空间注意力与遗传算法的结合
人类活动识别(Human Activity Recognition, HAR)是环境计算和情境感知计算领域中一个重要的研究主题。随着智能手机和可穿戴设备的普及,HAR在诸如智能监控系统、健康护理、异常行为检测以及人机交互等多个领域变得越来越重要。HAR的目标是通过分析从各种传感器获得的数据来识别个体正在进行的活动。
是Dream呀
2025/03/15
1020
提高人类活动识别准确性的新方法:空间注意力与遗传算法的结合
TCN-Inception:基于时序卷积网络和Inception模块的传感器人体活动识别方法
人体活动识别(HAR)作为人机交互、智能医疗和物联网应用的核心技术,面临传统方法对时序特征捕获不足的挑战。现有深度学习方法(如CNN和LSTM)在长期依赖性和计算效率方面存在局限,我们提出了一种融合时序卷积网络(TCN)与Inception模块的新型架构TCN-Inception。该模型通过多尺度特征提取和膨胀卷积机制,显著提升了传感器时序数据的建模能力。
是Dream呀
2025/03/04
1230
TCN-Inception:基于时序卷积网络和Inception模块的传感器人体活动识别方法
CVPR2022:局部和全局知识蒸馏用于目标检测(源代码开源)
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2111.11837.pdf 源代码: https://github.com/yzd-v/FGD 计算机视觉研究院专栏 作者:Edison_G 知识蒸馏已成功应用于图像分类。然而目标检测要复杂得多,大多数知识蒸馏方法都失败了。 01 前言 在目标检测中,教师和学生的特征在不同的区域有很大的差异,尤其是在前景和背景中。如
计算机视觉研究院
2022/04/06
8620
CVPR2022:局部和全局知识蒸馏用于目标检测(源代码开源)
CVPR 2020 论文大盘点-动作识别篇
本文盘点所有CVPR 2020 动作识别(Action Recognition )相关论文,该方向也常被称为视频分类(Video Classification )。从后面的名字可以看出该任务就是对含人体动作的视频进行分类。
小白学视觉
2020/07/16
1.3K0
CVPR 2020 论文大盘点-动作识别篇
AI通过手机传感器数据预测大学生的情绪和压力
大学生的生活充满种种压力。而压力对健康有诸多负面影响已被充分证明。如果不及时治疗,它会引起心血管疾病,影响记忆和认知,甚至抑制免疫系统。
AiTechYun
2019/07/22
6540
Self-Ensembling with GAN-based Data Augmentation for Domain Adaptation in Semantic Segmentation
 基于深度学习的语义分割方法有一个内在的局限性,即训练模型需要大量具有像素级标注的数据。为了解决这一具有挑战性的问题,许多研究人员将注意力集中在无监督的领域自适应语义分割上。无监督域自适应试图使在源域上训练的模型适应目标域。在本文中,我们介绍了一种自组装技术,这是分类中领域自适应的成功方法之一。然而,将自组装应用于语义分割是非常困难的,因为自组装中使用的经过大量调整的手动数据增强对于减少语义分割中的大的领域差距没有用处。为了克服这一限制,我们提出了一个由两个相互补充的组件组成的新框架。首先,我们提出了一种基于生成对抗性网络(GANs)的数据扩充方法,该方法在计算上高效,有助于领域对齐。给定这些增强图像,我们应用自组装来提高分割网络在目标域上的性能。所提出的方法在无监督领域自适应基准上优于最先进的语义分割方法。
狼啸风云
2023/10/07
2860
Self-Ensembling with GAN-based Data Augmentation for Domain Adaptation in Semantic Segmentation
TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 本文对最近被 TPAMI 接收的一篇综述文章 Human Action Recognition from Various Data Modalities: A Review(基于不同数据模态的人类动作识别综述)进行解读。 原综述文章地址:https:arxiv.org/pdf/2012.11866.pdf 1 概述 人类动作识别(Human Action Recognition, HAR)旨在理解人类的行为,并为每个行为分配一个标签。多
OpenCV学堂
2022/09/19
1.6K0
TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
推荐阅读
CIR-DFENet:结合跨模态图像表示和双流特征增强网络进行活动识别
1250
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
3740
融合YOLO11与行为树的人机协作智能框架:动态工效学优化与自适应安全决策
1080
ICCV2023开源 DistillBEV:巧妙利用跨模态知识蒸馏方法,斩获目标检测SOTA!
8010
C-MHAD:多模态/连续动作检测数据集(附数据+Baseline代码)
1.7K0
LLM 视觉语言模型在动作识别中是否有效?
2080
多模态数据的行为识别综述
2.6K0
一文读懂:图卷积在基于骨架的动作识别中的应用
1.8K0
多模态人机交互国内研究进展
1.3K0
万字综述 | 自动驾驶多传感器融合感知
5K0
基于CLIP,浙大提出:ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
2.6K0
传感器是未来世界的核心(上)
5920
多模态人机交互国际研究现状
2.3K0
提高人类活动识别准确性的新方法:空间注意力与遗传算法的结合
1020
TCN-Inception:基于时序卷积网络和Inception模块的传感器人体活动识别方法
1230
CVPR2022:局部和全局知识蒸馏用于目标检测(源代码开源)
8620
CVPR 2020 论文大盘点-动作识别篇
1.3K0
AI通过手机传感器数据预测大学生的情绪和压力
6540
Self-Ensembling with GAN-based Data Augmentation for Domain Adaptation in Semantic Segmentation
2860
TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
1.6K0
相关推荐
CIR-DFENet:结合跨模态图像表示和双流特征增强网络进行活动识别
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文