Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【动作识别】开源 | 基于语义感知的自适应知识蒸馏的传感器-视觉动作识别

【动作识别】开源 | 基于语义感知的自适应知识蒸馏的传感器-视觉动作识别

作者头像
CNNer
发布于 2021-12-05 03:22:20
发布于 2021-12-05 03:22:20
7410
举报
文章被收录于专栏:CNNerCNNer

获取完整原文和代码,公众号回复:09079897621

论文地址: http://arxiv.org/pdf/2009.00210v5.pdf

代码: 公众号回复:09079897621

来源: 中山大学

论文名称:Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision Action Recognition

原文作者:Yang Liu

内容提要

现有的基于视觉的动作识别容易受到遮挡和外观变化的影响,而可穿戴传感器可以通过一维时间序列信号(如加速度、陀螺仪和方向)捕捉人体运动,从而减少上述问题。对于同样的动作,从视觉传感器(视频或图像)和可穿戴传感器学到的知识可能是相关和互补的。然而,可穿戴传感器与视觉传感器采集的动作数据在数据维度、数据分布、固有信息内容等方面存在显著的模态差异。在本文中,我们提出了一个新的框架,名为语义感知自适应知识蒸馏网络(SAKDN),通过从多个可穿戴传感器中自适应地转移和提取知识来增强视觉传感器模式(视频)中的动作识别。SAKDN使用多个可穿戴传感器作为教师模式,并使用RGB视频作为学生模式。为了保持局部时间关系,促进视觉深度学习模型的应用,我们设计了一个基于格拉姆角场的虚拟图像生成模型,将可穿戴传感器的一维时间序列信号转化为二维图像。然后,我们引入了一种新的保持相似度的自适应多模态融合模块(SPAMFM)来自适应地融合来自不同教师网络的中间表示知识。最后,为了充分利用多个训练有素的教师网络的知识并将其转移到学生网络中,我们提出了一个新的图引导语义判别映射(GSDM)模块,它利用图形引导消融分析产生一个良好的视觉解释,突出各模式的重要区域,同时保存原始数据的相互关系。在Berkeley-MHAD、UTD-MHAD和MMAct数据集上的实验结果很好地证明了我们提出的SAKDN对于从可穿戴传感器模式到视觉传感器模式的自适应知识转移的有效性。

主要框架及实验结果

声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请联系删除。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CNNer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
C-MHAD:多模态/连续动作检测数据集(附数据+Baseline代码)
2020年,UTD Embedded Machine Learning Lab 发布了一个新的多模态(视频+惯性传感)连续运动检测数据集。基于这个数据集,作者也同时发布了基于pytorch的baseline代码。
代码医生工作室
2020/06/16
1.7K0
C-MHAD:多模态/连续动作检测数据集(附数据+Baseline代码)
基于视觉和惯性传感器的移动机器人手遥操作系统
论文:A Mobile Robot Hand-Arm Teleoperation System by Vision and IMU
3D视觉工坊
2020/12/11
6590
基于视觉和惯性传感器的移动机器人手遥操作系统
多模态人机交互国内研究进展
在大数据可视化领域,国内的发展也已经逐渐走向成熟,每年都有许多可视分析系统不断涌现。近年,沉浸式大数据可视化得到了发展,浙江大学的探索了如图 1所示的无缝结合羽毛球比赛数据绘制的2D和3D可视化视图的问题,Chu等人(2022)探索了结合高度来凸显羽毛球数据中多个战术之间存在的差异性问题,如图 2所示。由此可以看出,沉浸式大数据可视化对数据分析和展示问题提出了有效的解决方法。
一点人工一点智能
2022/12/27
1.3K0
多模态人机交互国内研究进展
充满传感器的世界如何改变我们?
一个充满传感器的世界将会如何改变我们所见、所闻、所思和生活的方式? 这里有一个有趣的实验:请你试着数数,现在有多少传感器围绕在你身边。你的计算机上有摄像头和微型麦克风,智能手机中有GPS传感器和陀螺仪,健身追踪器中有加速计……如果你在一个现代化的办公大楼上班,或住在新装修的房子里,传感器会不断探测你的行动以及周围环境的温度和湿度。 传感器在我们的生活中已无所不在,这是因为它们也遵循摩尔定律:传感器一直在变得更小、更便宜、更强大。陀螺仪和加速计现在已经是智能手机的标配,但几十年前,它们还都是体积庞大、价格昂
大数据文摘
2018/05/22
6050
传感器是未来世界的核心(上)
我们知道未来整个科技行业最大的主题是5G,5G是整个通信的基础设施,在5G之后主要是三个问题,第一个是如何输入数据,第二是如何处理数据,第三,如何输出转化数据。在输入数据中,最核心的是物联网,而物联网中最重中之重是传感器。所以整个传感器行业未来空间是比较大的。这里先介绍一下传感器,第一,市场需求、需求的空间;第二,介绍一下技术路线;第三,介绍一下目前的竞争格局。
物流IT圈
2019/12/23
5920
AI通过手机传感器数据预测大学生的情绪和压力
大学生的生活充满种种压力。而压力对健康有诸多负面影响已被充分证明。如果不及时治疗,它会引起心血管疾病,影响记忆和认知,甚至抑制免疫系统。
AiTechYun
2019/07/22
6800
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
近期,机器人技术和自动驾驶系统利用实时的深度传感器,如激光雷达(LiDARs),来实现三维感知。激光雷达产生的点云可以提供丰富的几何信息,并帮助机器理解环境感知。早期方法集中于从静态点云中解析现实世界,忽略了时间变化。为了更好地理解时间变化的世界,近期研究更专注于在4D空间理解点云视频,包括三个空间维度和一个时间维度。已有几项工作在4D点云建模方面取得进展。这些方法要么旨在设计改进的网络来建模4D点云,要么采用自监督方法来提高4D点云表示的效率。
AIGC 先锋科技
2024/07/08
4160
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
CVPR2022:局部和全局知识蒸馏用于目标检测(源代码开源)
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2111.11837.pdf 源代码: https://github.com/yzd-v/FGD 计算机视觉研究院专栏 作者:Edison_G 知识蒸馏已成功应用于图像分类。然而目标检测要复杂得多,大多数知识蒸馏方法都失败了。 01 前言 在目标检测中,教师和学生的特征在不同的区域有很大的差异,尤其是在前景和背景中。如
计算机视觉研究院
2022/04/06
8780
CVPR2022:局部和全局知识蒸馏用于目标检测(源代码开源)
随身携带的动捕系统!基于稀疏惯性传感器的实时人体动作捕捉 | SIGGRAPH 2021
本文是对发表于计算机图形学顶级会议SIGGRAPH 2021 的论文《 TransPose: Real-time 3D Human Translation and Pose Estimation with Six Inertial Sensors 》的解读。
AI科技评论
2021/05/19
4.1K0
随身携带的动捕系统!基于稀疏惯性传感器的实时人体动作捕捉 | SIGGRAPH 2021
Self-Ensembling with GAN-based Data Augmentation for Domain Adaptation in Semantic Segmentation
 基于深度学习的语义分割方法有一个内在的局限性,即训练模型需要大量具有像素级标注的数据。为了解决这一具有挑战性的问题,许多研究人员将注意力集中在无监督的领域自适应语义分割上。无监督域自适应试图使在源域上训练的模型适应目标域。在本文中,我们介绍了一种自组装技术,这是分类中领域自适应的成功方法之一。然而,将自组装应用于语义分割是非常困难的,因为自组装中使用的经过大量调整的手动数据增强对于减少语义分割中的大的领域差距没有用处。为了克服这一限制,我们提出了一个由两个相互补充的组件组成的新框架。首先,我们提出了一种基于生成对抗性网络(GANs)的数据扩充方法,该方法在计算上高效,有助于领域对齐。给定这些增强图像,我们应用自组装来提高分割网络在目标域上的性能。所提出的方法在无监督领域自适应基准上优于最先进的语义分割方法。
狼啸风云
2023/10/07
3070
Self-Ensembling with GAN-based Data Augmentation for Domain Adaptation in Semantic Segmentation
万字综述 | 自动驾驶多传感器融合感知
原文:Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
一点人工一点智能
2022/10/07
5.1K0
万字综述 | 自动驾驶多传感器融合感知
CIR-DFENet:结合跨模态图像表示和双流特征增强网络进行活动识别
人类活动识别(HAR)在健康监测、智能家居、运动辅助等领域有着广泛的应用。随着可穿戴设备的普及,基于传感器数据的HAR成为了研究热点。传统的HAR方法依赖于专家手动提取特征,虽然具有一定的透明性和计算效率,但存在以下问题:
是Dream呀
2025/03/02
2080
CIR-DFENet:结合跨模态图像表示和双流特征增强网络进行活动识别
LLM 视觉语言模型在动作识别中是否有效?
近年来,得益于大规模预训练,许多视觉语言基础模型在许多下游视觉任务上取得了显著成果,展现出了强大的泛化能力。其中,具有视觉语言预训练的模型,如 CLIP 及其在视频任务上的成功继承者,彻底改变了众多下游任务,展示了前所未有的灵活性和性能。
AIGC 先锋科技
2024/11/11
2590
LLM 视觉语言模型在动作识别中是否有效?
TCN-Inception:基于时序卷积网络和Inception模块的传感器人体活动识别方法
人体活动识别(HAR)作为人机交互、智能医疗和物联网应用的核心技术,面临传统方法对时序特征捕获不足的挑战。现有深度学习方法(如CNN和LSTM)在长期依赖性和计算效率方面存在局限,我们提出了一种融合时序卷积网络(TCN)与Inception模块的新型架构TCN-Inception。该模型通过多尺度特征提取和膨胀卷积机制,显著提升了传感器时序数据的建模能力。
是Dream呀
2025/03/04
1680
TCN-Inception:基于时序卷积网络和Inception模块的传感器人体活动识别方法
融合YOLO11与行为树的人机协作智能框架:动态工效学优化与自适应安全决策
人工智能技术要真正发挥其价值,必须与生产生活深度融合,为产业发展和人类生活带来实际效益。近年来,基于深度学习的机器视觉技术在工业自动化领域取得了显著进展,其中YOLO(You Only Look Once)算法作为一种先进的实时目标检测算法,在工业视觉检测中展现出独特优势。今天本文介绍YOLO11算法与工业场景落地应用的相结合。
CoovallyAIHub
2025/03/27
1530
融合YOLO11与行为树的人机协作智能框架:动态工效学优化与自适应安全决策
万字综述 | 一文读懂知识蒸馏
近年来,深度神经网络在工业界和学术界都取得了成功,尤其是在计算机视觉任务方面。深度学习的巨大成功主要归因于其可扩展性以编码大规模数据并操纵数十亿个模型参数。但是,将这些繁琐的深度模型部署在资源有限的设备(例如,移动电话和嵌入式设备)上是一个挑战,这不仅是因为计算复杂性高,而且还有庞大的存储需求。为此,已经开发了多种模型压缩和加速技术。作为模型压缩和加速的代表类型,知识蒸馏有效地从大型教师模型中学习小型学生模型。它已迅速受到业界的关注。本文从知识类别,训练框架,师生架构,蒸馏算法,性能比较和应用的角度对知识蒸馏进行了全面的调查。此外,简要概述了知识蒸馏中的挑战,并讨论和转发了对未来研究的评论。
AI异构
2020/12/22
16.4K0
视频行为识别(一)——综述
本次分享的文章是2023年收录在计算机视觉领域的顶刊“CVPR”(级别:视觉类TOP)期刊上。该期刊详细信息可关注公众号 AI八倍镜 点击菜单项查询。 论文地址:https://arxiv.org/abs/2305.15692
卡伊德
2023/07/21
1.5K0
视频行为识别(一)——综述
多模态数据的行为识别综述
摘要:行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。
一点人工一点智能
2022/12/27
2.7K0
多模态数据的行为识别综述
基于CLIP,浙大提出:ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
本文分享论文『ActionCLIP: A New Paradigm for Video Action Recognition』,假设视频动作识别不是分类问题,而是检索问题?并基于 CLIP,浙大提出 ActionCLIP,用检索的思想做视频动作识别!性能 SOTA!代码已开源!
CV君
2021/12/02
2.7K0
基于CLIP,浙大提出:ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
低能耗低时耗,中科院&香港大学团队使用新方法进行多任务学习的可穿戴传感器内储层计算
编辑 | 萝卜皮 传感器内多任务学习不仅是生物视觉的关键优点,也是人工智能的主要目标。然而,传统的硅视觉芯片存在大量时间以及能量开销。此外,训练传统的深度学习模型在边缘设备上既不可扩展也不可负担。 在这里,中科院和香港大学的研究团队提出了一种材料算法协同设计来模拟人类视网膜的学习范例,并且低开销。基于具有有效激子解离和贯穿空间电荷传输特性的瓶刷形半导体 p-NDI,开发了一种基于可穿戴晶体管的动态传感器储层计算系统,该系统在不同任务上表现出优异的可分离性、衰减记忆和回波状态特性。 与忆阻有机二极管上的「读出
机器之心
2023/03/29
3120
低能耗低时耗,中科院&香港大学团队使用新方法进行多任务学习的可穿戴传感器内储层计算
推荐阅读
C-MHAD:多模态/连续动作检测数据集(附数据+Baseline代码)
1.7K0
基于视觉和惯性传感器的移动机器人手遥操作系统
6590
多模态人机交互国内研究进展
1.3K0
充满传感器的世界如何改变我们?
6050
传感器是未来世界的核心(上)
5920
AI通过手机传感器数据预测大学生的情绪和压力
6800
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
4160
CVPR2022:局部和全局知识蒸馏用于目标检测(源代码开源)
8780
随身携带的动捕系统!基于稀疏惯性传感器的实时人体动作捕捉 | SIGGRAPH 2021
4.1K0
Self-Ensembling with GAN-based Data Augmentation for Domain Adaptation in Semantic Segmentation
3070
万字综述 | 自动驾驶多传感器融合感知
5.1K0
CIR-DFENet:结合跨模态图像表示和双流特征增强网络进行活动识别
2080
LLM 视觉语言模型在动作识别中是否有效?
2590
TCN-Inception:基于时序卷积网络和Inception模块的传感器人体活动识别方法
1680
融合YOLO11与行为树的人机协作智能框架:动态工效学优化与自适应安全决策
1530
万字综述 | 一文读懂知识蒸馏
16.4K0
视频行为识别(一)——综述
1.5K0
多模态数据的行为识别综述
2.7K0
基于CLIP,浙大提出:ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
2.7K0
低能耗低时耗,中科院&香港大学团队使用新方法进行多任务学习的可穿戴传感器内储层计算
3120
相关推荐
C-MHAD:多模态/连续动作检测数据集(附数据+Baseline代码)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档