1. 研究背景与问题
1.1 人类活动识别(HAR)的重要性
人类活动识别(HAR)在健康监测、智能家居、运动辅助等领域有着广泛的应用。随着可穿戴设备的普及,基于传感器数据的HAR成为了研究热点。传统的HAR方法依赖于专家手动提取特征,虽然具有一定的透明性和计算效率,但存在以下问题:
- 主观性强:特征提取依赖于专家的经验,容易受到主观判断的影响。
- 数据质量依赖:手动提取的特征对原始数据的质量要求较高,且无法全面反映数据的复杂动态关系。
- 通用性差:提取的特征可能只适用于特定任务,难以应对复杂场景。
1.2 现有方法的局限性
近年来,深度学习技术(如CNN、LSTM等)在HAR领域取得了显著进展,尤其是将时间序列数据转换为图像后利用视觉模型进行处理。然而,现有方法仍存在以下问题:
- 单一特征表示:将时间序列转换为图像时,现有方法(如MTF、RP、GAF)通常只关注一种特征(如幅值变化、非线性或局部时间关系),导致信息利用不足。
- 模态融合不足:现有方法通常只处理时间序列或图像数据,未能结合两者的优势,影响了识别的准确性和鲁棒性。
2. 解决方案与创新
2.1 跨模态图像表示
为了克服单一特征表示的局限性,提出了一种跨模态图像表示方法 ,将时间序列通过三种不同的编码方式(MTF、RP、GAF)分别转换为RGB三通道的彩色图像:
- R通道(MTF):捕捉时间序列的幅值变化特征。MTF基于马尔可夫转移矩阵,能够反映数据的全局变化趋势。
- G通道(RP):提取时间序列的非线性动态特征。RP通过相空间重构,能够捕捉数据的非线性关系。
- B通道(GAF):保留时间序列的局部时间关系。GAF将时间序列转换为极坐标,通过角度信息反映局部时间依赖性。
通过将三种编码方式融合为一张彩色图像,模型能够同时捕捉幅值变化、非线性和局部时间关系等多维度特征,显著提升了信息的利用率。下图展示了六个体操动作的融合图像,不同动作的纹理、块状特征差异显著,便于模型区分。
2.2 双流特征增强网络(CIR-DFENet)
为了充分利用图像和时间序列的信息,作者设计了一个 双流特征增强网络 ,包含三个主要模块:
2.2.1 多尺度图像特征提取模块
- 多尺度卷积:使用三路不同卷积核(3×3、5×5、7×7)提取图像的多尺度特征,捕捉不同粒度的空间信息。
- 全局注意力机制(GAM):结合通道注意力(CAM)和空间注意力(SAM),增强模型对关键区域的关注。CAM通过多层感知机(MLP)放大跨维度空间依赖,SAM通过卷积层聚焦空间信息。
- 残差结构:引入残差连接,加速网络收敛,防止梯度消失或爆炸。
2.2.2 时间序列特征提取模块
- 1D CNN + LSTM:CNN提取时间序列的局部特征,LSTM捕获长期依赖关系。
- 自注意力机制(SA):增强模型对时间序列中重要片段的关注。SA通过计算查询(Q)、键(K)和值(V)的注意力分数,捕捉不同时间步之间的依赖关系。
2.2.3 特征融合与分类模块
- 特征拼接:将图像和时间序列的特征拼接后,输入全连接层进行分类。
- 分类模块:包含三个全连接层(256→64→16神经元),使用SoftMax输出每个动作类别的概率。
2.3 其他技术细节
- 数据预处理:包括低通滤波降噪、三轴加速度合成、线性插值统一长度。
- 训练配置:使用Adam优化器,初始学习率0.0002,批量大小32,迭代200次。
3. 实验与结果
3.1 数据集
- 自建数据集:8名大学生佩戴单节点传感器(WT901BLE模块),采集6种广播体操动作(拉伸、扩胸等),共1680组数据,按7:2:1划分训练集、验证集、测试集。
- 公开数据集UCI-HAR:包含6种日常活动(行走、上下楼梯等),用于验证模型通用性。
3.2 实验结果
- 自建数据集:模型准确率99.40%,混淆矩阵显示仅动作T和Z有少量误分类。
- UCI-HAR数据集:准确率98.07%,优于多数对比模型。
- 消融实验:
- 移除残差结构(Model-A)导致准确率下降2.74%。
- 移除注意力机制(Model-B)准确率下降1.08%。
- 单模态输入(仅图像或时间序列)准确率下降约3%。
3.3 对比实验
与14种现有方法对比(表4),CIR-DFENet在自建数据集上准确率最高(99.40%),显著优于CNN-LSTM(97.02%)、Transformer(95.54%)等模型。
4. 讨论与局限性
4.1 优势
- 可解释性:融合图像直观展示不同动作特征(如动作K的中心块状、动作A的左上角特征)。
- 高效特征提取:注意力机制(GAM和SA)增强了对关键信息的关注。
4.2 局限性
- 计算复杂度高:模型参数量达1394万,推理时间11.64ms,可能影响实时性。
- 数据依赖性:依赖高质量传感器数据,在噪声环境下性能可能下降。
5. 结论
本文提出的 CIR-DFENet 模型在人类活动识别(HAR)任务中取得了显著成果,主要贡献如下:
- 跨模态图像表示:通过MTF、RP、GAF三种编码方式将时间序列转换为RGB三通道图像,融合了幅值变化、非线性和局部时间关系等多维度特征,显著提升了信息的利用率。
- 双流特征增强网络:结合图像和时间序列的双流网络结构,分别通过多尺度卷积、全局注意力机制(GAM)和自注意力机制(SA)提取关键特征,实现了模态间的有效融合。
- 高性能表现:在自建数据集和公开数据集UCI-HAR上,模型分别达到了99.40%和98.07%的准确率,显著优于现有方法。