首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >TACR-YOLO,一种结合坐标与任务感知表示的人类异常行为实时检测框架

TACR-YOLO,一种结合坐标与任务感知表示的人类异常行为实时检测框架

原创
作者头像
AI小怪兽
发布2025-08-28 09:19:37
发布2025-08-28 09:19:37
3070
举报
文章被收录于专栏:YOLO大作战YOLO大作战

💡💡💡提出 TACR-YOLO 框架及任务感知注意力模块

  • 构建了针对特殊场景下人类异常行为检测(AHBD)的 TACR-YOLO 实时框架。
  • 设计任务感知注意力模块,该模块基于 DY-ReLU-A 动态调整特征权重分布,在不 decouple 分类与回归任务的前提下,缓解了两者间的任务不一致性和特征耦合问题,显著提升了模型的性能与泛化能力。

💡💡💡多维度优化模型检测能力

  • 集成坐标注意力模块到 YOLOv7-X 骨干网络,通过编码空间位置信息、解耦通道与空间注意力,增强对小目标(如烟蒂、手机)的敏感度,同时扩大感受野以优化大目标定位。
  • 设计强化颈部网络,采用多分支特征融合策略,提升多尺度特征融合效果,丰富特征层语义信息。
  • 利用 K 均值聚类优化锚框尺寸,结合 DIoU 损失函数实施定位优化机制,提升边界框回归精度与尺度感知检测效能,从多视角、分层级增强模型整体检测能力。

💡💡💡构建 PABD 数据集并验证框架有效性

  • 针对现有数据集无法满足特殊场景 AHBD 需求的问题,构建了人员异常行为检测(PABD)数据集,包含 8529 张图像,涵盖 “手机、吸烟、饮水、面部”4 个类别,覆盖驾驶、建筑工地等多样场景,解决了该领域数据匮乏问题。
  • 在 PABD 数据集上的大量实验表明,TACR-YOLO 的 mAP 达 91.92%,且具备实时推理速度与强鲁棒性;消融实验也定量证实了各模块对性能提升的贡献,充分验证了新框架的有效性,为特殊场景下的异常行为检测提供了新思路。

博主简介

AI小怪兽,YOLO骨灰级玩家,1)YOLOv5、v7、v8、v9、v10、11、v12、v13优化创新,轻松涨点和模型轻量化;2)目标检测、语义分割、OCR、分类等技术孵化,赋能智能制造,工业项目落地经验丰富;

原创自研系列, 25年计算机视觉顶会创新点

《YOLOv13魔术师》

《YOLOv12魔术师》

《YOLO11魔术师》

《YOLOv8原创自研》

《YOLOv5原创自研》

《YOLOv7原创自研》

《YOLOv9魔术师》

​《YOLOv10魔术师》 ​

应用系列篇:

《YOLO小目标检测》

《深度学习工业缺陷检测》

《YOLOv8-Pose关键点检测》

24年最火系列,加入24年改进点内涵100+优化改进篇,涨点小能手,助力科研,好评率极高

《YOLOv8魔术师》

《YOLOv7魔术师》

《YOLOv5/YOLOv7魔术师》

《RT-DETR魔术师》

1.原理介绍

摘要 —— 特殊场景下的人类异常行为检测(AHBD)正变得愈发重要。尽管基于 YOLO 的检测方法在实时任务中表现出色,但在人类异常行为检测中,仍受小目标检测、任务冲突及多尺度融合等问题的制约。为此,我们提出了一种针对人类异常行为检测的新型实时框架 ——TACR-YOLO。该框架分别引入坐标注意力模块以增强小目标检测能力、任务感知注意力模块以解决分类 - 回归冲突问题,以及强化颈部网络以实现精细的多尺度融合。此外,我们通过 K 均值聚类优化锚框尺寸,并采用 DIoU 损失函数以提升边界框回归效果。本文还构建了人员异常行为检测(PABD)数据集,该数据集包含 8529 个样本,涵盖 4 种行为类别。大量实验结果表明,TACR-YOLO 在 PABD 数据集上的平均精度均值(mAP)达到 91.92%,同时具备极具竞争力的速度和鲁棒性。消融实验进一步验证了各项改进的贡献。本研究为特殊场景下的异常行为检测提供了新的思路,推动了该领域的发展。

论文:https://arxiv.org/pdf/2508.11478

为此,基于YOLOv7-X[11],我们提出了一个经过改进的实时框架,将其命名为TACR-YOLO,该框架适用于特殊场景下的AHBD。首先,为了增强对小目标(如烟蒂、手部)的检测能力,我们在中间网络中集成了坐标注意力模块,该模块对通道注意力和空间注意力进行解耦,在提升对小目标敏感度的同时,扩大感受野以优化对大目标的定位。此外,针对分类目标与回归目标之间存在的固有差异,我们提出了任务感知注意力模块,该模块能动态调整特征权重分布,在不将分类任务与回归任务解耦的情况下增强对判别性特征的提取。它在有效缓解任务不一致性和特征耦合问题的同时,还能将计算开销控制在最低水平。最后,我们引入强化颈部网络以增强多尺度特征融合,通过K均值聚类校准锚框维度参数以提升尺度感知检测效能,并实施基于DIoU指标的定位优化机制以提高回归精度,从而显著改善检测性能与训练稳定性。

同时,由于现有目标检测数据集无法满足特殊场景下AHBD的需求,我们构建了一个多样化的数据集——PABD(人员异常行为数据集),包含来自驾驶、建筑工地等场景的8529张图像。该数据集涵盖四个标签类别:手机、吸烟、饮水、面部(如图2所示)。我们采用了数据清洗和数据增强技术,以提升数据的平衡性、鲁棒性和多样性。

在PABD数据集上开展的实验验证表明,TACR-YOLO具有卓越性能,不仅实现了91.92%的平均精度均值(mAP),还具备实时推理速度。消融实验从定量角度证实了每个模块对性能提升的作用。

本文的主要贡献如下:

1. 提出了TACR-YOLO框架,并设计了任务感知注意力模块,以缓解任务不一致性和特征耦合问题,显著提升了模型的性能与泛化能力。

2. 通过将坐标注意力模块集成到YOLOv7-X的骨干网络中、利用K均值聚类优化锚框尺寸、设计强化颈部网络以及引入DIoU损失函数,从多视角、分层级的角度增强了模型的检测能力。

3. 构建了专为该任务设计的PABD数据集,该数据集涵盖多种场景,解决了该领域数据匮乏的问题。在PABD数据集上开展的全面评估验证了所提新框架的有效性。

A. TACR-YOLO 概述

为实现更快速、更准确的异常行为检测,我们在 YOLOv7-X 的基础上提出了 TACR-YOLO,如图 1 所示。该网络由四个主要部分构成:输入模块、骨干特征提取模块、增强特征提取模块以及输出模块。

首先,在输入模块中,对图像进行预处理,将其调整为 640×640 像素的尺寸,并归一化为 RGB 格式。采用 K-means 算法对训练集中边界框的尺寸进行聚类,生成针对该数据集的锚框。这一操作有助于提升模型在不同目标尺寸情况下的泛化能力、检测精度和鲁棒性。

骨干特征提取网络以 YOLOv7-X 的 MP-Conv 和 ELAN 结构为基础,对特征连接和梯度流路径进行了优化,从而增强了特征表示能力并提高了计算效率。骨干网络输出三种尺度的特征图(feat1:80×80×512、feat2:40×40×1024、feat3:20×20×1024),这些特征图随后会经过坐标注意力模块。该模块对空间位置信息进行编码并生成通道注意力权重,能增强网络对关键区域的关注度,进而改善对小目标(如手机、烟蒂)的检测效果。坐标注意力模块的设计不仅考虑了通道间的依赖关系,还充分利用了空间信息,帮助模型精准定位并聚焦于关键区域,从而提升检测性能。 在颈部网络中,我们提出了一种增强型颈部结构,用于上采样、特征整合和通道调整。该结构采用多分支特征融合策略,对来自不同分支的特征先进行卷积处理,再将它们堆叠在一起。具体而言,多分支的特征先经过卷积层处理,之后通过堆叠实现融合,这一过程遵循了该结构所采用的多分支特征融合策略。这一方式能够有效捕捉并整合多尺度特征,在保持尺寸不变的情况下,生成具有丰富语义信息的特征层。

最后,YOLO 头部集成了任务感知注意力模块,从而增强了模型有效处理多项检测任务的能力。综上所述,这些改进使得 TACR-YOLO 在 PABD 数据集上能够展现出优异的性能。

B. 坐标注意力模块

坐标注意力(CA)模块[28]通过将精确的位置线索编码到通道级特征调制中,借助提升上下文敏感性,为更有效的多尺度目标检测提供支持。在浅层特征层(feat1)中,该模块能增强对小目标(如手机、烟蒂)细微细节的捕捉,确保实现精准的定位和边界提取。在中间特征层(feat2)中,坐标注意力模块针对中等尺度目标(如杯子)优化多尺度特征融合效果并提升鲁棒性。在深层特征层(feat3)中,其可强化深层语义特征提取,进而改善对目标高级特征的检测效果。

通过在特征提取的所有阶段应用坐标注意力模块,模型能够充分利用跨尺度的空间和语义信息,从而提升检测精度与鲁棒性。该模块通过双阶段处理发挥作用:(i)位置嵌入;(ii)空间注意力构建。

C. 任务感知注意力模块

单阶段检测器在统一框架内执行综合预测任务,包括定位、类别识别和置信度估计。然而,回归任务与分类任务之间的特征分布耦合,往往会导致目标定位和分类性能不佳,在手机、烟蒂、杯子等中小尺度目标处于复杂场景中的情况下尤为明显。为此,我们基于DY-ReLU-A[29]设计了任务感知注意力模块,旨在更好地表达并泛化任务间的关系。

D. 强化颈部网络

在原始的 YOLOv7-X [11] 中,增强特征提取网络对深层特征表示和特征融合起到了改善作用。但该网络在处理小目标、低纹理区域以及杂乱场景时仍面临挑战。有限的卷积深度可能会阻碍对精细空间特征和语义特征的提取,尤其针对小尺度目标时,这会在多尺度检测任务中影响分类精度和定位准确性。

为解决这些不足,我们对 YOLOv7-X 中的增强特征提取网络进行了结构优化:在将 feat1、feat2 和 feat3 输入颈部网络之前,将原本的单次卷积操作替换为三次卷积操作。这一改进增加了卷积操作的层级深度,使网络能在不同层级更全面地提取目标的多尺度特征,同时增强了其解析小目标实例中细粒度细节的能力。

实验结果表明,该修改在未增加计算成本的情况下,提升了网络的深度和容量,有效应对了小目标检测难题,还增强了网络的鲁棒性和泛化能力,提供了更可靠的解决方案。

性能

表3:TACR-YOLO与其他先进实时目标检测方法在PABD数据集上的性能对比。注:最佳性能以粗体突出显示,次佳性能以下划线标注。

表4:在单块NVIDIA V100 GPU上,我们的TACR-YOLO与其他先进实时目标检测方法的推理时间对比。

消融实验:

结论与讨论

本文提出了用于检测人类异常行为的TACR-YOLO模型,并引入了一个名为PABD的新数据集。该数据集包含8529张图像,涵盖4个类别,且覆盖场景范围较广。通过集成坐标注意力模块,我们的模型能够有效捕捉多尺度目标的空间和语义信息。此外,任务感知注意力模块会动态选择并激活与当前任务最相关的通道,从而提升预测头的性能。TACR-YOLO在PABD数据集上的表现证实了其稳健性和有效性,能够满足现实场景中对异常行为进行精准可靠检测的实际需求。

在未来的发展中,我们将重点在保持现有优异性能的同时,对模型整体进行进一步的剪枝与优化。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.原理介绍
  • A. TACR-YOLO 概述
  • B. 坐标注意力模块
  • C. 任务感知注意力模块
    • D. 强化颈部网络
  • 性能
  • 结论与讨论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档