
💡💡💡提出 TACR-YOLO 框架及任务感知注意力模块
💡💡💡多维度优化模型检测能力
💡💡💡构建 PABD 数据集并验证框架有效性

博主简介
AI小怪兽,YOLO骨灰级玩家,1)YOLOv5、v7、v8、v9、v10、11、v12、v13优化创新,轻松涨点和模型轻量化;2)目标检测、语义分割、OCR、分类等技术孵化,赋能智能制造,工业项目落地经验丰富;

原创自研系列, 25年计算机视觉顶会创新点
应用系列篇:
24年最火系列,加入24年改进点内涵100+优化改进篇,涨点小能手,助力科研,好评率极高

摘要 —— 特殊场景下的人类异常行为检测(AHBD)正变得愈发重要。尽管基于 YOLO 的检测方法在实时任务中表现出色,但在人类异常行为检测中,仍受小目标检测、任务冲突及多尺度融合等问题的制约。为此,我们提出了一种针对人类异常行为检测的新型实时框架 ——TACR-YOLO。该框架分别引入坐标注意力模块以增强小目标检测能力、任务感知注意力模块以解决分类 - 回归冲突问题,以及强化颈部网络以实现精细的多尺度融合。此外,我们通过 K 均值聚类优化锚框尺寸,并采用 DIoU 损失函数以提升边界框回归效果。本文还构建了人员异常行为检测(PABD)数据集,该数据集包含 8529 个样本,涵盖 4 种行为类别。大量实验结果表明,TACR-YOLO 在 PABD 数据集上的平均精度均值(mAP)达到 91.92%,同时具备极具竞争力的速度和鲁棒性。消融实验进一步验证了各项改进的贡献。本研究为特殊场景下的异常行为检测提供了新的思路,推动了该领域的发展。
论文:https://arxiv.org/pdf/2508.11478
为此,基于YOLOv7-X[11],我们提出了一个经过改进的实时框架,将其命名为TACR-YOLO,该框架适用于特殊场景下的AHBD。首先,为了增强对小目标(如烟蒂、手部)的检测能力,我们在中间网络中集成了坐标注意力模块,该模块对通道注意力和空间注意力进行解耦,在提升对小目标敏感度的同时,扩大感受野以优化对大目标的定位。此外,针对分类目标与回归目标之间存在的固有差异,我们提出了任务感知注意力模块,该模块能动态调整特征权重分布,在不将分类任务与回归任务解耦的情况下增强对判别性特征的提取。它在有效缓解任务不一致性和特征耦合问题的同时,还能将计算开销控制在最低水平。最后,我们引入强化颈部网络以增强多尺度特征融合,通过K均值聚类校准锚框维度参数以提升尺度感知检测效能,并实施基于DIoU指标的定位优化机制以提高回归精度,从而显著改善检测性能与训练稳定性。
同时,由于现有目标检测数据集无法满足特殊场景下AHBD的需求,我们构建了一个多样化的数据集——PABD(人员异常行为数据集),包含来自驾驶、建筑工地等场景的8529张图像。该数据集涵盖四个标签类别:手机、吸烟、饮水、面部(如图2所示)。我们采用了数据清洗和数据增强技术,以提升数据的平衡性、鲁棒性和多样性。

在PABD数据集上开展的实验验证表明,TACR-YOLO具有卓越性能,不仅实现了91.92%的平均精度均值(mAP),还具备实时推理速度。消融实验从定量角度证实了每个模块对性能提升的作用。
本文的主要贡献如下:
1. 提出了TACR-YOLO框架,并设计了任务感知注意力模块,以缓解任务不一致性和特征耦合问题,显著提升了模型的性能与泛化能力。
2. 通过将坐标注意力模块集成到YOLOv7-X的骨干网络中、利用K均值聚类优化锚框尺寸、设计强化颈部网络以及引入DIoU损失函数,从多视角、分层级的角度增强了模型的检测能力。
3. 构建了专为该任务设计的PABD数据集,该数据集涵盖多种场景,解决了该领域数据匮乏的问题。在PABD数据集上开展的全面评估验证了所提新框架的有效性。
为实现更快速、更准确的异常行为检测,我们在 YOLOv7-X 的基础上提出了 TACR-YOLO,如图 1 所示。该网络由四个主要部分构成:输入模块、骨干特征提取模块、增强特征提取模块以及输出模块。

首先,在输入模块中,对图像进行预处理,将其调整为 640×640 像素的尺寸,并归一化为 RGB 格式。采用 K-means 算法对训练集中边界框的尺寸进行聚类,生成针对该数据集的锚框。这一操作有助于提升模型在不同目标尺寸情况下的泛化能力、检测精度和鲁棒性。
骨干特征提取网络以 YOLOv7-X 的 MP-Conv 和 ELAN 结构为基础,对特征连接和梯度流路径进行了优化,从而增强了特征表示能力并提高了计算效率。骨干网络输出三种尺度的特征图(feat1:80×80×512、feat2:40×40×1024、feat3:20×20×1024),这些特征图随后会经过坐标注意力模块。该模块对空间位置信息进行编码并生成通道注意力权重,能增强网络对关键区域的关注度,进而改善对小目标(如手机、烟蒂)的检测效果。坐标注意力模块的设计不仅考虑了通道间的依赖关系,还充分利用了空间信息,帮助模型精准定位并聚焦于关键区域,从而提升检测性能。 在颈部网络中,我们提出了一种增强型颈部结构,用于上采样、特征整合和通道调整。该结构采用多分支特征融合策略,对来自不同分支的特征先进行卷积处理,再将它们堆叠在一起。具体而言,多分支的特征先经过卷积层处理,之后通过堆叠实现融合,这一过程遵循了该结构所采用的多分支特征融合策略。这一方式能够有效捕捉并整合多尺度特征,在保持尺寸不变的情况下,生成具有丰富语义信息的特征层。
最后,YOLO 头部集成了任务感知注意力模块,从而增强了模型有效处理多项检测任务的能力。综上所述,这些改进使得 TACR-YOLO 在 PABD 数据集上能够展现出优异的性能。
坐标注意力(CA)模块[28]通过将精确的位置线索编码到通道级特征调制中,借助提升上下文敏感性,为更有效的多尺度目标检测提供支持。在浅层特征层(feat1)中,该模块能增强对小目标(如手机、烟蒂)细微细节的捕捉,确保实现精准的定位和边界提取。在中间特征层(feat2)中,坐标注意力模块针对中等尺度目标(如杯子)优化多尺度特征融合效果并提升鲁棒性。在深层特征层(feat3)中,其可强化深层语义特征提取,进而改善对目标高级特征的检测效果。
通过在特征提取的所有阶段应用坐标注意力模块,模型能够充分利用跨尺度的空间和语义信息,从而提升检测精度与鲁棒性。该模块通过双阶段处理发挥作用:(i)位置嵌入;(ii)空间注意力构建。
单阶段检测器在统一框架内执行综合预测任务,包括定位、类别识别和置信度估计。然而,回归任务与分类任务之间的特征分布耦合,往往会导致目标定位和分类性能不佳,在手机、烟蒂、杯子等中小尺度目标处于复杂场景中的情况下尤为明显。为此,我们基于DY-ReLU-A[29]设计了任务感知注意力模块,旨在更好地表达并泛化任务间的关系。
在原始的 YOLOv7-X [11] 中,增强特征提取网络对深层特征表示和特征融合起到了改善作用。但该网络在处理小目标、低纹理区域以及杂乱场景时仍面临挑战。有限的卷积深度可能会阻碍对精细空间特征和语义特征的提取,尤其针对小尺度目标时,这会在多尺度检测任务中影响分类精度和定位准确性。
为解决这些不足,我们对 YOLOv7-X 中的增强特征提取网络进行了结构优化:在将 feat1、feat2 和 feat3 输入颈部网络之前,将原本的单次卷积操作替换为三次卷积操作。这一改进增加了卷积操作的层级深度,使网络能在不同层级更全面地提取目标的多尺度特征,同时增强了其解析小目标实例中细粒度细节的能力。
实验结果表明,该修改在未增加计算成本的情况下,提升了网络的深度和容量,有效应对了小目标检测难题,还增强了网络的鲁棒性和泛化能力,提供了更可靠的解决方案。
表3:TACR-YOLO与其他先进实时目标检测方法在PABD数据集上的性能对比。注:最佳性能以粗体突出显示,次佳性能以下划线标注。

表4:在单块NVIDIA V100 GPU上,我们的TACR-YOLO与其他先进实时目标检测方法的推理时间对比。

消融实验:


本文提出了用于检测人类异常行为的TACR-YOLO模型,并引入了一个名为PABD的新数据集。该数据集包含8529张图像,涵盖4个类别,且覆盖场景范围较广。通过集成坐标注意力模块,我们的模型能够有效捕捉多尺度目标的空间和语义信息。此外,任务感知注意力模块会动态选择并激活与当前任务最相关的通道,从而提升预测头的性能。TACR-YOLO在PABD数据集上的表现证实了其稳健性和有效性,能够满足现实场景中对异常行为进行精准可靠检测的实际需求。
在未来的发展中,我们将重点在保持现有优异性能的同时,对模型整体进行进一步的剪枝与优化。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。