基于YOLOv8、v9、v11及混合模型的头盔检测深度解析

原创

CoovallyAIHub

发布于 2025-02-19 14:47:28

1K0

摘要

头盔检测对于提高公共道路交通动态保护水平至关重要。

这一问题的陈述转化为一项物体检测任务。因此，本文从可靠性和计算负荷的角度对头盔检测中的最新YOLO模型进行了比较。具体来说，本文使用了YOLOv8、YOLOv9和最新发布的YOLOv11。此外，本手稿还提出了一种经过改进的架构流水线，可显著提高整体性能。这种混合YOLO模型（h-YOLO）与独立模型进行了对比分析，证明h-YOLO在头盔检测方面优于普通YOLO模型。

我们使用一系列标准物体检测基准（如召回率、精确度和 mAP（平均精确度）对模型进行了测试。此外，还记录了训练和测试时间，以提供模型在实时检测场景中的总体范围。

一、论文信息

论文题目：OPTIMIZING HELMET DETECTION WITH HYBRID YOLO PIPELINES: A DETAILED ANALYSIS 论文链接： https://arxiv.org/pdf/2412.19467

二、引言

在许多国家，涉及摩托车和电动车的交通事故是造成伤亡的主要原因之一。头盔被广泛认为是防止致命或严重头部伤害的最有效方法之一。头盔检测是一项物体检测挑战，模型必须准确判断骑行者是否佩戴头盔，而且往往是在实时情况下。

虽然传统计算机视觉技术有其优点，但在处理速度、准确性和对各种环境的适应性方面也面临着限制。基于深度学习的物体检测算法的出现改变了这一领域，尤其是YOLO系列模型的推出。YOLO的快速、实时物体检测能力使其特别适用于头盔检测应用。本文研究了YOLOv8、YOLOv9和YOLOv11及其混合版本在识别自行车和摩托车骑手头盔方面的性能。

本研究重点关注的两个最关键的观点如下：头盔检测是确保道路安全的最重要举措之一，以及头盔检测系统的自动化，特别是在交通监控设置中使用的头盔检测系统。

据美国国家安全委员会估计，仅摩托车驾驶员使用头盔就能有效预防37%的致命伤害。在这方面，本文提出的模型可以成为执法机构发现不戴头盔的自行车骑行者的绝佳工具。这种系统可以减少自行车和摩托车事故造成的伤亡。

三、文献综述

YOLO模型自诞生以来已经有了显著的发展。该领域的一项重要工作是全面回顾YOLO架构，追溯其从YOLOv1到YOLOv8的发展历程。这项研究强调了该模型的单阶段方法，即同时进行物体定位和分类，这使其在自动驾驶汽车和视频监控等实时应用中具有很高的效率。另一项值得关注的研究提出了Complexer-YOLO，它利用语义点云将三维物体检测集成到YOLO框架中。这一扩展通过提高复杂环境中的检测精度，增强了模型在自动驾驶等实际任务中的性能。

此外，另一项研究强调了YOLO与滑动创新滤波器的集成，以便在动态环境中进行物体跟踪，解决了遮挡和干扰等难题，展示了YOLO在静态图像检测之外的适应性。

虽然YOLO模型在速度方面表现出色，但其他方法在准确性和计算复杂性之间却有不同的权衡。例如，更快的R-CNN是一种两阶段物体检测器，通过首先生成区域建议，然后使用卷积神经网络对其进行完善，从而显著提高了精度。虽然速度较慢，但它仍然是医疗成像和精确定位等精度要求较高的任务的首选。与YOLO相似，SSD（Single Shot MultiBox Detector）也采用单级方法，但与更简单的YOLO版本相比，其重点在于平衡速度和提高精度。另一项重大进展是RetinaNet，它引入了焦点损失函数来解决类不平衡问题、最后，Mask R-CNN对Faster R-CNN进行了扩展，不仅能检测物体，还能进行实例分割，使其在机器人和自主系统等要求像素级精度的任务中非常有效。

表1介绍了上述调查，其中包含对本研究具有启发意义的、与物体检测相关的前人研究成果。因此，该表强调了现有方法与本文所提方法之间的主要区别。

四、提出方法

头盔探测系统的开发采用了一种系统方法，旨在确保高准确性和稳健性。该方法分为几个关键阶段，包括数据集收集、数据预处理、图像增强、模型训练、超参数调整和模型测试，如图1所示。

数据集收集

首先要收集佩戴和未佩戴头盔的个人图像。数据集主要有两个来源：在线数据库和使用手机摄像头拍摄的自定义图像。这种多样性确保了图像能从不同角度、在不同的光照条件下描绘出不同的人，这对于建立一个在真实世界场景中表现可靠的模型至关重要。图像总数超过3500张。

数据预处理

收集完数据集后，进行预处理以标准化图像并为其模型训练做准备。这包括将所有图像转换为RGB格式以保持一致性，并调整它们的分辨率以实现统一。同时，对像素值进行归一化处理，以缩放像素值，通过确保所有输入数据处于同一尺度，从而提高模型训练过程的效率。

为了进一步提升模型的鲁棒性，采用了图像增强技术。通过在数据集中引入旋转、翻转、缩放以及调整亮度和对比度的变化，模型得以接触到更广泛的可能图像场景，同时消除了对大量训练图像的需求。这有助于防止过拟合，因为模型能够更好地适应现实世界中的变化，如光照和角度的变化。

模型训练

将数据分成训练集和测试集后，训练阶段就开始了。该阶段涉及一个特定的训练管道，其中包括使用CNN将特征输入独立的YOLO模型。具体来说，如图1所示，依次使用了三个CNN模型。第一个CNN层如图2所示以供参考，随后CNN层在其他方面与第一个相似，只是在过滤器数量、维度和填充方面有所不同。从图2中可以看出，在应用内核后，先进行批量归一化，然后再进行激活。

归一化是创建稳健模型的关键部分，因为它可以将不同类型的数据归入一个共同的尺度，以便进一步处理。因此，它是一种非常流行的预处理工具。就CNN 而言，可以对隐层输出进行归一化处理，以加快训练速度。对来自另一层的输入进行归一化称为批归一化。事实证明，这一过程也为CNN训练带来了稳定性。

超参数调优

超参数调优是优化模型性能的关键一步。重要的参数，如历时次数、批量大小、学习率和优化器的选择，都要进行调整，以在训练效率和准确性之间取得平衡。选择Adam优化器是因为它的自适应学习率可以加快收敛速度。学习率经过仔细调整，以确保在不跳过重要最小值的情况下进行有效学习。同样，批量大小和历时次数也会进行调整，以提高模型的训练速度和准确性。

在实际操作中，超参数调优通常采用以下几种方法：网格搜索、随机搜索、贝叶斯优化等。网格搜索通过遍历所有可能的超参数组合来寻找最佳设置，但这种方法在超参数数量较多时效率较低。随机搜索则通过随机选择参数组合来减少搜索空间，提高效率。贝叶斯优化则结合了概率模型和优化算法，能够在有限的资源下找到更优的超参数配置。

模型测试

模型经过训练后，需要进行全面测试以验证其性能。采用图像融合等技术，通过结合不同图像的输出来提高检测精度，同时还采用数据增强方法来克服高噪声带来的缺陷。精确度和召回率等评估指标可帮助我们深入了解分类性能。此外，平均精确度(mAP)分数与联合交叉(IoU)设置为50%的置信度阈值，用于评估预测边界框与图像中实际头盔区域的吻合程度。

单个YOLO模型说明

总共使用了六个YOLO模型——h-YOLOv8、h-YOLOv9、h-YOLOv11及其相应的独立版本。

本手稿中的文献综述证明，独立YOLO模型已得到广泛研究。尽管独立YOLO模型取得了令人满意的结果，在某些情况下甚至非常出色，但重要的是在不过度拟合模型的情况下尽可能提高模型的可靠性。

与混合系统相比，独立YOLO模型具有不同的结构。如图1所示，该结构包括与h-YOLO相同的步骤，但没有杂交模块。从数据预处理到数据测试的所有其他步骤都保持不变。这种设置确保了独立版本和杂交版本之间的比较仍然合理，因为杂交块是唯一变化的参数。

YOLOv8主要侧重于提高多物体检测的准确性，并更好地处理杂乱场景中的小物体。此外，该模型还针对边缘设备进行了优化，这意味着它无需大量计算资源即可实现高精度。YOLOv8的一项关键创新是在网络中集成了注意力机制。这些机制使模型能够关注图像中的关键区域，从而在复杂场景中实现更好的检测效果。
YOLOv9模型在全局上下文感知方面取得了重大改进，这对于视频中的物体检测或空间依赖性非常重要的复杂场景等任务至关重要。YOLOv9是该系列中第一个采用混合CNN-Transformer主干网的模型，它增强了捕捉物体局部和全局特征的能力。引入GELAN（广义高效层聚合网络）和PGI（可编程梯度信息）等先进技术大大提高了特征提取和梯度流的能力。YOLOv9还引入了一个新的损失函数，能更好地处理类不平衡问题，提高了其在对象分布倾斜的数据集上的准确性。该模型还得益于数据增强技术和自适应学习率的进一步改进，使其更能适应数据质量和规模的变化。正如结果和讨论部分所描述的那样，该模型被证明是所使用数据中mAP得分最高的模型，但实现上述结果所需的时间有所延迟。
YOLOv11是YOLO系列机型的最新版本。由于增强了骨干和颈部结构，它的特征提取能力得到了提升。该版本引入了跨各种平台（如云和支持英伟达™（NVIDIA®）图形处理器的系统）的增强部署能力。虽然这些YOLO模型都比其前身有了具体的改进，但本研究采用的混合方法结合了前CNN的优势。由于CNN是轻量级的，即它不包含由成千上万个神经元组成的大规模互连网络，而是使用数十或数百个神经元。这就确保了虽然特征被提前输入YOLO模型，但前CNN不会显著增加所需的时间。不过，CNN提供的特征会带来更高的召回率和mAP分数。因此，为了大幅提高模型得分，只增加少量时间是合理的。

测试与评估

我们使用文献中用于物体检测的一些标准指标来判断所提议模型的有效性。具体来说，这项工作使用了精确度、召回率和mAP@50分数。精确度可定义为模型正确识别特定类别的正面实例的能力。另一方面，召回率衡量的是与所有特定类别的实例相比，模型正确检测到了多少特定类别的实例。

这两个指标的数学表达式如下。

在此，TP代表真阳性，FP代表假阳性，FN代表假阴性。在调整模型超参数，如置信度阈值，以实现不同的精确度和召回率时，观察到通常存在精确度和召回率之间的权衡。

精确率和召回率具有不同的目的。例如，当需要严格控制误判为负数时，应追求更高的精确率；而在需要尽可能多地识别特定类别且可接受一定程度的误判为负数时，则应追求更高的召回率。然而，在大多数现实场景中，同时优化这两个指标至关重要，这时结合了召回率和精确率的F1分数就发挥了作用，它为分析者提供了对模型性能的全面视角。如下面的公式所示。

用于评估模型的另一个重要标准是平均精度 (mAP) 分数。它建立在平均精确度 (AP) 值的基础上，而平均精确度 (AP) 值实质上是在一定范围的召回值和特定置信度阈值下的精确度得分的平均值。当计算出一组置信度阈值下的精度-召回值的平均值时，就可以说这是平均精度的平均值，即mAP。在本手稿中，考虑到mAP在特定 “交集大于联合”（IoU）值（即50%）下的使用情况，因此将其称为mAP@50。不过，为了便于详细分析，也为了更好地体现整体性能

然而，为了便于进行详细分析，也为了更好地体现整体性能，本手稿更倾向于使用mAP而不是F1。相反，接收器工作特征下面积（AUROC）由于依赖于真阴性（TN），不能被视为物体检测任务的合理指标。这是因为物体检测中的真阴性指的是所有不包含物体（本例中为头盔）的边界框，因此TN实际上是无限的。

五、Coovally AI模型训练与应用平台

Coovally AI模型训练与应用平台，它整合了30+国内外开源社区1000+模型算法。

在Coovally平台上，无需配置环境、修改配置文件等繁琐操作，可一键另存为我的模型，上传数据集，即可使用YOLO等热门模型进行训练与结果预测，全程高速零代码！而且模型还可分享与下载，满足你的实验研究与产业应用。

六、结果与讨论

我们使用上一节提到的标准对各种模型进行了评估。从表1中可以看出，与普通YOLO模型相比，h-YOLO模型的精确度、召回率和mAP都更高。在训练和测试时间方面，如表2所示，普通YOLO模型比h-YOLO模型花费的时间更少。

在处理安全执法任务时，正如本文所述，作者应优先考虑更高的评分而非更快的处理时间，尽管这种优先级并非绝对，而是根据具体问题而变化。这意味着，只有在对比模型之间的准确率差异显著时，才应优先选择准确率更高的模型。因此，在准确率差异为2.31%的情况下，h-YOLO模型优于独立的YOLO模型，考虑到项目的目标可能涉及民用生活，这一差异是显著的。

通过分析表1和表2中的结果可以推断出：h-YOLOv9模型的精确度、召回率和mAP@50分数都是最好的，但h-YOLOv11在保持惊人的训练和测试时间的同时，仅略微落后于h-YOLOv9。

h-YOLOv11模型的运行时间较短，可以通过分析YOLOv11模型的基础属性来解释。根据YOLOv11模型的官方文档，YOLOv11模型的训练和推理流水线得到了增强。这一改进提高了系统的整体速度。此外，与v8和v9版本相比，YOLOv11模型的参数更少。

因此，h-YOLOv11模型在检测能力和推理速度之间实现了可靠的平衡，是实时检测任务的理想选择。

七、结论

总而言之，头盔检测是一项事关公共安全和自动系统技术进步的重要任务。

自动系统技术进步的重要任务。YOLO模型在实时物体检测领域占据了领先地位。本手稿的重点是对YOLOv8、YOLOv9和最新的YOLOv11及其混合模型进行比较分析，从而为头盔检测应用中的速度、精度和计算负荷权衡开辟新的思路。检测头盔或任何其他安全设备（如后视镜或骑行鞋）的任务在执行道路安全法方面有多种应用。具体来说，这种使用机器学习算法和框架的自动检测可以让有关当局在适当的时候采取行动。

虽然这种能检测违章者的技术的实施不在本文的讨论范围之内，但从上一节的结果来看，以实际可靠的方式检测头盔的第一步已经实现。因此，本文证实了以下几点--使用机器学习框架的整体可靠性、h-YOLO通过2-3%的mAP分数优于独立YOLO，以及h-YOLOv11在速度和性能之间的具体平衡能力。

未来的工作不仅可以利用h-YOLO检测头盔，还可以识别车辆的号牌。这样，有关当局就能采取必要行动，加强道路安全。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

机器学习