由于其突发性高和破坏力巨大,火灾长期以来已对人类社会和生态环境构成严重威胁。近年来,随着智慧城市和物联网(IoT)技术的飞速发展,基于深度学习的火灾检测系统逐渐成为应对火灾关键手段。 然而,现有火灾检测模型在复杂环境中的检测准确性和实时性能方面仍然存在许多挑战。 为了解决这些问题,作者提出了两个关键模块:EAConv(Efficient Attention Convolution)和EADown(Efficient Attention Downsampling)。 其中,EAConv模块通过将高效注意力机制与深层分离卷积相结合,显著提高了特征提取效率; 而EADown模块则通过利用空间和通道注意力机制以及池化操作,增强了特征下采样准确性和效率。 基于这两者模块,作者设计了一种高效轻量级火焰检测模型EFA-YOLO(Efficient Feature Attention YOLO)。 实验结果显示,EFA-YOLO具有仅为1.4M的模型参数量,4.6 GFLOPs的计算量,和CPU上每张图像的推理时间仅为22.19 ms。 与现有主流模型(如YOLOv5、YOLOv8、YOLOv9和YOLOv10)相比,EFA-YOLO在检测准确率(mAP)和推理速度方面显著提高了约94.6%的检测准确率和约88倍的推理速度提升。
作为一种突发性和极其破坏性的灾害[1,2,3],火长期以来对人类社会和自然环境构成了严重威胁。随着城市化和工业化的加速,建筑结构的复杂性以及人口的密集度逐渐增加,火灾的频率和危害也在逐年上升[4,5,6,7]。根据国际消防组织(IFPO)的统计数据,每年全球发生数百万起火灾事故,导致了大量的行人伤亡和财产损失,同时对生态环境造成了不可逆转的破坏。在森林区域,火势的蔓延通常会导致大片森林资源的破坏,进而加剧土壤侵蚀和空气污染等生态问题。
火灾风险的多样性和复杂性使得火灾的预防和控制变得尤为重要。火灾风险可以源于各种来源,如建筑结构、电子设备、易燃材料的错误储存和处理等,通常是隐性和突然发生的。传统的火警检测技术依赖于诸如烟雾传感器和温度报警器等设备,尽管这些设备能够检测到火灾的发生,但在开放空间、户外环境或火灾初期的反应效率和精确度往往受到限制。尤其是在火灾的初期,火焰体积较小,难被传统传感器捕获,这增加了预防控制火灾风险的困难。
因此,开发新的火警检测技术,特别是在图像处理和深度学习基础上构建的智能火警检测系统[10,11,12],具有极度实际的重要性。这些技术可以利用火焰的视觉特性实现早期的火灾预警,并通过精确定位和快速响应减少火灾带来的危害。随着智能城市和物联网(IoT)技术的发展,基于视觉的火警检测系统将能提供更有效的现代火灾风险的监测和管理解决方案。
近年来,随着防火控制需求的增加,不同场景下的火警检测研究逐渐深入。研究行人提出各种改进方法来解决现有火警检测技术的局限性,特别是在复杂背景下的火焰检测,高实时要求的城区火警监控,以及小目标火焰检测等方面,出现了各种创新的算法。为了解决这些问题,研究行人不仅优化了检测模型的结构,而且还采用了诸如数据增强、多尺度特征提取和注意力机制等技术手段。下面的部分详细介绍了一些研究行人在火警检测方面的研究成果。
王等人提出了一种名为YOLOv5s-ACE的算法,以解决复杂森林火警中的低检测精度、慢检测和粗糙特征提取问题。该算法首先通过 Copy-Paste 数据增强将小目标样本集扩展,以减少在模型训练过程中过拟合的风险。其次,选择一个空的空间金字塔池化(ASPP)模块来替代YOLOv5中的SPP模块,从而扩大了传感范围并提高了小目标森林火焰的精确定位。最后,添加了卷积块注意力模块(CBAM)以进一步过滤关键特征并减少背景干扰。孙等人等提出了一种面向移动场景的基于深度学习的边缘智能火灾检测系统[27]。
[24] 提出了一种基于图像的非接触式火警检测技术,用于接触型火警传感器,该传感器易受到非火粒子的干扰。他们的研究通过对比八个现有的目标检测模型,证明了YOLOv5在mAP和FPS上的优势,并通过引入CBAM模块、BiFPN结构和反卷积,进一步优化了YOLOv5的网络,这显著提高了模型的检测准确性和处理速度。Wang等人[25] 针对YOLOv7在小,密集火烟目标上的识别优势,以及其在对小密集火烟目标识别上的局限性,提出了FS-YOLO模型。该模型通过增强Swin Transformer模块和引入高效的通道注意力机制,降低火警检测中的误报率。此外,该研究开发了一个包含真实火场场景和火烟图像的双数据集,模拟复杂的条件,如 Mask 和透镜模糊。
Wang等人[26] 提出了一个改进的YOLOX多尺度火警检测方法,以解决传统火警检测方法在大范围火焰和烟雾目标上的无效果问题。该方法通过设计一个新型的特征金字塔模型(HC-FPN)减少了高层特征图的信息损失,并增强特征表示能力。此外,采用小目标数据增益策略扩展了森林火数据集,使模型更适用于真实森林火场景。
虽然研究行人通过引入注意力机制、轻量级 Backbone 网络和多尺度特征提取,提高了检测准确性和速度,但在高实时要求的火警监控中,仍然存在模型参数数量大和计算复杂度高等问题。为了解决这些问题,作者提出了一种创新的火焰检测模型EFA-YOLO(Efficient Feature Attention YOLO)。该模型通过两个关键模块:EAConv(Efficient Attention Convolution)和EADown(Efficient Attention Downsampling)实现高效特征提取和降采样。EAConv模块将高效注意机制与深度可分离卷积相结合,而EADown模块通过融合空间和通道注意机制以及池化操作,增强了特征降采样的准确性和效率。
总的来说,本文的贡献如下:
提供了一种有效轻量级解决方案,适用于嵌入式设备和智慧城市场景:由于其轻量级的设计,EFA-YOLO能够高效地在资源受限的设备上运行,适用于智能城市的火警监控系统,并为未来的火警检测技术提供了一种灵活可扩展的模型架构。
在本节中,作者将对提出的模型进行全面解释,并就网络模型中的每个模块提供详细的描述,阐明它们各自的功能。首先,作者将给出整个模型的解释,然后将详细解释涉及的模块,包括EAConv(高效的关注卷积)模块,EADown(高效的关注下采样)模块。
EFA-YOLO(有效特征注意力YOLO)模型被提出,以应对当前火警检测技术在复杂场景中面临的多个挑战,特别是实时火焰检测的需求以及复杂背景中小目标检测的问题。
EFA-YOLO的设计概念基于两个关键模块 - EAConv(有效注意力卷积)和EADown(有效注意力下采样)。EAConv模块通过一个高效的特征提取机制,改善了对复杂目标(如火焰)的感知,而EADown模块通过结合注意力机制([27])和池化操作,有效地实现了特征下采样。该模型架构全面考虑了火警检测中对多尺度特征提取的需求,同时考虑了模型的轻巧和计算效率。
这使EFA-YOLO不仅能够在复杂场景中实现高精度检测,而且显著缩短了推理时间,满足了实时需求。通过全面优化,EFA-YOLO在模型参数、推理时间和检测精度上取得了显著改进,证明了它在火警检测领域具有广阔的应用前景。
其中,SPPF的公式如下。
SPPF模块通常是SPP(空间金字塔池化)的一个增强版,允许对相同的输入使用不同的池化核大小,然后进行连接。下面解释SPPF的公式:
输入特征图,其中、和分别表示高度、宽度和通道。
SPPF的操作步骤如下:
重复此操作,例如:
卷积层应用滤波器压缩并细化连接的特征图。
其中,CBS的公式如下。
最后,经过一个SiLU激活函数和批量归一化(BN)层(通常为1x1卷积层)的卷积进行处理。
EAConv模块是EFA-YOLO的核心部分,最初设计是为了应对传统卷积在处理复杂场景和动态目标(如火焰)时的局限性。传统卷积层在特征提取阶段往往无法准确捕捉到像火焰这样的小目标的空间和通道信息,这使得模型在复杂背景下的检测能力变得力不从心。
为此,EAConv模块通过引入高效的时空和通道注意力机制,使模型能够智能地关注图像中的关键特征区域,从而在提高了火焰检测的准确性和鲁棒性的同时。EAConv模块如图2所示。
与此同时,EAConv模块还包括深层可分卷积[28],这是一种可以显著降低计算量,同时保持特征提取有效性的卷积技术。这样,EAConv不仅实现了检测准确度的突破,还大大降低了模型的计算复杂度,使得它可以轻松部署在资源受限的设备(如边缘设备和嵌入式系统)上。
EAConv模块已在EFA-YOLO的多个层中多次使用,确保了每个尺度的特征都能得到充分表示和处理,最终EAConv不仅是对卷积模块的简单优化,更是特征提取的创新,使得EFA-YOLO能够在结合注意力和轻量级卷积的同时,保持高计算效率和强大的特征捕获能力。这样的设计使EAConv成为提高检测准确度和加速推理的关键因素。
EADown模块专注于高效的特征降采样过程,这是EFA-YOLO中的另一个重要模块。在火焰检测场景中,尤其是处理小火焰或长距离火时,由于特征图大小的减小,模型在进行降采样时往往丢失了重要细节信息,可能导致误判或漏检。EADown模块通过引入时空注意力和通道注意力机制以及最大池化和平均池化策略,在降采样过程中保持和增强关键信息,从而确保模型在降采样阶段仍能对火焰目标保持敏感,并有效地防止特征损失。EADown模块如图3所示。
EADown模块不仅仅是一个降采样操作,而是通过注意力机制智能地过滤重要特征,从而在减小特征图大小的同时,确保模型仍然对火焰等目标保持足够关注。这使得模型在提取高级语义特征时,仍能保留低级特征,尤其是小目标火焰的细节。此外,EADown模块的多尺度特征提取能力增强了模型对不同尺度目标的适应性,确保了EFA-YOLO在处理不同大小火焰目标时表现良好。
通过优化EADown模块,EFA-YOLO在处理小目标火焰和复杂场景中的性能得到了显著提升。该模块与EAConv模块配合使用,确保模型在保持轻量的同时,仍具有强大的特征表示和计算效率。
这使得EFA-YOLO能够在实际应用中同时满足实时性、高精度、轻量化的需求,为火焰检测提供了一种实际可行的解决方案。
消防数据集[29]涵盖了广泛的火情场景,包括建筑物火、草原火、森林火以及不同物体如汽车(如汽车、卡车、摩托车和机动车辆)的火灾,火势从大到小不等。该数据集还区分了白天和夜晚、室内和室外两种火环境,以确保模型能够适应不同的照明和空间条件。
此外,每个火情场景中的烟雾特性都与火相符,反映了不同火型、大小和环境之间的差异。总共包含2060个标注数据集,作者将其随机分为8:2的训练和测试集。该数据集可用于训练消防检测和烟雾识别模型,这些模型可以应用于智能场景如消防监测和预警系统。
实验程序在Linux操作系统上执行,使用NVIDIA GeForce RTX 4090D 24G显卡驱动。深度学习框架选择Pytorch+cu版本11.8,版本为2.0.1,Jupyter Notebook用作编译器,指定的编程语言为Python 3.8,所有比较分析中使用的算法在相同的计算设置中标操一致运行。图像尺寸调整为6406403,批量大小为8,优化器选择SGD,学习率设置为0.001,训练周期为300。使用AMD EPYC 9754处理器计算推理时间。
在本研究中,使用四个关键指标:精确度、召回率、mAP50和mAP50:95对检测模型的性能进行评估。精确度衡量模型预测阳性类别时的准确性,而召回率评估模型检测到的阳性类别的全面性。而mAP50和mAP50:95分别表示在IOU阈值为0.5时的平均准确率,并从0.5变化到0.95时,用于全面评估模型在不同条件下的检测性能[30]。
图4:数据集样本的部分显示。
为了进一步评估模型的复杂性和效率,本研究还使用Params(M)(模型中的参数数量)、GFLOPs(每秒浮点运算数)和Model Size(MB)(模型大小)以及Inference Time(ms)来衡量模型。Params(M)表示模型中的总参数数量,参数数量越少,模型越轻便,更适合在资源受限的环境中部署。Params(M)表示模型中的总参数数量,参数数量越小,模型越轻便,更适合在资源受限的环境中部署。
GFLOPs代表模型的计算复杂度,计算复杂度越低,模型的计算需求越低,效率更高。Model Size(MB)衡量模型的存储需求,模型越小,部署在嵌入设备上的难度越小。
通过对这些指标的综合评估,本研究有效地衡量了模型在检测准确性、计算复杂度和实时性能方面的性能,为优化和实际应用火警检测模型提供了科学依据。
为了验证本文提出的EFA-YOLO目标检测模型的高性能,作者对该数据集进行了多项验证,并使用了上述提及的多种评价指标进行评估和分析。
首先,本文介绍了当前主流的目标检测模型,并与本文提出的模型EFA-YOLO进行了比较实验,以证明提出在本篇中模型的高性能。然后,作者对本文提出的模型进行评估,包括比较实验结果的分析,比较实验模型的识别结果分析。
最后,通过消融实验验证了本文设计的模块和结构的有效性。
为了验证所提出模型的性能,作者将使用训练集训练的EFA-YOLO与YOLOv5、YOLOv8、YOLOv9和YOLOv10等目标检测模型进行了比较。通过对这些实验的比较,证明了该模型的优越性能。与YOLOv5m、YOLOv8m和YOLOv10m相比,EFA-YOLO的mAP50分别提高了0.8%、1.2%和3.9%(见表1)。
图5:比较实验模型的检测结果。
在本消融实验中,作者通过逐步引入EAConv和EADown模块,对YOLOv8m基准模型的性能指标进行了深入分析,并评估了这些模块对模型性能的影响。实验结果如图2所示,展示了模型在多个指标上的性能,如精确度(P)、召回率(R)、mAP50、mAP50-95、模型参数(M)、计算复杂度(GFLOPs)和模型大小(MB)。消融实验的结果如图2所示。
本文提出了一种高效的轻量级模型EFA-YOLO进行火焰火焰检测,该模型通过引入两个关键模块EAConv和EADown,实现了高效特征提取和降采样,从而提高了火焰检测任务的检测准确性、计算效率和实时性能。实验结果显示,EFA-YOLO在模型参数数量、计算复杂度和推理速度等方面表现良好,与主流YOLO系列模型相比,模型参数数量减少了94.6%,推理时间提高了88倍,从而显著提高了模型的轻量化与实时性能。
尽管EFA-YOLO在火焰检测任务中表现出色,但仍有一些改进的空间。
首先,尽管模型在检测准确性和计算效率之间取得了良好的平衡,但在处理非常密集的场景时,仍可能出现漏检或误报。这主要是因为模型在处理微小火焰目标或复杂背景(例如,烟雾,光反射)时仍存在一定的局限性。
未来的工作将通过引入局部信息感知来优化对密集小目标的检测,进一步优化多尺度特征融合策略,并引入时间信息来提高模型在视频检测中的性能。
作者将提供更实时火焰检测和复杂场景自适应的技术支持。
[1].EFA-YOLO: An Efficient Feature Attention Model for Fire and Flame Detection.