首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

光学图像舰船检测顶刊推荐

IEEE Transaction 论文分享

SASOD: Saliency-Aware Ship Object Detection

in High-Resolution Optical Images

公众号介绍

本公众号将长期、持续致力于分享计算机视觉领域最前沿的科研动态,欢迎各位同学关注、点赞和分享,您的支持是我坚持下去最大的动力。后续将继续为进行代码解读、论文分享。

动动您的小手指,关注一下吧!

Part.1

摘要

在高分辨率光学遥感图像(ORSI)中进行船舶检测是一项重要但具有挑战性的任务,有着广泛的应用,比如海上安全和资源保护。近年来,在深度学习的助力下,船舶检测取得了长足的进步。然而,现有的方法仍然存在两个具有挑战性的问题:1)在复杂的背景下对低区分度的船舶定位不准确;2)对于小型船舶存在漏检问题。为了解决上述问题,我们提出了一种新颖的船舶检测方法,该方法配备了基于自上而下特征金字塔网络的显著性引导特征融合网络(SGFFN)和动态 IoU 自适应策略(DIAS)。SGFFN 是基于自上而下的特征金字塔网络设计的,旨在将显著性信息引入船舶检测网络,并优化显著性感知特征。它由两个部分组成:分辨率匹配显著性监督(RMS)网络和跨阶段显著性集成网络(CSIN)。RMS 是一种双匹配机制,采用针对不同尺度的显著图采用不同的预测结构,从而能够获得更精细的显著性感知特征。CSIN 是一个跨阶段、跨通道的集成模块,旨在将显著性感知特征与低级特征融合在一起。此外,还为小型船只设计了一种定制化的训练策略,即 DIAS,以便在训练阶段为围绕小型船只的锚点分配合适的交并比(IoU)阈值。在两个数据集上的实验结果表明,我们提出的这种方法达到了最先进的性能水平。

Part.2

拟解决的问题

低区分度船只的定位不准确:

在复杂背景下,船只与背景之间的区分度较低,导致检测器难以准确识别和定位船只。例如,港口的码头可能会干扰近岸船只的定位。

现有方法在处理低区分度目标时,容易出现误检或定位不准确的问题。

小船只的漏检问题:

高分辨率遥感图像中存在大量小船只,这些船只由于尺寸小、外观特征不明显且噪声高,容易被现有检测器忽略。

现有检测器在训练过程中,往往优先考虑通用目标的特征,导致小船只的监督信息丢失,进一步加剧了漏检问题。

如何有效利用显著性信息:

虽然已有研究尝试利用显著性信息来辅助船只检测,但现有的显著性监督利用不足,未能充分发挥其在船只检测中的作用。

现有方法在显著性信息的融合和优化方面存在不足,未能有效提升船只检测的性能。

图1 本文在船舶目标检测中关注的问题。(a)在复杂的近岸背景下,低分辨力船舶定位不精确,其中蓝框表示码头误检结果,红框表示地面真值。(b)小型船舶的检测结果,其中有很多船舶被漏检。

Part.3

创新之处

提出了一种新型的船只检测框架SASOD:

该框架通过引入显著性引导的特征融合网络(SGFFN)和动态IoU自适应策略(DIAS),专门针对低区分度船只的精确定位和小船只的漏检问题进行优化。

通过实验验证,SASOD在两个高分辨率光学图像数据集(HRSC-SO和DOTA-isaid-ship)上均取得了最先进的性能。

设计了显著性引导的特征融合网络(SGFFN):

分辨率匹配显著性监督(RMS)网络:采用双匹配机制(尺度匹配监督和结构匹配监督),针对不同尺度的显著性图设计多样化的预测结构,从而获得更精细的显著性感知特征。

图2 RMS网络的结构。自上而下路径中的显著性预测结构是不同的。

跨阶段显著性集成网络(CSIN):通过融合显著性感知特征和低层特征,增强对低区分度船只的检测能力,特别是在密集场景中。

提出了动态IoU自适应策略(DIAS):

针对小船只检测问题,DIAS根据小船只的尺度动态调整IoU阈值,解决了现有方法中固定IoU阈值导致的小船只监督信息不足的问题。

通过自适应调整IoU阈值,DIAS能够为小船只周围的锚框分配更合适的正负样本标签,从而提高小船只的检测性能。

显著性检测与船只检测的协同优化:

SASOD不仅在船只检测任务上表现出色,其显著性检测分支也在多个显著性检测指标上取得了优异的性能,验证了显著性信息的有效利用。

通过显著性检测辅助船只检测,实现了两者的协同优化,提升了整体检测性能。

多尺度显著性监督和特征融合:

通过在解码器的多个分支中引入显著性预测,SASOD能够充分利用多尺度特征,生成更精细的显著性图,进一步优化显著性感知特征。

低层特征与高层语义信息的结合,使得显著性图的生成更加精细,有助于提升船只检测的准确性。

图3 我们方法的总体框架。它由编码器、中间阶段、语义阶段、解码器和预测器五个阶段结构组成。编码器设计用于编码器低级信息,如边缘和纹理信息。在信道尺寸减小的同时,引入了中间阶段,以减少信息的丢失。语义阶段结构用于为解码器和预测器提供语义指导。采用RMS模块和CSIN模块的译码器结构(SGFFN)将显著性信息融合到网络中,优化显著性感知特性。预测器用于盒回归和分类。

Part.4

方法流程

1. 网络结构概述

SASOD的整体框架分为五个阶段:编码器(Encoder)、语义阶段(Semantic Stage)、中间阶段(Mid-Stage)、解码器(Decoder)和预测器(Predictor)。每个阶段都有不同的功能,协同完成船只检测和显著性检测任务。

编码器:用于提取输入图像的低层信息,如纹理和边界信息。文章中使用了ResNet50作为骨干网络,通过其“瓶颈”结构提取不同分辨率和通道数的特征图。

语义阶段:在编码器的输出基础上,通过一个“ReLU + 3×3卷积层”来提取语义级别的特征,为后续的解码器和预测器提供语义指导。

中间阶段:通过一个自顶向下的路径,对特征图进行上采样和特征融合,以减少通道维度降低时的信息损失。

解码器(SGFFN):是SASOD的核心部分,包含显著性引导的特征融合网络。它通过RMS网络和CSIN模块,将显著性信息融入到船只检测网络中,并优化显著性感知特征。

预测器:用于最终的船只检测,包括分类和边界框回归两个分支,分别预测船只的类别和位置。

2. 显著性引导的特征融合网络(SGFFN)

SGFFN是SASOD的关键模块,它通过以下两个子模块来实现显著性信息的融合和优化:

分辨率匹配显著性监督(RMS)网络

RMS网络采用双匹配机制,包括尺度匹配监督和结构匹配监督。尺度匹配监督通过将显著性标签调整到与特征图分辨率相匹配的大小,使不同尺度的显著性图能够与对应分辨率的特征图进行监督学习。结构匹配监督则根据特征图的层次结构,设计不同的预测结构,以生成更精细的显著性图。高层特征由于包含较粗粒度的信息,采用较轻量的预测结构;而低层特征包含更细粒度的信息,因此使用多层预测结构来生成更详细的显著性图。

RMS网络在训练阶段对显著性图进行逐层预测和监督,通过二值交叉熵损失函数对每个层次的显著性图进行优化,从而获得更准确的显著性感知特征。

跨阶段显著性集成网络(CSIN)

CSIN模块的作用是将显著性感知特征与低层特征进行融合,以增强对低区分度船只的检测能力。它通过全局平均池化操作分别对显著性感知特征和低层特征进行特征嵌入,然后将这两个嵌入进行拼接,并通过一个3×3卷积层来捕获跨阶段特征的交互信息,生成通道注意力权重。

最后,通过通道注意力权重对显著性感知特征和低层特征进行加权融合,生成用于预测的特征图,从而为船只检测提供更丰富的特征表示。

3. 动态IoU自适应策略(DIAS)

DIAS是针对小船只检测问题设计的一种训练策略,其核心思想是根据小船只的尺度动态调整IoU阈值,以解决固定IoU阈值导致的小船只监督信息不足的问题。

在训练阶段,检测器会生成密集的锚框,并计算这些锚框与真实船只框的IoU值。DIAS根据真实船只框的面积,动态调整IoU阈值,为小船只周围的锚框分配更合适的正负样本标签。

当真实船只框的面积较小时,DIAS会降低IoU阈值,使得更多的锚框能够被标记为正样本,从而增加小船只的监督信息;而对于较大船只,DIAS则采用默认的IoU阈值。通过这种方式,DIAS能够更好地平衡小船只和大船只的检测性能,提高模型对小船只的检测能力。

4. 损失函数设计

SASOD的损失函数由分类损失、回归损失和显著性检测损失三部分组成,通过综合优化这三部分损失,实现船只检测和显著性检测的协同训练。

分类损失:采用焦点损失(Focal Loss),用于处理类别不平衡问题,使得模型更加关注难以分类的样本。

回归损失:用于优化预测边界框与真实边界框之间的差异,通过平滑L1损失函数对边界框的中心坐标、宽度和高度进行回归优化。

显著性检测损失:对显著性检测分支的多尺度显著性图进行监督,通过二值交叉熵损失函数对每个尺度的显著性图进行优化,从而提高显著性检测的准确性。

总体损失:将上述三部分损失进行加权求和,得到总体损失函数,用于指导整个网络的训练过程。

5. 训练与推理

训练阶段:在训练过程中,SGFFN中的RMS网络通过显著性标签对显著性感知特征进行监督学习,同时DIAS动态调整IoU阈值,为锚框分配合适的标签。整个网络通过综合优化分类损失、回归损失和显著性检测损失,不断调整网络参数,提高船只检测和显著性检测的性能。

推理阶段:在推理时,输入图像经过编码器、语义阶段、中间阶段和解码器,生成显著性感知特征和低层特征的融合特征图。然后,预测器基于融合特征图进行船只分类和边界框回归,最终输出船只检测结果。

Part.5

实验结果

图四 不同融合策略的可视化。第一行是使用无连接策略的结果。第二行表示元素相加的可视化结果。第三行显示了CSIN的结果。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OCmoHbMgMqHS6c15If2oML5w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券