本文主要介绍一种基于多尺度旋转区域卷积神经网络的舰船检测和方向预测的算法。本项工作由赛博智能团队中的杨学等提出,部分论文已于2018年初发表于Remote Sensing。
舰船的检测和方向预测对促进国防建设、危险预警和海运调度等有重要意义。高分辨率的遥感成像技术的发展带来了更加复杂的特征信息,基于中低分辨率遥感图像的舰船检测方法已不再适用。下图是从Google Earth上下载的某海军基地影像,大小为16393x16393像素,分辨率为1.2米,覆盖范围为400平方公里。
高分辨率可见光舰船目标识别图像 | Google Earth
目前的舰船检测模型大多基于水平区域深度神经网络,对于舰船这类宽高比大的目标,其局限性包括:
漏检率高:水平区域检测框架中密集排列舰船具有较大的重叠区域,非极大值抑制(NMS)会抹去部分结果,从而造成漏检;
噪声冗余:由于舰船具有大长宽比的特点,一旦舰船目标具有一定的角度,检测结果往往会有较大的噪声冗余区域;
无方向预测:基于水平区域检测的舰船检测丢失了方向信息。
下图展示了水平区域检测(第一行)和旋转区域检测(第二行)的结果(绿色、红色边框分别表示预测框和丢失的预测框),可以看出旋转区域检测算法完美地解决了传统检测算法在密集对象检测中的问题。
采用水平区域检测与旋转区域检测的结果对比
(a)检测结果 (b)标签
基于多尺度旋转区域卷积神经网络的
舰船检测和方向预测
针对上述问题,搭建了一个基于多尺度旋转区域卷积神经网络的舰船检测和方向预测模型,总体框架如下:
技术路线
该框架主要由三个部分组成:密集特征金字塔网络,旋转检测网络,舰船方向预测。各部分结构描述如下:
密集特征金字塔网络(Dense Feature Pyramid Network, DFPN):DFPN是一种新的多尺度特征融合网络,它可以有效地集成低层位置信息和高层语义信息,为物体检测提供更高级的特征。
旋转检测网络(Rotational Detection Network, RDN):RDN主要包含了三个技术实现,旋转锚点/候选区域(R-Anchor/R-Proposal)、自适应感兴趣区域对齐(Adaptive ROI Align)以及旋转非极大值抑制(R-NMS),通过这三个技术的实现使得检测网络可以进行旋转边界框的回归和预测。
舰船方向预测(Prow Direction Prediction, PDP):由于实现了旋转边界框的回归和预测,使得舰船目标的方向信息得以保留,因此可以通过对四边进行预测找到船舶的停靠和航行方向。
密集特征金字塔网络
低层位置信息和高层语义信息对目标检测非常重要。特征金字塔是融合多级信息的有效多尺度方法。 为了增强特征传播,鼓励特征重用以及确保检测多尺度对象的有效性,我们采用了一个称为DFPN的多尺度特征金字塔连接。 下图描述了这种密集连接的多尺度金字塔特征融合网络的结构。
多尺度特征金字塔连接
每一个特征图上的特征点产生9个锚点,以及45个回归输出(5x9)和18个分类输出(2x9),如下图所示。
锚点的设置
旋转检测网络
旋转锚点/候选区域
传统的边界框是一个水平的矩形,所以它的表示相对简单,使用 (xmin,ymin,xmax,ymax)表示。它分别表示边界框左上角点和右下角点的坐标。但是这显然不再适合表示旋转边界框。为了更一般地表示边界框,我们使用五个变量(x,y,w,h,theta)来唯一确定任意边界框。 如下图所示,x和y代表中心点的坐标。旋转角theta是水平轴(x轴)逆时针旋转到遇到的矩形的第一个边的角度。同时我们定义这条边是宽度,另一条边是高度。我们注意到角度的范围是[-90,0)。
旋转边界框的表示
自适应感兴趣区域对齐
大长宽高比是船的主要特征。但是,一旦船舶倾斜,候选区域的冗余区域相对较大。大量的噪音会降低特征提取的质量,甚至会导致淹没特征。下图中(a-c)显示了获得固定长度特征向量的三种方法:ROI Align、RROI Align、Adaptive ROI Align。ROI Align显然伴随着大量噪音,导致目标被淹没。尽管RROI Align通过仿射变换消除了所有噪声,但它会丢失目标的空间信息。我们设计了Adaptive ROI Align,这种方法通过引入掩膜来自动过滤噪声区域。这个掩膜是可训练的,并通过对候选区域进行调整而获得。Adaptive ROI Align可以保留空间信息,同时留下少量的噪声来提高网络的稳定性。
下图中(d)显示了三种方法获得固定大小的特征图。正如我们所看到的,海岸是图片中的主要噪点,ROI Align无法将其完全移除。 RROI Align同时丢失空间信息并产生特征变形。Adaptive ROI Align获得高质量的特征图。
三种对齐方法的结构和可视化
旋转非极大值抑制
NMS是为了获得具有较小重叠(Intersection-over-Union,IoU)的高质量边界框。当船舶密集排列时,传统的NMS经常面临这样的困境,即相邻边界框具有较大的IoU重叠。因此,轴对齐边界框上的IoU计算方式可能导致旋转边界框的IoU不准确,进一步破坏边界框预测。针对这种问题,提出了一种任意旋转边界框的IoU计算方法。下图展示了任意两个多边形的位置分布的几种情况以及其IoU的计算示意图。
任意角度矩形IOU计算示意图
对于任意的两个旋转边界框的IoU计算算法如下表所示:
任意的两个旋转边界框的IoU计算算法
舰船方向预测
从旋转边界框的定义可以看出,旋转角度不能代表物体的方向,但是舰船的方向一定在旋转边界框的四边之一。对于这个发现,我们逆时针标记旋转边界框的四边,如下图所示。同时,我们在模型的旋转子网络中对舰船停泊和航行方向进行预测。
旋转边界框四边的标记方法
检测结果展示
在本研究中,我们构建了一个基于旋转区域的端到端船舶检测框架,可处理不同的复杂场景,检测密集对象,并减少冗余检测区域,并预测发现舰船的停靠和航行方向。下图为舰船检测结果。
舰船检测和方向预测结果
除了舰船,我们的模型还可以检测多个对象类别。 我们在DOTA公开可用数据集上评估我们框架的总体性能和可扩展性。DOTA是一个大型数据集,它包含15个通用对象类别。下图是检测效果图。
DOTA数据集检测效果
未来研究
尽管模型有较好的性能,但仍然存在一些问题。如检测结果存在较多的虚警,以及小目标检测仍有待提高。在未来研究中,我们需要探索如何有效减少虚警率,提高多尺度目标的检测精度。
附录
论文:
http://www.mdpi.com/2072-4292/10/1/132
源代码:
https://github.com/yangxue0827
作者简介
杨学,硕士,2016年由中南大学保送至国科大。研究方向为基于深度学习的光学遥感图像智能解译。
作者:杨 学
编辑:卢宛萱
张 跃
领取专属 10元无门槛券
私享最新 技术干货