本文主要介绍一种基于深度强化学习和卷积神经网络的目标检测方法,对遥感图像中飞机目标进行检测。2018年初,赛博智能团队李扬同学将该方法发表于 Remote Sensing,这是国际首批将深度强化学习应用于遥感图像解译方向的技术论文。
背景简介
目标检测(Object Detection)是计算机视觉领域重要且富有挑战性的任务之一,其主要内容是在真实自然场景图片中精确找到待检测物体所在位置,并标注出物体的类别,准确描述物体的位置和类别信息。下图中目标检测将图中猫和狗所在区域,对应地用蓝色和红色方框标出。
目标检测 图源 | Faster R-CNN[1]
得益于深度卷积神经网络模型和目标检测框架的不断发展,近年来自然场景图像中目标检测技术取得了很大进步。深度卷积神经网络模型包括了比较经典的AlexNet、VGGNet、ResNet和DenseNet等用于分类的模型。而目标检测框架主要包含:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD和FPN等结构,检测框架与深度卷积神经网络模型结合共同完成目标的精确检测。
Faster R-CNN检测框架 图源 | Faster R-CNN [1]
目前在基于深度神经网络的目标检测框架中,目标的位置信息通常由神经网络直接前向传播得到,这些方法仅利用深度学习提取纹理、轮廓、边缘等视觉特征进行定位,特别在遥感图像中,目标定位精度受背景变化等因素的影响较大,这种直接得到位置信息的方式影响了定位精度和整体目标检测精度。
而强化学习可以通过融入先验的动作/状态集合,不断产生改变观察区域的决策动作,序列性地完成定位任务,从而提高目标的定位精度。深度强化学习将深度学习(Deep Learning)与强化学习(Reinforcement Learning)结合起来,实现高维空间从感知到动作的端对端学习,在人工智能博弈和传统视觉等领域取得了若干成功的应用。
强化学习组成 图源 | cs.ucl.ac.uk/staff/d.silver
基于强化学习的目标检测方法,将目标检测的过程抽象为时序的、不断产生决策动作的Markov过程。相比于直接得到目标位置方式,基于强化学习的目标检测方法中定位智能体不断地做出动作决策,迭代地定位到待检测目标。如下图所示,智能体不断地调整观察窗口的大小/横纵比、移动观察窗口,最终定位到目标所在区域。
强化学习检测流程
图源 | Active object localization with deep reinforcement learning [2]
下面我们将简要介绍深度强化学习的提出和发展概况。从视频游戏至围棋等领域,深度强化学习均取得了重大突破。
深度强化学习简史
2013年,DeepMind公司发表了开创性论文Playing Atari with Deep Reinforcement Learning,在该文中第一次提出深度强化学习(Deep Reinforcement Learning),并且提出DQN(Deep Q Network)算法,实现纯图像输入通过学习玩Atari2600游戏的成果。
深度强化学习智能体
在Breakout和Pong游戏中的测试结果
2015年,自然科学的顶刊之一Nature将DeepMind的DQN进化版论文Human-level control through deep reinforcement learning刊登在其封面上。研究人员将进阶版的DQN应用于49种不同的游戏,并在其中一半的游戏中取得了超过人类的表现。
Nature关于Deep Q Learning论文封面图
图源 | nature.com
2016年3月,由DeepMind公司团队开发基于深度强化学习的阿尔法围棋(AlphaGo)与围棋世界冠军棋手李世石进行围棋人机大战,以4比1总比分获胜;2017年初,该程序在中国棋类网站以“大师”(Master)为注册帐号与数十位围棋高手进行快棋对决,连续60局全胜;2017年5月,在中国乌镇围棋峰会上,它与世界排名第一的柯洁对战,以3比0的总比分获胜。
Nature关于AlphaGo论文封面图 图源 | nature.com
深度强化学习能够实现智能体对环境自适应控制,成为人工智能领域研究和应用的热点之一。在遥感图像中快速高效地检测到感兴趣的目标,是遥感图像自动化和智能化解译的主要组成部分。而基于深度强化学习的目标检测,为遥感图像目标检测等问题提供了新的思考方式和智能化的解决方案。
遥感飞机目标检测
本节我们着重介绍了深度强化学习的发展历程,下面我们将详细阐述基于深度强化学习的遥感飞机目标检测流程。
基于深度强化学习和卷积神经网络的遥感飞机目标检测
如背景所述,遥感图像由于背景复杂、目标外观多样和方向任意等特点,现有基于深度神经网络的目标检测框架,直接定位方式会导致定位精度不高,定位框难以准确覆盖待检测物体。因此本文工作如下图所示,结合深度强化学习进行迭代地目标的定位,完成检测任务。
采用强化学习定位取代神经网络回归定位
本项研究利用深度强化学习对遥感图像中飞机目标进行定位,首次将深度强化学习与遥感目标检测结合:
将遥感目标定位转化为马尔科夫决策过程,采用先验经验训练智能体,收敛速度快且能够避免局部最优;
提出深度强化学习和分类网络结合的遥感目标检测方法(RL-CNN),具有较高检测精度。
一、 飞机定位马尔科夫决策过程
和定位智能体训练
目标定位过程从起始位置,在每个动作决策时刻,智能体基于决策策略从动作集合中选取动作,依据动作观察窗口(状态)进行变化转移,直至目标定位完成。这个序贯决策的状态转移序列,使用马尔科夫决策过程(Markov Decision Process,MDP)建模。
动作集合:包含六个动作,依据动作决策后的结果分为两类:窗口尺寸减小动作(左上、右上、左下、右下和中部)和终止整个定位过程的终止动作。
目标定位过程动作集合示意图
状态集合:目标检测过程的状态由两部分构成:定位智能体所观察到的图像当前区域和定位智能体的历史动作。
目标定位过程状态集合示意图
我们的工作中使用人类的先验知识引导定位智能体如何选择动作。采用如下的贪婪策略先验知识:在训练过程中已知真值区域,每次动作选择之前,对于6个动作计算6个IoU,使得定位智能体每次选择IoU最大的动作。
如下图所示,随着训练进行定位智能体表现也在逐渐提高,灰色和黄色折线均在上升。学徒学习指导的智能体(with knowledge agent,灰色折线)在评价指标数值和收敛速度上的表现,明显优于无学徒学习指导的智能体(without knowledge agent,黄色折线)。
学徒学习智能体、无学徒学习智能体和随机动作的得分情况
在下图所示测试图像中,贪婪策略每次都选择IoU提升最大的动作,最终取得IoU为0.73。而定位智能体虽然学习贪婪策略,但在最开始自主选择IoU较低(0.16)的动作,正是由于这样的动作选择,才使得定位智能体后续最终取得IoU0.92的结果。定位智能体不仅学会了贪婪策略所指导的动作选择方式,而且从学习中发现并修正了贪婪策略这位老师的某些经验错误,提高了定位精度。这正如AlphaGo,它不仅学会了下棋,还能在学习中很好修正人类棋谱的经验错误。
贪婪策略和定位智能体同一幅图像的不同定位过程对比
训练得到的定位智能体对于原始遥感图像中的候选区图像目标进行定位,定位结果如下图所示。对于不同位置、尺度和型号的飞机,定位智能体均有较高的定位鲁棒性。
不同图像的定位结果
在这里我们通过基于强化学习训练的智能体得到了飞机目标的定位结果,下个部分将介绍遥感飞机目标整体的检测流程。
二、遥感飞机目标检测流程设计和验证
传统基于深度学习的目标检测流程,在预测目标位置的同时得到预测区域类别概率。前面提出的强化学习定位方法完成了定位任务,而没有进行定位区域分类,无法适用于传统检测框架。因此我们重新设计如下的飞机目标检测流程,对于定位智能体定位结果,由深度卷积网络进行分类打分,完成整个遥感飞机目标检测任务。
RL-CNN遥感图像飞机目标检测框架
我们将RL-CNN和单一基于深度强化学习的检测算法在测试图像中进行对比。如下图所示,单一基于深度强化学习的检测算法只定位到了个别飞机和部分飞机的机翼机尾,并未定位到大部分飞机任何部分。而RL-CNN检测方法得益于候选框提取、学徒学习指导训练和CNN出色分类能力,无需固定动作数目,能够成功地检测出遥感图像中飞机目标。
单一基于深度强化学习检测算法(左图)和
RL-CNN(右图)检测结果对比
同时我们将RL-CNN与现阶段较好的检测算法HOG-SVM、Multi-model Fast Regions CNN (MFCNN)和Faster Regions CNN(Faster-RCNN)进行比较。
我们使用各方法的Precision Rate(PR)和Recall Rate(RR)作为评价指标。Precision Rate为准确率,即找到的正确飞机目标占所有找到的目标比例。Recall Rate为召回率,即找到的正确飞机目标占所有正确飞机目标比例。Recall Rate相同时,Precision Rate越高检测效果越好,通过下图的Precision- Recall曲线可知,RL-CNN表现优于其他的检测算法。
不同检测算法的Precision-Recall曲线
MFCNN、Faster-RCNN和RL-CNN均是基于卷积神经网络的检测框架,得益于CNN优秀的特征提取和泛化能力,它们能够高效地检测出不同尺度和位置的飞机目标。RL-CNN中基于强化学习训练的定位智能体,使用自顶向下的搜索策略迭代地定位飞机,RL-CNN产生的检测结果更贴合于真值目标。下图为RL-CNN的检测结果。
RL-CNN检测结果
后记
本文飞机目标检测框架为候选区提取+目标精细化定位/分类的流程,由于独立的预提取方法会消耗较多运行时间,整体运行效率有待提高。
我们在未来工作中将会探索如何优化目标预提取方法以减少运行时间,尝试融合深度强化学习网络和卷积分类网络简化检测框架,并将检测框架应用于舰船等横纵比较大的目标检测任务中。
深度强化学习大法好。
参考文献
[1] Ren, S.; He, K.; Girshick, R.; Sun, J. Faster R-CNN: Towards real-time object detection with region proposal networks. In Proceedings of the Advances in Neural Information Processing Systems, Montreal, QC, Canada, 7–12 December 2015; pp. 91–99.
[2] Caicedo, J.C.; Lazebnik, S. Active object localization with deep reinforcement learning. In Proceedings of the IEEE International Conference on Computer Vision, Santiago, Chile, 11–18 December 2015; pp. 2488–2496.
作者简介
李扬,博士在读,2015年有吉林大学保送至国科大直博,研究方向为基于深度强化学习的遥感图像目标解译。
作者:李啊扬
编辑:尹文昕
刁文辉
领取专属 10元无门槛券
私享最新 技术干货