前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >视觉显著性目标检测综述(一)

视觉显著性目标检测综述(一)

作者头像
AiCharm
发布2023-05-15 16:40:26
2.9K0
发布2023-05-15 16:40:26
举报
文章被收录于专栏:AiCharm
人类视觉注意力检测研究起源于认知心理学和神经科学,包括人眼关注点检测和显著性目标检测。人眼关注点检测作为引入计算机视觉的早期人类视觉注意力机制研究工作,通过数据建模的方式模拟人类视觉注意系统的机能,对人眼在场景中某一个位置停留的可能性进行预测。随着计算机视觉领域的不断发展,强调对场景中显著目标整体的准确预测并且获取清晰的显著目标边界,由此产生了显著性目标检测分支,为目标级别的视觉任务提供更直接、更有效的信息,其研究历史相对较短,是一个纯计算机视觉任务。

作为视觉注意力机制在目标分割任务上的延拓,并作为计算机视觉任务中非常重要的预处理步骤之一,显著性目标检测在立体匹配、图像理解、动作识别、视频检测和分割、语义分割、医学图像分割、目标跟踪、行人重识别、伪装目标检测以及图像检索等领域中发挥着非常重要的作用,如图1所示。由此可见,显著性目标检测有着广泛的应用价值和重要的研究意义。

显著性检测的主要研究方向:

目前基于深度学习的显著性目标检测研究方向大致可以分为:RGB图像显著性目标检测、RGB⁃D/T(Depth/Thermal)图像显著性目标检测、视频显著性目标检测、协同显著性目标检测以及光场图像显著性目标检测多个方向。

显著性检测的两种机制:

显著性目标检测包括两种机制,一是图像本身对人产生吸引的从下而上机制,二是在人意识控制下对图像主动关注的从上往下机制。由于目前的研究对于人的大脑结构与功能的了解还很肤浅,因此主要围绕从下而上的机制来展开显著性目标检测的一系列研究,侧重于检测场景中吸引最多注意力的目标,然后逐像素地提取目标的轮廓。

RGB图像显著性目标检测

主要利用图像的纹理、颜色、形状等底层特征获取显著信息,后来通过例如稀疏编码、卷积神经网络或者循环神经网络等特征学习方式检测显著目标。

RGB-D利用深度信息检测

RGB-D图像是同时包含红绿蓝(RGB)彩色图像和深度(D)图像的图像。深度信息指的是场景中每个像素点到相机的距离。

深度信息的引入能够弥补RGB图像缺失的深度信息,有助于从杂乱背景、光照变化等挑战性情况中检测出显著性目标。

该方向的检测任务能够在前景和背景相似的复杂场景下,利用RGB图像所包含的底层特征以及深度图像所包含的空间信息区分显著目标和背景,进而提高检测结果图的质量。

RGB-T利用热红外信息检测

在纹理相似、背景暗光及复杂场景下,RGB图像不能为模型训练提供更多更具有区分度的信息,且常常会导致预测结果不准确,或者没有办法识别出目标。虽然引入深度信息的目标检测任务有一定的效果,但深度信息在目标和镜头垂直或是同一个目标在深度图上的差别很大时便会失去作用。

近年来随着热红外技术的普及,研究人员发现热红外信息对于照明条件差、照明不均匀产生的目标模糊问题非常有效,且对天气条件不敏感,适合处理在全黑环境、大雾天气、杂乱背景等恶劣条件下拍摄的场景,例如在城市街景的语义分割任务中就取得了很好的效果。因此,研究人员将热像仪生成的红外图像作为重要的信息补充,进而提高显著性目标检测效果。

RGB-T图像显著性目标检测是一种基于RGB-T(可见光和热红外)图像数据的目标检测方法。RGB-T图像包括同时包含可见光(RGB)和热红外(T)图像的图像数据。可见光图像提供了目标的表面特征信息,而热红外图像则提供了目标的热特征信息。通过同时利用这两种信息,可以更好地区分前景和背景,更准确地定位和分割目标物体。

光场图像显著性目标检测

使用光场图像进行显著性目标检测是使用专门设计的相机(例如Lytro)拍摄的光场图像,本质上是一个由观察场景的相机网格拍摄的图像阵列。

光场图像数据为显著性目标检测提供了2个有效支持:一是允许合成一叠聚焦在不同深度的焦点堆栈图像;二是提供了丰富的多模态信息,包括光线的位置、方向和几何等空间信息和结构信息。

显著性目标检测的难点

在计算机视觉中,显著性目标检测通常包含以下2个阶段:一是检测最为显著的目标,二是精确分割显著目标所在的区域。

目前主流方法仍然存在:显著目标边界模糊、数据集图像数量不够或深度等图像质量不高以及多目标显著性检测不完整等问题

RGB图像显著性检测难点分析

目标尺度变化大

由于基于深度学习的显著性目标检测任务模型大多是建立在主流的图像分类骨干网络上,缺乏对像素级别精确预测的基础。无论是自然场景图像还是遥感图像中的显著性目标检测,显著性目标的尺度变化都极大地影响着模型性能。由于基于深度学习的显著性目标检测任务模型大多是建立在主流的图像分类骨干网络上,缺乏对像素级别精确预测的基础。

对于不同大小的目标来说,大尺度目标需要在分辨率更小的深层特征图中才能被捕捉到,而小尺度目标的特征则可能会由于像素的减少在分辨率降低的过程中被丢失;相反的,小尺度目标虽然可以在分辨率较大的浅层特征图中保留相关的有效信息,却又缺乏足够的语义信息来指导网络准确定位目标的位置。因此,如何设计合适的网络结构来应对多尺度目标的检测需求是长期以来RGB图像显著性目标检测任务的突破点之一。

相似背景和复杂背景对检测的干扰

现实场景中往往存在着大量前景和背景相似的情况,这将导致模型无法较好地辨别显著性目标的准确位置,从而导致大量的假阳性和假阴性预测,阻碍了显著性目标检测任务模型的性能提升。而复杂背景情况下的显著性目标检测则对模型的性能提出了更大的考验。常见的复杂背景如阴影、倒影等信息常常会误导模型将其误检为前景目标的一部分,从而降低检测质量。现有的大多数方法采用注意力机制来增强模型的鉴别能力,达到过滤背景信息和高亮前景目标的目的,但仍有很大的空间值得不断改进。

显著图边界模糊

为了实现高质量的显著性目标检测,精确的边缘检测是关键基础,在显著性目标检测的其他分支中均面临这一挑战。当前的研究大多集中在区域精度上而不在边界质量上,导致显著目标检测结果的边界问题不佳,

以前的显著性目标检测方法通过一个步骤同时捕捉图像的语义信息和边界细节,但这两个问题本质不同,导致处理高清图像时结果较差。语义信息的捕捉需要较大感受野,边界信息的捕捉需要低级结构信息,即较小感受野。如果直接应用低分辨率模型的话,此时大感受野会带来更大的计算开销,因此往往需要先将图像进行下采样,而这样就会导致低级结构信息的丢失。

早期的检测方法是简单使用全连接层,但是却破坏了数据的空间结构信息。后来使用全连接网络(Fullyconnectednetwork,FCN)[21]缓解了这一问题,但是细节信息容易丢失。

在显著性目标检测方法中常用的损失函数交叉熵损失在判别边界像素点时,通常置信度都比较低,导致边界模糊。除此之外,现有的模型缺乏强大边界检测能力的另一个原因在于传统的显著性标签掩码作为训练标签时平等和独立地处理显著目标内的所有像素,因此它们缺乏像素间关系的信息,使边缘难以检测。

RGB⁃D/T图像显著性目标检测难点

在真实和复杂场景下的检测效果不佳

对于RGB⁃D图像显著性目标检测来说,现有数据集存在设计偏差,多为环境相对简单且至少包含一个显著目标的图像,或是在相对简单环境中多个目标通常只有人的图像,这些图像只能帮助分析模型的整体性能,缺乏反映真实场景中所面临挑战的各种属性,使用其训练出来的模型在真实场景中的应用效果难以令人满意。除此之外,部分数据集还存在图像数量较少、显著目标标注质量较低的情况。例如数据集MSRA⁃A中的显著目标基本是以标定框的形式进行标注,数据集ASD和MSRA10K在每帧图像中大多只包含一个显著目标,数据集SED2在单帧图像中包含2个显著目标但仅有100幅图像。

同样的,对于RGB⁃T图像显著性目标检测来说,目前仅有VT821、VT1000、VT5000三个数据集,其中首个数据集VT821于2017年被提出,因此真实场景下数据集的构建对于RGB⁃T显著性目标检测来说仍然是一个很大的挑战,场景的多复杂性、高多样性、高分辨率等以及数据集的规模都是下一步的研究方向。

跨模态信息不能有效融合

对于RGB⁃D模型来说,深度信息和RGB信息的有效融合至关重要。目前已有的方法通常将RGB信息和深度信息视为独立的信息,分别为其特征提取设计单独的网络,不能有效地进行特征提取和融合[35],难以捕捉两种模态的相互作用,且庞大的网络结构需要大量的参数和训练数据,当前高质量的深度图仍然是稀缺的。除此之外,现有方法常常没有带监督的解码器来指导学习,这可能会导致无法获得最佳深度特征,且很少有RGB⁃D的显著性目标检测模型明确利用了模态的特异性[36]。

RGB⁃T显著性目标检测问题目前只是独立解决,大部分都是直接从主干中提取并融合原始特征,这类方法很容易受到低质量模态数据和冗余跨模态特征的限制。当前的方法通过简单的连接或逐元素求和操作来融合多模态特征,而没有考虑来自不同模态特征的重要性,未能很好地探索RGB图像和深度图像或热红外图像之间的互补信息/特征。

低质量互补信息对显著性目标检测结果有较大影响

深度信息和热红外信息等互补信息的引入虽然能够弥补RGB图像缺失的空间信息,但常用数据集以及真实场景中互补信息的质量是不稳定的,而低质量互补信息的引入会影响最终显著性目标检测的效果。

以下3种情况均会影响最终显著图的质量:

  • 尝试改善深度图前景和背景之间的对比度来修复深度图质量时,如果不能有效增强前景,则会产生显著目标不完全检测的结果
  • 当深度图被识别为低质量时选择直接丢弃,深度信息的引入则失去互补作用,最终的检测结果会受到前景和背景对比度较低的RGB图像影响
  • 采用知识提取技术使RGB数据流能够学习深度信息,虽然避免了测试阶段低质量深度图的影响,但当提取的深度信息与测试中的高质量深度图不一致时,深度信息的引入也会失去互补作用,深度模型的性能将会受到影响

光场图像显著性目标检测难点

光场图像显著性目标检测任务的不同之处主要在于研究如何利用光场数据如深度信息、聚焦线索以及角度变化来实现显著性目标检测。

原始的4D光场数据难以被直接应用处理,人们往往会对光场数据进行预处理,从而生成微透镜图像、子孔径图像、多视角图像、焦点堆栈图像和全聚焦图等数据。

光场数据视角基线狭窄,影响最终显著图质量

场数据的获取主要通过Lytro光场相机采集,有视角基线狭窄、视差范围小的缺点,而狭窄的视角基线不仅会导致视角信息的冗余,还会影响深度图的质量,进而让显著性目标检测变得困难。除此之外,视角基线狭窄情况下像素在单张光场图像内无显著变化,导致光场图像中相对深度信息的获取受限。

受通用基准等条件限制,当前经验成果较少

人们对许多数据形式,如多视角图像、微透镜图像、高分辨率图像等研究还很少。大多数现有方法都集中在对焦点堆栈图像的利用上并取得了理想的效果,这是一个很好的趋势,说明光场图像显著性目标检测任务可以被很好地解决。然而,一个未解决的问题是,既然光场数据的不同数据形式可以提供对场景的不同描述,如何充分挖掘其他受关注较少的数据特征来建立更多的光场图像显著性目标检测任务是值得进一步研究的方向,包括对于光场数据中隐含深度信息的利用,对于弱监督、无监督学习方式在该分支的应用也是未来需要进一步突破的难点。

参考

[1].基于深度学习的显著性目标检测综述

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-03-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 参考
相关产品与服务
人体分析
腾讯云神图·人体分析(Body Analysis)基于腾讯优图领先的人体分析算法,提供人体检测、行人重识别(ReID)等服务。支持识别图片或视频中的半身人体轮廓;支持通过人体检测,识别行人的穿着、体态等属性信息。可应用于人像抠图、背景特效、人群密度检测等场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档