论文地址:https://arxiv.org/pdf/2201.00103.pdf
零样本目标检测(Zero-shot object detection)旨在结合类语义向量来实现在给定无约束测试图像的情况下检测(可见和)未见过的类。
一、前言
在这项研究中,研究者揭示了该研究领域的核心挑战:如何合成与真实样本一样具有类内多样性和类间可分性的鲁棒区域特征(对于未见对象),从而可以实现强大的未见目标检测器。
为了应对这些挑战,研究者构建了一个新颖的零样本目标检测框架,其中包含一个类内语义发散组件和一个类间结构保留组件。前者用于实现一对多映射,从每个类语义向量中获取不同的视觉特征,防止将真实的看不见的物体误分类为图像背景。而后者用于避免合成特征过于分散而混淆类间和前景-背景关系。
为了证明所提出方法的有效性,对PASCAL VOC、COCO和DIOR数据集进行了综合实验。值得注意的是,新提出的方法在PASCAL VOC和COCO上实现了最先进的性能,并且是第一个在遥感图像中进行零样本目标检测的研究。
二、背景
随着CNN和Transformer等深度学习技术的快速发展,目标检测研究领域取得了讯飞的进步。尽管现有方法实现的检测性能看起来很有希望和令人鼓舞,但在实际场景中应用它们存在一个隐藏的缺点——主流检测方法对要检测的类别有严格的限制。
一旦模型被训练,它只能识别出现在训练数据中的物体,而其他出现在测试图像中但在训练过程中看不到的物体会极大地混淆模型,导致无法避免的检测结果错误。为了解决这个问题,近年来提出了零样本目标检测(ZSD)的任务。目标是使检测模型能够预测在训练期间没有任何可用样本的看不见的对象。
三、新框架分析
在这项工作中研究问题的插图。在实际情况下,样本构建的特征空间显示出较高的类内多样性,但仍具有类间可分离性,如a所示,而现有方法学习的合成视觉特征空间要么类内多样性不足(如b所示),或具有过多的类内多样性,使类间不可分割(如c所示)。
上图显示了提出的ZSD总体框架。可以看出,它包含一个目标检测模块和一个域变换模块。目标检测模块是一个Faster-RCNN模型,以ResNet-101作为主干。
首先,我们用看到的图像及其相应的groundtruth注释来训练Faster-RCNN模型。获得模型后,可以用它来使用RPN为所见类提取区域特征。其次,我们训练区域特征合成器来学习语义词向量和视觉特征之间的映射。然后,使用学习到的特征合成器为看不见的类生成区域特征。通过这些合成的未见区域特征及其相应的类别标签,我们可以为未见类别训练未见分类器。最后,我们更新Faster-RCNN模型中的分类器,以实现ZSD任务的新检测器。
整个训练过程也在Algorithm 1中进行了详细说明。请注意,新提出的方法核心是如何学习统一的生成模型来学习视觉域和语义域之间的关系。具体来说,研究者设计了一个统一的区域特征合成器,用于在现实世界检测场景中进行特征合成,其中包含一个类内语义发散组件和一个类间结构保持组件。
四、实验及可视化
Comparison of mAP at IoU=0.5, under ZSD and GZSD settings on PASCAL VOC dataset
Comparison of Recall@100 and mAP at IoU=0.5 over two seen/unseen splits, under GZSD setting on MS COCO dataset
PASCAL VOC、MS COCO(48/17和65/15)和DIOR数据集的定性结果。对于每个数据集,第一列和第二列分别是ZSD和GZSD的结果。看到的类用绿色表示,看不见的用红色表示。
© The Ending