作者 | Han-Kai Hsu、Chun-Han Yao、Yi-Hsuan Tsai、Wei-Chih Hung、Hung-Yu Tseng、Maneesh Singh、Ming-Hsuan Yang
译者 | 刘畅
编辑 | Jane
出品 | AI科技大本营(ID:rgznai100)
【导读】目标检测的最新深度学习方法依赖于大量的边界框标注信息。收集这些标注既费力又费钱,而且在对来自不同分布的图像进行测试时,受监督的模型不能很好地泛化。域自适应方法是通过使现有标签去适应目标测试数据。但是,两个域之间的巨大差距可能会使自适应成为一项艰巨的任务,从而导致训练过程不稳定和结果欠佳。
本文中,作者提出了用中间域来连接不同域,并逐步解决更容易的自适应子任务。方法是通过转换源图像以模仿目标域中的图像来构造此中间域。为了解决域转移(domain-shift)问题,作者采用对抗学习在特征级去调整分布。另外,还应用了加权任务损失函数去处理中间域中的图像质量不平衡问题。实验结果表明,在目标域的效果上,本文的方法优于最新(SOTA)方法。
论文地址:
https://arxiv.org/abs/1910.11319
引言
目标检测是一项重要的计算机视觉任务,它旨在对图像中的目标进行定位和分类。最新的神经网络方法已大大提高了目标检测的性能。但是,这样的深度模型通常需要大规模的带标注的数据集以进行监督学习,并且当训练集和测试集不同时,不能很好地泛化。例如,两个域可能在场景,天气,光照条件和相机设置方面有所不同。此类域差异或域转移(domain-shift)可能会引起模型泛化问题。尽管增加同属于一个目标域的其他训练数据可以提高性能,但是收集标注信息是耗时耗力的。
图1
图1很好的描述了渐进域自适应方法。传统的域自适应是解决从源域到目标域的域迁移问题,用IST表示。这里使用了一个中间合成域来填补这个间隙,该域让我们可以逐步解决具有更小间隙的独立子任务(如lSF和lFT)。此外,根据目标域数据的质量(黄色三角形的大小代表它们的权重),对合成域中的每个数据进行不平等处理(越接近目标,权重越大)。
无监督域自适应方法解决了在不使用目标域的地面真值标签的情况下的域转移问题。自给定源域注释的情况下,目标是以无监督的方式对齐源分布和目标分布,以便模型可以在无需注释的情况下推广到目标数据。在图像分类中,人们开发了大量的方法,但在语义分割和目标检测等复杂任务上的研究却很少。这种域自适应任务非常具有挑战性,因为通常在源域和目标域之间存在很大的差异性。
在本文中,作者的目标是简化不同数据域之间的协调工作。该方法通过对齐中间特征表示,解决了域偏移问题。通过利用位于源域和目标域之间的中间域,避免了在两个分布之间存在显着差异的直接映射。
具体来说,源图像首先由一个图像到图像的迁移网络进行转换,使其具有与目标图像相似的外观。这里将包含合成目标图像的域称为中间域。然后,去对齐源域和中间分布来构造中间特征空间,这比对齐最终目标域要简单得多。一旦这个中间域对齐后,就将它拿去连接目标域的桥梁。
因此,通过提出的中间域渐进自适应方法,将源域和目标域之间的初始对齐分解为两个子任务,这两个子任务都能以较小的域间隙解决较简单的问题。
在对齐过程中,由于中间空间是以无监督方式构造的,所以存在一个潜在的问题,那就是在基于迁移质量的基础上,每个合成目标图像可能会有不对等的结果。为了减少低质量图像的离群影响,在本文方法中提出了一个加权版本,该版本的权值是根据到目标分布的距离来确定的。也就是说,更接近目标域的图像应该被认为是更重要的样本。在实际应用中,在图像平移模型中获取到的鉴别器距离,会将其作为任务损失的权重纳入检测框架。
本文作者使用了许多的数据集,来评估该方法在各种不同适应场景下的效果,这些数据集包括包括KITTI, Cityscapes, Foggy Cityscapes和BDD100k。本文作者在多个现实世界的不同情况下进行实验,例如天气变化、相机差异和对大规模数据集的适应。通过提出的渐进域自适应算法,证明了本文方法在目标领域的精度中,优于当前最先进的算法。
主要贡献如下:(1)提出的自适应框架中,引入一个中间域为目标检测定位 (2)基于中间域中样本的重要性,提出了域对齐过程中的加权任务损失。(3)进行广泛的适应实验在不同对象检测场景,实现先进的性能。在多个真实世界的差异情况下进行实验,例如天气变化、相机差异和对大规模数据集的适应。
方法
简单说一下渐进域自适应方法,该方法将域自适应问题分解成两个更小的子任务,由位于源域和目标域分布之间的中间域来当桥接。利用此合成域,作者采用了一种渐进式适应策略,该策略逐渐缩小了中间域的差距。
作者将源域,合成域和目标域分别表示为S,F和T。从标记域S到未标记域T的常规自适应表示为ST,而提出的自适应子任务表示为SF和FT。图2展示了渐进式自适应框架。
图2
该算法包括适应的两个阶段,如图2中的a和b所示。首先使用通过CycleGAN [36]获悉的生成器G转换源图像以生成合成图像。之后,使用标记的源域并执行对合成域的第一阶段自适应。然后在(b)中,模型应用第二阶段自适应,该阶段采用具有标签合成域,并使合成域特征与目标分布对齐。另外,从CycleGAN中的鉴别器Dcycle获得权重w,以平衡检测损失中的合成图像质量。
图2中的(c)显示来自适应网络的整体结构。带标签的图像和未带标签的图像都通过编码器网络E来提取CNN特征featL和featU。然后,将它们作用于从featL中使用检测器网络学习监督对象检测,以及将两个特征都转发给GRL和域鉴别器,以对抗性方式学习域不变特征。
实验
作者在不同域差异的三种现实条件下,来评估本文方法的性能。这三种条件分别是跨相机适应,天气适应和对大规模数据集的适应。同时,本文作者分别使用了ITTI, Cityscapes, Foggy Cityscapes和BDD100k数据集,来评估本文方法在各种适应场景下的效果。图3展示了自这三种条件下,使用本文的域自适应方法前后的检测结果。
图3
图3是本文实验的三个自适应任务的检测结果示例。前两行分别是任务KITTI城市景观和城市景观有雾的城市景观,而后两行是任务CityscapesBDD100k。
总结
在本文中,作者提出了一种渐进的自适应方法,该方法使用中间域来弥合域间隙,从而将较困难的任务分解为具有较小间隙的两个较简单的子任务。通过将源图像转换为目标图像来获得中间域。使用此域后,该方法通过从源域适应到中间域,然后最终适应目标域,逐步解决适应子任务。另外,该方法的第二阶段引入了加权损失,以平衡中间域中的不同图像质量。实验结果表明,本文的方法与最新方法相比具有良好的性能,并且可以在跨场景,天气条件和适应大规模数据集等各种情况下进一步减少域差异。
领取专属 10元无门槛券
私享最新 技术干货