顶会CVPR目标检测文章
AsyFOD: An Asymmetric Adaptation Paradigm for Few-Shot Domain Adaptive Object Detection
动动您的小手指,关注一下吧!
01 摘要
在这项工作中,我们研究了少镜头域自适应目标检测(FSDAOD),其中除了足够的源标记图像外,只有少数目标标记图像可用于训练。关键是,在FSDAOD中,目标域的数据稀缺性导致源域和目标域之间的数据极度不平衡,这可能导致传统特征对齐中的过度适应。为了解决数据不平衡问题,作者提出了一种非对称适应范式,即AsyFOD,它从不同的角度利用源实例和目标实例。具体来说,通过使用目标分布估计,AsyFOD首先识别与目标相似的源实例,这有助于增加有限的目标实例。然后,作者在目标不相似的源实例和增强的目标实例之间进行异步对齐,这种方法简单而有效地缓解了过度适应。大量的实验表明,所提出的AsyFOD在具有各种环境差异的四个FSDAOD基准上优于所有最先进的方法,例如,Cityscape到FoggyCityscape的mAP提高了3.1%,Sim10k到Cityscape的mAP提高了2.9%
图1 AsyFOD架构。通过主干提取输入图像的特征映射后,通过投影模块和ground truth提取实例级特征嵌入。然后,AsyFOD将源实例分为目标相似集(深蓝色的)和目标不相似集(浅蓝色的)。目标相似的源实例用于扩展目标实例。通过上述划分,在目标不相似源和增强目标实例之间进行异步对齐,缓解了由于数据分布极度不平衡而过早过度适应的问题。此外,AsyFOD还分别为分类和本地化任务执行面向任务的监督训练。
02 拟解决的关键问题
1. 数据稀缺性:在目标领域中只有少量标记图像可用,这导致源域和目标域之间存在极端的数据不平衡。
2. 过适应风险:在传统的对称特征对齐方法中,由于目标领域数据量有限,检测器可能会过度适应这些有限的观察到的实例,而无法很好地泛化到未观察到的其他实例。
3. 领域差异:源领域和目标领域之间存在显著的领域差异,这可能导致在目标领域上的目标检测性能下降。
4. 特征对齐挑战:如何有效地对齐源域和目标域的特征,同时考虑到数据不平衡和领域差异,是一个关键挑战。
03 本文的创新之处
1. 不对称适应范式(Asymmetric Adaptation Paradigm):文章提出了一种新的不对称适应方法,称为AsyFOD,它从不同的角度利用源实例和目标实例。
2. 目标相似源实例的识别:AsyFOD首先使用目标分布估计来识别与目标相似的源实例,这些实例被用来扩充有限的目标实例,以缓解数据不平衡问题。
3. 异步特征对齐(Asynchronous Alignment):文章提出了一种异步对齐方法,通过在优化过程中对目标实例特征应用stop-gradient操作,以异步方式对齐目标不相似的源实例和扩充后的目标实例,有效减轻过适应问题。
4. 任务导向的监督训练(Task-oriented Supervised Training):AsyFOD分别对分类和定位任务进行优化,通过使用不同的实例集来分别训练分类头和回归头。
图2 AsyFOD的训练流程。
04 方法流程
1. 问题定义:
AsyFOD旨在解决少样本领域自适应目标检测问题,即在目标领域仅有少量标记图像的情况下,训练一个能够在目标领域表现良好的目标检测器。
2. 数据准备:
源领域数据集DsDs:包含大量标记图像。
目标领域数据集Dt
Dt:仅包含少量标记图像。
3. 特征提取:
使用主干网络(backbone)和投影模块(projection module)提取源领域和目标领域的实例级特征嵌入。
4. 源实例分割:
将源领域实例集分割为与目标领域相似的实例集(target-similar)和不相似的实例集(target-dissimilar)。
通过目标分布估计函数,识别视觉上与目标实例相似的源实例,用以扩充目标实例集。
5. 异步特征对齐(Asynchronous Alignment):
在优化过程中,对目标实例的特征应用stop-gradient操作,实现目标不相似的源实例与扩充后的目标实例之间的异步对齐。
与传统的同步特征对齐相比,异步对齐可以更有效地对齐未观察到的目标样本。
6. 任务导向的监督训练(Task-oriented Supervised Training):
分别对分类和定位任务进行优化,使用不同的实例集来训练分类头和回归头。
利用目标相似的源实例进行分类任务的监督训练,而对所有边界框进行定位任务的训练,以提高边界信息的感知。
7. 损失函数
定位异步对齐损失,任务导向的分类损失和定位损失。
05 实验结果
图3 在(a)纯源模型、(b)建议的AsyFOD和(c)地面真实情况下,城市景观雾蒙蒙城市景观适应情景的定性结果。请放大看彩色的。
图4 在Sim10K上使用t-SNE实现实例级特征可视化城市景观场景(蓝色:源实例;深橙色:观察到的目标实例;浅橙色:未观察到的目标实例):(a)纯源检测器的特征;(b)拟议的具有停止梯度操作的AsyFOD的特点;(c)不采用停止梯度操作的拟议的AsyFOD的特点。
图5 可视化的前3个最近的目标相似的源实例对应的目标实例在城市景观雾蒙蒙的城市景观。此外,我们还将显示目标不同的源实例以进行比较。
图6 城市景观结果(%)雾蒙蒙的城市景观。“V”/“R”代表VGG16/ResNet50骨干网。“X”代表yolov5模型的类型。SO表示纯源结果,GAIN表示与纯源模型相比自适应后的增益。
图7 Sim10K城市景观(S)对比结果(%C)和KITTI城市景观(KC)。
图8 YOLOv5 X对ViPeDCOCO的作用结果(%)。
版权说明
领取专属 10元无门槛券
私享最新 技术干货