华为诺亚方舟实验室自动驾驶研究团队的最新自主研究成果《UCC: Uncertainty guided Cross-head Co-training for Semi-Supervised Semantic Segmentation》发表在计算机视觉领域的顶级会议CVPR 2022。
本研究以深度神经网络为依托,面向半监督语义分割,针对现有文献对半监督语义分割中伪标签中噪声高、类别不平衡以及标注数据和无标注数据中Domain GAP的问题,文章提出了Cross-head Co-Training的方法,考虑到了如何有效地利用一致性约束和self-training的方式联合训练对任务进行提升;利用Uncertainty过滤伪标签中的噪声,降低噪声对模型的影响;同时利用Cross-Set的增强方式降低标注数据和无标注数据分布差异的影响,避免了伪标签噪声、Domain GAP所带来的影响。
该方法具有较好的域适应、跨域能力,标注数据和无标注数据可以来自于不同分布的域,这一性质对深度神经网络的鲁棒性和分割结果的稳定性起到了重要作用。在训练过程中,利用Cross-head丰富特征提高其通用能力,有效地利用不同head之间输出来计算伪标签的Uncertainty,进而对其进行Pixel Level的加权。
本文将该半监督语义分割框架应用到Cityscapes、VOC2012数据集中,在投稿时均取得了各个Setting的SOTA。
图1:Cross-Head Co-Training框架
01 网络架构
本文提出的UCC方法可以充分利用一致性正则和伪标签训练的优势,利用二者联合训练从而大幅提升半监督语义分割的性能。图1是整体的网络结构图,图像进入一个共享的骨干网络后紧接着有两个不同的分割头独立完成分割任务。与用两个独立的模型相比,我们的这种方式可以学到一种更紧致的特征表达并且能进一步提升其泛化能力。
对于标注数据,我们对其进行弱增强并与真值计算损失。对于未标注数据,我们用弱增强后产生的伪标签来监督强增强的结果,并且在不同分割头之间交叉进行。
一方面,伪标签在扩大样本数据上很重要,另一方面,在强增强和弱增强之间施加约束可以充分利用一致性正则。紧接着为了抑制伪标签中噪声的影响,我们提出了估计不确定性并加权的UGRM模块用于无监督损失,可以在训练过程中鼓励置信度高的样本权重更大,反之则相反。此外,DCSCP被提出用来增强一致性训练中样本的多样性,同时可以处理长尾和分布不一致问题。
1.1 Cross Head
我们通过共享Backbone接着有两个不同的分割头作为我们的结构,Cross Head 网络可以进一步提高泛化能力,然后从不同的视图中学习更紧凑的特征。CM为Cross-Model,CH为Cross-Head。其中Cross-Head的性能会比Cross-Model高出1.03%,一方面是由于Cross-Head能够提升模型的泛化能力,另一方面也能学到不同的模型的View。
1.2 UGRM
利用不同Head之间预测的不一致性作为不确定性进行建模加权,我们的方法不仅能有效减轻伪标签的负面影响,同时也解决了错误累积问题。
Wm,ij为第i,j位置上的像素属于{1,…,C}的最大类别。Um,ij由下边的公式计算而来。
最后我们联合
和
作用于半监督训练损失,所以最后我们的总损失函数如下:
1.3 DCSCP
我们使用一种Cross-set的Copy Paste策略通过复制属于特定类别的所有像素并将它们粘贴到标注和未标注的图像上,能够处理标注数据和未标注数据之间分布不同的问题,同时也能够解决长尾问题。
02 实验结果
我们在Cityscapes和COCO数据集上均进行了验证,和Baseline相比,我们的方法在ResNet50作为Backbone的情况下分别在1/16,1/8,1/4和1/2上取得了10.74%,6.27%,4.50%,3.50%的精度提升;在ResNet101作为Backbone的情况下分别在1/16,1/8,1/4和1/2上取得了10.01%,6.41%,4.99%,3.87%的精度提升。