前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >西交大提出 SCMix | 随机复合混合,实现更低的误差边界,态地混合源图像和多目标图像,实现全局最优适应 !

西交大提出 SCMix | 随机复合混合,实现更低的误差边界,态地混合源图像和多目标图像,实现全局最优适应 !

作者头像
集智书童公众号
发布2024-05-30 14:27:39
1300
发布2024-05-30 14:27:39
举报
文章被收录于专栏:集智书童

开放复合领域适应(OCDA)旨在将知识从标记源域转移到由 未标注 的同质复合目标域混合的域中,并泛化到开放的未见域。现有的OCDA方法通过分而治之的策略解决域内差距,将问题划分为几个单独且平行的领域适应(DA)任务。 这类方法通常包含多个子网络或阶段,这可能会限制模型的性能。在这项工作中,从通用的DA理论出发,作者为OCDA设置建立了泛化边界。基于此,作者认为传统的OCDA方法可能极大地低估了复合目标域内部固有方差对模型泛化的影响。 随后,作者提出了随机复合混合(SCMix),一种旨在减轻源域与混合目标域分布之间分歧的增强策略。作者提供了理论分析来证实SCMix的优越性,并证明先前的方法是作者方法的子集。 大量实验表明,在OCDA语义分割任务上,作者的方法取得了更低的经验风险,从而支持了作者的理论。结合 Transformer 架构,SCMix相比于SoTA结果实现了显著性能提升。

Introduction

尽管基于深度学习的方法在语义分割方面取得了显著的成就,但这些方法常常需要大量的逐像素标注数据。

为了减轻与数据收集和标注相关的成本,提出了使用合成数据集Richter等人(2016);Ros等人(2016)作为替代方案。然而,在合成数据上训练的模型往往难以很好地泛化到真实图像。

为了应对这一挑战,提出了无监督领域自适应(UDA)Tranheden等人(2021);Hoyer等人(2022);Zhang等人(2021),以将知识从标记的源域转移到 未标注 的目标图像上。UDA旨在弥合域之间的差距,使模型能够有效地泛化到新的未见数据。以前的方法Tsai等人(2018);Hoffman等人(2018)通常依赖于这样一个假设:目标数据来源于单一的同质域。

然而,当目标数据由多个子域组成时,这可能会导致次优的结果。面向更现实的DA设置,Liu等人Liu等人(2020)提出了开放复合领域自适应(OCDA)的概念,它在不带领域标签的情况下包含了混合目标域。这种策略通过适应复合目标域来增强模型的泛化能力,从而在面对未见域时获得更好的性能。

最近的OCDA研究主要采取分而治之的标准Gong等人(2021);Park等人(2020);Pan等人(2022),首先将目标复合域划分为多个子域,然后分别适应每个域。这个过程等于将复杂问题分解为多个更简单的单目标DA问题。为了分别与不同的目标域对齐,它们通常包含许多子网络或阶段,而模型的学习过程等同于多个子域模型的集成,这在实践中可能导致平凡解,限制它们的泛化性能(见图1(b))。

图1:(a) 所提出的随机复合混合(SCMix)。(b) 现有工作逐步适应每个目标域。(c) 作者的方法专注于混合复合域以增强模型的适应性和泛化性能。

为了解决上述问题,有必要研究非单一混合目标领域如何影响整体的泛化性能,并重新定义适应风险。

经典的域自适应边界分析[1]在限制目标风险时考虑了三个因素:源风险、分布差异和最小组合风险。

受此分析的启发,在适应包含多个子领域的混合目标领域的OCDA设置时,作者推导出一个新的边界,表明分布差异应计算为“源领域与任何可能的目标联合子领域之间的差异之和”。

通过这一理论,之前的分而治之方法简化了这种计算,只考虑源领域与每个目标子领域之间的差异,这忽略了真正的领域内差异,偏离了OCDA的定义。这种简化也可能阻碍模型在目标领域的迁移性能。

基于这一发现,作者认为关键挑战在于利用复合目标领域之间的差异和相关性,以最小化实际的适应差距。为了实现这一点,作者提出了随机复合混合(SCMix),这是一种先进的混合解决方案,可以在全局范围内减少源领域和混合目标分布之间的分歧(见图1(c))。

作者的策略通过动态网格 Mask 随机混合源图像和多个目标领域,进一步执行类别混合过程。作者从理论上分析了作者提出的策略相对于现有方法的优点。作者工作的一个关键贡献是证明了SCMix可以被看作是先前单一目标混合的泛化扩展,即根据群论框架,它们实际上是作者提出框架的一个子群。

这证明了SCMix可以产生更低的经验风险。作者进行了大量实验来支持其有效性。此外,考虑到Transformer相对于CNN的鲁棒性,作者首次引入并揭示了在OCDA设置中Transformer Backbone 网的巨大潜力。

在此基础上,作者的方法在域自适应和域泛化场景中均优于现有最先进的方法。作者的贡献可以总结如下:

  • 作者为多类别域适应(OCDA)定义了适应边界,这突显了现有方法的局限性,并阐述了解决此问题的关键。(第3.1节)
  • 作者为OCDA设置引入了一种简单而有效的混合策略——随机复合混合(SCMix),它动态地混合源图像和多目标图像,以实现全局最优适应。(第3.3节)
  • 作者证明,从理论上讲,SCMix通常能够超越现有的OCDA方法。采用作者提出的策略可以实现更低的误差边界。(第3.4节)
  • 作者进行了大量实验来验证SCMix的有效性,在复合域和开放域上均取得了显著的实证优势。(第4.2节和4.3节)

Related Work

无监督域自适应(UDA)技术旨在克服与大尺度数据集标注相关的一系列挑战,这些挑战可能既费时又昂贵。对抗性学习[22, 19,20]是UDA中的一种流行策略,该策略通过在图像 Level 或特征 Level 上对齐源域和目标域的分布,从而隐式地测量分布偏移并学习域不变表示。

此外,自训练方法[22, 23, 24, 25]通过利用在标记的源域数据上训练的模型为目标域数据生成伪标签,并迭代地使用这些标签训练模型,展现了有希望的性能。现有的方法在实践中的使用受限,因为它们假设目标数据来自单一分布。需要更一般化的技术来处理现实场景中多个多样化分布的挑战。

开放式复合域自适应(OCDA)假设目标域是由多个同质域组合而成的,没有域标签,而不是主要单峰分布。CDAS[17]首次提出了OCDA的概念,引入了一种课程域自适应策略来从源相似样本中学习。AST[16]引入了跨域特征风格化和内容保持归一化来学习域不变特征。大多数当前的OCDA工作[24, 25, 26]通过将复合目标域分离为多个子域来解决域内差距。CSFU[24]采用了针对自适应的域特定批量归一化。DHA[26]使用基于GAN的图像翻译和对抗性训练从子域中提取域不变特征。ML-BPM[25]提出了一种多教师蒸馏策略,以有效地从多子域中学习。与之前采取分而治之策略以减少域差距的工作不同,作者认为利用域内差异将最小化源域与多个复合目标域之间的差距,从而有利于域自适应和泛化性能。

混合两张训练图像的像素以创建高度扰动的样本,在用于语义分割的UDA中已被证明是成功的[22, 19, 20]。混合技术通过生成带有弱增强图像的伪标签,并通过一致性正则化使用强增强图像训练模型,从而提高了域自适应性能。例如,CutMix[27]从一张图像中剪裁一个矩形区域并将其粘贴到另一张图像上。ClassMix[28]进一步发展了这一思路,通过借助 GT Mask 动态创建选择,后来被引入到进行跨域混合[22]。然而,之前的工作集中在一个单一目标与一个源图像的混合上,这限制了它们在OCDA任务中的有效性。相反,作者认为利用多目标混合可能是一种有效且简单的方法来进一步提升性能。

Method

Theoretical Motivation

本节为OCDA建立了泛化界,并为本文提供了理论动机。

令数据空间和标签空间分别由 和 表示, 是一个映射,使得 是一组候选假设。在OCDA设置下,目标域包含多个已知的和未知的同质子域。其学习界应该考虑目标子域之间的关系。受到[1]中多源DA风险界的理论的启发,作者提出计算源域与目标子域组合之间的 -距离,并获得OCDA学习界:

定理1(OCDA学习界):《令 , 分别为源域 和目标域 上的泛化误差, 包含 个可见子域,即 ,以及 个不可见子域,。给定假设 的风险,整体目标风险被以下式子所限定:_

其中 , 表示通过结合操作 的联合分布(联合子域)。 是 与 之间的 距离,

且联合假设 对应于所有域上的最小总风险。

定理1的证明在附录中提供。

如果作者展开风险中的中间项,作者可以推导出:

其中,前一部分是传统OCDA方法(分而治之策略)的目标,旨在将复杂的OCDA问题分解为多个更容易的单目标DA问题。然而,这种未能考虑源域与目标复合域之间的联合概率分布差异的做法,仅仅解决了总风险中的一部分。相比之下,受到这一观察的启发,作者旨在通过最小化源域与复合目标域的联合分布之间的差距来降低整体风险。在以下各节中,作者首先将描述自训练框架,并提出作者新颖的增强方法来近似作者的风险目标。然后,作者将利用群论中的见解,从理论上确立作者方法的优势。

Preliminaries

在给定带有一次性标签的源领域图像对 ,具有 个类别,以及 未标注 的目标复合领域图像 的情况下,作者旨在训练一个在目标领域上取得良好性能的分割网络。由于领域差距,直接在源数据上用分类交叉熵(CE)损失训练网络 不能保证在目标领域上取得良好性能:

为了解决领域差距,一种流行的自训练(ST)解决方案[10]是利用在源数据上训练的教师网络 生成目标领域的伪标签 ,通过最大概率类:

教师网络 不通过梯度反向传播更新,而是通过在每个训练步骤 后的学生网络权重的指数移动平均(EMA):

其中 是用来暂时集成学生网络权重的动量。然后学生模型用强增强图像及其标签和加权交叉熵(WCE)损失进行训练:

其中权重 是伪标签的置信度。

Stochastic Compound Mixing

为了进一步稳定训练过程并最小化域差距,作者遵循先前的UDA工作[10, 11],在非增强图像上生成伪标签,并使用域混合图像训练学生网络。通常,混合域的过程是以单一目标的方式进行的。这包括从一幅源图像中选择像素集合,并将它们粘贴到目标图像上。在OCDA下,作者认为将一幅源图像与多幅复合目标图像混合可以提高模型的泛化能力,根据作者的理论,这为OCDA带来了优势。为了达到作者的目标,域混合策略应满足以下条件:

  • 它应涉及多幅复合目标域图像以形成多目标混合。
  • 它应保持源图像与混合目标图像之间的局部语义一致性。
  • 它应提供足够的扰动,以提高模型对未见因素的鲁棒性。

为此,作者提出了一种增强策略,将一幅源图像与多幅目标域图像混合。作者随机采样多幅目标图像进行复合混合,以覆盖混合可能的排列和组合。然后,在每个网格中执行源图像与复合混合目标图像之间的类别混合,以保持语义一致性。

正式地说,在每次迭代中,采样一幅源图像和幅具有相应 GT 和伪标签的复合目标图像,表示为。此外,还为伪标签生成了一个置信度估计,其中作者使用超过阈值的最大softmax概率的比值[16]:

其中是目标图像的索引,表示Iverson括号。

作者首先生成一个网格 Mask 来融合目标域图像。该 Mask 被划分为大小为 的网格,其中 和 分别是从候选集 中随机抽取的水平网格数和垂直网格数。对于每个网格单元 ,作者从一个整数集 中随机选择一个值来表示 个目标样本的索引。然后,通过网格 Mask 融合复合混合目标图像 及其对应的伪标签 以及权重 :

其中 表示点乘。

接下来,作者融合复合混合目标图像和源图像。对于每个网格,从 中随机选择一个类别子集 [16] 来形成二进制类别混合 Mask ,其中如果属于子集,像素值为1,否则为0。特别地,为了确保混合图像中源图像和 目标图像的区域平衡,作者从源图像的 GT 标签中随机选择 个类别,其中 是标签中的类别数。最终的混合图像及其标签和权重定义为:

其中 是源域的全一权重图。最后,用于训练学生模型的加权交叉熵(WCE)损失可以重写为:

总之,源图像和混合图像都用于训练网络,总体目标为:

SCMix增强的图像如图2所示,为了更好地理解,使用伪代码在算法1中描述了SCMix的完整训练过程。

Theoretical Support for SCMix

作者从群论的角度阐释了随机复合混合策略的机制。作者引入了一个大的样本空间 ,它由一个源空间 和 个目标空间 组成,其中 。观测值 分别从概率分布 中独立同分布地采样。为了消除歧义,明确指定 。如[16]所述,作者遵循以下假设:假设1:源数据和目标数据对作用于样本空间的某一群变换 表现出精确的不变性,即函数 ,使得 对于单位元素 成立。因此,对于 ,经过 变换的 在分布上与其自身相等:

特别是,变换 的一个子群指的是所有混合方法中的一种特定混合方法。

命题1对于任何可行的 ,存在一个比裸OCDA模型更优的更紧的上界性能。

证明1假设精确不变性成立,考虑一个关于 的估计器 及其 增强版本 。根据(Chen, Dobriban, 和 Lee, 2020)的研究结果,对于任何凸损失函数 ,作者有:

这导致了对具有 的模型的一个紧界。

命题1表明,任何适当的增强都有可能提高OCDA任务的表现。

作者进行了一项理论研究发现,SCMix方法相较于单一目标混合策略具有优越性。考虑一组混合方法,它们将源域与单一目标域混合,另一组则采用SCMix方法,等式12同样适用于。基于假设1,作者得出命题2:

命题2:_单一目标混合()是SCMix()的一个子集,即。此外,的样本空间是的子空间:._

证明2:_假设完全不变性成立,作者可以考虑的操作为:_

其中表示在源和目标样本空间之间填充的增强样本空间。因此,对于所有目标域,作者可以写成:

对于操作,作者有:

其中表示复合目标样本空间,。因此对于:

在({X^{\mathcal{T}}}{1}^{N})上的(C())!=!!!!\sum{i=1}^{N}!C(!X^{\mathcal{T}}{ i}))!=!{教师网络的准确率为0.999。按照DACS [17]的方法,作者在混合后使用了相同的数据增强,包括颜色抖动和高斯模糊,同时将(m)和(\tau)分别设置为0.999和0.968。对于SCMix,默认将(N{c}=3)和(G=[2,4,8])用于所有实验。

Comparison with Domain Adaptation

作者全面比较了作者的方法与现有最先进的OCDA方法在GTA5 C-Driving上的适应性能。其中,CDAS [13]是首个针对OCDA的工作。CSFU [12]、DHA [11]和ML-BPM [12]都采用了子域分离的适应方法。CSFU [12]采用了GAN框架,而DHA [11]进一步引入了多判别器以最小化域差距。ML-BPM [12]采用了一种自我训练框架和多教师蒸馏。作者还提供了未经适应的结果,标记为“无适应”,这作为这项任务的基准。

表1展示了在GTA5 C-Driving任务上的适应结果。通过引入新型的跨复合混合策略来提高域泛化性能,作者提出的方法取得了最先进的mIoU 46.1%。与次优方法ML-BPM [12]相比,这带来了5.9%的改进。作者的方法在一些困难类别(例如“骑车人”和“公交车”)上显著优于之前的工作,从而大幅提高了性能。SYNTHIA C-Driving任务的比较结果展示在表2中。作者按照之前的工作计算了16个类别以及11个类别的mIoU结果。提出的方法取得了最佳结果,16个类别的mIoU为38.6%,11个类别的mIoU为46.7%。通过利用基于 Transformer 的网络和由作者理论支持的新型混合方法,作者在这一任务上显著提高了结果,并在OCDA任务上创造了新的基准。

Comparison with Domain Generalization

作者评估了所提出方法在现有OCDA方法[13, 11, 12]中的域泛化能力。同时,作者还包含了最新的域泛化(DG)方法,例如RobustNet [10]和SHADE [11]。作者在C-Driving数据集上使用标记的源图像和 未标注 的复合目标图像训练了所有OCDA方法,而DG方法仅使用源域进行训练。

表3展示了在GTA5 OpenSet和SYNTHIA OpenSet任务上的比较结果。尽管SHADE从未见过目标域,但在GTA5 OpenSet上取得了非常有望的平均结果39.6。另一方面,考虑到获取真实图像的容易程度和不可预测的天气条件,OCDA方法可以实现比DG方法更广泛的应用。例如,表现第二佳的OCDA方法ML-BPM仍然优于DG方法,这表明开发OCDA方法的必要性。作者的方法在表中超过了所有列出的OCDA方法和DG方法。与表现第二佳的OCDA方法相比,作者的方法在两个任务上分别取得了9.3%和12.1%的显著提升。作者方法的性能提升证实了作者的理论主张,即混合复合目标对于域泛化是有益的,并证明了SCMix的有效性。

Comparison of Network Architecture

作者进一步评估了作者提出的SCMix方法在不同架构中的通用性和鲁棒性。

具体来说,作者将作者的方法与三种不同的架构进行了比较:DeepLabv2 Chen et al. (2017),Swin+ASPP Liu et al. (2021),以及SegFormer。

如表4详细所示,无论底层架构如何,SCMix在GTA5C-Driving和SYNTHIAC-Driving场景中始终优于其他方法。在DeepLabv2的背景下,虽然ML-BPM在开放域中提供了适度的结果提升,但SCMix带来了更显著的效果提升。在使用SegFormer架构时,在开放集合中观察到了显著的改进,这加强了作者对OCDA任务的理论承诺。

Analytical Study

为了评估所提出的SCMix并更好地理解其贡献,作者进行了以下实验。

** Baseline 模型。** 如表5所示,即使是强大的SegFormer在应对领域差距时也难以应对,这表明了进行领域适应的必要性。对于自监督模型有效的均值教师策略(Tarvainen和Valpola,2017)由于领域差距导致的错误伪标签,可能会在某些领域将性能降低3.5和3.0 mIoU。因此,一种领域混合方法对于稳定自我训练至关重要。

与不同混合方法的比较。 作者在表5中比较了所提出的多目标混合算法SCMix与四种单目标混合算法。CutMix(Yun等人,2019)从源图像中裁剪出一个矩形区域并将其粘贴到目标领域图像上,在目标和开放领域分别实现了显著的性能提升+8.3和+10.4。CowMix(French等人,2020)产生了更强的扰动,但损害了局部语义一致性,限制了其性能提升。fMix(Harris等人,2020)生成了具有大面积连通区域的任意形状的 Mask ,分别在复合目标和开放领域上比CutMix提升了+1.7和+1.3。

尽管DACS通过标签保持了语义一致性,但其性能提升有限。然而,SCMix在复合目标和开放领域上显著优于CutMix,分别提高了6.0和6.2 mIoU,几乎是DACS提升的两倍。

为了更深入地了解SCMix在提高对未见领域的泛化能力方面的作用,图3显示了目标和未见领域的 Backbone 特征。显而易见,SCMix在目标领域和未见领域分布之间显示出更大的重叠,表明SCMix具有更好的泛化能力和对未见因素的鲁棒性。

Conclusion

在本文中,作者为OCDA任务定义了一个泛化界限,并分析了先前分而治之法存在的局限性。基于此,作者提出了一种新颖且有效的方法——随机复合混合(SCMix),用以减少源域和混合目标域之间的差异。理论分析支持SCMix的优越性,证明SCMix可以被视为单一目标混合的泛化扩展,并且具有更低的经验风险。该方法的有效性在两个标准基准上进行了定量验证。

Sensitive Study

对SCMix参数的分析。 作者分析了SCMix中的两个关键因素:目标图像的数量()和网格集的影响。如表6左部分所示,当时,SCMix与DACS相似,但由于网格式的类别混合,仍然有轻微的改进。当增加到3时,适应性和泛化性能都达到峰值,验证了这一理论。然而,进一步增加可能不会导致性能持续提升。

关于的选择,表6的右部分显示,根据网络和训练图像的大小有一个合理的选取范围。过小或过大的可能会限制SCMix的有效性。在实验设置下的最佳选择是。

Proof of OCDA Bound

作者首先在表7中给出了不同设置之间的差异及其相应的缩写。令数据空间和标签空间分别由 和 表示,以及一个映射 ,使得 是一组候选假设。现有的域适应(DA)界限将目标域理想化为所有目标域:

定理2(UDA学习界限[1]):_令 、 分别为源域 和目标域 上的泛化误差。给定假设 的风险,目标风险被以下界限所约束:_

其中 是 和 之间的 -距离,

且 对应于两个域上的最小总风险。

然而,MTDA认为目标域应该由许多子域组成。因此,对于MTDA,可以通过分别考虑每个目标子域中可用的数据,将DA风险界容易地推广到多目标子域:

定理3(MTDA学习界[1]):包含个子域,使得。给定假设的风险,整体目标风险被界定为:

相比之下,与DG类似,OCDA同样考虑开放域,这些开放域可以被看作是整体目标域中未见过的子域。因此,边界不仅应该考虑源域与已见目标域之间的不一致,还应该考虑已见与未见目标域之间的不一致。受到[1]中多源DA风险界的理论的启发,作者 Proposal 计算源域与目标子域组合之间的-距离,并得到提出的OCDA学习界:

定理4(OCDA学习界):包含个已见子域,使得,以及个未见子域,。给定假设的风险,整体目标风险被界定为:

在哪里 ,并且 表示使用结合操作 的联合分布(联合子域)。

More Mathematical Details

命题2:单目标混合()是SCMix()的一个子群,即。此外,的样本空间是的子空间:。

证明2:假设精确不变性成立,作者可以将的操作考虑为:

其中表示在两者之间增强填充的样本空间。因此,对于所有目标域,作者可以写成:

对于操作,作者有:

其中 表示复合目标样本空间,且 。因此对于 :

省略的项如下所示:

由于,作者可以推理出是的一个子群,并且。## 可视化

如图4所示,作者提供了在GTA C-Driving数据集上针对OCDA任务的语义分割的额外比较结果,使用了相同的SegFormer Backbone 网络。作者的 Baseline 方法DACS,在分割结果上取得了显著的改进,并且与源模型相比,在目标和开放未见领域减少了预测错误。此外,当面对未见场景(如第一行和第二行中的白色虚线框所示)或车辆模型(如第三行和第四行中的白色虚线框所示)时,作者的方法显示出更好的鲁棒性和泛化能力。另外,对于一些训练集中未出现的未见因素,比如车窗上的雨滴(第五行)和泥泞的道路(第六行),作者的方法也展示了出色的性能。

参考

[1].SCMix: Stochastic Compound Mixing for Open Compound Domain Adaptation in Semantic Segmentation.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 集智书童 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Introduction
    • Related Work
    • Method
      • Theoretical Motivation
        • Preliminaries
          • Stochastic Compound Mixing
            • Theoretical Support for SCMix
            • Comparison with Domain Adaptation
            • Comparison with Domain Generalization
            • Comparison of Network Architecture
            • Analytical Study
            • Conclusion
            • Sensitive Study
            • Proof of OCDA Bound
            • More Mathematical Details
            • 参考
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档