数据增强(DA)被广泛用于提高深度模型的泛化性能。然而,大多数现有的DA方法在整个训练过程中使用具有随机大小的增强操作。虽然这促进了多样性,但也不可避免地引入了增强数据中的不可控变异性,这可能导致与目标模型不断发展的训练状态不匹配。理论和实证研究都表明,这种不匹配增加了欠拟合和过拟合的风险。 为了解决这些局限性,作者提出了AdaAugment,这是一种创新且无需调优的自适应增强方法,它利用强化学习根据目标网络的实时反馈动态调整单个训练样本的增强大小。具体来说,AdaAugment具有一个双模型架构,包括一个策略网络和一个目标网络,它们联合优化以有效适应增强大小。 策略网络优化增强数据内的变异性,而目标网络利用自适应增强的样本进行训练。在基准数据集和深度架构上的广泛实验表明,AdaAugment在有效性方面一致地优于其他最先进的DA方法,同时保持了卓越的效率。
数据增强(DA)是减轻深度神经网络训练过程中过拟合的一种关键且非常有效的技术,这导致了更一般化和可靠的模型。然而,需要注意的是,现有的DA方法主要依赖于在训练过程中使用完全随机或人为设计的增强幅度,这可能导致次优的训练场景,并需要人类专家在给定新数据集时对超参数进行更多的调整工程。
例如,基于信息删除的DA方法随机擦除图像中的一些子区域以创建增强样本,导致随机的增强强度。
此外,自动DA方法通常在为目标模型训练优化增强策略之前,针对每个特定数据集涉及显著的计算开销。这些增强的幅度在训练过程中是预先确定的,没有进行任何适应。
因此,这些方法可能无法捕捉到每个数据集的独特特征以及网络训练的演变状态。
实际上,使用增强幅度引入了固有的随机性,这可以增加数据多样性,但也给增强数据带来了不可控的变异性。这种数据变异性中的随机性可能与深度模型的演变训练状态并不最佳对齐,从而对训练过程引入严重副作用。例如,在训练的初期阶段,模型通常表现出较弱的泛化能力,大量的数据变异性可能导致噪声和分布偏移,可能引发欠拟合现象。
相比之下,在训练的后期阶段,有限的数据变异性可能增加过拟合的风险。因此,当前DA方法在这一点上的不匹配增加了模型欠拟合和过拟合的风险,这最终可能对模型的泛化性能产生不利影响。
为了应对这些挑战,采用基于目标模型实时反馈的自适应调节增强数据变化至关重要。
如图1所示,作者比较了传统数据增强(DA)与自适应DA机制。与依靠随机或预定义增强幅度的传统方法不同,自适应DA方法根据目标网络的实时反馈动态调整DA操作的幅度。值得注意的是,自适应DA专注于优化增强强度,而不是操作本身的具体细节。这种自适应策略有效地应对了上述挑战,从而充分发挥了DA的潜力,并增强了深度模型的泛化能力。
实现自适应DA的一个直接方法是创建一个正式度量,指示每个训练样本的实时学习状态。然后可以使用这个度量来确定适当的增强强度水平。然而,理论分析已经确定,确定学习算法的过拟合或欠拟合风险是不可判定的。因此,制定训练样本的学习状态的明确度量仍然是一个艰巨的挑战。
为了解决上述限制和挑战,在本研究中,作者提出了AdaAugment,一种创新且无需调整的自适应数据增强方法。AdaAugment利用强化学习算法自适应地为每个训练样本确定具体的增强幅度,而不依赖于任何手工制作的度量。
AdaAugment的核心是一个双模型架构:策略网络和目标网络。策略网络根据目标网络在训练期间的实时反馈,学习确定每个训练样本增强操作幅度的策略。目标网络同时利用这些自适应增强的样本进行训练。
这两个网络共同优化,无需单独重新训练目标网络,从而提高了作者方法的实际可行性。学到的策略调整增强数据内的变异性,以与目标模型的学习状态保持一致,从而优化引入到增强数据中的变异性。具体来说,在策略网络的训练中,作者通过分别从完全增强和非增强数据中导出损失来估计欠拟合和过拟合的风险。
然后将这两个损失与由AdaAugment自适应增强的数据导出的损失进行比较,作为奖励信号。在各种基准数据集上的大量实验结果表明,AdaAugment与现有最先进(SOTA)的DA方法相比具有优越的性能。
此外,对AdaAugment的复杂性分析证实,它仅引入了极少的参数和计算开销,突显了其高效性。因此,AdaAugment在有效性和效率之间取得了令人满意的平衡,在不引入过多计算复杂性的情况下实现了高性能。例如,在Tiny-ImageNet上训练时,AdaAugment可以在不进行任何架构修改或增加额外正则化的情况下,比其他SOTA DA方法实现超过1%的改进。
总之,作者强调以下贡献:
数据增强在提高深度神经网络泛化能力方面发挥了关键作用。通常,这些方法主要依赖于具有随机或预定义大小的增强手段,以向训练数据中引入多样性。
在这些方法中,Cutout是最广泛使用的技术之一,它随机地在训练图像中 Mask 一个或多个正方形区域。Random Erasing(Zhong等人,2020)随机选择图像内的一个矩形区域,并用随机值擦除其像素。同样,Hide-and-Seek(HaS)随机隐藏训练图像中的 Patch ,提高了深度模型的目标定位准确性和泛化能力。GridMask在输入图像中采用结构化的丢弃区域。由于这些方法可能容易向增强数据中引入噪声和模糊性,因此提出了AdvMask来识别图像中的分类判别信息,并结构性地删除包含增强关键点的某些子区域。同时,Mixup混合两张或更多图像的随机信息来合成增强数据。然而,这些数据增强(DA)方法主要关注数据转换,往往忽视了模型的训练状态。这种疏忽使得难以通过在线调整增强强度相应地减轻实际过拟合和欠拟合风险。
自动DA方法,如AutoAugment,Fast-AutoAugment 和 RandAugment,利用强化学习或网格搜索在离线方式上搜索现有策略,以找到针对不同图像数据集的最优DA操作组合。
同样,Adversarial AutoAugment(Zhang等人,2019)利用固定的增强空间,并奖励准确度最低的策略,使得策略分布在整个训练过程中逐渐转向更强烈的增强。同时,TrivialAugment(Muller和Hutter,2021)采用这些自动DA方法获得的相同增强空间,在训练期间对每幅图像只应用单一增强操作。
MetaAugment(Rajendran等人,2020)利用静态增强空间,其增强策略网络输出增强数据损失的权重。然而,这些方法中使用的增强策略幅度是固定的或在在线训练期间随机抽取的,导致数据转换程度不可控。SelectAugment(Lin等人,2023)采用分层强化学习来获取在线策略,以确定增强数据的比例以及是否应对每个单独样本进行增强。但是,由于应用于每个样本的具体增强转换是AutoAugment、Mixup或CutMix,所以使用的DA强度仍然是不可控的。KeepAugment 提出在增强过程中检测并保留图像的显著区域。
(Lee等人,2020)的工作通过利用影响函数进行影响建模来学习可微分的DA转换。(Xu和Zhao,2022)的工作随机确定批 Level 数据的DA操作类型和幅度,并沿目标网络损失的梯度方向更新DA的参数。(Zhang等人,2023)的工作为对比学习提出了AdDA,允许网络调整增强组合,实现更可泛化的表示。Adaaug(Cheung和Yeung,2021)通过可微工作流学习类依赖的,可能是实例依赖的增强。TeachAugment(Suzuki,2022)转换数据,使其对目标模型具有对抗性。
然而,先前的自适应DA方法通常以固定幅度抽样增强策略,主要旨在减轻过拟合风险。最近,(Yang等人,2024)的工作使用相似性和多样性度量评估了DA的有效性,揭示了它们在不同数据集上的重要性变化,表明自适应调整增强强度以达到最佳平衡的优越性。
因此,与现有的DA方法相比,AdaAugment在训练过程中估计了欠拟合和过拟合风险,并在线训练中自适应地调整增强幅度以降低这两种风险。
强化学习(RL)是通过在交互式环境中尝试和错误地学习一系列动作,以最大化预期奖励,它广泛应用于自动驾驶(Kiran等人,2022)和推荐系统(Lin等人,2023)等领域。在RL算法领域,有两种基本类别:价值优化和策略优化方法。价值优化方法主要围绕最优价值函数的估计展开,随后这成为推导最优策略的基础(Byeon,2023)。相反,策略优化方法在不估计价值函数的情况下估计最优行为策略。此外,广泛采用的强化学习中的演员-评论家框架结合了基于价值和基于策略的RL方法的优点(Shakya等人,2023)。
这个框架包括两个组件:演员,负责学习策略函数;评论家,负责通过估计价值函数来评估演员选择的行为。这种双重机制确保了更稳定和高效的学习,例如优势演员-评论家(A2C)。
概述AdaAugment的主要目标是通过对DA(数据增强)强度在训练过程中的自适应调整,来减轻欠拟合和过拟合的风险。这种自适应调整可以形式化为基于每个样本的决定性问题,从而无需手动制定度量标准。图2展示了AdaAugment的双重模型框架:在训练目标网络的同时,引入了一个策略网络,以动态优化增强过程中DA操作的幅度。这个双重模型框架联合优化两个网络,无需单独重新训练目标网络,并根据目标网络的训练进度实现增强强度的实时调整。具体来说,策略网络在当前训练周期的样本 Level 上优化这些幅度。
然后,在下一个周期,数据增强过程使用这些相应的幅度对训练样本应用增强操作。这些自适应增强的样本随后被用于优化目标网络的训练。
预备知识一个强化学习任务可以被形式化为一个马尔可夫决策过程(MDP),它包括以下组成部分:状态空间
,动作空间
,转换函数
表示通过采取行动从一个状态转换到另一个状态的概率,奖励函数
,折扣因子
,以及时间步
。给定一个状态
,强化学习智能体根据策略
确定一个动作
。有了这些元素,强化学习任务的目标是在给定的MDP框架内找到一个最优策略,记作
,以最大化预期的累积奖励。同时,假设训练数据集
包括
个训练样本,每个样本的形式为
。这里,
表示原始数据,
是一个
维的由0和1组成的向量,指示
的真实标签,其中
是总类数。作者定义增强操作为
,其中
来自增强空间
,
对应于
的幅度。与之前的工作相比,作者的方法在增强空间
中自适应地确定幅度,而不是在训练前分配一个预定义的值。
状态设计由于强化学习(RL)的目标是动态地确定每个样本的适当幅度,状态
应考虑三个因素:与每个样本相关的固有难度、模型的当前训练状态(例如,特征提取能力),以及与前两个因素相关的增强操作强度。这种对状态变量的多方面考虑对于有效的强化学习至关重要。值得注意的是,特征图在这个过程中扮演了至关重要的角色,它通过提供来自模型的反馈(Huang et al., 2023; Zhang et al., 2021),封装了样本的固有难度和模型的实时特征提取能力。
为了说明这一点,如图2所示,AdaAugment中的状态向量
编码了非增强样本
和自适应增强样本
的特征图,分别表示为
和
。这里,
捕捉了样本
相对于当前目标网络训练状态的固有难度。同时,
编码了应用于
的增强操作强度,相对于实时目标网络状态和样本固有的难度。通过利用这些信息,AdaAugment有效地将数据变异性与目标网络的不断发展训练状态对齐。
图2:所提出的AdaAugment的一般框架。
动作设计策略决定了增强数据的增强幅度
。尽管在训练期间每个小批量的组成具有随机性,但幅度
是基于每个样本操作的,对应于每个训练样本。为了简单起见,作者将当前小批量数据的幅度表示为
,其中
的维度等于批量大小,并且每个
严格限制在区间
内。当
时,不应用增强;而当
时,表示相应增强操作的最大幅度。这样,接近0的幅度会产生与原始样本更相似的样本,而接近1的幅度会产生更多样化的数据。可以通过以下方式获得自适应增强样本
:
其中
是一个随机增强操作,
是根据动作策略确定的。
因此,等式(1)使作者能够优化增强数据的相似度-多样性偏好。更重要的是,这种对相似度-多样性偏好的调整反映了AdaAugment在减轻过拟合和欠拟合风险方面的有效性。
奖励函数考虑一个目标分类模型
,由参数
决定,一个输入样本
,
表示网络的输出。令
表示交叉熵损失,
表示原始样本
的损失项。作者提出的方法旨在通过根据目标模型的反馈控制数据增强操作的幅度来减轻过拟合和欠拟合的风险。为此,作者根据作者的增强策略定义了三个损失项。首先,
表示具有最大幅度(即
)的样本
的损失。其次,
表示非增强样本的损失,即
。最后,根据方程(1),自适应增强数据的损失表示为
,增强幅度由演员网络确定。受到课程学习(Soviany等人,2022年)的启发,作者制定以下奖励函数:
其中
是一个调整因子,它在训练过程中从1逐渐减少到0。
策略学习策略旨在确定增强操作的实例级幅度。对于策略学习,作者使用了广泛使用的A2C算法(Mnih等人,2016年),该算法包括一个演员网络
和一个评论家网络
,如图2所示。演员网络学习策略,即给定特定状态的动作的概率分布,
。同时,评论家网络的目的是估计与特定状态相关联的价值,表示为
。
为了更新演员和评论家网络,作者重新制定了针对作者特定问题场景的损失函数。具体来说,用于更新
的损失函数定义为:
同时,用于更新
的损失函数定义为:
算法1提供了对AdaAugment的详细算法程序,以全面了解其工作原理。
理论分析在数据增强领域,增强幅度大致与增强样本的损失值成比例,即
。因此,以下不等式大约成立:
,这表明
和
分别可以作为与增强样本相关的潜在过拟合和欠拟合风险的指示器。同时,这些损失值会随着训练的进行而不断演变。
关于方程(2)中的奖励函数,在训练初期阶段,
这一项非常重要。因此,策略网络倾向于使用相对适度的增强幅度,以最大化
和
之间的差异。这样,更相似的增强样本可以鼓励模型捕捉更广泛的特征或模式,从而在早期训练阶段加速快速收敛(Liu和Mirzasoleiman,2022;Hou等人,2023年)。随着训练的深入,焦点转向
,促使策略网络应用更大的增强幅度,试图增加
和
之间的差异。这产生了更多样化的增强样本,减轻了过拟合风险。因此,这种方法与课程学习原则(Soviany等人,2022;Azad等人,2023年)相一致,模型最初从相似样本中学习模式,并在后期训练阶段从多样化样本中受益。
此外,为了研究AdaAugment在训练过程中的相似度-多样性权衡,如图3所示,作者在不同的训练阶段评估了相似度和多样性度量(Yang等人,2024年)。
具体来说,作者计算了所有样本在每个50个周期的平均幅度值。值得注意的是,可以观察到随着训练的进行,多样性度量逐渐增加,而相似度度量逐渐减少,这与作者的理论分析相一致。这突显了AdaAugment在调整增强强度以适应目标模型演变训练动态方面的内在适应性。
实验设置据作者所知,图像分类是评估DA方法有效性的最广泛使用的任务。作者在几个基准数据集上评估了作者的方法的有效性,包括CIFAR10/100 和 Tiny-ImageNet。此外,作者采用迁移学习来评估作者的方法在提高模型泛化性能方面的有效性。作者还对MNIST 进行效果可视化,并在训练过程中进行AdaAugment的收敛性分析。引入复杂性分析以验证 AdaAugment的计算效率和资源利用率。同时,在附录??中提供了AdaAugment在长尾分布偏斜的 ImageNet-LT 和 Places-LT 上的有效性。
与最先进技术的比较作者将作者的方法与10种最具代表性和常用数据增强方法进行了比较,包括CutMix(Yun等人,2019年)、Cutout、HaS、GridMask、AdvMask、RandomErasing、AutoAugment、Fast-AutoAugment、RandAugment(Cubuk等人,2020年)以及TrivialAugment(Muller和Hutter,2021年)。
实现细节在作者的方法中,式(3)和式(4)中的折扣因子
设置为0.99。作者在设置中紧密遵循以前的工作(Yang等人,2023年;Muller和Hutter,2021年)。具体来说,所有图像都通过将每个像素值除以255并按照数据集统计数据进行标准化来进行预处理。对于CIFAR-10和CIFAR-100,作者使用了ResNet架构,包括ResNet-18/50(He等人,2016年)、Wide-ResNet-28-10(WRN-28-10)(Zagoruyko和Komodakis,2016年)以及Shake-Shake-26x32(Gastaldi,2017年)。
作者使用SGD和Nesterov动量,学习率为0.01,批量大小为256,权重衰减为
,余弦学习率衰减训练了1800个周期的Shake-Shake。对于所有其他网络,作者使用SGD和Nesterov动量,学习率为0.1,批量大小为128,权重衰减为
,余弦学习率衰减训练了300个周期。对于Tiny-ImageNet,作者将图像调整为64
64,使用ImageNet预训练权重初始化模型,然后使用各种增强方法对模型进行微调。 Baseline 方法仅包括填充和水平翻转。为了公平比较,所有方法都使用相同的训练配置,在三个独立的随机试验中进行实验。
在表1中,作者评估了AdaAugment在CIFAR-10和CIFAR-100上的有效性,使用了包括ResNet-18/50、Wide-ResNet-28-10和ShakeShake-26-32在内的多种广泛使用的深度网络。可以观察到,与现有的SOTA数据增强方法相比,AdaAugment在提高这些网络的准确性方面一致表现出优越性能。值得注意的是,作者的方法对两个数据集都显示了显著的改进。例如,对于ResNet-18、ResNet-50、Wide-ResNet-28-10和ShakeShake-26-32的基准模型,AdaAugment分别实现了1.47%、1.66%、2.14%和2.51%的性能提升。AdaAugment这种优越性能可以归因于其在训练过程中根据目标网络提供的实时反馈自适应调整增强幅度。这种调整有效地缓解了过拟合和欠拟合的风险,从而提高了泛化能力。
在本节中,作者使用ResNet-18/50、Wide-ResNet-50-2(WRN-50-2)和ResNet50(Xie等人,2017)在Tiny-ImageNet数据集上评估了AdaAugment的有效性,具体总结在表2中。
可以观察到,AdaAugment在各种架构上的分类精度都有显著提升,并且大幅超过了其他广泛使用的数据增强(DA)方法。特别是,AdaAugment分别将ResNet-18、ResNet-50、WRN-50-2和ResNext-50的准确率提高了9.87%、5.5%、1.52%和1.16%。这种性能提升凸显了作者新颖的自适应增强机制的效力。因此,作者证明了AdaAugment在提高模型性能方面的优越效力和潜力。
作者在大规模的ImageNet数据集上评估AdaAugment(Krizhevsky等人,2017年)。
迁移学习在评估模型的迁移性方面发挥着关键作用(Zhuang等人,2021年),这是数据增强(Gong等人,2021年;Yang等人,2023年)中的常见做法。为了定量评估各种数据增强(DA)方法的有效性,作者通过使用不同的DA方法评估模型的迁移准确度。具体来说,作者使用不同的增强技术在CIFAR-100数据集上预训练ResNet-50模型,然后在这些模型上对CIFAR-10数据集进行微调。因此,更优秀的DA技术会导致更高的迁移测试准确度。
图4:各种DA方法的迁移测试准确度。
在图4中,作者展示了各种DA方法实现的迁移准确度。虽然迁移准确度之间的差异可能看起来不大,但值得注意的是,AdaAugment一致性地优于其他方法。这种一致且有效的性能凸显了作者的方法提高模型迁移性表现的能力。
由于DA的目标是提高模型的泛化性能,在本节中,作者进行了利用AdaAugment和不利用AdaAugment的模型之间效果可视化的比较分析。具体来说,作者利用t-SNE算法可视化来自不同训练模型特征图的MNIST测试集的特征嵌入。从理论上讲,在特征提取能力方面表现出更加强健的泛化能力的模型往往更为出色。图5展示了 Baseline 模型和采用AdaAugment训练的模型的t-SNE可视化结果。与图5(a)相比,可以看出图5(b)展现出了优化后的几何结构,其特点是增强了簇间分离度和簇内紧凑性。
此外,为了对这些嵌入结果进行定量评估,作者采用了Dunn指数(DI)(Ncir等人,2021年)作为评价度量。DI在数学上定义如下:
这里,分离度
表示簇
和
之间的簇间距离度量,紧凑度
计算每个簇内所有成对之间的平均距离。DI值越高,意味着聚类效果越好。在图5中, Baseline 和AdaAugment的DI值分别为
和
。因此,AdaAugment实现的DI值比 Baseline **高出108.7%**,这证明了其在提高模型性能方面的有效性。基于定性和定量分析,作者证实了AdaAugment在改善模型性能方面的巨大效果。
大多数现有的域适应(DA)方法在训练过程中通常依赖于预定义的随机幅度值。尽管这种机制在在线训练中产生的额外计算负担最小,但它可能与深度模型的动态发展不完全对齐,可能会带来不希望的副作用。为了解决这个问题,AdaAugment在在线训练中融入了一个辅助策略网络,以动态确定DA操作的幅度。尽管这种调整不可避免地引入了少量的额外参数和计算复杂性,但这是为了实现更有效的DA而有意做出的权衡。
在本节中,作者彻底分析了AdaAugment的参数和时间复杂性,以评估其效率。由于策略网络的参数复杂性关系到目标网络的特征空间,作者在两个不同的深度网络上报告了参数复杂性,即ResNet-18和WRN-28-10。
在表4中,作者按照先前研究采用的方法,使用CIFAR-10数据集对AdaAugment的复杂性进行了分析。可以观察到,策略网络的参数复杂性对ResNet-18(拥有1170万个参数)而言仅增加了1.3%,对WRN-28-10(拥有3650万个参数)而言增加了0.52%。此外,这些网络的总体训练成本增加了不到0.5个GPU小时。这些发现突显了AdaAugment的训练开销微乎其微。
值得注意的是,尽管训练成本有所增加,但AdaAugment带来了显著的准确度提升,分别为ResNet-18和WRN-28-10实现了1.47%和2.04%的显著增强。这种改进强调了AdaAugment在有效性-效率权衡方面的卓越表现,证明了它在增加最小训练成本的同时提升模型性能的能力。
在本节中,作者分析了在整个训练过程中AdaAugment的收敛性,并将其与两种最具代表性的DA方法——AutoAugment和TrivialAugment进行了比较。具体来说,为了展示训练过程中测试错误的动态演变,作者使用多步学习率衰减计划在CIFAR-10上训练ResNet-18模型。学习率初始设置为0.1,并在60、120、160、220和280个时期乘以0.2。
从图6中可以观察到,AdaAugment显著提升了模型性能,尤其是在第二次学习率下降之后。此外,即使在初始学习率下降之后,AdaAugment也始终保持了比其他方法更低的错误率。这些实证发现不仅强调了AdaAugment在提升模型性能方面的优越有效性,还强调了它在训练期间加快模型收敛的能力。
在本工作中,作者提出了AdaAugment,这是一种创新且无需调优的自适应数据增强方法。通过根据目标模型训练过程中获取的实时反馈自适应地调整DA操作的幅度,AdaAugment优化了数据变异性。这种动态调整最终减轻了欠拟合和过拟合的风险,从而优化了模型训练并增强了模型的泛化能力。通过广泛的实证评估,作者证明作者的自适应增强机制能够在各种基准数据集上显著提高性能,同时保持竞争力的高效性。在未来,作者希望将AdaAugment推广到更多的任务中。
本文提出的方法基于理论与实验的结合,旨在推进深度学习领域数据增强的研究。实验数据完全来源于标准数据集,消除了任何伦理上的担忧。此外,作者的工作可能带来许多社会影响,但在此作者认为无需特别强调。
[1].AdaAugment: A Tuning-Free and Adaptive Approach to Enhance Data Augmentation.