Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey

CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey

作者头像
机器之心
发布于 2023-04-11 01:11:50
发布于 2023-04-11 01:11:50
4930
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

机器之心编辑部

美图影像研究院(MT Lab)与中国科学院大学突破性地提出正则化方法 DropKey,用于缓解 Vision Transformer 中的过拟合问题。该方法通过在注意力计算阶段随机 drop 部分 Key 以鼓励网络捕获目标对象的全局信息,从而避免了由过于聚焦局部信息所引发的模型偏置问题,继而提升了基于 Transformer 的视觉类算法的精度。该论文已被计算机视觉三大顶会之一 CVPR 2023 接收。

近期,基于 Transformer 的算法被广泛应用于计算机视觉的各类任务中,但该类算法在训练数据量较小时容易产生过拟合问题。现有 Vision Transformer 通常直接引入 CNN 中常用的 Dropout 算法作为正则化器,其在注意力权重图上进行随机 Drop 并为不同深度的注意力层设置统一的 drop 概率。尽管 Dropout 十分简单,但这种 drop 方式主要面临三个主要问题。

首先,在 softmax 归一化后进行随机 Drop 会打破注意力权重的概率分布并且无法对权重峰值进行惩罚,从而导致模型仍会过拟合于局部特定信息(如图 1)。其次,网络深层中较大的 Drop 概率会导致高层语义信息缺失,而浅层中较小的 drop 概率会导致过拟合于底层细节特征,因此恒定的 drop 概率会导致训练过程的不稳定。最后,CNN 中常用的结构化 drop 方式在 Vision Transformer 上的有效性并不明朗。

图 1 不同正则化器对注意力分布图的影响

美图影像研究院(MT Lab)与中国科学院大学在 CVPR 2023 上发表了一篇文章,提出一种新颖且即插即用的正则化器 DropKey,该正则化器可以有效缓解 Vision Transformer 中的过拟合问题。

论文链接:https://arxiv.org/abs/2208.02646

文章中对以下三个核心问题进行了研究:

第一,在注意力层应该对什么信息执行 Drop 操作?与直接 Drop 注意力权重不同,该方法在计算注意力矩阵之前执行 Drop 操作,并将 Key 作为基础 Drop 单元。该方法在理论上验证了正则化器 DropKey 可以对高注意力区域进行惩罚并将注意力权值分配到其它感兴趣的区域,从而增强模型对全局信息的捕获能力。

第二,如何设置 Drop 概率?与所有层共享同一个 Drop 概率相比,该论文提出了一种新颖的 Drop 概率设置方法,即随着自注意力层的加深而逐渐衰减 Drop 概率值。

第三,是否需要像 CNN 一样进行结构化 Drop 操作?该方法尝试了基于块窗口和交叉窗口的结构化 Drop 方式,并发现这种技巧对于 Vision Transformer 来说并不重要。

背景

Vision Transformer(ViT)是近期计算机视觉模型中的新范式,它被广泛地应用于图像识别图像分割、人体关键点检测和人物互相检测等任务中。具体而言,ViT 将图片分割为固定数量的图像块,将每个图像块都视作一个基本单位,同时引入了多头自注意力机制来提取包含相互关系的特征信息。但现有 ViT 类方法在小数据集上往往会出现过拟合问题,即仅使用目标局部特征来完成指定任务。

为了克服以上问题,该论文提出了一种即插即拔、仅需要两行代码便可实现的正则化器 DropKey 用以缓解 ViT 类方法的过拟合问题。不同于已有的 Dropout,DropKey 将 Key 设置为 drop 对象并从理论和实验上验证了该改变可以对高注意力值部分进行惩罚,同时鼓励模型更多关注与目标有关的其他图像块,有助于捕捉全局鲁棒特征。此外,该论文还提出为不断加深的注意力层设置递减的 drop 概率,这可以避免模型过度拟合低级特征并同时保证有充足的高级特征以进行稳定的训练。此外,该论文还通过实验证明,结构化 drop 方法对 ViT 来说不是必要的。

DropKey

为了探究引发过拟合问题的本质原因,该研究首先将注意力机制形式化为一个简单的优化目标并对其拉格朗日展开形式进行分析。发现当模型在不断地优化时,当前迭代中注意力占比越大的图像块,在下次迭代过程中会倾向于被分配更大的注意力权值。为缓解这一问题,DropKey 通过随机 drop 部分 Key 的方式来隐式地为每个注意力块分配一个自适应算子以约束注意力分布从而使其变得更加平滑。值得注意的是,相对于其他根据特定任务而设计的正则化器,DropKey 无需任何手工设计。由于在训练阶段对 Key 执行随机 drop,这将导致训练和测试阶段的输出期望不一致,因此该方法还提出使用蒙特卡洛方法或微调技巧以对齐输出期望。此外,该方法的实现仅需两行代码,具体如图 2 所示。

图 2 DropKey 实现方法

一般而言,ViT 会叠加多个注意力层以逐步学习高维特征。通常,较浅层会提取低维视觉特征,而深层则旨在提取建模空间上粗糙但复杂的信息。因此,该研究尝试为深层设置较小的 drop 概率以避免丢失目标对象的重要信息。具体而言,DropKey 并不在每一层以固定的概率执行随机 drop,而是随着层数的不断加深而逐渐降低 drop 的概率。此外,该研究还发现这种方法不仅适用于 DropKey,还可以显著提高 Dropout 的性能。

虽然在 CNN 中对结构化 drop 方法已有较为详细的研究,但还没有研究该 drop 方式对 ViT 的性能影响。为探究该策略会不会进一步提升性能,该论文实现了 DropKey 的两种结构化形式,即 DropKey-Block 和 DropKey-Cross。其中,DropKey- Block 通过对以种子点为中心的正方形窗口内连续区域进行 drop,DropKey-Cross 则通过对以种子点为中心的十字形连续区域进行 drop,如图 3 所示。然而,该研究发现结构化 drop 方法并不会带来性能提升。

图 3 DropKey 的结构化实现方法

实验结果

图 4 DropKey 和 Dropout 在 CIFAR10/100 上的性能比较

图 5 DropKey 和 Dropout 在 CIFAR100 上的注意力图可视化效果比较

图 6 不同 drop 概率设置策略的性能比较

图 7 不同输出期望对齐策略的性能比较

图 8 不同结构化 drop 方法的性能比较

图 9 DropKey 和 Dropout 在 ImageNet 上的性能比较

图 10 DropKey 和 Dropout 在 COCO 上的性能比较

图 11 DropKey 和 Dropout 在 HICO-DET 上的性能比较

图 12 DropKey 和 Dropout 在 HICO-DET 上的性能比较

图 13 DropKey 和 Dropout 在 HICO-DET 上的注意力图可视化比较

总结

该论文创新性地提出了一种用于 ViT 的正则化器,用于缓解 ViT 的过拟合问题。与已有的正则化器相比,该方法可以通过简单地将 Key 置为 drop 对象,从而为注意力层提供平滑的注意力分布。另外,该论文还提出了一种新颖的 drop 概率设置策略,成功地在有效缓解过拟合的同时稳定训练过程。最后,该论文还探索了结构化 drop 方式对模型的性能影响。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-04-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一文概览深度学习中的五大正则化方法和七大优化策略
选自arXiv 机器之心编译 深度学习中的正则化与优化策略一直是非常重要的部分,它们很大程度上决定了模型的泛化与收敛等性能。本文主要以深度卷积网络为例,探讨了深度学习中的五项正则化与七项优化策略,并重点解释了当前最为流行的 Adam 优化算法。本文主体介绍和简要分析基于南洋理工的概述论文,而 Adam 方法的具体介绍基于 14 年的 Adam 论文。 近来在深度学习中,卷积神经网络和循环神经网络等深度模型在各种复杂的任务中表现十分优秀。例如卷积神经网络(CNN)这种由生物启发而诞生的网络,它基于数学的卷积运
机器之心
2018/05/10
1.1K0
DeepViT:字节提出深层ViT的训练策略 | 2021 arxiv
论文: DeepViT: Towards Deeper Vision Transformer
VincentLee
2024/07/09
1410
DeepViT:字节提出深层ViT的训练策略 | 2021 arxiv
用 Dropout 正则化对抗 过拟合
过拟合是指模型在其训练数据上过度训练,导致它在新数据上表现不佳。从本质上讲,在模型力求尽可能准确的过程中,它过分关注训练数据集中的细节和噪声。这些属性通常不存在于真实世界的数据中,因此模型往往表现不佳。当模型的参数相对于数据量而言太多时,就会发生过拟合。这可能导致模型过度关注与模型必须开发的一般模式无关的较小细节。例如,假设训练了一个复杂模型(许多参数)来识别图片中是否有马。在这种情况下,它可能会开始关注天空或环境的细节,而不是马本身。这可能发生在:
数据科学工厂
2023/03/21
4480
用 Dropout 正则化对抗 过拟合
从欧几里得到双曲空间,融入视觉 Transformer 增强层次关系建模 !
现代机器学习的基础是表示学习,使得模型能够从原始数据中提取有意义特征(Bengio等人,2014年)。尽管传统上欧几里得空间被用来模拟数据关系,但许多实际数据集(包括图像)表现出比欧几里得空间更好的层次结构,这种结构在非欧几里得空间中更易捕捉(Bronstein等人,2017年)。
未来先知
2024/11/05
6230
从欧几里得到双曲空间,融入视觉 Transformer 增强层次关系建模 !
Vision Transformer 必读系列之图像分类综述(三): MLP、ConvMixer 和架构分析
https://github.com/open-mmlab/awesome-vit
OpenMMLab 官方账号
2022/02/28
2.9K0
Vision Transformer 必读系列之图像分类综述(三): MLP、ConvMixer 和架构分析
NIPS 2018 | Quoc Le提出卷积网络专属正则化方法DropBlock
深度神经网络在具备大量参数、使用大量正则化和噪声时效果很好,如权重衰减和 dropout [1]。尽管 dropout 的首次成功与卷积网络相关,但近期的卷积架构很少使用 dropout [3–10]。大部分情况下,dropout 主要用于卷积网络的全连接层。
机器之心
2018/12/10
5160
NIPS 2018 | Quoc Le提出卷积网络专属正则化方法DropBlock
Segmenter:基于纯Transformer的语义分割网络
正如大家所知,在进行图像语义分割时,图像被编码成一系列补丁后往往很模糊,需要借助上下文信息才能被正确分割。
Amusi
2021/06/09
1.9K0
Segmenter:基于纯Transformer的语义分割网络
Dropout还可以改善神经网络欠拟合?
2012 年,Hinton 等人在其论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出了 dropout。同年,AlexNet 的出现开启了深度学习的新纪元。AlexNet 使用 dropout 显著降低了过拟合,并对其在 ILSVRC 2012 竞赛中的胜利起到了关键作用。可以这么说,如果没有 dropout,我们目前在深度学习领域看到的进展可能会被推迟数年。
算法进阶
2023/08/28
3380
Dropout还可以改善神经网络欠拟合?
机器学习,过拟合与欠拟合,正则化与交叉验证
不同的机器学习方法会给出不同的模型。当损失函数给定时,基于损失函数的模型的训练误差(training error)和模型的测试误差(test error)就自然成为学习方法评估的标准。
zhangjiqun
2024/12/14
2330
机器学习,过拟合与欠拟合,正则化与交叉验证
如何用正则化防止模型过拟合?
每天给你送来NLP技术干货! ---- ©作者 | Poll 来自 | PaperWeekly 在总结正则化(Regularization)之前,我们先谈一谈正则化是什么,为什么要正则化。 个人认为正则化这个字眼有点太过抽象和宽泛,其实正则化的本质很简单,就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。一提到正则化,很多同学可能马上会想到常用的 L1 范数和 L2 范数,在汇总之前,我们先看下 LP 范数是什么。 LP范数 范数简
zenRRan
2022/08/26
4190
如何用正则化防止模型过拟合?
NAS-ViT | 超低FLOPs与Params实现50FPS的CPU推理,精度却超越ResNet50!!!
在中小型网络架构上,ViT的性能仍低于CNN,特别是与经过神经架构搜索(NAS)高度优化的CNN架构,如AlphaNet, FBNetV3等相比。
集智书童公众号
2022/05/26
1.6K0
NAS-ViT | 超低FLOPs与Params实现50FPS的CPU推理,精度却超越ResNet50!!!
【他山之石】CVPR 2024|NTU联合UM提出InteractDiffusion,即插即用的HOI交互扩散模型!!!
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
马上科普尚尚
2024/05/06
5020
【他山之石】CVPR 2024|NTU联合UM提出InteractDiffusion,即插即用的HOI交互扩散模型!!!
深度学习三人行(第7期)----深度学习之避免过拟合(正则化)
今天我们一起学习下深度学习中如何避免过拟合,我们多多交流,共同进步。本期主要内容如下:
智能算法
2018/12/13
7570
视觉变换器与混合模型的图像识别
​ 计算机视觉,作为人工智能领域的关键分支,其发展历程可划分为两个主要阶段:早期基于规则的方法和现代基于深度学习的技术。在早期阶段,研究者依赖于手工设计的特征提取方法,例如SIFT和SURF算法,这些方法虽然在特定应用上取得了成功,但它们的普适性和可扩展性受限,通常需要专业知识来定制特征提取器。随着深度学习技术的兴起,计算机视觉领域迎来了革命性的变化。卷积神经网络(CNNs)的出现,使得计算机能够自动从图像中学习特征表示,极大地推动了图像分类、目标检测和图像分割等任务的发展。CNNs之所以有效,是因为它们模仿了人类视觉系统的工作方式,通过卷积层捕捉局部特征,并通过池化层减少特征的空间维度,同时增强对图像位移的不变性。
Srlua
2024/12/20
1730
视觉变换器与混合模型的图像识别
Backbone创新 | 中科大联合百度提出全新Transformer Backbone
最近,Vision Transformer(ViT)在各种计算机视觉任务上取得了显著的性能提升,例如图像分类、目标检测和语义分割。同时,广泛认为,由于Token-Level多Head自注意力(MHSA)模块带来的二次计算复杂度,Vision Transformer的计算成本较高。这种模型复杂性使得视觉Transformer在实际应用中的推理速度是一个关Key 因素时,相对于卷积神经网络(CNN)处于劣势,特别是与高效的CNN变体相比。
集智书童公众号
2023/09/04
4640
Backbone创新 | 中科大联合百度提出全新Transformer Backbone
ViTGAN:用视觉Transformer训练生成性对抗网络 Training GANs with Vision Transformers
ViTGAN是加州大学圣迭戈分校与 Google Research提出的一种用视觉Transformer来训练GAN的模型。该论文已被NIPS(Conference and Workshop on Neural Information Processing Systems,计算机人工智能领域A类会议)录用,文章发表于2021年10月。
中杯可乐多加冰
2025/02/09
1201
每日论文速递 | 使用LoRA微调也会过拟合?探索LoRA中的Dropout
摘要:以显著的能力,大语言模型(LLMs)已成为许多自然语言处理应用中不可或缺的元素,而参数高效的微调,特别是 LoRA,已经因其轻量级的模型定制方法而备受青睐。与此同时,各种dropout方法,最初设计用于所有参数更新的完全微调(full weight),缓解了与过度参数冗余相关的过拟合问题。因此,由于 LoRA 的可忽略的可训练参数和先前dropout方法的有效性之间存在可能的矛盾,这一点在很大程度上被忽视了。为了填补这一空白,我们首先确认参数高效的 LoRA 也容易出现过拟合问题。然后,我们重新审视了特定于 transformer 的dropout方法,并从数学和经验上建立了它们的等价性和差异。在这种比较分析的基础上,我们引入了一个统一的框架进行全面的研究,该框架基于dropout位置、结构模式和补偿措施实例化这些方法。通过这个框架,我们揭示了当涉及到有限的可训练参数时,它们的新偏好和性能比较。这个框架还允许我们将最有利的方面融合成一种名为 HiddenKey 的新dropout方法。大量实验证实了 HiddenKey 在多个模型和任务中的显著优越性和充分性,这凸显了它作为大型语言模型的高性能和参数高效微调的首选方法。
zenRRan
2024/03/12
1.6K0
每日论文速递 | 使用LoRA微调也会过拟合?探索LoRA中的Dropout
腾讯优图提出Evo-ViT:高性能Transformer加速方法
Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer
Amusi
2021/08/12
1.4K1
腾讯优图提出Evo-ViT:高性能Transformer加速方法
Self-Attention真的是必要的吗?微软&中科大提出Sparse MLP,降低计算量的同时提升性能!
Transformer由于其强大的建模能力,目前在计算机视觉领域占据了重要的地位。在这项工作中,作者探究了Transformer的自注意(Self-Attention)模块是否是其实现图像识别SOTA性能的关键 。为此,作者基于现有的基于MLP的视觉模型,建立了一个无注意力网络sMLPNet。
CV君
2021/09/27
1.1K0
【深度学习】正则化技术全面了解
正则化就是结构风险最小化策略的实现, 是在经验风险最小化的情况下加入一个正则化项或者罚项。
OpenCV学堂
2020/03/08
1.9K0
推荐阅读
相关推荐
一文概览深度学习中的五大正则化方法和七大优化策略
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档