首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >BERT是图像预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

BERT是图像预训练未来?字节跳动iBOT刷新十几项SOTA,部分指标超MAE

作者头像
机器之心
发布于 2021-11-18 06:32:49
发布于 2021-11-18 06:32:49
5900
举报
文章被收录于专栏:机器之心机器之心

这个新方法在十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE。

前段时间,何恺明等人的一篇论文成为了计算机视觉圈的焦点。这篇论文仅用简单的 idea(即掩蔽自编码器,MAE)就达到了非常理想的性能,让人们看到了 Transformer 扩展到 CV 大模型的光明前景,给该领域的研究者带来了很大的鼓舞(参见《大道至简,何恺明新论文火了:Masked Autoencoders 让计算机视觉通向大模型》)。

那么,MAE 就是大模型视觉模型预训练方法的巅峰了吗?显然不是,一大波挑战者已经在路上了,比如字节跳动、约翰霍普金斯大学等机构组成的联合团队。

在一篇最新的论文中,他们提出了适用于视觉任务的大规模预训练方法 iBOT,通过对图像使用在线 tokenizer 进行 BERT [1]式预训练让 CV 模型获得通用广泛的特征表达能力。该方法在十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE [2]。

论文链接:https://arxiv.org/abs/2111.07832

方法介绍

在 NLP 的大规模模型训练中,MLM(Masked Language Model)是非常核心的训练目标,其思想是遮住文本的一部分并通过模型去预测这些遮住部分的语义信息,通过这一过程可以使模型学到泛化的特征。NLP 中的经典方法 BERT 就是采用了 MLM 的预训练范式,通过 MLM 训练的模型已经被证明在大模型和大数据上具备极好的泛化能力,成为 NLP 任务的标配。

在该工作中,研究者主要探索了这种在 NLP 中主流的 Masked Modeling 是否能应用于大规模 Vision Transformer 的预训练。作者给出了肯定的回答,并认为问题关键在于 visual tokenizer 的设计。不同于 NLP 中 tokenization 通过离线的词频分析即可将语料编码为含高语义的分词,图像 patch 是连续分布的且存在大量冗余的底层细节信息。而作者认为一个能够提取图像 patch 中高层语义的 tokenizer 可帮助模型避免学习到冗余的这些细节信息。作者认为视觉的 tokenizer 应该具备两个属性:(a)具备完整表征连续图像内容的能力;(b) 像 NLP 中的 tokenizer 一样具备高层语义。

如何才能设计出一个 tokenizer,使之同时具备以上的属性呢?作者首先将经过 mask 过的图片序列输入 Transformer 之后进行预测的过程建模为知识蒸馏的过程:

作者发现,通过使用在线 tokenizer 监督 MIM 过程,即 tokenizer 和目标网络同步学习,能够较好地保证语义的同时并将图像内容转化为连续的特征分布。具体地,tokenizer 和目标网络共享网络结构,在线即指 tokenizer 其参数从目标网络的历史参数中滑动平均得出。该形式近期在 DINO [3]中以自蒸馏被提出,并被用以针对同一张图片的两个不同视野在 [CLS] 标签上的优化:

在该损失函数的基础之上,作者将 MIM 同样也使用自蒸馏的思路进行优化,其中在线 tokenizer 的参数即为目标网络历史参数的平均。其过程可表示为:

基于上述训练目标,作者提出了一种新的自监督预训练框架 iBOT。iBOT 同时优化上述两项损失函数。其中,在 [CLS] 标签上的自蒸馏保证了在线 tokenizer 学习到高语义特征,并将该语义迁移到 MIM 的优化过程中;而在 patch 标签上的自蒸馏则将在线 tokenizer 表征的 patch 连续分布作为目标监督 masked patch 的复原。该方法在保证模型学习到高语义特征的同时,通过 MIM 显式建模了图片的内部结构。同时,在线 tokenizer 与 MIM 目标可以一起端到端地学习,无需额外的 tokenizer 训练阶段。

预训练时采用孪生网络结构,其中在线 tokenizer 可以看作教师分支的一部分。教师、学生两分支包括结构相同的 backbone 网络和 projection 网络。作者广泛验证了 iBOT 方法搭配不同的 Transformers 作为 backbone,如 Vision Transformers(ViT-S/16, ViT-B/16, ViT-L/16)及 Swin Transformers(Swin-T/7, Swin-T/14)。作者发现共享 [CLS] 标签与 patch 标签的 projection 网络能够有效提升模型在下游任务上的迁移性能。作者还采用了随机 MIM 的训练机制,对每张图片而言,以 0.5 的概率不进行 mask,以 0.5 的概率从 [0.1, 0.5] 区间随机选取一个比例进行 mask。实验表明随机 MIM 的机制对于使用了 multi-crop 数据增强的 iBOT 非常关键。

实验结果

为了验证 iBOT 预训练方法的有效性,作者在大量的下游任务上进行了验证,同时也在附录里提供了比较详细的不同任务超参数对最终结果的影响。

从 Linear probing(线性分类)及 k-NN 分类的结果上来看,iBOT 使用 ViT-B/16 达到 79.5% 线性分类准确度,超越了 DINO 的 78.2%;使用 Swin-T/14 达到 79.3% 准确度,超越了 EsViT 的 78.7%;使用 ViT-L/16 及 ImageNet-22K 作为预训练数据达到 81.6% 准确度,为目前 ImageNet-1K 线性分类基准上最高的结果。

从 Fine-tuning 的结果上来看,使用 ImageNet-1K 作为预训练数据及 ViT-B/16 时 iBOT 可达到 83.8% 准确率,高于 DINO、MAE 的 83.6%;使用 ImageNet-22K 作为预训练数据及 ViT-L/16 时 iBOT 可达到 86.3%,高于 BEiT [4]的 86.0%。

在半监督及无监督分类的结果上来看,iBOT 也显著优于没有 MIM 训练目标的 DINO。其中在半监督的基准下,作者发现微调数据越少时,iBOT 的优势越明显。在无监督的基准下,iBOT 能达到 43.4% 的准确率以及 78.6% 的 NMI。

除此之外,因为 MIM 显示建模了图片内部结构,作者发现 iBOT 在密集的下游任务也有非常好的迁移结果。其中 iBOT 使用 ViT-B/16 及 Cascade Mask R-CNN 在目标检测下可达到 51.2 APb;使用 ViT-B/16 及 UperNet 在语义分割下可达到 50.0 mAP,高于 MAE 达到的 48.1 mAP。

同时作者也进一步探究了 MIM 训练目标所带来的特性,以帮助分析 iBOT 在全局图像任务及密集图像任务出色表现的原因。作者根据 ImageNet 验证集中所有图片 patch 的概率分布,可视化了部分类别中心所代表的模式。作者在大量的可视化结果中发现 iBOT 针对局部语义有非常好的可视化结果,如下图左一、左二中所示的车灯、狗耳朵展现了不同局部类别语义的出现,而在下图左三、左四中展现了不同局部纹理语义的出现。

在大量鲁棒性分析及测评中,作者发现 iBOT 相较没有 MIM 训练目标的 DINO 有更出色的表现,这说明局部语义的出现能够帮助模型在遮挡、模糊等一系列干扰存在的图像识别任务下有更好的准确性。

方法对比

近期 masked autoencoding 的思路可谓在视觉领域大火,和近期一些工作对比,BEiT 使用了一个预训练好的 DALL-E encoder 作为 tokenizer,将每个 patch 标签离散化后的 one-hot 编码作为目标模型的标签。

而 MPP [5]及近期较火的 MAE 则可将 tokenizer 视为恒等变换,即直接在像素空间内进行回归而非分类。

而 iBOT 则指出了上述几种方式的 tokenizer 存在过度关注低级信息的问题,这也可以从上述几种方法线性分类的性能不是很高可以看出。但近期 MAE 中指出当图片中被 mask 的比例足够大时,可使网络无法从相近 patches 中插值获取信息从而迫使其学到全局信息;MAE 还指出线性分类并不是唯一评估特征表征能力的基准,且和下游迁移学习的表现不能较好相关。

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2019.

[2] Kaiming He,Xinlei Chen, Saining Xie, Yanghao Li,Piotr Dollar, and Ross Girshick. Masked autoencoders are scalable vision learners. arXiv preprint arXiv:2111.06377, 2021.

[3] Mathilde Caron, Hugo Touvron, Ishan Misra, Herve ́ Je ́gou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. In ICCV, 2021.

[4] Hangbo Bao, Li Dong, and Furu Wei. BEiT: BERT pre-training of image transformers. arXiv preprint arXiv:2106.08254, 2021.

[5] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl- vain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2021.

© THE END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CV界六边形战士来了!字节提出iBOT连霸自监督榜单,入选顶会ICLR 2022
最近,一个由中国团队提出的iBOT开源模型在无监督分类、线性分类、微调分类这三大自监督主流评估方式上,「霸榜」了近两个月的时间。
新智元
2022/02/24
7060
CV界六边形战士来了!字节提出iBOT连霸自监督榜单,入选顶会ICLR 2022
自监督学习系列(四):基于蒸馏的图片掩码学习
好久不见!自监督学习系列文章继续更新啦!在前几期的文章中,我们介绍了基于辅助任务、对比学习以及图片掩码学习的自监督学习范式 。快来复习一下!
OpenMMLab 官方账号
2022/12/30
1.1K0
自监督学习系列(四):基于蒸馏的图片掩码学习
北大美女学霸力压大神何恺明新作MAE!怒摘12个SOTA,灵感竟来自16年前CVPR论文
【新智元导读】近日,北大校友、约翰·霍普金斯大学博士生提出了一种新的方法:MaskFeat,力压大神何恺明的新作MAE,摘下12个SOTA!
新智元
2021/12/22
7700
北大美女学霸力压大神何恺明新作MAE!怒摘12个SOTA,灵感竟来自16年前CVPR论文
续何恺明的MAE后!MSRA提出掩码图像建模新框架:SimMIM
本文提出一个用于掩码图像建模(masked image modeling)的简单框架SmiMIM。作者简化了最近提出的方法,而无需任何特殊设计,如利用离散VAE或聚类进行块级别的掩码和分词。为了让掩码图像建模任务能学到更好的表示,作者表示该框架中每个组件的简单设计已经能显示出其优异的学习能力:
Amusi
2021/12/01
1.1K0
续何恺明的MAE后!MSRA提出掩码图像建模新框架:SimMIM
ICLR 2022 | BEIT论文解读:将MLM无监督预训练应用到CV领域
今天跟大家聊一聊ICLR 2022微软亚研院的一篇工作BEIT: BERT Pre-Training of Image Transformers(ICLR 2022)。BEIT是一种图像无监督预训练,属于最近非常火的Vision Transformer这类工作的研究方向(Vision Transformer前沿工作详细汇总可以参考历史文章从ViT到Swin,10篇顶会论文看Transformer在CV领域的发展历程)。首先简单介绍一下这篇文章的整体思路:利用BERT中MLM(Masked Language Modeling)的思路,把一个图像转换成token序列,对图像token进行mask,然后预测被mask掉的图像token,实现图像领域的无监督预训练。
圆圆的算法笔记
2022/09/22
1.7K1
ICLR 2022 | BEIT论文解读:将MLM无监督预训练应用到CV领域
见微知著,掩码自监督学习让你一叶知秋
在前面的两篇文章中,我们介绍了基于各类代理任务 (Pretext Task) 和基于对比学习 (Contrastive Learning) 的自监督学习算法。
OpenMMLab 官方账号
2022/04/08
2.6K0
见微知著,掩码自监督学习让你一叶知秋
7 Papers & Radios | 微软亚研升级版Swin Transformer;字节跳动iBOT刷新多项SOTA
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周论文主要包括微软亚研团队提出一种升级版SwinTransformer;字节跳动、约翰霍普金斯大学等机构组成的联合团队,提出了适用于视觉任务的大规模预训练方法 iBOT,该方法在十几类任务和数据集上刷新了 SOTA 结果,在一些指标上甚至超过了 MAE 。 目录: N-grammer: Augmenting Transformers with latent n-grams  Swin Transformer V2:
机器之心
2023/03/29
3940
7 Papers & Radios | 微软亚研升级版Swin Transformer;字节跳动iBOT刷新多项SOTA
微软亚研提出TinyMIM,用知识蒸馏改进小型ViT
掩码建模(MIM, MAE)被证明是非常有效的自监督训练方法。然而,如图 1 所示,MIM 对于更大的模型效果相对更好。当模型很小的时候(比如 ViT-T 5M 参数,这样的模型对于现实世界非常重要),MIM 甚至可能一定程度上降低模型的效果。比如用 MAE 训练的 ViT-L 比普通监督训练的模型在 ImageNet 上的分类效果提升 3.3%,但是用 MAE 训练的 ViT-T 比普通监督训练的模型在 ImageNet 上的分类效果降低了 0.6%。
机器之心
2023/09/08
3310
微软亚研提出TinyMIM,用知识蒸馏改进小型ViT
字节&约翰斯·霍普金斯&上交提出iBOT框架,基于MIM进行自监督训练,在ImageNet-1K上达到86.3%的微调精度!
语言Transformer的成功主要归功于masked language modeling(MLM) 的预训练任务,其中文本首先被标记为语义上有意义的片段。在这项工作中,作者研究了masked image modeling(MIM) ,并指出了使用语义上有意义的视觉标记器(visual tokenizer) 的优势和挑战。作者提出了一个自监督的框架iBOT ,它可以通过在线标记器(online tokenizer) 执行mask预测。
CV君
2021/12/13
8140
字节&约翰斯·霍普金斯&上交提出iBOT框架,基于MIM进行自监督训练,在ImageNet-1K上达到86.3%的微调精度!
“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了
梦晨 羿阁 发自 凹非寺 量子位 | 公众号 QbitAI 仅靠19亿参数,只用公共数据集,在12个任务上狂刷SOTA。 微软这篇多模态论文刚挂上arXiv不久,就在业内引发强烈关注。 有网友将之总结成“在所有事情上打败了所有人”。 怎么回事?先来看这张雷达图: 橙色内圈,是各大任务之前的SOTA。 紫色外圈,就是这篇BEiT-3的结果,不仅超越,而且是全面超越。 具体一圈看下来,BEiT-3这个多模态模型不光刷遍多模态任务,连右上角的纯视觉三大经典任务也都刷到SOTA,简直是六边形战士。 知乎上一位同
量子位
2022/08/29
5480
“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了
自监督学习新范式CAE:为什么 MIM 比对比学习更适合下游任务?
机器之心专栏作者:陈小康 来自北京大学、香港大学和百度的研究者近日提出了一种名为CAE的新型 MIM 方法。 掩码建模方法,在 NLP 领域 (例如 BERT) 得到了广泛的应用。随着 ViT 的提出和发展,人们也尝试将掩码图像建模(MIM)应用到视觉领域并取得了一定进展。在此之前,视觉自监督算法主要沿着对比学习(contrastive learning)的思路去设计,而 MIM 无疑打开了新的大门。 来自北京大学、香港大学和百度的研究者近日提出了一种名为CAE的新型 MIM 方法。该方法通过对 “表征学
机器之心
2022/03/04
1.3K0
何凯明团队又出新论文!北大、上交校友教你用ViT做迁移学习
模型参数的初始化一直是一个重要的研究问题,一个合适的初始化能够提升模型性能,加速收敛找到最优解。
磐创AI
2021/12/01
1K0
何凯明团队又出新论文!北大、上交校友教你用ViT做迁移学习
CVPR 2023 | HPM:在掩码学习中挖掘困难样本,带来稳固性能提升!
来源:Paper Weekly本文约3000字,建议阅读5分钟本文介绍了一篇在自监督掩码学习(Masked Image Modeling)领域的原创工作 HPM (Hard Patches Mining for Masked Image Modeling)。  各种自监督掩码学习方法的性能强烈依赖于人工定义的掩码策略,而我们提出一种新的困难样本挖掘策略,让模型自主地掩码困难样本,提升代理任务的难度,从而获得强大的表征提取能力。目前 HPM 已被 CVPR 2023 接收,相关代码已开源,有任何问题欢迎在 G
数据派THU
2023/05/11
3200
CVPR 2023 | HPM:在掩码学习中挖掘困难样本,带来稳固性能提升!
简单的结构,优异的性能,SimMIM 来了!
自从 BEiT 的到来,图片自监督领域逐渐从对比学习时代,过渡到掩码图片学习时代。MAE 的横空出世,更是掀起了该领域的热潮,不久前 MMSelfSup 已经支持了 MAE。
OpenMMLab 官方账号
2022/04/09
5400
简单的结构,优异的性能,SimMIM 来了!
时隔两年,CV大神何恺明最新一作:视觉预训练新范式MAE!大道至简!
论文「Masked Autoencoders Are Scalable Vision Learners」证明了 masked autoencoders(MAE) 是一种可扩展的计算机视觉自监督学习方法。
昱良
2021/11/19
8460
时隔两年,CV大神何恺明最新一作:视觉预训练新范式MAE!大道至简!
更好的性能!新型自监督学习方法 CAE 了解一下
来自北京大学、香港大学和百度的研究者们近日提出了一种名为 CAE 的新型 MIM 方法。该方法通过对 “表征学习” 和 “解决前置任务(pretext task)” 这两个功能做完全分离,使得 encoder 学习到更好的表征,从而在下游任务上实现了更好的泛化性能。
OpenMMLab 官方账号
2022/05/25
1.1K0
更好的性能!新型自监督学习方法 CAE 了解一下
北大博士生提出CAE,下游任务泛化能力优于何恺明MAE
杨净 发自 凹非寺 量子位 | 公众号 QbitAI 上回说道,何恺明时隔两年发一作论文,提出了一种视觉自监督学习新范式—— 用掩蔽自编码器MAE,为视觉大模型开路。 这一次,北大博士生提出一个新方法CAE,在其下游任务中展现的泛化能力超过了MAE。 来看看这是一项什么样的研究? 这是一项什么研究? 自何恺明提出MAE以来,基于MIM,Masked Image Modeling,这一自监督学习表征算法就越来越引发关注。 它的主要思路,就是对输入图像进行分块和随机掩码操作,然后对掩码区域做预测。 预测的目标
量子位
2022/03/04
6560
BEIT:基于图像重建进行预训练!微软提出BEIT,Top-1准确率达86.3%!代码已开源!
在本文中,作者介绍了一种自监督视觉表示模型BEIT (B idirectional E ncoder representation from I mage T ransformers)。继BERT在自然语言处理领域开发之后,作者提出了一种用于预训练视觉Transformer的masked image modeling 任务。
CV君
2021/12/02
1.1K0
BEIT:基于图像重建进行预训练!微软提出BEIT,Top-1准确率达86.3%!代码已开源!
全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高
Transformer在自然语言处理的几乎所有任务中占据主导地位。近年来,基于Transformer的架构如Vision Transformer(ViT)被引入到计算机视觉领域,并在图像分类、目标检测和图像分割等任务中显示出巨大的前景。
集智书童公众号
2021/11/23
3.5K0
全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高
南理工&上海AI Lab提出Uniform Masking,为基于金字塔结构的视觉Transformer进行MAE预训练!
本篇文章分享论文『Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality』,南理工&上海AI Lab提出Uniform Masking,为基于金字塔结构的视觉Transformer进行MAE预训练!
CV君
2022/09/01
6470
南理工&上海AI Lab提出Uniform Masking,为基于金字塔结构的视觉Transformer进行MAE预训练!
推荐阅读
CV界六边形战士来了!字节提出iBOT连霸自监督榜单,入选顶会ICLR 2022
7060
自监督学习系列(四):基于蒸馏的图片掩码学习
1.1K0
北大美女学霸力压大神何恺明新作MAE!怒摘12个SOTA,灵感竟来自16年前CVPR论文
7700
续何恺明的MAE后!MSRA提出掩码图像建模新框架:SimMIM
1.1K0
ICLR 2022 | BEIT论文解读:将MLM无监督预训练应用到CV领域
1.7K1
见微知著,掩码自监督学习让你一叶知秋
2.6K0
7 Papers & Radios | 微软亚研升级版Swin Transformer;字节跳动iBOT刷新多项SOTA
3940
微软亚研提出TinyMIM,用知识蒸馏改进小型ViT
3310
字节&约翰斯·霍普金斯&上交提出iBOT框架,基于MIM进行自监督训练,在ImageNet-1K上达到86.3%的微调精度!
8140
“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了
5480
自监督学习新范式CAE:为什么 MIM 比对比学习更适合下游任务?
1.3K0
何凯明团队又出新论文!北大、上交校友教你用ViT做迁移学习
1K0
CVPR 2023 | HPM:在掩码学习中挖掘困难样本,带来稳固性能提升!
3200
简单的结构,优异的性能,SimMIM 来了!
5400
时隔两年,CV大神何恺明最新一作:视觉预训练新范式MAE!大道至简!
8460
更好的性能!新型自监督学习方法 CAE 了解一下
1.1K0
北大博士生提出CAE,下游任务泛化能力优于何恺明MAE
6560
BEIT:基于图像重建进行预训练!微软提出BEIT,Top-1准确率达86.3%!代码已开源!
1.1K0
全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高
3.5K0
南理工&上海AI Lab提出Uniform Masking,为基于金字塔结构的视觉Transformer进行MAE预训练!
6470
相关推荐
CV界六边形战士来了!字节提出iBOT连霸自监督榜单,入选顶会ICLR 2022
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档