Swin Transformer: Hierarchical Vision Transformer using Shifted Windows(ArXiv21)
Swin Transformer(Liu et al。,2021)是一个基于Transformer的深度学习模型,在视觉任务中取得了最先进的性能。与VIT不同Swin Transformer更加高效并且有更高的精度。由于Swin Transformer的一些特性,现在许多视觉的模型体系结构中,Swin Transformers还是被用作模型的骨干。本文旨在使用插图和动画为Swin Transformers提供全面的指南,以帮助您更好地理解这些概念。
今天给大家介绍的是微软亚洲研究院的一篇文章”Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”。从语言到视觉应用Transformer的挑战来源于两个领域的差异,例如和文本字词相比视觉实体的复杂变化以及图像像素的高分辨率两方面的差异。为了解决这样的问题,作者在这篇文章中提出一种称为Swin Transformer新型Vision Transformer。Swin Transformer使用允许跨窗口连接的移动窗口将自注意力限制在不重叠的局部窗口上计算表示,其提出的层次结构具有不同尺度上图像上建模的灵活性,在各种视觉任务上取得优秀的结果,有望在计算机视觉领域取代CNN成为一种通用框架。
自 2017 年 6 月谷歌提出 Transformer 以来,它便逐渐成为了自然语言处理领域的主流模型。最近一段时间,Transformer 更是开启了自己的跨界之旅,开始在计算机视觉领域大展身手,涌现出了多个基于 Transformer 的新模型,如谷歌用于图像分类的 ViT 以及复旦、牛津、腾讯等机构的 SETR 等。由此,「Transformer 是万能的吗?」也一度成为机器学习社区的热门话题。
继上半年分享的『基于Transformer的通用视觉架构:Swin-Transformer带来多任务大范围性能提升』、『Swin Transformer为主干,清华等提出MoBY自监督学习方法,代码已开源』,Swin Transformer 惊艳所有人之后,MSRA 开源 〖Video Swin Transformer〗,效果如何?
论文:https://ieeexplore.ieee.org/document/9812535 如有侵权请联系博主
在过去的几年中,卷积神经网络(CNN)在医学图像分析中取得了里程碑式的进展。尤其是,基于U形结构和skip-connections的深度神经网络已广泛应用于各种医学图像任务中。但是,尽管CNN取得了出色的性能,但是由于卷积操作的局限性,它无法很好地学习全局和远程语义信息交互。
Swin Transformer是2021年微软研究院发表在ICCV上的一篇文章,问世时在图像分类、目标检测、语义分割多个领域都屠榜。
论文: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
卷积神经网络在过去十年中彻底改变了计算机视觉应用,使得诸如目标检测、图像分割和实例分割等任务得以解决。尽管近年来卷积网络 Backbone 有所改进,甚至在某些任务上超过了人类的表现,但多年来在计算机视觉任务中使用Transformers [22] 仍然难以捉摸。
Swin Transformer发表于ICCV 2021,获得最佳论文,其作者都来自微软亚洲研究院。
今天给大家介绍了YotoR(You Only Transform One Representation),这是一种新的目标检测深度学习模型,结合了Swin Transformers和YoloR架构。
Transformer从NLP领域迁移到Vision领域,要解决几个主要问题:1) 尺度问题。同样的物体在同一张图像中的尺寸会有差异;2) 图像的分辨率问题。分辨率太大,直接用Transformer处理的计算代价太大。
视觉识别的快速发展始于 Vision transformer (ViT) 的引入,其很快取代了传统卷积神经网络 (ConvNet),成为最先进的图像分类模型。另一方面, ViT 模型在包括目标检测、语义分割等一系列计算机视觉任务中存在很多挑战。因此,有研究者提出分层 Transformer(如 Swin Transformer),他们重新引入 ConvNet 先验,这样使得 Transformer 作为通用视觉主干实际上可行,并在各种视觉任务上表现出卓越的性能。
本文主要对 Swin-Transformer-Object-Detection[1] 进行简要介绍,并考虑到其环境安装对新手而言是一个常见的挑战,因此本文实现了其对应的环境安装。
将Transformer引入视觉领域后,研究人员们一直在寻求更好的模型架构来适应视觉领域的通用任务。但将Transformer从NLP领域迁移到CV领域面临着众多挑战,与文本相比图像中的视觉实体尺度变化剧烈、图像分辨率很高,带来了多尺度建模与计算量巨大的严峻问题。
本文首发于 【集智书童】,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。
目的:近期提出的Segment Anything Model(SAM)已经在各种应用中通过点、文本或边界框提示展示了令人印象深刻的性能。
Swin-Unet是基于Swin Transformer为基础(可参考Swin Transformer介绍 ),结合了U-Net网络的特点(可参考Tensorflow深度学习算法整理(三) 中的U-Net)组合而成的新的分割网络
Transformer 在 NLP 任务中取得不错的发展,许多研究将其引入到计算机视觉任务中。毫不夸张的说,Transformer 正在改变计算机视觉的格局,尤其是在识别任务方面。例如 Detection transformer 是第一个用于目标检测的、端到端的学习系统,而 vision transformer 是第一个完全基于 transformer 的图像分类架构。在本文中,一篇被 ICLR 2022 接收的匿名论文集成了视觉和检测 Transformer (Vision and Detection Transformer,ViDT) 来构建有效且高效的目标检测器。
论文:https://arxiv.org/abs/2103.14030 如有侵权请联系博主
Swin Transformer Official Code已经release啦:
图像压缩技术旨在将图像转换为紧凑的表示,以节省传输和存储资源。有损图像压缩是最实用的技术之一,因为它可以恢复重要内容,同时丢弃少量不重要的信息。在过去的几十年里,传统的图像压缩标准得到了广泛的研究和利用。随着深度学习的快速发展,基于深度学习的图像编解码器迅速发展并取得了很好的结果。与此同时,越来越多的多媒体内容倾向于被机器视觉算法处理,如识别、检测和分割。然而,大多数压缩方法主要用于压缩图像以供人类消费,而没有考虑对下游任务或人机交互场景的支持。
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 一种新的集成视觉和检测 Transformer 的目标检测器 ViDT。 转自《机器之心》Transformer 在 NLP 任务中取得不错的发展,许多研究将其引入到计算机视觉任务中。毫不夸张的说,Transformer 正在改变计算机视觉的格局,尤其是在识别任务方面。例如 Detection transformer 是第一个用于目标
2020年,基于自注意力机制的Vision Transformer将用于NLP领域的Transformer模型成功地应用到了CV领域的图像分类上,并在ImageNet数据集上得到88.55%的精度。
本文作者为VMamba的原班人马,其中第一作者王兆植是中国科学院大学和鹏城实验室的2022级联合培养博士生,共同一作刘悦是中国科学院大学2021级直博生。他们的主要研究方向是视觉模型设计和自监督学习。
机器之心报道 编辑:杜伟、陈萍 微软亚洲研究院升级了 Swin Transformer,新版本具有 30 亿个参数,可以训练分辨率高达 1,536×1,536 的图像,并在四个具有代表性的基准上刷新纪录。 在不久之前公布的 ICCV 2021 论文奖项中,来自微软亚洲研究院的研究者凭借论文《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》斩获 ICCV 2021 马尔奖(最佳论文)。这篇论文的作者主要包括中国科
2022年7月1日,来自华东理工大学的李洪林等人在Journal of Cheminfomatics上发表文章,提出了SwinOCSR,这是一种基于Swin Transformer的端到端模型。该模型使用Swin Transformer作为骨干来提取图像,以将化学结构信息从出版物转换为SMILES。实验结果表明,模型明显优于所比较的方法,证明了模型的有效性。此外,作者使用focal loss来解决化学结构图的文本表示中的标签不平衡问题。
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2111.09883.pdf 源代码:https://github.com/microsoft/Swin-Transformer 计算机视觉研究院专栏 作者:Edison_G MSRA时隔大半年放出了Swin Transformer 2.0版本,在1.0版本的基础上做了改动,使得模型规模更大并且能适配不同分辨率的图片和不同尺
ViDT首先重新配置Swin Transformer的注意力模型,以支持独立的目标检测,同时完全重用Swin Transformer的参数。接下来,它结合了一个Encoder-free neck layer来利用多尺度特征和两种基本技术:Auxiliary decoding loss和Iterative Box Refinement。
在本文中,作者提出了将Swin Transformer缩放到30亿个参数的技术 ,并使其能够使用高达1536×1536分辨率的图像进行训练。通过扩大容量和分辨率,Swin Transformer在四个具有代表性的视觉基准上创造了新的记录:ImageNet-V2图像分类的84.0%top-1 准确度,COCO目标检测上的63.1/54.4box / mask mAP ,ADE20K语义分割的59.9 mIoU ,以及Kinetics-400视频动作分类的86.8%top-1 准确度。目前,视觉模型尚未像NLP语言模型那样被广泛探索,部分原因是训练和应用中的以下差异:
项目地址:https://github.com/microsoft/Swin-Transformer
自2020年以来,学术界已经提出很多关于Vision Transformer的架构和方法,也有很多关于高效Transformer的工作被提出。但是,不管是标准的ViT还是高效的ViT,虽然其中的Self Attention相对于嵌入维度具有线性复杂度(不包括线性投影),但相对于Token数量却具有二次复杂度。而Token的数量通常又与图像分辨率呈线性相关。因此,更高的图像分辨率将会带来复杂度和内存的二次增长。
2020 年 5 月,Facebook AI 推出了DERT( Detection Transformer),用于目标检测和全景分割。
中科星途遥感图像解译大赛今年有六个赛道,涵盖检测、分割、跟踪等任务。其中检测主赛道依托中科院新发布的百万级实例的FAIR1M数据集。具体赛道情况如下:
Transformer 近来在各种视觉任务上表现出卓越的性能,感受野赋予 Transformer 比 CNN 更强的表征能力。然而,简单地扩大感受野会引起一些问题。一方面,使用密集注意力(例如 ViT)会导致过多的内存和计算成本,并且特征可能会受到超出兴趣区域的无关部分的影响;另一方面,PVT 或 Swin Transformer 中采用的稀疏注意力与数据无关,可能会限制对远程(long range)关系建模的能力。
大规模预训练的Vision TRansformer,如ViT, CvT和Swin,由于其高性能和下游任务的优越性能,最近引起了极大的关注。然而,它们通常涉及巨大的模型尺寸和大量的训练数据。例如,ViT需要使用3亿张图像来训练一个带有6.32亿参数的巨大模型,才实现了图像分类的最先进性能。同时,Swin使用2-3亿个参数,并在ImageNet-22K上进行了预训练,以在下游检测和分割任务上取得良好的性能。
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 过去一年,Transformer频频跨界视觉领域,大有抢CNN饭碗之势。 先是图像分类上被谷歌ViT突破,后来目标检测和图像分割又被微软Swin Transformer拿下。 随着投身视觉Transformer研究的学者越来越多,三大任务榜单皆被Transformer或两种架构结合的模型占据头部。 但就在此时,一篇《2020年代的卷积网络》横空出世,带来全新纯卷积模型ConvNeXt,一下又热闹起来—— 全世界CV圈再次掀起模型架构之争,LeCun等一众
CycleMLP由香港大学、商汤科技研究院和上海人工智能实验室共同开发,在2022年ICLR上发布。
之前在看Swin Transformer的时候,发现该算法在目标检测、实例分割等各种视觉任务上屠榜,于是想来实践测试一下。
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 量子位 授权 自何恺明MAE横空出世以来,MIM(Masked Image Modeling)这一自监督预训练表征越来越引发关注。 但与此同时, 研究人员也不得不思考它的局限性。 MAE论文中只尝试了使用原版ViT架构作为编码器,而表现更好的分层设计结构(以Swin Transformer为代表),并不能直接用上MAE方法。 于是,一场整合的范式就此在研究团队中上演。 代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM,它探索了Swin
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 源代码:https://github.com/facebookresearch/ConvNeXt 计算机视觉研究院专栏 作者:Edison_G 自从ViT提出之后,在过去的一年里(2021年),Transformer在深度学习领域大杀四方,很多纯卷积的网络也不断的革新。基于transformer的模型在计算机视觉各
来源:机器之心本文约4000字,建议阅读9分钟你有多久没调过 kernel size 了?虽然常常被人忽略,但只要将其简单加大,就能给人惊喜。 当你在卷积网络(CNN)的深度、宽度、groups、输入分辨率上调参调得不可开交的时候,是否会在不经意间想起,有一个设计维度 kernel size,一直如此显而易见却又总是被忽视,总是被默认设为 3x3 或 5x5? 当你在 Transformer 上调参调得乐不思蜀的时候,是否希望有一种简单、高效、部署容易、下游任务性能又不弱于 Transformer 的模型,
机器之心转载 来源:知乎 作者:丁霄汉 你有多久没调过 kernel size 了?虽然常常被人忽略,但只要将其简单加大,就能给人惊喜。 当你在卷积网络(CNN)的深度、宽度、groups、输入分辨率上调参调得不可开交的时候,是否会在不经意间想起,有一个设计维度 kernel size,一直如此显而易见却又总是被忽视,总是被默认设为 3x3 或 5x5? 当你在 Transformer 上调参调得乐不思蜀的时候,是否希望有一种简单、高效、部署容易、下游任务性能又不弱于 Transformer 的模型,带
CVPR VISION 23挑战赛第1赛道 "数据智能缺陷检测 "要求参赛者在数据缺乏的环境下对14个工业检测数据集进行实例分割。本论文的方法聚焦于在有限训练样本的场景下提高缺陷掩模的分割质量的关键问题。基于混合任务级联(HTC)实例分割算法,我们用受CBNetv2启发的复合连接将transformer骨干(Swin-B)连接起来以增强基准结果。此外,我们提出了两种模型集成方法来进一步增强分割效果:一种是将语义分割整合到实例分割中,另一种是采用多实例分割融合算法。最后,通过多尺度训练和测试时数据增强(TTA),我们在数据高效缺陷检测挑战赛的测试集上获得了高于48.49%的平均mAP@0.50:0.95和66.71%的平均mAR@0.50:0.95。论文链接:https://arxiv.org/abs/2306.14116 代码链接:https://github.com/love6tao/
MLer 寒假也要卷起来。 作者 | 李梅 编辑 | 陈彩娴 机器学习领域的研究进展迅速,研究者既要及时跟进最新研究,也要不时地回顾经典。寒假开始,各位机器学习er在度假之余,想必也不会忘了自己卷王的身份。 最近,Github上出现了一个名为“ML Papers Explained”的优质项目,精选了机器学习领域的一些核心概念,对相关工作的原始论文做了解读,实在是广大MLer的一大福利。 项目地址:https://github.com/dair-ai/ML-Papers-Explained 1 25个必学
在图像分类任务中,主干网络是视觉神经网络中进行图像特征提取的主体,常见的算法包括我们耳熟能详的 ResNet、Vision Transformer 等。
杨净 发自 凹非寺 量子位 | 公众号 QbitAI 自何恺明MAE横空出世以来,MIM(Masked Image Modeling)这一自监督预训练表征越来越引发关注。 但与此同时, 研究人员也不得不思考它的局限性。 MAE论文中只尝试了使用原版ViT架构作为编码器,而表现更好的分层设计结构(以Swin Transformer为代表),并不能直接用上MAE方法。 于是,一场整合的范式就此在研究团队中上演。 代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM,它探索了Swin Transform
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 量子位 授权 微软的Swin Transformer去年横空出世,一举突破了Transformer做视觉任务复杂度过高的问题。 这种把Transformer“卷积网络”化的做法,也成为当前ViT研究领域的热门方向。 但现在,何恺明团队的最新论文提出了不同的观点: 在目标检测任务上,像Swin Transformer那样的复杂操作可能是没有必要的。 只用普通ViT做骨干网络,一样能在目标检测任务上拿下高分。 不对ViT引入分层设计 ViT可以说是打开了
领取专属 10元无门槛券
手把手带您无忧上云