首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >李沐团队提出最强ResNet改进版,多项任务达到SOTA | 已开源

李沐团队提出最强ResNet改进版,多项任务达到SOTA | 已开源

作者头像
量子位
发布于 2020-04-21 07:08:48
发布于 2020-04-21 07:08:48
1.1K0
举报
文章被收录于专栏:量子位量子位
十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI

图像处理领域中,近年来的新模型可谓是层出不穷。

但在大多数的下游任务中,例如目标检测、语义分割,依旧还是用ResNet或其变体作为骨干网络。

而最近,亚马逊李沐团队便提出了堪称“ResNet最强改进版”的网络——ResNeSt

从名字中不难看出,是引入了模块化的分散注意力模块,可以让注意力跨特征图(feature-map)组。

那么,ResNeSt到底有多强?

  • ResNeSt-50在224×224的ImageNet上,实现了81.13%的TOP-1精度,比之前最好的ResNet变体精度高出1%以上。
  • 简单地用ResNeSt-50替换ResNet-50骨干,可以让MS-COCO上的FasterRCNNNN的mAP,从39.25%提高到42.33%;ADE20K上的DeeplabV3的mIoU,从42.1%提高到45.1%。

这些改进对下游任务有很大的帮助,包括目标检测、实例分割和语义分割。

就连李沐也发朋友圈,呼吁小伙伴们“一键升级”。

更让人惊喜的是,这项工作已开源!

最强ResNet变体:多项任务取得“大满贯”

现在,我们具体来看下ResNeSt在具体任务中的表现。

图像分类

第一个实验研究了ResNeSt在ImageNet 2012数据集上的图像分类性能。

通过将ResNeSt和其他50层和101层配置、类似复杂度的ResNet变体作比较,TOP-1精度达到了最高,如下表所示。

还与不同大小的CNN模型做了比较。

采用了256×256的ResNeSt-200, 和320×320的ResNeSt-269。对于输入大小大于256的模型,采用双三次上采样策略(Bicubic upsampling strategy)。

从下表不难看出,与基于NAS发现的模型相比,ResNeSt具有更好的准确性和延迟权衡。

目标检测

接下来,是在目标检测上的性能。

所有的模型,都是在COCO-2017训练集上训练的118k图像,并在COCO-2017验证集上用5k图像进行评估。

使用FPN、同步批处理归一化(synchronized batch normalization)和图像尺度增强,来训练所有模型。

为了方便比较,简单地用ResNeSt替换了vanilla ResNet骨干,同时使用默认设置的超参数。

与使用标准ResNet的基线相比,ResNeSt的骨干在Faster-RCNN和CascadeRCNN上,都能将平均精度提高3%左右。

这就说明ResNeSt的骨干网络具有良好的泛化能力,并且可以很容易地迁移到下游任务中。

值得注意的是,ResNeSt50在Faster-RCNN和Cascade-RCNN检测模型上都优于ResNet101,而且使用的参数明显较少。

实例分割

在实例分割任务中,以ResNeSt-50和ResNeSt-101为骨干,对Mask-RCNN和Cascade-Mask-RCNN模型进行评估。

实验结果如下表所示,对于Mask-RCNNN来说,ResNeSt50的box/mask性能增益分别为2.85%/2.09%,而ResNeSt101则表现出了更好的提升,达到了4.03%/3.14%。

对于Cascade-Mask-RCNN,切换到ResNeSt50或ResNeSt101所产生的增益分别为3.13%/2.36%或3.51%/3.04%。

这就表明,如果一个模型由更多的Split-Attention模块组成,那么它的效果会更好。

语义分割

在语义分割下游任务的转移学习中,使用DeepLabV3的GluonCV实现作为基准方法。

从下表中不难看出,ResNeSt将DeepLabV3模型实现的mIoU提升了约1%,同时保持了类似的整体模型复杂度。

值得注意的是,使用ResNeSt-50的DeepLabV3模型的性能,比使用更大的ResNet-101的DeepLabV3更好。

ResNeSt:注意力分割网络

性能如此卓越,到底是对ResNet做了怎样的改良呢?

接下来,我们就来揭开ResNeSt的神秘面纱。

正如刚才我们提到的,ResNeSt是基于ResNet,引入了Split-Attention块,可以跨不同的feature-map组实现feature-map注意力。

Split-Attention块是一个计算单元,由feature-map组和分割注意力操作组成。下2张图便描述了一个Split-Attention块,以及cardinal group中的split-Attention。

从上面的2张图中不难看出,都有split的影子。比如 K(k) 和 R(r) 都是超参数,也就是共计 G = K*R 组。

除此之外,也可以与SE-Net和SK-Net对比着来看。

其中,SE-Net引入了通道注意力(channel-attention)机制;SK-Net则通过两个网络分支引入特征图注意力(feature-map attention)。

ResNeSt和SE-Net、SK-Net的对应图示如下:

研究人员介绍

李沐,亚马逊首席科学家,加州大学伯克利分校客座助理教授,美国卡内基梅隆大学计算机系博士。

专注于分布式系统和机器学习算法的研究。他是深度学习框架MXNet的作者之一。

曾任机器学习创业公司Marianas Labs的CTO和百度深度学习研究院的主任研发架构师。

李沐有着丰富的研究成果,曾先后在国内外主流期刊上发表多篇学术论文,其中《DiFacto — Distributed Factorization Machines 》在ACM国际网络搜索和数据挖掘(WSDM)大会上被评为最佳论文奖。

传送门

论文地址: https://hangzhang.org/files/resnest.pdf

GitHub项目地址: https://github.com/zhanghang1989/ResNeSt

作者系网易新闻·网易号“各有态度”签约作者
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【论文笔记】张航和李沐等提出:ResNeSt: Split-Attention Networks(ResNet改进版本)
github地址:https://github.com/zhanghang1989/ResNeSt
西西嘛呦
2020/08/26
1.6K0
【论文笔记】张航和李沐等提出:ResNeSt: Split-Attention Networks(ResNet改进版本)
【CV中的注意力机制】史上最强"ResNet"变体--ResNeSt
【前言】:我们前面已经详细介绍了Attention机制和视觉注意力机制在图像分类结构中的应用--SENet 和 基于SENet的改进版--SKNet。本篇我们将来介绍另一篇SENet的改进版,与此同时,它也针对ResNet网络结构的变体,号称史上最强“ResNet”--它就是ResNeSt。
深度学习技术前沿公众号博主
2020/05/25
4K0
【CV中的注意力机制】史上最强"ResNet"变体--ResNeSt
推荐五篇论文| 轻量级的Transformer; 对比学习;ResNeSt;Shortcut Learning等
Transform已经在自然语言处理(例如机器翻译,问题解答)中无处不在;但是,要实现高性能,它需要大量的计算,这使其不适合受硬件资源和电池严格限制的移动应用程序。本文,提出了一种有效的轻量级的Transformer,以便部署mobil NLP应用程序。轻量级的transform的关键关键Long-Short Range Attention(LSRA),其中有一group负责局部上下文建模(通过卷积),而另一组负责距离关系建模(通过注意力)。
黄博的机器学习圈子
2020/05/07
1.6K0
ResNeSt之语义分割,ADE20K全新SoTA 47.6%
ResNeSt 这个论文的工作量比较大,我们会分开进行讲述,这篇关于语义分割。正文开始之前先说一下,我们已经开源了论文中提到的所有模型和训练代码 (见 ResNeSt 主仓库)
Amusi
2020/04/26
9930
ResNeSt之语义分割,ADE20K全新SoTA 47.6%
来聊聊ResNet及其变种
2015 年,ResNet 横空出世,一举斩获 CVPR 2016 最佳论文奖,而且在 Imagenet 比赛的三个任务以及 COCO 比赛的检测和分割任务上都获得了第一名。四年过去,这一论文的被引量已超 40000 次.。
AI算法修炼营
2020/05/12
3.5K1
精度超越现有SOTA,百度视觉团队基于飞桨推出工业级骨干网络「HS-ResNet」
图像分类、目标检测、图像分割等各类视觉技术都离不开骨干网络(backbone),一个强有力的骨干网络可以为模型带来更高的效率及精度,所以它的设计一直都是业界研究者关注的重点方向。
用户1386409
2020/11/06
6950
精度超越现有SOTA,百度视觉团队基于飞桨推出工业级骨干网络「HS-ResNet」
CNN终于杀回来了!京东AI开源最强ResNet变体CoTNet:即插即用的视觉识别模块
本文创造性的将Transformer中的自注意力机制的动态上下文信息聚合与卷积的静态上下文信息聚合进行了集成,提出了一种新颖的Transformer风格的“即插即用”CoT模块,它可以直接替换现有ResNet架构Bottleneck中的3✖️3卷积并取得显著的性能提升。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
AIWalker
2021/08/25
1.7K0
CNN终于杀回来了!京东AI开源最强ResNet变体CoTNet:即插即用的视觉识别模块
超越ResNeSt!ResNet又一改进版,即插即用的HSB涨点神器!
Code: https://github.com/PaddlePaddle/PaddleClas
AI算法与图像处理
2020/11/06
2.1K0
超越ResNeSt!ResNet又一改进版,即插即用的HSB涨点神器!
ResNet超强变体:京东AI新开源的计算机视觉模块!(附源代码)
京东AI研究院提出的一种新的注意力结构。将CoT Block代替了ResNet结构中的3x3卷积,来形成CoTNet,在分类检测分割等任务效果都出类拔萃!
计算机视觉研究院
2024/12/19
2290
ResNet超强变体:京东AI新开源的计算机视觉模块!(附源代码)
轻量化卷积:TBC,不仅仅是参数共享组卷积,更具备跨通道建模
今天看到一篇非常有意思的文章:Tied Block Convolution,它也是一种轻量化卷积算子,但还算不上即插即用。为什么这么说呢?我理解的即插即用应该是不用对现有模块中其他地方进行任何改进,直接采用该模块替换卷积即可。显然,TBC是做不到的。
AIWalker
2021/05/24
9100
轻量化卷积:TBC,不仅仅是参数共享组卷积,更具备跨通道建模
COCO 54.7mAP!DetectoRS目标检测:改进主干网,成就新高度!
COCO 数据集上的目标检测精度的最高纪录已经有将近一年时间停留在53.3 mAP,曾经报告达到过这一高度的算法有:
CV君
2020/06/05
1.1K0
明月深度学习实践005:2020的屠榜架构ResNeSt
在年初ResNeSt刚出来的时候,就注意到这个,又是一个国人出品的屠榜架构。显然,这个架构也引起了很多争议,觉得这个论文只是一些技巧集合,不足以支撑一篇优秀论文,不过作为一个实用主义者,是不是优秀论文其实并不关注,只要效果够好,而且推断时间能在约束条件下。
明月AI
2021/10/28
6520
明月深度学习实践005:2020的屠榜架构ResNeSt
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
在深度学习领域,目标检测作为计算机视觉的核心任务之一,其性能的提升始终吸引着研究者们的目光。近期,我们创新性地将Swin Transformer这一前沿的Transformer架构引入到YoloV8目标检测模型中,通过替换其原有的主干网络,实现了检测性能的显著提升,为YoloV8系列模型注入了新的活力。
AI浩
2024/10/22
9270
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
双剑合璧!OpenPPL 支持 OpenMMLab 模型部署
咱俩师出同门。OpenPPL 是商汤基于自研高性能算子库的开源深度学习推理平台,提供云原生环境下的 AI 模型多后端部署能力。当然了,它也支持 OpenMMLab 的深度学习模型的高效部署。简单来说,用 OpenMMLab 开发的模型,可以通过 OpenPPL 高效可靠地运行在现有的 CPU、GPU 等计算平台上,为云端场景提供人工智能推理服务。
OpenMMLab 官方账号
2022/01/18
9040
双剑合璧!OpenPPL 支持 OpenMMLab 模型部署
Resnet
Resnet提出之前,深层网络的表现往往不如浅层网络——当网络深度达到一定程度后,梯度消失、爆炸等问题会使深度网络更加难以训练、更难找到一个flat minima。
Heeler-Deer
2023/03/10
3450
Resnet
IEEE Access 2022 | 动态场景中基于改进的DeepLabv3+的语义SLAM
标题:Semantic SLAM Based on Improvement DeepLabv3+ in Dynamic Scenarios
3D视觉工坊
2022/06/28
1.7K0
IEEE Access 2022 | 动态场景中基于改进的DeepLabv3+的语义SLAM
2020年,那些「引爆」了ML社区的热门论文、库和基准
不平凡的 2020 年终于过去了!这一年,由于新冠肺炎疫情的影响,CVPR、ICLR、NeurIPS 等各大学术会议都改为线上举行。但是,机器学习社区的研究者和开发者没有停下脚步,依然贡献了很多重大的研究发现。
机器之心
2021/03/15
5320
2020年,那些「引爆」了ML社区的热门论文、库和基准
CoTNet-重磅开源!京东AI Research提出新的主干网络CoTNet,在CVPR上获得开放域图像识别竞赛冠军
基于Self-Attention的Transformer结构,首先在NLP任务中被提出,最近在CV任务中展现出了非常好的效果。然而,大多数现有的Transformer直接在二维特征图上的进行Self-Attention,基于每个空间位置的query和key获得注意力矩阵,但相邻的key之间的上下文信息未得到充分利用。
CV君
2021/08/05
1K0
CoTNet-重磅开源!京东AI Research提出新的主干网络CoTNet,在CVPR上获得开放域图像识别竞赛冠军
百度飞桨开源Open Images Dataset V5目标检测比赛最好单模型MSF-DET
近日,飞桨开源了比赛中使用的MSF-DET,助力大规模图像目标检测算法的研究探索和落地应用。
CV君
2019/12/27
1.3K0
传统方法 + 深度学习发威! | 2021瓷砖缺陷检测总决赛冠军思路分享
本文整理天池比赛论坛分享:https://tianchi.aliyun.com/forum/postDetail?postId=195955 智能算法赛:瓷砖表面瑕疵质检 智能算法赛以“瓷砖表面瑕疵
3D视觉工坊
2021/05/18
1.3K0
传统方法 + 深度学习发威! | 2021瓷砖缺陷检测总决赛冠军思路分享
推荐阅读
【论文笔记】张航和李沐等提出:ResNeSt: Split-Attention Networks(ResNet改进版本)
1.6K0
【CV中的注意力机制】史上最强"ResNet"变体--ResNeSt
4K0
推荐五篇论文| 轻量级的Transformer; 对比学习;ResNeSt;Shortcut Learning等
1.6K0
ResNeSt之语义分割,ADE20K全新SoTA 47.6%
9930
来聊聊ResNet及其变种
3.5K1
精度超越现有SOTA,百度视觉团队基于飞桨推出工业级骨干网络「HS-ResNet」
6950
CNN终于杀回来了!京东AI开源最强ResNet变体CoTNet:即插即用的视觉识别模块
1.7K0
超越ResNeSt!ResNet又一改进版,即插即用的HSB涨点神器!
2.1K0
ResNet超强变体:京东AI新开源的计算机视觉模块!(附源代码)
2290
轻量化卷积:TBC,不仅仅是参数共享组卷积,更具备跨通道建模
9100
COCO 54.7mAP!DetectoRS目标检测:改进主干网,成就新高度!
1.1K0
明月深度学习实践005:2020的屠榜架构ResNeSt
6520
YoloV8改进策略:BackBone改进|Swin Transformer赋能YoloV8,性能跃升的新篇章
9270
双剑合璧!OpenPPL 支持 OpenMMLab 模型部署
9040
Resnet
3450
IEEE Access 2022 | 动态场景中基于改进的DeepLabv3+的语义SLAM
1.7K0
2020年,那些「引爆」了ML社区的热门论文、库和基准
5320
CoTNet-重磅开源!京东AI Research提出新的主干网络CoTNet,在CVPR上获得开放域图像识别竞赛冠军
1K0
百度飞桨开源Open Images Dataset V5目标检测比赛最好单模型MSF-DET
1.3K0
传统方法 + 深度学习发威! | 2021瓷砖缺陷检测总决赛冠军思路分享
1.3K0
相关推荐
【论文笔记】张航和李沐等提出:ResNeSt: Split-Attention Networks(ResNet改进版本)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档