Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >PSPNet ——语义分割及场景分析

PSPNet ——语义分割及场景分析

作者头像
AI科技评论
发布于 2019-08-21 07:28:45
发布于 2019-08-21 07:28:45
3.9K0
举报
文章被收录于专栏:AI科技评论AI科技评论

通过使用金字塔池化模块(Pyramid Pooling Module),在整合基于不同区域的上下文后,PSPNet在效果上超过了FCN、DeepLab和DilatedNet等时下最佳的方法。

原标题 | Review: PSPNet — Winner in ILSVRC 2016 (Semantic Segmentation / Scene Parsing)

作者 | Sik-Ho Tsang

翻译 | had_in(电子科技大学)、FlyingMoonLF

编辑 | Pita

本次, 由中国香港中文大学(CUHK)和商汤科技(SenseTime)提出的金字塔场景解析网络(Pyramid Scene Parsing Network, PSPNet)已经过审阅。

  • 语义分割的目标仅仅是获知已知对象的每个像素的类别标签。
  • 场景解析是基于语义分割的,它的目标是获知图像内所有像素的类别标签。

场景解析

通过使用金字塔池化模块(Pyramid Pooling Module),在整合基于不同区域的上下文后,PSPNet在效果上超过了FCN、DeepLab和DilatedNet等时下最佳的方法。PSPNet最终:

  • 获得2016年ImageNet场景解析挑战的冠军
  • 在PASCAL VOC 2012和Cityscapes数据集上取得当时的最佳效果

工作已发表于2017年CVPR,被引量超过600次。(SH Tsang @ Medium )

本文提纲

1. 对全局信息的需要

2.金字塔池化模块

3. 一些细节

4. 模型简化研究

5. 与时下最佳方法的比较

1. 对全局信息的需要

(c) 原有的未经上下文整合的FCN,(d) 经上下文整合的PSPNet

  • 关系错误匹配:FCN基于外观将黄色框内的船预测为“汽车”。但根据常识,汽车很少会出现在河面上。
  • 类别混淆:FCN将框内的对象一部分预测为“摩天楼”,一部分预测为“建筑物”。这些结果应当被排除,这样对象整体就会被分在“摩天楼”或“建筑物”其中一类中,而不会分属于两类。
  • 细小对象的类别:枕头与床单的外观相似。忽略全局场景类别可能对导致解析“枕头”一类失败。

因此,我们需要图像的一些全局特征。

2.金字塔池化模块

特征提取后的金字塔池模块(颜色在本图中很重要!)

(a)和(b)

(a)为我们的一个输入图像。(b)采用扩展网络策略(DeepLab / DilatedNet)提取特征。在DeepLab后面加上扩张卷积。特征map的大小是这里输入图像的1/8。

(C).1

在(c)处,对每个特征map执行子区域平均池化。

  • 红色:这是在每个特征map上执行全局平均池的最粗略层次,用于生成单个bin输出。
  • 橙色:这是第二层,将特征map划分为2×2个子区域,然后对每个子区域进行平均池化。
  • 蓝色:这是第三层,将特征 map划分为3×3个子区域,然后对每个子区域进行平均池化。
  • 绿色:这是将特征map划分为6×6个子区域的最细层次,然后对每个子区域执行池化。
(c).2. 1×1 卷积用于降维

然后对每个得到的特征map进行1×1卷积,如果金字塔的层次大小为N,则将上下文表示减少到原始的1/N(黑色)。

在本例中,N=4,因为总共有4个级别(红色、橙色、蓝色和绿色)。

如果输入特征map的数量为2048,则输出特征map为(1/4)×2048 = 512,即输出特征map的数量为512。

(c).3. 双线性插值用于上采样

采用双线性插值对每个低维特征map进行上采样,使其具有与原始特征map相同的大小(黑色)。

(c).4. 连接上下文聚合特征

所有不同级别的上采样特征map都与原始特征map(黑色)连接在一起。这些特征映射融合为全局先验。这就是金字塔池模块(c)的终止。

(d)

最后,通过卷积层生成最终预测的分割图(d)。

子区域平均池的概念实际上与SPPNet中的空间金字塔池化非常相似。先采用1×1卷积然后串联,与Xception或MobileNetV1使用的深度可分离卷积中的深度卷积非常相似,除了只是使用双线性插值使所有特征map的大小相等。

3.一些训练细节

中间的辅助损失项

· 辅助损失项用于训练过程中。辅助损失项有0.4的权重,以用来平衡最终损失和辅助损失。在测试时,则会放弃辅助损失。这是一种针对深度网络训练的深度监督训练策略。这个想法类似于GoogLeNet / Inception-v1中的辅助分类器(https://medium.com/coinmonks/paper-review-of-googlenet-inception-v1-winner-of-ilsvlc-2014-image-classification-c2b3565a64e7)。

· “多元”学习代替了“单元”学习。

4. 模型简化测试

ADE2K 数据集是ImageNet场景解析挑战赛2016中的数据集。它是一个更具挑战性的数据集,包含多达150个类和1,038个图像级标签。有20K/2K/3K图像用于训练/验证/测试。

验证集用于模型简化测试。

4.1. 最大值池化vs 平均池化,以及降维(DR)

不同算法在ADE2K验证集上的结果

  • ResNet50-Baseline: 基于ResNet50的扩张FCN。
  • ‘B1’和‘B1236’: bin大小分别为{1×1}和{1×1,2×2,3×3,6×6}的池化特征map。
  • ‘MAX’和‘AVE’: 最大池操作和平均池操作
  • ‘DR’: 降维.

平均池始终有更好的结果。使用降维比不使用降维要好。

4.2 辅助损失

辅助损失项的不同权重在ADE2K验证集上的结果

α= 0.4得到最好的性能。因此,使用权重α= 0.4。

4.3. 不同网络层数和不同尺度(MS)的测试

不同层数以及不同尺度的网络在ADE2K验证集上的结果

如我们知道的一样,更深的模型有更好的结果。多尺度测试有助于提高测试结果。

4.4. 数据增强 (DA)以及与其他算法的对比

在ADE2K验证集上与最新的方法的比较结果(除最后一行外,所有方法都是单尺度的)。

ResNet269+DA+AL+PSP: 对于单一尺度的测试,所有的技巧结合在一起的话,这种算法比最先进的方法有很大的优势。

ResNet269+DA+AL+PSP+MS: 同时进行了多尺度测试,取得了较好的效果。

下面是一些例子:

ADE2K中的样例

5. 与最先进方法的比较

5.1. ADE2K - ImageNet场景解析挑战赛2016

ADE2K测试集结果

PSPNet赢得了2016年ImageNet场景解析挑战赛冠军。

5.2. PASCAL VOC 2012

在使用数据增强的情况下,有10582/1449/1456张图像用于训练/验证/测试。

PASCAL VOC 2012测试集结果

“+”表示模型经过MS COCO数据预训练。

同样,PSPNet优于所有最先进的方法,如FCN、DeconvNet、DeepLab和Dilation8。

下面是一些例子:

PASCAL VOC 2012样例

5.3. Cityscapes

这个数据集包含了来自50个不同季节的城市的5000张高质量的像素级精细注释图像。分别有2975/500/1525张图像用于训练/验证/测试。它定义了包含材料和物品的19个类别。此外,我们亦为两种设定提供了20000张粗略注释的图像作比较,即,只使用精细数据以及同时使用精细和粗略标注数据进行训练。两者的训练都用“++”标记。

Cityscapes测试集结果

采用精细标注数据训练,或采用精细数据与粗略标注数据同时训练,PSPNet都取得了较好的效果。

下面是一些例子:

Cityscapes样例

作者还上传了Cityscapes数据集的视频,令人印象非常深刻:

另外两个视频例子:

https://www.youtube.com/watch?v=gdAVqJn_J2M

https://www.youtube.com/watch?v=HYghTzmbv6Q

采用金字塔池化模块,获得了图像的全局信息,提升了结果。

相关参考内容,请点击 阅读原文 访问查看。

本 期 译 者

had_in

From 电子科技大学

FlyingMoonLF

此人太懒,啥也没填

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
图片语义分割深度学习算法要点回顾
深度学习算法解决了数个难度级别逐渐上升的计算机视觉任务。在我先前的博文中,我已详细阐述了广为人知的两个任务:图像分类和目标检测。图像语义分割的难点在于将各个像素点分类到某一实例,再将各个实例(分类结果)与实体(大象,人,道路,天空等)一一对应。这任务即场景理解的一部分:深度学习模型怎样能更好地学习视觉内容的全局语境?
AI研习社
2018/12/29
1.2K0
语义分割的基本构造_语义分割综述
语义分割(全像素语义分割)作为经典的计算机视觉问题(图像分类,物体识别检测,语义分割)。其涉及将一些原始数据(例如:平面图像)作为输入并将它们转换为具有突出显示的感兴趣区域的掩膜,其中图像中的每个像素根据其所属的对象被分配类别ID。早起的计算机视觉问题只发现边缘(线条和曲线)或渐变元素,但它们从完全按照人类感知的方式提供像素级别的图像理解。语义分割将属于同一目标的图像部分聚集在一起解决这个问题,从而扩展了其应用领域。值得注意的是,与其他的基于图像的任务相比,语义分割是完全不同且先进的。
全栈程序员站长
2022/09/25
9600
语义分割的基本构造_语义分割综述
干货 | 一文概览主要语义分割网络,FCN、UNet、SegNet、DeepLab 等等等等应有尽有[通俗易懂]
原文地址:https://meetshah1995.github.io/semantic-segmentation/deep-learning/pytorch/visdom/2017/06/01/semantic-segmentation-over-the-years.html
全栈程序员站长
2022/09/25
4.1K0
干货 | 一文概览主要语义分割网络,FCN、UNet、SegNet、DeepLab 等等等等应有尽有[通俗易懂]
北大、北理工、旷视联手:用于图像语义分割的金字塔注意力网络
翻译 | 林椿眄 出品 | 人工智能头条(公众号ID:AI_Thinker) 近日,北京理工大学、旷视科技、北京大学联手,发表了一篇名为 Pyramid Attention Network for Semantic Segmentation 的论文。在这篇论文中,四位研究者提出了一种金字塔注意力网络 (Pyramid Attention Network,PAN),利用图像全局的上下文信息来解决语义分割问题。 与大多数现有研究利用复杂的扩张卷积 (dilated convolution) 并人为地设计解码器网
用户1737318
2018/06/05
1.4K0
一文概览主要语义分割网络:FCN,SegNet,U-Net...
图像的语义分割是将输入图像中的每个像素分配一个语义类别,以得到像素化的密集分类。虽然自 2007 年以来,语义分割/场景解析一直是计算机视觉社区的一部分,但与计算机视觉中的其他领域很相似,自 2014 年 Long 等人首次使用全卷积神经网络对自然图像进行端到端分割,语义分割才有了重大突破。
AI科技大本营
2018/07/23
3.1K0
一文概览主要语义分割网络:FCN,SegNet,U-Net...
深度学习与CV教程(14) | 图像分割 (FCN,SegNet,U-Net,PSPNet,DeepLab,RefineNet)
本系列为 斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记,对应的课程视频可以在 这里 查看。更多资料获取方式见文末。
ShowMeAI
2022/06/11
1.7K0
深度学习与CV教程(14) | 图像分割 (FCN,SegNet,U-Net,PSPNet,DeepLab,RefineNet)
语义分割中的深度学习方法全解:从FCN、SegNet到各版本DeepLab
王小新 编译自 Qure.ai Blog 量子位 出品 | 公众号 QbitAI 图像语义分割就是机器自动从图像中分割出对象区域,并识别其中的内容。 量子位今天推荐的这篇文章,回顾了深度学习在图像语义
量子位
2018/03/28
2K0
语义分割中的深度学习方法全解:从FCN、SegNet到各版本DeepLab
学界 | 金字塔注意力网络:一种利用底层像素与高级特征的语义分割网络
在卷积神经网络的近期发展中,根据其丰富的层级特征和端到端的可训练框架,像素级语义分割方面有了可观的进步。但是在编程高维度代表的过程中,原本像素级的环境背景中的空间分辨率会降低。如图 1 显示,FCN 基线无法在细节部分做出精准预测。第二排图片中,在牛旁边的羊被识别到错误分类之中;以及第一排图片中自行车的把手没有被识别成功。对此我们需要考虑两个具有挑战性的问题。
机器之心
2018/07/30
1.6K0
学界 | 金字塔注意力网络:一种利用底层像素与高级特征的语义分割网络
资源 | 从全连接层到大型卷积核:深度学习语义分割全指南
选自qure.ai 机器之心编译 参与:路雪、蒋思源 语义分割一直是计算机视觉中十分重要的领域,随着深度学习的流行,语义分割任务也得到了大量的进步。本文首先阐释何为语义分割,然后再从论文出发概述多种
机器之心
2018/05/09
1.6K0
资源 | 从全连接层到大型卷积核:深度学习语义分割全指南
【深度学习】图像语义分割
语义分割(Semantic Segmentation)是图像处理和机器视觉一个重要分支,其目标是精确理解图像场景与内容。语义分割是在像素级别上的分类,属于同一类的像素都要被归为一类,因此语义分割是从像素级别来理解图像的。如下如所示的照片,属于人的像素部分划分成一类,属于摩托车的像素划分成一类,背景像素划分为一类。
杨丝儿
2022/03/20
8.5K0
【深度学习】图像语义分割
2019年的语义分割指南
原标题 | A 2019 Guide to Semantic Segmentation
AI科技评论
2019/08/08
9270
2019年的语义分割指南
语义分割综述
语义分割 (Semantic segmentation) 是指将图像中的每个像素链接到类标签的过程。这些标签可能包括人、车、花、家具等。
计算机视觉
2021/10/11
1.3K0
深度学习图语义分割的综述
图像分割是计算机视觉和机器学习领域发展最快的领域之一,包括分类、分类与定位、目标检测、语义分割、实例分割和Panoptic分割。
算法进阶
2023/12/26
7100
深度学习图语义分割的综述
用于实时语义分割的可重参数化双分辨率网络
语义分割在自动驾驶和医学图像等应用中发挥着关键作用。尽管现有的实时语义分割模型在准确性和速度之间取得了令人称赞的平衡,但其多路径块仍然影响着整体速度。为了解决这个问题,本研究提出了一种专门用于实时语义分割的重参数化双分辨率网络(RDRNet)。具体来说,RDRNet采用了一种双分支架构,在训练过程中使用多路径块,并在推理过程中将它们重参数化为单路径块,从而同时提高了准确性和推理速度。此外,我们还提出了重参数化金字塔池化模块(RPPM),以增强金字塔池化模块的特征表示能力,同时不增加其推理时间。在Cityscapes、CamVid和Pascal VOC 2012数据集上的实验结果表明,RDRNet在性能和速度方面都优于现有的最先进模型。研究代码可在https://github.com/gyyang23/RDRNet获取。
AI浩
2024/10/22
2520
用于实时语义分割的可重参数化双分辨率网络
基于深度学习的语义分割综述
Paper链接:https://arxiv.org/abs/2001.05566
计算机视觉
2020/12/03
1.3K0
基于深度学习的语义分割综述
Spatial Attention Pyramid Network for Unsupervised Domain Adaptation
无监督域适配在各种计算机视觉任务重很关键,比如目标检测、实例分割和语义分割。目的是缓解由于域漂移导致的性能下降问题。大多数之前的方法采用对抗学习依赖源域和目标域之间的单模式分布,导致在多种场景中的结果并不理想。为此,在本文中,我们设计了一个新的空口岸注意力金字塔网络来进行无监督域适配。特别的,我们首先构建了空间金字塔表示来获得目标在不同尺度的内容信息。以任务指定的信息为引导,在每个尺度上,我们组合了密集的全局结构表示和局部纹理模式,有效的使用了空间注意力截止。采用这种方式,网络被强迫关注内容信息由区别力的地方来进行域适配。我们在各种由挑战性的数据集上进行了昂贵的实验,对目标检测、实例分割和语义分割进行了域适配,这证明了我们的方法比最佳的方法有了很大的提升。
狼啸风云
2023/10/07
3220
Spatial Attention Pyramid Network for Unsupervised Domain Adaptation
深度学习500问——Chapter09:图像分割(3)
场景解析对于无限制的开放词汇和不同场景来说是具有挑战性的。本文使用文中的 pyramid pooling module 实现基于不同区域的上下文集成,提出了PSPNet,实现利用上下文信息的能力来进行场景解析。
JOYCE_Leo16
2024/05/24
930
深度学习500问——Chapter09:图像分割(3)
【图像分割模型】多感受野的金字塔结构—PSPNet
从本系列前面的文章我们已经了解到,对于分割任务而言,上下文信息的利用情况对于分割的效果是有明显影响的。这里我们就具体谈谈这个影响的原因。
用户1508658
2019/07/28
1.6K0
【语义分割】一篇看完就懂的最新深度语义分割模型综述
语义分割结合了图像分类、目标检测和图像分割,通过一定的方法将图像分割成具有一定语义含义的区域块,并识别出每个区域块的语义类别,实现从底层到高层的语义推理过程,最终得到一幅具有逐像素语义标注的分割图像。
AI算法与图像处理
2020/02/24
16.5K0
【语义分割】一篇看完就懂的最新深度语义分割模型综述
DeepLab、DeepLabv3、RefineNet、PSPNet…你都掌握了吗?一文总结图像分割必备经典模型(二)
 机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 19 个在图像分割任务上曾取得 SOTA 的经典模型。 第 1 期:FCN、ReSeg、U-Net、ParseNet、DeepMask、S
机器之心
2023/05/16
1.4K0
DeepLab、DeepLabv3、RefineNet、PSPNet…你都掌握了吗?一文总结图像分割必备经典模型(二)
推荐阅读
相关推荐
图片语义分割深度学习算法要点回顾
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档