本文为 AI 研习社编译的技术博客,原标题 : Review: SegNet (Semantic Segmentation) 作者 | SH Tsang 翻译 | 斯蒂芬•二狗子 校对 | 酱番梨 审核 | 约翰逊 · 李加薪 整理 | 立鱼王 原文链接: https://towardsdatascience.com/review-segnet-semantic-segmentation-e66f2e30fb96
这个图是SegNet演示效果,来源是作者上传到YouTube的一个视频 (https://www.youtube.com/watch?v=CxanE_W46ts)
在本文中,我将简要回顾剑桥大学的SegNet。最初它被提交到2015年CVPR,但最后它没有在CVPR上发布(但它的2015年arXiv技术报告版本仍然有超过100次引用)。相反,它发布于2017年TPAMI,引用次数超过1800次。现在,第一作者成为Magic Leap Inc.的深度学习和人工智能总监(SH Tsang @ Medium)
以下是作者的演示链接:
(https://www.youtube.com/watch?v=CxanE_W46ts)
还有一个有趣的演示,我们可以选择随机图像,甚至上传我们自己的图像来试用SegNet。我试过如下例子:
http://mi.eng.cam.ac.uk/projects/segnet/demo.php
我从这个链接得到的道路场景图像的分割结果
文章大纲
SegNet: 编码-解码结构
1.1. Encoder编码器
1.2. Decoder解码器
使用最大池化的索引进行上采样
DeconvNet和U-Net具有与SegNet类似的结构。
2.1. DeconvNet 与 SegNet不同之处
2.2. U-Net 与 SegNet不同之处
尝试了两个数据集。一个是用于道路场景分割的CamVid数据集。一个是用于室内场景分割的SUN RGB-D数据集。
3.1. 用于道路场景分割的CamVid数据集
道路场景分割的CamVid数据集上,与传统方法相互比较
道路场景分割的CamVid数据集上,与深度学习方法相比较
定性结果
3.2. 用于室内场景分割的SUN RGB-D数据集
在室内场景分割的SUN RGB-D数据集,与深度学习方法比较
不同类的类平均准确度
定性分析结果
3.3. 内存和推断时间
内存和推断时间
参考文献
[2015 arXiv] [SegNet] SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling
[2017 TPAMI] [SegNet] SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation