DRN - 扩张残留网络（图像分类和语义分割）

AI科技评论

发布于 2019-08-21 15:45:54

1.8K0

文章被收录于专栏：AI科技评论AI科技评论

原标题 | Review: DRN — Dilated Residual Networks (Image Classification & Semantic Segmentation)

作者 | Sik-Ho Tsang

翻译 | had_in（电子科技大学）

编辑 | Pita

本文回顾了普林斯顿大学和英特尔实验室的DRN(扩张残差网络)。2016年ICML发布了用于语义分割的DilatedNet后，作者提出了DRN，不仅可以提高语义分割效果，还可以提高图像分类效果，而不增加模型的深度和复杂度。文章发表于2017年，被引用超过100次。(SH Tsang @ Medium)

概要

扩张卷积
需要扩张卷积的原因
扩张残差网络(DRN)
定位
去网格化
结果

1. 扩张卷积

为了简单起见，我仅引用了DilatedNet结构中的公式：

标准卷积(左),扩张卷积(右)

左边是标准卷积。右边是扩张卷积。我们可以看到在求和时，需要满足s+l*t=p，索引我们在卷积操作过程中的会跳过一些点。

当l=1时，上式表示标准卷积。

当l>1时，上式表示扩张卷积。

标准卷积(l=1)(左)，扩张卷积(l=2)(右)

上面的例子说明了l=2时的卷积过程。我们可以看到感知野比标准卷积大。

l=1(左)，l=2(中)，l=4(右)

上面的图显示了更多不同感知野的例子。

2. 需要扩张卷积的原因

研究结果表明，在网络末端得到的较小输出特征map，降低了语义分割的精度。

在全卷积网络(FCN，https://towardsdatascience.com/review-fcn-semantic-segmentation-eb8c9b50d2d1)中，当需要32倍的上采样时，我们只能得到非常粗略的分割结果。因此，需要更大的输出特征map。

一种简单的方法是删除网络中的下采样(跨步)步骤，以提高特征map的分辨率。然而，这也减少了感知野，从而严重减少了获得的上下文信息。因为更高的分辨率而产生的感知野减少的代价是不值得的。

因此，扩张卷积用于增加后面网络层的感知野，补偿去除下采样而引起的感知野减少。

研究发现，使用扩张卷积也有助于这篇文章中的图像分类任务。

3. 扩张残差网络 (DRN)

本文采用d作为扩张因子。

当d=1时，为标准卷积。

当d>为1时，为扩张卷积。

原始的残差网络（https://towardsdatascience.com/review-resnet-winner-of-ilsvrc-2015-image-classification-localization-detection-e39402bfa5d8）

在原残差网络中，最后两组卷积层G4和G5使用3×3标准卷积(d=1)：

由于最大池化层的存在，特征map变得越来越小。

输出特征map的大小只有7×7。这并没有前面提到的那样好。

扩张残差网络(DRN)

在DRN中，在G4层，卷积采用d=2:

在G5层，对于第一次卷积(i=1)，仍然采用d=2:

在G5层，对于剩余的卷积(i>1)，采用d=4:

最后，DRN中G5层的输出为28×28，远远大于原始的ResNet（https://towardsdatascience.com/review-resnet-winner-of-ilsvrc-2015-image-classification-localization-detection-e39402bfa5d8）。