CV干货,第一时间送达
arXiv:https://arXiv.org/abs/2111.09881
code](https://github.com/swz30/Restormer
本文是MPRNet与MIRNet的作者在图像复原领域的又一力作,也是Transformer技术在low-level领域的又一个SOTA。针对Transformer在高分辨率图像复原中存在的难点,提出了两种MDTA与GDFN两种改进,极大程度上缓解了计算量与GPU缓存占用问题。所提方案刷新了多个图像复原任务的SOTA性能。
通过MHSA与FFN进行改进,本文提出一种高效Transformer,它可以捕获长距离像素相关性,同时可适用于大尺寸图像。所提方案Restormer(Restoration Transformer)在多个图像复原任务上取得了SOTA性能,包含图像去雨、图像去运动模糊、图像去散焦模糊以及图像降噪(包含合成与真实噪声),可参见下图。
本文主要贡献包含以下几点:
本文旨在设计一种高效Transformer模型,它可以处理复原任务中的高分辨率图像。为缓解计算瓶颈,我们对MHSA进行了关键性改进并引入多尺度分层模块,见下图。
Overall Pipeline 给定退化图像I \in R^{H \times W \times 3} ,Restormer的处理流程如下:
(每级编解码器包含多个Transformer模块,编码器分层降低空间分辨率,同时扩展通道,解码器则降低通道数,提升空间分辨率),注:为辅助重建过程,编解特征将与解码特征通过跳过连接进行concat并后接1\times 1
卷积降维;
Transformer的主要计算负担来自自注意力层。在常规自注意力中,key-query的点乘操作会随分辨率以\mathcal{O}(W^2H^2)
增长。因此,基本不可能将自注意力层用于图像复原任务(图像复原的输入分辨率一般都比较大)。
为解决该问题,我们提出了MDTA(见上图),它具有线性复杂度,其关键成分在于:在通道维度(而非空间维度)执行自注意力计算跨通道的交叉协方差以生成关于全局上下文的隐式注意力特征图。
作为MDTA的另一个重要成分,在计算特征协方差生成全局特征图之前,我们引入了深度卷积以突出局部上下文。
对于输入Y \in R^{\hat{H} \times \hat{W} \times \hat{C}} ,MDTA的处理流程如下:
MDTA的计算公式可以表示为:
注:\alpha 是一个可学习缩放参数,用于控制点积的幅值。
为进行特征变换,常规FFN(由两个1\times 1 卷积构成)对每个像素进行独立处理。本文则对齐进行了两个改动以提升表达能力(见上图):
GDFN的处理过程可以表示为如下公式:
总而言之,GDFN可以控制信息流动,进而使得每层聚焦于不同的细节信息。由于GDFN具有比FFN更多的计算量,我们降低扩展因子\gamma 以控制参数量与计算量。
基于CNN的复原模型通过采用固定尺寸图像块进行训练。然而,Transformer模型在较小块上训练可能无法进行全局统计信息编码,进而导致全分辨率测试时的次优性能。
针对该问题,我们提出了Progressive Learning机制:在训练的初期,模型在较小图像块上进行训练;在训练的后期,模型采用更大图像块进行训练 。由于更大的图像块会导致更长的计算耗时,我们随图像块提升降低batch参数以保持与固定块训练相当的耗时。
通过混合尺寸图像块训练的模型具有更优的性能。Progressive学习策略具有类似Curriculum学习策略相似的行为。
我们在不同的任务上进行了所提方案的性能验证,包含图像去雨、图像去运动模糊、图像去散焦模糊、图像降噪。
上图&表给出了所提方案在去雨任务上的性能与效果对比,可以看到:
上表给出了所提方案在不同去模糊数据集上的性能对比,可以看到:
上图&表给出了去散焦模糊任务上的性能对比,从中可以看到:
上表&图给出了不同图像降噪任务上的性能与效果对比,从中可以看到:
上表给出了关于模块的消融实验,可以看到:
从上表可以看到:
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有