

paper https://arxiv.org/pdf/2203.06697.pdf code https://github.com/xindongzhang/ELAN
尽管Transformer已经“主宰”了各大CV领域,包含图像超分领域(如SwinIR)。但是Transformer中的自注意力计算量代价过于昂贵,同时某些操作对于超分而言可能是冗余的,这就限制了自注意力的计算范围,进而限制了超分性能。
本文提出了一种用于图像超分的高效长程距离网络ELAN(Efficient Long-range Attention Network)。具体来说,我们首先采用移位卷积(shift convolution)提取图像的局部结构信息同时保持与
卷积相当的复杂度;然后提出了一种GMSA(Group-wise Multi-scale Self-Attention)模块,它在不同窗口尺寸特征上计算自注意力以探索长程依赖关系。我们通过级联两个shift-conv与GMSA(它可以通过共享注意力机制进一步加速)构建一个高效ELAB模块。实验结果表明:相比其他Transformer方案,所提ELAN可以取得更佳结果,同时具有更低的复杂度。

上图为ELAN整体架构示意图,一种类似EDSR的超分架构,核心模块即为ELAB。所以我们只需要对ELAB进行详细介绍即可,见下图。

上图为ELAB的架构示意图,它包含一个局部特征提取模块与一个分组多尺度注意力GMSA模块,同时两个模块均搭载了残差学习策略。




上表与图对比了不同轻量型超分方案的性能对比,从中可以看到:


上图与表在更多超分方案进行了对比,从中可以看到:
看完ELAN后,关于GMSA的attention共享机制与shift-window深感疑惑:ELAB相邻模块之间可以公用attention map,但是相邻ELAB还要进行shift-windows操作,这个时候的attention还能直接用吗?直观上来看不能直接用了。百思不得其解之后小窗@新栋进行了请教并得到了如下方案:
ELAB这里有一个不同于SwinIR的实现小细节: shared的blocks是不做shift的,到下一个blocks进行shift。即,如果有8个block的话,我们的实现是12(non-shift),34(shift),56(non-shift),78(shift)。