【源头活水】SMCA：港中文提出注意力图校准的DETR加速方案 | ICCV

马上科普尚尚

发布于 2024-06-19 14:20:40

1020

发布于 2024-06-19 14:20:40

为了加速DETR收敛，论文提出了简单而有效的Spatially Modulated Co-Attention（SMCA）机制，通过在初始边界框位置给予较高的协同注意力响应值的约束来构建DETR的回归感知协同注意力。此外，将SMCA扩展为多头注意力和尺度选择注意力后，对比DETR可以实现更好的性能（108周期45.6 mAP vs 500周期43.3 mAP）

论文: Fast Convergence of DETR with Spatially Modulated Co-Attention

论文地址：https://arxiv.org/abs/2108.02404
论文代码：https://github.com/gaopengcuhk/SMCA-DETR

Introduction

对于编码器中的多尺度视觉特征，不是简单地对CNN主干的多尺度特征进行缩放以形成联合多尺度特征图，而是引入了尺度内和多尺度混合的自注意力机制来进行多尺度视觉特征之间的信息传播。
在解码器中，每个对象查询可以通过尺度选择注意力自适应地选择适当尺度的编码特征。对于解码器中的多个协同注意头，都会估计特定的对象中心和尺度，生成不同的空间权重图用于调整协同注意力特征。

论文的贡献如下：

提出了一种新颖的空间调制协同注意力（SMCA），通过位置约束的目标回归来加速DETR的收敛。没有多尺度特征和多头注意力的基础版SMCA已经可以在 50 个周期时达到41.0 mAP，在 108 个周期时达到42.7 mAP。
完整版SMCA进一步集成了多尺度特征和多头空间调制，可以通过更少的训练迭代进一步显着改进和超越DETR。SMCA在 50 个周期时可以达到43.7 mAP，在 108 个周期时可以达到45.6 mAP。
在COCO 2017数据集进行了广泛的消融研究，以验证SMCA模块和网络设计。