在目标检测领域,模型性能的提升一直是研究者和开发者们关注的重点。近期,我们尝试将CAFormer模块引入YoloV9模型中,以替换其原有的主干网络,这一创新性的改进带来了显著的性能提升。
CAFormer,作为MetaFormer框架下的一个变体,结合了深度可分离卷积和普通自注意力机制的优势。在底层阶段,CAFormer采用深度可分离卷积作为令牌混合器,有效降低了计算复杂度并保持了良好的性能;而在顶层阶段,则引入普通的自注意力机制,以更好地捕获长距离依赖性。这种设计使得CAFormer在图像分类任务上取得了卓越的表现,并在ImageNet-1K数据集上创下了新纪录。
将CAFormer应用于YoloV9模型中,我们惊喜地发现,这一改进不仅大幅提升了模型的准确率,还增强了其对于复杂场景的适应能力。通过替换原有的主干网络,CAFormer为YoloV9提供了更为强大的特征提取能力,使得模型在检测小目标和复杂背景中的目标时更加准确和鲁棒。
与传统的目标检测模型相比,采用CAFormer的YoloV9具有以下显著优点:
https://arxiv.org/pdf/2210.13452 摘要——MetaFormer,即Transformer的抽象架构,已被发现在实现竞争性能中发挥着重要作用。在本文中,我们再次通过将研究重点从令牌混合器(token mixer)设计转移开,来进一步探索MetaFormer的潜力:我们在MetaFormer框架下引入了几个使用最基本或最常见混合器的基线模型,并展示了它们令人满意的性能。我们的观察结果总结如下:
(1)MetaFormer确保了坚实的性能下限。仅通过将恒等映射作为令牌混合器,MetaFormer模型(称为IdentityFormer)在ImageNet-1K上实现了超过80%的准确率。
(2)MetaFormer与任意令牌混合器配合良好。即使将令牌混合器指定为随机矩阵来混合令牌,由此产生的模型RandFormer也能达到超过81%的准确率,优于IdentityFormer。当采用新的令牌混合器时,可以确信MetaFormer的结果。
(3)MetaFormer轻松提供最先进的结果。仅使用五年前的常规令牌混合器,从MetaFormer实例化的模型就已经超越了最先进的水平。
(a)ConvFormer优于ConvNeXt。以常见的深度可分离卷积作为令牌混合器,该模型(称为ConvFormer,可视为纯卷积神经网络)在性能上超过了强大的卷积神经网络模型ConvNeXt。
(b)CAFormer在ImageNet-1K上创下了新纪录。通过在底层阶段简单地应用深度可分离卷积作为令牌混合器,在顶层阶段应用普通的自注意力机制,由此产生的模型CAFormer在ImageNet-1K上创下了新纪录:在无需外部数据或知识蒸馏的正常监督训练下,它在224×224分辨率下达到了85.5%的准确率。
在探索MetaFormer的过程中,我们还发现了一种新的激活函数StarReLU,与常用的GELU相比,它在激活过程中减少了71%的浮点运算量(FLOPs),同时实现了更好的性能。具体来说,StarReLU是Squared ReLU的一种变体,专门用于缓解分布偏移。我们期望StarReLU在MetaFormer类模型以及其他神经网络中找到巨大的潜力。代码和模型可在https://github.com/sail-sg/metaformer获取。
近年来,Transformer [9] 在各种计算机视觉任务中 [10]、[11]、[12]、[13] 取得了前所未有的成功。Transformer的能力长期以来一直归功于其注意力模块。因此,为了加强视觉Transformer(ViTs)[11],已经提出了许多基于注意力的令牌混合器[4]、[5]、[14]、[15]、[16]。然而,一些工作[17]、[18]、[19]、[20]、[21]发现,通过将Transformer中的注意力模块替换为简单的运算符,如空间MLP [17]、[22]、[23]或傅里叶变换[18],得到的模型仍然能产生令人鼓舞的性能。
沿着这一思路,工作[24]将Transformer抽象为一个称为MetaFormer的通用架构,并假设正是MetaFormer在模型中实现竞争性能方面发挥着重要作用。为了验证这一假设,[24]采用了极其简单的运算符——池化,作为令牌混合器,并发现PoolFormer有效地优于精致的ResNet/ViT/MLP类基线模型[1]、[2]、[4]、[11]、[17]、[22]、[25]、[26],这证实了MetaFormer的重要性。
在本文中,我们再次通过故意将注意力从令牌混合器上移开,进一步探索MetaFormer的边界。我们的目标是基于MetaFomer的极限,从而对其能力有一个全面的了解。为此,我们采用了最基本或最常见的令牌混合器,并研究了所得MetaFormer模型在大规模ImageNet-1K图像分类任务上的性能。具体来说,我们研究了令牌混合器是裸运算符(如恒等映射或全局随机混合)以及多年前就已存在的常见技术(如可分离卷积[6]、[7]、[8]和普通自注意力[9]),如图2所示。我们在图1中总结了我们的关键实验结果,主要观察结果如下。
这些使用最基本或常用令牌混合器的 MetaFormer 模型,很容易成为视觉应用领域中可靠且具有竞争力的基线。当引入精细的令牌混合器或先进的训练策略时,我们毫不惊讶地看到类似 MetaFormer 的模型将创下新的性能纪录。在我们的探索过程中,我们还发现了一种新的激活函数 StarReLU,与常用的 GELU 相比,StarReLU 的激活浮点运算量(FLOPs)减少了高达 71%。StarReLU 是 Squared ReLU 的一种变体,但特别设计用于缓解分布偏移。在我们的实验中,具体来说,StarReLU 在 ConvFormer-S18 和 CAFormer-S18 上分别比 GELU 高出 0.3% 和 0.2% 的准确率。因此,我们期待 StarReLU 在类似 MetaFormer 的模型以及其他神经网络中找到巨大的潜力。
yolov9-c summary: 851 layers, 65324560 parameters, 0 gradients, 255.5 GFLOPs
Class Images Instances P R mAP50 mAP50-95: 100%|██████████| 29/29 00:07
all 230 1412 0.939 0.981 0.99 0.739
c17 230 131 0.963 0.992 0.995 0.815
c5 230 68 0.916 1 0.995 0.825
helicopter 230 43 0.934 1 0.974 0.629
c130 230 85 0.975 1 0.995 0.679
f16 230 57 0.885 0.965 0.968 0.673
b2 230 2 0.809 1 0.995 0.723
other 230 86 0.975 0.901 0.968 0.594
b52 230 70 0.979 0.986 0.987 0.817
kc10 230 62 0.974 0.984 0.987 0.839
command 230 40 0.998 1 0.995 0.82
f15 230 123 0.995 1 0.995 0.687
kc135 230 91 1 0.946 0.99 0.694
a10 230 27 0.989 0.963 0.969 0.507
b1 230 20 0.957 1 0.995 0.731
aew 230 25 0.927 1 0.993 0.789
f22 230 17 0.792 1 0.995 0.802
p3 230 105 0.987 1 0.995 0.809
p8 230 1 0.925 1 0.995 0.597
f35 230 32 1 0.784 0.988 0.586
f18 230 125 0.992 0.988 0.992 0.821
v22 230 41 1 0.972 0.995 0.712
su-27 230 31 0.979 1 0.995 0.834
il-38 230 27 0.976 1 0.995 0.822
tu-134 230 1 0.812 1 0.995 0.895
su-33 230 2 0.847 1 0.995 0.597
an-70 230 2 0.774 1 0.995 0.822
tu-22 230 98 0.994 1 0.995 0.826
https://jingjing.blog.csdn.net/article/details/142738861?spm=1001.2014.3001.5502