在目标检测领域,模型性能的提升一直是研究者和开发者们关注的重点。近期,我们尝试将CAFormer模块引入YoloV8模型中,以替换其原有的主干网络,这一创新性的改进带来了显著的性能提升。
完整链接:
https://blog.csdn.net/m0_47867638/article/details/142731008?spm=1001.2014.3001.5501
CAFormer,作为MetaFormer框架下的一个变体,结合了深度可分离卷积和普通自注意力机制的优势。在底层阶段,CAFormer采用深度可分离卷积作为令牌混合器,有效降低了计算复杂度并保持了良好的性能;而在顶层阶段,则引入普通的自注意力机制,以更好地捕获长距离依赖性。这种设计使得CAFormer在图像分类任务上取得了卓越的表现,并在ImageNet-1K数据集上创下了新纪录。
将CAFormer应用于YoloV8模型中,我们惊喜地发现,这一改进不仅大幅提升了模型的准确率,还增强了其对于复杂场景的适应能力。通过替换原有的主干网络,CAFormer为YoloV8提供了更为强大的特征提取能力,使得模型在检测小目标和复杂背景中的目标时更加准确和鲁棒。
与传统的目标检测模型相比,采用CAFormer的YoloV8具有以下显著优点:
YOLOv8l summary (fused): 558 layers, 47597280 parameters, 0 gradients, 142.4 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 29/29 [00:03<00:00, 8.76it/s]
all 230 1412 0.967 0.969 0.991 0.775
c17 230 131 1 0.963 0.995 0.855
c5 230 68 1 0.893 0.994 0.833
helicopter 230 43 0.977 0.99 0.987 0.685
c130 230 85 0.986 1 0.995 0.67
f16 230 57 0.994 0.965 0.981 0.673
b2 230 2 0.896 1 0.995 0.895
other 230 86 1 0.937 0.98 0.568
b52 230 70 0.985 0.923 0.98 0.869
kc10 230 62 1 0.916 0.987 0.841
command 230 40 0.996 1 0.995 0.857
f15 230 123 0.999 0.967 0.995 0.697
kc135 230 91 0.968 0.987 0.981 0.667
a10 230 27 1 0.865 0.97 0.532
b1 230 20 1 0.823 0.995 0.746
aew 230 25 0.96 0.973 0.986 0.812
f22 230 17 0.983 1 0.995 0.762
p3 230 105 1 0.986 0.995 0.801
p8 230 1 0.667 1 0.995 0.697
f35 230 32 0.999 1 0.995 0.579
f18 230 125 0.992 0.985 0.993 0.828
v22 230 41 0.995 1 0.995 0.718
su-27 230 31 1 0.991 0.995 0.894
il-38 230 27 0.991 1 0.995 0.917
tu-134 230 1 0.924 1 0.995 0.995
su-33 230 2 0.896 1 0.995 0.748
an-70 230 2 0.909 1 0.995 0.895
tu-22 230 98 1 0.994 0.995 0.878
Speed: 0.1ms preprocess, 8.9ms inference, 0.0ms loss, 1.2ms postprocess per image