在深度学习与计算机视觉领域,模型效率与性能之间的平衡一直是研究者和开发者关注的焦点。特别是在实时检测与识别任务中,如YoloV8这类高效的目标检测模型,其主干网络的选择对整体性能具有决定性作用。近期,我们通过将CAS-ViT(卷积加性自注意力视觉Transformer)创新性地引入到YoloV8中,替换其原有的主干网络,实现了令人瞩目的性能提升,这一改进不仅彰显了CAS-ViT的强大潜力,也为YoloV8的进一步优化开辟了新路径。
完整链接
https://blog.csdn.net/m0_47867638/article/details/141613965?spm=1001.2014.3001.5501
CAS-ViT的核心优势:
CAS-ViT作为面向高效移动应用的视觉Transformer变体,通过创新的卷积加性自注意力机制(CATM),极大地降低了传统自注意力机制的计算复杂度,同时保留了其强大的全局上下文建模能力。CATM模块采用加性相似度函数,并结合潜在的空间和通道注意力,消除了矩阵乘法和Softmax等复杂操作,从而在保证精度的同时显著提升了计算效率。这种轻量级且高效的设计,使得CAS-ViT成为资源受限环境下(如移动设备)的理想选择。
在YoloV8中的创新应用:
我们将CAS-ViT引入YoloV8,并替换其原有的主干网络,旨在提升模型在目标检测任务中的准确性与实时性。这一改动充分利用了CAS-ViT的全局建模能力和计算效率优势,使得YoloV8在保持其快速推理速度的同时,能够更准确地捕捉目标特征,从而在多种复杂场景中实现更优的检测效果。
显著的性能提升:
实验结果表明,采用CAS-ViT作为主干网络的YoloV8模型,在多个数据集上均取得了显著的性能提升。在检测精度方面,模型对于小目标、遮挡目标及复杂背景的识别能力得到了显著提升;同时,在计算效率上,CAS-ViT的轻量化设计使得YoloV8在保持高帧率的同时,降低了对硬件资源的需求,更适合在移动端和嵌入式设备等资源受限环境中部署。
https://arxiv.org/pdf/2408.03703
视觉转换器(Vision Transformers,ViTs)以其标记混合器强大的全局上下文能力,在神经网络领域取得了革命性的进展。然而,尽管以往的工作已做出相当大的努力,但成对标记亲和力和复杂的矩阵运算限制了其在资源受限场景和实时应用(如移动设备)中的部署。在本文中,我们介绍了CAS-ViT:卷积加性自注意力视觉转换器,以在移动应用中实现效率和性能之间的平衡。首先,我们认为,标记混合器获取全局上下文信息的能力依赖于多个信息交互,如空间和通道域。随后,我们根据这一范式构建了一个新颖的加性相似度函数,并提出了一种称为卷积加性标记混合器(Convolutional Additive Token Mixer,CATM)的高效实现方法。这种简化显著降低了计算开销。我们在多种视觉任务上对CAS-ViT进行了评估,包括图像分类、目标检测、实例分割和语义分割。我们在GPU、ONNX和iPhone上进行的实验表明,与其他最先进的骨干网络相比,CAS-ViT取得了具有竞争力的性能,证明了它是高效移动视觉应用的可行选择。我们的代码和模型可在以下网址获取:https://github.com/Tianfang-Zhang/CAS-ViT : 100%|██████████| 15/15 [00:02<00:00, 5.26it/s]
all 230 1412 0.965 0.951 0.987 0.745
c17 230 131 0.989 0.992 0.995 0.829
c5 230 68 0.957 1 0.995 0.848
helicopter 230 43 0.977 0.997 0.982 0.608
c130 230 85 0.977 0.989 0.995 0.661
f16 230 57 0.964 0.965 0.979 0.664
b2 230 2 0.94 1 0.995 0.751
other 230 86 1 0.912 0.978 0.559
b52 230 70 0.983 0.971 0.981 0.854
kc10 230 62 1 0.973 0.99 0.846
command 230 40 1 0.969 0.995 0.831
f15 230 123 0.94 0.967 0.991 0.695
kc135 230 91 0.986 0.989 0.99 0.695
a10 230 27 1 0.454 0.891 0.425
b1 230 20 1 0.972 0.995 0.75
aew 230 25 0.919 1 0.995 0.789
f22 230 17 0.904 1 0.995 0.756
p3 230 105 1 0.987 0.995 0.816
p8 230 1 0.853 1 0.995 0.697
f35 230 32 1 0.884 0.969 0.481
f18 230 125 0.989 0.992 0.993 0.818
v22 230 41 0.995 1 0.995 0.696
su-27 230 31 0.966 1 0.995 0.869
il-38 230 27 0.99 1 0.995 0.837
tu-134 230 1 0.839 1 0.995 0.895
su-33 230 2 1 0.672 0.995 0.749
an-70 230 2 0.905 1 0.995 0.849
tu-22 230 98 0.997 1 0.995 0.835