前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >YoloV8改进策略:主干网络改进|CAS-ViT在YoloV8中的创新应用与显著性能提升

YoloV8改进策略:主干网络改进|CAS-ViT在YoloV8中的创新应用与显著性能提升

作者头像
AI浩
发布2025-01-15 09:57:36
发布2025-01-15 09:57:36
18100
代码可运行
举报
文章被收录于专栏:AI智韵AI智韵
运行总次数:0
代码可运行

摘要

在深度学习与计算机视觉领域,模型效率与性能之间的平衡一直是研究者和开发者关注的焦点。特别是在实时检测与识别任务中,如YoloV8这类高效的目标检测模型,其主干网络的选择对整体性能具有决定性作用。近期,我们通过将CAS-ViT(卷积加性自注意力视觉Transformer)创新性地引入到YoloV8中,替换其原有的主干网络,实现了令人瞩目的性能提升,这一改进不仅彰显了CAS-ViT的强大潜力,也为YoloV8的进一步优化开辟了新路径。

完整链接

代码语言:javascript
代码运行次数:0
复制
https://blog.csdn.net/m0_47867638/article/details/141613965?spm=1001.2014.3001.5501

CAS-ViT的核心优势

CAS-ViT作为面向高效移动应用的视觉Transformer变体,通过创新的卷积加性自注意力机制(CATM),极大地降低了传统自注意力机制的计算复杂度,同时保留了其强大的全局上下文建模能力。CATM模块采用加性相似度函数,并结合潜在的空间和通道注意力,消除了矩阵乘法和Softmax等复杂操作,从而在保证精度的同时显著提升了计算效率。这种轻量级且高效的设计,使得CAS-ViT成为资源受限环境下(如移动设备)的理想选择。

在YoloV8中的创新应用

我们将CAS-ViT引入YoloV8,并替换其原有的主干网络,旨在提升模型在目标检测任务中的准确性与实时性。这一改动充分利用了CAS-ViT的全局建模能力和计算效率优势,使得YoloV8在保持其快速推理速度的同时,能够更准确地捕捉目标特征,从而在多种复杂场景中实现更优的检测效果。

显著的性能提升

实验结果表明,采用CAS-ViT作为主干网络的YoloV8模型,在多个数据集上均取得了显著的性能提升。在检测精度方面,模型对于小目标、遮挡目标及复杂背景的识别能力得到了显著提升;同时,在计算效率上,CAS-ViT的轻量化设计使得YoloV8在保持高帧率的同时,降低了对硬件资源的需求,更适合在移动端和嵌入式设备等资源受限环境中部署。

论文翻译:《CAS-ViT:面向高效移动应用的卷积加性自注意力视觉Transformer》

https://arxiv.org/pdf/2408.03703

视觉转换器(Vision Transformers,ViTs)以其标记混合器强大的全局上下文能力,在神经网络领域取得了革命性的进展。然而,尽管以往的工作已做出相当大的努力,但成对标记亲和力和复杂的矩阵运算限制了其在资源受限场景和实时应用(如移动设备)中的部署。在本文中,我们介绍了CAS-ViT:卷积加性自注意力视觉转换器,以在移动应用中实现效率和性能之间的平衡。首先,我们认为,标记混合器获取全局上下文信息的能力依赖于多个信息交互,如空间和通道域。随后,我们根据这一范式构建了一个新颖的加性相似度函数,并提出了一种称为卷积加性标记混合器(Convolutional Additive Token Mixer,CATM)的高效实现方法。这种简化显著降低了计算开销。我们在多种视觉任务上对CAS-ViT进行了评估,包括图像分类、目标检测、实例分割和语义分割。我们在GPU、ONNX和iPhone上进行的实验表明,与其他最先进的骨干网络相比,CAS-ViT取得了具有竞争力的性能,证明了它是高效移动视觉应用的可行选择。我们的代码和模型可在以下网址获取:https://github.com/Tianfang-Zhang/CAS-ViT ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/7f37281ce44244029449a24dbbc0d73d.png

测试结果

代码语言:javascript
代码运行次数:0
复制
YOLOv8l summary: 875 layers, 35749360 parameters, 0 gradients, 110.6 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 15/15 [00:02<00:00,  5.26it/s]
                   all        230       1412      0.965      0.951      0.987      0.745
                   c17        230        131      0.989      0.992      0.995      0.829
                    c5        230         68      0.957          1      0.995      0.848
            helicopter        230         43      0.977      0.997      0.982      0.608
                  c130        230         85      0.977      0.989      0.995      0.661
                   f16        230         57      0.964      0.965      0.979      0.664
                    b2        230          2       0.94          1      0.995      0.751
                 other        230         86          1      0.912      0.978      0.559
                   b52        230         70      0.983      0.971      0.981      0.854
                  kc10        230         62          1      0.973       0.99      0.846
               command        230         40          1      0.969      0.995      0.831
                   f15        230        123       0.94      0.967      0.991      0.695
                 kc135        230         91      0.986      0.989       0.99      0.695
                   a10        230         27          1      0.454      0.891      0.425
                    b1        230         20          1      0.972      0.995       0.75
                   aew        230         25      0.919          1      0.995      0.789
                   f22        230         17      0.904          1      0.995      0.756
                    p3        230        105          1      0.987      0.995      0.816
                    p8        230          1      0.853          1      0.995      0.697
                   f35        230         32          1      0.884      0.969      0.481
                   f18        230        125      0.989      0.992      0.993      0.818
                   v22        230         41      0.995          1      0.995      0.696
                 su-27        230         31      0.966          1      0.995      0.869
                 il-38        230         27       0.99          1      0.995      0.837
                tu-134        230          1      0.839          1      0.995      0.895
                 su-33        230          2          1      0.672      0.995      0.749
                 an-70        230          2      0.905          1      0.995      0.849
                 tu-22        230         98      0.997          1      0.995      0.835
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI智韵 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 论文翻译:《CAS-ViT:面向高效移动应用的卷积加性自注意力视觉Transformer》
  • 测试结果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档