论文标题: SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer 论文链接: https://arxiv.org/pdf/2412.14598 官方GitHub: https://github.com/scu-zjz/SparseViT 、
Yolo(You Only Look Once)系列模型在目标检测领域具有广泛的应用和显著的性能。随着深度学习技术的不断发展,研究者们不断探索更高效、更强大的网络结构以提升目标检测的性能。SparseViT提出的CBlock模块结合了卷积神经网络(CNN)和Transformer的优点,旨在提高特征提取的效率和效果。本文使用SparseViT的CBlock改进Yolo11,使用CBlock替换Yolo11中的Bottleneck结构,提升Yolo11的特征提取能力,实现涨点。
Yolo(You Only Look Once)系列模型在目标检测领域具有广泛的应用和显著的性能。随着深度学习技术的不断发展,研究者们不断探索更高效、更强大的网络结构以提升目标检测的性能。SparseViT提出的CBlock模块结合了卷积神经网络(CNN)和Transformer的优点,旨在提高特征提取的效率和效果。
在本改进中,我们将SparseViT中的CBlock模块引入YoloV11,以替换原有的Bottleneck结构。Bottleneck结构是深度残差网络(ResNet)及其变体中的关键组件,它通过减少和恢复通道数来降低计算复杂度,同时保持较好的特征表达能力。然而,随着目标检测任务的复杂性增加,传统的Bottleneck结构在某些情况下可能无法充分捕捉图像中的关键信息。
为了提升YoloV11的特征提取能力,我们进行了以下改进:
完整的改进方法: https://blog.csdn.net/m0_47867638/article/details/145963057?spm=1001.2014.3001.5501