YOLOv13改进：轻量化卷积魔改 | 动态卷积DynamicConv ，全面优化YOLOv13中的DSConv和DSC3k2，且显著提高了模型的性能

原创

AI小怪兽

发布于 2025-07-14 09:02:04

46200

代码可运行

文章被收录于专栏：YOLO大作战YOLO大作战

运行总次数：0

代码可运行

💡💡💡问题点：大规模视觉预训练显著提高了大型视觉模型的性能，即现有的低FLOPs模型不能从大规模的预训练中获益

💡💡💡解决对策：ParameterNet，旨在增加大规模视觉预训练模型中的参数数量，同时最小化FLOPs的增加，利用动态卷积将额外的参数合并到网络中。

💡💡💡如何使用：1）动态卷积DynamicConv代替YOLOv13中的DSConv；2）C3k2_DynamicConv代替YOLOv13中的DSC3k2；

💡💡💡在多个数据集上涨点的前提下，原始6.4 GFLOPs降低至6.2 GFLOPs，具体实验性能如下表

 YOLOv13 summary: 648 layers, 2,461,081 parameters, 2,461,065 gradients, 6.4 GFLOPs 
YOLOv13-DynamicConv summary: 641 layers, 4,621,033 parameters, 4,621,017 gradients, 6.2 GFLOPs

想进一步降低GFLOPs，可以将Conv全部替换为DynamicConv

《YOLOv13魔术师专栏》将从以下各个方向进行创新：

链接：

YOLOv13魔术师订阅链接

【原创自研模块】【多组合点优化】【注意力机制】【卷积魔改】【block&多尺度融合结合】【损失&IOU优化】【上下采样优化 】【小目标性能提升】【前沿论文分享】【训练实战篇】

💡💡💡为本专栏订阅者提供创新点改进代码，改进网络结构图，方便paper写作！！！

💡💡💡适用场景：红外、小目标检测、工业缺陷检测、医学影像、遥感目标检测、低对比度场景

💡💡💡适用任务：所有改进点适用【检测】、【分割】、【pose】、【分类】等

💡💡💡全网独家首发创新，【自研多个自研模块】，【多创新点组合适合paper 】！！！

1.YOLOv13介绍

论文：[2506.17733] YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

摘要—YOLO 系列模型因其卓越的准确性和计算效率在实时目标检测领域占据主导地位。然而，无论是 YOLO11 及更早版本的卷积架构，还是 YOLOv12 引入的基于区域的自注意力机制，都仅限于局部信息聚合和成对相关性建模，缺乏捕捉全局多对多高阶相关性的能力，这限制了在复杂场景下的检测性能。本文提出了一种准确且轻量化的 YOLOv13 目标检测器。为应对上述挑战，我们提出了一种基于超图的自适应相关性增强（HyperACE）机制，通过超图计算自适应地利用潜在的高阶相关性，克服了以往方法仅基于成对相关性建模的限制，实现了高效的全局跨位置和跨尺度特征融合与增强。随后，我们基于 HyperACE 提出了全链路聚合与分配（FullPAD）范式，通过将相关性增强特征分配到整个网络，有效实现了全网的细粒度信息流和表征协同。最后，我们提出用深度可分离卷积代替常规的大核卷积，并设计了一系列块结构，在不牺牲性能的前提下显著降低了参数量和计算复杂度。我们在广泛使用的 MS COCO 基准测试上进行了大量实验，结果表明，我们的方法在参数更少、浮点运算量更少的情况下达到了最先进性能。具体而言，我们的 YOLOv13-N 相比 YOLO11-N 提升了 3.0% 的 mAP，相比 YOLOv12-N 提升了 1.5% 的 mAP。

以往的 YOLO 系列遵循 “骨干网络 → 颈部网络 → 检测头” 的计算范式，这本质上限定了信息流的充分传输。相比之下，我们的模型通过超图自适应关联增强（HyperACE）机制，实现全链路特征聚合与分配（FullPAD），从而增强传统的 YOLO 架构。因此，我们提出的方法在整个网络中实现了细粒度的信息流和表征协同，能够改善梯度传播并显著提升检测性能。具体而言，如图 2 所示，我们的 YOLOv13 模型首先使用类似以往工作的骨干网络提取多尺度特征图 B1、B2、B3、B4、B5，但其中的大核卷积被我们提出的轻量化 DS-C3k2 模块取代。然后，与传统 YOLO 方法直接将 B3、B4 和 B5 输入颈部网络不同，我们的方法将这些特征收集并传递到提出的 HyperACE 模块中，实现跨尺度跨位置特征的高阶关联自适应建模和特征增强。随后，我们的 FullPAD 范式利用三个独立通道，将关联增强后的特征分别分配到骨干网络与颈部网络的连接处、颈部网络的内部层以及颈部网络与检测头的连接处，以优化信息流。最后，颈部网络的输出特征图被传递到检测头中，实现多尺度目标检测。

ultralytics/cfg/models/v13/yolov13.yaml

1.1 HyperACE

超图自适应相关性增强机制 HyperACE

超图理论借鉴与创新 ：借鉴超图理论，将多尺度特征图的像素视为超图顶点，不同的是，传统超图方法依赖手工设定参数构建超边，而 HyperACE 设计了可学习的超边生成模块，能自适应地学习并构建超边，动态探索不同特征顶点间的潜在关联。
超图卷积操作 ：在生成自适应超边后，通过超图卷积操作进行特征聚合与增强。每条超边先从其连接的所有顶点处聚合信息形成高阶特征，再将这些高阶特征传播回各个顶点，更新与增强顶点特征，从而实现高效地跨位置和跨尺度的特征融合与增强，强化不同尺度特征间的语义关联，对小目标和密集目标检测效果显著。

代码位置ultralytics/nn/modules/block.py

1.2 FullPAD_Tunnel

全流程聚合 - 分发范式 FullPAD

多通道特征传递 ：打破传统的 “骨干→颈部→头部” 单向计算范式，通过三条独立通路传递特征，即主干 - 颈部连接层、颈部内部层、颈部 - 头部连接层，将 HyperACE 聚合后的多尺度特征，通过这些 “隧道” 分发回网络的不同位置，实现细粒度信息流与全流程表征协同。
改善梯度传播 ：该范式有效解决了梯度消失或爆炸问题，显着改善了梯度传播效率，从而提升模型整体的检测性能，使模型在复杂场景下能够更好地捕捉目标特征，提高检测的准确性和稳定性。

代码位置ultralytics/nn/modules/block.py

1.3 DSC3k2

基于深度可分离卷积的轻量化模块

模块创新与替代 ：采用深度可分离卷积构建了 DSConv、DS-Bottleneck、DS-C3k 等模块，替代传统的大核卷积。例如使用 DS-C3k2 模块作为轻量化的骨干网络提取多尺度特征，在保持感受野的同时，大幅降低了参数量与计算量，提高了模型的计算效率。
性能与效率平衡 ：在几乎不牺牲性能的前提下，显著减少了模型的参数量和计算复杂度，使得 YOLOv13 能够在保持较高检测精度的同时，具备更快的推理速度，适合实时目标检测应用场景，降低了模型的部署难度和资源消耗。

代码位置ultralytics/nn/modules/block.py

2.原理介绍

论文： https://arxiv.org/pdf/2306.14525v2.pdf

摘要：大规模视觉预训练显著提高了大型视觉模型的性能。然而，我们观察到低FLOPs的缺陷，即现有的低FLOPs模型不能从大规模的预训练中获益。在本文中，我们引入了一种新的设计原则，称为ParameterNet，旨在增加大规模视觉预训练模型中的参数数量，同时最小化FLOPs的增加。我们利用动态卷积将额外的参数合并到网络中，而FLOPs仅略有上升。ParameterNet方法允许低flops网络利用大规模视觉预训练。此外，我们将参数网的概念扩展到语言领域，在保持推理速度的同时增强推理结果。在大规模ImageNet-22K上的实验证明了该方案的优越性。例如ParameterNet-600M可以在ImageNet上实现比广泛使用的Swin Transformer更高的精度(81.6%对80.9%)，并且具有更低的FLOPs (0.6G对4.5G)。在语言领域，使用ParameterNet增强的LLaMA- 1b比普通LLaMA准确率提高了2%

参数数量和FLOPs之间存在高度的相关性。具有大量参数的模型通常拥有较高的FLOPs。考虑到大量数据需要更多的参数的直觉，作者通过增加参数数量来构建ParameterNet，同时保持低FLOPs。

主要考虑高效的动态卷积，它可以多倍增加参数的数量，几乎不带来额外的 FLOPs。

3.DynamicConv引入YOLOv13

3.1 新建加入ultralytics/nn/Conv/parameternet.py

核心源码：

import torch
import torch.nn as nn
import torch.nn.functional as F
from timm.models.layers import drop_path
 
from timm.models.layers import SelectAdaptivePool2d, Linear, CondConv2d, hard_sigmoid, make_divisible, DropPath
 
 
class DynamicConv_Single(nn.Module):
    """ Dynamic Conv layer
    """
    def __init__(self, in_features, out_features, kernel_size=1, stride=1, padding='', dilation=1,
                 groups=1, bias=False, num_experts=4):
        super().__init__()
        self.routing = nn.Linear(in_features, num_experts)
        self.cond_conv = CondConv2d(in_features, out_features, kernel_size, stride, padding, dilation,
                                    groups, bias, num_experts)
 
    def forward(self, x):
        pooled_inputs = F.adaptive_avg_pool2d(x, 1).flatten(1)  # CondConv routing
        routing_weights = torch.sigmoid(self.routing(pooled_inputs))
        x = self.cond_conv(x, routing_weights)
        return x
 
class DynamicConv(nn.Module):
    default_act = nn.SiLU()  # default activation
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True, num_experts=4):
        super().__init__()
        self.conv = nn.Sequential(
            DynamicConv_Single(c1, c2, kernel_size=k, stride=s, padding=autopad(k, p, d), dilation=d, groups=g, num_experts=num_experts),
            nn.BatchNorm2d(c2),
            self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()
        )
 
    def forward(self, x):
        return self.conv(x)
 
 
class DynamicBnAct(nn.Module):
    """ Conv + Norm Layer + Activation w/ optional skip connection
    """
    def __init__(
            self, in_chs, out_chs, kernel_size, stride=1, dilation=1, pad_type=None,
            skip=False, act_layer=nn.ReLU, norm_layer=nn.BatchNorm2d, drop_path_rate=0., num_experts=4):
        super(DynamicBnAct, self).__init__()
        self.has_residual = skip and stride == 1 and in_chs == out_chs
        self.drop_path_rate = drop_path_rate
        # self.conv = create_conv2d(in_chs, out_chs, kernel_size, stride=stride, dilation=dilation, padding=pad_type)
        self.conv = DynamicConv(in_chs, out_chs, kernel_size, stride,p=pad_type, d=dilation , num_experts=num_experts)
        self.bn1 = norm_layer(out_chs)
        self.act1 = act_layer()
 
    def feature_info(self, location):
        if location == 'expansion':  # output of conv after act, same as block coutput
            info = dict(module='act1', hook_type='forward', num_chs=self.conv.out_channels)
        else:  # location == 'bottleneck', block output
            info = dict(module='', hook_type='', num_chs=self.conv.out_channels)
        return info
 
    def forward(self, x):
        shortcut = x
        x = self.conv(x)
        x = self.bn1(x)
        x = self.act1(x)
        if self.has_residual:
            if self.drop_path_rate > 0.:
                x = drop_path(x, self.drop_path_rate, self.training)
            x += shortcut
        return x

3.2 注册ultralytics/nn/tasks.py

1）第一处修改：

DynamicConv,DynamicBnAct进行注册

详见：

https://blog.csdn.net/m0_63774211/article/details/149271666

3.3 yolov13-DynamicConv.yaml

nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov13n.yaml' will call yolov13.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.50, 0.25, 1024]   # Nano
  s: [0.50, 0.50, 1024]   # Small
  l: [1.00, 1.00, 512]    # Large
  x: [1.00, 1.50, 512]    # Extra Large

backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv,  [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv,  [128, 3, 2, 1, 2]] # 1-P2/4
  - [-1, 2, C3k2_DynamicConv,  [256, False, 0.25]]
  - [-1, 1, Conv,  [256, 3, 2, 1, 4]] # 3-P3/8
  - [-1, 2, C3k2_DynamicConv,  [512, False, 0.25]]
  - [-1, 1, DynamicConv,  [512, 3, 2]] # 5-P4/16
  - [-1, 4, A2C2f, [512, True, 4]]
  - [-1, 1, DynamicConv,  [1024, 3, 2]] # 7-P5/32
  - [-1, 4, A2C2f, [1024, True, 1]] # 8

head:
  - [[4, 6, 8], 2, HyperACE, [512, 8, True, True, 0.5, 1, "both"]]
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [ 9, 1, DownsampleConv, []]
  - [[6, 9], 1, FullPAD_Tunnel, []]  #12     
  - [[4, 10], 1, FullPAD_Tunnel, []]  #13    
  - [[8, 11], 1, FullPAD_Tunnel, []] #14 
  
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 12], 1, Concat, [1]] # cat backbone P4
  - [-1, 2, C3k2_DynamicConv, [512, True]] # 17
  - [[-1, 9], 1, FullPAD_Tunnel, []]  #18

  - [17, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 13], 1, Concat, [1]] # cat backbone P3
  - [-1, 2, C3k2_DynamicConv, [256, True]] # 21
  - [10, 1, Conv, [256, 1, 1]]
  - [[21, 22], 1, FullPAD_Tunnel, []]  #23
  
  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 18], 1, Concat, [1]] # cat head P4
  - [-1, 2, C3k2_DynamicConv, [512, True]] # 26
  - [[-1, 9], 1, FullPAD_Tunnel, []]  

  - [26, 1, Conv, [512, 3, 2]]
  - [[-1, 14], 1, Concat, [1]] # cat head P5
  - [-1, 2, C3k2_DynamicConv, [1024,True]] # 30 (P5/32-large)
  - [[-1, 11], 1, FullPAD_Tunnel, []]  
  
  - [[23, 27, 31], 1, Detect, [nc]] # Detect(P3, P4, P5)

3.3 yolov13-DynamicBnAct.yaml

nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov13n.yaml' will call yolov13.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.50, 0.25, 1024]   # Nano
  s: [0.50, 0.50, 1024]   # Small
  l: [1.00, 1.00, 512]    # Large
  x: [1.00, 1.50, 512]    # Extra Large

backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv,  [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv,  [128, 3, 2, 1, 2]] # 1-P2/4
  - [-1, 2, C3k2_DynamicBnAct,  [256, False, 0.25]]
  - [-1, 1, Conv,  [256, 3, 2, 1, 4]] # 3-P3/8
  - [-1, 2, C3k2_DynamicBnAct,  [512, False, 0.25]]
  - [-1, 1, DynamicBnAct,  [512, 3, 2]] # 5-P4/16
  - [-1, 4, A2C2f, [512, True, 4]]
  - [-1, 1, DynamicBnAct,  [1024, 3, 2]] # 7-P5/32
  - [-1, 4, A2C2f, [1024, True, 1]] # 8

head:
  - [[4, 6, 8], 2, HyperACE, [512, 8, True, True, 0.5, 1, "both"]]
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [ 9, 1, DownsampleConv, []]
  - [[6, 9], 1, FullPAD_Tunnel, []]  #12     
  - [[4, 10], 1, FullPAD_Tunnel, []]  #13    
  - [[8, 11], 1, FullPAD_Tunnel, []] #14 
  
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 12], 1, Concat, [1]] # cat backbone P4
  - [-1, 2, C3k2_DynamicBnAct, [512, True]] # 17
  - [[-1, 9], 1, FullPAD_Tunnel, []]  #18

  - [17, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 13], 1, Concat, [1]] # cat backbone P3
  - [-1, 2, C3k2_DynamicBnAct, [256, True]] # 21
  - [10, 1, Conv, [256, 1, 1]]
  - [[21, 22], 1, FullPAD_Tunnel, []]  #23
  
  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 18], 1, Concat, [1]] # cat head P4
  - [-1, 2, C3k2_DynamicBnAct, [512, True]] # 26
  - [[-1, 9], 1, FullPAD_Tunnel, []]  

  - [26, 1, Conv, [512, 3, 2]]
  - [[-1, 14], 1, Concat, [1]] # cat head P5
  - [-1, 2, C3k2_DynamicBnAct, [1024,True]] # 30 (P5/32-large)
  - [[-1, 11], 1, FullPAD_Tunnel, []]  
  
  - [[23, 27, 31], 1, Detect, [nc]] # Detect(P3, P4, P5)

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S14#补给站

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S14#补给站

登录后参与评论

0 条评论

热度