YOLOv8改进：Dual-ViT：一种多尺度双视觉Transformer ，Dualattention助力检测| 顶刊TPAMI 2023

原创

AI小怪兽

发布于 2023-10-08 05:24:00

1.7K00

代码可运行

文章被收录于专栏：YOLO大作战YOLO大作战

运行总次数：0

代码可运行

💡💡💡本文独家改进：DualViT：一种新的多尺度视觉Transformer主干，它在两种交互路径中对自注意力学习进行建模，即学习更精细像素级细节的像素路径和提取整体全局语义信息的语义路径，性能表现出色，Dualattention引入到YOLOv8实现创新涨点！！！

Dualattention | 亲测在多个数据集能够实现大幅涨点

1.Dual-ViT

论文：Dual Vision Transformer | IEEE Journals & Magazine | IEEE Xplore

摘要：以前的工作已经提出了几种降低自注意力机制计算成本的策略。其中许多工作考虑将自注意力过程分解为区域和局部特征提取过程，每个过程产生的计算复杂度要小得多。然而，区域信息通常仅以由于下采样而丢失的不希望的信息为代价。在本文中，作者提出了一种旨在缓解成本问题的新型Transformer架构，称为双视觉Transformer（Dual ViT）。新架构结合了一个关键的语义路径，可以更有效地将token向量压缩为全局语义，并降低复杂性。这种压缩的全局语义通过另一个构建的像素路径，作为学习内部像素级细节的有用先验信息。然后将语义路径和像素路径整合在一起，并进行联合训练，通过这两条路径并行传播增强的自注意力信息。因此，双ViT能够在不影响精度的情况下降低计算复杂度。实证证明，双ViT比SOTA Transformer架构提供了更高的精度，同时降低了训练复杂度。

如图1（a）所示。Twins（上图（b））在SRA之前添加了额外的局部分组自注意力层，以通过区域内相互作用进一步增强表示。RegionViT（上图（c））通过区域和局部自注意力分解原始注意力。然而，由于上述方法严重依赖于特征映射到区域的下采样，在有效节省总计算成本的同时，观察到了明显的性能下降。

如上图（d）所示，双ViT由两个特殊路径组成，分别称为“语义路径”和“像素路径”。通过构造的“像素路径”进行局部像素级特征提取是强烈依赖于“语义路径”之外的压缩全局先验。由于梯度同时通过语义路径和像素路径，因此双ViT训练过程可以有效地补偿全局特征压缩的信息损失，同时减少局部特征提取的困难。前者和后者都可以并行显著降低计算成本，因为注意力大小较小，并且两条路径之间存在强制依赖关系。

在本文中，我们提出了一种新颖的 Transformer 架构，它优雅地利用全局语义进行自注意力学习，即双视觉 Transformer (Dual-ViT)。

2.DualAttention引入到yolov8

2.1新建加入ultralytics/nn/attention/dualvit.py

核心代码：

class Attention(nn.Module):
    def __init__(self, dim, num_heads):
        super().__init__()
        assert dim % num_heads == 0, f"dim {dim} should be divided by num_heads {num_heads}."

        self.dim = dim
        self.num_heads = num_heads
        head_dim = dim // num_heads
        self.scale = head_dim ** -0.5

        self.q = nn.Linear(dim, dim)
        self.kv = nn.Linear(dim, dim * 2)
        self.proj = nn.Linear(dim, dim)
        self.apply(self._init_weights)

    def _init_weights(self, m):
        if isinstance(m, nn.Linear):
            trunc_normal_(m.weight, std=.02)
            if isinstance(m, nn.Linear) and m.bias is not None:
                nn.init.constant_(m.bias, 0)
        elif isinstance(m, nn.LayerNorm):
            if m.bias is not None:
                nn.init.constant_(m.bias, 0)
            if m.weight is not None:
                nn.init.constant_(m.weight, 1.0)
        elif isinstance(m, nn.Conv2d):
            fan_out = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
            fan_out //= m.groups
            m.weight.data.normal_(0, math.sqrt(2.0 / fan_out))
            if m.bias is not None:
                m.bias.data.zero_()

    def forward(self, x):
       # x =x.permute(3, 0, 1, 2)
        B, H, W, C = x.shape

        N = H * W
        q = self.q(x).reshape(B, N, self.num_heads, C // self.num_heads).permute(0, 2, 1, 3)
        kv = self.kv(x).reshape(B, -1, 2, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
        k, v = kv[0], kv[1]
        attn = (q @ k.transpose(-2, -1)) * self.scale
        attn = attn.softmax(dim=-1)
        x = (attn @ v).transpose(1, 2).reshape(B, H, W , C)
        x = self.proj(x)
        return x