前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >顶刊解读 IJCV | CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测

顶刊解读 IJCV | CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测

作者头像
小白学视觉
发布于 2024-10-21 02:43:21
发布于 2024-10-21 02:43:21
1750
举报

CAE-GReaT: Convolutional-Auxiliary Efficient Graph Reasoning Transformer for Dense Imag

CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测 Dong Zhang,Yi Lin, Jinhui Tang,Kwang-Ting Cheng


摘要

卷积神经网络(CNNs)和视觉变换器(ViT)是当前计算机视觉领域语义图像识别任务的两个主要框架。普遍的共识是,CNNs和ViT都有其潜在的优势和弱点,例如,CNNs擅长提取局部特征但难以聚合长距离特征依赖性,而ViT擅长聚合长距离特征依赖性但对局部特征的表示较差。在本文中,我们提出了一个辅助的集成网络架构,名为卷积辅助高效图推理变换器(CAE-GReaT),它将CNNs和ViT的优势结合到一个统一的框架中。CAE-GReaT站在先进图推理变换器的基础上,并采用内部辅助卷积分支来丰富局部特征表示。此外,为了降低图推理中的计算成本,我们还提出了一种高效的信息扩散策略。与现有的ViT模型相比,CAE-GReaT不仅具有目标交互模式的优势(通过图推理分支),而且可以通过辅助卷积分支捕获细粒度的异构特征表示。我们在三个具有挑战性的密集图像预测任务上进行了广泛的实验,即语义分割、实例分割和全景分割。结果表明,CAE-GReaT能够在保持轻微计算成本的同时,在最先进的基线上实现一致的性能提升。

关键词

视觉变换器,卷积神经网络,辅助学习,密集图像预测

1 引言

密集图像预测(DIP),例如语义分割、实例分割和全景分割,是多媒体和计算机视觉社区中一个基础但具有挑战性的研究任务,其目标是为给定图像中的每个目标像素分配一个唯一的类别标签。在过去的几年中,这些任务已经被深入研究,并被应用于广泛的实际应用中,例如自动驾驶、生物医学图像分析安全监控系统。

深度学习时代,由于卷积神经网络(CNNs)在图像处理方面的巨大进步,成功的密集图像预测方法主要基于精心设计的CNNs作为骨干网络。然而,由于基于卷积的残差块的局部感受野有限(通过一组堆叠的局部卷积),CNNs只能捕获给定图像的短距离特征依赖性(也称为局部上下文),这对于某些复杂案例和多样化的场景来说是不够的。例如,特征依赖性的不足可能导致预测的对象掩模不完整和零碎。为了解决这个问题,提出了许多改革性的方法。这些方法主要基于CNNs,目标是通过扩大有效感受野或使用一些特定的全局上下文建模方案,来捕获长距离特征依赖性。

尽管基于CNNs的方法及其扩展取得了初步成功,但卷积操作中固有的局部性问题仍然存在。最近,受到变换器框架在自然语言处理领域的成熟应用的启发,视觉变换器(ViT)框架已在多媒体和计算机视觉社区中得到广泛研究,并在图像和视频上取得了许多令人瞩目的成果。对于图像识别的标准ViT框架,如图1b所示,ViT编码器层主要由图像块划分操作、块/位置嵌入操作、层归一化、多头注意力层、多层感知层和一些特定任务操作组成(例如,特征图的向量化、多尺度特征组合操作和块合并。作为核心组件之一,多头注意力用于图像块交互,并以无偏的全连接方式实现,可以捕获长距离特征依赖性(也称为全局上下文信息)。因此,卷积操作中固有的局部性问题可以完全在ViT框架中解决。

然而,现有的多头注意力机制中的补丁交互过程可能存在以下两个问题:问题1)类内补丁的冗余交互,问题2)类间补丁的无导向交互。对于问题1),这意味着对于一些属于同一类别并且在没有包含任何对象边界信息的同时,它们之间的交互将不会有信息量并且是不必要的。移除这部分补丁交互不仅可以增加模型的交互效率,而且还有潜力提高模型的泛化能力和鲁棒性。这也是为什么基于空间和基于注意力的dropout和标记重组方法在ViT模型中有效的原因。对于问题2),这意味着现有的补丁交互在多头注意力机制的帮助下不区分不同的对象类别,并且以大致无偏的方式执行。例如,在一张同时出现“人”、“马”和“天空”的图像中。现有的补丁交互方法将这三个对象之间的交互视为一致的,而我们期望“人”和“马”之间的交互比“人”和“天空”之间的交互更为重要。因为常识表明,“人”和“马”的共现比“人”和“天空”的共现更为重要。因此,现有的补丁交互方式与常识不符。为了解决上述两个问题,如图1c所示,我们在之前的作品中提出了一个图推理变换器(GReaT),它使图像块能够按照全局关系推理模式进行交互。所有图像块在完全连接的交互后被投影到图空间,然后被投影回几何空间。与传统的ViT框架相比,GReaT具有更高的交互效率和有目的的交互模式。

尽管GReaT在图像块交互方面取得了成功,但在一些复杂的视觉场景中,GReaT在图推理模式下获得的简单特征表示可能不够充分。此外,ViT框架还存在着一些固有问题,例如缺乏平移不变性和局部特征的弱项。为了解决这些问题,在本文中,我们提出了一个辅助的集成网络架构,名为卷积辅助高效图推理变换器(CAE-GReaT),它将CNNs和ViT各自的优势结合到一个统一的框架中,用于DIP任务。如图1d所示,CAE-GReaT编码器层主要由两个分支组成:高效的图推理分支,用于通过基于图的图像块交互捕获长距离特征依赖性,以及辅助卷积分支,用于通过丰富局部特征表示来缓解ViT的固有问题。CAE-GReaT的统一特征表示是通过这两个互补分支的特征表示通过特征聚合过程获得的。此外,为了降低图推理中的计算成本,我们提出了一种高效的信息扩散策略。与现有的ViT模型和CNNs模型相比,CAE-GReaT不仅具有目标交互模式的优势(通过图推理分支),而且可以学习细粒度的异构特征表示(通过辅助卷积分支)。为了证明CAE-GReaT的有效性和效率,我们在几个代表性和具有挑战性的DIP任务的几个数据集上进行了广泛的实验,即语义分割、实例分割和全景分割。实验结果表明,CAE-GReaT能够在保持轻微计算成本的同时,在最先进的基线上实现一致的性能提升。本文的主要贡献总结如下:(1) 提出了一个统一的CAE-GReaT框架,用于DIP任务,通过捕获局部特征表示来解决ViT的固有问题;(2) 我们在几个密集图像预测任务上与最先进的ViT基线相比,以轻微的计算成本取得了一致的性能提升。本文是我们之前工作的扩展。特别是,我们进行了以下改进:

  • 我们提出了一个辅助卷积分支,以补偿平移不变性缺乏和局部特征的弱点。
  • 我们提出了一种高效的信息扩散策略,以减少图推理过程中的计算成本。-我们将实验从语义分割扩展到一般密集图像预测任务,并取得了有竞争力的结果。

2 相关工作

2.1 密集图像预测(DIP)

基于FCN的思想,通过应用渐进式主干网络,现有的DIP方法主要可以分为以下三种类型:(1)基于CNNs的方法,(2)基于ViT的方法,以及混合方法(即混合CNNs和ViT)。在第一种类型中,这些方法主要使用CNNs作为主干,并为上采样或上下文聚合添加了一些特定操作。特别是,为了缓解多尺度目标识别结果的不准确性并提高计算效率,大多数模型采用了基于特征金字塔的方法用于实例分割和全景分割,例如FPN、FPT和PFP。但总的来说,这类方法的特征是基于CNNs的局部表示。在第二种类型中,输入图像首先被划分为图像块,然后转换为序列。在此基础上,通过一系列重复操作(例如,层归一化、块交互和残差连接)完成变换器编码。最后,在模型输出之前,在编码的图像序列上部署上采样和块合并操作。这类方法的优势在于能够天生获得长距离依赖性。然而,由于缺乏局部特征表示,这类方法在保持平移不变性方面存在缺陷。在第三种类型中,方法主要基于同时利用CNNs和变换器的优势作为起点,例如TransUNet、ConFormer、nnFormer、CMT、CVT、ACmix和Next-ViT。尽管第三种类型的方法具有CNNs和ViT的优势,但ViT(见第1节)中固有的两个问题仍使混合方法存在固有缺陷。在这项工作中,我们遵循基于变换器的框架进行DIP任务。我们的贡献是使ViT框架能够捕获局部特征表示,同时解决现有ViT模型的固有问题。

2.2 视觉变换器(ViT)

自从ViT成功应用于语义图像分类以来,基于变换器的视觉识别模型已经扩展到大量的计算机视觉任务中,例如目标检测、实例分割、语义分割和目标跟踪。对于计算机视觉变换器模型,提高多头注意力模块的计算效率是一个关键要求。当面对DIP任务时,这一要求将变得更加紧迫,因为DIP任务所需的计算成本本质上是巨大的。为此,一种直观的方法是缩短图像序列长度,如Wang et al. 和Wang et al. 中所做的。然而,这种方法可能导致一些关键信息线索丢失,这对于当前的DIP尤为重要。为了在减少计算成本的同时保留尽可能多的有用信息,也提出了一些针对视觉变换器的高效注意力方法,例如动态标记、移位窗口和焦点注意力。尽管上述方法可以缓解低效率问题,但视觉变换器中类间补丁无导向交互的问题仍然存在。在本文中,我们提出使用全局关系推理方式进行补丁交互。基于此,我们进一步使用辅助卷积分支来丰富局部特征表示。

2.3 图推理(GR)在图像识别中的应用

GR是捕获给定图像像素级长距离特征依赖性的最有效方式之一。现有的GR方法可以分为以下两类:没有外部知识库的方法和有外部知识库的方法。在本文中,我们的方法也属于第一类。在这一类中,成功的方法(例如条件随机场和随机游走操作)已经在DIP中应用于CNNs特征表示或预测的分割掩模之上,并取得了令人满意的识别性能,这些通常被视为初始全监督模型中的后处理步骤。最近,使用结构化密集连接图的图卷积操作(例如非局部操作、GloRe单元和SGR)被提出,并成功应用于几个计算机视觉任务中,例如语义分割、实例分割和目标检测。这些方法的一个共同特点是它们可以以端到端的方式进行训练,并且具有现有模型中即插即用的优势。然而,由于这些方法在其图计算过程中是完全连接的,它们将带来计算成本的大幅增加。在本文中,我们的方法受到Chen et al. 、Jain et al.、Liang et al. 、Li和Gupta 的启发,我们的贡献在于使用高效的GR机制来解决视觉变换器框架中图像块交互的两个潜在问题。此外,我们还将局部卷积特征引入GR,以增强详细的特征表示。

2.4 多尺度表征学习(MSRL)

MSRL已被广泛用于捕获细粒度的多尺度特征表示,并解决图像中对象尺度不一致的问题。一般来说,现有的MSRL模型用于密集图像预测可以分为以下两种类型:(1)用于主干的方法(例如,Inception网络、Res2Net、SKNets、ResNeXt、ResNeSt和视觉变换器框架中的多头注意力),以及(2)用于头部网络的方法(例如,PSP、PPM、ASPP、FPT、ASNB和APNB)。在几个识别任务上的广泛实验结果已经验证了这些MSRL方法的有效性。除了这些明确的方法外,还有一些使用隐式多尺度学习策略的思想的操作。例如,代表性的混合Softmax,它使用不同的卷积将特征图投影到不同的表示空间,并在加权求和到原生空间之前,对每个子空间中的特征表示进行归一化。尽管这些方法没有显式使用多尺度表示,它们的本质是多尺度学习模式。在本文中,我们将特征图投影到不同的空间,并使用图推理操作和基于卷积的操作,在统一的特征表示框架中捕获细粒度的多尺度特征。我们的贡献是使从不同尺度学习分支获得的特征表示相互支持,以互补ViT和CNNs各自的缺点。

3 方法论

3.1 CAE-GReaT概述

当前的ViT框架可能存在内部类补丁的冗余交互和不同类别间补丁的无导向交互问。特别是,在密集图像预测任务中,这些问题更为严重,因为这个领域的常用方法通常采用较小的补丁大小来保留对象的边界信息和细节,导致大量平凡补丁的出现。在这项工作中,我们的目标是通过使图像补丁在图空间中交互来解决这两个问题。此外,为了弥补ViT框架中缺乏平移不变性和局部特征的弱点,我们使用基于卷积的分支来编码局部特征,使模型更好地应用于DIP。对于CAE-GReaT,输入是图像 ,输出是预测的语义掩模 ,其中 表示所使用的数据集的类别大小(包括一个背景)。CAE-GReaT主要由变换器编码器网络和变换器解码器网络组成。对于编码器网络,有四个阶段,来自Stage-1到Stage-4的特征具有输入空间分辨率的1/4、1/8、1/16和1/32。在每个编码器阶段中,如Dosovitskiy等人、Liu等人、Touvron等人、Wang等人所述,有多个重复的变换器编码层。在本工作中,变换器编码层指的是所提出的CAE-GReaT层(见3.3节)。如图1d所示,CAE-GReaT层由两个分支组成:高效的图推理分支,用于通过基于图的图像补丁交互捕获长距离特征依赖,以及辅助卷积分支,用于通过丰富局部特征表示来缓解ViT的固有问题。CAE-GReaT的统一特征表示是通过特征聚合过程将这两个互补分支的特征表示融合而成。此外,为了减少图推理中的计算成本,提出了一种高效的信息扩散策略。对于解码器网络和特定于任务的头部网络,我们遵循先前方法中的相同设置,通过使用渐进式上采样策略或多级特征聚合策略。

3.2 CAE-GReaT层

CAE-GReaT层的实现示意图如图2所示。输入是一组图像特征 ,输出 是另一组增强的特征,其比例与输入相同。CAE-GReaT层主要由三个组成部分:(1)特征分离,(2)卷积辅助高效图推理块(CAE-GReaB),以及(3)特征聚合。

3.2.1 特征分离(FS)

FS的目标是沿通道维度将输入图像特征 分离到三个不同的子空间中,每个子空间包含一组通道大小为256的特征图。如图2a所示,这些特征中,一组用于高效的图推理分支,另外两组用于辅助卷积分支。为了实现这一目标,对于每个子空间,我们使用3×3卷积、1×1卷积和批量归一化层。每个子空间的特征分离过程可以表述为:

其中 表示用于高效图推理分支的分离特征。 和 分别是3×3卷积层和1×1卷积层。 表示批量归一化层(Ioffe & Szegedy, 2015)。除了 ,我们还可以通过相同的过程获得用于辅助卷积分支的分离特征 和 。值得注意的是,FS中用于不同分支的卷积层不共享参数。

3.2.2 CAE-GReaB

如图2b所示,CAE-GReaB旨在将分离的图像特征 XGReaT、XF_Aux 和 XC_Aux 编码成两组特征图,其中图推理分支用于捕获长距离特征依赖,卷积分支用于捕获局部详细信息。

高效图推理分支(E-GReaB)。 E-GReaB是CAE-GReaT层中的核心元素。我们首先使用补丁划分操作将 XGReaT划分为一组图像补丁,并在这些图像补丁上执行补丁展平和线性嵌入操作,如3.1节所述。然后,我们将线性嵌入的图像补丁特征 XP_GReaT(包括可学习的相对位置编码信息和层归一化)作为E-GReaB的输入,并输出一组与输入比例相同的图像补丁特征 OP_GReaT,但包含丰富的长距离特征依赖。如图2b的下半部分所示,E-GReaB包含以下三个步骤:(1)补丁投影;(2)高效信息扩散;(3)节点映射。

补丁投影。补丁投影的目标是将图像补丁特征从几何空间投影到图空间,图中的每个节点表示一组图像补丁的隐式视觉中心。值得注意的是,这里的每个节点并不代表任何特定的“实例”或“类别”(即连续的视觉特征),而是一个离散的区域表示。按照(Chen et al., 2019; Liang et al., 2018),我们首先使用一个可学习的补丁投影权重来实现这个目的,可以表述为:

  1. 高效信息扩散。在获得M个节点后,我们可以建立一个图表示,其中每条边反映了两个节点之间的关系权重。基于这个图,信息扩散过程通过单层图卷积网络在所有节点之间实现,可以表达为: 其中 RR^M×M 是一个单位矩阵,用来在模型优化阶段减少阻力。AR^M×M 表示用于扩散信息的邻接矩阵,包含任意两个节点之间的关系权重。在我们的工作中,A 是随机初始化的,并与整个模型一起端到端优化。按照(Chen et al., 2019; Liang et al., 2018; Kipf & Welling, 2016; Li et al., 2018),这一步中的 (RA) 起到拉普拉斯平滑的作用。Wu ∈ R^C×C 表示一个可训练的状态更新权重。在这项工作中,为了减少计算成本,我们提出了一种高效的信息扩散策略。我们将状态更新权重的矩阵乘法分解为两个长而窄的乘法操作,即我们将 Wu 分解为 Wu_l1 ∈ R^C'×1 + Wu_l2 ∈ R^1×C'Wu_r1 ∈ R^1×C' + Wu_r2 ∈ R^C×1。从经验上看,分解的乘法操作与 Wu 具有相同的效果,但计算成本和参数数量更少(Peng et al., 2017; Ho et al., 2019)。例如,分解的操作有 4C' 个参数,但使用 Wu 有 C' × C' 个参数。因此,基于分解矩阵乘法的信息扩散是一个高效的策略。通过步骤2,不同节点之间的全局关系信息可以通过这个单层图卷积网络完全交互。值得称赞的是,由于图中的节点数量远小于图像补丁的数量,信息扩散步骤的复杂度较低。实际上,我们也可以设计当前网络为多层结构(即多层图卷积网络)。然而,这样的设计无疑会带来显著的参数增长。第4.3节中给出了计算开销和效率之间的详细权衡分析。
  2. 节点映射。信息扩散后,我们将特征表示从图空间映射回几何空间。考虑到节点映射过程是补丁投影的反向操作,并且为了尽可能减少模型参数,按照,我们使用 WP(即 (WP)^T)进行节点映射。在与输入的残差连接后,节点映射的输出可以表述为:

卷积辅助分支(CAB)。 CAB用于通过两个各自的卷积分支对 XF_Aux 和 XC_Aux 进行编码,并输出一组融合的图像特征 OAux。我们将这两个卷积分支分别命名为粗卷积分支(通过 XC_Aux 生成粗粒度特征)和细卷积分支(通过 XF_Aux 生成细粒度特征)。对于 XC_Aux,我们连续使用三组卷积层,包括1×1卷积、3×3卷积、1×1卷积和批量归一化层。这个计算过程可以表述为:

对于 XF_Aux,我们使用1×1卷积层和批量归一化层。细粒度特征过程表示为:

基于 OC_Aux 和 OF_Aux,我们可以通过特征加法操作获得CAB的最终输出:

3.2.3 特征聚合

特征聚合用于整合EGReaB和CAB的输出。具体来说,在获得 OP_GReaT 和 OAux 后,我们可以通过特征连接得到CAE-GReaT的输出,表述为:

其中 Cat(·) 表示沿通道维度的特征图连接操作。Conv1×1 用于尺寸大小的缩减。CAE-GReaT层是一个通用的图推理层,用于特征交互,可以部署在任何视觉变换器模型上。由于每个图节点是对一组图像补丁的密集视觉表示,CAE-GReaT层缓解了内部类补丁的冗余交互问题。此外,由于基于图的交互中节点之间的隐式关系信息是学习的,CAE-GReaT层可以缓解不同类别间补丁的无导向交互问题。而且,由于卷积分支的存在,平移不变性和局部特征的弱点问题也得到了解决。


4 实验

4.1 数据集和评估指标

4.1.1 数据集

在本文中,实验在三个具有挑战性的密集图像预测数据集上进行,即Cityscapes和ADE20K用于语义分割(SS),以及COCO用于实例分割(IS)和全景分割(PS)。对于训练集的数据增强,我们首先使用0.5-2.0范围内的随机缩放。然后,将图像随机裁剪为固定大小1024×1024用于Cityscapes,512 × 512用于ADE20K,以及COCO的短边800像素且长边不超过1300像素。此外,在训练阶段还使用了随机水平翻转和亮度抖动。

4.1.2 评估指标

按照SS的标准平均交并比(mIoU)作为主要的评估指标。对于IS和PS,平均精度(AP)和全景质量(PQ)被用作主要的准确性特定指标。此外,为了验证模型效率,参数(Params)、浮点运算(FLOPs)、每秒帧数(FPS)和模型复杂度也考虑在内。

4.2 实现细节

4.2.1 SS基线

我们选择了三个代表性的视觉变换器模型作为SS的基线,即SEgmentation TRansformer(SETR)、SegFormer和Swin Transformer。为了评估我们方法的价值,我们选择了每个基线的更强版本。这些基线的简要介绍如下。

  • SETR (Zheng et al., 2021): 一个强大的编码器,有24层(称为T-Large),作为主干网络,其中预训练权重由Touvron等人提供。至于变换器解码器,我们选择了多级特征聚合(即SETR-MLA)版本。遵循,辅助分类损失、解码器中的同步批量归一化和多尺度测试策略也被采用。
  • **SegFormer **: 选择最大的SegFormerB5,其中分层编码器在ImageNet-1K上预训练,作为基线。轻量级全MLP解码器被设置为变换器解码器,并随机初始化。此外,整个模型中使用了重叠补丁合并、高效自注意力和混合FFN。
  • Swin Transformer (Liu et al., 2021): 强大的swinB变体(即,隐藏层的通道数设置为128,层数设置为{2, 2, 18, 2})作为基线,它在ImageNet22K上预训练。窗口大小设置为7,每个MLP的扩展层设置为4。按照默认设置,变换器解码器基于分层特征金字塔。

4.2.2 IS基线

我们选择了ViT-Adapter,这是最新的IS模型之一,作为我们的基线模型,其中实例分割头部是CascadeMask R-CNN,变换器主干是。交互次数设置为4,默认稀疏注意力设置为可变形注意力,采样点数设置为4。注意力头数设置为16,FFN的隐藏大小为256。

4.2.3 PS基线

先进的全景分割器SegFormer被用作PS的基线模型,它由CNN主干、变换器编码器和掩模解码器组成。CNN主干的通道大小通过Channel Mapper设置为256。位置解码器的注意力层数设置为6,掩模解码器的普通交叉注意力层数设置为6。变换器编码器的窗口大小设置为7,物体查询数设置为300。

4.2.4 训练细节和超参数

本文中的所有模型,包括基线,都是在OpenMMLab工具上使用PyTorch深度学习平台在8个NVIDIA Tesla V100 GPU上实现的。ADE20K的批量大小设置为16,Cityscapes为8,COCO为16。此外,如果没有特别说明,其他实验设置与其论文一致。遵循,辅助分类损失和SS的分割损失的权重分别设置为0.2和0.8。在推理中,采用了多尺度缩放,缩放因子为(0.5, 0.75, 1.0, 1.25, 1.5, 1.75)和随机水平翻转。值得注意的是,为了公平地进行结果比较,我们的模型没有使用OHEM和类别平衡损失。

4.3 消融研究

我们的消融研究在Cityscapes的SS验证集上进行。除非另有说明,图节点数M设置为16,采用单层图卷积。

4.3.1 在不同基线上的有效性

我们首先通过在不同基线上实现CAEGReaB来分析其有效性。表1显示了mIoU和Params上的分割性能。我们可以观察到,CAE-GReaB可以以轻微的计算成本提升所有基线的性能。在这三个基线上,mIoU平均提高了1.13%。具体来说,在CAE-GReaB的帮助下,GReaT在SETR-MLA、SegFormer-B5和Swin Transformer上分别提高了1.3%、1.0%和1.1%的mIoU。与此同时,Params分别增加了8.2 M(↑ 2.6%)、4.7 M(↑ 5.5%)和5.2 M(↑ 3.9%)。这些结果证明了CAE-GReaB在不同基线模型和实验设置中的有效性,也反映了基于图的补丁交互在视觉变换器中的优越性。

4.3.2 M的影响

然后,我们探索了图节点数M的影响。选择SETR-MLA作为基线,这是这些基线中最难优化的,因为它有大量的参数。结果在表2的上半部分给出。随着M的增加,我们可以观察到mIoU在单层图层上呈现先增加后减少的趋势。与此同时,Params呈现出逐渐增加的趋势。特别是,当M = 16时,CAE-GReaT实现了最佳性能80.3% mIoU(有318.8 M Params)。当M = 64时,性能意外地低于基线模型(↓ 1.2%,有330.8 M Params)。原因可能是图变换器模型在过多的图节点下难以学习有用的相关性。在这一观察下,M在以下实验中设置为16。

4.3.3 单层还是多层CAE-GReaB?

在表2的下半部分,我们展示了不同图层数的结果。我们可以看到,随着图层数的增加,mIoU也随之增加。然而,当图层数大于1时,性能增益与参数增加的比值并不具有成本效益。为了平衡模型准确性和计算成本,图层数在以下实验中设置为1(即使用单层CAE-GReaB设置)。

4.3.4 L的影响

在第3.3节的步骤1中,N个图像补丁被投影到M个图节点。在这个消融研究中,我们探索了图像补丁大小L × L的影响。实验结果在表3中显示。我们可以看到,当L较小时(即L = 4, 8和16),GReaT可以实现比基线更好的性能。当L = 32时,GReaT的性能甚至比基线模型还要差。原因可能是当补丁尺寸过大时,模型无法完全捕获对象边界,导致一些关键线索丢失,这对于密集预测很重要。在FLOPs方面,可以观察到,当我们设置L ≥ 8时,CAE-GReaT的FLOPs比基线模型少。当我们设置L = 8时,CAE-GReaT有2258.4 G FLOPs,比基线模型少5.3 G。基于这些观察,为了平衡分割准确性和模型复杂性,我们在以下实验中设置L = 8。

4.3.5 CAB的有效性

CAE-GReaT层主要由两个分支组成:高效的图推理分支和辅助卷积分支。在这个消融研究中,我们探索了卷积辅助分支的有效性。结果在表4中显示。我们可以观察到,实现高效图推理分支和卷积辅助分支可以分别将mIoU提高1.1%和0.4%。这两个分支的联合实现可以带来1.3%的性能提升。上述结果验证了变换器框架具有强大的表示能力。此外,长距离和短距离特征依赖的融合更有助于提高这种能力。

4.4 效率分析

与GReaT的比较。本文的一个贡献是提出了一种高效的信息扩散策略,以减少图推理过程中的计算成本。因此,在本节中,我们比较了E-GReaT和GReaT的效率。实验结果表明,E-GReaT有318.5M Params和2258.7G FLOPs,而GReaT有326.4M Params和2261.8G FLOPs。此外,在模型性能方面,E-GReaT可以达到与GReaT相同的80.1% mIoU,并且都高于基线模型的79.0%。这些结果表明,我们提出的E-GReaT比GReaT具有更高的执行效率。

与其他方法的比较。为了展示CAE-GReaT的效率,我们在表5中分析了不同模型架构的空间复杂度。对于具有HW序列长度的全局输入令牌,与现有的变换器架构相比,我们可以观察到CAE-GReaT只有O(M^2^) 的空间复杂度。例如,经典的变换器模型具有O(H^2W^2)的空间复杂度,因为输入令牌的每个项目都参与其中。尽管一些方法是通过可学习的采样策略缩短令牌的长度,但在训练中可能会丢失一些关键线索。即使与渐进线性变换器架构相比,我们的CAE-GReaT在效率上仍然具有明显的优势(M^2 ≪ HW)。更重要的是,当输入令牌的长度较大时(即高分辨率输入图像),这种优势更加明显。

4.5 与最新SS方法的比较

在表6中,我们在Cityscapes的验证集上与最新方法进行了结果比较。我们可以观察到,我们提出的CAE-GReaT实现了83.81%的竞争力mIoU,超过了其基线SegFormer和MiT-B4的GReaT分别1.62% mIoU和0.79% mIoU。当使用MiT-B5时,GReaT可以实现84.67%的mIoU,这表明我们的模型在更强的主干上带来了一致的改进。我们还在图3中展示了与最新方法在Cityscapes和ADE20K验证集上的定性可视化结果比较。用于结果比较的最新Seg-L-Mask/16、MiT-B5的SegFormer和MiT-B5的GReaT。我们可以观察到,CAE-GReaT在一些小对象(例如“瓶子”,“人”,“水管”和“画作”)、大对象(例如“浴缸”,“汽车”,“马桶”和“桌子”)和对象边界(例如“椅子”,“人行道”和“微波炉”)上同时实现了更好的分割掩模预测。上述可视化验证了将局部特征添加到长距离特征依赖性可以增强模型性能。

4.6 与最新IS方法的比较

在表8中给出了与最新实例分割方法的比较结果。实验部署在1×schedule设置和3×schedule设置上。我们可以观察到,我们的CAE-GReaT在这两种设置上都实现了基于最新性能的44.0% AP和47.0% AP,具有竞争力的计算成本(即,109.4M Params,↑ 7.7%)。这些结果验证了CAE-GReaT在有效性和效率之间具有良好的平衡。此外,我们在图4中展示了与最新方法在COCO验证集上的可视化结果比较。我们可以观察到,CAE-GReaT在小对象(即“飞盘”,“人的腿”和“人的手臂”)和大对象(即“马的耳朵”)上实现了整体更好的预测。此外,掩模完整性也得到了改善(即“马”和“人”)。这些可视化证明了CAE-GReaT不仅可以捕获丰富的短距离特征依赖性,还可以捕获长距离特征依赖性。

4.7 与最新PS方法的比较

在表9中给出了COCO上PS的结果,其中CAE-GReaT实现了与PVTv2-B5的55.9% PQ和与Swin-L的56.4% PQ的最佳性能。我们的CAE-GReaT显著超过了包括MaskFormer、KNet、GReaT和PanoSegFormer在内的最新方法。在图5中的可视化结果验证了CAE-GReaT可以在一些小对象(即“斑马”,“树”)和大对象(即“湖”,“草原”)上实现整体更好的PS预测。在最后两列中,我们还展示了一些失败案例。原因是这些类别之间的多样性太小,以至于模型无法找到对象边界。这些失败案例可以通过添加对象级分类的损失函数来解决。

5 结论和未来工作

在这项工作中,我们提出了一种辅助集成网络架构,名为卷积辅助高效图推理变换器(CAE-GReaT),它将CNNs和ViT各自的优势结合到统一框架中。CAE-GReaT是我们之前工作GReaT的扩展,我们进行了一些实质性的改进。CAE-GReaT采用了内部辅助卷积分支来丰富GReaT的局部特征表示,以便解决缺乏平移不变性和局部特征弱点的问题。此外,我们还提出了一种高效的信息扩散策略,以减少图推理中的计算成本。在语义分割、实例分割和全景分割上进行了广泛的实验。结果证明了CAE-GReaT在有效性和效率方面的优势。

作为通用计算机视觉模型的CAE-GReaT,我们计划将其应用于其他计算机视觉任务,例如对象定位、人物再识别和图像生成。此外,为CAE-GReaT设计更高效的图像补丁交互方法也是未来有希望的研究课题之一。

声明

本文内容为论文学习收获分享,受限于知识能力,本文队员问的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-10-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小白学视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
YoloV8改进策略:BackBone改进|Next-ViT,下一代视觉Transformer,用于现实工业场景中的高效部署
由于复杂的注意力机制和模型设计,大多数现有的视觉Transformer(ViTs)在实际的工业部署场景中,如TensorRT和CoreML,无法像卷积神经网络(CNNs)那样高效运行。这提出了一个明显的挑战:能否设计出一个视觉神经网络,既能像CNNs一样快速推理,又能像ViTs一样强大?在这项工作中,我们提出了一种下一代视觉Transformer,用于在实际工业场景中高效部署,即Next-ViT,它从延迟/准确性权衡的角度主导了CNNs和ViTs。Next Convolution Block(NCB)和Next Transformer Block(NTB)分别开发,以部署友好的机制捕获局部和全局信息。然后,设计了Next Hybrid Strategy(NHS),以高效的混合范式堆叠NCB和NTB,从而在各种下游任务中提升性能。广泛的实验表明,Next-ViT在各种视觉任务的延迟/准确性权衡方面显著优于现有的CNNs、ViTs和CNN-Transformer混合架构。在TensorRT上,Next-ViT在COCO检测上超过了ResNet 5.5 mAP(从40.4到45.9),在ADE20K分割上超过了(从38.8%到46.5%),延迟相似。同时,它与CSWin的性能相当,推理速度提高了3.6倍。在CoreML上,Next-ViT在COCO检测上超过了EfficientFormer 4.6 mAP(从42.6到47.2),在ADE2OK分割上超过了3.5% mIoU(从45.1%到48.6%),延迟相似。我们的代码和模型已公开:https://github.com/bytedance/Next-ViT。
AI浩
2024/10/22
3410
YoloV8改进策略:BackBone改进|Next-ViT,下一代视觉Transformer,用于现实工业场景中的高效部署
ViT-Adapter: 密集预测任务的ViT适配器
最近,Transformers 在计算机视觉领域取得了巨大成功。得益于动态建模能力和注意力机制的长程依赖性,各种 vision transformers 很快在物体检测和语义分割等许多计算机视觉任务中崭露头角,超越了 CNN 模型,达到了最先进的性能。这些模型主要分为两个系列,即普通 ViT 及其分层变体。一般来说,后者能产生更好的结果,并且被认为通过使用局部空间操作,在其架构中引入了视觉特有的归纳偏差。
用户1324186
2024/03/26
6220
ViT-Adapter: 密集预测任务的ViT适配器
视觉变换器与混合模型的图像识别
​ 计算机视觉,作为人工智能领域的关键分支,其发展历程可划分为两个主要阶段:早期基于规则的方法和现代基于深度学习的技术。在早期阶段,研究者依赖于手工设计的特征提取方法,例如SIFT和SURF算法,这些方法虽然在特定应用上取得了成功,但它们的普适性和可扩展性受限,通常需要专业知识来定制特征提取器。随着深度学习技术的兴起,计算机视觉领域迎来了革命性的变化。卷积神经网络(CNNs)的出现,使得计算机能够自动从图像中学习特征表示,极大地推动了图像分类、目标检测和图像分割等任务的发展。CNNs之所以有效,是因为它们模仿了人类视觉系统的工作方式,通过卷积层捕捉局部特征,并通过池化层减少特征的空间维度,同时增强对图像位移的不变性。
Srlua
2024/12/20
1760
视觉变换器与混合模型的图像识别
论文笔记32 -- Conformer: Local Features Coupling Global Representations for Visual Recognition
在卷积神经网络(CNN)中,卷积操作擅长提取局部特征,但难以捕获全局表示。在Visual Transformer中,级联自注意力模块可以捕获长距离特征依赖关系,但不幸的是会破坏局部特征细节。在本文中,我们提出了一种称为 Conformer 的混合网络结构,以利用卷积运算和自注意力机制来增强表征学习。Conformer 源于特征耦合单元(FCU),它以交互方式融合不同分辨率下的局部特征和全局表示。Conformer 采用并行结构,以便最大程度地保留局部特征和全局表示。实验表明,在参数复杂度相当的情况下,Conformer 在 ImageNet 上的性能比Visual Transformer (DeiT-B) 高 2.3%。在 MSCOCO 上,它在目标检测和实例分割方面的性能分别比 ResNet-101 高 3.7% 和 3.6%,显示出作为通用骨干网络的巨大潜力。
对角巷法师
2021/12/08
1.6K0
论文笔记32 -- Conformer: Local Features Coupling Global Representations for Visual Recognition
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!
为了使ViT适应各种密集的预测任务,最近的ViTs,如PVT、CvT、LeViT以及MobileViT都采用了分层结构,类似的操作也用于卷积神经网络(CNNs),如AlexNet和ResNet。这些ViTs将全局自注意力及其变体应用到高分辨率Token上,由于Token数量的二次复杂度,这带来了巨大的计算成本。
集智书童公众号
2022/05/26
1.6K0
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!
【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba
在医学图像分析的最新进展中,卷积神经网络(CNN)和视觉变换器(ViT)树立了重要的基准。前者通过其卷积操作擅长捕捉局部特征,后者通过自注意力机制实现了显著的全局上下文理解。然而,这两种架构在有效建模医学图像中的长距离依赖方面都存在局限性,这对于精确分割至关重要。受Mamba架构的启发,该架构以其在处理长序列和全局上下文信息方面的专业性而闻名,并且作为状态空间模型(SSM),我们提出了Mamba-UNet,这是一种新颖的架构,它将UNet在医学图像分割中的能力与Mamba的能力相结合。Mamba-UNet采用了基于纯视觉Mamba(VMamba)的编码器-解码器结构,并注入了跳跃连接以保留网络不同尺度上的空间信息。这种设计促进了全面的特征学习过程,在医学图像中捕捉复杂的细节和更广泛的语义上下文。我们引入了一种新颖的集成机制,在VMamba块内确保编码器和解码器路径之间的无缝连接和信息流动,从而增强了分割性能。我们在公开可用的ACDC MRI心脏分割数据集和Synapse CT腹部分割数据集上进行了实验。结果表明,在相同的超参数设置下,Mamba-UNet在医学图像分割方面优于几种类型的UNet。
小白学视觉
2024/10/29
9180
【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba
基于全局与局部感知网络的超高清图像去雾方法
带有雾霾的图像具有低对比度和模糊的特性,这会严重影响下游图像处理模型的表现,例如行人检测、图像分割等。对此,大量的单幅图像去雾方法被开发出来,它们的目的在于把输入的带有雾霾的图像转换成一张清晰图像。然而,伴随着移动设备和边缘设备对分辨率为4k图像处理方法的需求的不断增长,现存的图像去雾的方法很少能高效地处理一张带雾的超高清图像[1]。
一点人工一点智能
2024/04/25
3030
基于全局与局部感知网络的超高清图像去雾方法
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???
Transformer最初是用来解决自然语言处理任务的。它最近在计算机视觉领域显示出巨大的潜力。先锋工作Vision Transformer(ViT)将多个Transformer块堆叠在一起,以处理非重叠的图像patch(即视觉Token)序列,从而产生了一种无卷积的图像分类模型。与CNN模型相比,基于Transformer的模型具有更大的感受野,擅长于建模长期依赖关系,在大量训练数据和模型参数的情况下取得了优异的性能。然而,视觉识别中的过度关注是一把双刃剑,存在多重弊端。具体来说,每个query patch中参与的key数过多会导致较高的计算成本和较慢的收敛速度,并增加过拟合的风险。
集智书童公众号
2022/02/10
1.5K0
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???
PPMamba 一种基于金字塔聚类局部辅助SSM的图像语义分割模型 !
遥感(RS)技术的快速发展极大地改变了作者对地球时间和空间尺度的认识。遥感技术在农业、林业、地质学、气象学、军事和环境保护等领域得到广泛应用,实现了系统性的分析、评估和预测。在这些应用中,语义分割在许多下游地质学任务中起着重要的作用,如土地覆盖分类和城市扩张监测等。
未来先知
2024/09/29
3390
PPMamba 一种基于金字塔聚类局部辅助SSM的图像语义分割模型 !
轻量图像超分辨率残差网络:Attention与ResNet融合
本文提出了一种名为RNET(Residual Network with Efficient Transformer)的网络,该网络结合了三种有效的设计元素:
是Dream呀
2025/03/15
2110
轻量图像超分辨率残差网络:Attention与ResNet融合
论文解读 | EATFormer:受进化算法启发改进视觉Transformer
受生物进化启发,本文通过类比经过验证的实用进化算法(EA)来解释视觉Transformer(ViT)的合理性,并推导出两者一致的数学表述。然后,受有效的EA变体启发,我们提出了一种新颖的金字塔EATFormer骨干网络,它只包含所提出的基于EA的Transformer(EAT)块。该块由三个残差部分组成,即多尺度区域聚合、全局和局部交互以及前馈网络模块,分别对多尺度、交互和个体信息进行建模。此外,我们设计了一个与Transformer骨干网络对接的任务相关头部,以更灵活地完成最终信息融合,并改进了调制可变形MSA,以动态建模不规则位置。大量的定量和定性实验在图像分类、下游任务和解释性实验中证明了我们方法的有效性和优越性。例如,我们的Mobile(1.8 M)、Tiny(6.1 M)、Small(24.3 M)和Base(49.0 M)模型仅使用ImageNet-1K上的朴素训练配方进行训练,就达到了69.4、78.4、83.1和83.9的Top-1准确率;EATFormer-Tiny/Small/Base武装的Mask-R-CNN在COCO检测上分别获得了45.4/47.4/49.0的box AP和41.4/42.9/44.2的mask AP,超过了当代MPViT-T、Swin-T和Swin-S的0.6/1.4/0.5 box AP和0.4/1.3/0.9 mask AP,同时FLOPs更少;我们的EATFormerSmall/Base在ADE20K上通过UperNet实现了47.3/49.3 mIoU,超过了Swin-T/S的2.8/1.7。
小白学视觉
2024/10/25
2120
论文解读 | EATFormer:受进化算法启发改进视觉Transformer
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想
密集预测视觉任务,如语义分割、目标检测,是现代智能计算平台(如AR/VR设备)的关键技术。卷积神经网络的发展非常迅速,在密集预测任务方面有了显著的改进。除了传统的CNN外,近期的ViTs也已经吸引了研究者广泛的兴趣,并在视觉任务中显示出竞争性的性能。
集智书童公众号
2021/11/17
1.8K0
CNN 与 Transformer 的强强联合:AResNet-ViT在图像分析中的优势 !
乳腺结节,可能表现为囊性或实性肿块,在乳腺组织中经常遇到,是女性中的一种常见病症。这些结节被分为良性或恶性。良性乳腺结节不会对健康造成重大风险,而恶性乳腺结节则表明存在癌性增殖,从而对女性的整体身心健康构成重大威胁。
AIGC 先锋科技
2024/08/09
6990
CNN 与 Transformer 的强强联合:AResNet-ViT在图像分析中的优势 !
LoG-V Mamba ,高效图像分割的新视角 !
医学图像分割(MIS)的目标是2D或3D医学图像中组织和病变的边界和定位。这一过程对于发展自动化疾病识别、分期和治疗,以及开发医学机器人至关重要。近年来,最先进的MIS方法基于深度学习(DL),得益于它从大量数据集中学习复杂模式的能力。这证明在医学应用中产生高质量性能至关重要 。
未来先知
2024/09/11
5360
LoG-V Mamba ,高效图像分割的新视角 !
深度可分离ViT | SepViT | 深度可分离卷积造就深度可分离Transformer
近年来,许多计算机视觉(CV)研究人员致力于设计面向CV的Vision Transformers,以超过卷积神经网络(CNNs)的性能。Vision Transformers具有较高的远距离依赖建模能力,在图像分类、语义分割、目标检测等多种视觉任务中取得了显著的效果。然而,强大的性能通常是以计算复杂度为代价的。
集智书童公众号
2022/04/07
1.3K0
深度可分离ViT | SepViT | 深度可分离卷积造就深度可分离Transformer
AMMUNet | 多尺度注意力图融合在图像语义分割中的应用 !
远程感知图像的语义分割至关重要,因为它为城市规划、环境监测和资源管理等一系列应用奠定了基础。深度学习的出现,尤其是卷积神经网络(CNNs),带来了显著的范式转变,革新了计算机视觉领域,进而也影响了远程感知图像分析。
AIGC 先锋科技
2024/07/08
8020
AMMUNet  |  多尺度注意力图融合在图像语义分割中的应用 !
超越传统 UNet ,GCtx-UNet 结合全局与局部特征,实现高效图像分割 !
自动化医学图像分割在提供有价值信息以预防、诊断、进展监测和预测各种疾病以及定量病理学评估中至关重要。目前,包括编码器、解码器和跳跃连接在内的U形深度神经网络在医学图像分割中应用最为广泛。尽管U形网络在许多医学图像分割任务中取得了最先进的表现,但仍然存在局限性。一个主要的局限性是编码器在有效提取和整合长距离和局部特征方面的能力。
AIGC 先锋科技
2024/07/08
1K0
超越传统 UNet ,GCtx-UNet  结合全局与局部特征,实现高效图像分割 !
西交大 & 上海 AI Lab 提出 HRVMAMBA 用于高分辨率视觉状态空间模型,助力图像分类、人体姿态估计和语义分割等!
卷积神经网络(CNNs)和视觉 Transformer (ViTs)在图像分类、人体姿态估计和语义分割等任务上取得了显著进展。尽管CNN在局部特征提取方面表现出色,具有线性计算复杂度,但它们缺乏全局上下文建模能力。尽管ViTs通过自注意力机制捕获全局感受野,但面临平方复杂度,尤其是对于大输入缺乏归纳偏差。Mamba(Gu和Dao,2023年)引入了S6结构,提高了状态空间模型(SSMs)在长程特征提取方面的效率。通过使用输入相关的状态空间参数,Mamba实现了线性复杂度的更好的上下文建模。这导致了许多后续的视觉Mamba模型,如ViM,VMamba,LocalVMamba,GroupMamba 。
未来先知
2024/11/04
3090
西交大 & 上海 AI Lab 提出 HRVMAMBA 用于高分辨率视觉状态空间模型,助力图像分类、人体姿态估计和语义分割等!
CNN+Transformer=Better,国科大&华为&鹏城实验室提出Conformer,84.1% Top-1准确率
在卷积神经网络(CNN)中,卷积运算擅长提取局部特征,但在捕获全局特征表示方面还是有一定的局限性。在Vision Transformer中,级联自注意力模块可以捕获长距离的特征依赖,但会忽略局部特征的细节。
CV君
2021/09/03
1.4K0
YoloV8改进策略:注意力改进|VOLO,视觉识别中的视觉展望器|即插即用|附代码+改进方法
本文参考的是《VOLO:视觉识别中的视觉展望器》一文,该论文主要讨论了视觉识别领域中卷积神经网络(CNNs)与视觉转换器(ViTs)的性能对比,并提出了一个新的模型架构——Vision Outlooker(VOLO)。VOLO通过引入一种新颖的前景注意力机制(Outlook Attention),在ImageNet分类任务上实现了卓越的性能,且能够很好地迁移到下游任务,如语义分割。
AI浩
2024/11/13
1.2K0
YoloV8改进策略:注意力改进|VOLO,视觉识别中的视觉展望器|即插即用|附代码+改进方法
推荐阅读
YoloV8改进策略:BackBone改进|Next-ViT,下一代视觉Transformer,用于现实工业场景中的高效部署
3410
ViT-Adapter: 密集预测任务的ViT适配器
6220
视觉变换器与混合模型的图像识别
1760
论文笔记32 -- Conformer: Local Features Coupling Global Representations for Visual Recognition
1.6K0
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!
1.6K0
【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba
9180
基于全局与局部感知网络的超高清图像去雾方法
3030
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???
1.5K0
PPMamba 一种基于金字塔聚类局部辅助SSM的图像语义分割模型 !
3390
轻量图像超分辨率残差网络:Attention与ResNet融合
2110
论文解读 | EATFormer:受进化算法启发改进视觉Transformer
2120
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想
1.8K0
CNN 与 Transformer 的强强联合:AResNet-ViT在图像分析中的优势 !
6990
LoG-V Mamba ,高效图像分割的新视角 !
5360
深度可分离ViT | SepViT | 深度可分离卷积造就深度可分离Transformer
1.3K0
AMMUNet | 多尺度注意力图融合在图像语义分割中的应用 !
8020
超越传统 UNet ,GCtx-UNet 结合全局与局部特征,实现高效图像分割 !
1K0
西交大 & 上海 AI Lab 提出 HRVMAMBA 用于高分辨率视觉状态空间模型,助力图像分类、人体姿态估计和语义分割等!
3090
CNN+Transformer=Better,国科大&华为&鹏城实验室提出Conformer,84.1% Top-1准确率
1.4K0
YoloV8改进策略:注意力改进|VOLO,视觉识别中的视觉展望器|即插即用|附代码+改进方法
1.2K0
相关推荐
YoloV8改进策略:BackBone改进|Next-ViT,下一代视觉Transformer,用于现实工业场景中的高效部署
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档