文章/答案/技术大牛

发布

社区首页 >专栏 >顶刊解读 IJCV | CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测

顶刊解读 IJCV | CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测

小白学视觉

发布于 2024-10-21 02:43:21

1750

文章被收录于专栏：深度学习和计算机视觉深度学习和计算机视觉

CAE-GReaT: Convolutional-Auxiliary Efficient Graph Reasoning Transformer for Dense Imag

CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测 Dong Zhang,Yi Lin, Jinhui Tang,Kwang-Ting Cheng

摘要

卷积神经网络（CNNs）和视觉变换器（ViT）是当前计算机视觉领域语义图像识别任务的两个主要框架。普遍的共识是，CNNs和ViT都有其潜在的优势和弱点，例如，CNNs擅长提取局部特征但难以聚合长距离特征依赖性，而ViT擅长聚合长距离特征依赖性但对局部特征的表示较差。在本文中，我们提出了一个辅助的集成网络架构，名为卷积辅助高效图推理变换器（CAE-GReaT），它将CNNs和ViT的优势结合到一个统一的框架中。CAE-GReaT站在先进图推理变换器的基础上，并采用内部辅助卷积分支来丰富局部特征表示。此外，为了降低图推理中的计算成本，我们还提出了一种高效的信息扩散策略。与现有的ViT模型相比，CAE-GReaT不仅具有目标交互模式的优势（通过图推理分支），而且可以通过辅助卷积分支捕获细粒度的异构特征表示。我们在三个具有挑战性的密集图像预测任务上进行了广泛的实验，即语义分割、实例分割和全景分割。结果表明，CAE-GReaT能够在保持轻微计算成本的同时，在最先进的基线上实现一致的性能提升。

关键词

视觉变换器，卷积神经网络，辅助学习，密集图像预测

1 引言

密集图像预测（DIP），例如语义分割、实例分割和全景分割，是多媒体和计算机视觉社区中一个基础但具有挑战性的研究任务，其目标是为给定图像中的每个目标像素分配一个唯一的类别标签。在过去的几年中，这些任务已经被深入研究，并被应用于广泛的实际应用中，例如自动驾驶、生物医学图像分析和安全监控系统。

在深度学习时代，由于卷积神经网络（CNNs）在图像处理方面的巨大进步，成功的密集图像预测方法主要基于精心设计的CNNs作为骨干网络。然而，由于基于卷积的残差块的局部感受野有限（通过一组堆叠的局部卷积），CNNs只能捕获给定图像的短距离特征依赖性（也称为局部上下文），这对于某些复杂案例和多样化的场景来说是不够的。例如，特征依赖性的不足可能导致预测的对象掩模不完整和零碎。为了解决这个问题，提出了许多改革性的方法。这些方法主要基于CNNs，目标是通过扩大有效感受野或使用一些特定的全局上下文建模方案，来捕获长距离特征依赖性。

尽管基于CNNs的方法及其扩展取得了初步成功，但卷积操作中固有的局部性问题仍然存在。最近，受到变换器框架在自然语言处理领域的成熟应用的启发，视觉变换器（ViT）框架已在多媒体和计算机视觉社区中得到广泛研究，并在图像和视频上取得了许多令人瞩目的成果。对于图像识别的标准ViT框架，如图1b所示，ViT编码器层主要由图像块划分操作、块/位置嵌入操作、层归一化、多头注意力层、多层感知层和一些特定任务操作组成（例如，特征图的向量化、多尺度特征组合操作和块合并。作为核心组件之一，多头注意力用于图像块交互，并以无偏的全连接方式实现，可以捕获长距离特征依赖性（也称为全局上下文信息）。因此，卷积操作中固有的局部性问题可以完全在ViT框架中解决。

然而，现有的多头注意力机制中的补丁交互过程可能存在以下两个问题：问题1）类内补丁的冗余交互，问题2）类间补丁的无导向交互。对于问题1），这意味着对于一些属于同一类别并且在没有包含任何对象边界信息的同时，它们之间的交互将不会有信息量并且是不必要的。移除这部分补丁交互不仅可以增加模型的交互效率，而且还有潜力提高模型的泛化能力和鲁棒性。这也是为什么基于空间和基于注意力的dropout和标记重组方法在ViT模型中有效的原因。对于问题2），这意味着现有的补丁交互在多头注意力机制的帮助下不区分不同的对象类别，并且以大致无偏的方式执行。例如，在一张同时出现“人”、“马”和“天空”的图像中。现有的补丁交互方法将这三个对象之间的交互视为一致的，而我们期望“人”和“马”之间的交互比“人”和“天空”之间的交互更为重要。因为常识表明，“人”和“马”的共现比“人”和“天空”的共现更为重要。因此，现有的补丁交互方式与常识不符。为了解决上述两个问题，如图1c所示，我们在之前的作品中提出了一个图推理变换器（GReaT），它使图像块能够按照全局关系推理模式进行交互。所有图像块在完全连接的交互后被投影到图空间，然后被投影回几何空间。与传统的ViT框架相比，GReaT具有更高的交互效率和有目的的交互模式。

尽管GReaT在图像块交互方面取得了成功，但在一些复杂的视觉场景中，GReaT在图推理模式下获得的简单特征表示可能不够充分。此外，ViT框架还存在着一些固有问题，例如缺乏平移不变性和局部特征的弱项。为了解决这些问题，在本文中，我们提出了一个辅助的集成网络架构，名为卷积辅助高效图推理变换器（CAE-GReaT），它将CNNs和ViT各自的优势结合到一个统一的框架中，用于DIP任务。如图1d所示，CAE-GReaT编码器层主要由两个分支组成：高效的图推理分支，用于通过基于图的图像块交互捕获长距离特征依赖性，以及辅助卷积分支，用于通过丰富局部特征表示来缓解ViT的固有问题。CAE-GReaT的统一特征表示是通过这两个互补分支的特征表示通过特征聚合过程获得的。此外，为了降低图推理中的计算成本，我们提出了一种高效的信息扩散策略。与现有的ViT模型和CNNs模型相比，CAE-GReaT不仅具有目标交互模式的优势（通过图推理分支），而且可以学习细粒度的异构特征表示（通过辅助卷积分支）。为了证明CAE-GReaT的有效性和效率，我们在几个代表性和具有挑战性的DIP任务的几个数据集上进行了广泛的实验，即语义分割、实例分割和全景分割。实验结果表明，CAE-GReaT能够在保持轻微计算成本的同时，在最先进的基线上实现一致的性能提升。本文的主要贡献总结如下：(1) 提出了一个统一的CAE-GReaT框架，用于DIP任务，通过捕获局部特征表示来解决ViT的固有问题；(2) 我们在几个密集图像预测任务上与最先进的ViT基线相比，以轻微的计算成本取得了一致的性能提升。本文是我们之前工作的扩展。特别是，我们进行了以下改进：

我们提出了一个辅助卷积分支，以补偿平移不变性缺乏和局部特征的弱点。
我们提出了一种高效的信息扩散策略，以减少图推理过程中的计算成本。-我们将实验从语义分割扩展到一般密集图像预测任务，并取得了有竞争力的结果。

2 相关工作

2.1 密集图像预测（DIP）

基于FCN的思想，通过应用渐进式主干网络，现有的DIP方法主要可以分为以下三种类型：（1）基于CNNs的方法，（2）基于ViT的方法，以及混合方法（即混合CNNs和ViT）。在第一种类型中，这些方法主要使用CNNs作为主干，并为上采样或上下文聚合添加了一些特定操作。特别是，为了缓解多尺度目标识别结果的不准确性并提高计算效率，大多数模型采用了基于特征金字塔的方法用于实例分割和全景分割，例如FPN、FPT和PFP。但总的来说，这类方法的特征是基于CNNs的局部表示。在第二种类型中，输入图像首先被划分为图像块，然后转换为序列。在此基础上，通过一系列重复操作（例如，层归一化、块交互和残差连接）完成变换器编码。最后，在模型输出之前，在编码的图像序列上部署上采样和块合并操作。这类方法的优势在于能够天生获得长距离依赖性。然而，由于缺乏局部特征表示，这类方法在保持平移不变性方面存在缺陷。在第三种类型中，方法主要基于同时利用CNNs和变换器的优势作为起点，例如TransUNet、ConFormer、nnFormer、CMT、CVT、ACmix和Next-ViT。尽管第三种类型的方法具有CNNs和ViT的优势，但ViT（见第1节）中固有的两个问题仍使混合方法存在固有缺陷。在这项工作中，我们遵循基于变换器的框架进行DIP任务。我们的贡献是使ViT框架能够捕获局部特征表示，同时解决现有ViT模型的固有问题。

2.2 视觉变换器（ViT）

自从ViT成功应用于语义图像分类以来，基于变换器的视觉识别模型已经扩展到大量的计算机视觉任务中，例如目标检测、实例分割、语义分割和目标跟踪。对于计算机视觉变换器模型，提高多头注意力模块的计算效率是一个关键要求。当面对DIP任务时，这一要求将变得更加紧迫，因为DIP任务所需的计算成本本质上是巨大的。为此，一种直观的方法是缩短图像序列长度，如Wang et al. 和Wang et al. 中所做的。然而，这种方法可能导致一些关键信息线索丢失，这对于当前的DIP尤为重要。为了在减少计算成本的同时保留尽可能多的有用信息，也提出了一些针对视觉变换器的高效注意力方法，例如动态标记、移位窗口和焦点注意力。尽管上述方法可以缓解低效率问题，但视觉变换器中类间补丁无导向交互的问题仍然存在。在本文中，我们提出使用全局关系推理方式进行补丁交互。基于此，我们进一步使用辅助卷积分支来丰富局部特征表示。

2.3 图推理（GR）在图像识别中的应用

GR是捕获给定图像像素级长距离特征依赖性的最有效方式之一。现有的GR方法可以分为以下两类：没有外部知识库的方法和有外部知识库的方法。在本文中，我们的方法也属于第一类。在这一类中，成功的方法（例如条件随机场和随机游走操作）已经在DIP中应用于CNNs特征表示或预测的分割掩模之上，并取得了令人满意的识别性能，这些通常被视为初始全监督模型中的后处理步骤。最近，使用结构化密集连接图的图卷积操作（例如非局部操作、GloRe单元和SGR）被提出，并成功应用于几个计算机视觉任务中，例如语义分割、实例分割和目标检测。这些方法的一个共同特点是它们可以以端到端的方式进行训练，并且具有现有模型中即插即用的优势。然而，由于这些方法在其图计算过程中是完全连接的，它们将带来计算成本的大幅增加。在本文中，我们的方法受到Chen et al. 、Jain et al.、Liang et al. 、Li和Gupta 的启发，我们的贡献在于使用高效的GR机制来解决视觉变换器框架中图像块交互的两个潜在问题。此外，我们还将局部卷积特征引入GR，以增强详细的特征表示。

2.4 多尺度表征学习（MSRL）

MSRL已被广泛用于捕获细粒度的多尺度特征表示，并解决图像中对象尺度不一致的问题。一般来说，现有的MSRL模型用于密集图像预测可以分为以下两种类型：（1）用于主干的方法（例如，Inception网络、Res2Net、SKNets、ResNeXt、ResNeSt和视觉变换器框架中的多头注意力），以及（2）用于头部网络的方法（例如，PSP、PPM、ASPP、FPT、ASNB和APNB）。在几个识别任务上的广泛实验结果已经验证了这些MSRL方法的有效性。除了这些明确的方法外，还有一些使用隐式多尺度学习策略的思想的操作。例如，代表性的混合Softmax，它使用不同的卷积将特征图投影到不同的表示空间，并在加权求和到原生空间之前，对每个子空间中的特征表示进行归一化。尽管这些方法没有显式使用多尺度表示，它们的本质是多尺度学习模式。在本文中，我们将特征图投影到不同的空间，并使用图推理操作和基于卷积的操作，在统一的特征表示框架中捕获细粒度的多尺度特征。我们的贡献是使从不同尺度学习分支获得的特征表示相互支持，以互补ViT和CNNs各自的缺点。

3 方法论

3.1 CAE-GReaT概述

当前的ViT框架可能存在内部类补丁的冗余交互和不同类别间补丁的无导向交互问。特别是，在密集图像预测任务中，这些问题更为严重，因为这个领域的常用方法通常采用较小的补丁大小来保留对象的边界信息和细节，导致大量平凡补丁的出现。在这项工作中，我们的目标是通过使图像补丁在图空间中交互来解决这两个问题。此外，为了弥补ViT框架中缺乏平移不变性和局部特征的弱点，我们使用基于卷积的分支来编码局部特征，使模型更好地应用于DIP。对于CAE-GReaT，输入是图像，输出是预测的语义掩模，其中表示所使用的数据集的类别大小（包括一个背景）。CAE-GReaT主要由变换器编码器网络和变换器解码器网络组成。对于编码器网络，有四个阶段，来自Stage-1到Stage-4的特征具有输入空间分辨率的1/4、1/8、1/16和1/32。在每个编码器阶段中，如Dosovitskiy等人、Liu等人、Touvron等人、Wang等人所述，有多个重复的变换器编码层。在本工作中，变换器编码层指的是所提出的CAE-GReaT层（见3.3节）。如图1d所示，CAE-GReaT层由两个分支组成：高效的图推理分支，用于通过基于图的图像补丁交互捕获长距离特征依赖，以及辅助卷积分支，用于通过丰富局部特征表示来缓解ViT的固有问题。CAE-GReaT的统一特征表示是通过特征聚合过程将这两个互补分支的特征表示融合而成。此外，为了减少图推理中的计算成本，提出了一种高效的信息扩散策略。对于解码器网络和特定于任务的头部网络，我们遵循先前方法中的相同设置，通过使用渐进式上采样策略或多级特征聚合策略。

3.2 CAE-GReaT层

CAE-GReaT层的实现示意图如图2所示。输入是一组图像特征，输出是另一组增强的特征，其比例与输入相同。CAE-GReaT层主要由三个组成部分：(1)特征分离，(2)卷积辅助高效图推理块（CAE-GReaB），以及(3)特征聚合。

3.2.1 特征分离（FS）

FS的目标是沿通道维度将输入图像特征分离到三个不同的子空间中，每个子空间包含一组通道大小为256的特征图。如图2a所示，这些特征中，一组用于高效的图推理分支，另外两组用于辅助卷积分支。为了实现这一目标，对于每个子空间，我们使用3×3卷积、1×1卷积和批量归一化层。每个子空间的特征分离过程可以表述为：

其中表示用于高效图推理分支的分离特征。和分别是3×3卷积层和1×1卷积层。表示批量归一化层（Ioffe & Szegedy, 2015）。除了，我们还可以通过相同的过程获得用于辅助卷积分支的分离特征和。值得注意的是，FS中用于不同分支的卷积层不共享参数。

3.2.2 CAE-GReaB

如图2b所示，CAE-GReaB旨在将分离的图像特征 XGReaT、XF_Aux 和 XC_Aux 编码成两组特征图，其中图推理分支用于捕获长距离特征依赖，卷积分支用于捕获局部详细信息。

高效图推理分支（E-GReaB）。 E-GReaB是CAE-GReaT层中的核心元素。我们首先使用补丁划分操作将 XGReaT划分为一组图像补丁，并在这些图像补丁上执行补丁展平和线性嵌入操作，如3.1节所述。然后，我们将线性嵌入的图像补丁特征 XP_GReaT（包括可学习的相对位置编码信息和层归一化）作为E-GReaB的输入，并输出一组与输入比例相同的图像补丁特征 OP_GReaT，但包含丰富的长距离特征依赖。如图2b的下半部分所示，E-GReaB包含以下三个步骤：(1)补丁投影；(2)高效信息扩散；(3)节点映射。

补丁投影。补丁投影的目标是将图像补丁特征从几何空间投影到图空间，图中的每个节点表示一组图像补丁的隐式视觉中心。值得注意的是，这里的每个节点并不代表任何特定的“实例”或“类别”（即连续的视觉特征），而是一个离散的区域表示。按照（Chen et al., 2019; Liang et al., 2018），我们首先使用一个可学习的补丁投影权重来实现这个目的，可以表述为：

高效信息扩散。在获得M个节点后，我们可以建立一个图表示，其中每条边反映了两个节点之间的关系权重。基于这个图，信息扩散过程通过单层图卷积网络在所有节点之间实现，可以表达为：其中 R ∈ R^M×M 是一个单位矩阵，用来在模型优化阶段减少阻力。A ∈ R^M×M 表示用于扩散信息的邻接矩阵，包含任意两个节点之间的关系权重。在我们的工作中，A 是随机初始化的，并与整个模型一起端到端优化。按照（Chen et al., 2019; Liang et al., 2018; Kipf & Welling, 2016; Li et al., 2018），这一步中的 (R − A) 起到拉普拉斯平滑的作用。Wu ∈ R^C×C 表示一个可训练的状态更新权重。在这项工作中，为了减少计算成本，我们提出了一种高效的信息扩散策略。我们将状态更新权重的矩阵乘法分解为两个长而窄的乘法操作，即我们将 Wu 分解为 Wu_l1 ∈ R^C'×1 + Wu_l2 ∈ R^1×C' 和 Wu_r1 ∈ R^1×C' + Wu_r2 ∈ R^C×1。从经验上看，分解的乘法操作与 Wu 具有相同的效果，但计算成本和参数数量更少（Peng et al., 2017; Ho et al., 2019）。例如，分解的操作有 4C' 个参数，但使用 Wu 有 C' × C' 个参数。因此，基于分解矩阵乘法的信息扩散是一个高效的策略。通过步骤2，不同节点之间的全局关系信息可以通过这个单层图卷积网络完全交互。值得称赞的是，由于图中的节点数量远小于图像补丁的数量，信息扩散步骤的复杂度较低。实际上，我们也可以设计当前网络为多层结构（即多层图卷积网络）。然而，这样的设计无疑会带来显著的参数增长。第4.3节中给出了计算开销和效率之间的详细权衡分析。
节点映射。信息扩散后，我们将特征表示从图空间映射回几何空间。考虑到节点映射过程是补丁投影的反向操作，并且为了尽可能减少模型参数，按照，我们使用 WP（即 (WP)^T）进行节点映射。在与输入的残差连接后，节点映射的输出可以表述为：

卷积辅助分支（CAB）。 CAB用于通过两个各自的卷积分支对 XF_Aux 和 XC_Aux 进行编码，并输出一组融合的图像特征 OAux。我们将这两个卷积分支分别命名为粗卷积分支（通过 XC_Aux 生成粗粒度特征）和细卷积分支（通过 XF_Aux 生成细粒度特征）。对于 XC_Aux，我们连续使用三组卷积层，包括1×1卷积、3×3卷积、1×1卷积和批量归一化层。这个计算过程可以表述为：

对于 XF_Aux，我们使用1×1卷积层和批量归一化层。细粒度特征过程表示为：

基于 OC_Aux 和 OF_Aux，我们可以通过特征加法操作获得CAB的最终输出：

3.2.3 特征聚合

特征聚合用于整合EGReaB和CAB的输出。具体来说，在获得 OP_GReaT 和 OAux 后，我们可以通过特征连接得到CAE-GReaT的输出，表述为：

其中 Cat(·) 表示沿通道维度的特征图连接操作。Conv1×1 用于尺寸大小的缩减。CAE-GReaT层是一个通用的图推理层，用于特征交互，可以部署在任何视觉变换器模型上。由于每个图节点是对一组图像补丁的密集视觉表示，CAE-GReaT层缓解了内部类补丁的冗余交互问题。此外，由于基于图的交互中节点之间的隐式关系信息是学习的，CAE-GReaT层可以缓解不同类别间补丁的无导向交互问题。而且，由于卷积分支的存在，平移不变性和局部特征的弱点问题也得到了解决。

4 实验

4.1 数据集和评估指标

4.1.1 数据集

在本文中，实验在三个具有挑战性的密集图像预测数据集上进行，即Cityscapes和ADE20K用于语义分割（SS），以及COCO用于实例分割（IS）和全景分割（PS）。对于训练集的数据增强，我们首先使用0.5-2.0范围内的随机缩放。然后，将图像随机裁剪为固定大小1024×1024用于Cityscapes，512 × 512用于ADE20K，以及COCO的短边800像素且长边不超过1300像素。此外，在训练阶段还使用了随机水平翻转和亮度抖动。

4.1.2 评估指标

按照SS的标准平均交并比（mIoU）作为主要的评估指标。对于IS和PS，平均精度（AP）和全景质量（PQ）被用作主要的准确性特定指标。此外，为了验证模型效率，参数（Params）、浮点运算（FLOPs）、每秒帧数（FPS）和模型复杂度也考虑在内。

4.2 实现细节

4.2.1 SS基线

我们选择了三个代表性的视觉变换器模型作为SS的基线，即SEgmentation TRansformer（SETR）、SegFormer和Swin Transformer。为了评估我们方法的价值，我们选择了每个基线的更强版本。这些基线的简要介绍如下。

SETR (Zheng et al., 2021): 一个强大的编码器，有24层（称为T-Large），作为主干网络，其中预训练权重由Touvron等人提供。至于变换器解码器，我们选择了多级特征聚合（即SETR-MLA）版本。遵循，辅助分类损失、解码器中的同步批量归一化和多尺度测试策略也被采用。
**SegFormer **: 选择最大的SegFormerB5，其中分层编码器在ImageNet-1K上预训练，作为基线。轻量级全MLP解码器被设置为变换器解码器，并随机初始化。此外，整个模型中使用了重叠补丁合并、高效自注意力和混合FFN。
Swin Transformer (Liu et al., 2021): 强大的swinB变体（即，隐藏层的通道数设置为128，层数设置为{2, 2, 18, 2}）作为基线，它在ImageNet22K上预训练。窗口大小设置为7，每个MLP的扩展层设置为4。按照默认设置，变换器解码器基于分层特征金字塔。

4.2.2 IS基线

我们选择了ViT-Adapter，这是最新的IS模型之一，作为我们的基线模型，其中实例分割头部是CascadeMask R-CNN，变换器主干是。交互次数设置为4，默认稀疏注意力设置为可变形注意力，采样点数设置为4。注意力头数设置为16，FFN的隐藏大小为256。

4.2.3 PS基线

先进的全景分割器SegFormer被用作PS的基线模型，它由CNN主干、变换器编码器和掩模解码器组成。CNN主干的通道大小通过Channel Mapper设置为256。位置解码器的注意力层数设置为6，掩模解码器的普通交叉注意力层数设置为6。变换器编码器的窗口大小设置为7，物体查询数设置为300。

4.2.4 训练细节和超参数

本文中的所有模型，包括基线，都是在OpenMMLab工具上使用PyTorch深度学习平台在8个NVIDIA Tesla V100 GPU上实现的。ADE20K的批量大小设置为16，Cityscapes为8，COCO为16。此外，如果没有特别说明，其他实验设置与其论文一致。遵循，辅助分类损失和SS的分割损失的权重分别设置为0.2和0.8。在推理中，采用了多尺度缩放，缩放因子为（0.5, 0.75, 1.0, 1.25, 1.5, 1.75）和随机水平翻转。值得注意的是，为了公平地进行结果比较，我们的模型没有使用OHEM和类别平衡损失。

4.3 消融研究

我们的消融研究在Cityscapes的SS验证集上进行。除非另有说明，图节点数M设置为16，采用单层图卷积。

4.3.1 在不同基线上的有效性

我们首先通过在不同基线上实现CAEGReaB来分析其有效性。表1显示了mIoU和Params上的分割性能。我们可以观察到，CAE-GReaB可以以轻微的计算成本提升所有基线的性能。在这三个基线上，mIoU平均提高了1.13%。具体来说，在CAE-GReaB的帮助下，GReaT在SETR-MLA、SegFormer-B5和Swin Transformer上分别提高了1.3%、1.0%和1.1%的mIoU。与此同时，Params分别增加了8.2 M(↑ 2.6%)、4.7 M(↑ 5.5%)和5.2 M(↑ 3.9%)。这些结果证明了CAE-GReaB在不同基线模型和实验设置中的有效性，也反映了基于图的补丁交互在视觉变换器中的优越性。

4.3.2 M的影响

然后，我们探索了图节点数M的影响。选择SETR-MLA作为基线，这是这些基线中最难优化的，因为它有大量的参数。结果在表2的上半部分给出。随着M的增加，我们可以观察到mIoU在单层图层上呈现先增加后减少的趋势。与此同时，Params呈现出逐渐增加的趋势。特别是，当M = 16时，CAE-GReaT实现了最佳性能80.3% mIoU（有318.8 M Params）。当M = 64时，性能意外地低于基线模型（↓ 1.2%，有330.8 M Params）。原因可能是图变换器模型在过多的图节点下难以学习有用的相关性。在这一观察下，M在以下实验中设置为16。

4.3.3 单层还是多层CAE-GReaB？

在表2的下半部分，我们展示了不同图层数的结果。我们可以看到，随着图层数的增加，mIoU也随之增加。然而，当图层数大于1时，性能增益与参数增加的比值并不具有成本效益。为了平衡模型准确性和计算成本，图层数在以下实验中设置为1（即使用单层CAE-GReaB设置）。

4.3.4 L的影响

在第3.3节的步骤1中，N个图像补丁被投影到M个图节点。在这个消融研究中，我们探索了图像补丁大小L × L的影响。实验结果在表3中显示。我们可以看到，当L较小时（即L = 4, 8和16），GReaT可以实现比基线更好的性能。当L = 32时，GReaT的性能甚至比基线模型还要差。原因可能是当补丁尺寸过大时，模型无法完全捕获对象边界，导致一些关键线索丢失，这对于密集预测很重要。在FLOPs方面，可以观察到，当我们设置L ≥ 8时，CAE-GReaT的FLOPs比基线模型少。当我们设置L = 8时，CAE-GReaT有2258.4 G FLOPs，比基线模型少5.3 G。基于这些观察，为了平衡分割准确性和模型复杂性，我们在以下实验中设置L = 8。

4.3.5 CAB的有效性

CAE-GReaT层主要由两个分支组成：高效的图推理分支和辅助卷积分支。在这个消融研究中，我们探索了卷积辅助分支的有效性。结果在表4中显示。我们可以观察到，实现高效图推理分支和卷积辅助分支可以分别将mIoU提高1.1%和0.4%。这两个分支的联合实现可以带来1.3%的性能提升。上述结果验证了变换器框架具有强大的表示能力。此外，长距离和短距离特征依赖的融合更有助于提高这种能力。

4.4 效率分析

与GReaT的比较。本文的一个贡献是提出了一种高效的信息扩散策略，以减少图推理过程中的计算成本。因此，在本节中，我们比较了E-GReaT和GReaT的效率。实验结果表明，E-GReaT有318.5M Params和2258.7G FLOPs，而GReaT有326.4M Params和2261.8G FLOPs。此外，在模型性能方面，E-GReaT可以达到与GReaT相同的80.1% mIoU，并且都高于基线模型的79.0%。这些结果表明，我们提出的E-GReaT比GReaT具有更高的执行效率。

与其他方法的比较。为了展示CAE-GReaT的效率，我们在表5中分析了不同模型架构的空间复杂度。对于具有HW序列长度的全局输入令牌，与现有的变换器架构相比，我们可以观察到CAE-GReaT只有O(M^2^) 的空间复杂度。例如，经典的变换器模型具有O(H^2W^2)的空间复杂度，因为输入令牌的每个项目都参与其中。尽管一些方法是通过可学习的采样策略缩短令牌的长度，但在训练中可能会丢失一些关键线索。即使与渐进线性变换器架构相比，我们的CAE-GReaT在效率上仍然具有明显的优势（M^2 ≪ HW）。更重要的是，当输入令牌的长度较大时（即高分辨率输入图像），这种优势更加明显。

4.5 与最新SS方法的比较

在表6中，我们在Cityscapes的验证集上与最新方法进行了结果比较。我们可以观察到，我们提出的CAE-GReaT实现了83.81%的竞争力mIoU，超过了其基线SegFormer和MiT-B4的GReaT分别1.62% mIoU和0.79% mIoU。当使用MiT-B5时，GReaT可以实现84.67%的mIoU，这表明我们的模型在更强的主干上带来了一致的改进。我们还在图3中展示了与最新方法在Cityscapes和ADE20K验证集上的定性可视化结果比较。用于结果比较的最新Seg-L-Mask/16、MiT-B5的SegFormer和MiT-B5的GReaT。我们可以观察到，CAE-GReaT在一些小对象（例如“瓶子”，“人”，“水管”和“画作”）、大对象（例如“浴缸”，“汽车”，“马桶”和“桌子”）和对象边界（例如“椅子”，“人行道”和“微波炉”）上同时实现了更好的分割掩模预测。上述可视化验证了将局部特征添加到长距离特征依赖性可以增强模型性能。

4.6 与最新IS方法的比较

在表8中给出了与最新实例分割方法的比较结果。实验部署在1×schedule设置和3×schedule设置上。我们可以观察到，我们的CAE-GReaT在这两种设置上都实现了基于最新性能的44.0% AP和47.0% AP，具有竞争力的计算成本（即，109.4M Params，↑ 7.7%）。这些结果验证了CAE-GReaT在有效性和效率之间具有良好的平衡。此外，我们在图4中展示了与最新方法在COCO验证集上的可视化结果比较。我们可以观察到，CAE-GReaT在小对象（即“飞盘”，“人的腿”和“人的手臂”）和大对象（即“马的耳朵”）上实现了整体更好的预测。此外，掩模完整性也得到了改善（即“马”和“人”）。这些可视化证明了CAE-GReaT不仅可以捕获丰富的短距离特征依赖性，还可以捕获长距离特征依赖性。

4.7 与最新PS方法的比较

在表9中给出了COCO上PS的结果，其中CAE-GReaT实现了与PVTv2-B5的55.9% PQ和与Swin-L的56.4% PQ的最佳性能。我们的CAE-GReaT显著超过了包括MaskFormer、KNet、GReaT和PanoSegFormer在内的最新方法。在图5中的可视化结果验证了CAE-GReaT可以在一些小对象（即“斑马”，“树”）和大对象（即“湖”，“草原”）上实现整体更好的PS预测。在最后两列中，我们还展示了一些失败案例。原因是这些类别之间的多样性太小，以至于模型无法找到对象边界。这些失败案例可以通过添加对象级分类的损失函数来解决。

5 结论和未来工作

在这项工作中，我们提出了一种辅助集成网络架构，名为卷积辅助高效图推理变换器（CAE-GReaT），它将CNNs和ViT各自的优势结合到统一框架中。CAE-GReaT是我们之前工作GReaT的扩展，我们进行了一些实质性的改进。CAE-GReaT采用了内部辅助卷积分支来丰富GReaT的局部特征表示，以便解决缺乏平移不变性和局部特征弱点的问题。此外，我们还提出了一种高效的信息扩散策略，以减少图推理中的计算成本。在语义分割、实例分割和全景分割上进行了广泛的实验。结果证明了CAE-GReaT在有效性和效率方面的优势。

作为通用计算机视觉模型的CAE-GReaT，我们计划将其应用于其他计算机视觉任务，例如对象定位、人物再识别和图像生成。此外，为CAE-GReaT设计更高效的图像补丁交互方法也是未来有希望的研究课题之一。