从STM到CTM：MTMamba++如何优化多任务场景理解！

未来先知

发布于 2024-09-11 11:36:53

2730

这是一个关于多任务密集场景理解的AI论文文本，该技术能够训练多个密集预测任务。在多任务密集预测中，捕捉长时间依赖关系和增强任务间的互动至关重要。在这篇论文中，作者提出了一种名为MTMamba++的新颖的多任务场景理解架构，该架构采用Mamba作为其解码器。它包含两种核心模块：自任务Mamba（STM）模块和跨任务Mamba（CTM）模块。 STM模块通过利用状态空间模型来处理长时间依赖关系，而CTM模块则明确地模型化任务间的互动，以促进跨任务的信息交换。作者设计了两种类型的CTM模块，即F-CTM和S-CTM，它们分别从特征和语义的角度增强跨任务交互。在NYUDv2，PASCAL-Context和Cityscapes数据集上的实验表明，与基于CNN和Transformer的方法相比，MTMamba++具有更好的性能。代码可在本https://github.com/EnVision-Research/MTMamba网站上找到。

1 Introduction

多任务密集场景理解在计算机视觉领域有着多种实际应用，如自动驾驶、医疗保健和机器人等。此问题的挑战之处在于，需要训练一个模型同时处理多个密集预测任务，如语义分割、单目深度估计、表面法向量估计和物体边界检测等。

广泛采用的多任务密集场景理解架构是基于编码器-解码器框架，该框架包括一个共同的编码器用于提取任务共享特征和多个解码器用于生成任务特定预测。该框架非常通用，许多变体已提出以提高其性能。一个有前途的方法是解码器聚焦方法[1]，该方法通过精心设计的融合模块增强任务特定解码器中的跨任务交互，从而实现比传统编码器-解码器框架更好的性能。

由于卷积操作主要捕获局部特征，可能难以建模长期依赖关系，最近的方法采用了基于注意力的Transformer解码器[13]，并使用多模态蒸馏模块[5，6]增强信息交换，实现跨任务。这些方法利用注意力机制[13]，捕捉全局上下文信息，从而优于基于卷积的方法。这些工作表明，增强跨任务相关性和建模长期空间关系对于多任务密集预测至关重要。

最近，Mamba 是一种从状态空间模型（SSMs）衍生出的新网络架构[14]，在Long-range dependencies建模方面表现出更好的能力，超越了Transformer在各种领域的性能，包括语言建模[14，17，18]，图推理、医学影像分析，以及图像生成[23，24]。然而，关于Mamba的现有工作局限于单任务学习场景。由于Mamba需要模拟跨任务交互，因此将其应用于解决多任务问题仍然尚未探索。

为了填补这些空白，本文提出了一种基于状态空间模型（SSMs）的多任务稀疏预测架构MTMamba++，该架构包含一个基于Mamba的解码器。作为总体框架如图1所示，MTMamba++是一个以解码器为中心的方法，解码器包括三个阶段。这三个阶段具有相似的结构，并包含三种类型：ECR, STM和CTM块。具体而言，ECR（扩展，连接，减少）块负责放大任务特征并将其与编码器的上下文特征融合。它使得每个解码阶段可以逐步增加特征图的的空间分辨率，这在精确像素级预测中起着重要作用。解码器的核心组件是两个基于Mamba的块，即STM和CTM块，如图2（b）和3所示。自任务Mamba（STM）块，灵感来源于[25]，通过SSM机制[14]有效地捕获了每个任务的全局上下文信息。交叉任务Mamba（CTM）块旨在通过知识在不同任务之间的交换来增强每个任务的特征。作者开发了两种变异CTM块，称为F-CTM和S-CTM。F-CTM通过任务特定的和输入依赖的门，在特征层面上促进了任务交互。而S-CTM通过使用一种新的交叉SSM，深入研究了任务之间的复杂关系，这允许基于SSM机制建模两个序列之间的关系。通过将STM和CTM块集成到解码器中，MTMamba++不仅增强了跨任务交互，而且还有效地处理了长程依赖性。作者在三个标准的多任务密集预测基准数据集上评估了MTMamba++，这些数据集分别是NYUDv2[26]，PASCAL-Context[27]和Cityscapes[28]。定量结果表明，MTMamba++在多任务密集预测方面显著优于基于CNN和Transformer的方法。此外，定性研究显示，与最先进的基于Transformer的

本工作的初步版本出现在一份会议论文[29]中。与先前的会议版本相比，作者提出了一种新颖的交叉SSM（CSSM）机制，该机制基于SSM机制捕获两个序列之间的关系。通过利用CSSM，作者设计了一种新颖的交叉任务Mamba（CTM）模块（即S-CTM），以更好地实现跨任务交互。作者还引入了一个更有效且轻量级的预测头。基于这些创新，MTMamba++在很大程度上超过了MTMamba[29]。此外，作者将实验扩展到研究MTMamba++在新多任务场景理解基准数据集（即Cityscapes[28]）上的有效性。作者也提供了一些更多结果和分析，以便更好地理解提出的MTMamba++模型。

本文其余部分组织如下。第2节作者回顾了一些相关工作。第3节，作者详细描述了作者提出的MTMamba++模型中的各种模块。第4节，作者在三个基准数据集（NYUDv2[26]、PASCAL-Context[27]和Cityscapes[28]）上定量地、定性地评估了所提出的MTMamba++模型。最后，在第5节作者得出结论。

2 Related Works

Multi-Task Learning

多任务学习（MTL）是一种学习范式，使用单一模型联合学习多个相关任务 [31]。当前 MTL 研究主要关注多目标优化和网络架构设计。在多任务视觉场景理解中，大多数现有工作专注于设计体系结构 [1]，尤其是开发解码器中的特定模块，以促进不同任务之间的知识交流。例如，基于 CNN，例如 Xu 等人 [5] 提出了 PAD-Net，该网络具有一个针对增强解码器中各种任务之间信息交流的有效多模态蒸馏模块。MTI-Net [6] 是一个用于多尺度和多任务 CNN 的复杂架构，可促进跨各种特征尺度的信息蒸馏。由于卷积操作只能捕获局部特征 [11]，近期的方法 [7, 8, 9, 10] 开发了基于 Transformer 的解码器，通过注意力机制 [13] 抓住全局上下文。例如，InvPT [7] 是一种基于 Transformer 的多任务架构，它使用有效的 UP-Transformer 块在不同特征尺度上进行多任务特征交互。MQTransformer [8] 使用解码器中的跨任务 Query 注意力模块以实现有效的任务关联和信息交流。

这些工作体现了长程依赖建模和对多任务密集场景理解中跨任务相关性的增强的重要性。与现有方法不同，作者提出了一种新颖的多任务架构，该架构是从 SSM 机制 [14] 中派生出来的 [17]，以捕捉全局信息更好，并促进跨任务交互。

State Space Models

状态空间模型(SSMs)是一种数学框架，用于描述动态系统，通过隐藏状态来捕捉输入-输出关系的动态。SSMs已在各种领域找到广泛的应用，如强化学习、计算机神经科学和线性动力学系统等。最近，随着序列长度保持线性复杂度的长程依赖建模成为可能，SSMs 成为了一种替代机制。与卷积操作相比，在捕捉局部依赖方面的优势更明显；而与注意力机制相比，在计算和内存效率上更高。

为了提高SSMs的表达性和效率，已经提出了多种不同的结构。例如，吴等人提出了一种结构化的状态空间模型(S4)，通过分解状态矩阵为低秩和正常矩阵来提高计算效率。许多后续工作旨在改进S4的有效性。例如，付等人提出了一种新的 SSM 层称为 H3，以减少 SSM 基础网络在语言建模方面的性能差距。梅赫等人引入了一种采用 gated 单元的门控状态空间层，以提高模型的表达能力。

最近，吴和道提出了一种名为Mamba的新型的基于SSM的架构，其中包含了一种新的SSM，称为S6。这种SSM是从S4衍生出的输入依赖的选择机制。Mamba 在各种基准测试中均优于Transformer，例如图像分类、图像分割和图预测等。与现有研究致力于单任务设置的Mamba的研究不同，在本文中，作者考虑了一个更具挑战性的多任务设置，并提出了一个新颖的跨任务Mamba模块来捕捉跨任务依赖。

3 Methodology

在这一部分，作者从状态空间模型的基础知识（第3.1节）开始，并在第3.2节中概述了所提出的MTMamba++。接下来，作者将详细探索MTMamba++解码器的每个组件，包括第3.3节的编码器，解码器中的三种块（即第3.4节的ECR块，第3.5节的STM块和第3.6节的CTM块），以及第3.7节的预测头。

Preliminaries

Overall Architecture

如图1所示，MTMamba++包括三个组成部分：一个通用的编码器，一个基于Mamba的解码器，以及针对特定任务的任务特定预测头。具体而言，编码器用于所有任务，在输入图像中提取多尺度通用的视觉表示，这在密集预测任务中发挥关键作用，因为特征图的分辨率直接影响到像素级预测的准确性[7]。每个解码器阶段都配备了ECR块，用于上采样特征并将其与编码器衍生出的高级特征相结合。接下来，STM块用于捕获每个任务的长程空间关系。此外，CTM块通过促进不同任务之间的知识交换以增强每个任务的特征。作者设计了两种类型的CTM块，即F-CTM和S-CTM，如第3.6节所述。最后，使用预测头生成每个任务的最后预测。作者引入了两种类型的头，即DenseHead和LiteHead，如第3.7节所述。

MTMamba++和作者的初步版本MTMamba[29]具有相似的架构。MTMamba++的默认配置使用S-CTM块和LiteHead，而MTMamba的默认配置使用F-CTM块和DenseHead。

Encoder

MTMamba++ 中的编码器在不同的任务上共享，旨在从输入的 RGB 图像中学习通用的多尺度视觉特征。以 Swin Transformer [30] 为例，将输入图像分割为不重叠的 patch。每个 patch 视为一个 token，其特征表示为原始 RGB 像素值的拼接。在 patch 分割后，一个线性层用于将原始 token 投影到 -维特征嵌入中。然后，这些投影 token 依次通过编码器的四个阶段。每个阶段包含多个 Swin Transformer 块和一个 patch 合并层。特

ECR Block

图像增强卷积块（ECR）负责将特征进行上采样和与编码器特征进行聚合。如图2（a）所示，它包含三个步骤。对于输入特征，ECR块首先将特征分辨率上采样2倍，并通过线性层和重排操作将通道数减半。然后，通过跳跃连接将特征与编码器的高层特征融合。这些特征的融合对于补偿编码器中的下采样导致的空间信息损失至关重要。最后，一个1x1卷积层用于减少通道数。因此，ECR块有助于高效恢复高分辨率细节，这对于需要精确空间信息的密集预测任务至关重要。

STM Block

自任务Mamba（STM）块负责学习每个任务的特定特征。如图2（b）所示，其核心模块是2D选择性扫描（SS2D）模块，该模块来源于[25]。SS2D模块旨在解决将1D SSMs（如第3.1节中所讨论）应用于处理2D图像数据的局限性。图4（b）显示，该模块在四个不同的方向上展开特征图，生成四个独特的特征序列，每个特征序列均由SSM处理。四个SSM的输出随后相加并 Reshape ，从而形成一个全面的2D特征图。

图2：（a）介绍了ECR（扩展， ConCat ，降维）模块，负责放大任务特征并将其与编码器的多尺度特征融合。更多信息参见第3.4节。（b）自任务Mamba（STM）块的概述，负责学习每个任务的判别特征。其核心模块SS2D来源于[25]。如图4（b）所示，SS2D将1D SSM操作扩展到处理2D图像。更多关于STM的信息参见第3.5节。

对于输入特征，STM块经过几个阶段：首先使用线性层以可控制的扩展因子α扩展通道数量。使用带有SiLU激活函数的卷积层提取局部特征。SS2D操作模拟特征图内的长程依赖性。集成输入相关的屏蔽机制以自适应地选择SS2D过程衍生出的最显著表示。最后，另一个线性层用于降维，生成输出特征。因此，STM块有效地捕获了本地和全局空间信息，这对于密集场景理解任务中准确学习特定任务特征至关重要。

CTM Block

虽然STM块擅长学习每个任务的独特表示，但它无法建立任务间的连接，这对于提高MMT的性能至关重要。为了应对这一限制，作者提出了一种新的交叉任务Mamba（CTM）块（如图3所示），该块可以促进各种任务之间的信息交换。作者从不同的角度开发了两种CTM块，分别称为F-CTM和S-CTM，以实现跨任务交互。

3.6.1 F-CTM: Feature-Level Interaction

3.6.2 S-CTM: Semantic-Aware Interaction

尽管F-CTM中的特征融合是一种有效的方式与信息相互作用，但它可能不足以捕捉不同任务之间的所有复杂关系，特别是在多任务场景理解中，多个像素级密集预测任务之间的交互高度动态且依赖于上下文。因此，作者提出S-CTM以实现语义自适应交互。

图3说明了两种类型的跨任务Mamba（CTM）模块。（a） F-CTM包含一个任务共享的融合模块来生成全局表示并获得每个任务的特定特征块（仅示例）。每个任务的输出是特定任务的特定特征和全局特征的总和，权重由特定任务门给出。有关F-CTM的更多详细信息，请参阅3.6.1节。（b） 类似地，S-CTM通过融合模块生成全局特征并与特定任务模块（仅示例）处理每个任务的特技（仅示例）。不同之处在于，S-CTM在交叉SS2D（CSS2D）模块中实现语义自适应跨任务交互，如图4（d）所示。有关S-CTM和CSS2D的更多详细信息，请参阅3.6.2节。

如图3（b）所示，S-CTM包含任务共享的融合模块和T个特定任务的特征块。融合模块首先将所有任务特征连接在一起，然后将连接的特征通过两个卷积层传递，以生成全局表示，该表示包含了所有任务的知识。S-CTM中的特定任务特征块是根据STM模块将SS2D替换为新颖的交叉SS2D（CSS2D）进行修改的。CSS2D的额外输入来自任务共享的融合模块。

如3.1节所述，SSM仅模型化单个输入序列内部的相对关系，但它不捕捉两个不同序列之间的交互。为解决此限制，作者提出跨SSM（CSSM）以建模任务特定特征序列（蓝色）和任务共享特征序列（红色）之间的关系，如图4（c）所示。CSSM接收两个序列作为输入并输出一个序列。任务共享特征序列用于生成SSM参数（即和），而任务特定特征序列被视为 Query 输入。通过公式（3）和（4）计算输出。因此，通过利用SSM机制，CSSM可以在语义 Level 捕捉两个输入序列之间的交互。此外，作者扩展SS2D为CSS2D，如图4（d）所示。该模块接受两个2D输入特征，将其沿四个方向扩展生成四对特征序列，并将每对特征序列输入到CSSM。这些序列的输出随后被汇总并重新形状，形成一个2D输出特征。

因此，与F-CTM相比，S-CTM可以更好地学习上下文自适应关系，因为具有CSSM机制。CSSM可以明确有效建模两个序列内的长距离空间关系，使S-CTM能够理解特定特征与全局表示之间的互动，这对多任务学习场景至关重要。相比之下，F-CTM中的特征融合难以捕获任务之间的复杂依赖关系。

Prediction Head

如图1所示，在解码器之后，任务特定的特征尺寸为。每个任务都有自己的预测头，用于生成最终的预测。作者将两种类型的预测头引入如下：

3.7.1 DenseHead

DenseHead启发自文献[46]，并在作者的初步版本MTMamba[29]中使用。具体而言，每个head都包含一个patch扩展操作和一个最终的线性层。类似于ECR块中的扩展操作（如图2(a)所示），patch扩展操作执行4倍上采样，以恢复特征图的分辨率到原始输入分辨率。而最终的线性层用于将特征通道映射到任务的输出维度，并输出最终的像素级预测。

3.7.2 LiteHead

(a) SSM的示意图。给定输入序列，SSM首先计算输入相关的参数（即，，和），然后通过方程（3）和（4） Query 输入，计算输出。更多关于SSM的详细信息参见第3.1节。**(b)** [25]中的SS2D概述，将一维SSMs扩展到处理2D图像。它展开2D特征图沿四个方向，生成四个不同的特征序列，每个特征序列都输入到一个SSM，四个输出被聚合和折叠到2D特征。**(c)** 提出的交叉SSM（CSSM）的示意图，基于SSM机制建模两个输入序列之间的关系。在CSSM中，一个输入序列用于计算（即，、和），另一个输入序列被视为 Query 。CSSM的输出通过方程（3）和（4）计算。更多关于CSSM的详细信息参见第3.6节。**(d)** 提出的交叉SS2D（CSS2D）概述。输入两个2D特征图，沿四个方向扫描，生成四对特征序列，然后将每对特征序列通过CSSM传递。CSSMs的后续输出被添加和 Reshape ，形成最终的2D输出特征。CSS2D的详细信息参见第3.6.2节。

在DenseHead中，首先进行上采样，这将导致显著的计算成本。因此，作者引入了一种更简单、轻量级和有效的前端架构，称为LiteHead。具体来说，它包括一个卷积层，然后是一个批量归一化层，一个ReLU激活函数，以及最后将特征通道投影到任务输出维度的线性层。随后，特征用插值简单地匹配输入分辨率，然后用作输出。因此，LiteHead比DenseHead更高效。请注意，由于每个任务都有自己的头，因此整个计算成本降低是线性相关的任务数量。

4 实验

在本节中，作者将在多任务密集场景理解中开展广泛实验，评估提出的MTMamba++。

Experimental Setups

4.1.1 Datasets

参考 [7, 9, 10]，作者在三个多任务稠密预测基准数据集上开展了实验：(i) NYUDv2 包含了多个室内场景，包括795张训练图像和654张测试图像。它包括四个任务：-类语义分割（Semseg）、单目深度估计（Depth）、表面法向量估计（Normal）以及目标边界检测（Boundary）。(ii) PASCAL-Context 源于PASCAL数据集 [47]，包括室内和室外场景，为语义分割、解析（Parsing）和目标边界检测等任务提供像素级标签，此外，还生成了表面法向量估计和显著性检测任务的额外标签。它包括4,998张训练图像和5,105张测试图像。(iii) Cityscapes 是一个理解城市场景的数据集，它有两个任务（19-类语义分割和深度估计）以及2,975张训练图像和500张测试图像。

4.1.2 Implementation Details

作者使用在ImageNet-22K数据集[49]上预训练的Swin-Large Transformer [30]作为编码器。在STM和CTM块中，扩展因子设置为2。遵循[7, 9, 10]，作者将NYUDv2, PASCAL-Context和Cityscapes数据集的输入图像分别调整为，和，并使用包括随机颜色抖动，随机裁剪，随机缩放和随机水平翻转在内的相同数据增强。深度估计和表面法线估计任务使用损失，其他任务则使用交叉熵损失。所提出的模型在三个数据集上分别使用批量大小为4进行40,000次迭代。所有三个数据集都使用AdamW优化器[50]和权重衰减为的幂学习率调度器，学习率分别为，和。

4.1.3 Evaluation Metrics

参考 [7, 9, 10]，作者在语义分割和人类解析任务中采用平均交集与并集比（mIoU）作为评估指标，在单目深度估计和视差估计任务中采用均方根误差（RMSE），在表面法向量估计任务中采用平均误差（mErr），在显著性检测任务中采用最大F-measure（maxF），在目标边界检测任务中采用最优数据集尺度F-measure（odsF）。此外，作者还报告了MTL模型（A）相对于单任务（STL）模型（）的平均相对性能改进作为总体指标，其定义如下，

其中是任务的数量，是方法在任务上的指标值，表示中的任务，如果表示较大值表示任务的性能更好，则为；否则为。

Comparison with State-of-the-art Methods

作者将所提出的MTMamba++方法与两种类型的MTM方法进行比较：一是基于CNN的方法，包括Cross-Stitch[51]、PAP[52]、PSD[53]、PAD-Net[5]，以及MTI-Net[6]、ATRC[54]和ASTMT[48]；二是基于Transformer的方法，包括InvPT[7]、TaskPromoter[68]，InvPT++[9]和MQTransformer[69]。

表1分别列出了在NYUDv2和PASCAL-Context数据集上的结果。如图所示，基于Mamba的方法在CNN方法和Transformer方法上均优于其他方法，尤其是在NYUDv2的四个任务中，MTMamba++获得了最佳性能。具体地说，MTMamba++在与之前最先进的基于Transformer的方法（即TaskPromoter）相比，在语义分割和物体边界检测任务上的改进分别为+1.71（mIoU）和+1.20（odsF）。这表明了MTMamba++的优势。此外，MTMamba++在优于MTMamba的表现，这证明了S-CTM和LiteHead的有效性。在PASCAL-Context数据集上的结果也展示了基于Mamba的方法的明显优势。值得注意的是，MTMamba++在除正常预测任务外的所有任务上均优于Transformer基

Model Analysis

为了分析提出的 MTMamba++，作者首先介绍两个基准：（i）“Multi-task” 是一个使用两个标准 Swin Transformer 块（30）的 MTL 模型，每个解码阶段都在每个任务之后使用 ECR 块，这些块在每个任务中；以及（ii）“Single-task” 是“Multi-task” 的单任务对应物（即每个任务都有自己的特定编码器-解码器）。在没有特定指示的情况下，此部分中的编码器是 Swin-Large Transformer。

4.3.1 Effectiveness of Each Component

MTMamba++的解码器包含两种核心块：STM块和CTM块。与初步版本MTMamba [29]相比，MTMamba++替换了MTMamba中的F-CTM块和DenseHead，分别使用了S-CTM块和LiteHead。在本次实验中，作者在NYUDv2数据集上研究了每个组件的有效性。结果如表3所示，#5和#7分别是MTMamba和MTMamba++的默认配置。

首先，与Swin Transformer块[30]相比，MTMamba中的STM块在多任务密集预测方面具有更高的效率和有效性，这一点体现在表3的结果上 (#2 vs. #3)。其次，从两个STM块增加到三个STM块并不能显著提高性能。当引入F-CTM块时，性能在方面（#5 vs. #3/#4）得到了大幅提升，表明F-CTM的效果。第三，比较#5和#6，作者可以看出LiteHead比DenseHead更具有效性和效率。第四，与#6相比，#7表明用S-CTM替换F-CTM可以导致所有任务中的性能显著提高，且额外成本微不足道，这说明在S-CTM中进行的语义感知交互比在F-CTM中的效果更好。最后，MTMamba++的默认配置（即#7）在所有任务上都显著优于“单任务”方法，从而证明了MTMamba++的有效性。

4.3.2 Comparison between SSM and Attention

为了证明基于SSM（单一共享模块）架构在多任务密集预测中的优越性，作者在NYUDv2上进行实验，通过替换MTMamba++中的SSM相关操作以基于注意力机制。具体而言，STM块中的SS2D模块被替换为基于窗体的多头自注意力机制[30]，同时S-CTM块中的CSS2D模块也被替换为基于窗体的多头交叉注意力机制。结果如表4所示。可以看出，基于SSM（即MTMamba++）的方法比基于注意力的方法更有效且更高效，这表明SSM在处理多任务密集预测任务方面更具优势。

表3：各核心组件在NYUDv2上的有效性。'Multi-task'表示在解码器阶段的每个ECR块后只使用两个标准Swin Transformer块[30]的多任务模型。'Single-task'是Multi-task 的单任务对应部分。#7是MTMamba++的默认配置。

注意力机制的方法表明，与多任务相关的SSM比单独任务更强大，说明了SSM在处理多任务密集预测任务时的功率和效率优势。

4.3.3 Effectiveness of Each Decoder Stage

如图1所示，MTMamba++解码器包含三个阶段。在本实验中，作者研究了这三个阶段在NYUDv2数据集上的有效性。表5显示了结果，这些结果清楚地证明，每个阶段对MTMamba++的性能都有积极贡献。

4.3.4 Effect of Each Scan in CSS2D Module

在第3.6.2节中提到的，CSS2D模块从四个不同的方向扫描2D特征图。作者在NYUDv2上进行实验，研究每种扫描方向的效果。结果如Table VI所示。可以看出，任意方向的使用都会导致性能下降与使用所有方向的默认配置相比，表明所有方向都对MTMamba++有益。

4.3.5 Effect of

正如第3.5节和3.6.2节所提到的，在MTMamba++中，STM和S-CTM块通过超参数将特征通道扩展，以提高模型容量。作者对NYUDv2进行了实验，以研究的影响。结果如下表7所示。可以看出，增加会导致模型大小的显著增加和FLOPS成本的增加。至于性能，当时，性能最好，因此被用作MTMamba++的默认配置。

4.3.6 Performance on Different Encoders

作者在NYUDv2上进行实验，研究不同尺度的Swin Transformer编码器下，所提出的MTMamba++的性能。结果表明，随着模型能力的增加，MTMamba++在所有任务上都取得了更好的性能。此外，MTMamba++在不同的编码器上始终保持优于MTMamba，证实了所提出的S-CTM和LiteHead的有效性。

4.3.7 Analysis of Model Size and Cost

在表9中，作者对建议的MTMamba++模型与 baselines 在PASCAL-Context数据集上的模型大小和计算浮点运算（FLOPs）进行了比较。可以看到，在与参数大小和计算成本相当的情况下，MTMamba++在五大任务中显著优于之前的方法。

图5：与最先进的论文（即InvPT [7]，TaskPrompter [10]，和MTMamba [29]）在NYUDv2数据集上的定性比较。MTMamba++能够提供更准确的细节，如黄色圆圈所示。在语义分割任务中，GT中的黑色区域表示背景，并从计算损失和评估指标（如mIoU）中排除。

图6：与最先进的论文（即InvPT [7]，TaskPrompter [10]，和MTMamba [29]）在PASCAL-Context数据集上的定性比较。MTMamba++在确保更高的精度。放大观看更多细节。

图7：与最先进的论文（即InvPT [7]，TaskPrompter [10]，和MTMamba [29]）在城市景观数据集上进行比较。MTMamba++提供更准确的细节。放大观看更多细节。

V Conclusion

在本节中，作者将比较MT-Mamba++的输出预测与最先进的方法，包括InvPT [7]、TaskPrompter [10]和MTMamba [29]。图5、6和7分别显示了在NYUDv2、PASCAL-Context和Cityscapes数据集上的定性结果。可以看出，MT-Mamba++在所有数据集的基准上都具有更好的视觉效果。

例如，如图5中用黄色圆圈突出显示的那样，在语义分割任务上，MT-Mamba++生成了更准确的结果，并且对齐更良好。图6表明，对于语义分割和人类解析任务，MT-Mamba++的预测更加准确（用黄色圆圈突出显示），同时目标边界检测任务的边界更加清晰。同样，图7展示了MT-Mamba++在提供更精确的分割效果时，对齐表现更好。因此，定性的研究（图5、6和7）和定量的研究（表1和II）都表明了MT-Mamba++的优越性能。