Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >EDAFormer: 一种新型的编码器-解码器注意力 Transformer 用于高效语义分割 !

EDAFormer: 一种新型的编码器-解码器注意力 Transformer 用于高效语义分割 !

作者头像
未来先知
发布于 2024-08-08 03:29:05
发布于 2024-08-08 03:29:05
4040
举报
文章被收录于专栏:未来先知未来先知

作者提出了一种编码器-解码器注意力 Transformer (EDAFormer),它由无嵌入Transformer(EFT)编码器和采用作者的无嵌入注意力(EFA)结构的全注意力解码器组成。所提出的EFA是一种新颖的全局上下文建模机制,它专注于实现全局非线性功能,而不是 Query 、键和值的具体角色。 对于解码器,作者探索了考虑全局性的优化结构,这可以提高语义分割的性能。此外,作者提出了一种新颖的推理空间缩减(ISR)方法,以提高计算效率。与之前的空间缩减注意力方法不同,作者的ISR方法在推理阶段进一步降低键-值的分辨率,这可以缩小高效语义分割中计算性能的权衡差距。 作者的EDAFormer在三个公开基准测试中,包括ADE20K、Cityscapes和COCO-Stuff,与现有的基于Transformer的语义分割模型相比,展示了具有高效计算的最高性能。 此外,作者的ISR方法在Cityscapes数据集上可以将计算成本降低多达61%,同时mIoU性能下降最小。 代码可在https://github.com/hyunwoo137/EDAFormer获取。

1 Introduction

语义分割旨在为整张图像获取准确的像素级预测,是计算机视觉领域最基本任务之一[32, 42],并被广泛应用于各种下游应用。

从基于CNN的模型到基于 Transformer 的模型,语义分割模型已经以不同的结构被提出。然而,与其他任务相比,语义分割的计算量较大,因为它处理高分辨率图像并需要逐像素预测的解码器。因此,探索这一任务的高效结构是一个重大挑战。

随着Vision Transformer[20](ViT)的成功,近期的语义分割模型主要利用基于 Transformer 的结构来提高性能,通过自注意力机制建模全局上下文,并引入了各种先进的自注意力结构。在本文中,作者将通用的自注意力机制分析为两部分。第一部分是将输入特征通过带有可学习参数的线性投影嵌入,为其分配 Query 、键和值等特定角色。第二部分作为全局非线性功能,通过softmax获取 Query 与键之间的注意力权重,然后将注意力权重投影到值上。作者关注到,全局上下文建模中真正重要的部分是全局非线性功能,而不是为输入特征分配的特定角色(即 Query 、键和值)。作者发现,一种简单但有效的方法,即去除输入特征的特定角色,反而能提高性能。因此,作者提出了一种新颖的自注意力结构,即无嵌入注意力(Embedding-Free Attention,EFA),它省略了 Query 、键和值的嵌入。

作者提出了一种强大的模块,并在此基础上构建了一种语义分割模型——编码器-解码器注意力 Transformer (EDAFormer),该模型由所提出的无嵌入 Transformer (EFT)编码器和全注意力解码器组成。对于编码器,作者采用了分层结构,并在变换块中利用作者的EFA模块有效提取全局上下文特征。对于解码器,受到文献[24, 31, 77]的启发,作者的全注意力解码器不仅利用EFA有效提取全局上下文,还探索了在解码器中哪些 Level 的特征需要更多的全局注意力。作者实证发现,更高层的特征在考虑全局上下文方面更为有效。因此,作者设计了一个全注意力解码器,对更高层特征使用更多的EFA模块。

此外,本文解决了在需要为降低计算量(或提高准确度)而设计更轻量级(或非轻量级)模型时,必须在不同的结构中进行额外训练的问题。这个问题给用户带来不便,并限制了轻量级方法的多功能性。

为了解决这个问题,作者引入了一种新颖的推理空间缩减(ISR)方法,该方法在推理阶段比训练阶段更大程度地减少键值分辨率。作者的ISR以一种与现有基于空间缩减注意力(SRA)的模型[50, 58, 59, 62, 65]完全不同的视角来利用基于SRA的结构,因为作者专注于在训练和推理阶段使缩减比例不同。通过作者的方法,在训练期间 Query 可以学习到更多的键和值信息,并在推理期间更好地应对减少的键和值。

这具有以下两个优点:

(1)作者的方法在性能略有下降的情况下减少了计算成本。

(2)作者的方法允许有选择地调整一个预训练模型的多种计算成本。

作者在三个公开的语义分割基准测试上证明了所提方法在计算成本和性能方面的有效性。与基于 Transformer 的语义分割模型相比,作者的模型在效率和准确度方面取得了具有竞争力的性能。

作者的贡献总结如下:

  • 作者提出了一种新颖的无嵌入注意力结构,它去除了 Query 、键和值的具体角色,但专注于全局非线性,从而实现了强大的性能。
  • 作者引入了一种语义分割模型EDAFormer,该模型采用EFT编码器和全注意力解码器设计。作者的解码器在高层次上利用了更多 Proposal 的EFA模块,以更有效地捕捉全局上下文。
  • 作者提出了一种新的ISR方法,以提高效率,它能够在推理阶段以较小的性能降级减少计算成本,并允许有选择地调整预训练 Transformer 模型的计算成本。
  • 作者的EDAFormer在三个公共语义分割基准测试中,在效率和准确性方面都超过了现有的基于 Transformer 的语义分割模型。

2 Related Works

Attention for Global Context

Transformer模型中的自注意力机制已经证明了模拟全局上下文的重要性。除了通用注意力方法之外,已经研究了各种注意力方法。[58, 59]提出了空间缩减注意力机制,为了提高效率,减少键值对的分辨率。[63]利用金字塔池化在多尺度分辨率上减少键值对。基于空间缩减注意力结构,[75, 23, 76]在注意力中使用了卷积层。[39, 40]提出的基于窗口的注意力方法为了效率考虑了局部窗口区域。[13]提出了结合全局注意力的局部窗口注意力。基于卷积的注意力方法[15, 62, 65, 23]使用卷积操作同时考虑局部和全局上下文。通道缩减注意力方法[31]减少了 Query 和键的通道数。然而,所有这些自注意力方法都是基于 Query 、键和值嵌入的。与这些方法不同,作者提出了一种高效的免嵌入注意力模块,重点是关注在注意力机制中全局非线性的重要性。

Transformer-based Semantic Segmentation

自从ViT [20] 在图像分类任务上取得了优异的性能之后,基于Transformer的架构也被研究用于语义分割这项最基本的视觉任务之一。SETR [78] 是首个采用Transformer架构作为 Backbone 网络并结合卷积解码器的语义分割模型。除了引入有效的编码器结构外,最近的方法 [65] 提出了高效编解码器结构用于语义分割。SegFormer [65] 结合了混合Transformer编码器和纯基于MLP的解码器。FeedFormer [50] 引入了一种基于交叉注意力机制的解码器,以参考Transformer编码器的低层特征信息。VWFormer [66] 使用Transformer编码器并在解码器中利用基于窗口的注意力来考虑多尺度表示。作者提出了一种高效的编解码器注意力Transformer模型,用于语义分割,以在编码器和解码器两端有效地捕捉全局上下文。

3 Proposed Method

本节介绍了作者的编码器-解码器注意力 Transformer (EDAFormer),它由无嵌入 Transformer (EFT)编码器和全注意力解码器组成。此外,作者还描述了作者的推理空间缩减(ISR)方法,该方法能有效降低计算成本。

Overall Architecture

图1:(a)所提出EDAFormer的总体架构,由两个主要部分组成:一个EFT编码器和一个全注意力解码器。EDAFormer的编码器和解码器设计采用了无需 Query 、键和值嵌入的自由注意力结构。(b)包含EFA模块的EFT块的细节。

EDAFormer. 如图1(a)所示,作者采用分层的编码器结构,这种结构在语义分割任务中是有效的。当输入图像为 时,每个阶段输出的特征定义为 ,其中 表示编码器阶段的索引, 是通道维度。在每一个阶段,特征首先通过块嵌入模块进行下采样,然后输入到 Transformer 模块中。如图1(b)所示,作者编码器的 Transformer 块结构由嵌入自由注意力(EFA)和前馈层(FFL)组成。如图2(b)所示,作者的EFA模块省略了 Query 、键 和值 嵌入的线性投影,这使其轻量化并有效地提取全局上下文。此外,作者在推理阶段采用了空间缩减注意力(SRA)结构[59],以利用作者的ISR。作者使用非参数操作和平均池化来减少键值的空间分辨率,这在推理阶段的空间缩减对性能的影响较小。EFA模块的公式如下:

其中 和 分别表示通过平均池化进行的空间缩减和缩减比。 直接用作 Query ,空间缩减后的特征用作键值。在利用softmax函数计算 Query 与键之间相似度分数的部分,可以应用全局非线性到输入特征上,允许在不区分 Query 、键和值特定角色的情况下提取全局上下文。然后,FFL的公式如下:

其中 DW 指的是深度卷积。由于EFA和FFL是顺序连接的,作者的EFT块的整个过程可以公式化为:

其中 是中间特征,LN是层归一化。这种无需嵌入的结构对于分类和语义分割是有效的。此外,作者从经验上发现,在考虑计算性能与性能退化的权衡方面,作者的无需嵌入结构对于内部空间识别(ISR)是有效的。

全注意力解码器。 如先前模型[70, 77, 24]所展示的,将自回归注意力(SRA)应用于解码器中的编码器特征是捕捉全局语义感知特征的有效方法。因此,作者设计了一个全注意力解码器,它由所有解码阶段的EFT块组成。作者还探索了解码器使用EFT块的最佳结构。结果发现,将更多的注意力块应用于高级特征对于捕捉全局的语义信息性特征是有效的。如图1(a)所示,作者的解码器具有分层结构,分别在至解码阶段使用3、2和1个EFT块。这种结构相比于先前基于变换的分割模型的解码器包含了更多的转换块,但由于EFT块是轻量级的,所以其计算成本相比于先前模型要低。

在全注意力解码器中,每个编码器阶段的输出特征首先被送入每个解码阶段的EFT块中,其中表示解码器阶段的索引。然后,每个解码阶段的特征通过双线性插值上采样到的分辨率。这些上采样的特征随后被连接起来并通过线性层进行融合。最后,通过另一个线性层将最终的预测 Mask 投射到类别数的 Mask 中。这个过程可以表示为:

其中 是最终的预测 Mask 。

Inference Spatial Reduction Method

图3:作者第一阶段编码器中的ISR方法概述。作者的ISR在推理过程中应用减少比率,有选择地减少键和值标记。这个框架可以在每个包含自注意力结构的阶段执行。它能够灵活地降低计算成本,同时不破坏空间结构。

与之前的SRA不同,作者的推理空间缩减(ISR)方法在推理阶段减少键值的空间分辨率。作者的方法通过改变与EFA模块中平均池化的“减少比率”相关的超参数来实现计算效率。由于自注意力具有特殊的结构,作者的ISR可以用于自注意力结构中,因为减少键和值的分辨率不会影响输入和输出特征的大小。由于这种结构,可以在推理过程中调整减少比率,而不会影响输入和输出特征的分辨率。

然而,在训练中大幅减少键和值的分辨率虽然具有计算效率优势,但会导致性能下降,因为 Query 无法从键和值中获取足够的信息。为了解决这个问题,作者的ISR通过在推理时减少键和值的分辨率,来减轻计算成本与准确度之间的权衡差距。在这部分,作者描述了作者的ISR是如何应用于作者的EDAFormer,这是有效应用作者ISR的优化架构。

如图1所示,作者的EDAformer在编码器-解码器结构中均使用了 Proposal 的 Transformer 块。每个基于池化的SRA在每个编码器阶段和解码器阶段都有相应的减少比率设置,以减少键和值的分辨率。如图3所示,在训练期间,每个编码器阶段的减少比率设置为[8, 4, 2, 1],这是其他先前模型[58, 59, 65]使用SRA时的默认设置。解码器阶段的减少比率,它接收每个编码器特征,设置为,这与相应编码器阶段的减少比率相等。和分别表示训练期间编码器和解码器的减少比率。先前注意力的计算复杂度如下:

其中和SRA分别表示计算复杂度和空间缩减注意力。、和分别代表特征的高度、宽度和通道。是训练阶段的减少比率。

在这些减少比率设置下,作者训练了作者的EDAFormer以获得预训练权重。之后,在推理阶段,可以选择性地调整推理计算减少,由用户自行决定选择减少比率。如图3所示,和分别表示推理时编码器和解码器的减少比率。它们表示为:

其中和分别表示推理时编码器和解码器的附加减少比率。应用作者的ISR后,计算复杂度如下:

其中ISR表示推理空间缩减,是推理时的附加减少比率。因此,作者的ISR的一个优点是,在预训练模型上容易获得计算减少,无需额外训练。与训练中减少相比,作者的ISR减少了性能下降。经验上,编码器-解码器中的最佳设置是,它在性能下降与计算成本减少之间的比率最优。

4 Experiment

Experimental Settings

数据集。 ADE20K [79] 是一个具有挑战性的场景解析数据集,它包含了室内和室外环境下的图像。该数据集包含150个语义类别,以及20,210/2,000/3,352张图像用于训练、验证和测试。Cityscapes [14] 是一个城市驾驶场景数据集,包含5,000张精细标注的图像,分为19个语义类别。其中训练、验证和测试集分别包含2,975/500/1,525张图像。COCO-Stuff [3] 是一个具有挑战性的数据集,包含164,062张图像,标注了172个语义类别。

实现细节。 作者使用mmsegmentation代码库在4块RTX 3090 GPU上训练作者的模型。作者在ImageNet-1K [16]上对编码器进行预训练,而解码器则是随机初始化的。对于分类和分割评估,作者分别采用Top-1准确率和平均交并比(mIoU)。在ImageNet预训练中,作者采用了与PVTv2 [58]相同的训练设置和数据增强。作者应用了随机水平翻转,随机缩放比例在0.5-2.0之间,以及针对ADE20K、Cityscapes和COCO-Stuff分别随机裁剪为512512、10241024和512512的大小。对于ADE20K和COCO-Stuff,批量大小为16;对于Cityscapes,批量大小为8。作者在ADE20K、Cityscapes和COCO-Stuff上使用AdamW优化器进行160K次迭代。

在ImageNet上的EFT编码器。**在表2中,作者将无嵌入Transformer(EFT)编码器与现有的模型在ImageNet-1K分类任务上进行了比较。作者的EFT模型在性能上超越了其他Transformer模型。这一结果表明,即使在没有 Query 、键和值的嵌入的情况下,作者的EFT Backbone 网络通过全局考虑空间信息,在分类任务中仍然有效。

Effectiveness of our EFA at Decoder

为了验证在解码器中考虑全局性是否有效,作者在表3(a)中比较了在EFT块中Embedding-Free Attention(EFA)位置的不同操作。所应用的操作包括局部上下文操作(即,深度卷积(DW Conv)、卷积)和全局上下文操作(即,带嵌入注意力、不带嵌入注意力)。作者的不带嵌入结构的模型相较于深度卷积和标准卷积,分别提高了1.6%和2.4%的mIoU。这些结果表明,在解码器中捕捉全局上下文对于提高mIoU性能是重要的。尽管带嵌入方法通过捕捉全局上下文优于局部上下文操作,但作者的EFA在轻量级模型参数和FLOPs的情况下,进一步将mIoU提高了0.8%。这表明作者的EFA模块能更好地建模全局上下文。

Structural Analysis of our All-attention Decoder

作者的解码器是一个{3-2-1}结构的层次化结构,包含六个EFT模块,它为高级语义特征分配了更多的注意力模块。在表3(b)中,作者验证了与三种情况相比,作者解码器结构的有效性。{2-2-2}结构的情况将两个EFT模块平均分配给所有解码器阶段。{1-2-3}、{1-4-1}以及作者的{3-2-1}情况分别将更多的EFT模块分配给解码器的第3、第2和第1阶段。因此,作者的{3-2-1}结构更关注高级特征,其性能比{2-2-2}、{1-2-3}和{1-4-1}分别提高了0.8%、1.7%和1.8%的mIoU。这些结果表明,将额外的注意力层分配给包含更丰富语义信息的高级特征,对于语义分割性能更为有效。

Effectiveness of our ISR in our EDAFormer

在表4中,作者验证了所提出的EDAFormer-T和EDAFormer-B中推理空间缩减(ISR)方法的有效性,并实证找出了最优的缩减比例。在训练过程中,作者的EDAFormer使用基础设置-进行训练。在推理过程中,作者尝试将ISR仅应用于解码器(即)、编码器-解码器的一部分与采用基础设置的EDAFormer-T相比,采用最优设置的EDAFormer-T在ADE20K、Cityscapes和COCO-Stuff上的计算量分别减少了16.1%、37.4%和16.1%。在ADE20K上的mIoU性能仅下降了0.2%,而在COCO-Stuff和Cityscapes上没有下降。此外,EDAFormer-B在ADE20K和COCO-Stuff上计算量减少了8.1%,mIoU仅下降0.1%,在Cityscapes上计算量减少了25.3%,而性能没有下降。这些结果表明,作者的ISR方法简单而有效,可以在性能略有下降的情况下显著减少计算成本。此外,作者的方法仅在推理时调整缩减比例,无需微调,就显示出惊人的有效性。尽管作者的ISR无需微调就有效,但为了在更高缩减比例[16, 8, 4, 2]-[2, 4, 8]下进一步补偿性能下降,作者还是对模型进行了40K次迭代的微调。结果是,EDAFormer-T在ADE20K上的mIoU下降了0.2%,在Cityscapes和COCO-Stuff上的mIoU下降了0.1%。EDAFormer-B在ADE20K和COCO-Stuff上的mIoU分别下降了0.3%和0.2%,在Cityscapes上的mIoU没有下降。

Comparison between the model with and without ISR.

在表5(a)中,作者对比了采用ISR与不采用ISR的模型,两者在训练和推理阶段均使用了相同的降采样比例。作者的EDAFormer模型结合了ISR,在训练时使用降采样比例,并在推理阶段调整为。尽管在推理阶段的计算量相同,但采用ISR的模型在mIoU指标上比不采用ISR的模型表现得更好,分别提高了EDAFormer-T和EDAFormer-B各0.5%。因此,作者的模型结合了ISR,在训练过程中考虑了关键和值信息的足够表达,相比于在训练过程中减少关键和值的分辨率的模型,能够实现更优的性能。

Effectiveness of Embedding-Free Structure for ISR

为了验证作者无嵌入结构在ISR中的有效性,作者对采用了嵌入注意力机制的消融模型进行了实验,将其应用到作者全注意力解码器中的EFA位置。在表5(b)中,作者还与采用嵌入的消融模型(即,带嵌入)进行了比较,将作者的ISR应用于解码器的各个阶段。带嵌入结构的性能随着缩减比例的增加而逐渐下降,当缩减比例为[8, 4, 2, 1]-[4, 8, 12]时,性能下降了0.8% mIoU。然而,作者的结构在缩减比例达到[8, 4, 2, 1]-[3, 6, 9]时并未出现性能下降,仅在缩减比例为[8, 4, 2, 1]-[4, 8, 12]时mIoU有0.1%的下降。

Comparison of Spatial Reduction Methods for ISR

在表6(a)中,作者进行了实验,以比较在关键值空间缩减方面,哪种方法在mIoU和推理速度(FPS)上表现更佳。基于二分匹配的池化方法,即便应用于每个编码器-解码器阶段,也没有出现mIoU的退化。然而,二分匹配最多可减少50%的标记,相应的缩减比率为()。这是因为该方法将标记划分为两个集合并进行合并。此外,这种方法由于匹配算法而产生了额外的延迟。因此,尽管二分匹配减少了注意力计算的量,但与不使用ISR的方法相比,其FPS相似。最大池化方法导致mIoU下降了0.3%,而重叠池化的速度仅略慢于平均池化。因此,作者采用了平均池化方法来减少标记,这是一种适用于一般目的的简单操作,并且在性能与推理速度方面最为有效。

Inference Speed Enhancement

在表6(b)中,作者展示了不同缩减比例下的推理速度(每秒帧数,FPS)对比。作者通过使用单个RTX 3090 GPU(不采用任何额外的加速技术)来测量推理速度。与基准设置相比,应用作者的ISR(图像空间缩减)在的缩减比例下分别实现了29.4%和47.1%的FPS提升。随着缩减比例的增加,降低了计算成本,推理速度变得更快。这些结果表明,通过作者的ISR实现的计算缩减能够提升实际的推理速度。

Applying ISR to Various Transformer-based Models

作者的ISR不仅可以普遍应用于作者的EDAFormer,也可以通过使用额外的空间缩减应用于其他基于Transformer的模型。

为了验证作者ISR的泛化能力,作者将它应用于表7中的各种模型。基于Transformer的主干网络用作者的解码器进行语义分割任务的训练。对于基于卷积的自注意力模型(例如CvT [62],MViT [72]和LVT [67]),作者的ISR显著减少了34.841.6%的计算量,同时性能下降了0.10.3%。作者的方法在基于窗口注意力模型(例如Swin [40]和DaViT [18])、基于空间缩减注意力模型(例如PVTv2 [59]和MiT [65])以及分割模型(例如SegFormer [65]和FeedFormer [50])上也显示出有效计算减少且性能下降较少。对于使用交叉注意力解码器的FeedFormer的结果表明,作者的方法在交叉注意力机制中也是有效的。这些结果表明,作者的ISR框架可以有效地扩展到使用不同注意力方法的多种基于Transformer的架构,而作者的EDAFormer是特别为有效应用作者的ISR而优化的架构。

Visualization of Features

其次,作者比较了在注意力得分图与值之间操作后的输出特征。令人惊讶的是,应用ISR前后的输出特征几乎相同。因此,这些结果表明,即使在对键和值进行空间缩减的推理过程中,通过自注意力操作获得的信息仍然得到了保持。第三,比较预测图时,应用ISR前后的结果几乎相同。这意味着ISR的效果不仅适用于解码器第二阶段,也适用于整个EDAFormer网络。

Qualitative Results

在图5中,作者将作者的分割预测在ADE20K、Cityscapes和COCO-Stuff数据集上与基于嵌入的变换模型(即SegFormer [65])进行了对比可视化。作者的EDAFormer在目标边界附近的细微细节上预测得更好。与SegFormer相比,作者的模型在对大区域(例如,道路、屋顶和卡车)的分割上也表现得更加出色。此外,对于同一类别(例如,沙发)但相隔较远的物体,作者的模型预测比SegFormer更为精确。这表明作者的无嵌入注意力结构能够捕捉到足够的全局空间信息。

5 Conclusion

在本文中,作者提出了一种基于 Transformer 的高效语义分割模型EDAFormer,它利用了所提出的无需嵌入的关注模块。无需嵌入的关注结构可以从全局上下文建模的角度重新思考自注意力机制。

此外,为了提高效率,作者提出了新颖的推理空间缩减框架,该框架改变了训练-推理阶段之间的条件。

作者希望作者的关注机制和框架能够进一步推动对轻量级和高效基于 Transformer 的语义分割模型的探索性研究。

参考

[1].Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-08-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
研究人员介绍了“SeMask”:一种有效的 Transformer 框架,它在语义注意操作的帮助下将语义信息整合到编码器中
在展示了Transformer 在视觉领域的效率之后,研究界将注意力集中在将其应用扩展到多个领域。其中之一是语义分割,这是许多领域的关键应用,例如自动驾驶或医疗诊断。该主题的经典方法是使用现有的预训练 Transformer 层作为编码器,针对分割任务对其进行调整。然而由于与用于预训练的数据集相比,这种方法的数据集相对较小,因此在微调期间缺乏对语义上下文的洞察力。
代码医生工作室
2022/03/07
1.3K0
研究人员介绍了“SeMask”:一种有效的 Transformer 框架,它在语义注意操作的帮助下将语义信息整合到编码器中
深度学习图语义分割的综述
图像分割是计算机视觉和机器学习领域发展最快的领域之一,包括分类、分类与定位、目标检测、语义分割、实例分割和Panoptic分割。
算法进阶
2023/12/26
6930
深度学习图语义分割的综述
用于语义分割的解码器 diffusion 预训练方法
当前语义分割任务存在一个特别常见的问题是收集 groundtruth 的成本和耗时很高,所以会使用预训练。例如监督分类或自监督特征提取,通常用于训练模型 backbone。基于该问题,这篇文章介绍的方法被叫做 decoder denoising pretraining (DDeP),如下图所示。
BBuf
2023/08/25
9070
用于语义分割的解码器 diffusion 预训练方法
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作
DAFormer代表了UDA的一个重大进步。它在GTA→Cityscapes改善了10.8 mIoU、Synthia→Cityscapes提升了5.4 mIoU。
集智书童公众号
2022/05/26
2.8K0
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作
顶刊解读 IJCV | CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测
CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测 Dong Zhang,Yi Lin, Jinhui Tang,Kwang-Ting Cheng
小白学视觉
2024/10/21
1750
顶刊解读 IJCV | CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测
AMMUNet | 多尺度注意力图融合在图像语义分割中的应用 !
远程感知图像的语义分割至关重要,因为它为城市规划、环境监测和资源管理等一系列应用奠定了基础。深度学习的出现,尤其是卷积神经网络(CNNs),带来了显著的范式转变,革新了计算机视觉领域,进而也影响了远程感知图像分析。
AIGC 先锋科技
2024/07/08
7980
AMMUNet  |  多尺度注意力图融合在图像语义分割中的应用 !
SCLIP?与CLIP是什么关系?比CLIP高40点,这么离谱吗?
在大规模基础模型的时代,经过大规模预训练后,对各种下游任务进行最小调整已成为迁移学习的新范式。然而,与自然语言处理领域基础模型的巨大成功不同,大多数视觉模型在各种下游任务中的零样本迁移学习能力尚无法达到可比水平。通过引入语言监督并在网络规模的数据集上进行学习,对比语言图像预训练(CLIP)模型能够将视觉表示泛化到开放词汇推理,并展现出惊人的零样本分类结果,然而,在更复杂的任务,如语义分割方面,这种能力仍然非常有限。
集智书童公众号
2023/12/19
1.2K0
SCLIP?与CLIP是什么关系?比CLIP高40点,这么离谱吗?
北大、北理工、旷视联手:用于图像语义分割的金字塔注意力网络
翻译 | 林椿眄 出品 | 人工智能头条(公众号ID:AI_Thinker) 近日,北京理工大学、旷视科技、北京大学联手,发表了一篇名为 Pyramid Attention Network for Semantic Segmentation 的论文。在这篇论文中,四位研究者提出了一种金字塔注意力网络 (Pyramid Attention Network,PAN),利用图像全局的上下文信息来解决语义分割问题。 与大多数现有研究利用复杂的扩张卷积 (dilated convolution) 并人为地设计解码器网
用户1737318
2018/06/05
1.4K0
用于实时语义分割的可重参数化双分辨率网络
语义分割在自动驾驶和医学图像等应用中发挥着关键作用。尽管现有的实时语义分割模型在准确性和速度之间取得了令人称赞的平衡,但其多路径块仍然影响着整体速度。为了解决这个问题,本研究提出了一种专门用于实时语义分割的重参数化双分辨率网络(RDRNet)。具体来说,RDRNet采用了一种双分支架构,在训练过程中使用多路径块,并在推理过程中将它们重参数化为单路径块,从而同时提高了准确性和推理速度。此外,我们还提出了重参数化金字塔池化模块(RPPM),以增强金字塔池化模块的特征表示能力,同时不增加其推理时间。在Cityscapes、CamVid和Pascal VOC 2012数据集上的实验结果表明,RDRNet在性能和速度方面都优于现有的最先进模型。研究代码可在https://github.com/gyyang23/RDRNet获取。
AI浩
2024/10/22
2360
用于实时语义分割的可重参数化双分辨率网络
Segmenter:基于纯Transformer的语义分割网络
正如大家所知,在进行图像语义分割时,图像被编码成一系列补丁后往往很模糊,需要借助上下文信息才能被正确分割。
Amusi
2021/06/09
1.9K0
Segmenter:基于纯Transformer的语义分割网络
解耦Query与上下文窗,多尺度学习器,突破语义分割中的尺度不足与场失效问题 !
在语义分割中,有两种典型的学习多尺度表示的方法。第一种涉及应用具有可变感受野的滤波器,经典技术如孔洞卷积(Chen等人,2018)或自适应池化(Zhao等人,2017)。通过调整超参数,如膨胀率和池化输出大小,网络可以改变感受野以在多个尺度上学习表示。
未来先知
2024/08/13
1990
解耦Query与上下文窗,多尺度学习器,突破语义分割中的尺度不足与场失效问题 !
Transformer--编码器和解码器(包含掩码张量,注意力机制,多头注意力机制)
编码器部分: 由N个编码器层堆叠而成,每个编码器层由两个子层连接结构组成,第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接,第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接
用户10950404
2024/07/30
9480
Transformer--编码器和解码器(包含掩码张量,注意力机制,多头注意力机制)
YoloV8改进策略:注意力改进|VOLO,视觉识别中的视觉展望器|即插即用|附代码+改进方法
本文参考的是《VOLO:视觉识别中的视觉展望器》一文,该论文主要讨论了视觉识别领域中卷积神经网络(CNNs)与视觉转换器(ViTs)的性能对比,并提出了一个新的模型架构——Vision Outlooker(VOLO)。VOLO通过引入一种新颖的前景注意力机制(Outlook Attention),在ImageNet分类任务上实现了卓越的性能,且能够很好地迁移到下游任务,如语义分割。
AI浩
2024/11/13
1.2K0
YoloV8改进策略:注意力改进|VOLO,视觉识别中的视觉展望器|即插即用|附代码+改进方法
超快语义分割 | PP-LiteSeg集速度快、精度高、易部署等优点于一身,必会模型!!!
语义分割任务旨在精确预测图像中每个像素的标签。它已广泛应用于医学影像、自动驾驶、视频会议、半自动注释等应用。
集智书童公众号
2022/05/26
2.5K0
超快语义分割 | PP-LiteSeg集速度快、精度高、易部署等优点于一身,必会模型!!!
语义分割的基本构造_语义分割综述
语义分割(全像素语义分割)作为经典的计算机视觉问题(图像分类,物体识别检测,语义分割)。其涉及将一些原始数据(例如:平面图像)作为输入并将它们转换为具有突出显示的感兴趣区域的掩膜,其中图像中的每个像素根据其所属的对象被分配类别ID。早起的计算机视觉问题只发现边缘(线条和曲线)或渐变元素,但它们从完全按照人类感知的方式提供像素级别的图像理解。语义分割将属于同一目标的图像部分聚集在一起解决这个问题,从而扩展了其应用领域。值得注意的是,与其他的基于图像的任务相比,语义分割是完全不同且先进的。
全栈程序员站长
2022/09/25
9410
语义分割的基本构造_语义分割综述
基于 Transformer 的多模态融合方法用于语义分割 !
环境语义分割是自动驾驶中的一个挑战性课题,并在诸如操纵、路径规划和场景理解等智能车辆相关研究中发挥着关键作用。由于深度神经网络的进步,特别是卷积神经网络(CNN),以及开放数据集的可用性,语义分割领域已取得了巨大进展。早期研究采用相机的RGB图像作为输入,并用具有相对单调场景的数据集进行测试。近年来,感知传感器行业的蓬勃发展以及严格的安全要求推动了涉及不同传感器和综合场景的语义分割研究。在各种研究中,激光雷达传感器(LiDAR)参与最多。流行的仅激光雷达方法包括VoxNet[6]、PointNet[7]和RotationNet[8]。然而,多模态传感器融合被视为解决自动驾驶问题的有前途的技术,并已成为语义分割的主流选择。
未来先知
2024/08/20
9560
基于 Transformer 的多模态融合方法用于语义分割 !
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
本文首发于 【集智书童】,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。
集智书童公众号
2023/09/04
5330
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
全新范式 | 沈春华老师团队提出无需解码器的目标检测器DFFT
ViT 正在改变目标检测方法的格局。ViT 在检测中的一个自然用途是用基于Transformer的主干替换基于 CNN 的主干,这直接且有效,但代价是为推理带来了相当大的计算负担。更巧妙的做法是 DETR 系列,它消除了在目标检测中对许多手工设计组件的需求,但引入了需要超长收敛时间的解码器。因此,基于 Transformer 的目标检测无法在大规模应用中流行。为了克服这些问题,作者提出了一种完全基于Transformer且无解码器(DFFT)的目标检测器,首次在训练和推理阶段都实现了高效率。 通过围绕2个切
AI科技评论
2022/06/20
4410
全新范式 | 沈春华老师团队提出无需解码器的目标检测器DFFT
长尾语义分割的挑战与解决方案,基于 Transformer 的 Query匹配在LTSS中的应用 !
语义分割[1]使得机器能够以像素 Level 识别图像,这在实际应用中令人印象深刻。由于社区的持续努力,语义分割技术已经取得了显著进步,并发展出了新的能力,例如,领域适应[2, 3],半监督[4, 5],弱监督[6, 7],小样本[8, 9]和零样本语义分割。
AIGC 先锋科技
2024/07/08
3730
长尾语义分割的挑战与解决方案,基于  Transformer 的 Query匹配在LTSS中的应用 !
谷歌团队推出新Transformer,优化全景分割方案|CVPR 2022
---- 点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 新智元 授权 【导读】近日,谷歌团队推出了一项新Transformer,可用于优化全景分割方案,还登上了CVPR 2022。 最近,谷歌AI团队受Transformer和DETR的启发提出了一种使用Mask Transformer进行全景分割的端到端解决方案。 全称是end-to-end solution for panoptic segmentation with mask transformers,主要用于生成分割MaskTransfor
OpenCV学堂
2022/08/29
5490
谷歌团队推出新Transformer,优化全景分割方案|CVPR 2022
推荐阅读
研究人员介绍了“SeMask”:一种有效的 Transformer 框架,它在语义注意操作的帮助下将语义信息整合到编码器中
1.3K0
深度学习图语义分割的综述
6930
用于语义分割的解码器 diffusion 预训练方法
9070
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作
2.8K0
顶刊解读 IJCV | CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测
1750
AMMUNet | 多尺度注意力图融合在图像语义分割中的应用 !
7980
SCLIP?与CLIP是什么关系?比CLIP高40点,这么离谱吗?
1.2K0
北大、北理工、旷视联手:用于图像语义分割的金字塔注意力网络
1.4K0
用于实时语义分割的可重参数化双分辨率网络
2360
Segmenter:基于纯Transformer的语义分割网络
1.9K0
解耦Query与上下文窗,多尺度学习器,突破语义分割中的尺度不足与场失效问题 !
1990
Transformer--编码器和解码器(包含掩码张量,注意力机制,多头注意力机制)
9480
YoloV8改进策略:注意力改进|VOLO,视觉识别中的视觉展望器|即插即用|附代码+改进方法
1.2K0
超快语义分割 | PP-LiteSeg集速度快、精度高、易部署等优点于一身,必会模型!!!
2.5K0
语义分割的基本构造_语义分割综述
9410
基于 Transformer 的多模态融合方法用于语义分割 !
9560
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
5330
全新范式 | 沈春华老师团队提出无需解码器的目标检测器DFFT
4410
长尾语义分割的挑战与解决方案,基于 Transformer 的 Query匹配在LTSS中的应用 !
3730
谷歌团队推出新Transformer,优化全景分割方案|CVPR 2022
5490
相关推荐
研究人员介绍了“SeMask”:一种有效的 Transformer 框架,它在语义注意操作的帮助下将语义信息整合到编码器中
更多 >
LV.0
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档