Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CrossFormer论文解读

CrossFormer论文解读

作者头像
AI浩
发布于 2025-01-11 12:11:28
发布于 2025-01-11 12:11:28
3920
举报
文章被收录于专栏:AI智韵AI智韵

概述

CrossFormer是一种新型的视觉Transformer架构,旨在通过引入跨尺度注意力机制来提升计算机视觉任务的性能。该模型特别关注不同尺度特征之间的交互,解决了现有视觉Transformer在处理多尺度特征时的不足。

一. 研究背景

在计算机视觉中,特征的多尺度性对于理解和处理图像至关重要。然而,许多现有的视觉Transformer模型未能有效利用这些跨尺度特征,主要原因包括:

  • 输入嵌入在每一层都是相同尺度的,缺乏跨尺度特征。
  • 一些模型为了降低计算成本,牺牲了小尺度特征。

二. 核心创新

CrossFormer提出了以下关键组件,以解决上述问题:

  • **Cross-scale Embedding Layer (CEL)**:
    • CEL通过将每个嵌入与多个不同尺度的图像块混合,提供了跨尺度特征。这使得自注意力模块能够接收到多尺度的信息,从而增强模型的表达能力。
  • **Long Short Distance Attention (LSDA)**:
    • LSDA将自注意力模块分为短距离和长距离两个部分。这种设计不仅降低了计算负担,还保留了小尺度和大尺度特征,使得模型在处理复杂视觉任务时更加高效。
  • **Dynamic Position Bias (DPB)**:
    • DPB模块使得相对位置偏差能够适应可变大小的图像,增强了模型的灵活性。

Cross-scale Embedding Layer (CEL) 解读

Cross-scale Embedding Layer (CEL) 是CrossFormer模型中的一个核心组件,旨在有效地捕捉和融合不同尺度的特征信息。CEL的设计使得模型能够在处理视觉输入时,充分利用多尺度特征,从而提升模型在各种计算机视觉任务中的表现。

1. CEL的结构与功能

在这里插入图片描述

CEL位于CrossFormer的每个阶段(stage)的开头,主要负责以下功能:

  • 输入处理:CEL接收来自上一个阶段的输出(或直接接收输入图像),并生成跨尺度的嵌入。
  • 多尺度特征提取:通过使用多个不同大小的卷积核,CEL能够从输入中提取不同尺度的特征。这些特征随后被拼接在一起,形成一个包含多尺度信息的嵌入。
  • 下采样:在生成嵌入的过程中,CEL还会对特征进行下采样,以减少后续计算的复杂度。具体来说,CEL在每个阶段会将嵌入的数量减少到四分之一,同时将其维度加倍,以适应金字塔结构的设计。

2. CEL的工作原理

CEL的工作原理可以分为以下几个步骤:

  • 卷积操作:CEL使用多个不同大小的卷积核(例如4×4、8×8等)对输入进行卷积操作。这些卷积核的步幅(stride)保持一致,以确保在提取特征时不会丢失重要信息。
  • 特征拼接:经过卷积处理后,CEL将不同尺度的特征图拼接在一起,形成一个综合的特征表示。这种拼接方式使得模型能够同时利用小尺度和大尺度的信息。
  • 输出生成:最终,CEL生成的嵌入将被传递到后续的CrossFormer块中,供进一步的处理和分析。

3. CEL的优势

CEL的设计带来了几个显著的优势:

  • 跨尺度特征融合:通过同时处理多个尺度的特征,CEL能够有效捕捉到图像中的细节和全局信息,从而提升模型的表现。
  • 计算效率:CEL通过下采样和特征拼接,减少了后续计算的复杂度,使得模型在保持高性能的同时,能够更高效地处理输入数据。
  • 灵活性:CEL的设计使得CrossFormer能够适应不同尺寸的输入图像,增强了模型的通用性和适用性。

Long Short Distance Attention (LSDA) 模块解读

Long Short Distance Attention (LSDA) 是CrossFormer模型中的一个重要模块,旨在优化自注意力机制,以更有效地处理视觉输入中的长短距离依赖关系。LSDA通过将自注意力模块分为短距离注意(SDA)和长距离注意(LDA)两个部分,既降低了计算成本,又保留了小尺度和大尺度特征的有效性。

1. LSDA的结构与功能

LSDA模块的设计包括以下几个关键组成部分:

  • 短距离注意(SDA)
    • SDA负责处理相邻嵌入之间的依赖关系。具体来说,SDA将每个相邻的嵌入分组在一起,以便在每个组内应用自注意力机制。这种方法确保了小尺度特征的保留,使得模型能够捕捉到细节信息。
  • 长距离注意(LDA)
    • LDA则处理远离彼此的嵌入之间的依赖关系。通过对嵌入进行固定间隔的采样,LDA能够有效地建立长距离的上下文关系。这种设计使得模型能够在处理大尺度特征时,仍然保持对小尺度特征的关注。

2. 工作原理

LSDA的工作原理可以分为以下几个步骤:

  • 分组嵌入
    • 在SDA中,输入的嵌入被分为多个相邻的组,每个组内的嵌入通过自注意力机制进行处理。这样,模型能够在局部范围内建立依赖关系。
  • 固定间隔采样
    • 在LDA中,嵌入按照固定的间隔进行采样,形成较大的组。通过这种方式,LDA能够捕捉到远距离的上下文信息,从而增强模型的全局感知能力。
  • 计算效率
    • 通过将自注意力模块分为SDA和LDA,LSDA显著降低了计算和存储成本。具体来说,LSDA的计算复杂度从传统自注意力的降低到,其中是组的大小。这使得LSDA在处理高分辨率图像时更加高效。

3. 优势

LSDA模块的设计带来了几个显著的优势:

  • 保留多尺度特征
    • 通过同时处理短距离和长距离的依赖关系,LSDA能够有效保留小尺度和大尺度特征,使得模型在处理复杂视觉任务时更加灵活。
  • 降低计算成本
    • LSDA通过分组和固定间隔采样的方式,显著降低了自注意力的计算成本,使得模型能够在更大的输入尺寸下运行。
  • 增强上下文理解
    • LDA的设计使得模型能够在长距离上建立上下文关系,从而提高了对图像中不同对象之间关系的理解能力。

Dynamic Position Bias (DPB) 解读

Dynamic Position Bias (DPB) 是CrossFormer模型中的一个创新模块,旨在增强模型对输入图像中嵌入位置的感知能力。DPB通过动态生成相对位置偏差,使得模型能够适应不同尺寸的输入图像,从而克服传统相对位置偏差(Relative Position Bias, RPB)在处理可变图像大小时的局限性。

1. DPB的结构与功能

在这里插入图片描述

DPB的设计主要包括以下几个关键方面:

  • 动态生成:DPB使用一个多层感知器(MLP)来动态生成相对位置偏差。与固定大小的RPB不同,DPB能够根据输入的实际尺寸生成适合的偏差矩阵。
  • 输入处理:DPB的输入是两个嵌入之间的相对坐标差( 和 ),这些坐标差表示了嵌入在图像中的相对位置。
  • 非线性变换:DPB通过三个全连接层(包含层归一化和ReLU激活函数)进行非线性变换,从而生成相对位置偏差。这种设计使得DPB能够灵活地适应不同的输入尺寸。

2. 工作原理

DPB的工作原理可以分为以下几个步骤:

  • 相对位置计算:在输入图像中,DPB首先计算每对嵌入之间的相对位置差。这些差值作为DPB的输入。
  • 偏差生成:通过MLP,DPB将相对位置差转换为相应的偏差值。这些偏差值将被添加到自注意力机制的注意力图中,以增强模型对嵌入位置的感知。
  • 灵活性:由于DPB能够根据输入的实际尺寸动态生成偏差,因此它在处理不同大小的图像时表现出更高的灵活性和适应性。

3. 优势

DPB模块的设计带来了几个显著的优势:

  • 适应性强:DPB能够处理可变尺寸的输入图像,使得CrossFormer在多种视觉任务中更加灵活。
  • 性能提升:实验表明,DPB在多个视觉任务中表现优于传统的RPB,尤其是在需要处理不同尺寸图像的任务中。
  • 计算效率:DPB的实现相对简单,且在计算上不会显著增加额外的开销,使得模型在保持高性能的同时,仍然能够高效运行。

三. 实验结果

CrossFormer在多个计算机视觉任务中的表现优于其他视觉Transformer模型,具体结果如下:

  • 图像分类:在ImageNet数据集上,CrossFormer的准确率超过了其他主流模型,如DeiT和Swin Transformer。
  • 目标检测和实例分割:在COCO数据集上,CrossFormer在目标检测和实例分割任务中均表现出色,尤其是在较大模型的情况下,性能提升更为明显。
  • 语义分割:在ADE20K数据集上,CrossFormer同样展现了优越的性能,尤其是在处理复杂场景时。

四. 总结

CrossFormer通过创新的跨尺度嵌入和注意力机制,成功地解决了视觉Transformer在处理多尺度特征时的不足。其在图像分类、目标检测、实例分割和语义分割等任务中的优异表现,证明了其在计算机视觉领域的广泛适用性和有效性。CrossFormer的设计理念为未来的视觉Transformer研究提供了新的方向,尤其是在如何有效利用多尺度特征方面。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI智韵 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
TPAMI 2024 | 真是天才!浙江大学提出跨尺度、长距离注意力Transformer,胜任多项视觉任务!
虽然不同尺度的特征在视觉输入中具有感知重要性,但现有的视觉Transformer尚未显式利用这些特征。为此,我们首先提出了一种跨尺度视觉Transformer,即CrossFormer。它引入了跨尺度嵌入层(CEL)和长短距离注意力(LSDA)。一方面,CEL将每个标记与不同尺度的多个补丁混合,为自注意力模块本身提供跨尺度特征。另一方面,LSDA将自注意力模块分为短距离和长距离部分,这不仅减少了计算负担,还保留了标记中的小尺度和大尺度特征。此外,通过对CrossFormer的实验,我们观察到影响视觉Transformer性能的另外两个问题,即自注意力图的扩展和幅度爆炸。因此,我们进一步提出了渐进组大小(PGS)范式和幅度冷却层(ACL)来分别缓解这两个问题。结合PGS和ACL的CrossFormer称为CrossFormer++。大量实验表明,CrossFormer++在图像分类、目标检测、实例分割和语义分割任务上均优于其他视觉Transformer。
小白学视觉
2024/08/30
9820
TPAMI 2024 | 真是天才!浙江大学提出跨尺度、长距离注意力Transformer,胜任多项视觉任务!
浙大和腾讯开源CrossFormer:基于跨尺度注意力的视觉Transformer
CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention
Amusi
2021/08/10
2.7K0
浙大和腾讯开源CrossFormer:基于跨尺度注意力的视觉Transformer
深度探讨CrossFormer如何解决跨尺度问题
浙大联合腾讯等开源的新视觉模块CrossFormer最近开源,该工作通过提出两个模块:CEL和LSDA,弥补了以往架构在建立跨尺度注意力方面的缺陷。本文作者对其进行了详细的分析,介绍了各模块的设计原理模型结构,更深入的了解工作的核心。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
AIWalker
2021/08/25
1.2K0
深度探讨CrossFormer如何解决跨尺度问题
超越传统 UNet ,GCtx-UNet 结合全局与局部特征,实现高效图像分割 !
自动化医学图像分割在提供有价值信息以预防、诊断、进展监测和预测各种疾病以及定量病理学评估中至关重要。目前,包括编码器、解码器和跳跃连接在内的U形深度神经网络在医学图像分割中应用最为广泛。尽管U形网络在许多医学图像分割任务中取得了最先进的表现,但仍然存在局限性。一个主要的局限性是编码器在有效提取和整合长距离和局部特征方面的能力。
AIGC 先锋科技
2024/07/08
1.3K0
超越传统 UNet ,GCtx-UNet  结合全局与局部特征,实现高效图像分割 !
FasterViT:英伟达提出分层注意力,构造高吞吐CNN-ViT混合网络 | ICLR 2024
论文: FasterViT: Fast Vision Transformers with Hierarchical Attention
VincentLee
2024/04/23
3120
FasterViT:英伟达提出分层注意力,构造高吞吐CNN-ViT混合网络 | ICLR 2024
AMMUNet | 多尺度注意力图融合在图像语义分割中的应用 !
远程感知图像的语义分割至关重要,因为它为城市规划、环境监测和资源管理等一系列应用奠定了基础。深度学习的出现,尤其是卷积神经网络(CNNs),带来了显著的范式转变,革新了计算机视觉领域,进而也影响了远程感知图像分析。
AIGC 先锋科技
2024/07/08
9630
AMMUNet  |  多尺度注意力图融合在图像语义分割中的应用 !
暗场景下的视觉突破:ECAFormer提升低光照图像增强性能 !
在低光照条件下捕捉图像常常会导致各种摄影挑战,如细节数据丢失、色彩强度降低、对比度和动态范围减小以及曝光不均。这些问题会降低视觉数据的质量和清晰度,进而显著阻碍后续基于视觉的任务。例如,它们可能妨碍自动驾驶系统[1, 2, 3]、夜间监控努力[4]以及遥感应用[5]的表现。因此,在低光照图像中提高物体和细节的可见性,对于一系列应用都是一个关键问题,具有广泛的影响。
未来先知
2024/08/08
9780
暗场景下的视觉突破:ECAFormer提升低光照图像增强性能 !
顶刊解读 IJCV | CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测
CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测 Dong Zhang,Yi Lin, Jinhui Tang,Kwang-Ting Cheng
小白学视觉
2024/10/21
2270
顶刊解读 IJCV | CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???
Transformer最初是用来解决自然语言处理任务的。它最近在计算机视觉领域显示出巨大的潜力。先锋工作Vision Transformer(ViT)将多个Transformer块堆叠在一起,以处理非重叠的图像patch(即视觉Token)序列,从而产生了一种无卷积的图像分类模型。与CNN模型相比,基于Transformer的模型具有更大的感受野,擅长于建模长期依赖关系,在大量训练数据和模型参数的情况下取得了优异的性能。然而,视觉识别中的过度关注是一把双刃剑,存在多重弊端。具体来说,每个query patch中参与的key数过多会导致较高的计算成本和较慢的收敛速度,并增加过拟合的风险。
集智书童公众号
2022/02/10
1.5K0
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???
论文解读 | EATFormer:受进化算法启发改进视觉Transformer
受生物进化启发,本文通过类比经过验证的实用进化算法(EA)来解释视觉Transformer(ViT)的合理性,并推导出两者一致的数学表述。然后,受有效的EA变体启发,我们提出了一种新颖的金字塔EATFormer骨干网络,它只包含所提出的基于EA的Transformer(EAT)块。该块由三个残差部分组成,即多尺度区域聚合、全局和局部交互以及前馈网络模块,分别对多尺度、交互和个体信息进行建模。此外,我们设计了一个与Transformer骨干网络对接的任务相关头部,以更灵活地完成最终信息融合,并改进了调制可变形MSA,以动态建模不规则位置。大量的定量和定性实验在图像分类、下游任务和解释性实验中证明了我们方法的有效性和优越性。例如,我们的Mobile(1.8 M)、Tiny(6.1 M)、Small(24.3 M)和Base(49.0 M)模型仅使用ImageNet-1K上的朴素训练配方进行训练,就达到了69.4、78.4、83.1和83.9的Top-1准确率;EATFormer-Tiny/Small/Base武装的Mask-R-CNN在COCO检测上分别获得了45.4/47.4/49.0的box AP和41.4/42.9/44.2的mask AP,超过了当代MPViT-T、Swin-T和Swin-S的0.6/1.4/0.5 box AP和0.4/1.3/0.9 mask AP,同时FLOPs更少;我们的EATFormerSmall/Base在ADE20K上通过UperNet实现了47.3/49.3 mIoU,超过了Swin-T/S的2.8/1.7。
小白学视觉
2024/10/25
2520
论文解读 | EATFormer:受进化算法启发改进视觉Transformer
解读UTNet | 用于医学图像分割的混合Transformer架构(文末获取论文)
Transformer架构已经在许多自然语言处理任务中取得成功。然而,它在医学视觉中的应用在很大程度上仍未得到探索。在这项研究中,本文提出了UTNet,这是一种简单而强大的混合Transformer架构,它将自注意力集成到卷积神经网络中,以增强医学图像分割。
集智书童公众号
2021/07/08
2.6K0
探索3D视觉中的Transformer架构:通用Backbone与自适应采样策略 !
计算机视觉中的一个基本问题是在三维空间中理解和识别场景与物体。它允许以紧凑的方式表达关系,并提供在现实世界中导航和操作的能力。3D视觉在各个领域都发挥着重要作用,包括自动驾驶、机器人技术、遥感、医疗、增强现实、设计行业等众多应用。
未来先知
2024/08/08
7640
探索3D视觉中的Transformer架构:通用Backbone与自适应采样策略  !
Swin Transformer:最佳论文,准确率和性能双佳的视觉Transformer | ICCV 2021
论文: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
VincentLee
2024/07/02
4080
Swin Transformer:最佳论文,准确率和性能双佳的视觉Transformer | ICCV 2021
ICCV2021 MIT-IBM沃森开源CrossViT:Transformer走向多分支、多尺度
今日分享 ICCV 2021 论文『CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification』, MIT-IBM 沃森人工智能实验室开源《CrossViT》,Transformer 开始走向多分支、多尺度(附目前多尺度ViT异同点对比)。
CV君
2021/09/28
2.1K0
MLP-Like Backbone | Strip-MLP跨行Token交互比SWin Transformer更轻更强的性能
本文首发于 【集智书童】,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。
集智书童公众号
2023/09/04
8380
MLP-Like Backbone | Strip-MLP跨行Token交互比SWin Transformer更轻更强的性能
CFPFormer| 将特征金字塔与 Transformer 完美融合,显著提升图像分割与目标检测效果!
深度学习技术的出现,特别是像U-Net [20]这样的卷积神经网络(CNNs),通过提高图像分割和分析等任务的准确性和效率,显著推动了该领域的发展。这在现代医疗中发挥着关键作用,帮助临床医生进行准确诊断、治疗规划以及疾病监测。
集智书童公众号
2024/04/30
2K0
CFPFormer| 将特征金字塔与 Transformer 完美融合,显著提升图像分割与目标检测效果!
CNN再助力!CoaT:Co-Scale卷积-注意力图像Transformer
Co-Scale Conv-Attentional Image Transformers
Amusi
2021/04/23
1.4K0
CNN再助力!CoaT:Co-Scale卷积-注意力图像Transformer
顶刊解读 TRGS | 位置-时间感知Transformer用于遥感变化检测
随着深度学习的发展,遥感(RS)图像变化检测(CD)方法取得了显著进展。然而,许多基于卷积神经网络(CNN)的方法因接受域限制而在捕获长距离依赖性方面受到限制。Transformer依赖于自注意力机制,有效实现全局信息建模,并在CD任务中广泛使用。尽管如此,基于Transformer的CD方法仍然存在诸如伪变化和不完整边缘等问题,这是由于缺乏双时相RS图像中的位置和时间相关性。为了解决这个问题,作者提出了位置-时间感知Transformer(PT-Former),它在双时相图像中建模位置和时间关系。具体来说,连接到位置感知嵌入模块(PEM)的孪生网络作为特征编码器,用于提取变化区域的特征。然后,设计了时间差异感知模块(TDPM)来捕获跨时相移位并增强跨时相交互期间的差异感知能力。同时,通过融合块聚合地面对象的上下文信息,并在双时相特征的指导下重建空间关系。实验结果在三个基准数据集上验证了PT-Former的优越性,包括季节变化CD(SVCD)数据集、学习视觉和RS实验室建筑CD(LEVIR-CD)数据集和WHU-CD数据集,证实了PT-Former在RS图像CD任务中的潜力。
小白学视觉
2024/11/11
7310
顶刊解读 TRGS | 位置-时间感知Transformer用于遥感变化检测
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
对于目标检测、实例分割、图像分类和许多其他当前的计算机视觉挑战,一个带有Multi-Head Self-Attention的Transformer可能是所有任务都需要的。Transformer在自然语言处理中取得成功后,学习远程特征依赖在计算机视觉中也被证明是一种有效的策略。
集智书童公众号
2021/12/13
1.8K0
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
YoloV8改进策略:注意力改进|引入DeBiLevelRoutingAttention注意力模块(全网首发)
在计算机视觉领域,目标检测任务的性能提升一直是研究热点。我们基于对YoloV8模型的深入理解,创新性地引入了DeBiLevelRoutingAttention(简称DBRA)注意力模块,旨在进一步增强模型的特征提取能力和目标检测精度。
AI浩
2024/10/22
9870
YoloV8改进策略:注意力改进|引入DeBiLevelRoutingAttention注意力模块(全网首发)
推荐阅读
TPAMI 2024 | 真是天才!浙江大学提出跨尺度、长距离注意力Transformer,胜任多项视觉任务!
9820
浙大和腾讯开源CrossFormer:基于跨尺度注意力的视觉Transformer
2.7K0
深度探讨CrossFormer如何解决跨尺度问题
1.2K0
超越传统 UNet ,GCtx-UNet 结合全局与局部特征,实现高效图像分割 !
1.3K0
FasterViT:英伟达提出分层注意力,构造高吞吐CNN-ViT混合网络 | ICLR 2024
3120
AMMUNet | 多尺度注意力图融合在图像语义分割中的应用 !
9630
暗场景下的视觉突破:ECAFormer提升低光照图像增强性能 !
9780
顶刊解读 IJCV | CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测
2270
清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花???
1.5K0
论文解读 | EATFormer:受进化算法启发改进视觉Transformer
2520
解读UTNet | 用于医学图像分割的混合Transformer架构(文末获取论文)
2.6K0
探索3D视觉中的Transformer架构:通用Backbone与自适应采样策略 !
7640
Swin Transformer:最佳论文,准确率和性能双佳的视觉Transformer | ICCV 2021
4080
ICCV2021 MIT-IBM沃森开源CrossViT:Transformer走向多分支、多尺度
2.1K0
MLP-Like Backbone | Strip-MLP跨行Token交互比SWin Transformer更轻更强的性能
8380
CFPFormer| 将特征金字塔与 Transformer 完美融合,显著提升图像分割与目标检测效果!
2K0
CNN再助力!CoaT:Co-Scale卷积-注意力图像Transformer
1.4K0
顶刊解读 TRGS | 位置-时间感知Transformer用于遥感变化检测
7310
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
1.8K0
YoloV8改进策略:注意力改进|引入DeBiLevelRoutingAttention注意力模块(全网首发)
9870
相关推荐
TPAMI 2024 | 真是天才!浙江大学提出跨尺度、长距离注意力Transformer,胜任多项视觉任务!
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档