首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从 Transformer 到 CDXFormer,过特征增强层提升检测性能!

从 Transformer 到 CDXFormer,过特征增强层提升检测性能!

作者头像
未来先知
发布2024-12-19 18:58:23
发布2024-12-19 18:58:23
5010
举报
文章被收录于专栏:未来先知未来先知

在复杂场景和多样化条件下,有效地整合时空上下文对于准确识别变化至关重要。然而,当前的RS-CD方法在性能和效率方面缺乏平衡考虑。卷积神经网络缺乏全局上下文,Transformer具有平方的计算复杂度,而Mambas受CUDA加速的限制。 在本文中,作者提出CDXFormer,其中核心组件是一个强大的基于XLSTM的特征增强层,集成了线性计算复杂度、全局上下文感知和强可解释性的优势。 具体而言,作者引入了一个针对特定尺度的特征增强层,包括一个为语义准确深度特征定制的交叉时间全局感知器,以及一个为细节丰富的浅层特征定制的交叉时间空间精炼器。此外,作者提出了一个跨尺度交互融合模块,逐步将全局变化表示与空间响应进行交互。 大量实验结果表明,CDXFormer在三个基准数据集上实现了最先进的性能,在效率和准确性之间提供了有力的平衡。 代码可在https://github.com/xwmaxwma/rschange。

I Introduction

地球观测技术的迅速发展,包括遥感平台和传感器的进步,扩大了监测地表活动的能力。遥感变化检测(RS-CD)通过比较同一地区不同时间拍摄的图像,识别出感兴趣目标的改变。这使得可以对地理和环境变化进行定量和定性评估,应用在城市规划,灾害评估[2],和环境监测[3]等领域。

RS-CD任务具有内在的多尺度和多时相特性,有效的变化检测依赖于空间和时间上下文的聚合。传统方法--基于代数的[4, 5],基于变换的,基于分类的--严重依赖手工特征,它们在处理复杂环境和有限信息聚合时表现不佳。基于CNN的方法通过设计多尺度特征融合结构为 RS-CD 引入深度学习,以提高空间-时间建模。深度CNN ,膨胀卷积[15],注意力机制,多尺度卷积[19],以及3D卷积的内部融合属性[20]等技术已被探索,但建模长程依赖性仍存在挑战。

此后,基于Transformer的方法由于其全局自注意力机制在RS-CD中得到了关注,该机制可以建模空间-时间特征图之间的依赖关系[21, 22]。这些方法专注于跨尺度[23]和跨时相融合[24],在全局空间-时间建模方面取得了强大的结果。然而,这些方法通常由于自注意力计算而具有二次计算复杂性。

最近,基于Mambas的方法[25]因其线性复杂度和全局感知能力而迅速流行起来。虽然它们提供了一种具有竞争力的解决方案,但它们依赖于CUDA加速和性能不佳仍然是一种限制。为了解决这个问题,XLSTM出现了,它具有指数门控机制和矩阵并行内存[26, 27],将Mambas的优势与并行加速和增强的 interpret-ability 相结合。作者首次探索XLSTM在RS-CD中的应用,使模型能够更直观和高效地捕捉变化表示。

在本文中,作者评估了CNNs、Transformers和Mambas的优势和局限性,同时突显了XLSTM在RS-CD任务中的潜力。首先,双时图像通过Siamese Backbone 网络生成多尺度特征图。CDXFormer的核心组件是一个强大的XLSTM特征增强(FE)层,该层专门采用具有特定尺度的扫描策略。

具体来说,在更深层引入了Cross-Temporal Global Perceptron(CTGP),旨在根据全局感知增强双时图像中感兴趣物体的语义差异。

考虑到浅层特征相对语义不准确且富含空间细节,在浅层引入了Cross-Temporal Spatial Refiner(CTSR),以减少背景像素的干扰并补充轴向扫描的空间响应。具体来说,作者采用了共享参数双向扫描MLSTM块[27](Bi-mLSTM)。最后,作者认识到最大尺度的分支,具有全面的空间信息,对于精确的变化检测至关重要。作者提出了一种Cross-scale Interactive Fusion模块(CSIF),该模块以最大尺度分支为基础,逐步集成空间信息和来自较小尺度分支的全局语义。

总体而言,作者的贡献可以总结如下:

  1. 作者分析了XLSTM与CNNs、Transformer和Mambas的优缺点,并在RS-CD任务上首次应用。凭借其线性复杂度、全局上下文 Aware 、并行加速以及增强的可解释性,XLSTM实现了对感兴趣的变化的更直观、更高效的区分。
  2. 作者针对RS-CD任务定制了一种基于XLSTM的扫描策略,以减少冗余。具体而言,作者提出了一种跨时间全局感知器(CTGP)和跨时间空间细化器(CTSR),以有效捕捉局部空间细节和全局上下文变化。
  3. 作者提出了一种跨尺度交互融合模块(CSIF),以逐步集成空间信息和全局语义。

作者的实验表明,CDXFormer在三个RS-CD基准数据集上超越了之前的最佳方法,实现了在准确性和效率之间达到优越平衡的目标。

II Methodology

利用XLSTM的线性复杂度、全局上下文感知、并行加速和增强的易解释性[26],作者设计了一个针对不同尺度的CDXFormer,有效地模拟变化表示,同时减少冗余。在以下子节中,作者首先概述了CDXFormer的整体架构(第II-A节),然后详细介绍了特征增强器(FE)的组件:低分辨率分支的跨时间全局感知器(CTGP)(第II-B1)和高分辨率分支的跨时间空间细化器(CTSR)(第II-B2)。接着,作者介绍了跨尺度交互融合模块(CSTF)(第II-C)。最后,作者描述了损失函数的设计(第II-D)。

Overall Architecture

作者提出CDXFormer(如图1所示),该方法在性能和效率之间取得了良好的平衡。它采用了一种针对不同尺度的特定XLSTM扫描策略,有效地解决了不同尺度之间的差异,从而进一步提高整体性能。

具体来说,CDXFormer 包括一个 Siamese Backbone ,一个 FE 层(包括 CTGP 和 CTSR),以及一个 CSIF 模块。使用权重共享的 Seaformer-L [28] Siamese Backbone 提取特征,其中低分辨率分支通过 CTGP 捕获全局语义,高分辨率分支通过 CTSR 增强空间细节。最后,CSIF 模块实现了有效的多尺度特征交互。

Feature Enhancer

这一部分介绍了特征增强器的的设计理念。作者认为低分辨率分支,具有全局视角,应主要用于区分双时序特征中的变化区域和背景。相反,高分辨率分支,富含空间细节,应专注于增强空间响应,这对于准确定位变化区域至关重要。因此,作者设计了用于低分辨率分支的跨时全局感知器(CTGP)和用于高分辨率分支的跨时空间细化器(CTSR),各自针对其特定角色进行定制。

Ii-B1 Cross-Temporal Global Perceptron

这段代码旨在捕捉低分辨率分支的全球变化语义。在低分辨率的双时域特征和被 Siamese Backbone 网络提取后,作者首先通过逐元素减法计算粗略的全变化表示:

接下来, 分别与每个双时态特征相连接。然后进行深度可分卷积(DSConv)和 sigmoid 激活函数(),使得模型能够学习更精细的空间细节并生成更准确的权重,从而得到 和 ,如公式 2 所示。

同时,作者引入了一个mLSTM模块,直接将长期建模应用到上,以增强全局变化表示。由于图像是无序的,作者使用了一个共享参数的双向mLSTM(Bi-mLSTM,表示为)。

最后,空间权重用于增强变化表示,然后将它们 ConCat 起来并经过另一个DSConv,从而得到最终的局部变化表示。此操作如图3和4所示。

Ii-B2 Cross-Temporal Spatial Refiner

这段代码是为了高分辨率分支获取丰富的空间信息的变化表示。给定由 Siamese Backbone 网络提取的高分辨率双时态特征 和 ,作者首先根据公式 1 和 2 获得粗糙的变化表示 和空间细节增强权重 ( 和 )。

不同于CTGP,作者采用轴向双长短时记忆网络(Bi-mLSTM)作为注意力机制来模拟中的空间细节,尤其是适用于主要发生在长条形建筑中的变化。

具体来说,作者首先对在水平()和垂直()轴上进行平均池化,然后为每个方向应用一个双长短时记忆网络(Bi-mLSTM)模块。接下来,作者将输出广播回原始大小,并通过逐元素加法与相加。经过一个 sigmoid 激活函数()后,作者得到轴向空间增强权重(),如公式5所示。

为了尽可能保留原始的空间细节,同时使用轴向空间权重和空间细节增强权重来细化原始的双时间特征图。

最后,增强的双时间特征图被拼接并经过DSConv处理,以产生最终的变换表示,如公式6所示。

Cross-scale Interactive Fusion Module

在获得不同尺度上的变化表示之后,作者提出了一种跨尺度交互融合(CSIF)模块,用于将空间细节与高级全局变化语义相结合。为了准确确定感兴趣区域,应使用最高分辨率的變化表示作为参考,该表示保留最丰富的空间细节,以确保尽可能地保留空间细节。因此,后续的变化表示将逐步与参考使用CSIF模块进行融合。

在CSIF模块中,给定高分辨率变化表示和低分辨率变化表示,作者首先使用MLP残差块增强,得到。然后对进行上采样并逐元素与相加,得到。接下来,作为 Query ,作为 Key和Value ,应用交叉注意力融合高分辨率和低分辨率信息,然后通过残差连接与进行处理。经过额外的MLP残差增强后,得到聚合表示。这个将作为下一个CSIF模块的高分辨率变化表示。

经过三个CSIF模块聚合后,作者得到最终的改变表示。接下来,这个值经过两个MLP层处理,其中第一层包含一个DSConv残差连接,最终得到改变检测图。

Loss Function

CDXFormer采用二进制交叉熵损失和 dice 损失的组合 [36] 来监督 Mask 。最终的损失函数是 Mask 损失和分类损失的加权和,定义为:。

III Experiments

Datasets and Implementation Details

数据集 作者在LEVIR-CD [37](,训练集7120张图片,验证集1024张图片,测试集2048张图片)、WHU-CD [38](,训练集6096张图片,验证集762张图片,测试集762张图片)和CLCD [39](,训练集360张图片,验证集120张图片,测试集120张图片)数据集上进行实验。

实现细节作者使用PyTorch实现CDXFormer,其中使用了一台配备NVIDIA GTX 4090显卡的工作站。初始学习率为0.05,采用SGD优化器, momentum为0.9, weight decay为0.00005。

评价指标。作者使用变化类别F1分数(F1)作为主要的评价指标。这些指标包括变化类别的精确度(Pre.)、召回率(Rec.)、变化类别的IoU以及总体准确率(OA)。这些指标的定义与[22]中的方法相同。

Main Results

作者将作者的结果与各领域的最新方法进行了比较,包括卷积方法(如FC-EF [29]、FC-Siam-Di [29]、FC-Siam-Conc [29]、IFNet [30]、DTCD-SCN [31]、SNUNet [32]、ChangeStar(FarSeg [40])[33]、LGPNet [35]、USSFC-Net [19]和AFCF3D-Net [20]); Transformer 方法(如DIMATNet [34]、BIT [22]、ChangeFormer [21]和SARASNet [24]);以及基于Mamba的方法RS-Mamba [25]。

提出的CDXFormer在三个变化检测数据集上都取得了优越的性能,超过了最近的方法,如表1所示。这种全面的比较强调了作者的方法相对于该领域领先技术的性能。具体而言,CDXFormer在LEVIR-CD、WHU-CD和CLCD数据集上的F1得分分别比RS-Mamba提高了0.22%、1.08%和7.46%,这种改进在像CLCD这样的复杂场景中尤为显著,该数据集具有多种目标分布和更丰富的变化。此外,CDXFormer更加高效,只有16.19M参数和3.92G Flops,与最新的方法AFCF3D-Net和RS-Mamba相比,显著降低了计算成本。

此外,作者还可视化了变化图与SNUNet、BIT、SARASNet和AFCF3D-Net的比较,如图2所示。可以看出,CDXFormer在复杂场景中显著降低了假正负。

Ablation study

进一步验证了XLSTM在特征提取(FE)模块中的长期建模的有效性,如表2所示。作者通过用CNN([31]中的SCSEBlock)替代Bi-mLSTM,Transformer([41]中的Encoder)替代,以及Mamba([42]中的SS2D)替代,进行了实验。结果表明,Bi-mLSTM的性能最佳,进一步确认了XLSTM相对于CNNs、Transformers和Mambas的优越建模能力。

为了探索从高分辨率分支到低分辨率分支提取变化表示的最优特征增强器组合,作者进行了相关实验,结果如表3所示。结果表明,当使用CTSR在1/4和1/8分辨率时,以及CTGP在1/16和1/32分辨率时,模型达到最佳性能,F1分数为78.73%。这表明,定制的尺度特定特征增强器可以在前两个更高分辨率分支中减少冗余和噪声,而在后分支中以像素方式扫描,以捕获更多的全局变化语义,确保性能和效率之间的最优平衡。

Ablation of the proposed blocks. 作者对每个提出的模块 CTSR, CTGP 和 CSIF 进行了消融研究,结果如表4 所示。结果表明,移除其中的任何一个模块都会导致性能下降,这突显了 CTSR, CTGP 和 CSIF 这三个模块在为模型整体有效性作出贡献方面起着重要作用。

IV Conclusion

主流的RS-CD方法在依赖CNN、变换器和Mambas时,往往难以平衡性能和效率。然而,CNN受限于其无法有效建模全局上下文,变换器受其二次计算复杂性的限制,而Mambas由于依赖CUDA加速而面临限制。

为了克服这些限制,作者提出了CDXFormer,这是首次引入XLSTM,提供线性复杂性、全局上下文感知、并行加速和增强的可解释性。这种新颖的方法旨在有效地弥合RS-CD任务中性能和效率之间的差距。

在作者的探索中,作者确定了定制特定尺度的特征增强器的重要性,该增强器使用CTSR和CTGP更有效地建模变化表示,同时减少冗余。

此外,作者引入了CSIF模块,以在整合来自低分辨率变化表示的全局语义的同时保留空间细节。

提出的CDXFormer在三个RS-CD数据集上实现了最先进的成果,实现了准确性和效率之间的平衡。在未来的工作中,作者旨在探索更轻量级的跨时XLSTM设计,以进一步提高性能和效率。

参考文献

[0]. CDXFormer: Boosting Remote Sensing Change Detection with Extended Long Short-Term Memory.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • I Introduction
  • II Methodology
    • Overall Architecture
    • Feature Enhancer
    • Cross-scale Interactive Fusion Module
    • Loss Function
  • III Experiments
    • Datasets and Implementation Details
    • Main Results
    • Ablation study
  • IV Conclusion
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档