前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >基于域自适应的双光融合​​​ ​​

基于域自适应的双光融合​​​ ​​

作者头像
Srlua
发布2025-01-02 08:56:26
发布2025-01-02 08:56:26
1330
举报
文章被收录于专栏:CSDN社区搬运CSDN社区搬运

引言

红外和可见光图像融合的目标是将红外图像和可见光图像的互补信息结合起来,以实现更全面的环境感知。这意味着通过融合两种类型的图像,可以获得比单独使用任何一种图像更丰富的场景信息。

红外图像在夜间监控和目标检测等低光环境下表现优异。这是因为红外图像能够捕捉到热辐射,这种辐射不受可见光照明条件的限制,因此可以在完全黑暗或光线不足的环境中“看到”物体和场景。

可见光图像保留了丰富的细节和色彩,提供了清晰的现场表示。这是因为可见光图像捕捉的是人眼可以看到的光谱范围,因此它们能够提供与人类视觉感知相似的图像,包括颜色和纹理等细节。

将这两种模态的图像融合起来可以弥补各自的局限性。例如,红外图像虽然能在夜间“看见”,但缺乏色彩信息;而可见光图像虽然色彩丰富,但在低光环境下表现不佳。通过融合,可以结合红外图像的夜间监控能力和可见光图像的细节和色彩信息,从而提供更完整的环境理解。

尽管融合的优势明显,但由于成像原理、分辨率和光谱响应的差异,保持关键信息的一致性成为一个主要挑战。这意味着在融合过程中,需要找到一种方法来确保两种图像中的关键特征(如边缘、纹理和轮廓)能够被准确地结合在一起,而不是相互冲突或丢失。

现有的图像融合方法大致分为三类:

  • 传统方法:如像素级或特征级融合方法,这些方法通过简单的规则进行融合,计算效率高,易于实现,但无法充分利用红外和可见光图像的互补信息,导致融合效果有限。
  • 变换域方法:如小波变换和拉普拉斯金字塔技术,这些方法通过将图像分解为不同的频率成分来保留细节,但在重建过程中可能丢失关键的模态特定特征,难以同时保留全局结构和细节纹理。
  • 基于深度学习的方法:近年来,深度学习方法取得了显著进展,如卷积神经网络(CNN)和生成对抗网络(GAN)。这些方法能够通过学习模态间的非线性关系,生成视觉质量更高的融合图像。然而,深度学习方法通常需要大量标注数据,这在数据稀缺时成为限制因素。此外,在保持全局结构和细节纹理方面仍然存在挑战。

为了更好地对齐红外和可见光图像的潜在特征空间,论文《DAF-Net: A Dual-Branch Feature Decomposition Fusion Network with Domain Adaptive for Infrared and Visible Image Fusion》提出了一种域自适应的双分支特征分解融合网络(DAF-Net)。该方法通过引入多核最大均值差异(MK-MMD)来减少红外和可见光图像之间的分布差异,从而提高融合图像的质量。

DAF-Net的基础编码器基于Restormer网络,负责捕捉全局结构信息;细节编码器基于可逆神经网络(INN),负责提取细节纹理信息。MK-MMD仅在基础编码器中应用,以确保全局特征的一致性,避免局部细节的过度对齐和模态特定信息的丢失。该结构使得DAF-Net能够在全局结构和细节保留之间取得平衡。

DAF-Net

DAF-Net由一个编码器-解码器分支和一个基于混合核函数的域自适应层组成。

编码器-解码器分支

编码器-解码器分支是DAF-Net网络架构的核心部分,负责提取和重建图像特征。以下是编码器-解码器分支的详细解释:

编码器部分

编码器部分由三个主要层次组成:共享特征层、基础编码器和细节编码器。

  1. 共享特征层: 这一层基于Transformer架构,用于处理输入的红外和可见光图像。它提取图像的浅层特征,这些特征是后续编码过程的基础。共享特征层的输出表示为 YSI=ES(I)YSI​​=ES​(I) 和 YSV=ES(V)YSV​​=ES​(V),其中 ES(⋅)ES​(⋅) 表示共享编码器,II 和 VV 分别代表红外和可见光图像。
  2. 基础编码器: 基础编码器使用Restormer块构建,目的是捕获图像的全局结构信息。它接收共享特征层的输出,并进一步提取更深层次的特征。基础编码器的输出表示为 YBI=EB(YSI)YBI​​=EB​(YSI​​) 和 YBV=EB(YSV)YBV​​=EB​(YSV​​),其中 EB(⋅)EB​(⋅) 表示基础编码器。
  3. 细节编码器:细节编码器基于INN(Invertible Neural Networks)块构建,专注于提取图像的细节纹理信息。它同样接收共享特征层的输出,并提取细节特征。细节编码器的输出表示为 YDI=ED(YSI)YDI​​=ED​(YSI​​) 和 YDV=ED(YSV)YDV​​=ED​(YSV​​),其中 ED(⋅)ED​(⋅) 表示细节编码器。
融合层

融合层包括基础融合层和细节融合层,它们分别对基础编码器和细节编码器提取的特征进行融合。

  • 基础融合层 FBFB​ 和 细节融合层 FDFD​:
    • 基础融合层接收基础编码器提取的特征 YBIYBI​​ 和 YBVYBV​​,并输出融合后的基础特征 YBIVYBIV​​。
    • 细节融合层接收细节编码器提取的特征 YDIYDI​​ 和 YDVYDV​​,并输出融合后的细节特征 YDIVYDIV​​。
    • 融合层的输出表示为 YBIV=FB(YBI,YBV)YBIV​​=FB​(YBI​​,YBV​​) 和 YDIV=FD(YDI,YDV)YDIV​​=FD​(YDI​​,YDV​​)。
解码器部分

解码器部分负责将编码器提取的特征转换回图像空间,生成重建的红外图像、可见光图像或融合图像。

  1. 第一阶段重建: 解码器首先使用基础和细节特征 YBIYBI​​ 和 YDIYDI​​ 重建红外图像 I^I^。同样,使用 YBVYBV​​ 和 YDVYDV​​ 重建可见光图像 V^V^。重建过程表示为 I^=D(YBI,YDI)I^=D(YBI​​,YDI​​) 和 V^=D(YBV,YDV)V^=D(YBV​​,YDV​​),其中 D(⋅)D(⋅) 表示解码器。
  2. 第二阶段融合: 在第二阶段,解码器使用融合后的基础特征 YBIVYBIV​​ 和细节特征 YDIVYDIV​​ 生成融合图像 FIV^FIV​^​。融合图像的生成过程表示为 FIV^=D(YBIV,YDIV)FIV​^​=D(YBIV​​,YDIV​​)。

域自适应层

概述

域自适应层的作用是减少红外图像和可见光图像特征之间的分布差异,从而实现跨模态的特征对齐。域自适应层被引入到基础编码器的最后三个卷积层中,以对齐全局特征。细节编码器避免使用MK-MMD,以保留局部细节和模态特定的信息。

域自适应层的主要目的是减少不同模态(红外和可见光)图像特征之间的分布差异,使得网络能够更好地进行特征融合。通过减少分布差异,域自适应层有助于提高融合图像的质量,尤其是在复杂场景下。

域自适应层通过计算多核最大均值差异(MK-MMD)来实现特征对齐。MK-MMD是一种度量两个概率分布差异的方法,它通过在再生核希尔伯特空间(RKHS)中评估分布的距离来工作。通过将特征映射到RKHS,域自适应层使用混合核函数计算分布差异,从而实现特征对齐。

在训练过程中,域自适应层通过最小化MK-MMD损失来优化网络参数,使得红外和可见光图像的特征分布更加接近。

多核最大均值差异(MK-MMD)
  1. MK-MMD的定义: MK-MMD是一种基于核方法的距离度量,它使用多个不同带宽参数的高斯核的线性组合来评估两个分布之间的差异。公式表示为: dkH(SI,SV)=∥ExI∼SI[FI]−ExV∼SV[FV]∥Hk2dkH​​(SI​,SV​)=∥ExI​∼SI​​[FI​]−ExV​∼SV​​[FV​]∥Hk​2​

其中,SISI​ 和 SVSV​ 分别代表红外和可见光图像的特征分布,FIFI​ 和 FVFV​ 是这些特征在RKHS中的映射,E[⋅]E[⋅] 表示期望,∥⋅∥Hk2∥⋅∥Hk​2​ 是RKHS中的平方范数。

  1. 混合核函数: 混合核函数定义为: kH(xI,xV)=c1kG(xI,xV)+c2kL(xI,xV)kH​(xI​,xV​)=c1​kG​(xI​,xV​)+c2​kL​(xI​,xV​) 其中,kGkG​ 是高斯核,kLkL​ 是拉普拉斯核,c1c1​ 和 c2c2​ 是核的权重,它们的和为1。 高斯核适合捕捉全局结构信息,而拉普拉斯核对边缘更敏感,适合捕捉局部细节。通过结合这两种核,混合核函数能够同时捕获全局和局部特征。

两阶段训练

为了应对红外和可见光图像融合中缺乏真实标签的问题,本文采用了两阶段学习方案来训练DAF-Net。

第一阶段:编码器-解码器分支训练

在第一阶段,目标是独立地训练编码器和解码器,以便它们能够从输入的红外和可见光图像中提取特征,并重建出高质量的图像。

训练过程

下面是第一阶段的训练过程。

  1. 共享特征提取: 输入数据包括成对的红外图像和可见光图像。输入图像首先通过共享特征层,用于提取图像的初步特征。
  2. 基础编码器: 共享特征层的输出被送入基础编码器,负责捕获图像的全局结构信息。
  3. 细节编码器: 同时,共享特征层的输出也被送入细节编码器,提取图像的细节和纹理信息。
  4. 域自适应层: 在基础编码器中,域自适应层通过计算MK-MMD来减少红外和可见光图像特征分布之间的差异,实现特征对齐。
  5. 特征融合: 基础编码器和细节编码器提取的特征被送入融合层,在这里,基础特征和细节特征被合并。
  6. 图像重建: 融合后的特征被送入解码器,用于重建红外图像和可见光图像。
损失函数

第一阶段的损失函数是重建损失、相关性损失、InfoNCE损失、MK-MMD损失的加权和。

  • 重建损失:包括均方误差(MSE)损失、结构相似性指数(SSIM)损失和梯度损失,用于衡量重建图像与原始图像之间的差异。 Lrecon=Lmse+α1Lssim+α2LgradLrecon​=Lmse​+α1​Lssim​+α2​Lgrad​ Lmse=∑i=1N(Vi−V^i)2+(Ii−I^i)2Lmse​=i=1∑N​(Vi​−V^i​)2+(Ii​−I^i​)2 Lssim=∑i=1N(2μViμV^i+c1μVi2+μV^i2+c1)(2σViV^i+c2σVi2+σV^i2+c2)Lssim​=i=1∑N​(μVi​2​+μV^i​2​+c1​2μVi​​μV^i​​+c1​​)(σVi​2​+σV^i​2​+c2​2σVi​V^i​​+c2​​) Lgrad=∑i=1N∥∇Vi−∇V^i∥1+∥∇Ii−∇I^i∥1Lgrad​=i=1∑N​∥∥∥∥​∇Vi​−∇V^i​∥∥∥∥​1​+∥∥∥∥​∇Ii​−∇I^i​∥∥∥∥​1​
  • 相关性损失:衡量结构特征和细节特征之间的相关性。

Lcorr=C(YBV,YBI)+C(YDV,YDI)Lcorr​=C(YBV​​,YBI​​)+C(YDV​​,YDI​​)

其中 C(⋅)C(⋅) 是相关性系数

  • InfoNCE损失:通过对比正样本对和负样本对的相似性,帮助模型学习语义上有意义的特征。

LInfoNCE=−1K∑i=1Klog⁡exp⁡(sim(xi,yi)τ)∑j=1Kexp⁡(sim(xi,yj)τ)LInfoNCE​=−K1​i=1∑K​log∑j=1K​exp(τsim(xi​,yj​)​)exp(τsim(xi​,yi​)​)​

其中 sim(xi,yj)sim(xi​,yj​) 表示特征向量 xixi​ 和 yjyj​ 之间的相似度分数,ττ 是温度参数。

  • MK-MMD损失:计算不同模态特征分布之间的差异,并尝试最小化这个差异。

Lmkmmd=dkH(YBI,YBV)Lmkmmd​=dkH​​(YBI​​,YBV​​)

其中 dkHdkH​​ 是使用混合核函数 kHkH​ 计算的MK-MMD距离。

第二阶段:融合层训练

在第二阶段,目标是训练融合层,以便它们能够将从红外和可见光图像中提取的特征融合,生成高质量的融合图像。

训练过程
  1. 特征提取: 输入数据包括成对的红外图像和可见光图像,使用第一阶段训练好的编码器提取红外和可见光图像的特征。
  2. 特征融合: 提取的基础特征和细节特征被送入融合层,融合层将这些特征合并成单一的融合特征表示。
  3. 融合图像生成: 融合后的特征被送入解码器,解码器负责从融合特征中重建出融合图像。
损失函数

融合层训练的损失函数是强度损失、最大梯度损失和相关性损失的加权和。

  • 强度损失:衡量融合图像与输入图像在强度上的差异。

Lin=1L∑i=1L∥max⁡(Yi,Ii)−I^i∥1Lin​=L1​i=1∑L​∥max(Yi​,Ii​)−I^i​∥1​

其中,YiYi​ 是输入图像,IiIi​ 是对应的红外或可见光图像,I^iI^i​ 是融合图像,LL 是图像的像素数。

  • 最大梯度损失:衡量融合图像与输入图像在梯度上的差异,梯度通常与图像的边缘信息相关。

Lmax_grad=1L∑i=1L∥max⁡(∇Yi,∇Ii)−∇I^i∥1Lmax_grad​=L1​i=1∑L​∥max(∇Yi​,∇Ii​)−∇I^i​∥1​

其中,∇Yi∇Yi​ 和 ∇Ii∇Ii​ 分别是输入图像和对应红外或可见光图像的梯度,∇I^i∇I^i​ 是融合图像的梯度。

  • 相关性损失:再次衡量融合特征之间的相关性,确保特征融合的一致性。

Lcorr=C(YBV,YBI)+C(YDV,YDI)Lcorr​=C(YBV​​,YBI​​)+C(YDV​​,YDI​​)

其中,C(⋅)C(⋅) 是相关性系数,YBVYBV​​ 和 YBIYBI​​ 是基础编码器提取的可见光和红外图像的特征,YDVYDV​​ 和 YDIYDI​​ 是细节编码器提取的可见光和红外图像的特征。

实验与结果

实验在三个数据集上进行:MSRS、RoadScene和TNO。部分MSRS数据集用于训练,其余部分和TNO、RoadScene数据集用于评估。采用的评价指标包括互信息(MI)、视觉信息保真度(VIF)、熵(EN)、标准差(SD)、空间频率(SF)、边缘信息QAB/F和结构相似性指数(SSIM)。

我们的实验配置是 PyTorch 1.9.0 Python 3.8(ubuntu18.04) Cuda 11.1 GPU RTX 3080 Ti(12GB)

我们在训练好模型之后,在MSRS、RoadScene和TNO数据集上,分别随机选择了361张、50张、25张图像构成测试集,测试集在附件中附上。最终的测试结果是

EN

SD

SF

MI

SCD

VIF

Qabf

SSIM

TNO

7.125

45.023

12.628

2.057

1.799

0.748

0.539

0.680

RoadScene

7.415

51.739

14.067

2.252

1.869

0.689

0.533

0.692

MSRS

6.694

43.255

11.480

3.131

1.646

1.028

0.682

0.692

测试数据展示如下,从左至右依次为红外图像、可见光图像和融合图像。

可以看到,DAF-Net在融合过程中有效保留了红外图像的热辐射信息和可见光图像的细节。

总结

本文介绍了一种名为DAF-Net的新型红外和可见光图像融合网络。该网络通过引入多核最大均值差异和设计混合核函数来对齐红外和可见光图像的潜在特征空间,从而提高融合图像的质量。DAF-Net采用了双分支结构,包括一个基于Restormer网络的基础编码器和一个基于可逆神经网络的细节编码器,分别捕获全局结构信息和细节纹理信息。通过这种结构,DAF-Net能够在保持全局结构的同时,保留模态特定的细节信息。

此外,DAF-Net采用了两阶段训练策略来解决红外和可见光图像融合中缺乏地面真实数据的问题。第一阶段侧重于训练编码器-解码器分支以重建红外和可见光图像,第二阶段则专注于训练融合层以生成融合图像。损失函数包括重建损失、相关性损失、InfoNCE损失和MK-MMD损失,以及强度损失和最大梯度损失,这些损失函数共同优化了网络的性能。

总体而言,DAF-Net通过其创新的网络架构和训练策略,在红外和可见光图像融合领域提供了一种有效的解决方案,能够生成具有高视觉质量和融合性能的融合图像,具有广泛的应用前景。

​​

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-01-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • DAF-Net
    • 编码器-解码器分支
      • 编码器部分
      • 融合层
      • 解码器部分
    • 域自适应层
      • 概述
      • 多核最大均值差异(MK-MMD)
    • 两阶段训练
      • 第一阶段:编码器-解码器分支训练
      • 第二阶段:融合层训练
  • 实验与结果
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档