红外和可见光图像融合的目标是将红外图像和可见光图像的互补信息结合起来,以实现更全面的环境感知。这意味着通过融合两种类型的图像,可以获得比单独使用任何一种图像更丰富的场景信息。
红外图像在夜间监控和目标检测等低光环境下表现优异。这是因为红外图像能够捕捉到热辐射,这种辐射不受可见光照明条件的限制,因此可以在完全黑暗或光线不足的环境中“看到”物体和场景。
可见光图像保留了丰富的细节和色彩,提供了清晰的现场表示。这是因为可见光图像捕捉的是人眼可以看到的光谱范围,因此它们能够提供与人类视觉感知相似的图像,包括颜色和纹理等细节。
将这两种模态的图像融合起来可以弥补各自的局限性。例如,红外图像虽然能在夜间“看见”,但缺乏色彩信息;而可见光图像虽然色彩丰富,但在低光环境下表现不佳。通过融合,可以结合红外图像的夜间监控能力和可见光图像的细节和色彩信息,从而提供更完整的环境理解。
尽管融合的优势明显,但由于成像原理、分辨率和光谱响应的差异,保持关键信息的一致性成为一个主要挑战。这意味着在融合过程中,需要找到一种方法来确保两种图像中的关键特征(如边缘、纹理和轮廓)能够被准确地结合在一起,而不是相互冲突或丢失。
现有的图像融合方法大致分为三类:
为了更好地对齐红外和可见光图像的潜在特征空间,论文《DAF-Net: A Dual-Branch Feature Decomposition Fusion Network with Domain Adaptive for Infrared and Visible Image Fusion》提出了一种域自适应的双分支特征分解融合网络(DAF-Net)。该方法通过引入多核最大均值差异(MK-MMD)来减少红外和可见光图像之间的分布差异,从而提高融合图像的质量。
DAF-Net的基础编码器基于Restormer网络,负责捕捉全局结构信息;细节编码器基于可逆神经网络(INN),负责提取细节纹理信息。MK-MMD仅在基础编码器中应用,以确保全局特征的一致性,避免局部细节的过度对齐和模态特定信息的丢失。该结构使得DAF-Net能够在全局结构和细节保留之间取得平衡。
DAF-Net由一个编码器-解码器分支和一个基于混合核函数的域自适应层组成。
编码器-解码器分支是DAF-Net网络架构的核心部分,负责提取和重建图像特征。以下是编码器-解码器分支的详细解释:
编码器部分由三个主要层次组成:共享特征层、基础编码器和细节编码器。
融合层包括基础融合层和细节融合层,它们分别对基础编码器和细节编码器提取的特征进行融合。
解码器部分负责将编码器提取的特征转换回图像空间,生成重建的红外图像、可见光图像或融合图像。
域自适应层的作用是减少红外图像和可见光图像特征之间的分布差异,从而实现跨模态的特征对齐。域自适应层被引入到基础编码器的最后三个卷积层中,以对齐全局特征。细节编码器避免使用MK-MMD,以保留局部细节和模态特定的信息。
域自适应层的主要目的是减少不同模态(红外和可见光)图像特征之间的分布差异,使得网络能够更好地进行特征融合。通过减少分布差异,域自适应层有助于提高融合图像的质量,尤其是在复杂场景下。
域自适应层通过计算多核最大均值差异(MK-MMD)来实现特征对齐。MK-MMD是一种度量两个概率分布差异的方法,它通过在再生核希尔伯特空间(RKHS)中评估分布的距离来工作。通过将特征映射到RKHS,域自适应层使用混合核函数计算分布差异,从而实现特征对齐。
在训练过程中,域自适应层通过最小化MK-MMD损失来优化网络参数,使得红外和可见光图像的特征分布更加接近。
其中,SISI 和 SVSV 分别代表红外和可见光图像的特征分布,FIFI 和 FVFV 是这些特征在RKHS中的映射,E[⋅]E[⋅] 表示期望,∥⋅∥Hk2∥⋅∥Hk2 是RKHS中的平方范数。
为了应对红外和可见光图像融合中缺乏真实标签的问题,本文采用了两阶段学习方案来训练DAF-Net。
在第一阶段,目标是独立地训练编码器和解码器,以便它们能够从输入的红外和可见光图像中提取特征,并重建出高质量的图像。
下面是第一阶段的训练过程。
第一阶段的损失函数是重建损失、相关性损失、InfoNCE损失、MK-MMD损失的加权和。
Lcorr=C(YBV,YBI)+C(YDV,YDI)Lcorr=C(YBV,YBI)+C(YDV,YDI)
其中 C(⋅)C(⋅) 是相关性系数
LInfoNCE=−1K∑i=1Klogexp(sim(xi,yi)τ)∑j=1Kexp(sim(xi,yj)τ)LInfoNCE=−K1i=1∑Klog∑j=1Kexp(τsim(xi,yj))exp(τsim(xi,yi))
其中 sim(xi,yj)sim(xi,yj) 表示特征向量 xixi 和 yjyj 之间的相似度分数,ττ 是温度参数。
Lmkmmd=dkH(YBI,YBV)Lmkmmd=dkH(YBI,YBV)
其中 dkHdkH 是使用混合核函数 kHkH 计算的MK-MMD距离。
在第二阶段,目标是训练融合层,以便它们能够将从红外和可见光图像中提取的特征融合,生成高质量的融合图像。
融合层训练的损失函数是强度损失、最大梯度损失和相关性损失的加权和。
Lin=1L∑i=1L∥max(Yi,Ii)−I^i∥1Lin=L1i=1∑L∥max(Yi,Ii)−I^i∥1
其中,YiYi 是输入图像,IiIi 是对应的红外或可见光图像,I^iI^i 是融合图像,LL 是图像的像素数。
Lmax_grad=1L∑i=1L∥max(∇Yi,∇Ii)−∇I^i∥1Lmax_grad=L1i=1∑L∥max(∇Yi,∇Ii)−∇I^i∥1
其中,∇Yi∇Yi 和 ∇Ii∇Ii 分别是输入图像和对应红外或可见光图像的梯度,∇I^i∇I^i 是融合图像的梯度。
Lcorr=C(YBV,YBI)+C(YDV,YDI)Lcorr=C(YBV,YBI)+C(YDV,YDI)
其中,C(⋅)C(⋅) 是相关性系数,YBVYBV 和 YBIYBI 是基础编码器提取的可见光和红外图像的特征,YDVYDV 和 YDIYDI 是细节编码器提取的可见光和红外图像的特征。
实验在三个数据集上进行:MSRS、RoadScene和TNO。部分MSRS数据集用于训练,其余部分和TNO、RoadScene数据集用于评估。采用的评价指标包括互信息(MI)、视觉信息保真度(VIF)、熵(EN)、标准差(SD)、空间频率(SF)、边缘信息QAB/F和结构相似性指数(SSIM)。
我们的实验配置是 PyTorch 1.9.0 Python 3.8(ubuntu18.04) Cuda 11.1 GPU RTX 3080 Ti(12GB)
我们在训练好模型之后,在MSRS、RoadScene和TNO数据集上,分别随机选择了361张、50张、25张图像构成测试集,测试集在附件中附上。最终的测试结果是
EN | SD | SF | MI | SCD | VIF | Qabf | SSIM | |
---|---|---|---|---|---|---|---|---|
TNO | 7.125 | 45.023 | 12.628 | 2.057 | 1.799 | 0.748 | 0.539 | 0.680 |
RoadScene | 7.415 | 51.739 | 14.067 | 2.252 | 1.869 | 0.689 | 0.533 | 0.692 |
MSRS | 6.694 | 43.255 | 11.480 | 3.131 | 1.646 | 1.028 | 0.682 | 0.692 |
测试数据展示如下,从左至右依次为红外图像、可见光图像和融合图像。
可以看到,DAF-Net在融合过程中有效保留了红外图像的热辐射信息和可见光图像的细节。
本文介绍了一种名为DAF-Net的新型红外和可见光图像融合网络。该网络通过引入多核最大均值差异和设计混合核函数来对齐红外和可见光图像的潜在特征空间,从而提高融合图像的质量。DAF-Net采用了双分支结构,包括一个基于Restormer网络的基础编码器和一个基于可逆神经网络的细节编码器,分别捕获全局结构信息和细节纹理信息。通过这种结构,DAF-Net能够在保持全局结构的同时,保留模态特定的细节信息。
此外,DAF-Net采用了两阶段训练策略来解决红外和可见光图像融合中缺乏地面真实数据的问题。第一阶段侧重于训练编码器-解码器分支以重建红外和可见光图像,第二阶段则专注于训练融合层以生成融合图像。损失函数包括重建损失、相关性损失、InfoNCE损失和MK-MMD损失,以及强度损失和最大梯度损失,这些损失函数共同优化了网络的性能。
总体而言,DAF-Net通过其创新的网络架构和训练策略,在红外和可见光图像融合领域提供了一种有效的解决方案,能够生成具有高视觉质量和融合性能的融合图像,具有广泛的应用前景。