论文:https://www.sciencedirect.com/science/article/pii/S1566253523001793
更多红外与可见光图像融合的论文的具体的解读欢迎大家来到红外与可见光图像融合专栏,关于该领域的问题也欢迎大家私信或则公众号联系我。
好久没看过论文,今天刚好有空,又找了一篇information fusion的论文,咱们一起看看吧。 一篇提高实时性的论文,这篇论文和我们之前见到的论文不大一样,至于有啥不一样,咱们来看看吧。
咱们先一起看看这个网络架构图
大家什么感觉,我第一反应是今天起猛了,这个网络架构图怎么这么简单,怎么哪些注意力块,增强块啥啥的,都没有呢,只有这几个卷积层,不得不佩服这篇论文的作者,能设计出这么简单的网络结构,而且还有用。
那么他的结构是啥样的呢?
表面来看就是几个卷积层堆在一块了,实际上他就是几个卷积层堆一块了。
什么是轻量级,这才是轻量级! 
那么前面这几个卷积是干啥的呢
这里先说一下,作者希望可以提升整个网络的实时性,那些提取深层特征然后再图像还原的方式很明显不合适,并且文中有提到,基于深层特征的方法虽然提升了图片的效果,但是对于下游任务来说,和基于像素的方法来比没啥区别。
因此,作者设置这几个卷积层的目的就是想要生成一个权重罢了,使用生成的权重将红外和可见光图像加起来,然后在处理下,就是融合图像了。
生成权重的过程如下,这里的P就是前面我们提到的多个卷积层,加一个sigmoid,目的就是使得输出的结果的权重在0,1之间,C就是拼接操作
使用权重融合图像的过程如下
然后在进行规范化
到此为止,图像融合就完成了。
看到这里你可能有一个问题,那么怎么能让这些卷积层生成我们想要的权重呢?
这个问题就到损失函数那里来看看了,别急,现在我们就来看看损失函数。
大家看到这个损失函数是什么感觉,这也太清爽了,对不对
好久没有见到这么简单的损失了,而且都是我们熟悉的,最大梯度和最大强度损失。
唯一不同的就是检测损失这里,采用的是和YoloV5一致的检测损失。
我们一直在说的就是该篇论文的目标就是使得融合图像更适合下游任务,这里的检测损失就是如此,提高融合图像的检测精度,再配合最大梯度和最大强度损失,使得融合图像不仅适合下游任务检测,并且可以保留强度信息和细节信息。
那么就很清楚了,网络架构中唯一可以训练的就是前面的卷积层,卷积层的输出就是权重,那么是不是就是说我们想完成以上的目标就是通过卷积层生成对应的权重来实现的,所以说这些损失函数就可以在训练过程使得卷积层拥有生成自适应权重的能力。
整篇论文读下来很轻松,给我最大的启发就是,原来一昧的追求追求网络的体量,特征提取方式设计的五花八门是不是可以改变一些了,毕竟我们还是希望融合后的图像可以用于下游任务,而不只是生成就可以了。
[1] Real-time infrared and visible image fusion network using adaptive pixel weighting strategy