论文标题:Toward Fast, Flexible, and Robust Low-Light Image Enhancement
论文链接:https://arxiv.org/pdf/2204.10137.pdf
代码链接:https://github.com/vis-opt-group/SCI/blob/main/model.py
现有的微光图像增强技术不仅难以处理视觉质量和计算效率,而且在未知复杂场景中通常无效。在本文中,我们开发了一个新的自校准照明(SCI)学习框架,用于在现实世界的弱光场景中快速、灵活和鲁棒地照亮图像。
具体来说,我们建立了一个级联照明学习过程,并通过权重共享来处理这项任务。考虑到级联模式的计算负担,我们构建了自校准模块,实现了每个阶段结果之间的收敛,产生了仅使用单个基本块进行推理的增益(之前的工作中尚未使用),这大大降低了计算成本。
然后定义无监督训练损失,以提高模型适应一般场景的能力。
此外,我们对 SCI 的固有特性(现有作品中缺乏)进行了全面的探索,包括操作不敏感的适应性(在不同简单操作的设置下获得稳定的性能)和模型无关的通用性(可应用于基于光照的现有作品以提高性能)。
最后,大量的实验和消融研究充分表明了我们在质量和效率上的优势。在微光人脸检测和夜间语义分割方面的应用充分揭示了 SCI 的潜在实用价值。
01 Introduction
目前存在的两类方法:
1.1 Model-based Methods
受限于定义的正则化,它们大多生成不令人满意的结果,并且需要针对现实场景手动调整许多参数。
1.2 Network-based Methods
然而,它们并不稳定,而且很难实现始终如一的卓越性能,特别是在未知的现实场景中,不清楚的细节和不适当的暴露是普遍存在的
为了解决上述问题,我们开发了一种新的自校准照明(SCI)学习框架,用于快速、灵活和鲁棒的微光图像增强。通过重新开发照明学习过程的中间输出,我们构建了一个自校准模块,赋予单个基本块更强的表示性和每个阶段的结果之间的收敛性,以实现加速。更具体地说,我们的主要贡献可以总结为:
02 The Proposed Method
2.1 Illumination Learning with Weight Sharing
提出了一种学习照明量的新模型:
需要注意的是,H 采用了了权重共享机制,即在每个阶段使用相同的架构 H 和权重。
照明 U 和微光观测 X 在大多数地区是相似的或存在的线性连接。与采用弱光观测和照明之间的直接映射(现有工作中常用的模式相比,学习残差表示大大降低了计算难度(即公式的第二行的来源),同时也能保证性能、提高稳定性,尤其是曝光控制。
具有多个权重共享块的级联机制不可避免地会增加可预见的推理成本。理想的情况是第一个块可以输出所需的结果,从而满足任务需求。同时,后一个块输出与第一个块相似甚至完全相同的结果。这样,在测试阶段,我们只需要一个块来加快推理速度。
在这里,我们的目标是定义一个模块,使每个阶段的结果收敛到同一个状态。我们知道,每个阶段的输入源于前一阶段,第一阶段的输入明确定义为低光观测。一个直观的想法是,我们是否可以将每个阶段(第一阶段除外)的输入与弱光观测(即第一阶段的输入)联系起来,从而间接探索每个阶段之间的收敛行为。为此,我们引入了一个自校准地图s,并将其添加到弱光观测中,以显示每个阶段和第一阶段输入之间的差异。具体而言,自校准模块可以表示为
实际上,我们构建的自校准模块通过整合物理原理来逐步校正每个阶段的输入,从而间接影响每个阶段的输出。
为了评估自校准模块对收敛性的影响,图 3 很容易地观察到每个阶段的结果确实收敛到相同的值。但在没有自校准模块的情况下,无法发现这种现象。
考虑到现有配对数据的不精确性,我们采用无监督学习来扩大网络容量。我们将总损耗定义为:
其中 Lf 和 Ls 分别表示保真度和平滑损失。
保真度损失是为了保证估计照度和每个阶段输入之间的像素级一致性,公式如下:
实际上,该函数使用重新定义的输入来约束输出照明,而不是手工制作的 GT 或普通的微光输入。
照明的平滑特性在这项任务中是一个广泛的共识 [7,34]。在这里,我们采用了一个具有空间变化 l1 范数的平滑项 [4],表示为:
其中,N 是总像素数量,i 是第 i 个像素值,N(i) 代表 5*5 窗口的 i 的毗邻值,
本质上,自校准模块在学习更好的基本块(本工作中的光照估计块)时起辅助作用,该基本块通过权重共享机制级联生成整体光照学习过程。更重要的是,自校准模块使每个阶段的结果趋于一致,但在现有工作中尚未对其进行探索。此外,SCI 的核心思想实际上是引入额外的网络模块来辅助培训,而不是测试。它改进了模型表征,实现了仅使用单个块进行测试。也就是说,机制“重量分担+任务相关自校准模块”可以转移到处理其他加速任务。
03 Exploring Algorithmic Properties
3.1 Operation Insensitive Adaptability
一般来说,基于网络的方法中使用的操作应该是固定的,不能随意更改,但我们提出的算法在不同且简单的H设置下表现出惊人的适应性。如表 1 所示,我们可以很容易地观察到,我们的方法在不同设置(块 3*3 卷积 + ReLU 的数量)中获得了稳定的性能。
此外,我们在图 4 中提供了视觉对比,可以很容易地观察到,我们的 SCI 在不同设置下都会使弱光观察变亮,显示出非常相似的增强结果。
重新审视我们设计的框架,这个属性可以被获得,因为 SCI 不仅转换了照明共识(即剩余学习),还集成了物理原理(即元素分割操作)。
3.2 Model Irrelevant Generality
如果不限制任务相关的自校准模块,我们的 SCI 实际上是一个广义的学习范式,因此理想情况下,它可以直接应用于现有的工作。在这里,我们以最近提出的代表性作品 RUAS [14] 为例进行探索。表 2 和图 5 展示了使用 SCI 训练 RUA 前后的定量和定性比较。显然,尽管我们只是使用了 RUAS 展开过程中使用的单个块(即 RUAS(1))来评估我们的培训过程,但性能仍然得到了显著改善。
更重要的是,我们的方法可以显著抑制原始 RUA 中出现的过度曝光。这个实验反映了我们的学习框架确实足够灵活,并且具有很强的通用性。此外,它表明,我们的方法可能可以转移到基于任意照明的微光图像增强工作,我们将在未来尝试这样做。
04 Experimental Results
在本节中,我们首先提供了所有实现细节。然后我们做了实验评估。接下来,我们将增强方法应用于深色人脸检测和夜间语义分割。最后,我们对 SCI 进行了算法分析。所有的实验都是在一台带有单一 TITAN X GPU 的 PC 上进行的。
Compared Methods
微光图像增强:我们从 MIT 数据集 [2] 和 LSRW 数据集 [9] 中随机抽取了 100 张图像进行测试。
两个完整的参考指标,包括 PSNR 和 SSIM, 五个非参考指标,包括 DE [20]、EME [1]、LOE [23] 和 NIQE [23]。
暗光人脸检测:我们利用 Dark Face 数据集(31),包括 1000 个挑战性的测试图像,随机采样的子挑战 UG2 + 奖挑战在 CVPR 2021 举行。
我们将检测准确率和召回率作为评价指标。
至夜间语义分割:我们使用 ACDC [19] 中的 400 幅图像进行训练,剩余的 106 幅图像作为评估数据集。
评估指标定义为 IoU 和 mIoU。
Performance Evaluation
如表3所示,我们的 SCI 取得了有竞争力的表现,尤其是在无参考指标方面。如图 6-7 所示,高级深层网络生成未知面纱,导致不明显的细节和不自然的颜色。相比之下,我们的 SCI 以生动的颜色和突出的纹理获得了最好的视觉质量。
此外,我们在表 4 中报告了一些最近提出的基于 CNN 的方法的模型大小、触发器和运行时间(GPU 秒)。显然,与其他网络相比,我们提出的 SCI 是最轻量级的,并且明显优于其他网络。
野外场景中的微光图像增强非常具有挑战性。图像局部曝光信息的控制、整体色彩的校正以及图像细节的保存都是亟待解决的问题。在这里,我们从 DARK FACE [31] 和 ExDark [15] 数据集中测试了大量具有挑战性的野生样本。如图 8 所示,通过大量实验可以看出,我们的方法比其他方法获得了更令人满意的可视化结果,尤其是在曝光级别、结构描述和颜色呈现方面。由于篇幅有限,我们在补充材料中提供了更多的比较。
我们利用著名的人脸检测算法 S3FD [32] 来评估暗人脸检测性能。
请注意,S3FD 是使用原始 S3FD 中显示的更宽面部数据集 [29] 进行训练的,我们使用 S3FD 的预训练模型来微调通过各种方法增强的图像。
同时,我们执行了一种名为 SCI + 的新方法,该方法将我们的 SCI 作为一个基本模块嵌入到 S3FD 前端,以便在任务损失和增强相结合的情况下进行联合训练。
如图9所示,我们的方法(SCI 和 SCI+)在所有比较方法中获得了最好的分数,并且增强版获得了比微调版更好的性能。图 10 进一步展示了视觉比较。可以很容易地观察到,通过应用我们的 SCI,也可以检测到较小的对象,而其他方法无法做到这一点,如放大区域所示。
4.5 Nighttime Semantic Segmentation
在这里,我们采用 PSPNet [35] 作为基线,评估所有方法在模式“预训练+微调”(类似于 SCI 在黑暗人脸检测中的版本)上的分割性能。表 5 和图 11 展示了不同方法之间的定量和定性比较结果。我们的性能明显优于其他最先进的方法。如图 11 中放大的区域所示,所有比较的方法都会产生一些未知的伪影,从而损害生成的分割图的质量。
比较分解的组件。实际上,我们的 SCI 属于基于光照的学习方法,视觉质量的提高在很大程度上取决于估计的光照。在这里,我们将 SCI 与三种具有代表性的基于照明的学习方法进行了比较,包括 RetinexNet、KinD 和 SSIENet。如图 12 所示,我们可以很容易地看到,我们估计的照明保持了良好的平滑特性。它确保了我们生成的反射在视觉上更友好。
照明分量和反射分量,照明平滑,反射视觉更好?
消融研究。我们比较了图 13 中不同模式的性能。直接学习照明会导致图像曝光过度。学习照明和输入之间残差的过程确实抑制了过度曝光,但总体图像质量仍然不高,尤其是对于细节的把握。相比之下,使用我们的方法得到的增强结果不仅抑制了过度曝光,而且丰富了图像结构。
05 Concluding Remarks
在本文中,我们成功地建立了一个轻量级但有效的框架——自校准照明(SCI),用于针对不同现实场景的微光图像增强。我们不仅对 SCI 的优良特性进行了深入的探索,还进行了大量的实验,以表明我们在微光图像增强、暗人脸检测和夜间语义分割方面的有效性和优越性。
更广泛的影响。从任务的角度来看,SCI 提供了一个高效的学习框架,在图像质量和推理速度方面都取得了极其优异的性能。也许它将成为进入一个新的高速和高质量的低光图像增强时代的支撑。在方法设计方面,SCI 开辟了一个新的视角(即在训练阶段引入辅助过程来增强基本单元的模型能力),以提高针对其他低水平视觉问题的现实场景的实用性。