、摘要:
HDR技术近年来发展迅猛,在未来将会成为图像与视频领域的主流。当前HDR内容非常短缺,限制了HDR视听节目的广泛应用。逆色调映射(Inverse Tone Mapping)应运而生,它是一种用来将SDR源信号转换为HDR源信号的技术,可以应用于生产端或终端设备,在一定程度上实现对现有SDR节目的HDR“还原”及向上兼容。本系列中,我们将会详细分类介绍逆色调映射算法。分为两个部分:(一)逆色调映射概述及一些经典算法,包括全局算法,分类算法以及拓展映射算法;(二)介绍最近的研究趋势,特别是基于机器学习的逆色调映射算法。接前文,Let's go to the second part!
4. 近年提出的逆色调映射算法
4.1 适用各种曝光的高质量逆色调映射
Kovaleski和Oliveira [22]在2014年提出了一种增强算法,这种方法基于交叉双边滤波,并能够很好的处理曝光不足或过量的情况。
双边滤波是一种非线性滤波器,同时对空间域和亮度范围进行滤波。使用一个高斯方程G作为下降函数,则双边滤波后的
可以被定义为:
其中
代表在图像在位置p和q上对应的像素值,
表示空间和距离上的高斯函数标准差,
是一个归一化因子。将其中的
部分替换为另一幅图片,那么上式就可以得到交叉双边滤波:
直观地认为,高斯滤波器的权重基于图像中位置p和q之间的空间距离和图像中p和q位置像素值的差。由于该滤波器的非线性特性,在实时应用受到限制。有些环节可以通过使用不同的方法来近似结果,以交互式速率进行计算。Durand和Dorsey通过线性内插几个离散化的强度值来计算滤波器的响应,这些强度值在频域中用高斯内核滤波。Paris和Durand将这项工作解释为一种高维线性卷积,其后是三线性插值和分裂,从而扩展了这项工作。这种想法的推广是使用双边网格,双边网格 是一个有规则取样的三维阵列,其中前两个维度定义图像的空间域,而第三个维度表示图像的范围。使用双边网格进行滤波操作,分为三个步骤进行:网格创建、处理和切片。为了处理双边网格,可以将三维函数应用其中,我们得到一个新的网格
。对于双边滤波器,f是高斯核的卷积,分别使用
作为域和距离维度上的方差。切片操作用于从双边网格中提取分段平滑的二维图像。
在双边网格中,使用图像E来执行交叉双边滤波以确定网格位置,同时存储来自数据图像I的像素值。切片操作随后使用边缘图像来恢复结果。Adams等人通过统一单形有效地实现了5D彩色双边滤波,与Paris和Durand的方法相比,他们使用了更简单的插值操作。最近Gastal和Oliveira提出了一种计算适应信号的流形,这些流形之间的加权插值可以得到更高精度和更快速率的输出,并使用比之前方法更少的采样点数量。
Kovaleski和Oliveira提出的方法通过使用双边网格生成一个亮度增强函数,网格使用两个不同的图片生成,其意义上更像是交叉双边滤波。但是切片操作通过使用第三幅图片来实现,其方法可以被写为:
其中A、B、C都是单通道图片,A中的每个像素都包含对应RGB通道的图像中的最大强度值,图像B包含图像I的的亮度信息,图像C包含图像A中所有像素值超过某阈值t的所有像素点。进一步,RGB通道中的最大强度值(图像A)被用作检测饱和像素的默认方式,正如我们将要展示的那样,这个选择会影响该算法处理过度曝光内容的能力。在生成图像A、B、C之前,图像使用Gamma 2.2曲线进行线性化处理,
是一个双边网格,使用图像I的边缘信息进行过滤,同时存储图像C的值。因此双边滤波公式可以被写为:
一个关键点在于,上式中使用最大强度值图像A倾向于导致Kovaleski和Oliveira的算法无法增强过度曝光的SDR图像的细节。通过使用最大强度信道值,他们的算法尽管在感知上存在差异,但他们对RGB三通道的信息平等处理,这种不一致反映在所得到的亮度增强函数中。这个关键点同样可以解决这个问题:用亮度图像B代替最大强度通道图像A,这种操作不仅解决了曝光过度的图像的问题,而且极大地简化了亮度增强函数生成过程,将以上公式变为交叉双边滤波形式:
图9 不同双向滤波算法的结果对比
相比与之前公式来说,可以使用多种不同的双边滤波加速方法,如图9所示是使用不同种加速方法的效果,对比了不使用加速的双边滤波、双边网格、实时双边滤波和自适应流形四种结果。此外,滤波参数中本算法取
,这时模糊滤波器的滤波结果不容易被人类视觉系统察觉;同时,另一个滤波器参数
是通过大量实验测量得出,实验表明,这个取值更有利于得到亮度增强函数。
根据计算存储的亮度增强函数,作者使用和Rempel算法类似的步骤:输入图像I使用Gamma 2.2曲线进行线性化,使用上面公式计算得到亮度增强函数,随后将函数缩放至范围
内,在实验中
取值为4。最后,线性化输入图像的值根据目标显示能力和选择的
值进行性缩放,最低亮度为0.3cd/m2,最高亮度为1200cd/m2。然后通过重新调整的亮度增强函数将该缩放的图像逐点相乘来获得最终的HDR图像。
生成效果图如图10所示,结果图使用DRIM评价方法进行展现。
图10 DRIM对结果图进行评价
4.2 基于视网膜反应的逆色调映射
Huo [24]在2014年提出一种基于人类视觉系统视网膜反应的逆色调映射算法,通过生理学上的研究,该方法可以避免出现很多现有方法都会发生的伪像问题。受到人类视觉系统特性的启发,这种逆色调映射方案的计算复杂度低,参数数量较少,并能获得高质量的HDR图像输出。
与真实世界场景的动态范围相比,人类视网膜的感光细胞具有较窄的动态范围,这要归功于人类视觉系统的适应机制,它使得眼睛首先适应一些亮度值,然后以相当小的动态感知图像范围围绕该亮度值。因此,人类视觉的基本过程是对整个场景的全局色调映射,这种全局功能可以用视网膜的反应和光强刺激之间的关系来描述:
其中R表示视网膜对光强I的刺激反应,
是反映的最大值,
是全局适应等级,它表示产生的相应强度是
振幅的一半所需的强度,参数n是灵敏度控制指数。
实验证明,场景的绝对亮度信息对于人类视觉系统来说是次要的,通过亮度很定性的机制在视觉处理的非常早期阶段往往会被大量舍弃,而是用局部对比来传达广域场景的大量信息。因此,视网膜反应的更恰当描述应该是局部映射,局部自适应属性可以通过将全局自适应水平
改编为局部像素p的自适应水平
来实现。设
表示像素p在实际场景中的辐射强度值,视网膜反应
被认为是眼睛感知到的SDR图像的强度值,可以表示为:
对于逆色调映射,
可以通过以下方式计算,
是为了避免分母为0:
之前的研究认为灵敏度参数n通常取值在0.7~1.0之间,作者通过大量实验得出,取值为0.9时结果更好。
是局部适应水平,它描述了一个像素邻域强度信息,通常可以使用算术平均值、几何平均值或图像局部区域的高斯模糊来确定该参数。这里,HDR图像中像素p周围的局部强度
用来作为
的取值。在仅有SDR图像的情况下,基于SDR图像的最大亮度255被映射到HDR显示器的最大亮度的假设,算法首先计算SDR图像的
,随后将其乘以HDR显示器最大亮度与255的比值。
很多方法可以计算得到
,论文使用Durand和Dorsey提出的双边滤波,逆色调映射公式可以写为:
输出的像素p的双边滤波
:
其中
是归一化因子:
其中
表示高斯函数f在空间域的标准差:
其中
表示高斯函数g在亮度域下的标准差,
是归一化因子,
表示整幅图像。
和
分别取值为16和0.3。如图10所示为方法计算结果与其他两种方法的对比。
图11 算法效果图和与其他方法的对比:(a)论文方法,(b)iPG,(c)SDR2HDR
4.3 基于深度学习的逆色调映射
Endo [23]针对逆色调映射中过度曝光和曝光过少、细节损失的情形进行优化,提出了一种基于深度学习的方法,其网络基于卷积神经网络,将输入图像转化为多幅不同曝光度的图片,再组合为一张HDR图像输出。
图12 Endo提出的方法流程图
12所示是方法的流程框图。首先,作者通过使用不同的非线性相机反应曲线来改变图像的曝光度,由此形成了多幅不同曝光度的图片,数据集就是以SDR图像为输入,多幅不同曝光度的图片为输出组成。其计算方法如下:
其中
表示SDR图像对应点i在曝光指数j下的像素值,f表示相机反应函数,
表示HDR图像在点i处的像素值。
为曝光时间,作者通过指数定义,实验中采用
。随后,在使用得到的多张不同曝光度的照片,通过合并算法进行计算,从而得到一张完整的HDR图片。
Endo使用的是编解码器结构,并在对应层间有跳跃式连接。先将一张SDR图片编码至深度网络,这里通过2D卷积神经网络实现,随后再将图像的深度语义特征解码为不同曝光度的SDR图片,这时使用的是3D卷积神经网络。这种网络用于将图像的曝光度提高或降低,从而得到多幅图片用于之后合成HDR图片。
在具体网络结构方面,编码器网络有9层卷积核大小为4的卷积层,并包含批归一化和Leaky-ReLU。解码器网络使用3D去卷积神经网络,其中前三层的卷积核为4*4*4,其余层为3*4*4。类似地,出最后一层外,其他层都包含批归一化和Leaky-ReLU,而最后一层的激活函数为Sigmoid。
在这个编解码网络中,解码器使用完全编码的向量,这意味着整个图像的潜在特征都包含在内,为了将输入图像中的局部和底层信息逐步融入解码器,作者在编解码器的对应层之间添加了跳跃式连接,具体网络结构图如图所示:
图13 网络结构图
通过长达一个月的训练,取得了满意效果。其与一些传统算法的比如下图所示。
图14 Endo算法效果图和与其他方法的对比
4.4 基于GAN的逆色调映射模型
S. Ning 等人[3]认为由于逆色调映射过程相当于是向低动态范围的图像中添加暗区和亮区的细节,希望可以达到一个信息增加的过程,因此采用生成对抗网络的对抗机制可以很好的完成生成任务。生成对抗网络是由I.Goodfellow提出的基于博弈的模型,其模型本身由两个网络构成,一个是生成网络,在图像任务中用于生成图像,实现图像的转换任务;另一个是判别网络,用于判别输入给判别网络的图像是由生成器生成的还是源图像。生成对抗网络的训练过程就是,通过训练生成网络使得生成的图像越来越接近源图像,从而可以“蒙骗”判别网络进行错误的决策;训练判别网络的过程就是使判别网络可以更准确的分辨出生成的图像和源图像,从而使得这两部分网络的训练过程成为一种博弈式对抗过程,期望的训练结果是能够得到一个稳态。
算法上讲,GAN的判别网络可以看成是将图像数据映射到判别概率的函数D: D(x)→(0,1),对于一个固定的生成器G,判别器D可能被训练用于分辨图像是来自训练数据(概率接近1)还是来自生成器(概率接近0)。这种方法的优点是其分类边界灵活,使用纯概率的方法可以得到挖掘信息更深的模型,这种模型可以清晰的判别出多类别或某一类与其他类之间存在的差异特征。
图15 网络结构图
作者在论文提出了一种iTMN可以用于将SDR转换为HDR的生成对抗网络,网络结构如图15所示,生成网络采用U-Net类似结构,这是因为U-Net可以在图像重构的过程中同时使用深层信息和浅层信息一步一步地重建图像,因此U-Net会很适合本任务。用于约束网络的损失函数是一种混合损失函数,包括生成对抗网络定义相关的对抗损失函数和生成网络内容相关的内容损失函数:
其中内容损失函数包含两个部分,分别是均方差和差分均方差,希望通过均方差从像素值方面上约束网络,通过差分均方差在周围像素点的关系上进行约束:
除此之外,对抗损失函数即由GAN网络的定义得出,可以被归纳为:
数据使用HDR视频切片单帧图片,经过多个色调映射算法处理后选取效果最好的SDR图像与原生HDR图像组成数据集,训练使用的训练集包含2660对图像,测试集包含140对图像,实现采用TensorFlow框架。训练后网络在测试数据集上做验证,评测方法采用HDR-VDP-2、mPSNR和SSIM,结果与Huo[24]、KO[22]和DrTMO[23]做对比,并同时与提出结构的两种变式做对比,其中NoDMSE是提出的结构中除去L2部分,NoAdvReg是提出结构除去对抗部分,即使用单独的U-Net,评价结果如下:
该方法在三种不同的评价指标效果均有提升,说明该算法在对比度提升、图像内容增强和图像结构信息上都有一定的进步。除此之外,也对网络的参数进行了一些实验,关于是否需要运用GAN模型在发色调映射任务上的问题,从之前的数据和图16所示的效果图中都显示,使用GAN可以得到更好的转换效果。
图16 S. Ning算法效果与其他方法的对比
4.4 利用DNN的单次曝光HDR重建
相机感光元件一次曝光只能捕捉范围有限的亮度,因此传统方法中使用多个曝光度的照片来合成HDR图片。Eilertsen在文章[27]中提出了一种使用单次曝光的图像来进行HDR图像重建,本质是在亮度饱和区域上预测丢失的信息,这种任务很适合用深度学习的算法来解决,因此算法是基于一种深度卷积网络(CNN)来预测丢失的HDR信息。
算法包括以下步骤:
首先,算法需要对输入的SDR图片进行线性化、颜色校正等预处理。线性化方法中,为了降低复杂度而使用了一种平均的相机响应函数来线性化图像;颜色校正上,也是使用固定的白平衡转换来简化预处理的过程;量化恢复若使用CNN来完成则更接近超分辨率等工作,因此该方法中并未进行量化恢复的处理。
随后,算法使用自动编解码器结构实现,对应层也使用了跳跃式连接,但与U-Net不同的是,网络的解码器部分是在图像的对数域进行处理,因此跳跃式连接还需要将图像的特征转换到对数域再与解码器的各层输出结合,可以通过公式表示:
其中
和
分别表示编码网络和解码网络对应层的输出,
是将图片线性化的处理函数,随后的操作就是将两部分信息组合起来作为混合信息送给下一卷积层处理。网络的结构如图17所示:
图17 Eilertsen提出方法的网络结构
输出HDR图像是由网络输出的对数域图片和输入图片线性化后加权得到,可以由公式表示:
其中
表示输入的SDR图像,
表示网络输出的对数域的HDR图像,i,c分别表示图像的标号和颜色通道,
是用户自定义取值,用于调整两种图像来源的权重。
网络的损失函数通过将图像分解为亮度分量(Illumination)和漫反射分量(Reflectance),用于得到图像不同维度的信息,然后对两种分量转换至对数域后,在L2范数下进行约束,最终的损失函数由两个分量在对数域上的L2范数差的加权和来确定,可以由公式表示:
其中I,R 分别表示图像的亮度分量和漫反射分量,
分别表示网络的输出图片和真实图片,
是用户指定的权值参数。训练使用的是预训练模型,实验表明经过预训练模型可以重建出局部亮度更高的HDR结果,这与真实HDR图像更为接近,随后对网络使用常用参数在与Endo[23]相同方法下构建的数据集进行训练,训练结果如图18所示,可以看出得到的模型能够较好的重建HDR图像的高亮部分,这与真实的HDR图片很接近。
图18 Eilertsen算法的重建效果
相关链接
参考文献
[1] H. Landis. Production-Ready Global Illumination, in: SIGGRAPH Course Notes 16, pp. 87–101, 2002.
[2] A.O. Akyuz, R. Fleming, B.E. Riecke, E. Reinhard. Do HDR displays support LDR content?: a psychophysical evaluation, in: ACM Transactions on Graphics, Vol.26, no 3 p. 38, 2007.
[3] S. Ning, H. Xu, L. Song, R. Xie, W. Zhang. Learning an Inverse Tone Mapping Network with a Generative Adversarial Regularizer, in: arXiv preprint arXiv:1804.07677 (2018).
[4] F. Durand, J. Dorsey. Fast bilateral filtering for the display of high-dynamic-range images, in: ACM transactions on graphics (TOG). Vol. 21. No. 3, 2002.
[5] G.W. Larson, H. Rushmeier, C. Piatko. A visibility matching tone reproduction operator for high dynamic range scenes, in: IEEE Transactions on Visualization & Computer Graphics, No. 4, pp. 291-306, 1997.
[6] E. Reinhard, M. Stark, P. Shirley, J. Ferwerda. Photographic tone reproduction for digital images, in: ACM transactions on graphics. Vol. 21. No. 3: 267-276, 2002.
[7] B. Masia, S. Agustin, R.W. Fleming, O. Sorkine, D. Gutierrez. Evaluation of reverse tone mapping through varying exposure conditions, in: ACM transactions on graphics (TOG). Vol. 28. No. 5, pp. 160, 2009.
[8] A.G. Rempel, M. Trentacoste, H. Seetzen, H.D. Young, W. Heidrich. Ldr2hdr: on-the-fly reverse tone mapping of legacy video and photographs, in: ACM transactions on graphics (TOG). Vol. 26. No. 3, pp. 39, 2007
[9] L. Meylan, D. Scott, S. Sabine. The reproduction of specular highlights on high dynamic range displays, in: Color and Imaging Conference. Vol. 2006. No. 1, pp. 333-338, 2006.
[10] L. Meylan, D. Scott, S. Sabine. Tone mapping for high dynamic range displays, in: Human Vision and Electronic Imaging XII. Vol. 6492, pp. 649210, 2007.
[11] P. Didyk, R. Mantiuk, M. Hein, H.P. Seidel. Enhancement of bright video features for HDR displays, in: Computer Graphics Forum. Vol. 27, No. 4, pp. 1265-1274, 2008.
[12] V. Vapnik. The nature of statistical learning theory. Springer science & business media, 2013.
[13] F. Banterle, P. Ledda, K. Debattista, A. Chalmers. Inverse tone mapping, in: Proceedings of the 4th international conference on Computer graphics and interactive techniques in Australasia and Southeast Asia. ACM, pp. 349-356, 2006.
[14] F. Banterle, P. Ledda, K. Debattista, A. Chalmers. A framework for inverse tone mapping, in: The Visual Computer Vol. 23, No. 7, pp. 467-478, 2007.
[15] F. Banterle, P. Ledda, K. Debattista, A. Chalmers. A GPU-friendly method for high dynamic range texture compression using inverse tone mapping, in: Proceedings of graphics interface, pp. 41-48, 2008.
[16] F. Banterle, P. Ledda, K. Debattista, A. Chalmers. Expanding low dynamic range videos for high dynamic range applications, in: Proceedings of the 24th Spring Conference on Computer Graphics. ACM, pp. 33-41, 2008.
[17] S. Lin, L. Zhang. Determining the radiometric response function from a single grayscale image, in: 2005 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), San Diego, CA, USA, 20-26 June 2005.
[18] S. Lin, J. Gu, S. Yamazaki, H.Y. Shum. Radiometric Calibration from a Single Image, in: Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 938–945. Washington, DC, USA, 27 June – 2 July 2004.
[19] R. Mantiuk, S. Daly, K. Myszkowski, H. Seidel. Predicting Visible Differences in High Dynamic Range Images—Model and Its Calibration, in: Human Vision and Electronic Imaging X, IST SPIE’s 17th Annual Symposium on Electronic Imaging, pp. 204–214, 2005
[20] R. Kovaleski, M. Oliveira. High-Quality Brightness Enhancement Functions for Real-Time Reverse Tone Mapping, in: The Visual Computer. Vol. 25 No. 5–7, pp. 539–547, 2009.
[21] J. Chen, S. Paris, F. Durand. Real-Time Edge-Aware Image Processing with the Bilateral Grid, in: ACM Transactions on Graph. Vol. 26, No. 3, pp. 103, 2007.
[22] R. Kovaleski, M. Oliveira. High-quality reverse tone mapping for a wide range of exposures, in: Graphics, Patterns and Images (SIBGRAPI), Vancouver, Canada, 12-14 August 2014.
[23] Y. Endo, Y Kanamori, J Mitani. Deep reverse tone mapping, in: ACM Transaction on Graph Vol. 36 No. 6, 2017.
[24] Y. Huo, F. Yang, L. Dong, V. Brost. Physiological inverse tone mapping based on retina response, in: The Visual Computer, Vol. 30 No. 5, pp. 507-517, 2014.
[25] ITU-R. BT.2087: Colour conversion from Recommendation ITU-R BT.709 to Recommendation ITU-R BT.2020, in: International Telecommunication Union-Radiocommunication Sector, 2015. Available: http://www.itu.int/rec/R-REC-BT.2087-0-201510-I
[26] ITU-R. BT.2407: Colour gamut conversion from Recommendation ITU-R BT. 2020 to Recommendation ITU-R BT. 709, in: International Telecommunication Union-Radiocommunication Sector, 2017. Available: https://www.itu.int/pub/R-REP-BT.2407-2017
[27] Gabriel Eilertsen, Joel Kronander, Gyorgy Denes, Rafał K. Mantiuk, Jonas Unger. HDR image reconstruction from a single exposure using deep CNNs. In: ACM Transactions on Graphics (Proc. of SIGGRAPH Asia 2017), 36(6), Article 178, 2017.