本文是来自alliance for open media research symposium2019的演讲,作者是来自于UT Austin的PhD,Li-Heng Chen。本次演讲主要讲述如何在感知上优化深度图像压缩。
Li-Heng Chen这次的工作是基于Ballé’s BLS2017 model进行的改进。在演讲中,Li-Heng Chen提出了他最初的想法:将经过预训练的网络作为VMAF的代理:
但这样的做法存在一些问题:
为了解决这些问题,Li-Heng Chen提出了一种替代的学习框架,将Ballé’s BLS2017 model和ProxIQA网络连接在一起,固定ProxIQA网络,在综合考虑两个模型分别的像素和码率两个维度的损失的情况下调整整体网络的损失函数,以此来训练出一个适用于此应用场景的网络模型。
最后,Li-Heng Chen给出了方法在Kodak dataset上不同情况下的BD-rate和一些主观实验结果,展示了其为深度图像压缩带来的优化。