题目:Neural Image Compression: Generalization, Robustness, and Spectral Biases 作者:Kelsey Lieberman, Charles Godfrey 等 来源:NeurIPS 2023 文章地址:https://arxiv.org/abs/2307.08657 内容整理:杨晓璇
目前,神经图像压缩(NIC)在分布内(in-distribution, IND)数据的 RD 性能和运行开销表现出了卓越的性能。然而,研究神经图像压缩方法在分布外(out-of-distribution, OOD)数据的鲁棒性和泛化性能方面的工作有限。本文的工作就是围绕以下关键问题展开的:
以下是本文的主要贡献:
由于论文涉及较多的符号和公式,在这里进行总结,方便读者进一步阅读。
表示未被损坏的图像数据集,
表示未被损坏的单个图像。
表示图像损坏的函数,例如加入高斯噪声等,
表示损坏后的图像。
表示图像压缩模型,
经过模型压缩重建后的图像。
表示通过计算输入的功率谱密度将输入图像从空间域转换到频域的函数。通过应用快速傅里叶变换 (FFT) 来完成的,然后进行移位操作以使零频率分量居中,然后取绝对值。
对表示损坏图像的频谱分析:原图与损坏图像作比较。
表示图像压缩模型的谱失真:原图与压缩重建图像作比较。
表示 OOD 图像压缩重建的谱失真:损坏图像与压缩重建的损坏图像作比较。
表示图像压缩模型对 OOD 图像的鲁棒性谱失真:原始图像与压缩重建的损坏图像作比较。
为了在环境或数据分布变化的情况下评估 NIC,作者生成了 CLIC 和 Kodak 数据集的变体,将其称为 CLIC-C 和 Kodak-C。-C 数据集包含每一个图像的 15 种常见损坏版本,并且有从 1 到 5 逐渐严重的损坏级别。

图 1. OOD 图像数据集
根据谱分析,将损失后的图像数据集分为高、中、低频三类。例如脉冲噪声,指的是它“包含大量高频内容”。在图 1 左傅里叶热图可以看到不同类型的损坏对原始图像频谱带来的影响。
在 OOD 数据集和 IND 数据集上对不同图像压缩模型进行实验,使用
分析了几种图像压缩方法的性能,并通过傅里叶热图可视化。

图 2. 通过 CLIC 测试集评估可视化失真
图 2 中的 RD 曲线是常见的评估方式,可以很清楚地得出在 IND 数据集上,性能比较 ELIC > SH NIC > JPEG2000 > JPEG。
图 2 左右分别展示了在固定 bpp 和固定 PSNR 下不同压缩模型的频谱变化,是重建误差
的傅里叶热图。通过谱分析,可以得到更细节的结论:
图 3 展示了在不同频率的损坏下,不同压缩模型的 RD 曲线。顶行图是
与
作对比。低行图是
与
作对比。每个图中都有三个不同损坏程度的曲线,损坏程度=1(最不透明),损坏程度=3,损坏程度=5(最透明)。

图 3. OOD 数据集的 RD 曲线
通过对图 3 的分析,可得到以下结论:
通过频谱分析,可以进一步观察不同压缩模型在频率上的性能。图 4 顶行是泛化误差
的傅里叶热图, 低行是去噪误差
的傅里叶热图。

图 4. OOD 数据集的傅里叶热图
通过对图 4 的分析可以得到以下结论:
基本相同。
本文对图像压缩模型在 OOD 数据集上进行了细致的频谱分析,揭示了图像压缩的本质:过滤掉高频信息,保留低频和中频信息。NIC 模型同样通过神经网络完成了这一任务。本文有大量的实验对比,并且最后还提供了理论分析,感兴趣的读者可以去阅读原文。
通过本文,作者希望能给未来图像编码器的设计提供新思路。