首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >NeurIPS 2023 | 神经网络图像压缩:泛化、鲁棒性和谱偏

NeurIPS 2023 | 神经网络图像压缩:泛化、鲁棒性和谱偏

作者头像
用户1324186
发布2024-01-04 13:06:32
发布2024-01-04 13:06:32
6770
举报
文章被收录于专栏:媒矿工厂媒矿工厂

题目:Neural Image Compression: Generalization, Robustness, and Spectral Biases 作者:Kelsey Lieberman, Charles Godfrey 等 来源:NeurIPS 2023 文章地址:https://arxiv.org/abs/2307.08657 内容整理:杨晓璇

引言

目前,神经图像压缩(NIC)在分布内(in-distribution, IND)数据的 RD 性能和运行开销表现出了卓越的性能。然而,研究神经图像压缩方法在分布外(out-of-distribution, OOD)数据的鲁棒性和泛化性能方面的工作有限。本文的工作就是围绕以下关键问题展开的:

  • 如何可靠地评估图像压缩模型的预期 OOD 性能?
  • 能否更深入地了解不同图像压缩方法的运作方式?
  • 训练数据属性和偏差如何影响数据驱动的压缩方法?

以下是本文的主要贡献:

  1. 设计了全面的基准数据集来评估图像压缩方法的 OOD 性能。
  2. 引入了一种基于功率谱密度(PSD)的方法来理解重建误差。不仅量化了误差的大小,而且还精确地突出了误差的产生位置(在频域中)。为了了解压缩方法在未见过的部署场景中的 OOD 性能,提出了傅立叶误差热图——一种可视化工具,用于突出压缩方法的重建性能对频域中不同扰动的敏感性。
  3. 使用基准数据集和检查工具,对经典编解码器与各种 NIC 模型进行了系统的比较。

文章中出现的符号和公式

由于论文涉及较多的符号和公式,在这里进行总结,方便读者进一步阅读。

  • 集合
\mathcal{X}=\{X_k\}_{k=1}^N

表示未被损坏的图像数据集,

X_k

表示未被损坏的单个图像。

c(\cdot)

表示图像损坏的函数,例如加入高斯噪声等,

c(X_k)

表示损坏后的图像。

\mathcal{C}(\cdot)

表示图像压缩模型,

\mathcal{C}(X_i)

经过模型压缩重建后的图像。

PSD(\cdot)

表示通过计算输入的功率谱密度将输入图像从空间域转换到频域的函数。通过应用快速傅里叶变换 (FFT) 来完成的,然后进行移位操作以使零频率分量居中,然后取绝对值。

\frac{1}{N}\sum_{k=1}^N PSD(X_i-c(X_k))

对表示损坏图像的频谱分析:原图与损坏图像作比较。

\mathcal{D}(\mathcal{C,X})=\frac{1}{N}\sum_{k=1}^N PSD(X_k-\mathcal C(X_k))

表示图像压缩模型的谱失真:原图与压缩重建图像作比较。

\mathcal{G}(\mathcal{C,X},c)=\frac{1}{N}\sum_{k=1}^N PSD(c(X_k)-\mathcal C(c(X_k)))

表示 OOD 图像压缩重建的谱失真:损坏图像与压缩重建的损坏图像作比较。

\mathcal{R}(\mathcal{C,X},c)=\frac{1}{N}\sum_{k=1}^N PSD(X_k-\mathcal C(c(X_k)))

表示图像压缩模型对 OOD 图像的鲁棒性谱失真:原始图像与压缩重建的损坏图像作比较。

分布外(OOD)图像压缩数据集

为了在环境或数据分布变化的情况下评估 NIC,作者生成了 CLIC 和 Kodak 数据集的变体,将其称为 CLIC-C 和 Kodak-C。-C 数据集包含每一个图像的 15 种常见损坏版本,并且有从 1 到 5 逐渐严重的损坏级别。

图 1. OOD 图像数据集

根据谱分析,将损失后的图像数据集分为高、中、低频三类。例如脉冲噪声,指的是它“包含大量高频内容”。在图 1 左傅里叶热图可以看到不同类型的损坏对原始图像频谱带来的影响。

实验

在 OOD 数据集和 IND 数据集上对不同图像压缩模型进行实验,使用

PSD

分析了几种图像压缩方法的性能,并通过傅里叶热图可视化。

  • 传统编码器:JPEG、JPEG2000
  • NIC 模型:超先验模型 SH NIC、ELIC模型

分布内数据的频谱失真评估

图 2. 通过 CLIC 测试集评估可视化失真

图 2 中的 RD 曲线是常见的评估方式,可以很清楚地得出在 IND 数据集上,性能比较 ELIC > SH NIC > JPEG2000 > JPEG。

图 2 左右分别展示了在固定 bpp 和固定 PSNR 下不同压缩模型的频谱变化,是重建误差

\mathcal D

的傅里叶热图。通过谱分析,可以得到更细节的结论:

  1. 产生相同 PSNR 的两种方法可能会产生截然不同的频谱伪影。
  2. 随着压缩率的增加,不同的编解码器会优先考虑频谱的不同部分。

分布外数据的泛化和鲁棒性评价

图 3 展示了在不同频率的损坏下,不同压缩模型的 RD 曲线。顶行图是

\mathcal C(c(\mathcal X))

c(\mathcal X)

作对比。低行图是

\mathcal C(c(\mathcal X))

\mathcal X

作对比。每个图中都有三个不同损坏程度的曲线,损坏程度=1(最不透明),损坏程度=3,损坏程度=5(最透明)。

图 3. OOD 数据集的 RD 曲线

通过对图 3 的分析,可得到以下结论:

  1. 图像压缩模型对低频和中频偏移的推广效果优于高频偏移.
  2. NIC 模型在高频去噪损坏方面比经典编解码器更好。

通过频谱分析,可以进一步观察不同压缩模型在频率上的性能。图 4 顶行是泛化误差

\mathcal G

的傅里叶热图, 低行是去噪误差

\mathcal R

的傅里叶热图。

图 4. OOD 数据集的傅里叶热图

通过对图 4 的分析可以得到以下结论:

  1. 对于低频偏移和干净的图像,傅里叶热图是相似的。因为干净数据主要由低频/中频组成,而所有编码器重建了低频损坏的图像,因此
\mathcal R

基本相同。

  1. NIC和经典编解码器在中频偏移上几乎没有泛化错误(<0.2),重建这些图像的效果比重建干净的图像要好。
  2. 在高频偏移上 NIC 模型的行为类似于低通滤波器。

总结

本文对图像压缩模型在 OOD 数据集上进行了细致的频谱分析,揭示了图像压缩的本质:过滤掉高频信息,保留低频和中频信息。NIC 模型同样通过神经网络完成了这一任务。本文有大量的实验对比,并且最后还提供了理论分析,感兴趣的读者可以去阅读原文。

通过本文,作者希望能给未来图像编码器的设计提供新思路。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 文章中出现的符号和公式
  • 分布外(OOD)图像压缩数据集
  • 实验
    • 分布内数据的频谱失真评估
    • 分布外数据的泛化和鲁棒性评价
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档