来源:IEEE Transactions on Image Processing 2023 题目:Scalable Face Image Coding via StyleGAN Prior: Toward Compression for Human-Machine Collaborative Vision 作者:Qi Mao, Chongyu Wang, Meng Wang 原文链接: https://ieeexplore.ieee.org/abstract/document/10372532 内容整理:刘潮磊 视觉内容的增多和机器视觉技术的快速发展为大规模视觉数据的传输带来了重大挑战,这些数据必须得到有效的表示以满足人类和机器的需求。在这项工作中,研究了如何利用从高级生成先验中得到的层次表示来构建人机协作视觉的高效可扩展编码范式。本文的关键是:通过利用 StyleGAN 先验,可以学习编码层次语义的三层表示,这些表示被精心设计到基础层、中间层和增强层中,以渐进的方式支持机器智能和人类视觉感知。为了实现高效压缩,本文提出了分层可扩展熵变换器来减少层之间的冗余。基于多任务可扩展率失真目标,对所提出的方案进行联合优化,以实现最佳的机器分析性能、人类感知体验和压缩比。本文验证了所提出的范式在人脸图像压缩中的可行性。大量定性和定量实验结果表明,所提出的范式在机器分析和极低比特率(< 0.01 bpp)下的人机感知方面均优于最新的压缩标准多功能视频编码(VVC),为人机协作压缩提供了新的见解。
研究问题:针对人脸图像,对人眼、机器视觉设计一个分层编码器。
SOTA 工作与所属团队:
动机:
贡献:
图1
1. 按照输入generator的次序可以将18个style vectors分为三组:
图2
2. ~ 分别从最高层级~最低层级的特征图中映射得到:
图3
3. 引入平均style vector :
𝑧是输入图像,𝑓是图像到𝑤的映射,表示训练集映射后的平均style vector
4. 重建图像:
对三种层级的任务分别应用三层style vector加上得到
图4
1. Hyper Transformer:
Hyper encoder/decoder由一系列self-attention组成。
图5
2. Entropy Transformer:
相当于分组的自回归熵模型,分为 ~ 三组
图6
以为例:
对每个下游任务都设置了相应的任务损失:
数据集(人脸数据集;1024x1024分辨率):
训练细节:
Basic Layer(𝐿_1层):面部标志点检测、面部解析
图7
左图为面部标志点检测任务,右图为面部解析任务。
Middle Layer(𝐿_2层):面部识别、面部属性预测
图8 面部识别结果
图9 面部属性预测结果
Enhanced Layer(𝐿_3层):人眼感知
图10
分层效果探究:
表1
可以看出,基础层在基本任务(Landmark Detection, Face Parsing)上表现良好,中间层在额外的高级任务(Identity Recognition)上表现较好,增强层在包含人眼感知在内的所有任务上都表现良好,说明本文的网络有着很好的分层处理效果。
消融实验:
表2
表3
这项工作中提出了利用 StyleGAN 先验的分层style vector作为紧凑的视觉数据表示,将其分层语义信息分配到基础层、中间层和增强层,以逐步支持机器分析和人类感知。所提方案的新颖之处在于三层表示的分层语义信息分配、分层可扩展熵变换器的跨层相关性降低以及设计的多任务可扩展优化策略,从而实现高效的人机协作压缩。本文展示了所提方案在人脸图像压缩方面的卓越性能:与最新的传统和基于学习的压缩范式相比,每个可扩展层上的相应视觉任务都可以更有效地执行。总体而言,所提出的方案通过展示从生成先验中得出的语义表示如何为开发人机协作视觉的高效可扩展编码方案提供新见解,推动了图像/视频编码研究领域的发展。