本文是来自Stanford Compression Workshop 2019的演讲,演讲者是来自斯坦福大学的Kristy Choi。本次演讲主要讲述将深层生成模型用于自动编解码,通过端到端的方式去学习图像编解码来提升位长效率。
Kristy首先指出,在图像编码传输方面,没有信道噪声的情况下使用压缩方案简洁地编码就可以实现低重构误差。但在存在噪声的情况下,通常需要更长的消息对信息进行冗余编码才能从错误中恢复,例如添加奇偶校验位等纠错码。在给定的位长下,如何平衡用于压缩的位数与用于纠错的位数是一个复杂的问题。
针对这种情况,演讲者提出了一个通过深层生成神经网络来进行错误校正的网络框架(NECST),用于学习在给定位长的情况下对输入图像进行的压缩与错误校正。该框架主要有三个关键步骤:首先,使用神经网络将每个图像编码为合适的位字符串,深度生成模型可以提取图片特征自动编码,从而避免依赖手动的编码方案。其次,在模型中模拟离散通道,将噪声直接注入到码流中训练来增强模型的鲁棒性。第三,分摊解码过程,采用无偏差低方差梯度估计的技术,以便在训练后获得非常快速的解码器。
最后,实验结果表明,与WebP+LDPC的组合相比,NECST拥有更高的位长效率,并且随着通道噪声水平的增加,差异变得更加明显。在速度上,GPU上的NECST比传统纠错码LDPC有两个数量级的提升。
本篇的具体模型设计与解码分摊算法演讲者并未详细叙述,感兴趣的读者可以在演讲者KristyChoi的论文“Neural Joint Source-Channel Coding”中做进一步的了解。