题目:Deep Hierarchical Video Compression 作者:Ming Lu, Zhihao Duan, Fengqing Zhu, Zhan Ma 来源:AAAI 2024 文章地址:http://arxiv.org/abs/2312.07126 内容整理:令潇越 最近,直接对连续帧中潜在特征的条件分布进行建模以消除时间冗余的概率预测编码已经产生了有希望的结果。使用单尺度 VAE 的现有方法必须设计复杂的网络来进行潜在空间中的条件概率估计,而忽略了视频帧的多尺度特征。相反,作者提出了一种新型的分层概率预测编码框架,其中分层 VAE 将多尺度潜在特征描述为一系列灵活的先验和后验,以预测未来帧的概率。所提出的方法在常见测试视频上优于代表性学习视频压缩模型,并以更少的内存占用和更快的编码/解码展示了计算友好性。
目前,基于学习的视频压缩方法仍然受制于传统的混合编码框架。大多数现有方法都采用了两阶段编码流程,首先编码运动流,然后编码当前帧与运动扭曲后的帧之间的残差。这种框架设计繁琐,并且不准确的运动引起的扭曲误差不可避免地会跨时间帧传播,随着时间的推移逐渐降低重建帧的质量。
针对这一问题,Mentzer 等人提出了一种名为 Video Compression Transformer(VCT)的概率预测视频编码框架。尽管 VCT 优于许多以前的视频编码方法,但其对原始帧 1/16 分辨率的单尺度潜在特征进行条件预测从根本上限制了其表征能力,忽略了视频帧的多尺度特征。
因此,作者提出了一种分层概率预测编码,称为 DHVC,其中通过精心设计的分层 VAE 来对未来帧的多尺度潜在特征的条件概率进行有效建模,当前帧中某个尺度的潜在分布是通过同一帧中先前尺度的先验特征以及先前帧的相应尺度来预测的。通过多阶段条件概率预测,提出的方法在通用视频序列上表现优于混合运动和残差编码以及先前的基于潜在概率预测编码的最先进方法。对于适应各种时序模式的广泛研究还揭示了分层预测机制的泛化能力,此外,提出的方法还支持渐进式解码,是第一个支持这一功能的学习型渐进式视频编码方法,它在一定程度上可以处理由于网络连接不佳而引起的数据包丢失。
本文的主要贡献如下:
图 1 DHVC 的(a)整体架构,(b)潜在块,以及(c)时空预测模块
图 1 (a)是 DHVC 的整体架构,包括自下而上的路径和自上而下的路径。给定输入帧
,自下而上的路径通过尺度逐渐降采样和信息聚合/嵌入(使用残差块)生成一组特征
,分别为原始输入的 1/64、1/32、1/16 和 1/8 分辨率。然后将这些残差特征
发送到自上而下的路径进行分层概率建模,自上而下的路径从两个可学习的常数偏置开始,然后在潜在块中编码一系列潜在变量
,以产生相应的先验特征
和逐尺度的重构特征
。最终,通过将最后的重构表示
传递到多个上采样和 ResBlock 层来重建
。
图 1 (b)是潜在块的架构。每个潜在块将由潜在变量
携带的“信息”添加到自上而下的路径特征中,通过引入(1)用于预测编码的时空预测模块和(2)用于改善编码性能的环内解码融合模块,增强了率失真性能。
时空预测模块
图 1 (c)是 DHVC 的时空预测模块。为了预测第
尺度的
,作者将同尺度的时间先验与来自先前尺度的空间先验
结合起来,产生先验分布参数。首先进行时间融合,通过将时间先验传递到堆叠的 ResBlocks 中,并在每个级别都使用跳跃连接。然后,将空间先验特征
与融合后的时间信息连接起来,进行后续的条件生成,得到上下文特征
和先验分布参数,即平均值
和标准差
。
环内解码融合模块
图 1 (b)右侧是 DHVC 的环内解码融合模块。在解码过程中生成了两种不同的特征:先验特征
用作后续尺度的空间先验,以及重构特征
用于最终结果的重建。在具体实现中,作者将先前解码的特征
和上下文特征
,以及
连接起来生成融合结果
。通过这种方法,
仅处理条件分布建模,而
负责重建。通过利用可靠的上下文特征
,实现了理想的解码
,并有效地保持了比特率的消耗。
为了支持使用可行的熵编码算法进行实际的有损压缩,作者采用了量化感知训练,使用均匀后验分布。具体来说,在训练时采用了混合量化策略来模拟量化误差,加性均匀噪声用于速率估计,而直通舍入操作用于重建;在测试时使用均匀量化。对于先验,使用高斯分布与均匀分布的卷积,以便灵活地匹配后验。
后验
第
个潜变量
的近似后验被定义为均匀分布,如下式所示,其中
是潜在块中后验分支的输出。
先验
先验分布通过在时间潜在变量上进行条件建模来扩展 ResNet VAE 到预测视频编码。对于每个时间步,考虑到
个级别的潜在变量
,潜在条件分布可以因式分解为下式。
然后,每个
的先验分布定义为高斯分布与均匀分布卷积的组合,其中均值
和标准差
由潜在块中的先验分支预测得到。
训练目标
损失函数
如下式,第一项是所有潜在变量的比特率,第二项是重建失真,通常选择为视频的均方误差(MSE)或 MS-SSIM 损失。乘数 λ 用于权衡比特率和失真。
数据集
基准模型
x265,HM-16.26,DVC-Pro,MLVC,RLVC,DCVC,VCT
率失真性能
图 2 率失真性能比较
DHVC 方法在各种数据集上均优于其他学习方法,表现出了良好的泛化能力。
复杂度比较
表 1 复杂度比较
DHVC 在编码和解码时间、每像素的 kMACs 和峰值内存消耗等方面都表现出明显的优势。
消融实验
模块贡献
图 3 模块性能贡献
Baseline 表示禁用了潜在块中的时间预测和环内解码融合,只使用来自前一层级的空间先验进行概率建模。Baseline + TP 表示将时间概率预测集成到模型中以减少时间冗余,显然支持时间信息的性能明显提高。在环内解码融合模块的帮助下, Baseline + TP + DF 的模型在 PSNR 上平均提高了 1 dB。此外,使用五帧进行长期微调,即 Baseline + TP + DF + LT ,使 R-D 曲线得到进一步改善,构成了作者方法的完整性能,这表明通过与多帧联合训练,可以有效地平衡帧之间的速率失真关系。
对于不同时间模式的适应能力
图 4 模型对于不同时间模式的适应能力比较 (a) 值 x = 0、10、20 的像素移位,(b) 在帧顺序 t 处使用 sigma x · t 进行高斯模糊,(c) 使用 alpha 混合在两个不相关的场景之间通过线性过渡进行淡入淡出
无论是哪种时间模式,以及场景变化有多快,DHVC 方法都具有一致的适用性,并且在所有合成数据集上均优于 VCT 方法。
渐进解码能力
图 5 渐进解码
作者展示了 DHVC 方法的渐进解码能力,这在现有方法中很少见,渐进解码提供了相对粗糙的重建,从而在视频流应用中提供了快速且占用较少比特率的预览功能。
作者提出了一种用于基于学习的视频压缩的新型分层概率预测编码框架,称为 DHVC。DHVC 为各种视频样本中流行且具有代表性的学习视频编解码器提供卓越的压缩效率,实现了更好的性能、更低的内存消耗和更快的编码/解码速度。