摘要
做为图像/视频编码领域的顶级会议之一,第33届图像编码研讨会(PCS,Picture Coding Symposium)于2018年6月24号至6月27号在加州旧金山召开。本次会议旨在为视觉压缩领域提供一些突破性的先进技术以及提供高水平的学术报告。在会上,JVET的两位联合主席Jens-Rainer Ohm和Gary J. Sullivan做了关于下一代视频编码标准VVC的主题报告,介绍了上一轮提案征集结束后的测试结果、当前VVC测试软件的情况以及后续的工作计划。
视频编码标准发展历史
探索压缩性能进一步提高的视频压缩编码方法一直是研究的热点。视频毫无疑问是“最大的大数据”(~75%的互联网流量),并且还在持续增长。这种增长一方面来自视频本身信息量的提升,如分辨率从HD到UHD,帧率从30fps到60fps甚至100fps,颜色格式从SDR到HDR,3D、多视角以及360视频的兴起。另一方面来自终端设备的增多,如越来越多的电视、手机甚至监控设备已经可以支持UHD视频。数据的增长速度超过了带宽增长,因此开发比HEVC性能更好的下一代视频编码技术是非常必要的。
国际上的视频编码标准组织主要有两个,ITU-T的VCEG (Video Coding Experts Group)和ISO/IEC的MPEG(Moving Picture Experts Group)。早期这两个组织或独立或联合开发了多个视频编码标准,后来的视频编码标准都是两个组织联合开发的:2003年由JVT联合工作组发布的H.264/AVC,2013年由JCT-VC联合工作组发布的H.265/HEVC以及JVET联合工作组正在进行的下一代视频编码标准H.26X/VVC。
每一代视频编码标准只规定了语法、码流以及解码器格式。用户可以自己对编码器进行优化,比如进一步提高压缩性能或者进一步降低计算复杂度,只要码流格式符合标准规定即可。自H.261起,所有的视频编码标准都采取了一个堪称“标准模型”的混合编码框架,包含预测(帧内预测、帧间预测)、变换、量化、熵编码、环路滤波等基本模块。此外,也遵循一个编码界的“摩尔定律”:新一代视频编码性能要比上一代标准提高一倍。
视频编码压缩性能的提升主要来自以下几个方面:一、更先进的运动估计、运动补偿以及帧间预测技术,预测模式、预测精度、参考帧数量等都在不断提高。二、更先进的帧内预测技术,预测方向、预测块大小等在不断细化。三、更先进的环内滤波方法,去块效应、样本自适应补偿(SAO)的引入可以有效降低解码重建帧的失真。四、更先进的熵编码方式,专门为视频编码信号设计的熵编码方法可以进一步降低编码后的码率。此外,率失真优化技术(RDO)的演进有助于选择综合码率和失真的最优的编码模式; 码率控制技术(Rate Control)可以更精确的控制压缩后的码率。
VVC call for proposals——设置与结果
为了研究下一代视频编码技术,JVET联合工作组于2015年10月发布了实验软件JEM(Joint Exploration Model)来探究比HEVC性能更好的压缩技术。JEM是在HEVC的参考软件HM的基础上通过加入一些更加先进的技术或者替换某些已存在的技术开发的。2017年7月份结束的Call for Evidence已经证明了相比于HEVC,JEM可以极大的提升压缩性能。但是由于只是为了探究技术的性能,在实现过程中,JEM并没有考虑编码的时间复杂度,其编码器的复杂度急剧提升,因此JEM并不会作为新的标准参考软件发布。JVET于2017年10月开始征集提案(Call for Proposals)并于今年4月完成了对提案的评估。在这轮Cfp中,共收到32个组织的多份提案,分别涉及了SDR、HDR、360视频等多种格式。所有提案的性能都高于HEVC,甚至某些提案的性能高于JEM。
下一代视频编码标准VVC的设计目标是要适用于绝大多数的数据类型: HD/UHD分辨率格式,SDR/HDR格式,摄像机拍摄的内容、计算机产生的内容、非摄像机产生的视频格式以及360、光场等新兴格式。为了实现这一目标,在Cfp阶段,工作组设定了多个测试序列以及测试条件。
Cfp提供了包含SDR、HDR、360视频三种视频类别的多个测试序列,分辨率从HD到UHD(4K), 6K/8K(360视频)。每个视频类别都规定了由低到高四个不同的码率点(R1-R4)。同时对于主观测试,规定使用DSIS方法,并分别与HEVC和JEM进行比较。
测试结果显示,就客观质量(PSNR)而言,对于SDR类型的视频,相比于HEVC,新的综合技术提案最高可以节省超过40%的码率;相对于JEM最高也可以节省超过10%的码率。对于HDR和360视频也有同样的趋势。此外,有些技术提案虽然压缩性能与JEM持平,但极大的降低了编码复杂度。
新的提案在主观性能上也显示出了同样的优势,全部提案的主观性能都明显高于HEVC。对于另一个比较软件JEM而言,有部分提案的主观性能低于JEM,但也有多篇提案的性能有明显的提高。并且对所有类型的测试序列都显示出了这样的性能趋势。经统计发现,对于全部测试的视频类型,每种视频类型下性能最好的技术提案在某个码率点(R[x])的主观质量都不低HEVC在高于该码率点的下一个码率点(R[x+1])的主观质量。特别的,对于SDR-UHD类型的测试序列,性能最好的技术提案在某个低码率点(R1、R2)的主观质量都不低于HEVC在四个码率点中第二高的码率点(R3)的主观质量。因此,下一代视频编码标准在同等质量的情况下节省50%的码率的目标是可能实现的。
编码工具简介
对于探索用的测试软件,JEM在HM的基础上改进或者增加了多个编码工具。
•块划分结构
QTBT的划分方式中不再有CU、PU、TU的概念,统一在最后划分得到的块上进行操作。
•帧内预测
相对于HEVC的帧内预测,JEM具有更多的预测模式、更多的参考位置以及模式依赖的滤波/平滑,色度块使用相邻块的预测模式或者使用对应的亮度块的模式导出。此外,在CCLM中,使用线性模型预测样本的色度分量。
•变换
JEM的最大变换尺寸为128 x 128,变换时只保留低频分量的系数,把高频分量的系数置零,自适应多核变换(AMT,Adaptive Multiple Core Transform)用于选取帧内预测模式的变换集,变换矩阵的量化更精确。在帧内预测模式下,经过初次变换后变换系数间的相关性依然比较强,所以JEM中使用了模式依赖的不可分二次变换(MDNSST,Mode-Dependent Non-separable Secondary Transforms)。
•帧间预测
在JEM中,一个CU在每一个预测方向上最多有一个运动参数集,大CU分割为子CU时有两个选项:ATMVP和STMVP,作为额外的合并候选者,候选列表能扩大的最大值为7。JEM的运动补偿中使用了仿射运动矢量推导(Affine Motion Vector Derivation),即在CU的运动矢量场中,在1/16像素处为每一个4 x 4块推导可用的MV,分为AF帧间模式和AF合并模式。解码器端使用了运动矢量优化(DMVR,Decoder-side Motion Vector Refinement),使用双边模板匹配优化双向预测的MV。
•环内滤波
•熵编码CABAC
在2017年中期,JEM相对于HM在性能上已经有了明显的提高:帧间编码(random access配置)平均码率节省大致为30%,只进行帧内编码(无运动补偿)时大致为20%,主观测试则表明这些数据可以转化为更高的视觉增益。
本次提案征集的大多数提案依旧基于混合编码框架,其性能主要来自于对HEVC和JEM中已有模块的进一步改进。本次提案征集中比较新的内容是提出了一种新的编码块划分方式,即从四叉树的叶节点开始交替使用三元树和二叉树划分,进一步的变体包括非对称矩形和Diagonal二叉树划分模式。此外,也有一些基于神经网络的新兴编码技术。
总结与展望
目前,VVC的第一代测试模型——VTM1已经公布了。VTM1是在经过一些简化的HEVC的基础上开发的,当前版本的VTM只是引入了新的划分方式以及增大了CTU以及TU的尺寸。此外,Benchmark Set 也已经发布,主要包含了一些在JEM中表现良好的编码工具。相比于HEVC,在标准测试条件下,VTM和BMS(Benchmark Set)分别可节省8%和23%的码率,但编码复杂度也有明显的增加,分别为HEVC的200%和900%。。
视频压缩编码是一个十分活跃的研究领域,尽管最新的编码标准HEVC相比于上一代编码标准已经显示出了极大的性能提升,JVET的前期探索工作证明了研究性能超过HEVC的压缩编码方法是可能的。当前一系列用于探究编码性能、编码复杂度等的核心实验(Core Experiments)正在开展,还有一些新兴的技术比如深度学习也开始应用到视频编码领域。因此,在保证与HEVC相同的主观质量的情况下,节省50%码率的下一代视频编码标准是可能完成的。
报告PPT全文: