本文来自PCS会议(2021)的一次Keynote,演讲者是来自ATHENA的Christian Timmerer,主题是“HTTP自适应流会走向何处“。
本次演讲将分为三个部分:
根据思科在2019年作出的推断,到2022年时,视频将占据网络流量的82%。同时,视频直播将占据更大的比重。在应用方面,更高级的,诸如VR、8K电视等应用将会导致更高的带宽占用。视频流量的重要性是是本次演讲的动机。

图1 HAS基本流程
HTTP自适应流的基本过程如图1所示,服务器端编码多个不同码率的副本,客户端随着网络情况的波动自适应地选择相应码率的片段进行下载和播放。

图2 多媒体系统的挑战和折中
图2展示了多媒体系统存在3个方面的挑战和折中:

图3 HAS问题的考虑角度
图3展示了ATHENA公司考虑HAS问题的几个方面,下面将分别进行简要的介绍。
在内容供应方面,主要考虑以下三点:
视频编码的过程简单来说就是对图像块划分、运动补偿、变换和量化以及熵编码。解码过程是熵解码、反变换和反量化、帧内帧间预测、环路滤波,之后到缓冲区,然后显示的过程。

图4 机器学习在编码中的应用
如图4,机器学习在编码中当前主要应用在CTU划分的预测、光流估计、角度方向预测、去块和降噪以及超分辨率这几个方面。
在加速多码率编码方面,编码的信息可以在编码不同质量的表示时被复用。比如首先编码最高质量的码流,然后使用其信息编码最低质量的码流,之后使用这些信息编码剩下的版本。信息可以指导及限制CTU搜索的范围。
在这种方法下,高质量视频的编码成为了整体速度的瓶颈。为了解决这个问题,以提升并行编码的程度,提出了首先编码中间质量版本,然后用其信息编码剩余版本的方法。

图5 多分辨率多码率加速编码的示意
上面这两种方法都是在HEVC上基于HM这个参考软件提出的,为了进一步提高效率,接下来在x265这个更加实用的编码器上进行优化,将多码率和多分辨率方法在x265上进行结合。算法的大致情况如图5所示。

图6 CNN应用到多码率编码加速
接下来是将机器学习应用到多码率编码的加速,方法是使用CNN来预测CTU的深度。对于不同QP训练不同的网络。在编码时,首先编码最低质量的版本,然后编码其他质量的版本,并在瓶颈,也就是最高质量的几个版本编码时使用CNN来进行加速。算法流程如图6所示。

图7 CNN应用到多分辨率多码率编码加速
然后就是把这种想法应用到多分辨率编码中,算法流程如图7。
在内容分发方面,主要考虑以下四点:

图8 边缘动态片段重打包
首先是为HAS在边缘进行动态片段重打包,方法是只在核心/CDN传输时使用CMAF片段,在边缘根据需要的格式进行重打包,如图8所示。这样相比于使用所有格式来传输的情况可以获得20%的带宽节省,同时还评估了重打包的时间。

图9 网络资源使用优化
然后是直播视频流的资源使用优化,如图9,方法包括:

图10 ES-HAS示意
接下来是ES-HAS,边缘和SDN协助的HAS框架,做法是在网络边缘引入新的服务器/片段选择方法,主要目标是提升QoE和网络使用率,结构如图10。
在内容消费和端到端视角,主要考虑以下四点:

图11 各种码率自适应方案
在码率自适应方案上,各种方法如图11所示。

图12 H2BR示意
然后是H2BR,基于HTTP/2的重传。这种方法借助HTTP/2的一些特性来增强现有的ABR,如图12。H2BR可以将最低质量的播放降低70%以上,QoE最多可以提升13%。

图13 不同播放器中ABR算法的QoE对比
在QoE方面,已经有白皮书给出了具体的定义。根据这种定义对播放器中的ABR算法进行了主客观测试,结果如图13。
在自适应点云流的QoE评估方面,立体视频传输提供了6自由度体验,但是需要大量带宽消耗,MPEG已经有点云压缩PCC的参考软件。为了解决网络和内容对感知质量的影响以及主客观指标一致性的问题,给出了一些测试方案,相应的结果可以在视频中查看细节。