首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >视频编码性能提升新途径——面向编码的动态预/后处理技术

视频编码性能提升新途径——面向编码的动态预/后处理技术

作者头像
用户1324186
发布于 2018-03-05 09:25:29
发布于 2018-03-05 09:25:29
1.7K0
举报
文章被收录于专栏:媒矿工厂媒矿工厂

2017年9月17日至20日,IEEE国际图像处理会议(ICIP 2017)在北京国家会议中心举办,国内外许多学术界以及工业界的专家学者们都与会进行交流与讨论。9月20日早,旨在使用图像恢复方法来提升编码效率的Grand Challenge环节中,我们作为唯一的参赛者进行了技术分享。主办方希望可以征集一种类似于HEVC标准中后处理的方法来提升编码效率,与传统不同的是,可以使用伴随码流传输的辅助信息在解码器上帮助图像复原,其中辅助信息可以在编码端进行提取与压缩。为了将图像复原技术更好结合到视频压缩之中,这里也推荐采用独立于编解码器的环外滤波结构。

基于上述要求,我们提出一种基于卷积神经网络(CNN)的后处理滤波器,并且采用环外结构将其应用在HEVC编解码器中。我们提出的编码结构如图1:

图1 编码框架

这个结构中,主要包含三个模块:镜头检测,视频分类,以及后处理滤波。在这个编码框架中,主要思想是将视频根据复杂度以及压缩质量进行分类,然后对每一类别分别进行滤波,而该分类信息也将作为一个辅助信息在码流中进行传输。

镜头检测:

镜头检测的任务是将输入的视频序列划分为多个连续的镜头,而这里镜头是指在一段不间断的时间中,由单个相机采集的子序列。而在一个镜头中,每一帧内容较为相近,以镜头为基本单位进行复杂度分类的方法也较为合理。所以在该结构中,视频首先输入镜头检测模块,从而划分为很多子序列,也是一个自适应划分GOP 的过程。

视频分类:

接下来,每个子序列一方面进入到编码器进行压缩,另一路进入到与编码器并行的分类模块。我们在复杂度和压缩质量两个方面进行分类。这里复杂度分为空间复杂度(SI)以及时间复杂度(TI)。其计算方法如下:

先对测试序列进行分析,得到若干组(SI,TI),并且使用K-means的算法将其分成三类,分部代表高,中,低三种复杂度,每一复杂度取中值作为分类指标。当然,因为这里任务是图像复原,实际上主要使用空间复杂度。而在压缩质量这一块,采用量化参数(QP)执行更进一步的分类。根据观察,在一般情况下,QP主要分配在20到40之间。所以选择6个常用的QP:10,24,28,32,36,40 和3个辅助的QP:15,44,48。一个子序列输入该分类模块后,对于整体计算复杂度,并且找到其复杂度类别。然后根据每一帧分配的QP,选择最近的QP类作为其质量类别。因此对每一帧都有一个长度不超过1字节的分类信息,在码流中传输。

CNN滤波器:

在后处理模块中,我们采用了基于CNN的滤波器。近几年很多工作已经证明,神经网络在一些低层次的计算机视觉任务中取得了较为出色的效果。为了验证我们编码结构的有效性,采用了超分辨率任务中一个很强大的网络VDSR[1],如图2。

图2 VDSR网络结构图

但因为图像复原工作中分辨率是不改变的,所以不进行滤波之前的插值,直接输入神经网络。该模型是20层的全卷积神经网络,主要采用残差学习和修正线性单元(ReLU)两项基本技术。这个后处理模块位于解码器之后,所以解码器提取出边界信息后,传给该模块,依此选取相应类别的CNN模型进行处理。而对于每一个类别,均有一个线下训练好的CNN模型。

实验:

训练方法:

该编码框架支持神经网络的线下训练,针对每一个预先分好的类别,对训练数据进行训练,具体的训练细节在表1中呈现。

对训练集进行分类之后,使用x265以表1中的模式进行压缩,固定QP值。再将其分割成许多尺寸为35×35的子块,用来扩展训练数据。最后使用CAFFE进行训练,具体的参数配置可见论文[2]。

表1 离线训练细节

测试结果:

针对Grand Challenge提供的八个视频序列:三个分辨率为,四个分辨率为,以及一个分辨率为的视频。对其进行主观与客观方面的性能分析,在这里,需要强调一点,在参考论文中,测试结果以及测试细节与本文中所呈现的有所区别。在之前的训练过程中,我们仅仅使用视频序列作为训练集,之后加入了自然图片,极大增加了训练数据的有效性。同时在训练数据的预处理过程中,原先采用 –keyint 256的模式在x265上进行压缩,之后改为 –keyint 1 ,使得训练数据更加收敛于设定的QP点 。表2为八个视频亮度分量上的测试结果:

表2 亮度分量的BD-rate

总体来说,对于这八组视频,在亮度分量上平均实现了2.92%的增益,在Flower_cif这一序列上实现最大增益,BD-rate降低4.91%。同时在视觉性能上也具有明显的改善,如下图3是Flower_cif这一序列的第44帧,采用600kb/s比特率进行压缩:

图3 视觉性能(细节增强)

其中包含数字的部分被放大并且置于右下角,可以看出在图像的边界以及一些细节上,经过后处理显得更加清晰。

图4是red_kayak序列中的第9帧,在比特率1600kb/s的情况下压缩:

图4 视觉性能(效应缓解)

可以看出(a)图中含有块效应,而经过后处理模块,这里的块效应被有效缓解了。

结论:

本文中所介绍的环外后处理方法在一定程度上提升了编码性能,最高实现4.91% BD-rate增益。并且也显著提升了视觉质量,另一些细节更加清晰,失真得到了缓解。不过对于一些镜头缩放以及平移的场景,性能提升还不太明显。

人工智能的热度与日俱增,深度学习也应用在各个行业学科。而近几年,深度学习也逐渐与视频编码结合起来,并且得到了较为出色的效果。而我们后面也将推出系列文章来介绍基于学习的视频编码技术,包括变分辨率,变滤波器参数等其他这种框架下的处理办法,敬请持续关注。

参考自:

[1] Kim J, Lee J K, Lee K M. Accurate Image Super-Resolution Using Very Deep Convolutional Networks[J]. 2015:1646-1654.

[2] C. Li, Li Song, R. Xie, W. Zhang, “CNN Based Post-Processing to Improve HEVC,” IEEE International Conference on Image Processing(ICIP), Beijing, China, Sep.17-20, 2017. (论文下载地址:http://medialab.sjtu.edu.cn/publications/publications.html)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-09-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
用神经网络重新审视 VVC 的 SAO 环路滤器
Philippe 首先介绍道,在最近的视频编解码器中,环路后处理滤波已经成为一种至关重要的组件。它可以减少压缩伪影,并减少与原始样本的失真。AVC 首先引入了去块滤波器,之后 HEVC 额外引入了 Sample Adaptive Offset 后处理滤波器,以减少振铃效应和颜色偏差。最近发布的 VVC 标准设计了一种自适应的环路滤波器,使用基于维那滤波器的自适应滤波系数,来最小化重建像素和原始像素之间的 MSE。
用户1324186
2022/02/18
9030
用神经网络重新审视 VVC 的 SAO 环路滤器
面向视频编解码后处理的深度学习方法进展
接前一帖(适用于视频编码帧间预测分数像素插值的卷积神经网络方法简介),今天继续介绍一类基于人工智能的视频处理技术——深度学习在视频后处理中的应用。 1 背景介绍 视频以及图像的有损压缩算法会造成较为严重的失真以及效应,比如,基于块的编码策略将会引起块效应;高频分量的缺失会造成压缩后的图像会更加模糊,还有振铃效应,颜色偏移等等。特别是在编码是在较差的编码配置下(低比特率)尤为明显。这些效应会严重降低用户体验,所以如何去除这些效应或者削弱这些效应的影响也就成为一个重要的问题。 在新一代视频编码标准HEVC(Hi
用户1324186
2018/03/06
2.7K0
面向视频编解码后处理的深度学习方法进展
低复杂度多模型 CNN 环路滤波 for AVS3
卷积神经网络(CNN)在许多图像/视频处理任务中取得了不错的性能表现。而AVS3作为国内自研的新一代视频编码标准,我们将 CNN 应用于 AVS3 视频编码标准,提出了一个低复杂度多模型 CNN 环路过滤方案。首先通过多个轻量级网络模型对比,选择简化的 ResNet 作为整体方案的基础单模型。然后在这基础上,提出了多模型迭代训练框架,实现多模型滤波器方案。并针对不同的比特率范围对网络深度与多模型数量进行了优化,以实现网络模型性能和计算复杂度之间的权衡。实验结果表明:所提出的方法在 All intra 配置条件下,在 Y 分量上实现平均 6.06% 的 BD-rate 节省。与其他编码性能相当的 CNN 环路滤波器相比,我们所提出的多模型环路滤波方案可以显著降低解码器的复杂性,实验结果表明,解码时间平均可以节省 26.6%。
用户1324186
2022/05/25
1.3K0
低复杂度多模型 CNN 环路滤波 for AVS3
基于显著性的感知视频编码
显著性是某些事物突出的特性。对于图片来说,当图片的内容不是很复杂时,显著性区域可以比较容易的划分出来。一般来说,在图片中存在运动物体、前景物体、以及不相关的物体时,会导致显著性检测的结果更容易出现问题。
用户1324186
2022/02/18
1.3K0
基于显著性的感知视频编码
视频编码(3):H.266 编码性能比 H.265 再提升 49% 的关键丨音视频基础
我们在前文《视频编码(1)》和《视频编码(2)》中探讨了 H.264 视频编码的基本概念、编码工具、编码流程及码流结构等基础知识,以及在 H.264 基础上迭代而生的 H.265 有哪些改进。接下来我们再来聊聊更新一代编码技术 H.266 的改进。
关键帧
2022/06/13
4.1K0
视频编码(3):H.266 编码性能比 H.265 再提升 49% 的关键丨音视频基础
深度学习赋能视频编码
深度学习赋予了诸如计算机视觉等领域新的研究契机,其应用也获得了视频编码领域的诸多关注。在LiveVideoStack线上分享中北京大学信息技术学院 助理研究员王苫社详细介绍了当下深度学习在视频编码中的
LiveVideoStack
2019/07/19
1.7K0
视频编码标准和FB的提升工作
本文来自Video Scale 2020,演讲者是来自Facebook的研究科学家Ioannis Katsavounidis。演讲题目是视频编码标准和FB的提升工作。演讲分为如下几个部分。
用户1324186
2020/12/28
9180
视频编码标准和FB的提升工作
深度学习赋能视频编码
image.png 深度学习赋予了诸如计算机视觉等领域新的研究契机,其应用也获得了视频编码领域的诸多关注。在LiveVideoStack线上分享中北京大学信息技术学院 助理研究员王苫社详细介绍了当下深
LiveVideoStack
2019/07/19
1.2K0
深度学习赋能视频编码
学术界AV1编码优化技术的进展
学术界的一些优化工作实涵盖了编码过程的大部分模块。很 明显的趋势就是许多深度学习的网络或者方法已经开始与编码的模块进行结合,并取得了很多不错的收益。本文将按照编码过程的大致顺序分享学术界AV1编码优化技术的进展。
LiveVideoStack
2021/09/01
4380
学术界AV1编码优化技术的进展
MPEG视频编码增强方案初探
一方面,大多数国家网络带宽不足以支持传送高质量的OTT视频内容。即使在美国,欧洲和日本等发达国家,3Mbps以上用户只有不到10%,2Mbps和3Mbps之间的比例为15-20%,1Mbps和2Mbps之间的比例为40-50%,低于1Mbps的比例超过30%。另一方面,H.264/AVC编解码设备已广泛部署,消费电子设备的更换周期长,难以短时间内升级到更高性能的方案,尽管存在多种新编码替代方案(例如,HEVC,SHVC,VP9,AV1和VVC)。
用户1324186
2019/03/07
1.4K0
MPEG视频编码增强方案初探
视频编码优化之道
5月20号,在LiveVideoStack音视频技术社区举办的WebRTCon 2018大会上,上海交通大学图像所宋利教授在WebRTC与Codec专题作为出品人分享了关于视频编码优化方面的思考和看法。下面将介绍本次分享的主要内容。
用户1324186
2018/07/26
3.7K0
视频编码优化之道
透过 Top 500 美拍短视频看 AV1 性能
AV1 以其出色的压缩性能,无疑是自 2017 年以来备受关注的新生代视频编码标准。业界也相继对 AV1 进行了一些评测工作,如 Facebook、Netflix 对它的编码复杂度也从早期的 VP9 的近千倍降到了百倍。为了验证 AV1 在短视频上的性能,美图音视频团队自 2018 年 11 月,基于 Top 500 美拍短视频进行了一次全面的 AV1 性能评估,对标编码器采用在实际生成环境中使用的主流视频编码器 x264、x265、VP9。
LiveVideoStack
2019/07/01
1.3K0
透过 Top 500 美拍短视频看 AV1 性能
动态优化器—一种感知视频编码优化框架
视频编码推动了过去25年的学术研究,并且推出了引人注目的产品与服务。众多公司都围绕视频编码和传输而构建--- Netflix和Google的YouTube是两个最好的例证。
LiveVideoStack
2021/09/02
9740
动态优化器—一种感知视频编码优化框架
【AI视频编码】IEEE ISCAS2018 相关研究进展
ISCAS 2018于2018年5月26日到5月30日在意大利佛罗伦萨举行,会议主题为Art of Circuits and Systems,与佛罗伦萨-欧洲文艺复兴的起源地相映成趣。会议为期五天,包含四天的技术报告,并有David H. Robertson、Reid R. Harrison、Alessandro Cremonesi和Mauro Bosio等学界业界专家进行报告。今年是ISCAS 50周年,因此会议举办的格外盛大。
用户1324186
2018/07/26
1.5K0
【AI视频编码】IEEE ISCAS2018 相关研究进展
宋利:编码既是技术也是艺术
收到对宋利的采访邮件,正文开始是一段自嘲,让原本枯燥的技术采访变得生动。相比于之前几个采访,本文的信息量更大,不得不对严谨的学术界敬佩三分。本文是『下一代编解码』系列采访的第6篇,邀请到了上海交通大学任研究员,博士生导师宋利,他全面的解读了编解码器的现状与未来趋势。
LiveVideoStack
2021/09/02
8130
宋利:编码既是技术也是艺术
视频编解码优化以及与AI的实践结合
大家好,我是RealNetworks的况超,本次演讲的主题是视频编解码优化以及与AI的实践结合,虽然我不是AI技术的专家,但在做视频编解码的后期也会用到一些AI的技术,所以也会与大家一起分享这部分的内容。
LiveVideoStack
2019/10/21
1.7K0
视频编解码优化以及与AI的实践结合
下一代视频编码的新选项?xvc 2.0
专注开发视频编解码器的软件公司Divideon(总部位于斯德哥尔摩,瑞典)于2018年7月3日正式发布了xvc codec的第二个版本xvc 2.0。xvc是一款纯软件开发的新一代的视频编解码方案,致力于在低比特率流媒体应用中提供较高的压缩性能和良好的视觉质量。xvc模块化的软件参考实现目前已经在github上开源,开源地址为https://github.com/divideon/xvc。
用户1324186
2018/08/23
2K0
下一代视频编码的新选项?xvc 2.0
FVC/H.266参考软件JEM的性能评价
JEM简介 FVC/H.266编解码器采用的参考软件为JEM(Joint Exploration Model),JEM是在HEVC参考软件HM(HEVC Test Model)的基础上发
用户1324186
2018/03/05
2.9K0
FVC/H.266参考软件JEM的性能评价
新编码器前景:VVC、EVC、HEVC、LCEVC、AVC等
本文来自SMPTE Technology Webcast Series,演讲者是来自Dolby laboratories, Inc的Sean T. McCarthy和Walt Husak,演讲主题是新型视频编解码器前景:VVC, EVC, HEVC,LC-EVC, AVC等。
用户1324186
2020/09/23
2.9K0
【视频编码】 Content Aware ABR技术(七)
在本系列前面的帖子中,我们连续梳理了Netflix、YouTube、Beamr、EuclidIQ、Bitmovin及Harmonic在CAE(Content Aware Encoding) for A
用户1324186
2018/03/05
1.2K0
【视频编码】 Content Aware ABR技术(七)
相关推荐
用神经网络重新审视 VVC 的 SAO 环路滤器
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档