Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >2017-ICLR-END-TO-END OPTIMIZED IMAGE COMPRESSION

2017-ICLR-END-TO-END OPTIMIZED IMAGE COMPRESSION

作者头像
hotarugali
发布于 2022-05-01 06:00:54
发布于 2022-05-01 06:00:54
1.3K0
举报

1. 摘要

本文提出了一种图像压缩框架,其由一个非线性分析变换、一个均匀量化器和一个非线性综合变换组成。这些变换都三层结构,每一层由一个卷积线性过滤器和非线性的激活函数构成。与大多数卷积神经网络不同的是,这些联合的非线性是用来实现一种局部增益控制,这种局部增益控制最初是来源于生物神经元领域的发现(局部增益控制已经成为生物神经元建模的一种方法)。作者使用随机梯度下降方法来联合优化整个模型的率失真性能。针对均匀标量量化器的目标函数不连续问题,作者提出了一种连续可微的近似量化,从而保证在优化过程中梯度能有效地反传。最后在测试集上,作者提出压缩模型展现出比 JPEG 和 JPEG2000 更好的性能。而且,该压缩模型在所有码率和所有图像上,MS-SSIM 性能都要好于 JPEG 和 JPEG2000。

2. 引言

数据压缩一直以来都是一个工程基础问题,自香农提出熵信息以来,数据压缩问题得到很好的研究。对于给定的离散数据,最优的压缩编码可以通过最小化编码熵来得到。而这个最优的压缩编码严重依赖于数据本身的概率分布,因此设计一个最优的压缩编码本质也是对数据分布进行建模的问题。然而,实际的编码必须具有有限的熵,因此连续值数据必须量化成一系列有限的离散值,而这会导致误差的引入。在这篇文章中,作者研究的便是有损压缩问题,针对有损压缩,我们必须平衡两个互斥的损失:离散编码的熵(率)和由量化引起的误差(失真)。因此最终要优化的目标函数即率失真函数。对于不同的压缩场景,比如数据存储或有限容量信道的数据传输,对不同的率失真 trade-off 要求也不同。

然而,联合优化率失真是很困难的。如果没有进一步的约束的话,这个问题的最优量化在高维空间是难以求解的。因此,大多数现有的图像压缩方法都是先通过一个线性变换将图像数据变换到合适的连续值表示,然后独立地量化这些连续值,最后使用一个无损的熵编码来编码量化得到的离散值。这个框架一般称为变换编码,因为变换在这个框架中起到决定性作用。比如,JPEG 使用 DCT 变换来编码像素块,而 JPEG2000 使用多尽度的正交小波变换来解耦图像块。通常,变换编码的三个组成部分:变换、量化、熵编码,往往是独立地进行优化的(而且往往是通过手动设置参数进行调整的)。

作者在本文中完善了他原先在另一篇文章中提出的一个基于非线性变换的端到端压缩框架,完善的框架如下图所示:

在他先前那篇文章中,他并没有详细介绍上述框架中的分析综合变换结构。在本文中,作者对此进行了进一步介绍,给出了该框架下的一个实际模型,并给出了充足的理论分析和实验来验证该模型的有效性。在此模型中,分析变换作者采用了级联线性卷积层和非线性层的结构,非线性层采用的是 GDN 模型(来源于作者的另一文章[3]);而综合变换则是采用了分析变换的近似逆结构。量化使用的是均匀的标量量化。

对于期望逼近的率失真曲线上的每个点,都直接使用梯度下降优化方法同时联合优化分析综合变换。对于均匀标量量化导致梯度几乎处处为 000 的问题,作者给出了一种连续的近似均匀标量量化来替代原来的离散均匀量化。最后,作者对量化后的数据使用了一个熵编码得到实际的比特流,从而计算该模型实际的码率,以此来验证该模型的有效性。

3. 分析、综合以及感知变换的选择

大多数压缩方法都是建立在正交线性变换基础上,目的是为了降低数据间的相关性,从而简化后续的熵编码。但是线性变换输出之间的联合统计特性展现了很强的高阶依赖。这个问题可以通过使用局部增益控制操作(最早来源于生物神经元领域)来很好地解决,于是作者使用了他自己在另一篇文章中提出的 GDN 模型来替代线性变换(在那篇文章中作者已经验证了 GDN 具有很好的高斯化图像数据的能力)。

更为具体的,作者在本文中提出的模型的分析综合变换结构均由三阶结构组成,具体如下图所示:

4. 优化非线性变换编码模型

4.1 模型优化

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
2016-PCS-End-to-end optimization of nonlinear transform codes for perceptual quality
这篇文章[1]提出了一个通用的变换编码框架,用于提升假定使用标量量化的端到端的非线性变换编码的率失真性能。结合任意可微的感知度量,这个框架可以用于优化任意可微的分析变换和综合变换对。
hotarugali
2022/03/09
1.3K0
2016-PCS-End-to-end optimization of nonlinear transform codes for perceptual quality
学界 | 纽约大学提出端到端优化图像压缩方法,全面超越JPEG 2000 | ICLR 2017
AI科技评论按:ICLR 2017 将于4月24-26日在法国土伦举行,届时AI科技评论的编辑们也将前往法国带来一线报道。在这个深度学习会议举办之前,AI科技评论也将围绕会议议程及论文介绍展开一系列的覆盖和专题报道,敬请期待。 数据压缩是一种基础工程问题,在数据存储和有限容量信道传输中有重要的应用。图像作为一种信息载体,数据量巨大,因此研究者们对图像压缩的研究从未停止过。在ICLR 2017会议上,来自纽约大学的Johannes Balle 等研究者提出了一种端到端优化的图像压缩方法,并发表了论文:《E
AI科技评论
2018/03/12
1.5K0
学界 | 纽约大学提出端到端优化图像压缩方法,全面超越JPEG 2000 | ICLR 2017
支持码控的学习型图像压缩
图像压缩是一种广泛使用的技术。在过去的几十年里,传统的图像压缩方法发挥了重要作用。JPEG 是一种基本的图像压缩方法,自20世纪90年代以来一直被使用,并且仍然是主流的压缩格式。JPEG 中应用了 DCT 变换和霍夫曼熵编码。后来,WEBP 、BPG 和 VVC 涉及更复杂的工具来增强速率失真性能。尽管这些强大的工具极大地提高了图像压缩性能,但手动设计的搜索空间和变换仍然可能限制性能。与传统的图像压缩方法相比,LIC是一种数据驱动的方法,不需要手动设计特定的规则。
用户1324186
2023/09/09
6420
支持码控的学习型图像压缩
一场深度学习引发的图像压缩革命
雷锋网 AI 研习社按,2012 年,AlexNet 横空出世,以 15.4% 的低失误率夺得当年 ILSVRC(ImageNet 大规模视觉识别挑战赛)冠军,超出亚军十多个百分点。AlexNet 开启了深度学习黄金时代,随之而来是深度学习在图像识别上的蓬勃发展:
AI研习社
2018/07/26
8850
一场深度学习引发的图像压缩革命
业界 | 图鸭科技获CVPR 2018图像压缩挑战赛单项冠军,技术解读端到端图像压缩框架
CHALLENGE ON LEARNED IMAGE COMPRESSION 挑战赛由 Google、Twitter、Amazon 等公司联合赞助,是第一个由计算机视觉领域的会议发起的图像压缩挑战赛,旨在将神经网络、深度学习等一些新的方式引入到图像压缩领域。据 CVPR 大会官方介绍,此次挑战赛分别从 PSNR 和主观评价两个方面去评估参赛团队的表现。
机器之心
2018/07/26
7280
业界 | 图鸭科技获CVPR 2018图像压缩挑战赛单项冠军,技术解读端到端图像压缩框架
FPGA异构计算在图片处理上的应用以及HEVC算法原理介绍
作者介绍:chaningwang,2008年毕业于中国科学院研究生院,主攻FPGA高性能计算、FPGA图像处理等方向。 先后在华为、怡化公司从事FPGA开发、智能传感器数据处理等相关工作,工作期间设计开发了多款传感器以及传感器数据处理平台,成功应用于银行ATM机器纸币鉴伪。 2013年加入腾讯TEG\平台开发中心\基础研发组,一直致力于图像处理算法的FPGA加速工作,先后参与了基于硬件FPGA的JPEG编解码、WEBP编码、自适应量化、HEVC编码等项目。目前在基础研发组负责图片HEVC编码项目的
腾讯技术工程官方号
2018/01/29
2K0
FPGA异构计算在图片处理上的应用以及HEVC算法原理介绍
针对 YUV420 颜色空间的深度图像压缩研究
目前,大多数深度图像压缩方法被设计用来压缩 RGB 颜色空间的图像。然而传统的视频编码标准,则主要设计来压缩 YUV420 色彩空间的图像。在这个研究中,作者首先研究如何调整 RGB 图像的深度压缩框架,以压缩 YUV420 图像。然后研究了调整 YUV 通道的训练失真权重时对编码性能的影响,并将实验结果与 HEVC 和 VVC AI 配置进行比较。提出的方法适用于图像压缩和视频压缩的帧内编码。
用户1324186
2022/02/18
1.4K0
针对 YUV420 颜色空间的深度图像压缩研究
点云压缩研究进展与趋势
以激光扫描为代表的主动采集装备在易操作性、机动灵活性、智能化、高效化等方面日益成熟,利用三维成像技术采集密集点的空间坐标、色彩纹理和反射强度等信息,可高保真且快速重建被测目标的三维实体,在工程测量、生物医学、智慧城市、虚拟现实(VR)、增强现实(AR)等科学与工程研究中发挥十分重要的作用[1-4]。
一点人工一点智能
2023/03/13
3.1K0
点云压缩研究进展与趋势
2016-ICLR-DENSITY MODELING OF IMAGES USING A GENERALIZED NORMALIZATION TRANSFORMATION
这篇文章[1]提出了一个参数化的非线性变换(GDN, Generalized Divisive Normalization),用来高斯化图像数据(高斯化图像数据有许多好处,比如方便压缩)。整个非线性变换的架构为:数据首先经过线性变换,然后通过合并的活动度量对每个分量进行归一化(这个活动度量是对整流和取幂分量的加权和一个常数进行取幂计算)。作者利用负熵度量对整个非线性变换进行优化。优化后的变换高斯化数据的能力得到很大提升,并且利用该变换得到的输出分量之间的互信息要远小于其它变换(比如 ICA 和径向高斯化)。整个非线性变换是可微的,同时也可以有效地逆转,从而得到其对应的逆变换,二者一组合就得到了一个端到端的图像密度模型。在这篇文章中,作者展示了这个图像密度模型处理图像数据的能力(比如利用该模型作为先验概率密度来移除图像噪声)。此外,这个非线性变换及其逆变换都是可以级连的,每一层都使用同样的高斯化目标函数,因此提供了一种用于优化神经网络的无监督方法。
hotarugali
2022/04/17
1.7K0
2016-ICLR-DENSITY MODELING OF IMAGES USING A GENERALIZED NORMALIZATION TRANSFORMATION
TIP 2023 | 通过高斯-拉普拉斯-逻辑混合模型和串联残差模块学习的图像压缩
图像压缩是许多应用中的重要步骤。经典方法,例如JPEG、JPEG 2000和BPG(H.265/HEVC的帧内编码),主要使用线性变换、量化和熵编码等技术来去除减少输入的冗余并实现更好的率失真(R-D)性能,如图1所示。最近,人们研究了基于深度学习的方法,其中根据神经网络的特性重新设计了三个主要组件。该方法在 PSNR 和 MS-SSIM 指标方面逐渐优于传统方法,并显示出巨大的潜力。
用户1324186
2024/01/17
4500
TIP 2023 | 通过高斯-拉普拉斯-逻辑混合模型和串联残差模块学习的图像压缩
干货 | 用深度学习设计图像视频压缩算法:更简洁、更强大
说到图像压缩算法,最典型的就是 JPEG、JPEG2000 等。 图 1:典型图像压缩算法 JPEG、JPEG2000 其中 JPEG 采用的是以离散余弦转换(Discrete Cosine Tra
AI科技评论
2018/03/15
4.7K1
干货 | 用深度学习设计图像视频压缩算法:更简洁、更强大
数字图像处理必备基本知识
数字图像,又称为数码图像或数位图像,是二维图像用有限数字数值像素的表示。数字图像是由模拟图像数字化得到的、以像素为基本元素的、可以用数字计算机或数字电路存储和处理的图像。
小白学视觉
2022/02/14
1.3K1
数字图像处理必备基本知识
掌握量化技术是视频压缩的关键
视频编码利用信号的信息冗余来降低数据率。无损编码依赖于:差分预测编码、变换、熵编码。有损编码通过添加量化过程来进一步提高压缩效率。
用户1324186
2022/02/18
2.9K0
掌握量化技术是视频压缩的关键
如何使用深度学习进行图片压缩?
互联网时代,社交媒体分享、自动驾驶、增强显示、卫星通信、高清电视或视频监控等应用场景对图片和视频有很强的需求,压缩算法也因此备受关注,但是不同的应用场景对压缩算法的性能要求也不一样,有的需求是保持高清的画质是第一位,有的需求是体积小是第一位,可以损害一些画质。
顶级程序员
2018/07/23
1.5K0
部分图像压缩技术的优缺点以及应用
脑图地址 1. 分形图像压缩技术 作者 技术 功能 优点 缺点 应用 结果 Jeng et al. (2009) Huber 分形图像压缩 嵌入线性Huber回归编码 保持图像质量 高计算成本 适用于损坏的图像压缩 由于图像中的噪声HFIC对异常值具有较好的鲁棒性,PSNR为>26.42 dB Thomas and Deravi (1995) 使用启发式搜索分形图像压缩 通过自变换有效利用图像冗余 达到双倍压缩比率 编码排序长度比解码长 多媒体和图像归档 压缩比达到41:1 Kumar et al. (19
繁依Fanyi
2023/05/07
6840
NeurIPS 2023 | 在没有自回归模型的情况下实现高效图像压缩
目前的SOTA LIC方法采用变换编码策略进行有损图像压缩,具体地说,首先将图像像素映射到一个量化的潜在空间中,然后使用熵编码方法进行无损压缩。这种方法的一个关键部分是基于超先验的熵模型,用于估计潜在变量的联合概率分布,其中存在一个基本假设:潜在变量元素在空间位置上的概率是相互独立的。然而,这一假设与潜在空间高度相关的实际特性相矛盾,导致实际分布与假设分布之间存在差异。
用户1324186
2023/12/28
7540
NeurIPS 2023 | 在没有自回归模型的情况下实现高效图像压缩
你需要知道的:H.264
我在今年年初离开 YOLO 加入了一家在流媒体领域具有极深积累的小公司,负责视频群聊 SDK 的开发工作,YOLO 是一款直播 APP,我常戏称这是从技术下游(SDK 使用方)跑到了技术上游(SDK 提供方)。不过事情当然不是这么简单,经过长期的思考和探讨,我最终确认:实时多媒体领域,更宽泛一点来讲,实时视觉、感知的展现,在未来极长一段时间内都存在很大的需求,也存在很大的挑战,所以这将是我长期技术积累的大方向。
LiveVideoStack
2021/09/02
1K0
你需要知道的:H.264
(强烈推荐)移动端音视频从零到上手(上)
音视频的发展正在向各个行业不断扩展,从教育的远程授课,交通的人脸识别,医疗的远程就医等等,音视频方向已经占据一个相当重要的位置,而音视频真正入门的文章又少之甚少,一个刚毕业小白可能很难切入理解,因为音视频中涉及大量理论知识,而代码的书写需要结合这些理论,所以搞懂音视频,编解码等理论知识至关重要.本人也是从实习开始接触音视频项目,看过很多人的文章,在这里总结一个通俗易懂的文章,让更多准备学习音视频的同学更快入门。
音视频开发进阶
2019/07/31
1.1K0
(强烈推荐)移动端音视频从零到上手(上)
视频编码(1):可能是最详尽的 H.264 编码相关概念介绍丨音视频基础
(本文基本逻辑:视频编码的理论基础是什么 → H.264 视频编码的基本概念、编码工具、编码流程及码流结构 → H.265 的编码工具及改进 → H.266 的编码工具及改进)
关键帧
2022/06/13
9.1K0
视频编码(1):可能是最详尽的 H.264 编码相关概念介绍丨音视频基础
面向智能工厂的工业数据压缩研究
在智能工厂逐渐推广应用中,数字化信息的数据量相当庞大,对存储器的存储容量、网络带宽以及计算机的处理速度都有较高的要求,完全通过增加硬件设施来满足现实需求是不可能的,必须采用有效的压缩技术实现数据在网络中的轻量传输。
用户7623498
2020/08/04
5990
面向智能工厂的工业数据压缩研究
推荐阅读
相关推荐
2016-PCS-End-to-end optimization of nonlinear transform codes for perceptual quality
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档