前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >感知优化深度图像压缩

感知优化深度图像压缩

作者头像
用户1324186
发布于 2019-12-23 08:25:55
发布于 2019-12-23 08:25:55
6150
举报
文章被收录于专栏:媒矿工厂媒矿工厂

本文是来自alliance for open media research symposium2019的演讲,作者是来自于UT Austin的PhD,Li-Heng Chen。本次演讲主要讲述如何在感知上优化深度图像压缩。

Li-Heng Chen这次的工作是基于Ballé’s BLS2017 model进行的改进。在演讲中,Li-Heng Chen提出了他最初的想法:将经过预训练的网络作为VMAF的代理:

  1. 用一个简单的网络根据给定的ref./dis. patches来预测VMAF分数,指导Ballé’s BLS2017 model进行深度图像压缩;
  2. 将预训练的ProxIQA网络作为损失函数。

但这样的做法存在一些问题:

  1. 训练图像数据集的失真类型与需解决的问题不符合;
  2. 它会产生adversarial examples,预测出的VMAF分数会随着训练不断提高至100分。

为了解决这些问题,Li-Heng Chen提出了一种替代的学习框架,将Ballé’s BLS2017 model和ProxIQA网络连接在一起,固定ProxIQA网络,在综合考虑两个模型分别的像素和码率两个维度的损失的情况下调整整体网络的损失函数,以此来训练出一个适用于此应用场景的网络模型。

最后,Li-Heng Chen给出了方法在Kodak dataset上不同情况下的BD-rate和一些主观实验结果,展示了其为深度图像压缩带来的优化。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ISCAS 2019 视频编码相关论文汇总
2019 IEEE International Symposium onCircuits and Systems (ISCAS 2019)会议将于5月26日至29日在日本北海道举行,其论文已于5月1日在IEEE数据库中开放[1]。本文将关注与视频编码相关的论文进行简要介绍,主要分为“基于学习的视频编码”和“视频编码与优化”两大类。
用户1324186
2019/05/15
1.2K0
ISCAS 2019 视频编码相关论文汇总
针对 YUV420 颜色空间的深度图像压缩研究
目前,大多数深度图像压缩方法被设计用来压缩 RGB 颜色空间的图像。然而传统的视频编码标准,则主要设计来压缩 YUV420 色彩空间的图像。在这个研究中,作者首先研究如何调整 RGB 图像的深度压缩框架,以压缩 YUV420 图像。然后研究了调整 YUV 通道的训练失真权重时对编码性能的影响,并将实验结果与 HEVC 和 VVC AI 配置进行比较。提出的方法适用于图像压缩和视频压缩的帧内编码。
用户1324186
2022/02/18
1.3K0
针对 YUV420 颜色空间的深度图像压缩研究
【论文复现】图像压缩算法
首先,这篇文章的出发点就是图像压缩最本源的目的,就是探索如何在相同的码率下获得更高质量的重建图像,或者说在得到的重建图像质量一样的情况下,如何进一步节省码率。
Eternity._
2024/12/28
2330
【论文复现】图像压缩算法
面向VMAF的HEVC感知率失真优化
论文标题:HEVC VMAF-oriented Perceptual Rate Distortion Optimization using CNN
用户1324186
2021/07/29
8550
CVPR 2019 | 图鸭科技 CLIC 图像压缩挑战赛冠军方案全解读
AI 科技评论按:在 CVPR 2019 CLIC 图像压缩挑战赛中,图鸭科技所提出的算法 TucodecSSIM 夺得了 MS-SSIM 和 MOS 两项指标的冠军,算法 TucodecPSNR 夺得了 PSNR 指标的冠军,算法 TucodecPSNR40dB 则夺得高码点图像压缩 Transparent Track 的冠军。以下为图鸭科技提供的技术解读。
AI科技评论
2019/07/05
8800
CVPR 2019 | 图鸭科技 CLIC 图像压缩挑战赛冠军方案全解读
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
RGB-D 图像是一种重要的 3D 数据格式。它已被广泛用于 3D 场景重建、突出目标检测、机器人与自主导航、医学影像与健康监测、环境监测等领域。与 RGB 图像不同,深度图像包含有关从视点到场景对象表面的距离的信息,该视点提供了 3D 场景之间的深度信息。因此,RGB-D联合分析方法在计算机视觉任务中很受欢迎。然而,这些方法使用额外的模态,这将带来多余的存储和传输成本。因此,设计一个高效的RGB-D图像压缩方法是一项重要且具有挑战性的工作。
用户1324186
2024/03/26
6380
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
CVPR 2023 | 使用混合 Transformer-CNN 架构学习图像压缩
CNN-based图像压缩方法能较好地提取局部信息,Transformer-based图像压缩方法能较好地提取全局信息,于是想将这两者的优势相结合。
用户1324186
2024/04/12
1.3K0
CVPR 2023 | 使用混合 Transformer-CNN 架构学习图像压缩
NeurIPS 2023 | 在没有自回归模型的情况下实现高效图像压缩
目前的SOTA LIC方法采用变换编码策略进行有损图像压缩,具体地说,首先将图像像素映射到一个量化的潜在空间中,然后使用熵编码方法进行无损压缩。这种方法的一个关键部分是基于超先验的熵模型,用于估计潜在变量的联合概率分布,其中存在一个基本假设:潜在变量元素在空间位置上的概率是相互独立的。然而,这一假设与潜在空间高度相关的实际特性相矛盾,导致实际分布与假设分布之间存在差异。
用户1324186
2023/12/28
6070
NeurIPS 2023 | 在没有自回归模型的情况下实现高效图像压缩
ICCV2023 | 将基于 Transformer 的图像压缩从人类感知转移到机器感知
一般来说,大多数学习的图像压缩系统主要是为了人类感知设计的。最近,由于针对高级识别任务跨设备传输视觉数据的需求不断增长,用于机器感知的图像编码成为一个活跃的研究领域。如果为用于不同机器感知任务的图像编码设计一个通用的编码器,则很难实现最近的速率-失真权衡。但如果为每一个任务都定制编码器的代价远远超过了可承受范围。
用户1324186
2023/11/27
9370
ICCV2023 | 将基于 Transformer 的图像压缩从人类感知转移到机器感知
ICCV 2023 | COMPASS:任意尺度空间可伸缩性的深度图像压缩
在多媒体系统中,不同的终端设备需要不同分辨率大小和不同质量的图像,但大多数现有的基于神经网络的图像压缩方法必须将同一图像的不同版本单独压缩为多个比特流,从而导致低编码效率。为了解决这个问题,有一些关于可缩放图像压缩的研究,其中图像的各种版本以分层方式的编码到单个比特流中。每个层负责对图像的一个对应版本进行编解码,并且通过不同的预测方法来减少相邻层之间的冗余。
用户1324186
2023/11/07
9240
ICCV 2023 | COMPASS:任意尺度空间可伸缩性的深度图像压缩
业界 | 图鸭科技获CVPR 2018图像压缩挑战赛单项冠军,技术解读端到端图像压缩框架
CHALLENGE ON LEARNED IMAGE COMPRESSION 挑战赛由 Google、Twitter、Amazon 等公司联合赞助,是第一个由计算机视觉领域的会议发起的图像压缩挑战赛,旨在将神经网络、深度学习等一些新的方式引入到图像压缩领域。据 CVPR 大会官方介绍,此次挑战赛分别从 PSNR 和主观评价两个方面去评估参赛团队的表现。
机器之心
2018/07/26
7220
业界 | 图鸭科技获CVPR 2018图像压缩挑战赛单项冠军,技术解读端到端图像压缩框架
TIP 2023 | 通过高斯-拉普拉斯-逻辑混合模型和串联残差模块学习的图像压缩
图像压缩是许多应用中的重要步骤。经典方法,例如JPEG、JPEG 2000和BPG(H.265/HEVC的帧内编码),主要使用线性变换、量化和熵编码等技术来去除减少输入的冗余并实现更好的率失真(R-D)性能,如图1所示。最近,人们研究了基于深度学习的方法,其中根据神经网络的特性重新设计了三个主要组件。该方法在 PSNR 和 MS-SSIM 指标方面逐渐优于传统方法,并显示出巨大的潜力。
用户1324186
2024/01/17
3970
TIP 2023 | 通过高斯-拉普拉斯-逻辑混合模型和串联残差模块学习的图像压缩
学界 | 极端图像压缩的生成对抗网络,可生成低码率的高质量图像
选自arXiv 作者:Eirikur Agustsson等 机器之心编译 参与:白妤昕、刘晓坤 本文提出了一个基于生成对抗网络的极端学习图像压缩框架,能生成码率更低但视觉效果更好的图像。此外,该框架可
机器之心
2018/05/08
1.2K0
学界 | 极端图像压缩的生成对抗网络,可生成低码率的高质量图像
支持码控的学习型图像压缩
图像压缩是一种广泛使用的技术。在过去的几十年里,传统的图像压缩方法发挥了重要作用。JPEG 是一种基本的图像压缩方法,自20世纪90年代以来一直被使用,并且仍然是主流的压缩格式。JPEG 中应用了 DCT 变换和霍夫曼熵编码。后来,WEBP 、BPG 和 VVC 涉及更复杂的工具来增强速率失真性能。尽管这些强大的工具极大地提高了图像压缩性能,但手动设计的搜索空间和变换仍然可能限制性能。与传统的图像压缩方法相比,LIC是一种数据驱动的方法,不需要手动设计特定的规则。
用户1324186
2023/09/09
6010
支持码控的学习型图像压缩
​基于 CNN 的深度感知 Dice 损失,在全景分割中的应用,全景质量方面再次提高!
全景分割结合了语义分割和实例分割的任务[17]。对于一组“事物”类别,例如“汽车”,它提供了关于各个实例的信息,例如以带有类别标签的边界框和指示实例像素的二值 Mask 的形式。在实例分割中不属于“事物”实例的区域(实例分割中的“背景”)以类似于语义分割的方式分配到所谓的“物品”类别之一。对于这些类别(例如,“墙壁”),不决定实例的信息。
公众号-arXiv每日学术速递
2024/05/31
2440
​基于 CNN 的深度感知 Dice 损失,在全景分割中的应用,全景质量方面再次提高!
图像压缩领域
1. 传统图像压缩 方法 主页 说明 JPEG XL https://jpeg.org/jpegxl/ JPEG 小组提出,目前最好的图像压缩方法 CMIX http://www.byronknoll.com/cmix.html 无损数据压缩方法,以高 CPU/内存使用率换高压缩比 Lepton https://github.com/dropbox/lepton 对 JPEG 图片进行无损压缩,节省近 22%22\%22% 的大小 FLIF https://flif.info/ 无损图像压缩方法,目前已停止
hotarugali
2022/09/08
7510
Entroformer图像编码
本文介绍了Entroformer,一种基于Transformer的熵模型,用于深度学习图像压缩。与传统的基于卷积神经网络的熵模型不同,Entroformer利用Transformer的自注意力机制有效捕捉全局依赖性,并在图像压缩中实现了高效的概率分布估计。此外,本文提出了一个并行双向上下文模型,加速了解码过程。实验表明,Entroformer在图像压缩任务中表现优异,同时具有较高的时间效率。
Srlua
2024/12/20
1270
Entroformer图像编码
回归VMAF分数的视频质量评价模块
VMAF是目前比较好用的质量评价模型。但是在图像/视频压缩,视频增强等领域,可能需要一定的质量评价模块作为损失函数指导网络的训练。VMAF作为不可微的质量评价模型,无法直接作为损失函数,在这样的前提下,Darren等人提出使用神经网络去模拟VMAF的分数,使得该质量评价模块可以直接应用于其他网络的训练过程当中。
用户1324186
2021/10/22
1.6K0
【他山之石】​​基于 CNN 的深度感知 Dice 损失,在全景分割中的应用,全景质量方面再次提高!
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
马上科普尚尚
2024/06/05
1570
【他山之石】​​基于 CNN 的深度感知 Dice 损失,在全景分割中的应用,全景质量方面再次提高!
NeurIPS 2023 | 神经网络图像压缩:泛化、鲁棒性和谱偏
目前,神经图像压缩(NIC)在分布内(in-distribution, IND)数据的 RD 性能和运行开销表现出了卓越的性能。然而,研究神经图像压缩方法在分布外(out-of-distribution, OOD)数据的鲁棒性和泛化性能方面的工作有限。本文的工作就是围绕以下关键问题展开的:
用户1324186
2024/01/04
4820
NeurIPS 2023 | 神经网络图像压缩:泛化、鲁棒性和谱偏
推荐阅读
相关推荐
ISCAS 2019 视频编码相关论文汇总
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档