Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >2017-ICLR-END-TO-END OPTIMIZED IMAGE COMPRESSION

2017-ICLR-END-TO-END OPTIMIZED IMAGE COMPRESSION

作者头像
hotarugali
发布于 2022-05-01 06:00:54
发布于 2022-05-01 06:00:54
1.3K0
举报

1. 摘要

本文提出了一种图像压缩框架,其由一个非线性分析变换、一个均匀量化器和一个非线性综合变换组成。这些变换都三层结构,每一层由一个卷积线性过滤器和非线性的激活函数构成。与大多数卷积神经网络不同的是,这些联合的非线性是用来实现一种局部增益控制,这种局部增益控制最初是来源于生物神经元领域的发现(局部增益控制已经成为生物神经元建模的一种方法)。作者使用随机梯度下降方法来联合优化整个模型的率失真性能。针对均匀标量量化器的目标函数不连续问题,作者提出了一种连续可微的近似量化,从而保证在优化过程中梯度能有效地反传。最后在测试集上,作者提出压缩模型展现出比 JPEG 和 JPEG2000 更好的性能。而且,该压缩模型在所有码率和所有图像上,MS-SSIM 性能都要好于 JPEG 和 JPEG2000。

2. 引言

数据压缩一直以来都是一个工程基础问题,自香农提出熵信息以来,数据压缩问题得到很好的研究。对于给定的离散数据,最优的压缩编码可以通过最小化编码熵来得到。而这个最优的压缩编码严重依赖于数据本身的概率分布,因此设计一个最优的压缩编码本质也是对数据分布进行建模的问题。然而,实际的编码必须具有有限的熵,因此连续值数据必须量化成一系列有限的离散值,而这会导致误差的引入。在这篇文章中,作者研究的便是有损压缩问题,针对有损压缩,我们必须平衡两个互斥的损失:离散编码的熵(率)和由量化引起的误差(失真)。因此最终要优化的目标函数即率失真函数。对于不同的压缩场景,比如数据存储或有限容量信道的数据传输,对不同的率失真 trade-off 要求也不同。

然而,联合优化率失真是很困难的。如果没有进一步的约束的话,这个问题的最优量化在高维空间是难以求解的。因此,大多数现有的图像压缩方法都是先通过一个线性变换将图像数据变换到合适的连续值表示,然后独立地量化这些连续值,最后使用一个无损的熵编码来编码量化得到的离散值。这个框架一般称为变换编码,因为变换在这个框架中起到决定性作用。比如,JPEG 使用 DCT 变换来编码像素块,而 JPEG2000 使用多尽度的正交小波变换来解耦图像块。通常,变换编码的三个组成部分:变换、量化、熵编码,往往是独立地进行优化的(而且往往是通过手动设置参数进行调整的)。

作者在本文中完善了他原先在另一篇文章中提出的一个基于非线性变换的端到端压缩框架,完善的框架如下图所示:

在他先前那篇文章中,他并没有详细介绍上述框架中的分析综合变换结构。在本文中,作者对此进行了进一步介绍,给出了该框架下的一个实际模型,并给出了充足的理论分析和实验来验证该模型的有效性。在此模型中,分析变换作者采用了级联线性卷积层和非线性层的结构,非线性层采用的是 GDN 模型(来源于作者的另一文章[3]);而综合变换则是采用了分析变换的近似逆结构。量化使用的是均匀的标量量化。

对于期望逼近的率失真曲线上的每个点,都直接使用梯度下降优化方法同时联合优化分析综合变换。对于均匀标量量化导致梯度几乎处处为 000 的问题,作者给出了一种连续的近似均匀标量量化来替代原来的离散均匀量化。最后,作者对量化后的数据使用了一个熵编码得到实际的比特流,从而计算该模型实际的码率,以此来验证该模型的有效性。

3. 分析、综合以及感知变换的选择

大多数压缩方法都是建立在正交线性变换基础上,目的是为了降低数据间的相关性,从而简化后续的熵编码。但是线性变换输出之间的联合统计特性展现了很强的高阶依赖。这个问题可以通过使用局部增益控制操作(最早来源于生物神经元领域)来很好地解决,于是作者使用了他自己在另一篇文章中提出的 GDN 模型来替代线性变换(在那篇文章中作者已经验证了 GDN 具有很好的高斯化图像数据的能力)。

更为具体的,作者在本文中提出的模型的分析综合变换结构均由三阶结构组成,具体如下图所示:

4. 优化非线性变换编码模型

4.1 模型优化

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ICCV2023开源 DistillBEV:巧妙利用跨模态知识蒸馏方法,斩获目标检测SOTA!
目前基于多相机BEV的三维目标检测方法与基于激光雷达的方法还存在明显的性能差距 ,这是由于激光雷达可以捕获精确的深度和几何信息 ,而仅从图像中推断三维信息具有挑战性。文章提出了一种跨模态知识蒸馏方法DistillBEV ,通过让学生模型(基于多相机BEV)模仿教师模型(基于激光雷达)的特征 ,实现多相机三维检测的性能提升。提出了区域分解、自适应缩放、空间注意力等机制进行平衡 ,并扩展到多尺度层和时序信息的融合。在nuScenes数据集上验证了方法的有效性 ,多个学生模型都获得了显著提升 ,优于其他蒸馏方法和当前多相机三维检测SOTA。特别是BEVFormer的mAP提升达4.4% ,NDS提升4.2%。这种跨模态的知识蒸馏为弥合多相机三维检测与激光雷达检测的差距提供了新的思路。方法具有通用性 ,可广泛应用于包括CNN和Transformer的各种学生模型。是自动驾驶领域一个值得关注的进展。未来可将该方法推广到其他多相机三维感知任务 ,如分割、跟踪等;结合更多传感器进行跨模态融合;探索其他表示学习与迁移的方式等。三维环境理解仍需持续努力 ,期待跨模态学习带来更大突破。
BBuf
2023/10/19
8750
ICCV2023开源 DistillBEV:巧妙利用跨模态知识蒸馏方法,斩获目标检测SOTA!
CIR-DFENet:结合跨模态图像表示和双流特征增强网络进行活动识别
人类活动识别(HAR)在健康监测、智能家居、运动辅助等领域有着广泛的应用。随着可穿戴设备的普及,基于传感器数据的HAR成为了研究热点。传统的HAR方法依赖于专家手动提取特征,虽然具有一定的透明性和计算效率,但存在以下问题:
是Dream呀
2025/03/02
2821
CIR-DFENet:结合跨模态图像表示和双流特征增强网络进行活动识别
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
近期,机器人技术和自动驾驶系统利用实时的深度传感器,如激光雷达(LiDARs),来实现三维感知。激光雷达产生的点云可以提供丰富的几何信息,并帮助机器理解环境感知。早期方法集中于从静态点云中解析现实世界,忽略了时间变化。为了更好地理解时间变化的世界,近期研究更专注于在4D空间理解点云视频,包括三个空间维度和一个时间维度。已有几项工作在4D点云建模方面取得进展。这些方法要么旨在设计改进的网络来建模4D点云,要么采用自监督方法来提高4D点云表示的效率。
AIGC 先锋科技
2024/07/08
4790
VG4D | 突破4D点云识别局限,融合视觉-语言模型实现动作识别新高度!
代码开源:AMFD 框架助力多光谱行人检测的精度与速度提升 !
行人检测是计算机视觉中的一个关键问题,应用范围从自动驾驶车辆[1]到监控系统[2]。使用可见图像的现代研究在常规光照条件下表现良好。然而,由于对光照条件的敏感性,可见光在复杂的低光照场景中表现出差的检测性能。为了缓解这一限制,引入了热红外图像来提供补充数据,从而探索多光谱行人检测[3]作为一个有效的解决方案。
未来先知
2024/08/13
2940
代码开源:AMFD 框架助力多光谱行人检测的精度与速度提升 !
融合YOLO11与行为树的人机协作智能框架:动态工效学优化与自适应安全决策
人工智能技术要真正发挥其价值,必须与生产生活深度融合,为产业发展和人类生活带来实际效益。近年来,基于深度学习的机器视觉技术在工业自动化领域取得了显著进展,其中YOLO(You Only Look Once)算法作为一种先进的实时目标检测算法,在工业视觉检测中展现出独特优势。今天本文介绍YOLO11算法与工业场景落地应用的相结合。
CoovallyAIHub
2025/03/27
2550
融合YOLO11与行为树的人机协作智能框架:动态工效学优化与自适应安全决策
知识蒸馏综述:蒸馏机制
Knowledge Distillation A Suvery的第二部分,上一篇介绍了知识蒸馏中知识的种类,这一篇介绍各个算法的蒸馏机制,根据教师网络是否和学生网络一起更新,可以分为离线蒸馏,在线蒸馏和自蒸馏。
BBuf
2021/12/09
1.7K0
知识蒸馏综述:蒸馏机制
万字综述 | 一文读懂知识蒸馏
近年来,深度神经网络在工业界和学术界都取得了成功,尤其是在计算机视觉任务方面。深度学习的巨大成功主要归因于其可扩展性以编码大规模数据并操纵数十亿个模型参数。但是,将这些繁琐的深度模型部署在资源有限的设备(例如,移动电话和嵌入式设备)上是一个挑战,这不仅是因为计算复杂性高,而且还有庞大的存储需求。为此,已经开发了多种模型压缩和加速技术。作为模型压缩和加速的代表类型,知识蒸馏有效地从大型教师模型中学习小型学生模型。它已迅速受到业界的关注。本文从知识类别,训练框架,师生架构,蒸馏算法,性能比较和应用的角度对知识蒸馏进行了全面的调查。此外,简要概述了知识蒸馏中的挑战,并讨论和转发了对未来研究的评论。
AI异构
2020/12/22
16.6K0
C-MHAD:多模态/连续动作检测数据集(附数据+Baseline代码)
2020年,UTD Embedded Machine Learning Lab 发布了一个新的多模态(视频+惯性传感)连续运动检测数据集。基于这个数据集,作者也同时发布了基于pytorch的baseline代码。
代码医生工作室
2020/06/16
1.7K0
C-MHAD:多模态/连续动作检测数据集(附数据+Baseline代码)
CVPR2022:局部和全局知识蒸馏用于目标检测(源代码开源)
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2111.11837.pdf 源代码: https://github.com/yzd-v/FGD 计算机视觉研究院专栏 作者:Edison_G 知识蒸馏已成功应用于图像分类。然而目标检测要复杂得多,大多数知识蒸馏方法都失败了。 01 前言 在目标检测中,教师和学生的特征在不同的区域有很大的差异,尤其是在前景和背景中。如
计算机视觉研究院
2022/04/06
8920
CVPR2022:局部和全局知识蒸馏用于目标检测(源代码开源)
Self-Ensembling with GAN-based Data Augmentation for Domain Adaptation in Semantic Segmentation
 基于深度学习的语义分割方法有一个内在的局限性,即训练模型需要大量具有像素级标注的数据。为了解决这一具有挑战性的问题,许多研究人员将注意力集中在无监督的领域自适应语义分割上。无监督域自适应试图使在源域上训练的模型适应目标域。在本文中,我们介绍了一种自组装技术,这是分类中领域自适应的成功方法之一。然而,将自组装应用于语义分割是非常困难的,因为自组装中使用的经过大量调整的手动数据增强对于减少语义分割中的大的领域差距没有用处。为了克服这一限制,我们提出了一个由两个相互补充的组件组成的新框架。首先,我们提出了一种基于生成对抗性网络(GANs)的数据扩充方法,该方法在计算上高效,有助于领域对齐。给定这些增强图像,我们应用自组装来提高分割网络在目标域上的性能。所提出的方法在无监督领域自适应基准上优于最先进的语义分割方法。
狼啸风云
2023/10/07
3270
Self-Ensembling with GAN-based Data Augmentation for Domain Adaptation in Semantic Segmentation
多模态数据的行为识别综述
摘要:行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。
一点人工一点智能
2022/12/27
2.8K0
多模态数据的行为识别综述
多模态人机交互国内研究进展
在大数据可视化领域,国内的发展也已经逐渐走向成熟,每年都有许多可视分析系统不断涌现。近年,沉浸式大数据可视化得到了发展,浙江大学的探索了如图 1所示的无缝结合羽毛球比赛数据绘制的2D和3D可视化视图的问题,Chu等人(2022)探索了结合高度来凸显羽毛球数据中多个战术之间存在的差异性问题,如图 2所示。由此可以看出,沉浸式大数据可视化对数据分析和展示问题提出了有效的解决方法。
一点人工一点智能
2022/12/27
1.4K0
多模态人机交互国内研究进展
综述 | 知识蒸馏(1)
近年来,深度神经网络在工业和学术界都取得了较大成功,尤其是在计算机视觉任务方面:主要归因于其可扩展性以编码大规模数据(提取特征),并操纵数十亿个模型参数。然而,将这些繁琐的深度模型部署在资源有限的设备(例如,移动电话和嵌入式设备)上也是一个挑战:不仅计算复杂度高,且存储需求大。为此,多种模型压缩和加速技术被提出;其中,知识蒸馏可以有效地从大型“教师”模型学习小型的“学生”模型,迅速受到重视。本文从知识的类别、训练的策略、蒸馏的算法和应用等角度,对知识蒸馏进行了全面调研。此外,简述了知识蒸馏的挑战,并对未来研究进行讨论。
公众号机器学习与AI生成创作
2020/07/24
1.6K0
综述 | 知识蒸馏(1)
LLM 视觉语言模型在动作识别中是否有效?
近年来,得益于大规模预训练,许多视觉语言基础模型在许多下游视觉任务上取得了显著成果,展现出了强大的泛化能力。其中,具有视觉语言预训练的模型,如 CLIP 及其在视频任务上的成功继承者,彻底改变了众多下游任务,展示了前所未有的灵活性和性能。
AIGC 先锋科技
2024/11/11
3400
LLM 视觉语言模型在动作识别中是否有效?
基于CLIP,浙大提出:ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
本文分享论文『ActionCLIP: A New Paradigm for Video Action Recognition』,假设视频动作识别不是分类问题,而是检索问题?并基于 CLIP,浙大提出 ActionCLIP,用检索的思想做视频动作识别!性能 SOTA!代码已开源!
CV君
2021/12/02
2.8K0
基于CLIP,浙大提出:ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
传感器是未来世界的核心(上)
我们知道未来整个科技行业最大的主题是5G,5G是整个通信的基础设施,在5G之后主要是三个问题,第一个是如何输入数据,第二是如何处理数据,第三,如何输出转化数据。在输入数据中,最核心的是物联网,而物联网中最重中之重是传感器。所以整个传感器行业未来空间是比较大的。这里先介绍一下传感器,第一,市场需求、需求的空间;第二,介绍一下技术路线;第三,介绍一下目前的竞争格局。
物流IT圈
2019/12/23
6020
车道线模型落地技巧 | LGAD注意力蒸馏让模型更鲁棒
车道线分割由于其在驾驶辅助系统和自动驾驶车辆中的应用,近年来越来越受到关注。此视觉任务旨在定位道路场景图像中的车道。车道的精确位置有利于下游任务,如在车道内定位汽车、车道偏离检测和轨迹规划。
AiCharm
2023/05/16
6240
车道线模型落地技巧 | LGAD注意力蒸馏让模型更鲁棒
提高人类活动识别准确性的新方法:空间注意力与遗传算法的结合
人类活动识别(Human Activity Recognition, HAR)是环境计算和情境感知计算领域中一个重要的研究主题。随着智能手机和可穿戴设备的普及,HAR在诸如智能监控系统、健康护理、异常行为检测以及人机交互等多个领域变得越来越重要。HAR的目标是通过分析从各种传感器获得的数据来识别个体正在进行的活动。
是Dream呀
2025/03/15
1400
提高人类活动识别准确性的新方法:空间注意力与遗传算法的结合
TCN-Inception:基于时序卷积网络和Inception模块的传感器人体活动识别方法
人体活动识别(HAR)作为人机交互、智能医疗和物联网应用的核心技术,面临传统方法对时序特征捕获不足的挑战。现有深度学习方法(如CNN和LSTM)在长期依赖性和计算效率方面存在局限,我们提出了一种融合时序卷积网络(TCN)与Inception模块的新型架构TCN-Inception。该模型通过多尺度特征提取和膨胀卷积机制,显著提升了传感器时序数据的建模能力。
是Dream呀
2025/03/04
2260
TCN-Inception:基于时序卷积网络和Inception模块的传感器人体活动识别方法
一文读懂:图卷积在基于骨架的动作识别中的应用
人的骨架是什么?相信没有谁比我们自己更了解我们身体的构造了。通俗地说,人骨架框架包括六个部分——头部、左手、右手、躯干、左脚和右脚。
机器之心
2019/12/11
1.8K0
一文读懂:图卷积在基于骨架的动作识别中的应用
推荐阅读
相关推荐
ICCV2023开源 DistillBEV:巧妙利用跨模态知识蒸馏方法,斩获目标检测SOTA!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档