今日分享一篇最近新出的目标检测论文『Localization Distillation for Object Detection』
近年来,神经模型在几乎所有领域都取得了成功,包括极端复杂的问题。然而,这些模型体积巨大,有数百万(甚至数十亿)个参数,因此不能部署在边缘设备上。
近日,谷歌大脑研究科学家、AutoML 鼻祖 Quoc Le 发文表示,他们提出了一种新的半监督学习方法,可以将模型在 ImageNet 上的 top-1 准确率提升到 90.2%,与之前的 SOTA 相比实现了 1.6% 的性能提升。
在本文中,Facebook人工智能研究院研究员、卡耐基梅隆大学机器人系博士田渊栋以ReLU网络为例,分享了深度学习理论和可解释性方面的研究进展。田渊栋博士提到,在学生-教师设置下的ReLU神经网络中,存在学生网络和教师网络的节点对应关系,通过对这种关系的分析,可以帮助我们理解神经网络的学习机制,以及剪枝、优化、数据增强等技术的理论基础。
知识蒸馏可以看做教师网络通过提供soft label的方式将知识传递到学生网络中,可以被视为一种更高级的label smooth方法。soft label与hard label相比具有以下优点:
面对越来越深的深度学习模型和海量的视频大数据,人工智能算法对计算资源的依赖越来越高。为了有效提升深度模型的性能和效率,通过探索模型的可蒸馏性和可稀疏性,本文提出了一种基于 “教导主任 - 教师 - 学生” 模式的统一的模型压缩技术。
蒸馏模型是一种将知识从教师网络(teacher)传递到学生网络(student)的有效且广泛使用的技术。通常来说,蒸馏模型是从功能强大的大型网络或集成网络转移到结构简单,运行快速的小型网络。本文决定打破这种预先定义好的“强弱关系”,提出了一种深度相互学习策略(deep mutual learning, DML)。
Knowledge Distillation A Suvery的第二部分,上一篇介绍了知识蒸馏中知识的种类,这一篇介绍各个算法的蒸馏机制,根据教师网络是否和学生网络一起更新,可以分为离线蒸馏,在线蒸馏和自蒸馏。
总结一篇综述《Knowledge Distillation A Survey》中的内容,提取关键部分以及感兴趣部分进行汇总。这篇是知识蒸馏综述的第一篇,主要内容为知识蒸馏中知识的分类,包括基于响应的知识、基于特征的知识和基于关系的知识。
常用的异常检测特征提取网络都是 ImageNet 预训练的 backbone, 典型的是 WideResNet-101, 文章使用四次卷积的网络作为特征提取器
【导语】知识蒸馏是一种模型压缩技术,它利用训练好的大网络(教师网络)去教小网络(学生网络)。较小的网络经过训练后,可有类似于大网络的性能。这样就可以在诸如手机或其他移动端设备等小型设备上部署此类模型。在今天的文章中,将为大家介绍关于几个重要的知识蒸馏的工作进展。
本文主要罗列与知识蒸馏相关的一些算法与应用。但首先需要明确的是,教师网络或给定的预训练模型中包含哪些可迁移的知识?基于常见的深度学习任务,可迁移知识列举为:
引言 首先感谢:https://github.com/AberHu/Knowledge-Distillation-Zoo
BossNAS整体的的训练方式和DNA不太一样,在DNA里,学生网络每个block彼此之间的训练是独立开来的,比如学生网络 的输入是教师网络 的输出,然后使用知识蒸馏(MSE loss)来使得学生网络的输出尽可能和教师网络输出保持一致。BossNAS认为这样会使得搜到的子网和教师网络高度相关,即搜索结果是带有bias的。
异常检测是计算机视觉和深度学习领域中高度研究的领域,其应用包括缺陷检测[1, 2],视觉检查,产品质量控制,医学成像等。这需要在低资源环境下的精确度和延迟约束之间取得平衡。异常或离群值本质上是从建模数据中偏离模式的开放集实例。早期的工作集中在缺陷检测上,包括传统的方法和现代的深度网络,随后是一类方法,其中为特定类别的目标或纹理训练了单独的模型。
异常检测问题是一个具有挑战性的任务,通常被定义为针对意外性异常的一类学习问题。本文针对这一问题提出了一种简单而有效的方法,这种方法以其优点在师生框架中得到了实施,但在准确性和效率方面得到了实质性的扩展。在给定一个作为教师的图像分类训练模型的情况下,我们将知识提取到一个具有相同结构的单个学生网络中来学习无异常图像的分布,这种一步转移尽可能地保留了关键线索。此外,我们将多尺度的特征匹配策略集成到框架中,这种层次化的特征匹配使学生网络在更好的监督下能够从特征金字塔中接收到多层次的知识混合,从而允许检测不同规模的异常。两个网络生成的特征金字塔之间的差异可以作为一个评分函数,表明发生异常的概率。由于这样的操作,我们的方法实现了准确和快速的像素级异常检测。非常具有竞争力的结果是在 MVTec 异常检测数据集上提供的,优于最先进的数据集。
论文链接:https://arxiv.org/pdf/2110.01253.pdf
理论上来说,深度神经网络模型越深,非线性程度也就越大,相应的对现实问题的表达能力越强,但相应的代价是,训练成本和模型大小的增加。同时,在部署时,大模型预测速度较低且需要更好的硬件支持。但随着深度学习越来越多的参与到产业中,很多情况下,需要将模型在手机端、IoT端部署,这种部署环境受到能耗和设备体积的限制,端侧硬件的计算能力和存储能力相对较弱,突出的诉求主要体现在以下三点:
在计算机视觉任务中,为了将预训练的深度神经网络模型应用到各种移动设备上,学习一个轻便的网络越来越重要。当我们可以直接访问训练数据集时,现有的深度神经网络压缩和加速方法对于训练紧凑的深度模型是非常有效的,但是现实情况却是,有了隐私保护,法规政策等,数据集的回去越来越困难,为此,本文提出了一种利用生成对抗网络(GANs)训练高效深度神经网络的新框架DAFL(Data-Free Learning)。
随着深度学习与大数据的进一步发展,效果好的模型往往有着较大的规模和复杂的结构,往往计算效率与资源使用方面开销很大,无法部署到一些边缘设备、移动终端或者嵌入式设备上。因此,如何在保证模型性能的前提下减少模型的参数量以及加快模型前向传播效率,这是一个重要的问题,总的来说不同的模型压缩与加速技术具体可以分为以下四类:
蒸馏指的是把不纯净的水加热变成蒸汽,蒸汽冷凝之后变成冷凝水。知识蒸馏也是把有杂质的东西,大的东西变成小的东西,纯的东西。把一个大的模型(教师模型)里面的知识给萃取蒸馏出来浓缩到一个小的学生模型上。
夏乙 编译自 DeepMind Blog 量子位 出品 | 公众号 QbitAI 上个月,Google Assistant英语和日语版终于用上了DeepMind一年前推出的语音合成算法:WaveNet
上一期给大家介绍了AutoML技术在模型量化中的应用,而知识蒸馏作为模型压缩的另外一个技术,也是学术界和工业界的重点研究方向,今天给大家介绍AutoML在模型蒸馏中的应用思路。
语义分割在计算机视觉中是一项非常重要且具有挑战性的任务。它已成为各种应用中不可或缺的组成部分,例如自动驾驶、视频监控和场景解析。其目标是通过为图像中的每个像素分配一个特定的类别标签来实现密集预测。通过使用深度神经网络,特别是全卷积网络(FCN),语义分割已经取得了显著的进展。其他方法通过在FCN的基础上进行构建,持续提高了分割的准确性。它们通过采用如下策略来实现这一点:设计更深的架构以增加FCN的容量,融入更强的基础网络,以及分层处理图像上下文。增加复杂性在提高语义分割的准确性方面是有效的,然而在资源受限的环境中,如移动和边缘设备,这已成为一个日益凸显的问题。
摘要:5月31日,在《中华人民共和国网络安全法》施行一周年之际,安恒信息受邀参加吉林省委网信办主办的吉林省暨长春市《中华人民共和国网络安全法》施行一周年系列活动。此次活动中,安恒信息与长春理工大学签订了校企合作框架协议,将在今后继续进行深入合作;此外,安恒信息还作为平台支撑单位,保障了“吉林省首届大学生网络安全大赛”成功举行。
近年来,深度神经网络在工业界和学术界都取得了成功,尤其是在计算机视觉任务方面。深度学习的巨大成功主要归因于其可扩展性以编码大规模数据并操纵数十亿个模型参数。但是,将这些繁琐的深度模型部署在资源有限的设备(例如,移动电话和嵌入式设备)上是一个挑战,这不仅是因为计算复杂性高,而且还有庞大的存储需求。为此,已经开发了多种模型压缩和加速技术。作为模型压缩和加速的代表类型,知识蒸馏有效地从大型教师模型中学习小型学生模型。它已迅速受到业界的关注。本文从知识类别,训练框架,师生架构,蒸馏算法,性能比较和应用的角度对知识蒸馏进行了全面的调查。此外,简要概述了知识蒸馏中的挑战,并讨论和转发了对未来研究的评论。
华为诺亚方舟实验室联合北京大学和悉尼大学发布论文《DAFL:Data-Free Learning of Student Networks》,提出了在无数据情况下的网络蒸馏方法(DAFL),比之前的最好算法在 MNIST 上提升了 6 个百分点,并且使用 resnet18 在 CIFAR-10 和 100 上分别达到了 92% 和 74% 的准确率(无需训练数据),该论文已被 ICCV2019 接收。
近日,HuggingFace 发布了 NLP transformer 模型——DistilBERT,该模型与 BERT 的架构类似,不过它仅使用了 6600 万参数(区别于 BERT_base 的 1.1 亿参数),却在 GLUE 基准上实现了后者 95% 的性能。
题目:Training data-efficient image transformers & distillation through attention
【导读】DeepMind提出速度提高千倍的并行WaveNet语音合成方法。我们来一览这篇文章。(DeepMind Blog) ▌正文内容 在十月份,我们公布了迄今为止最先进的语音合成模型WaveNet
Towards Compact Single Image Super-Resolution via Contrastive Self-distillation 利用对比自蒸馏实现超分加速 (IJCAI 2021)原创论文解读,首发于GiantPandaCV公众号,禁止其他任何形式的转载!
收集自RepDistiller中的蒸馏方法,尽可能简单解释蒸馏用到的策略,并提供了实现源码。
基于深度学习的语义分割方法有一个内在的局限性,即训练模型需要大量具有像素级标注的数据。为了解决这一具有挑战性的问题,许多研究人员将注意力集中在无监督的领域自适应语义分割上。无监督域自适应试图使在源域上训练的模型适应目标域。在本文中,我们介绍了一种自组装技术,这是分类中领域自适应的成功方法之一。然而,将自组装应用于语义分割是非常困难的,因为自组装中使用的经过大量调整的手动数据增强对于减少语义分割中的大的领域差距没有用处。为了克服这一限制,我们提出了一个由两个相互补充的组件组成的新框架。首先,我们提出了一种基于生成对抗性网络(GANs)的数据扩充方法,该方法在计算上高效,有助于领域对齐。给定这些增强图像,我们应用自组装来提高分割网络在目标域上的性能。所提出的方法在无监督领域自适应基准上优于最先进的语义分割方法。
本文提出了一个用于遥感图像的简单半监督目标检测框架,该框架被命名为SSOD-RS。SSOD-RS包含两个部分,即改进的自我训练和基于强数据增强的一致性正则化,以及改进的混合。首先,作为一种增强算法,提出了Object First mixup(OF-mixup)来调整物体和背景的权重,扩大了训练样本的分布,同时减少了遥感复杂背景对物体特征的干扰。其次,在自训练中引入了集合损失和微调的训练策略,使模型在学习了伪标签的特征后,适应真实标签的特征分布。实验结果表明,利用无标签图像的SSOD-RS可以极大地提高模型的准确性。
论文地址:https://arxiv.org/pdf/2212.13766.pdf
知识蒸馏(Knowledge Distillation)由深度学习三巨头Hinton在2015年提出。
每天给你送来NLP技术干货! ---- 来自:专知 华南师范大学等《知识蒸馏》最新综述论文 高性能的深度学习网络通常是计算型和参数密集型的,难以应用于资源受限的边缘设备. 为了能够在低 资源设备上运行深度学习模型,需要研发高效的小规模网络. 知识蒸馏是获取高效小规模网络的一种新兴方法, 其主要思想是将学习能力强的复杂教师模型中的“知识”迁移到简单的学生模型中. 同时,它通过神经网络的互 学习、自学习等优化策略和无标签、跨模态等数据资源对模型的性能增强也具有显著的效果. 基于在模型压缩和 模型增强上的优越特
近年来,深度学习逐渐在计算机视觉领域占据主导地位。计算机视觉的主流任务,如图像分类和目标检测,在深度学习技术的帮助下也取得了惊人的成功。庞大的网络由于其强大的表示能力,在上述任务中往往能获得更好的特征提取性能。然而,考虑到系统的实时性能和用户体验,这样的庞大网络很难满足产品的要求。
目前在深度学习领域,一方面需要追求更高的性能,采用强大、复杂的模型网络和实验方法;另一方面又需要关注如何将算法更稳定、高效地在硬件平台上落地。复杂的模型固然展现更好的性能,但过高的存储空间需求和计算资源消耗,是影响在各硬件平台上的落地的重要原因之一。尤其在NLP领域,以BERT、GPT为代表的预训练模型规模越来越大。
随着互联网的普及和电子商务的快速发展,网络购物已成为大学生日常生活中不可或缺的一部分。大学生作为网络购物的主体力量,其消费观念、行为特征以及影响因素对于电子商务行业的发展具有重要的研究价值。因此,本文旨在通过问卷调查的方式,帮助客户对大学生网络购物行为进行深入调查与分析,以期为电子商务企业提供有针对性的市场策略建议(点击文末“阅读原文”获取完整代码数据)。
导读 | 在视频通话中,视频前处理模块可以有效提升用户参与实时视频时的体验,并保护用户隐私,主要包括虚拟背景、美颜和视频降噪等。腾讯会议在视频前处理场景下,遇到哪些技术难点,如何进行优化?【腾讯技术开放日· 云视频会议专场】中,腾讯云高级工程师李峰从算法和工程优化的角度进行了分享。 点击视频,查看直播回放 一、视频前处理场景探索 视频是连续的,在转播的时候需要经过编码和解码的流程,所以视频处理需要分为前处理和后处理。所谓前处理就是指编码前的视频处理,比如背景虚化。所谓后处理就是指解码后的视频处理,比如视
在今年年初,微软发布了一个多任务自然语言理解模型,它在通用语言理解评估基准 GLUE 上取得了当时最好的效果:11 项 NLP 基准任务中有 9 项超过了 BERT。至此,各种 NLP 预训练方法都被提了出来,GLUE 基准也出现越来越多的新研究。
车道线分割由于其在驾驶辅助系统和自动驾驶车辆中的应用,近年来越来越受到关注。此视觉任务旨在定位道路场景图像中的车道。车道的精确位置有利于下游任务,如在车道内定位汽车、车道偏离检测和轨迹规划。
人工智能正在驱动新一轮的商业变革,而算法技术则是推动核心底层技术的重要力量。算法崛起时代,技术浪潮可谓一日千里,算法工程师也只有不断精进自身技术,才能与时俱进、驭浪前行。近日,奇点云算法工程师三角肌在目标检测算法领域又有新突破。
论文名:Paying more attention to attention: improving the performance of convolutional neural networks via Attention Transfer
作者:Sujith Ravi 机器之心编译 近日,谷歌在 Google I/O 发布了 ML Kit,其核心功能之一是「Learn2Compress」技术支持的自动模型压缩服务。Learn2Compress 可直接将 TensorFlow 模型压缩为 TensorFlow Lite 中的设备内置(on-device)模型,可在移动设备上高效运行,而无需担心内存优化和速度问题。 成功的深度学习模型的训练和运行通常需要大量的计算资源、内存和计算能力,这成为其在移动设备和物联网设备上表现良好的障碍。设备内置
神经网络压缩方向是目前深度学习研究的一个热门的方向,其主要的研究方向是压缩,蒸馏,网络架构搜索,量化等。在 ICCV2019 中,不少的研究单位和学者都发表了神经网络压缩方向的论文。本文主要以其中三篇论文来研究神经网络压缩的目前发展趋势。
论文地址: http://arxiv.org/pdf/2106.07807v1.pdf
领取专属 10元无门槛券
手把手带您无忧上云