Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >斯坦福、Meta AI新研究:实现AGI之路,数据剪枝比我们想象得更重要

斯坦福、Meta AI新研究:实现AGI之路,数据剪枝比我们想象得更重要

作者头像
机器之心
发布于 2022-07-20 14:43:25
发布于 2022-07-20 14:43:25
4400
举报
文章被收录于专栏:机器之心机器之心

选自arXiv

作者:Ben Sorscher等

机器之心编译

编辑:蛋酱

Scale is all you need?No.

在视觉、语言和语音在内的机器学习诸多领域中,神经标度律表明,测试误差通常随着训练数据、模型大小或计算数量而下降。这种成比例提升已经推动深度学习实现了实质性的性能增长。然而,这些仅通过缩放实现的提升在计算和能源方面带来了相当高的成本。

这种成比例的缩放是不可持续的。例如,想要误差从 3% 下降到 2% 需要的数据、计算或能量会指数级增长。此前的一些研究表明,在大型 Transformer 的语言建模中,交叉熵损失从 3.4 下降到 2.8 需要 10 倍以上的训练数据。此外,对于大型视觉 Transformer,额外的 20 亿预训练数据点 (从 10 亿开始) 在 ImageNet 上仅能带来几个百分点的准确率增长。

所有这些结果都揭示了深度学习中数据的本质,同时表明收集巨大数据集的实践可能是很低效的。此处要讨论的是,我们是否可以做得更好。例如,我们是否可以用一个选择训练样本的良好策略来实现指数缩放呢?

在最近的一篇文章中,研究者们发现,只增加一些精心选择的训练样本,可以将误差从 3% 降到 2% ,而无需收集 10 倍以上的随机样本。简而言之,「Sale is not all you need」。

论文链接:https://arxiv.org/pdf/2206.14486.pdf

总体来说,这项研究的贡献在于:

1. 利用统计力学,开发了一种新的数据剪枝分析理论,在师生感知机学习环境中,样本根据其教师边际进行剪枝,大 (小) 边际各对应于简单 (困难) 样本。该理论在数量上与数值实验相符,并揭示了两个惊人的预测:

  1. 最佳剪枝策略会因初始数据的数量而改变;如果初始数据丰富 (稀缺) ,则应只保留困难 (容易) 的样本。
  2. 如果选择一个递增的帕累托最优剪枝分数作为初始数据集大小的函数,那么对于剪枝后的数据集大小,指数缩放是可能的。

2. 研究表明,这两个预测在更多通用设置的实践中依旧成立。他们验证了在 SVHN、CIFAR-10 和 ImageNet 上从头训练的 ResNets,以及在 CIFAR-10 上进行微调的视觉 Transformer 的与剪枝数据集大小有关的误差指数缩放特征。

3. 在 ImageNet 上对 10 个不同的数据剪枝度量进行了大规模基准测试研究,发现除了计算密集度最高的度量之外,大多数度量表现不佳。

4. 利用自监督学习开发了一种新的低成本无监督剪枝度量,不同于以前的度量,它不需要标签。研究者证明了这种无监督度量与最好的监督剪枝度量相媲美,而后者需要标签和更多的计算。这个结果揭示了一种可能性:利用预训练基础模型来修剪新数据集。

Is scale all you need?

研究者的感知器数据剪枝理论提出了三个惊人的预测,可以在更通用的环境下进行测试,比如在 benchmark 上训练的深度神经网络:

(1) 相对于随机数据剪枝,当初始数据集比较大时,只保留最难的样本是有收益的,但当初始数据集比较小时,这样反而有害;

(2) 随着初始数据集大小的增加,通过保留最难样本的固定分数 f 进行的数据剪枝应该产生幂律缩放,指数等于随机剪枝;

(3) 在初始数据集大小和所保留数据的分数上优化的测试误差,可以通过在更大初始数据集上进行更积极的剪枝,追踪出一个帕累托最优下包络线,打破了测试误差和剪枝数据集大小之间的幂律缩放函数关系。

研究者用不同数量的初始数据集大小和数据剪枝下保存的数据分数 (图 3A 中的理论对比图 3BCD 中的深度学习实验) ,在 SVHN、CIFAR-10 和 ImageNet 上训练的 ResNets 验证了上述三个预测。在每个实验设置中,可以看到,较大的初始数据集大小和更积极的剪枝比幂律缩放表现更好。此外,更大的初始数据集可能会看到更好的缩放(如图 3A)。 

此外,研究者发现数据剪枝可以提升迁移学习的表现。他们首先分析了在 ImageNet21K 上预训练的 ViT,然后在 CIFAR-10 的不同剪枝子集上进行了微调。有趣的是,预训练的模型允许更积极的数据剪枝;只有 10% 的 CIFAR-10 的微调可以媲美或超过所有 CIFAR-10 的微调所获得的性能 (图 4A)。此外,图 4A 提供了一个在微调设置中打破幂律缩放的样本。

通过在 ImageNet1K 的不同剪枝子集 (如图 3D 所示) 上预训练 ResNet50,研究者检查了剪枝预训练数据的功效,然后在 CIFAR-10 上对它们进行微调。如图 4B 所示,在最少 50% 的 ImageNet 上进行的预训练能够达到或超过在所有 ImageNet 上进行的预训练所获得的 CIFAR-10 性能。

因此,对上游任务的训练前数据进行剪枝仍然可以在不同的下游任务上保持高性能。总体来说,这些结果显示了剪枝在预训练和微调阶段的迁移学习中的前景。

在 ImageNet 上对监督剪枝指标进行基准测试

研究者注意到,大多数的数据剪枝实验都是在小规模数据集(即 MNIST 和 CIFAR 的变体)上进行的。所以,为 ImageNet 提出的少数剪枝度量很少与在较小数据集上设计的 baseline 进行比较。

因此,目前尚不清楚大多数剪枝方法如何缩放到 ImageNet 以及哪种方法最好。为研究剪枝度量的质量在理论上对性能的影响,研究者决定通过在 ImageNet 上对 8 个不同的监督剪枝度量进行系统评估来填补这一知识空白。

他们观察到度量之间的显著性能差异:图 5BC 显示了当每个度量下的最难样本的一部分保留在训练集中时的测试性能。在较小的数据集上,许多度量取得了成功,但选择一个明显较小的训练子集(如 Imagenet 的 80%)时,只有少数度量在完整数据集训练中仍然获得了相当的性能。

尽管如此,大多数度量仍然优于随机剪枝(图 5C)。研究者发现所有剪枝度量都会放大类的不平衡,从而导致性能下降。为了解决这个问题,作者在所有 ImageNet 实验中使用了一个简单的 50% 类平衡率。

通过原型度量进行自监督数据剪枝

如图 5 ,许多数据剪枝度量不能很好地缩放到 ImageNet,其中一些确实需要大量计算。此外,所有这些度量都需要标注,这限制了它们为在大量未标注数据集训练大规模基础模型的数据剪枝能力。因此,我们显然需要简单、可缩放、自监督的剪枝度量。

为了评估度量发现的聚类是否与 ImageNet 类一致,研究者在图 6A 中比较了它们的重叠。当保留 70% 以上的数据时,自监督度量和监督度量的性能是相似的,这表明了自监督剪枝的前景。

更多研究细节,可参考原论文。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-07-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘
大模型的成功很大程度上要归因于 Scaling Law 的存在,这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系,为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。
机器之心
2024/02/28
3550
大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘
剪掉ImageNet 20%数据量,模型性能不下降!Meta斯坦福等提出新方法,用知识蒸馏给数据集瘦身
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 这两天,推特上一个任务悬赏火得一塌糊涂。 一家AI公司提供25万美金(折合人民币约167万元),悬赏什么任务能让模型越大、性能反而越差。 评论区里已经讨论得热火朝天了。 不过这事儿倒也不是单纯整活,而是为了进一步探索大模型。 毕竟,这两年大家越发意识到,AI模型不能单纯比“大”。 一方面,随着模型的规模越来越大,训练付出的成本开始呈现指数型增长; 另一方面,模型性能的提升也已经逐渐到达瓶颈期,哪怕想要让误差再下降1%,都需要更多的数据集增量和计算增
量子位
2022/07/04
2310
剪掉ImageNet 20%数据量,模型性能不下降!Meta斯坦福等提出新方法,用知识蒸馏给数据集瘦身
利用LSTM思想来做CNN剪枝,北大提出Gate Decorator
还记得在理解 LSTM 的时候,我们会发现,它用一种门控机制记住重要的信息而遗忘不重要的信息。在此之后,很多机器学习方法都受到了门控机制的影响,包括 Highway Network 和 GRU 等等。北大的研究者同样也是,它们将门控机制加入到 CNN 剪枝中,让模型自己决定哪些滤波器不太重要,那么它们就可以删除了。
机器之心
2019/09/25
6150
利用LSTM思想来做CNN剪枝,北大提出Gate Decorator
自“彩票假设”理论被授予2019 ICLR 最佳论文后,该领域又有了哪些新的研究进展?
在人们互相交流和信息传递的过程中,「隐喻」的作用极其重要。在1970年之前,当人们提起「桌面」这个单词,联想到的还都是放满了锅碗瓢勺的桌子。但是当天才计算机大师Alan Kay在 Xerox PARC 实验室设计了现代的 GUI 交互界面之后,桌面这个词可能更多的指代的就是配备各种图形化操作系统的电脑桌面了。
AI科技评论
2020/08/20
2.9K0
自“彩票假设”理论被授予2019 ICLR 最佳论文后,该领域又有了哪些新的研究进展?
整合相似度度量:共识标准推动层剪枝技术的三赢解决方案 !
深度学习正在将机器学习推向许多认知任务的人机水平,如计算机视觉和自然语言处理[53]。在这个方向上,超参数化的模型因其能够表示数据中的高复杂性模式而流行,使得解决非凸问题变得更加容易。然而,这些模型存在高计算成本和内存消耗,限制了它们在低资源、无基础设施场景的应用。此外,高容量模型在遭受对抗攻击时容易产生错误预测,即输入的微小扰动迫使模型在预测中出错,使其在安全性和关键任务中不可靠。这些问题提出了以下困境:如何获得高预测能力、低成本和鲁棒性模型?现有研究证实,剪枝策略已成为解决上述困境的有前景的解决方案。例如,最先进的剪枝技术在保持模型准确性的同时,移除了超过75%的浮点运算(FLOPs)和参数。这一技术家族在提高对抗鲁棒性方面也取得了积极的结果,即使仅在干净图像或对抗样本上进行训练[3, 29, 46, 2]。这些好处已经吸引了大量关于剪枝技术的研究,并证实剪枝技术在基础模型时代占据了重要地位[40, 52]。
未来先知
2024/12/24
1840
整合相似度度量:共识标准推动层剪枝技术的三赢解决方案 !
2019年的最后一个月,这里有6种你必须要知道的最新剪枝技术
剪枝是一种帮助神经网络实现规模更小、效率更高的深度学习方法。这是一种模型优化技术,它删除权重张量中不必要的值,从而使得压缩后的神经网络运行速度更快,网络训练过程中的计算成本也有所降低。在将模型部署到手机等边缘设备上时,剪枝的作用更加明显现。
机器之心
2019/12/24
5130
南京大学 & 上海 AI Lab & 港中文提出目标检测新视角 | CLIP数据选择框架在 CV 任务中的扩展研究 !
深度学习技术的最新进展通常依赖于越来越大、越来越复杂的模型,这些模型利用庞大的数据集实现最先进的表现。刘等人; Touvron等人。然而,这种成功通常伴随着数据存储和计算资源的巨大成本,这可能甚至限制模型在专业基础设施上的部署,并阻碍它们在不同应用场景中的可扩展性。此外,实际数据集通常包含冗余和噪声,这可能降低训练效率和性能。
AIGC 先锋科技
2024/11/07
2220
南京大学 & 上海 AI Lab & 港中文提出目标检测新视角 | CLIP数据选择框架在 CV 任务中的扩展研究 !
学界 | SWATS:自动由Adam切换为SGD而实现更好的泛化性能
选自arXiv 作者:Nitish Shirish Keskar、Richard Socher 机器之心编译 参与:蒋思源、李泽南 在 ICLR 2018 的高分论文中,有研究者表明因为历史梯度平方的滑动平均值,Adam 等算法并不能收敛到最优解,因此它在泛化误差上可能要比 SGD 等方法差。最近 Salesforce 的研究者提出了一种转换机制,他们试图让算法在训练过程中自动由 Adam 无缝转换到 SGD 而保留两种优化算法的优良属性。 随机梯度下降(SGD)已经成为了深度神经网络最常用的训练算法之一。
机器之心
2018/05/11
1.6K0
CVPR 2020 Oral | 不引入约束,浮点运算和参数量显著减少,纪荣嵘教授团队提出基于高秩特征图的滤波器剪枝方法
HRank 的灵感来自于这样一个发现:无论 CNN 接收的图像批数是多少,由单个滤波器生成的多个特征图的平均秩总是相同的。在 HRank 的基础上,研究者还提出了一种针对低秩特征图所对应滤波器进行剪枝的算法。剪枝的原理是低秩特征图包含的信息较少,因此剪枝后的结果可以很容易地再现。
机器之心
2020/05/22
6470
CVPR 提前看:视觉常识的最新研究进展
1、What it Thinks is Important is Important: Robustness Transfers through Input Gradients
机器之心
2020/04/14
4910
CVPR 提前看:视觉常识的最新研究进展
OpenAI 研究员:数据不足时,如何实现监督学习
作者丨Lilian Weng 编译丨丛末 编辑丨陈彩娴 现实应用中,数据易得,而有标签的数据少有。 一般而言,当监督学习任务面临标签数据不足问题时,可以考虑以下四种解决办法: 1.预训练+微调:首先在一个大规模无监督数据语料库上对一个强大的任务无关模型进行预训练(例如通过自监督学习在自由文本上对语言模型进行预训练,或者在无标签图像上对视觉模型进行预训练),之后再使用一小组标签样本在下游任务上对该模型进行微调。 2.半监督学习:同时从标签样本和无标签样本中学习,研究者使用该方法在视觉任务上进行了大量研究。
AI科技评论
2022/07/19
9990
OpenAI 研究员:数据不足时,如何实现监督学习
推翻剪枝固有观点?清华、伯克利提出NN过参数化真的不重要
在该论文 ICLR 2019 的双盲审评论区,论文「ThiNet」的一作 Jian-Hao Luo 和论文「通道剪枝」的一作 Yihui He 提出了修改意见。Jian-Hao Luo 分别对表 2 中 VGG-16 和 ResNet-50 的结果提出了质疑,但同时也认为这是一篇「Interesting paper」,研究社区应该对「剪枝」方法和「从零开始训练」方法进行更深入的思考。Yihui He 要求作者修改表 1、表 2 和表 4 中关于 VGG-16 的准确率结果。作者也向他们作出了积极的回应。
机器之心
2018/11/23
7590
模型跨界成潮流?OpenAI用GPT-2做图像分类,实现SOTA性能
无监督和自监督学习,或者无人工标注数据的学习,这些都是机器学习领域长期存在的挑战。近期,BERT、GPT-2、RBERTa、T5 等 Transformer 模型以及其他变体在一系列语言任务上实现了最佳性能。然而,在生成用于图像分类的强特征方面却始终没有出现性能强大的模型。
机器之心
2020/06/20
9630
深度学习算法优化系列七 | ICCV 2017的一篇模型剪枝论文,也是2019年众多开源剪枝项目的理论基础
这篇文章是ICCV 2017的一篇模型压缩论文,题目为《 Learning Efficient Convolutional Networks through Network Slimming》。2019年有相当多的关于YOLOv3的剪枝开源工程,他们大多数的原理都来自于这篇论文,这篇论文的思想值得仔细品读。论文原文地址和Pytorch开源代码地址见附录。
BBuf
2020/02/12
1.6K0
深度学习算法优化系列七 | ICCV 2017的一篇模型剪枝论文,也是2019年众多开源剪枝项目的理论基础
吓人!AI模型性能上不去真的不怪我,ImageNet等数据集每100个标签就错3个!
标签错误会破坏基准的稳定性,然而,令人没想到的是,大多数机器学习中使用的10个主流基准测试集普遍存在标签错误。比如,把“狮子”标记成“猴子”,把“青蛙”标记成“猫”。
AI算法修炼营
2021/05/11
6220
吓人!AI模型性能上不去真的不怪我,ImageNet等数据集每100个标签就错3个!
Ilya错了?Scaling另有他用,ViT大佬力挺谷歌1000亿数据新发现
ViT大佬翟晓华(Xiaohua Zhai)并不这样认为,至少在多模态模型上并非如此。
新智元
2025/03/10
980
Ilya错了?Scaling另有他用,ViT大佬力挺谷歌1000亿数据新发现
自动多步蒸馏(AMD) | 突破大规模视觉模型压缩的效能界限 !
视觉领域的基础模型( 如 BiT ,ViT ,Swin,Florence )因其在一众任务中的革命性表现而最近受到了广泛关注。特别是像ViT-Large(61.6 G FLOPS)和 Swin-Large (103.9 G FLOPS)这样的基于 Transformer 架构的模型,它们代表了一类通用的视觉基础模型,并取得了前所未有的成功,相比于卷积神经网络(CNNs)如ResNet18 (1.8 G FLOPS),它们的操作要复杂得多。然而,随着模型规模的不断扩大以提高性能,它们固有的高复杂度成为了在低功耗处理器和移动设备上部署的瓶颈,这些设备通常计算能力有限。
AIGC 先锋科技
2024/07/20
2400
自动多步蒸馏(AMD) | 突破大规模视觉模型压缩的效能界限 !
超越ReLU却鲜为人知,3年后被挖掘:BERT、GPT-2等都在用的激活函数
作为决定神经网络是否传递信息的「开关」,激活函数对于神经网络而言至关重要。不过今天被人们普遍采用的 ReLU 真的是最高效的方法吗?最近在社交网络上,人们找到了一个看来更强大的激活函数:GELU,这种方法早在 2016 年即被人提出,然而其论文迄今为止在 Google Scholar 上的被引用次数却只有 34 次。
OpenCV学堂
2020/01/20
7710
超越ReLU却鲜为人知,3年后被挖掘:BERT、GPT-2等都在用的激活函数
学界 | 谷歌大脑提出自动数据增强方法AutoAugment:可迁移至不同数据集
选自arXiv 作者:Ekin D. Cubuk 等 机器之心编译 参与:Geek AI、路 近日,来自谷歌大脑的研究者在 arXiv 上发表论文,提出一种自动搜索合适数据增强策略的方法 AutoAugment,该方法创建一个数据增强策略的搜索空间,利用搜索算法选取适合特定数据集的数据增强策略。此外,从一个数据集中学到的策略能够很好地迁移到其它相似的数据集上。 引言 深度神经网络是强大的机器学习系统,当使用海量数据训练时,深度神经网络往往能很好地工作。数据增强是一种通过随机「增广」来提高数据量和数据多样性的
机器之心
2018/06/08
1.1K3
MiniCPM,能被斯坦福抄袭究竟有何魅力?我们一起看看论文吧!
https://arxiv.org/pdf/2404.06395 随着开发具有高达数万亿参数的大型语言模型(LLMs)的兴趣激增,关于资源效率和实际成本的担忧也随之而来,特别是考虑到实验的巨大成本。这一情形突显了探索小型语言模型(SLMs)作为资源高效替代方案的潜力。在此背景下,我们介绍了MiniCPM,特别是其1.2B和2.4B非嵌入参数变体,这些变体不仅在各自的类别中表现出色,而且在能力上与7B-13B的LLMs不相上下。尽管我们专注于SLMs,但我们的方法在模型和数据维度上都表现出可扩展性,为未来LLM的研究提供了可能。
AI浩
2024/10/22
4530
MiniCPM,能被斯坦福抄袭究竟有何魅力?我们一起看看论文吧!
推荐阅读
大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘
3550
剪掉ImageNet 20%数据量,模型性能不下降!Meta斯坦福等提出新方法,用知识蒸馏给数据集瘦身
2310
利用LSTM思想来做CNN剪枝,北大提出Gate Decorator
6150
自“彩票假设”理论被授予2019 ICLR 最佳论文后,该领域又有了哪些新的研究进展?
2.9K0
整合相似度度量:共识标准推动层剪枝技术的三赢解决方案 !
1840
2019年的最后一个月,这里有6种你必须要知道的最新剪枝技术
5130
南京大学 & 上海 AI Lab & 港中文提出目标检测新视角 | CLIP数据选择框架在 CV 任务中的扩展研究 !
2220
学界 | SWATS:自动由Adam切换为SGD而实现更好的泛化性能
1.6K0
CVPR 2020 Oral | 不引入约束,浮点运算和参数量显著减少,纪荣嵘教授团队提出基于高秩特征图的滤波器剪枝方法
6470
CVPR 提前看:视觉常识的最新研究进展
4910
OpenAI 研究员:数据不足时,如何实现监督学习
9990
推翻剪枝固有观点?清华、伯克利提出NN过参数化真的不重要
7590
模型跨界成潮流?OpenAI用GPT-2做图像分类,实现SOTA性能
9630
深度学习算法优化系列七 | ICCV 2017的一篇模型剪枝论文,也是2019年众多开源剪枝项目的理论基础
1.6K0
吓人!AI模型性能上不去真的不怪我,ImageNet等数据集每100个标签就错3个!
6220
Ilya错了?Scaling另有他用,ViT大佬力挺谷歌1000亿数据新发现
980
自动多步蒸馏(AMD) | 突破大规模视觉模型压缩的效能界限 !
2400
超越ReLU却鲜为人知,3年后被挖掘:BERT、GPT-2等都在用的激活函数
7710
学界 | 谷歌大脑提出自动数据增强方法AutoAugment:可迁移至不同数据集
1.1K3
MiniCPM,能被斯坦福抄袭究竟有何魅力?我们一起看看论文吧!
4530
相关推荐
大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档