部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >苹果也在蒸馏大模型,给出了蒸馏Scaling Laws

苹果也在蒸馏大模型,给出了蒸馏Scaling Laws

作者头像
机器之心
发布于 2025-02-19 15:01:02
发布于 2025-02-19 15:01:02
880
举报
文章被收录于专栏:机器之心机器之心

众所周知,知识蒸馏技术当前正被大模型领域广泛使用,它可以在大幅压缩模型体量的同时保持一定的性能、降低模型时延、提升模型精度,与此同时还能对知识域进行集成和迁移。

近日,苹果研究人员提出了一种蒸馏扩展定律(Distillation Scaling Laws),基于计算预算及其在学生和教师之间的分配,我们现在开始可以估算蒸馏模型的性能了。

f1.png
f1.png

图 1. 蒸馏扩展定律的外推。蒸馏扩展定律适用于一系列损失为 LT 的教师的弱学生模型(L_S > 2.3)。实线表示给定学生配置(插值)下未见过的教师的预测模型行为,虚线表示见过的教师之外和强学生区域(L_S ≤ 2.3)的预测模型行为。如图所示,学生的表现可以胜过老师(详情见图 2、3 和 41)。

苹果研究者认为,该发现降低了大规模使用蒸馏的风险,现在我们可以基于此优化教师和学生模型的计算分配,以最大化学生模型的性能。该工作提供的计算最优的蒸馏方案适用于两种情况:1)已有教师模型,或 2)需要训练教师模型。

如果要蒸馏多个学生模型,或者已有教师模型,蒸馏在计算水平上优于监督预训练,直到计算水平随着学生模型规模的增加而可预测地增长。如果要蒸馏一个学生模型且还需要训练教师模型,则应采用监督学习。此外,作者在大规模蒸馏研究中提供了深入的见解,这些见解增加了我们对蒸馏的理解,并为实验设计提供了信息。

paper.png
paper.png
  • 论文标题:Distillation Scaling Laws
  • 论文链接:https://arxiv.org/pdf/2502.08606

大模型的扩展定律(Scaling Laws)表明,如果先前训练的语言模型(LM)遵循计算最优训练范式,就可以随着计算力提升而提升。由于推理成本的持续增长,目前这种定律难以持续,人们尝试使用过度训练(其中训练数据量远大于计算最优情况)来实现小型、功能强大的模型。这些模型的构建既昂贵又耗时。

我们正在寻求与训练算力投入相匹配,但训练成本更低的模型,蒸馏是一种流行的方法。但长期以来,学界对蒸馏缺乏共识,并不了解如何分配计算资源,以产生最强大的模型。为了弥补这一知识差距,研究人员对蒸馏进行了广泛研究,学生和老师的参数范围从 1.43 亿到 126 亿,使用训练数据最多达 5120 亿 token。

研究发现:

eq 8.png
eq 8.png

1. 一个大小为 N_S 的学生模型,通过从大小为 N_T 的教师模型中蒸馏 D_S 个 token 所得到的交叉熵,可以通过蒸馏扩展定律(公式 8)进行预测。

2. 老师大小 N_T 和老师训练 token 数量 D_T 仅通过确定老师的交叉熵 L_T = L_T (N_T , D_T) 来确定学生交叉熵;

3. 老师交叉熵对学生损失的影响遵循幂律,该幂律根据学生和老师的相对学习能力在两种行为之间转换,反映了蒸馏中称为能力差距的现象,即较强的老师会产生较差的学生。该工作的参数化解决了有关能力差距悬而未决的问题,表明这是老师和学生之间学习能力(假设空间和优化能力)的差距,而不仅仅是他们的相对大小,后者其实是一种特殊情况。

该结果表明,当两个学习过程都有足够的数据或计算时,蒸馏不能产生比监督学习更低的模型交叉熵。但是,如果以下两个条件都成立,则蒸馏比监督学习更有效:

1. 用于学生的总计算或 token 不大于新扩展定律给出的学生大小相关阈值;

2. 老师已经存在,或者要训练的老师有超出单次蒸馏的用途。

新的定律和分析有望指导 AI 社区构建更强大的模型,实现更低的推理成本和总计算成本。

蒸馏扩展率

文章概述了他们如何得出蒸馏扩展率所采取的步骤。

首先是实验设置。本文的目标是理解教师模型在蒸馏过程中的作用,因此,该研究在纯蒸馏情况下(λ = 1,公式 7)进行蒸馏,以避免数据带来的混淆。本文验证了 λ = 1 的选择能够产生与最优 λ∗ 统计相似的结果。同样,所有实验均使用蒸馏温度(τ = 1),因为该研究发现这能产生性能最佳的学生模型。

image.png
image.png
image.png
image.png

表 1 是文中出现的符号代表内容:

image.png
image.png
2025-02-13_160150.png
2025-02-13_160150.png

对应中文版本

此外,对于实验数据的选择,本文结合了三种方案:

固定 M 的教师 / 学生 IsoFLOP 实验:

本文预测在固定教师模型的情况下,学生模型的参数(N_S)和训练 token 数量(D_S)之间会呈现出幂律行为。

为了在给定的计算预算内生成尽可能多样的教师模型,本文训练了六个 Chinchilla 最优教师模型,其参数范围从 1.98 亿到 77.5 亿。对于每一个教师模型,本文按照标准训练成本,将其蒸馏到具有四种 IsoFLOP 配置的学生模型中。最终得到的学生模型交叉熵如图 2 所示。作者还注意到,在某些情况下,学生模型能够超越教师模型的表现,即展现出弱到强的泛化能力。

image.png
image.png

注:为实现扩展系数的可靠识别,此前有研究使用了两种策略:

  • (固定模型,变化数据) 对于一个固定的模型族,变化训练 token 的数量。
  • (IsoFLOP 配置) 在总计算约束下,同时变化模型大小和训练 token 的数量。

为了确保实验能够检测到这种影响,本文设定学生(N_S,D_S)是固定的,而 N_T 和 D_T 在计算约束下变化。本文进行了蒸馏实验,将四个 Chinchilla 最优(M_S = D_S/N_S ≈ 20)的学生(其参数范围从 1.98 亿到 18.2 亿),从根据四种 IsoFLOP 配置训练的教师中蒸馏出来。最终得到的学生交叉熵如图 3 所示。

image.png
image.png

最后,本文训练了固定 M 的教师模型与固定 M 的学生模型的组合,其中包含十个教师模型(M_T ≈ 20)和五种规模的学生模型,每个学生模型至少对应四种 M_S 选择。其中两个学生模型的交叉熵结果如图 4 所示。

image.png
image.png

此外,本文还需要确定蒸馏扩展定律的函数形式。首先,本文观察到教师模型的大小 N_T 和预训练 token 数量 D_T 的贡献可以通过教师模型的交叉熵 L_T 来总结。这可以从图 1 和图 3b 中看出:

image.png
image.png

总之,本文提出,学生交叉熵在 L_T 中遵循 broken 幂律,在 N_S 和 D_S 中遵循幂律:

image.png
image.png

在此之后,论文分析了在不同计算预算下如何最优地分配教师和学生模型的资源,包括教师模型的训练成本和学生模型的蒸馏成本,并比较了蒸馏和监督学习在不同计算预算下的性能,发现当教师模型的训练成本被考虑时,监督学习通常更有效。

这项工作代表了已知最大规模的蒸馏受控实证研究,系统消融了常见的蒸馏技术。正如监督扩展减轻了监督预训练中的风险一样,新工作为生产更小、更强大的模型提供了路线图,并增强了测试时扩展的可行性。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【AI系统】知识蒸馏原理
本文将介绍知识蒸馏(Knowledge Distillation, KD)的原理,这是一种通过从大型的教师模型向小型的学生模型转移知识来实现模型压缩和优化的技术。知识蒸馏的核心思想是利用教师模型在大量数据上积累的丰富知识,通过特定的蒸馏算法,使学生模型能够学习并吸收这些知识,从而达到与教师模型相似的性能。
用户11307734
2024/12/05
2720
剪掉ImageNet 20%数据量,模型性能不下降!Meta斯坦福等提出新方法,用知识蒸馏给数据集瘦身
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 这两天,推特上一个任务悬赏火得一塌糊涂。 一家AI公司提供25万美金(折合人民币约167万元),悬赏什么任务能让模型越大、性能反而越差。 评论区里已经讨论得热火朝天了。 不过这事儿倒也不是单纯整活,而是为了进一步探索大模型。 毕竟,这两年大家越发意识到,AI模型不能单纯比“大”。 一方面,随着模型的规模越来越大,训练付出的成本开始呈现指数型增长; 另一方面,模型性能的提升也已经逐渐到达瓶颈期,哪怕想要让误差再下降1%,都需要更多的数据集增量和计算增
量子位
2022/07/04
2090
剪掉ImageNet 20%数据量,模型性能不下降!Meta斯坦福等提出新方法,用知识蒸馏给数据集瘦身
苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型
让大模型进入多模态模式,从而能够有效感知世界,是最近 AI 领域里人们一直的探索目标。
机器之心
2025/04/13
810
苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型
【知识】 LLM中的Scaling Laws是什么?
近年来,随着大语言模型(LLM)的参数规模和训练数据量呈指数级增长,研究者发现模型性能与规模之间存在可预测的扩展规律(Scaling Laws)​。所谓Scaling Law,指的是模型性能(如测试集上的损失或准确率)如何随着模型参数数量、训练数据量以及计算量的增加而变化的经验性定律​。这一概念最初由OpenAI在2020年的开创性工作提出​。掌握Scaling Laws有助于我们在训练LLM时进行模型大小、数据规模和算力投入之间的权衡,指导训练方案的设计​。
小锋学长生活大爆炸
2025/04/09
1930
CVPR 2022 | 这个自蒸馏新框架新SOTA,降低了训练成本,无需修改网络
机器之心专栏 机器之心编辑部 OPPO 研究院联合上海交通大学提出的新的自蒸馏框架DLB,无需额外的网络架构修改,对标签噪声具有鲁棒性,并可大幅节约训练的空间复杂度,在三个基准数据集的实验中达到了 SOTA 性能。 深度学习促进人工智能(AI)领域不断发展,实现了许多技术突破。与此同时,如何在有限硬件资源下挖掘模型潜能、提升部署模型的准确率成为了学界和业界的研究热点。其中,知识蒸馏作为一种模型压缩和增强的方法, 将泛化能力更强的「大网络模型」蕴含的知识「蒸馏」到「小网络模型」上,来提高小模型精度,广泛地应
机器之心
2022/04/08
1.2K0
CVPR 2022 | 这个自蒸馏新框架新SOTA,降低了训练成本,无需修改网络
BAM!利用知识蒸馏和多任务学习构建的通用语言模型
在今年年初,微软发布了一个多任务自然语言理解模型,它在通用语言理解评估基准 GLUE 上取得了当时最好的效果:11 项 NLP 基准任务中有 9 项超过了 BERT。至此,各种 NLP 预训练方法都被提了出来,GLUE 基准也出现越来越多的新研究。
机器之心
2019/04/09
1.2K0
BAM!利用知识蒸馏和多任务学习构建的通用语言模型
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
CMU 教授 Tim Dettmers 则直接说:它是很长一段时间以来最重要的一篇论文。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 也转发了他的帖子。
机器之心
2025/02/14
570
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
自动多步蒸馏(AMD) | 突破大规模视觉模型压缩的效能界限 !
视觉领域的基础模型( 如 BiT ,ViT ,Swin,Florence )因其在一众任务中的革命性表现而最近受到了广泛关注。特别是像ViT-Large(61.6 G FLOPS)和 Swin-Large (103.9 G FLOPS)这样的基于 Transformer 架构的模型,它们代表了一类通用的视觉基础模型,并取得了前所未有的成功,相比于卷积神经网络(CNNs)如ResNet18 (1.8 G FLOPS),它们的操作要复杂得多。然而,随着模型规模的不断扩大以提高性能,它们固有的高复杂度成为了在低功耗处理器和移动设备上部署的瓶颈,这些设备通常计算能力有限。
AIGC 先锋科技
2024/07/20
2120
自动多步蒸馏(AMD) | 突破大规模视觉模型压缩的效能界限 !
DINOv2:无需微调,填补 SAM 的空白,支持多个下游任务
前段时间,Meta AI 高调发布了 Segment Anything(SAM),SAM 以交互式方式快速生成 Mask,并可以对从未训练过的图片进行精准分割,可以根据文字提示或使用者点击进而圈出图像中的特定物体,其灵活性在图像分割领域内属首创。
OpenMMLab 官方账号
2023/08/21
5.8K0
DINOv2:无需微调,填补 SAM 的空白,支持多个下游任务
深度学习知识蒸馏的研究综述
【导读】大家好,我是泳鱼。知识蒸馏用大白话说就是将一个大神经网络模型的知识转移到另外一个小模型上面,得到一个“小而美”的模型。本文就近些年来知识蒸馏的主要研究成果进行梳理并加以总结,分析该领域所面临的挑战,详细阐述知识蒸馏的学习框架,从多种分类角度对知识蒸馏的相关工作进行对比和分析,文末附相关论文下载。
算法进阶
2023/09/25
2.5K0
深度学习知识蒸馏的研究综述
微软朱晨光:预训练模型下一步怎么走?突破PLM的「不可能三角」
机器之心报道 编辑:杜伟、陈萍 文章虽然不长短短四页,却简明地涵盖了 PLM 过去的一系列工作。 近年来,大规模预训练语言模型(PLM)已经显著提升了各种 NLP 任务的性能。从 BERT 和 GPT-2 开始,自监督预训练 + 监督式微调的范式取得了巨大的成功,刷新了语义相似度、机器阅读理解、常识推理和文本摘要等很多 NLP 领域的 SOTA 结果。此外,中等规模的 PLM 实现了广泛和快速的模型微调和调整。 但是,在很多实际尤其是新颖的 NLP 场景中,受限于预算或者时间,用于有效微调的标注数据极其有限
机器之心
2022/04/25
5730
微软朱晨光:预训练模型下一步怎么走?突破PLM的「不可能三角」
小版BERT也能出奇迹:最火的预训练语言库探索小巧之路
近日,HuggingFace 发布了 NLP transformer 模型——DistilBERT,该模型与 BERT 的架构类似,不过它仅使用了 6600 万参数(区别于 BERT_base 的 1.1 亿参数),却在 GLUE 基准上实现了后者 95% 的性能。
机器之心
2019/09/10
1.1K0
小版BERT也能出奇迹:最火的预训练语言库探索小巧之路
Scaling Laws又失灵了?谷歌新研究:扩散模型不是越大越好
OpenAI是scaling laws的坚定拥护者。可是模型训练是否真的大力出奇迹呢?
大数据文摘
2024/04/15
6760
Scaling Laws又失灵了?谷歌新研究:扩散模型不是越大越好
ICML2020 | Self-PU learning:把三个自监督技巧扔进PU learning
今天给大家介绍的是德州农工大学Xuxi Chen等人在ICML2020上发表的一篇名为“Self-PU: Self Boosted and Calibrated Positive-Unlabeled Training”的文章。许多现实世界的应用领域必须解决Positive-Unlabeled (PU) learning问题,即从大量的无标记数据和少数有标记的正示例中训练一个二分类器。虽然目前最先进的方法采用了重要性重加权来设计各种风险估计器,但它们忽略了模型本身的学习能力,而这本来可以提供可靠的监督。这促使作者提出了一种新型的Self-PU learning框架,该框架将PU learning与self-training无缝结合。self- PU learning包含了三个self导向的模块:自适应地发现和增强确信的正/负例子的self-paced训练算法; self-calibrated实例感知损失;以及一个引入教师-学生学习作为PU学习有效正则化的self-distillation方案。作者在通用PU learning基准(MNIST和CIFAR-10)上展示了Self-PU的最先进性能,与最新的竞争对手相比具有优势。此外,还研究了PU学习在现实世界中的应用,即对阿尔茨海默病的脑图像进行分类。与现有方法相比,Self-PU在著名的阿尔茨海默病神经成像(ADNI)数据库上获得了显著改进的结果。
智能生信
2021/05/17
2.8K0
ICML2020 | Self-PU learning:把三个自监督技巧扔进PU learning
WSDM23 | 学习蒸馏图神经网络
今天介绍的是由北京邮电大学、昆士兰大学等高校机构共同发表在WSDM 2023会议上的一篇论文:
Houye
2023/09/04
4390
WSDM23 | 学习蒸馏图神经网络
大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘
大模型的成功很大程度上要归因于 Scaling Law 的存在,这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系,为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。
机器之心
2024/02/28
3170
大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘
ICLR2021 | 显著提升小模型性能,亚利桑那州立大学&微软联合提出SEED
本文主要聚焦于小模型(即轻量型模型)的自监督学习问题,作者通过实证发现:对比自监督学习方法在大模型训练方面表现出了很大进展,然这些方法在小模型上的表现并不好。
AIWalker
2021/01/18
7320
ICLR2021 | 显著提升小模型性能,亚利桑那州立大学&微软联合提出SEED
模型压缩:量化、剪枝和蒸馏
👆关注“博文视点Broadview”,获取更多书讯 近年来,BERT 系列模型成了应用最广的预训练语言模型,随着模型性能的提升,其参数规模不断增大,推理速度也急剧提升,导致原始模型必须部署在高端的GPU 显卡上,甚至部分模型需要多块显卡才能正常运行。 在移动智能终端品类越发多样的时代,为了让预训练语言模型可以顺利部署在算力和存储空间都受限的移动终端,对预训练语言模型的压缩是必不可少的。本文将介绍针对BERT(以Transformer Block 堆叠而成的深度模型)的压缩方法。 01 BERT模型分析
博文视点Broadview
2023/05/06
1.5K0
模型压缩:量化、剪枝和蒸馏
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
计算机视觉的快速进步使得能够精确理解并解释视觉数据的强大模型得到发展。其中,CLIP(对比语言图像预训练)[38] 脱颖而出,作为一种依赖图像与文本之间大规模对比学习的共享嵌入空间的先导方法。它在分类任务中表现出色,无需直接监督就能理解并关联到视觉内容到文本描述。
AIGC 先锋科技
2024/10/22
1710
DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
万字综述 | 一文读懂知识蒸馏
近年来,深度神经网络在工业界和学术界都取得了成功,尤其是在计算机视觉任务方面。深度学习的巨大成功主要归因于其可扩展性以编码大规模数据并操纵数十亿个模型参数。但是,将这些繁琐的深度模型部署在资源有限的设备(例如,移动电话和嵌入式设备)上是一个挑战,这不仅是因为计算复杂性高,而且还有庞大的存储需求。为此,已经开发了多种模型压缩和加速技术。作为模型压缩和加速的代表类型,知识蒸馏有效地从大型教师模型中学习小型学生模型。它已迅速受到业界的关注。本文从知识类别,训练框架,师生架构,蒸馏算法,性能比较和应用的角度对知识蒸馏进行了全面的调查。此外,简要概述了知识蒸馏中的挑战,并讨论和转发了对未来研究的评论。
AI异构
2020/12/22
16.4K0
推荐阅读
相关推荐
【AI系统】知识蒸馏原理
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档