Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >对话生成与总结任务的效率优化,LLMR在NLP任务中的性能优势分析 !

对话生成与总结任务的效率优化,LLMR在NLP任务中的性能优势分析 !

作者头像
AIGC 先锋科技
发布于 2024-11-15 05:52:37
发布于 2024-11-15 05:52:37
1010
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

大型语言模型 increasingly 流行,并在各种自然语言处理(NLP)任务上表现出显著性能。然而,这些模型通常计算消耗较大,难以在资源受限的环境中部署。 在本文中,作者提出了一种新的知识蒸馏(KD)方法,LLMR,该方法基于大语言模型诱导的奖励函数。 作者在对话生成和总结任务等多个数据集上进行了实验。 实验结果表明,作者的 LLMR 方法在不同的任务和数据集上,始终优于传统的 KD 方法。

1 Introduction

大型语言模型(LLMs)已在各种文本生成任务上取得了显著的性能,如摘要(Ahmed和Devanbu,2022)、对话系统。此外,这种方法可以实现零样本学习,即用户输入一个自然语言提示并使LLM为任务生成所期望的输出(Brown等人,2020)。

然而,LLM也带来了显著的挑战。例如,GPT-3模型具有1750亿个参数,这是资源密集型的,需要大量的计算能力和内存。这可能阻碍了在资源有限的环境中的实际应用。

因此,知识蒸馏(KD)成为LLM的一个日益重要的研究方向的知识转移到更小、更高效的学生模型(称为“学生”)。通常,这通过从教师预测的句子或分布中训练学生来实现(Kim和Rush,2016)。然而,它存在固有的限制:在训练过程中,学生学会根据教师的先前预测来预测下一个词,而在推理过程中,学生必须根据其自己的先前预测来实现此目标。这种差异被称为“暴露偏差”,并通常导致性能降低。

在本文中,作者提出了一种新颖的知识蒸馏方法,该方法基于强化学习,且受大型语言模型诱导奖励(简称LLMR)的影响(以下简称LLMR)。作者首先根据广泛采用的假设Chan和Van Der Schaar(2021);Ramachandran和Amir(2007);Ziebart等人(2008)从大型语言模型的策略(预测概率)中诱导出Q值函数,然后进一步根据贝尔曼最优性方程Sutton等人(1999)来诱导奖励函数,这一过程符合作者最近关于策略与奖励之间关系的理论分析Hao等人(2022)。

诱导出的奖励函数随后用于将大型语言模型的知识蒸馏到学生模型中,通过从学生预测分布中采样候选序列并使用大型语言模型诱导奖励进行策略梯度学习Williams(1992)来评估。这样,作者提出的LLMR蒸馏方法允许学生模型在强化学习中以自主方式进行探索,从而减轻了暴露偏差问题。

作者在两种文本生成任务上进行了实验:对话生成和文本摘要。实验结果表明,作者的LLMR方法在传统的基于交叉熵损失的KD方法上取得了显著的性能提升。作者进一步定量分析了学生模型的暴露偏差,验证了强化学习确实在KD过程中减轻了由于暴露偏差而产生的问题。

2 相关工作

知识蒸馏(KD)在降低大型神经网络的计算和内存需求的同时保持高性能方面非常有效。常见的KD方法包括匹配输出分布Hinton等人(2015);Wu等人(2023)和匹配中间层表示Romero等人(2015);Polino等人(2018);Sun等人(2019)。

KD(知识蒸馏)已经被应用于序列级知识提取以训练文本生成模型(如Kim和Rush(2016);Wen等人(2024)以及West等人(2022))。通常,学生通过交叉熵损失逐步学习于老师。然而,这种方法可能会遭受Ranzato等人(2016)的暴露偏差。研究行人已经提出了反向KL散度Tu等人(2020);Gu等人(2024)和广义J散度Wen等人(2023b)损失,这种损失涉及学生采样,但仍然遵循传统KD的精神,即逐步将学生的分布推至教师的分布。相反,在作者的LLMR方法中,老师只对一个学生采样的序列进行评分,这使得KD过程在更多探索的机会。

强化学习(RL)已在文本生成中得到广泛应用,特别是用于减轻暴露偏差Ranzato等人(2016);Gu等人(2024)。一个关键的设计选择是奖励函数,在以前的工作中,通常由具有 GT 序列Sokolov等人(2016);Pang和He(2021)或训练好的奖励模型Bahdanau等人(2017);Paulus等人(2018)给出。作者的LLMR方法遵循之前的工作,但直接从预训练的LLM中以原则性和任务无关的方式生成奖励函数。

3 Approach

基于强化学习的知识蒸馏(KD)。 作者导出的奖励函数允许作者进行强化学习(RL)以实现KD。具体来说,从学生的预测

中采样一个序列,其中每

总体而言,作者的基于策略学习的对抗知识蒸馏与传统的基于序列 Level 的对抗知识蒸馏不同,后者是教师用其本身的预测统一地指导,即

。相反,作者允许学生生成自己的预测,并让LLM通过评估学生输出的“好坏”来进行指导。这样,作者的方法在一定程度上缓解了暴露偏见问题,因为在训练过程中,学生对自己的部分预测是 aware 的。与基于策略学习的文本生成经典方法相比,作者不需要使用基于启发式设计的奖励函数Bahdanau等人(2017年); Shen等人(2016年)或 Ouyang等人(2022年); Ziegler等人(2019年)的人类反馈奖励模型。

4 Experiments

作者的工作涉及无监督知识蒸馏,其中的训练过程仅使用 未标注 的输入句子,没有地面真相参考。在验证和测试阶段,地面真相用于标准评估指标:BLEU(对话生成)Papineni等人(2002)、ROUGE(综合理解生成)Lin(2004)。

主要结果. 表1展示了作者的模型和 Baseline 的性能。如所看到,教师模型(第1行)在这些任务上实现了相当的表现。这些结果稍微低于或与以前文献中报告的有监督方法的结果相当,例如DailyDialog的8.96 BLEU2 [19] 和 CNN/DailyMail 的39.5 ROUGE-1 [20]。这是因为作者的教师直接为任务提示,而没有进行微调。另一方面,对学生的提示(第2行)并未产生有意义的表现,这与扩展效应[17,16,15]的一致发现相符。强大的教师和弱的学生共同为作者的蒸馏研究奠定了合理的基础。

第3至第7行呈现了不同蒸馏方法的表现,显示了知识蒸馏可以将教师的知识转移到学生。在不同的蒸馏方法中,SeqKD[17]利用难以的样本训练学生,并达到了与教师相同的表现;特别是,它在DailyDialog上超越了教师,这可以解释为平滑教师(未微调的提示系统)的噪声。作者还实验了基于各种-散度函数的软蒸馏,包括Kullback-Leibler(KL),反Kullback-Leibler(RKL),和Jenson-Shannon(JS)散度[15]。如所看到,结果并不完全一致,尽管JS在通常情况下表现得更好。

作者的LLMR(第7行)是基于由教师模型生成的奖励函数进行强化学习的。它在每个指标和所有数据集中都表现出优越的性能,始终证明了作者方法的有效性。

多样性分析. 输出文本的多样性被认为是文本生成系统的

不同n元文法数为,总体n元文法数为。如表2所示,KL损失实现了较低的值,这与以往证据一致,表明KL训练生成了无趣和较短的发音 [15,16]。相比之下,作者的LLMR实现了较高的值,这证明了作者的RL机制允许模型探索句子空间的不同区域,从而产生更多样的输出。

暴露偏差分析。如SS1中所述,作者的LLMR采用RL,并且应在知识蒸馏过程中减轻暴露偏差

总的来说,ExError%度量了学生轨迹跟踪与教师轨迹跟踪比较时的超误差百分比。通常情况下,ExError%为正,且值越高表示暴露偏差越大。由于KL背离量没有上界,ExError%可以超过100%。

如图2所示,基于KL和RKL的KD方法产生了高曝光偏差,这可以预测,因为KL和RKL散度函数是对称的,它们并没有将学生推向教师。JS散度函数是对称的,JS基KD需要教师和学生采样。在开始时,ExError%保持较低,但当序列变长时会开始增长。作者的LLMR方法采用了RL训练,并在不同长度的序列上都实现了低ExError%。实验证实了作者的方法可以减轻曝光偏差,并在主要结果中解释了性能提升。

5 Conclusion

在本文中,作者提出了一种新颖的知识蒸馏方法LLMR,该方法基于大型语言模型诱导的奖励函数。对话生成和文本摘要实验表明,作者的方法在各种指标上超过了先前的KD方法。作者还进行了一项详细的分析,以验证作者的基于强化学习的法

参考

[1].LLMR: Knowledge Distillation with a Large Language Model-Induced Reward.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过 700 star。
机器之心
2025/05/02
740
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《Reasoning From Scratch》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。
机器之心
2025/05/04
280
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
每周AI论文速递(250210-250214)
我们研究了一种新型的语言模型架构,该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块,在测试时可以展开到任意深度。这与主流的推理模型不同,后者是通过生成更多 Token 来扩展计算能力的。与基于思维链的方法不同,我们不需要任何专门训练的数据,并能够使用小上下文窗口,还可以捕捉那些无法轻易用语言表示的推理类型。我们将一个概念验证模型调整到了 35 亿个参数和 800 亿个 Token 规模。结果表明,该模型在推理基准测试上可以提升性能,有时甚至显著增强,相当于增加了 50 亿个参数的计算负载。
叶子的技术碎碎念
2025/04/08
720
每周AI论文速递(250210-250214)
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
物理AI系统需要在物理世界中感知、理解和执行复杂的动作。本文介绍了Cosmos-Reason1模型,该模型能够通过长期推理过程理解物理世界,并以自然语言生成适当的具身决策(例如,下一步行动)。
未来先知
2025/04/18
1020
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.2K0
深入了解Deepseek模型的最佳三篇论文
总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述
大语言模型(Large Language Models, LLMs)在过去两年内迅速发展,涌现出一些现象级的模型和产品,如 GPT-4、Gemini、Claude 等,但大多数是闭源的。研究界目前能接触到的大部分开源 LLMs 与闭源 LLMs 存在较大差距,因此提升开源 LLMs 及其他小模型的能力以减小其与闭源大模型的差距成为了该领域的研究热点。
机器之心
2024/03/18
6480
总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述
港科技提出 FedCoLLM:一种用于大、小语言模型的参数高效联合共调优框架 !
大语言模型(LLMs)的出现极大地改变了人工智能的格局。特别是像GPT-4这样的尖端LLM由于在自然语言生成任务上表现出卓越的性能,而引起了广泛关注。这一发展推动了高性能开源LLM的发布,如LaMDA [18],OPT [21],极大地促进了LLM技术的商业应用。尽管LLM在各种通用NLP任务中取得了广泛的成功,但它们在特定领域应用中仍面临一些限制。主要挑战包括:
AIGC 先锋科技
2024/12/19
1940
港科技提出 FedCoLLM:一种用于大、小语言模型的参数高效联合共调优框架 !
执行推理时能对齐语言模型吗?谷歌InfAlign带来一种对齐新思路
在根据某个奖励微调生成式语言模型时,使用 KL 正则化的强化学习(KL-RL)来对齐生成式语言模型是一种常用框架。而 KL-RL 通常需要训练一个奖励模型,然后使用一个强化学习求解器。其它方法还包括直接偏好优化、奖励模型蒸馏、best-of-N 蒸馏的不同变体版本。
机器之心
2025/02/03
520
执行推理时能对齐语言模型吗?谷歌InfAlign带来一种对齐新思路
白话科普 | DeepSeek的蒸馏技术到底是什么?90%的人都没搞懂,但西方却抓着不放!
在人工智能领域,大型语言模型(LLM)无疑是近年来最耀眼的技术突破之一。然而,这些拥有数百亿甚至上千亿参数的庞然大物,虽然性能卓越,却也因其高昂的计算成本和资源需求而难以普及。如何让这些“巨无霸”级别的模型走进千家万户?答案就在于一种被称为知识蒸馏的技术。
AI研思录
2025/02/20
3700
白话科普 | DeepSeek的蒸馏技术到底是什么?90%的人都没搞懂,但西方却抓着不放!
DeepSeek 背后的数学原理:深入探究群体相对策略优化 (GRPO)
群体相对策略优化 (GRPO,Group Relative Policy Optimization) 是一种强化学习 (RL) 算法,专门用于增强大型语言模型 (LLM) 中的推理能力。与严重依赖外部评估模型(价值函数)指导学习的传统 RL 方法不同,GRPO 通过评估彼此相关的响应组来优化模型。这种方法可以提高训练效率,使 GRPO 成为需要复杂问题解决和长链思维的推理任务的理想选择。
致Great
2025/02/12
1.7K0
DeepSeek 背后的数学原理:深入探究群体相对策略优化 (GRPO)
大模型的模型压缩与有效推理综述
本文对大型语言模型的压缩和效率推理进行了综述。大型语言模型基于Transformer架构,具有强大的性能,但也带来了巨大的内存和计算成本。本文从算法角度对大型语言模型的压缩和效率推理方法进行了分类,包括量化、剪枝、知识蒸馏、紧凑架构设计和动态网络。大型语言模型有两个显著特点:
算法进阶
2024/07/10
6270
大模型的模型压缩与有效推理综述
探索DeepSeek:从核心技术到应用场景的全面解读
本文将全面了解DeepSeek的前世今生,文从DeepSeek模型论文和理论数学公式推理为依据,部分设计到复杂数学计算将以通俗易懂的案例解答理解,因此本文适用于刚刚入门DeepSeek探索的新手和想要了解DeepSeek但数学能力又不是很强的朋友,门槛较低。为做到写作全面本文篇幅可能较长,因此本文付出笔者诸多心血,希望大家诸多支持,随时欢迎讨论观点看法和落地运用。本文将从技术创新的角度,我们将深入探讨DeepSeek主流模型的核心优势,并与其他主流大模型进行对比;接着,我们将回顾DeepSeek的成长历程,揭秘它的核心逻辑和成功的关键;随后,我们将聚焦于DeepSeek在大模型蒸馏和实践中的应用;并分享一些实际场景的部署指南和使用技巧;最后,展望DeepSeek在未来AI领域的潜力与发展。
fanstuck
2025/02/18
4.7K6
探索DeepSeek:从核心技术到应用场景的全面解读
颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!
尤其在专业搜索场景(如文献、数据库查询)中,用户往往无法用精确、完整的表达描述他们的需求。
机器之心
2025/04/09
1260
颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!
推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。
致Great
2025/03/10
1960
推理大模型的后训练增强技术-强化学习篇
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
这会是 DeepSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。
机器之心
2025/04/05
1100
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
每周AI论文速递(250203-250207)
测试时间缩放是一种创新的语言建模方法,通过额外的计算资源提升模型性能。近期,OpenAI 的 o1 模型展示了这一技术潜力,但其具体实现细节尚未公开,引发了学术界的广泛关注和复现工作。 本研究旨在探索实现高效推理的最佳实践方案。首先,我们构建了一个高质量数据集 s1K,包含 1,000 个典型问题样本,每个样本都配备完整的推理轨迹。这些数据经过严格筛选,确保在难度、多样性和质量方面达到最优平衡。 在此基础上,我们提出了一种新型预算管理机制——预算强制算法。该方法通过动态调整计算资源,在模型生成过程中实现自动优化:当检测到模型输出接近完成时,系统会智能选择是继续推理还是终止过程,从而有效提升结果质量。 实验结果表明,采用这一改进方案后,模型在数学推理任务中的表现显著提升,在 MATH 和 AIME24 数据集上较 o1- preview 基线最高提升了 27%。进一步的扩展测试显示,通过优化预算管理策略,模型性能还可继续提升:AIME24 测试中准确率从 50% 提升至 57%。 该研究全部成果已开源发布,包括完整代码、数据集和实验配置,助力学术界共同推进相关研究工作。访问 https://github.com/simplescaling/s1 即可获取全部资料。 本研究的成功表明,在保持计算效率的同时实现性能提升是完全可行的,为未来语言模型优化提供了新的思路和方法论参考。
叶子的技术碎碎念
2025/04/08
500
每周AI论文速递(250203-250207)
每日论文速递 | 通过Token-level的Feedback进行强化学习控制文本生成
摘要:为了满足实际应用的要求,控制大型语言模型(LLM)的生成至关重要。之前的研究试图将强化学习(RL)引入可控文本生成,而大多数现有方法都存在过拟合问题(基于微调的方法)或语义崩溃(后处理方法)。然而,目前的强化学习方法一般由粗粒度(句子/段落级)反馈指导,这可能会由于句子内部的语义扭曲或进展而导致性能不佳。为了解决这个问题,我们提出了一种名为 TOLE 的新型强化学习算法,它为可控文本生成制定了 TOken-LEvel 奖励,并采用 "first-quantize-then-noise" "先量化后噪声 "的范式来增强 RL 算法的鲁棒性。实验结果表明,我们的算法在单属性和多属性控制任务上都能取得优异的性能。
zenRRan
2024/03/26
6190
每日论文速递 | 通过Token-level的Feedback进行强化学习控制文本生成
强化学习也有基础模型了!DeepMind重磅发布AdA,堪比人类的新环境适应能力
---- 新智元报道   编辑:LRS 【新智元导读】强化学习也要进入预训练时代了! 基础模型(foundation models)在监督和自监督学习问题上展现出强大的领域适应性(adaption)和可扩展性(scalability),但强化学习领域仍然没有基础模型。 最近DeepMind的Adaptive Agents团队提出了一种人-时间尺度(human-timescale)自适应智能体AdA(Adaptive Agent),证明经过大规模训练后的RL智能体也能具有通用上下文的学习能力,该算法可以
新智元
2023/02/24
5230
强化学习也有基础模型了!DeepMind重磅发布AdA,堪比人类的新环境适应能力
HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型
LLM 在许多生成任务上表现出色。然而,直到最近,它们还在解决需要推理的复杂问题上举步维艰。例如,它们很难处理需要多步推理的谜题或数学问题。
致Great
2025/03/05
3460
HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型
DeepSeek R1架构和训练过程图解
因此,在介绍技术细节之前,快速概览一下:DeepSeek-R1 不是从头开始训练的,就像从无到有一样。相反,他们从一个非常聪明的 LLM 开始,他们已经有了 DeepSeek-V3,但他们想让它成为推理超级明星。
IT小马哥
2025/02/12
2.2K0
DeepSeek R1架构和训练过程图解
推荐阅读
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
740
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
280
每周AI论文速递(250210-250214)
720
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
1020
深入了解Deepseek模型的最佳三篇论文
1.2K0
总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述
6480
港科技提出 FedCoLLM:一种用于大、小语言模型的参数高效联合共调优框架 !
1940
执行推理时能对齐语言模型吗?谷歌InfAlign带来一种对齐新思路
520
白话科普 | DeepSeek的蒸馏技术到底是什么?90%的人都没搞懂,但西方却抓着不放!
3700
DeepSeek 背后的数学原理:深入探究群体相对策略优化 (GRPO)
1.7K0
大模型的模型压缩与有效推理综述
6270
探索DeepSeek:从核心技术到应用场景的全面解读
4.7K6
颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!
1260
推理大模型的后训练增强技术-强化学习篇
1960
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
1100
每周AI论文速递(250203-250207)
500
每日论文速递 | 通过Token-level的Feedback进行强化学习控制文本生成
6190
强化学习也有基础模型了!DeepMind重磅发布AdA,堪比人类的新环境适应能力
5230
HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型
3460
DeepSeek R1架构和训练过程图解
2.2K0
相关推荐
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档