大型语言模型 increasingly 流行,并在各种自然语言处理(NLP)任务上表现出显著性能。然而,这些模型通常计算消耗较大,难以在资源受限的环境中部署。 在本文中,作者提出了一种新的知识蒸馏(KD)方法,LLMR,该方法基于大语言模型诱导的奖励函数。 作者在对话生成和总结任务等多个数据集上进行了实验。 实验结果表明,作者的 LLMR 方法在不同的任务和数据集上,始终优于传统的 KD 方法。
大型语言模型(LLMs)已在各种文本生成任务上取得了显著的性能,如摘要(Ahmed和Devanbu,2022)、对话系统。此外,这种方法可以实现零样本学习,即用户输入一个自然语言提示并使LLM为任务生成所期望的输出(Brown等人,2020)。
然而,LLM也带来了显著的挑战。例如,GPT-3模型具有1750亿个参数,这是资源密集型的,需要大量的计算能力和内存。这可能阻碍了在资源有限的环境中的实际应用。
因此,知识蒸馏(KD)成为LLM的一个日益重要的研究方向的知识转移到更小、更高效的学生模型(称为“学生”)。通常,这通过从教师预测的句子或分布中训练学生来实现(Kim和Rush,2016)。然而,它存在固有的限制:在训练过程中,学生学会根据教师的先前预测来预测下一个词,而在推理过程中,学生必须根据其自己的先前预测来实现此目标。这种差异被称为“暴露偏差”,并通常导致性能降低。
在本文中,作者提出了一种新颖的知识蒸馏方法,该方法基于强化学习,且受大型语言模型诱导奖励(简称LLMR)的影响(以下简称LLMR)。作者首先根据广泛采用的假设Chan和Van Der Schaar(2021);Ramachandran和Amir(2007);Ziebart等人(2008)从大型语言模型的策略(预测概率)中诱导出Q值函数,然后进一步根据贝尔曼最优性方程Sutton等人(1999)来诱导奖励函数,这一过程符合作者最近关于策略与奖励之间关系的理论分析Hao等人(2022)。
诱导出的奖励函数随后用于将大型语言模型的知识蒸馏到学生模型中,通过从学生预测分布中采样候选序列并使用大型语言模型诱导奖励进行策略梯度学习Williams(1992)来评估。这样,作者提出的LLMR蒸馏方法允许学生模型在强化学习中以自主方式进行探索,从而减轻了暴露偏差问题。
作者在两种文本生成任务上进行了实验:对话生成和文本摘要。实验结果表明,作者的LLMR方法在传统的基于交叉熵损失的KD方法上取得了显著的性能提升。作者进一步定量分析了学生模型的暴露偏差,验证了强化学习确实在KD过程中减轻了由于暴露偏差而产生的问题。
知识蒸馏(KD)在降低大型神经网络的计算和内存需求的同时保持高性能方面非常有效。常见的KD方法包括匹配输出分布Hinton等人(2015);Wu等人(2023)和匹配中间层表示Romero等人(2015);Polino等人(2018);Sun等人(2019)。
KD(知识蒸馏)已经被应用于序列级知识提取以训练文本生成模型(如Kim和Rush(2016);Wen等人(2024)以及West等人(2022))。通常,学生通过交叉熵损失逐步学习于老师。然而,这种方法可能会遭受Ranzato等人(2016)的暴露偏差。研究行人已经提出了反向KL散度Tu等人(2020);Gu等人(2024)和广义J散度Wen等人(2023b)损失,这种损失涉及学生采样,但仍然遵循传统KD的精神,即逐步将学生的分布推至教师的分布。相反,在作者的LLMR方法中,老师只对一个学生采样的序列进行评分,这使得KD过程在更多探索的机会。
强化学习(RL)已在文本生成中得到广泛应用,特别是用于减轻暴露偏差Ranzato等人(2016);Gu等人(2024)。一个关键的设计选择是奖励函数,在以前的工作中,通常由具有 GT 序列Sokolov等人(2016);Pang和He(2021)或训练好的奖励模型Bahdanau等人(2017);Paulus等人(2018)给出。作者的LLMR方法遵循之前的工作,但直接从预训练的LLM中以原则性和任务无关的方式生成奖励函数。
基于强化学习的知识蒸馏(KD)。 作者导出的奖励函数允许作者进行强化学习(RL)以实现KD。具体来说,从学生的预测
中采样一个序列,其中每
总体而言,作者的基于策略学习的对抗知识蒸馏与传统的基于序列 Level 的对抗知识蒸馏不同,后者是教师用其本身的预测统一地指导,即
。相反,作者允许学生生成自己的预测,并让LLM通过评估学生输出的“好坏”来进行指导。这样,作者的方法在一定程度上缓解了暴露偏见问题,因为在训练过程中,学生对自己的部分预测是 aware 的。与基于策略学习的文本生成经典方法相比,作者不需要使用基于启发式设计的奖励函数Bahdanau等人(2017年); Shen等人(2016年)或 Ouyang等人(2022年); Ziegler等人(2019年)的人类反馈奖励模型。
作者的工作涉及无监督知识蒸馏,其中的训练过程仅使用 未标注 的输入句子,没有地面真相参考。在验证和测试阶段,地面真相用于标准评估指标:BLEU(对话生成)Papineni等人(2002)、ROUGE(综合理解生成)Lin(2004)。
主要结果. 表1展示了作者的模型和 Baseline 的性能。如所看到,教师模型(第1行)在这些任务上实现了相当的表现。这些结果稍微低于或与以前文献中报告的有监督方法的结果相当,例如DailyDialog的8.96 BLEU2 [19] 和 CNN/DailyMail 的39.5 ROUGE-1 [20]。这是因为作者的教师直接为任务提示,而没有进行微调。另一方面,对学生的提示(第2行)并未产生有意义的表现,这与扩展效应[17,16,15]的一致发现相符。强大的教师和弱的学生共同为作者的蒸馏研究奠定了合理的基础。
第3至第7行呈现了不同蒸馏方法的表现,显示了知识蒸馏可以将教师的知识转移到学生。在不同的蒸馏方法中,SeqKD[17]利用难以的样本训练学生,并达到了与教师相同的表现;特别是,它在DailyDialog上超越了教师,这可以解释为平滑教师(未微调的提示系统)的噪声。作者还实验了基于各种-散度函数的软蒸馏,包括Kullback-Leibler(KL),反Kullback-Leibler(RKL),和Jenson-Shannon(JS)散度[15]。如所看到,结果并不完全一致,尽管JS在通常情况下表现得更好。
作者的LLMR(第7行)是基于由教师模型生成的奖励函数进行强化学习的。它在每个指标和所有数据集中都表现出优越的性能,始终证明了作者方法的有效性。
多样性分析. 输出文本的多样性被认为是文本生成系统的
不同n元文法数为,总体n元文法数为。如表2所示,KL损失实现了较低的值,这与以往证据一致,表明KL训练生成了无趣和较短的发音 [15,16]。相比之下,作者的LLMR实现了较高的值,这证明了作者的RL机制允许模型探索句子空间的不同区域,从而产生更多样的输出。
暴露偏差分析。如SS1中所述,作者的LLMR采用RL,并且应在知识蒸馏过程中减轻暴露偏差
总的来说,ExError%度量了学生轨迹跟踪与教师轨迹跟踪比较时的超误差百分比。通常情况下,ExError%为正,且值越高表示暴露偏差越大。由于KL背离量没有上界,ExError%可以超过100%。
如图2所示,基于KL和RKL的KD方法产生了高曝光偏差,这可以预测,因为KL和RKL散度函数是对称的,它们并没有将学生推向教师。JS散度函数是对称的,JS基KD需要教师和学生采样。在开始时,ExError%保持较低,但当序列变长时会开始增长。作者的LLMR方法采用了RL训练,并在不同长度的序列上都实现了低ExError%。实验证实了作者的方法可以减轻曝光偏差,并在主要结果中解释了性能提升。
在本文中,作者提出了一种新颖的知识蒸馏方法LLMR,该方法基于大型语言模型诱导的奖励函数。对话生成和文本摘要实验表明,作者的方法在各种指标上超过了先前的KD方法。作者还进行了一项详细的分析,以验证作者的基于强化学习的法
[1].LLMR: Knowledge Distillation with a Large Language Model-Induced Reward.