前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >惊人!MIT & 微软| 提出高效LLM剪枝方法LASER:无额外训练,且性能提升30%!

惊人!MIT & 微软| 提出高效LLM剪枝方法LASER:无额外训练,且性能提升30%!

作者头像
ShuYini
发布2023-12-28 14:20:18
3030
发布2023-12-28 14:20:18
举报
文章被收录于专栏:自然语言处理(NLP)论文速递

引言

基于Transformer 的大型语言模型 (LLM) 已成为现代机器学习的主流。为进一步推动大模型技术的发展,大量资源被投入其中,根据越来越多的数据进行训练这通常会导致模型规模不断增大。「面对算力的限制,能否做到无需额外训练,还能缩小模型规模,并且能够提升模型性能呢」

面对这不可能完成的挑战,MIT的研究却得出了惊人的发现,即选择性地去除权重矩阵的高阶分量,可以显着提高 LLM 的性能。这种干预,本文称为层选择性降阶(LASER),它可以在训练完的模型上进行,并且不需要额外的参数或数据,并且最高可提升模型性能30%!

Paper:https://arxiv.org/pdf/2312.13558.pdf

Code:https://pratyushasharma.github.io/laser/

背景介绍

基于Transformer的大型语言模型(LLMs)自首次发布以来,在多项重要机器学习任务上表现出卓越的能力。它们底层的Transformer架构已成为自然语言建模和推理的最先进技术,在计算机视觉和强化学习等领域也显示出了潜在的应用前景。

当代的Transformer架构实例因其规模巨大而限制了它们的应用,并且在训练和推理过程中需要庞大的计算资源。但由于使用更多的数据参数进行训练的Transformer明显比传统Transformer更具优势。然而,越来越多的研究表明,「基于Transformer的模型并不需要所有的拟合参数来保留它们学到的知识」

尽管在训练时过度参数化似乎是有帮助的,但众所周知,在推理之前可以大幅度剪枝这些模型;神经网络往往可以移除超过90%的权重而不会明显降低性能。这一现象的发现增强了人们对泛化和过度参数化之间关系的兴趣,并引发了对能够支持高效模型推理的剪枝策略的研究。

LASER

基于以上背景,MIT研究人员对此进行了深入的研究,并且发现了一个令人惊讶的结果。即在Transformer模型的特定层级上进行精细的剪枝可以显著提升某些任务的性能。本文称之为LAyer SElective Rank reduction(LASER),这是一种通过奇异值分解识别学习权重矩阵高阶分量并移除它们的方法。这种降维操作在Transformer模型的特定权重矩阵和层级中进行。下图直观地展示了Transformer 架构和 LASER 遵循的操作。

image-20231225174604235

「LASER(LAyer SElective Rank reduction)干预方法」单步LASER干预由三个量

(τ,ℓ,ρ)

定义,包括参数类型

τ

、层编号

和降秩

ρ

。这些值共同描述了将由它们的低秩近似替换哪个矩阵,以及这种近似将有多严重。参数类型用于分类我们将要干预的矩阵类型。

这里关注的是

W = \{W_q, W_k, W_v, W_o, U_{\text{in}}, U_{\text{out}}\}

中的矩阵,这些矩阵包括MLP和注意力层中的矩阵。层编号描述了进行干预的层(第一层的索引为0)。例如,Llama-2有32层,因此

ℓ ∈ {0, 1, 2, · · · 31}

。最后,

ρ ∈ [0, 1)

描述了在进行低秩近似时应保留的最大秩的分数。例如,设

\tau =U_{in}\in R^{d\times d }

则该矩阵的最大秩为d,用秩

⌊ρ · d⌋

近似替换它。

上图展示了LASER的一个示例。在这个图中

τ = U_{in}

ℓ = L

,表示更新L层Transformer块中MLP的第一层的权重矩阵。另一个参数(图中未显示)控制秩-k近似中的k。

LASER调节网络中某些信息的流动,令人惊讶的是这可以产生显著的性能提升。这些干预也可以轻松组合,我们可以以任何顺序应用一组干预

\{(τ_i, ℓ_i, ρ_i)\}^m_{i=1}

。LASER方法简单地搜索这种类型的干预,并执行提供最大利益的修改。然而,其实还有许多其他方法可以组合这些干预。

与先前的研究一致,本文发现许多这样的矩阵可以显著降维,而「性能下降通常要在超过90%的分量被完全移除之后才能观察到」;然而,与先前的研究不同的是,本文发现这些降维操作可以在推理基准测试中产生显著的准确性提升;更令人惊讶的是,这一发现似乎不仅限于自然语言处理,而且在强化学习中取得了性能增益。

本文分析了模型的训练数据和从LASER中受益的样本之间的关系。发现模型性能的提升主要出现在模型训练数据中出现频率较低的信息上,这表明LASER提供了一种去噪过程,使得弱学习的事实变得可访问。另外还观察到,LASER对以前正确问题的释义具有更高的鲁棒性。

此外,本文尝试推理关于高阶分量中存储了什么内容,以及它们的移除如何提升性能。对于仅在LASER后才正确回答的问题,在没有干预的情况下,原始模型主要以高频词汇如“the”、“of”等回答,这些生成甚至不是正确答案的相同语义类型。然而,在进行了一定程度的降维后,模型的回答变为正确。

为了解释上述现象,本文了剩余分量独立编码的内容;仅使用其高阶奇异向量来近似权重矩阵。实验发现这些分量要么描述了与正确答案相同语义类别的不同响应,要么是通用的高频词汇。显然,当嘈杂的高阶分量与低阶分量相结合时,它们的冲突响应产生了一种“平均答案”,很可能是不正确。

实验结果

下图显示了3个不同大小的不同模型和 8 个不同数据集的改进,评估了 LLM 推理、事实性、世界知识等,可以发现由此产生的模型对于解释问题也更加稳健。

image-20231225175242005

同时在多层上执行 LASER 进一步增强了模型性能,超越了 LASER 单层应用所带来的改进。有时,超过模型原始性能的 2 倍!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 背景介绍
  • LASER
  • 实验结果
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档