Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >澜舟科技新突破:大模型实现“持续学习”,应用成本大幅降低

澜舟科技新突破:大模型实现“持续学习”,应用成本大幅降低

原创
作者头像
澜舟科技
发布于 2024-10-17 09:31:53
发布于 2024-10-17 09:31:53
3270
举报

研究背景

近年来,随着计算能力和规模的持续增强,大语言模型(LLMs)的性能得到了显著提升。这些模型通过海量数据的预训练,能够成功捕捉到语言的复杂结构和深层语义信息,从而在多种语言任务上取得突破性的成绩。在这个过程中,Scaling Law发挥了至关重要的作用,它帮助研究者理解了模型规模、数据量以及模型性能之间的内在联系,为模型的优化和资源的高效分配提供了理论指导。

然而,从头训练大语言模型往往需要消耗巨大的计算资源。面对日新月异的世界知识和广泛多样的应用场景,如何让大语言模型(LLMs)持续学习新知识以降低应用成本,已成为一个亟待解决且尚未被充分探索的问题。针对这一难题,澜舟科技大模型团队深入研究了持续预训练(Continual Pre-Training,简称CPT)场景下LLMs scaling的特性,并提出了适用于持续训练场景下的Scaling Law。此外,团队还就如何解决持续学习过程中的灾难性遗忘、如何量化知识迁移的规模以及如何选择合理的知识迁移顺序等关键问题进行了探索。

本次研究的相关工作已经作为长文被EMNLP 2024 Main Conference录取,完整论文详情可点击:https://arxiv.org/pdf/2407.02118

研究方法

实验设置

我们将不同的语言视为独立的知识领域,引导大语言模型依次学习英语、汉语、法语、德语、俄语等多种语言。以英语和汉语为例,我们首先让模型在英语语料上进行充分训练,随后转移到汉语预料上继续学习。在此基础上,我们训练了一系列包含40个不同大小(从50M到5B)的模型,并观察这些模型在新知识学习速度、收敛效果以及对旧知识的遗忘程度等方面的表现。所有模型均采用Decoder-Only Transformer架构,并使用了RMSNorm,MQA,ROPE等结构改进。

我们的训练数据由开源数据构成,包括RedPajama、Common Crawl等,经过精心设计的处理流程:

  • 首先,通过结合基于规则和模型的双重过滤机制,确保数据质量;
  • 其次,实施语言与来源的双重筛选,精确定位所需信息;
  • 最后,采用基于基于min-hash做篇章级去重,以及基于embedding做句子级去重,有效消除冗余。

在此基础上,我们使用BPE算法在经过构建的语料上训练tokenizer。

为了保证模型能够充分训练,我们参考Chinchilla(Hoffmann et al., 2022)的策略,为每个模型分配相当于其参数规模20倍的训练数据量。在训练过程中,我们使用deepspeed进行分布式训练,并部署了200张A100进行实验,以加速训练过程并提升模型性能。

实验结果

图1:实验结果汇总

图1实验结果:左图汇总了整体实验结果,其中,红色曲线表示从随机初始化学习汉语的loss变化,蓝色曲线表示相同大小的模型经过英语学习后,继续学习汉语的loss变化,右图放大了一个大小为2B的模型的学习情况。

从图中我们可以观察到,不论是从头开始训练,还是基于已有模型继续训练,模型效果(Validation Loss)、计算资源消耗(FLOPS)及模型大小之间均呈现出幂律(Power Law)的关系。其中,继续训练的模型(蓝色曲线,简称CPT model)在收敛速度上要显著优于不包含任何知识基础的同尺寸模型,其能在训练初始阶段,可以更快地收敛到相同的loss。

如图1(右)所示,CPT model仅需要10%的计算资源就可以达到从零开始的模型效果,即便是在整体训练接近完成时,CPT model也仅需要50%的计算就能达到从零训练相同的模型效果。这也就说明,大模型在具备一定的知识基础后,学习新技能的速度和效果都会变得更好。

CPT Scaling Law

为了更加科学地指导大语言模型(LLMs)进行持续学习,我们研究了CPT场景下的Scaling Law,我们从图1观察到CPT模型的scaling曲线同从零开始预训练(Pre-training from Scratch)类似,并且两者之间存在着一个同模型大小N相关的差异值,因此,我们提出拓展Chinchilla(Hoffmann et al., 2022)中的原始Scaling Law,用于刻画持续学习场景下的Model Scaling:

其中,N表示模型大小,D表示训练数据量(token数),E,A,B等都是学习的参数,相比原始Scaling Law,我们引入了知识迁移项 N^\lambda,用于刻画模型在持续学习过程中的知识迁移量,这一知识迁移项同模型大小有关,也就是说,越大的模型,所能迁移的知识量(token数)就越高。

为了学习参数E、A、B等,我们采用最小化预测loss和观测loss之间的Huber loss方法。首先,我们使用原始Scaling Law公式拟合从零训练的的参数,并将这些学习到的参数作为初始化值。随后,我们基于这些初始化值,进一步学习CPT Scaling Law中的新参数。我们使用Optuna库进行超参数搜索,并使用L-BFGS算法进行局部最优搜索,以找到最佳的超参数,最终学习到的参数如下:

表1:CPT scaling law参数

相较于原始Scaling Law,在继续训练场景中,模型对先前学习内容的敏感度和重视程度显著增加。这也说明,大语言模型(LLMs)在持续学习中展现出的潜力,一旦其应用场景业务和数据反馈形成闭环,通过多次循环迭代,模型就可以得到更进一步的提升。

灾难性遗忘

在持续学习场景中,灾难性遗忘是另一个不容忽视的问题。为了缓解这一问题,常见的解决方案是通过回放(replaying)一部分训练数据来达到缓解灾难性遗忘。我们以一个1.4B大小的模型为例,研究了回放数据规模(token数)和模型效果之间的关系,如下图2所示:

图2:LLMs的遗忘问题和数据回放的影响。

在图2(左)中,红色曲线展示了模型在初始阶段学习英语时的loss变化情况,图2(右)蓝色曲线则反映了模型在学习完英语后继续学习汉语的loss变化情况。为了探究在继续学习汉语过程中,不同比例的英语数据回放对模型效果的影响,我们观察了模型在学习汉语后,在英文数据上的validation loss(左图中的蓝色曲线,作为衡量遗忘程度的指标)。

我们发现,在没有任何回放的情况下,大语言模型(LLMs)虽然能在汉语上很快收敛,但是会很快遗忘所学习到的英文知识。然后。通过加大回放数据的比例,可以显著改善模型对于英文数据的遗忘问题。并且,随着足够多的训练,不同的回放比例都可以在新知识(汉语)上达到相似的收敛效果。此外,不论回放比例如何,模型在持续学习过程中都需要经历对原始知识的遗忘和加深记忆的过程(如左图蓝色曲线所示),这也就说明大语言模型(LLMs)需要首先打破对过去知识的固有记忆,然后将新知识和老知识融会贯通,找到一个新的途径来理解(压缩)这些信息。

CPT中的知识迁移

图3:CPT中的知识和算力迁移

通过将CPT Scaling Law与原始Scaling Law进行相减,我们就可以清楚了解在持续学习过程中算力(FLOPS)的复用情况以及知识的迁移规模(token数),结果如图3(左)所示。我们发现,持续学习策略可以节省25%-50%的计算资源,特别是在资源受限的场景下,采用这种策略可以大大降低大语言模型(LLMs)的开发成本。

图3(右)展示了知识迁移情况,我们发现,对于不同尺寸的模型来说,原始知识学习的越牢固(见过的数据越多),所能迁移的知识量就越多,两者基本上具备线性关系;同时,模型尺寸越大,其天然具备的知识迁移能力越强。

图4:不同知识对迁移效果的影响。

此外,在持续学习过程中,知识之间的关联性也扮演着重要的角色。图4展现了一个1.4B的模型,在学习英文后,继续在法语、俄语和汉语上训练的效果变化。我们发现,虽然继续训练总能提升模型在目标领域上的效果,但是新知识同旧知识的关联程度对模型效果提升有显著影响,具体而言,新旧知识关联性越强,模型效果的提升幅度越大。

总结

在这篇论文中,我们深入探索了大语言模型的持续预训练(CPT)问题,系统分析了其基本原理、影响因素和最佳实践。通过对不同规模、语言分布和训练条件的多个大型语言模型(LLMs)进行训练,我们成功推导出了CPT的Scaling Law。研究结果显示,CPT能够显著提升训练效率,实现更快地达到更低损失的目标,同时节省了25%到50%的训练资源。此外,我们还深入探讨了知识迁移量、算力迁移量、解决灾难性遗忘问题的解决方案,以及新旧知识关联性对CPT的效果影响。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
持续学习突破:DeepSeek灾难性遗忘解决方案
在深度学习的快速发展中,持续学习(Continual Learning)成为了一个备受关注的研究方向。持续学习的目标是让模型能够在不断变化的环境中持续学习新任务,同时保留对旧任务的知识。然而,传统深度学习模型在学习新任务时,往往会遗忘之前学到的知识,这种现象被称为灾难性遗忘(Catastrophic Forgetting)。
数字扫地僧
2025/03/30
3960
持续学习突破:DeepSeek灾难性遗忘解决方案
先遗忘后学习:基于参数计算的大模型知识更新
最近,大型语言模型(LLMs)展示了其令人惊叹的文本理解和生成能力。然而,即使是更为强大的LLMs,仍有可能从训练语料库中学到不正确的知识,以及随时间而过时的知识。直接使用包含新知识的数据进行二次微调可能在更新知识时效果不佳,因为新旧知识之间存在冲突。在本文中,我们提出了一种新的微调范式,被称为F-Learning(先遗忘后学习),它基于参数计算,实现对旧知识的遗忘和对新知识的学习。在两个公开可用的数据集上的实验证明,我们提出的F-Learning显著改善了全量微调和LoRA微调的知识更新性能。此外,我们还发现,通过减去LoRA的参数来遗忘旧知识可以达到与减去全量微调参数相似的效果,有时甚至可以显著超越它。
zenRRan
2023/12/04
8350
先遗忘后学习:基于参数计算的大模型知识更新
一种持续预训练大语言模型简单且可扩展的方法
在大型语言模型(LLMs)领域,我们常常听到微调LLMs以遵循指令的话题。但是如何为LLMs提供新知识或领域特定数据呢?通常,LLMs会在数十亿标记上进行常规预训练,一旦有新数据可用,就会重新开始这个过程。然而,新数据引起的分布转移通常会导致在先前数据上性能下降或对新数据适应性差。最新的《Simple and Scalable Strategies to Continually Pre-train Large Language Models》论文提供了一些宝贵的见解,指导如何在新数据上持续预训练LLMs,提出了一种更高效的解决方案是持续对这些模型进行预训练,这比重新训练节省了大量计算资源。
GPUS Lady
2024/03/25
2860
一种持续预训练大语言模型简单且可扩展的方法
增量学习(Incremental Learning)小综述
人类有终身不断获取、调整和转移知识的能力,虽然在我们的一生中,我们确实倾向于逐渐忘记之前学习过的知识,但只有在极少的情况下,对新知识的学习会灾难性地影响已经学到的知识,这样的学习能力被称为增量学习的能力。
NewBeeNLP
2021/03/03
7.3K0
增量学习(Incremental Learning)小综述
​融合视觉语言模型 HPE-CogVLM | 基于LoRA层,利用 CogVLM 的视觉定位能力来增强 HPE 预测任务!
如今, Head 姿态估计(HPE)技术可应用于诸如注意力估计、面部识别、客户行为分析、驾驶员辅助系统以及人机交互[39]等各个领域。这项任务涉及从图像或视频中预测人类 Head 的欧拉角(偏航、俯仰和翻滚)。最近一些非大型语言模型(Non-LLMs)如6DRepNet[11]、HopeNet[36]和WHENet[57]在HPE上的研究努力,已经取得了显著的进展。
AIGC 先锋科技
2024/07/08
2310
​融合视觉语言模型 HPE-CogVLM |  基于LoRA层,利用 CogVLM 的视觉定位能力来增强 HPE 预测任务!
模块化大模型来了!IBM公开WastonX核心架构技术细节
大型语言模型(LLMs)的性能非常强大,但是现有的模型训练和部署成本都很高。而且在不忘记先前知识的前提,扩展它们去学习新的知识也很困难。也很难针对特定的任务去提取出轻量化的模型。
量子位
2023/08/05
3120
模块化大模型来了!IBM公开WastonX核心架构技术细节
哈工大 | 提出共享Attention框架:SAPT,提升LLM持续学习性能
在大模型实际部署落地的过程中,如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑战,分别是灾难性遗忘和知识迁移。灾难性遗忘是指模型在学习新任务时,会忘记其已掌握的旧任务。知识迁移则涉及到如何在学习新任务时有效地应用旧任务的知识来提升新任务学习的效果。【作者主页:https://circle-hit.github.io】
ShuYini
2024/05/30
4340
哈工大 | 提出共享Attention框架:SAPT,提升LLM持续学习性能
轻量级持续学习: 0.6%额外参数把旧模型重编程到新任务
持续学习的目的是模仿人类在连续任务中持续积累知识的能力,其主要挑战是在持续学习新任务后如何保持对以前所学任务的表现,即避免灾难性遗忘(catastrophic forgetting)。持续学习和多任务学习(multi-task learning)的区别在于:后者在同一时间可以得到所有任务,模型可以同时学习所有任务;而在持续学习中任务 一个一个出现,模型在某一时刻只能学习一个任务的知识,并且在学习新知识的过程中避免遗忘旧知识。
机器之心
2023/10/24
3910
轻量级持续学习: 0.6%额外参数把旧模型重编程到新任务
每日论文速递 | InsCL: Data-efficient 持续指令学习
摘要:Instruction tuning 可有效优化大型语言模型(LLM),使其适用于下游任务。由于实际应用中的环境不断变化,LLMs 需要在不发生灾难性遗忘的情况下,针对特定任务进行持续适应。考虑到沉重的计算成本,基于重放的持续学习(CL)方法是解决遗忘问题的最简单、最广泛的 LLM 方法。然而,传统的基于重放的方法不能充分利用指令来定制重放策略。在这项工作中,我们提出了一种名为基于指令的持续学习(InsCL)的新模式。InsCL 基于任务相似性动态重放之前的数据,任务相似性由带有指令的 Wasserstein Distance 计算得出。此外,我们还进一步引入了指令信息度量(InsInfo)来量化指令的复杂性和多样性。根据 InsInfo,InsCL 引导重放过程更倾向于高质量数据。我们在 16 个任务中以不同的训练顺序进行了大量实验,观察到 InsCL 在性能上的持续改进。当所有任务都训练完毕后,InsCL 与随机重放相比实现了 3.0 的相对性能增益,与无重放相比实现了 27.96 的相对性能增益。
zenRRan
2024/04/11
3140
每日论文速递 | InsCL: Data-efficient 持续指令学习
Nat. Rev. Bioeng. | 大语言模型在医学领域的革命性应用
大型语言模型(LLMs),如 ChatGPT,因其对人类语言的理解与生成能力而备受关注。尽管越来越多研究探索其在临床诊断辅助、医学教育等任务中的应用,但关于其发展、实际应用与成效的系统评估仍然缺失。因此,研究人员在本综述中系统梳理了LLMs在医学领域的发展与部署现状,探讨其面临的机遇与挑战。在发展方面,研究人员介绍了现有医学LLMs的构建原理,包括模型结构、参数规模及训练数据来源与规模;在部署方面,研究人员比较了不同LLMs在多种医学任务中的表现,并与先进的轻量级模型进行对比。
DrugAI
2025/04/11
2460
Nat. Rev. Bioeng. | 大语言模型在医学领域的革命性应用
2024年大语言模型的微调
一个LLM的生命周期包含多个步骤,下面将讨论这个周期中最活跃、最密集的部分之一 -- fine-tuning(微调)过程。
charlieroro
2024/03/08
4670
2024年大语言模型的微调
IBM | 提出具有「情景记忆」的大模型:Larimar,无需训练,可快速更新模型知识!
随着大语言模型应用场景的不断拓展,如何高效、准确地更新大语言模型 (LLM) 知识是当前急需解决的问题。为此,IBM研究人员提出了一种新型架构Larimar,其设计灵感来源于大脑,特别是海马体的情景记忆功能。Larimar通过分布式情景记忆系统增强了LLMs的能力,使知识更新既高效又准确。这种记忆系统支持动态、一次性的知识更新,无需进行计算成本高昂的重训练或微调。
ShuYini
2024/03/25
3290
IBM | 提出具有「情景记忆」的大模型:Larimar,无需训练,可快速更新模型知识!
2024!深入了解 大语言模型(LLM)微调方法(总结)
众所周知,大语言模型(LLM)正在飞速发展,各行业都有了自己的大模型。其中,大模型微调技术在此过程中起到了非常关键的作用,它提升了模型的生成效率和适应性,使其能够在多样化的应用场景中发挥更大的价值。
ShuYini
2024/02/23
8.3K0
2024!深入了解 大语言模型(LLM)微调方法(总结)
面向超网络的连续学习:新算法让人工智能不再“灾难性遗忘”
这种可以在新的环境中不断吸收新的知识和根据不同的环境灵活调整自己的行为的能力,也正是深度学习系统与人脑相差甚远的重要原因。
AI科技评论
2020/01/16
2K0
面向超网络的连续学习:新算法让人工智能不再“灾难性遗忘”
AI模型应对灾难性遗忘的技术
尽管机器学习模型取得了巨大进步,但专家们仍在努力解决确保机器不会忘记之前学习的知识的问题,尤其是在学习新知识时。
云云众生s
2024/10/11
1950
港大&腾讯 | 提出SELF-TUNING学习框架,让LLM自学获取新知识,表现出色!
面对快速生成的新知识,大模型存储的预训练知识往往具有滞后性。为了能够让大模型具备最新的知识,当前主要方法是对新的知识文档进行持续预训练,然而LLM在文档中提取知识时,往往会面临困难。
ShuYini
2024/06/19
3450
港大&腾讯 | 提出SELF-TUNING学习框架,让LLM自学获取新知识,表现出色!
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
大型语言模型 (LLMs) 在各种自然语言任务中展现出了卓越的性能,但是由于训练和推理大参数量模型需要大量的计算资源,导致高昂的成本,将大语言模型应用在专业领域中仍存在诸多现实问题。因此,北理团队先从轻量级别模型入手,最大程度发挥数据和模型的优势,立足更好地服务特定领域,减少下游任务的训练与推理成本。
机器之心
2023/10/29
1.4K0
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
SIGIR2024 | GraphGPT: 大语言模型引领图学习新范式
TLDR: 现有的许多图神经网络方法存在一个共同的局限性,即对高质量监督信号的强烈依赖,导致在处理稀疏和噪声数据时泛化性能较差。为了提升图神经网络的泛化能力,自监督学习被认为是具有潜力的研究方向。然而,这种对标注数据的依赖,可能会限制它们在缺乏高质量标注的实际场景中的泛化性能。针对上述挑战,本研究提出了一种基于大型语言模型的全新图学习方法——GraphGPT。其旨在在零样本学习场景下提升图模型的泛化能力,并在多个下游数据集和任务上展现了出色的性能。
张小磊
2024/06/18
7330
SIGIR2024 | GraphGPT: 大语言模型引领图学习新范式
【论文分享】推理大模型Post-Training技术的全面综述
大规模语言模型(LLMs)已经彻底改变了自然语言处理领域,并催生了多种应用。尽管在大规模网络数据上的预训练为这些模型奠定了基础,但研究界现在越来越多地将焦点转向后续训练技术,以实现进一步的突破。虽然预训练提供了广泛的语言基础,但后续训练方法使得LLMs能够精炼其知识、改善推理能力、提升事实准确性,并在更好地与用户意图和伦理考虑保持一致方面发挥重要作用。微调、强化学习和测试时扩展等策略已经成为优化LLMs性能、确保鲁棒性和提高适应性在各种现实任务中的关键方法。本文综述了后续训练方法,系统地分析了它们在进一步完善LLMs方面的作用,讨论了如灾难性遗忘、奖励劫持和推理时的权衡等关键挑战。论文还强调了模型对齐、可扩展适应性和推理时推理能力等新兴方向,并概述了未来的研究方向。
致Great
2025/03/07
3310
【论文分享】推理大模型Post-Training技术的全面综述
预训练模型微调 | 一文带你了解Adapter Tuning
 前几天的一篇文章,给大家介绍了预训练模型的微调方法Prompt Tuning。《一文了解预训练模型 Prompt 调优》。今天再给大家介绍另外一种主流的预训练模型微调方法Adapter,并将Adapter与Prompt两种方法做了对比,希望能对你的论文写作有启发。
ShuYini
2022/12/05
3.7K0
预训练模型微调 | 一文带你了解Adapter Tuning
推荐阅读
相关推荐
持续学习突破:DeepSeek灾难性遗忘解决方案
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档