前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >港大&腾讯 | 提出SELF-TUNING学习框架,让LLM自学获取新知识,表现出色!

港大&腾讯 | 提出SELF-TUNING学习框架,让LLM自学获取新知识,表现出色!

作者头像
ShuYini
发布2024-06-19 19:22:30
900
发布2024-06-19 19:22:30
举报

点击上方“AINLPer“,设为星标

更多干货,第一时间送达

引言

面对快速生成的新知识,大模型存储的预训练知识往往具有滞后性。为了能够让大模型具备最新的知识,当前主要方法是对新的知识文档进行持续预训练,然而LLM在文档中提取知识时,往往会面临困难。

为此,本文提出了SELFTUNING学习框架,可让LLM通过自学的方式从文档中获取最新的知识,实验结果表明:SELF-TUNING 在所有知识获取任务中始终表现出色,并避免了灾难性遗忘。

https://arxiv.org/pdf/2406.06326

背景介绍

基于大量的数据,大模型在预训练阶段可以学习大量的事实知识,并在许多知识密集型任务中表现出了不凡的能力。然而,世界无时无刻不在变化,同时也产生了大量的数据知识,面对即时性要求较高的应用场景,LLM内部的事实知识将不能满足需求。当大模型无法获取新知识时,会有很大的概率出现幻觉,如果是对客服务类场景,这将是致命的。为此,让LLM保持最新状态有必要的。

为了能将最新的知识注入到大模型参数中,本文进行了深入的研究。如下图所示:

可见,传统的标准做法是对具有新知识的原始语料进行持续预训练,然而,这种方法在提取嵌入知识方面存在困难,尽管指令调优(instruction-tuning)可以在一定程度上帮助,但LLMs检索到的知识仍然受到限制。最近也开始有研究人员提出在预训练之前,对 QA 数据和相关文档进行微调,目的是教会模型如何从文档中获取知识并回答问题。虽然这种方法大大优于标准方法,但本文研究发现,该方法在知识提取方面能力仍然有限。

费曼技术被证明在促进人类学习和知识理解方面是非常有效的。这种强大的学习方法之所以取得显著成功,通常归因于它强调“理解”、“自我反思”(“发现差距并进行复习”),而不是单纯的“记忆”。受此启发,本文作者提出了「SELF-TUNING」,这是一个使 LLM 能够有效内化和回忆新知识的框架,同时为了能够深入研究大模型如何在单域、多域和跨域中获取新知识,作者还精心制作了「三个 Wiki-Newpages2023-QA」 数据集。

SELF-TUNING

SELF-TUNING框架通过自我教学(SELF TEACHING)策略来增强模型文档知识获取能力,其主要集中于三个关键方面:记忆、理解和自我反思。

  • 「记忆(Memorization)」:通过下一个词预测任务,让模型学习记忆原始文本中的事实信息。
  • 「理解(Comprehension)」:通过执行总结、要点识别和自然语言推理任务,提升模型对文档内容的理解能力。
  • 「自我反思(Self-reflection)」:通过闭卷生成任务来实现,如填空、多项选择问答等,提高模型记忆和回忆知识的能力。

SELF-TUNING框架的学习主要具体主要分为三个阶段,如上图所示:

  • 「第一阶段」:模型使用训练文档和相关QA数据进行训练,同时结合SELFTEACHING任务,学习如何从原始文档中吸收知识。
  • 「第二阶段」:模型应用学习到的策略,从新的文档中提取知识,并复习其问答技能。
  • 「第三阶段」:模型继续在新的文档上训练,以确保对新知识的深入理解。

Wiki-Newpages-2023QA

Wiki-Newpages-2023-QA数据集的创建是为了提供一个全面的基准,用于评估和理解LLMs如何从新的、未见过的文档中学习和吸收知识。数据集收集了2023年9月至10月间发布的新文章,确保这些内容在LLMs预训练截止日期之后,从而保证模型之前未接触过这些信息。然后使用GPT-4和人工策划的提示生成各种问题及其答案,以覆盖文档中所有的事实信息。

该数据集主要涉及单领域、多领域、跨领域。数据集被划分为训练集和测试集,以便在单领域和多领域环境中进行评估。跨领域测试直接使用Wiki-Film数据集。其中:Wiki-Bio专注于生物领域的文档;Wiki-Multi涵盖多个不同领域的文档;Wiki-Film用于测试模型在不同领域间的泛化能力。

实验结果

下表展示了SELF-TUNING框架在知识记忆、知识提取、推理方面的能力,可以发现该框架显著降低了困惑度(Perplexity, PPL),表明模型对新文档的记忆更为有效;

在知识提取方面,提高了精确匹配(Exact Match, EM)、召回率(Recall)、F1分数,以及Rouge-L指标,显示出在提取事实信息方面的高准确性。

投稿或寻求报道联系:ainlperbot

「资料整理不易,点个再看、赞吧」

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 背景介绍
  • SELF-TUNING
    • Wiki-Newpages-2023QA
    • 实验结果
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档