港大&腾讯 | 提出SELF-TUNING学习框架，让LLM自学获取新知识，表现出色！

ShuYini

发布于 2024-06-19 11:22:30

3550

文章被收录于专栏：自然语言处理(NLP)论文速递自然语言处理(NLP)论文速递

点击上方“AINLPer“，设为星标

更多干货，第一时间送达

引言

面对快速生成的新知识，大模型存储的预训练知识往往具有滞后性。为了能够让大模型具备最新的知识，当前主要方法是对新的知识文档进行持续预训练，然而LLM在文档中提取知识时，往往会面临困难。

为此，本文提出了SELFTUNING学习框架，可让LLM通过自学的方式从文档中获取最新的知识，实验结果表明：SELF-TUNING 在所有知识获取任务中始终表现出色，并避免了灾难性遗忘。

https://arxiv.org/pdf/2406.06326

背景介绍

基于大量的数据，大模型在预训练阶段可以学习大量的事实知识，并在许多知识密集型任务中表现出了不凡的能力。然而，世界无时无刻不在变化，同时也产生了大量的数据知识，面对即时性要求较高的应用场景，LLM内部的事实知识将不能满足需求。当大模型无法获取新知识时，会有很大的概率出现幻觉，如果是对客服务类场景，这将是致命的。为此，让LLM保持最新状态有必要的。

为了能将最新的知识注入到大模型参数中，本文进行了深入的研究。如下图所示：

可见，传统的标准做法是对具有新知识的原始语料进行持续预训练，然而，这种方法在提取嵌入知识方面存在困难，尽管指令调优（instruction-tuning）可以在一定程度上帮助，但LLMs检索到的知识仍然受到限制。最近也开始有研究人员提出在预训练之前，对 QA 数据和相关文档进行微调，目的是教会模型如何从文档中获取知识并回答问题。虽然这种方法大大优于标准方法，但本文研究发现，该方法在知识提取方面能力仍然有限。

费曼技术被证明在促进人类学习和知识理解方面是非常有效的。这种强大的学习方法之所以取得显著成功，通常归因于它强调“理解”、“自我反思”（“发现差距并进行复习”），而不是单纯的“记忆”。受此启发，本文作者提出了「SELF-TUNING」，这是一个使 LLM 能够有效内化和回忆新知识的框架，同时为了能够深入研究大模型如何在单域、多域和跨域中获取新知识，作者还精心制作了「三个 Wiki-Newpages2023-QA」 数据集。

SELF-TUNING

SELF-TUNING框架通过自我教学（SELF TEACHING）策略来增强模型文档知识获取能力，其主要集中于三个关键方面：记忆、理解和自我反思。

「记忆（Memorization）」：通过下一个词预测任务，让模型学习记忆原始文本中的事实信息。
「理解（Comprehension）」：通过执行总结、要点识别和自然语言推理任务，提升模型对文档内容的理解能力。
「自我反思（Self-reflection）」：通过闭卷生成任务来实现，如填空、多项选择问答等，提高模型记忆和回忆知识的能力。

SELF-TUNING框架的学习主要具体主要分为三个阶段，如上图所示：

「第一阶段」：模型使用训练文档和相关QA数据进行训练，同时结合SELFTEACHING任务，学习如何从原始文档中吸收知识。
「第二阶段」：模型应用学习到的策略，从新的文档中提取知识，并复习其问答技能。
「第三阶段」：模型继续在新的文档上训练，以确保对新知识的深入理解。

Wiki-Newpages-2023QA

Wiki-Newpages-2023-QA数据集的创建是为了提供一个全面的基准，用于评估和理解LLMs如何从新的、未见过的文档中学习和吸收知识。数据集收集了2023年9月至10月间发布的新文章，确保这些内容在LLMs预训练截止日期之后，从而保证模型之前未接触过这些信息。然后使用GPT-4和人工策划的提示生成各种问题及其答案，以覆盖文档中所有的事实信息。