SMU/NUS/复旦/南洋理工提出简单而有趣的解决方案 , LLM 大型语言模型中的逆向建模！

AIGC 先锋科技

发布于 2024-10-29 20:41:44

1140

发布于 2024-10-29 20:41:44

文章被收录于专栏：AIGC 先锋科技

人类习惯于按照顺序阅读和写作，这种自然偏向也延伸到自动回归大型语言模型（LLM）中的文本理解。本文研究了LLM是否像人类一样在反向建模上存在困难，特别是针对反向文本输入。作者发现，公开可用的预训练LLM无法理解这类输入。然而，通过从零开始训练，同时使用正向和反向文本的LLM在推理时可以同等理解它们。作者的案例研究显示，不同内容的文本在不同的方向输入到LLM时会导致不同的损失——有些在正向输入时损失较低，而在反向输入时损失较低。这使作者得出一个简单而有趣的解决方案，即根据正向和反向方向之间的损失差异选择数据。使用作者选择的数据在继续预训练中，可以显著提高LLM在不同语言理解基准上的性能。

1 Introduction

近年来，许多自然语言处理任务（NLP）和超出NLP范畴的能力得到了令人瞩目的表现。这些能力主要归因于学习涵盖了通用世界知识的广泛语料库。这些语料库是人类社会创造的，通常表现出人类的偏见，包括固有的向前看的认知，例如，在大多数情况下，大学数学数据集（Mitra等人，2024）中，原因可能先于结果和解决方案可以从给定的信息中推导出来。

相反，逆向思维由于与固有常识和人类逻辑相矛盾，因此提出了更多的认知挑战。

它激发作者探索这样一个问题：语言模型是否可以进行逆向建模，或者它们将面临与人类类似的挑战？逆向建模对LLMs的学习有何益处？

为了研究这一点，作者通过在 Token Level 直接反转整个段落或文档来模拟反向建模数据。请注意，这是最简单且极端的方法，但可能不是模拟反向思维的最优方法。作者用这些模拟文本训练语言模型，并进行了全面的分析。总体结果表明，当从零开始训练时，LLMs在正向和反向建模文本上学习得一样好。

然而，性能在不同文本样本之间有所不同。一些适合反向建模，而其他则更喜欢正向建模。值得注意的是，作者发现适合反向建模的文本往往具有高质量和更强的逻辑连贯性。在这些文本上进行训练，原始的“正向建模”LLMs可以得到改进。作者在语言理解基准测试上进行实证验证，例如大规模多任务语言理解（MMLU）。

总的来说，本文有两个主要贡献。

首先，它展示了并分析了从正向和反向建模文本学习的LLMs的性能。

其次，它表明基于正向和反向建模文本损失选择的数据可以进一步提高LLMs。

2 Related Work

在本文中，作者利用反向文本进行模型训练。关于反向输入的研究可以分为三个主要领域。第一个领域涉及在编码器-解码器框架中使用反向文本进行机器翻译。研究表明，使用解码器对左至右和右至左的文本进行处理，可以提高机器翻译性能，这一发现后来扩展到语言模型。同时，研究了机器翻译中错误传播和反向解码之间的关系。

第二个领域关注了Berglund等人提出的反向诅咒；Zhu等人的研究，其中一种经过训练的能够理解“A是B”的语言模型可能会在推广到“B是A”时遇到困难。反向文本被提出作为一种解决方案。这两条研究线索都关注机器翻译或反向诅咒。

第三个最近的工作Papadopoulos等人（2024）也探索了输入文本的方向，但与作者不同的是：

（1）作者的工作受到反向思维概念的启发，而反向输入是一种模拟解决方案；

（2）作者进一步分析了在不同领域和推理步骤中的反向文本，并发现它是一种评估数据质量的有价值的工具。

作者的应用部分与LLM 的训练数据选择相关，这主要分为启发式和模型基础方法，如Longpre等人。启发式方法通过定义各种规则来过滤低质量数据，如名词和动词的比例Raffel等人；Penedo等人；Chowdhery等人；Sharma等人（2024）。

模型基础方法通过训练选择模型或基于语言模型的对数似然值来过滤数据，如Wenzek等人（2019）；Xie等人；Wettig等人（2024）。然而，作者的数据选择方法是反建模分析的额外奖励。

3 Experimental Settings

向前和向后训练。给定原始文本，它可以在分词后表示为序列，用于正向训练。为了进行向后训练，作者直接将原始分词序列反向构造为向后训练样本。虽然一些研究在向后训练过程中保持了检测到的词或实体的原始顺序，但作者选择最简单的操作来避免不同领域和语言的检测模块表现出各种不同的性能。本文中，作者将Llama2-7B（Touvron等人，2023年（或随机初始化的版本））作为默认的 Backbone 网络。

在研究问题（RQ）1中，作者使用了多语言mC41Raffel等人（2020）数据集来比较 LLMs 在持续和从头预训练设置下处理正向和反向文本的能力。在随后的实验中，作者使用了包含七个不同源域的英语SlimPajama2Soboleva等人（2023）数据集。将多语言mC4数据集上的LLM与SlimPajama数据集中的样本进行测试，可以进一步证实作者的发现是普遍适用的。更多详情见附录A。

4 Experiments

RQ1: Can LLMs do reverse modeling?

为了探索LLMs的反向建模能力，作者研究了两种预训练方法：（1）从一个经过良好训练的模型预训练权重进行持续训练，以及（2）从零开始预训练，采用随机初始化。具体来说，作者分别使用这两种方法训练使用正向输入和反向文本的模型。图1比较了在mC4数据集上使用两种方法对英语进行训练的损失（训练批次内的平均样本损失），而附录中的图5展示了其他语言的类似结果。

在持续预训练设置中，正向模型的前向损失由于在初始预训练阶段进行了广泛的训练而保持稳定。相比之下，反向模型的反向损失，在初始阶段较高，但在几步训练后迅速降低。值得注意的是，在持续预训练过程中，正向损失始终低于反向损失。作者推测这可能是因为初始预训练语料库完全由正向方向文本组成，这使得LLM具有自然的方向性偏差。因此，模型发现处理反向信息更具挑战性，类似于人类在逆向思维方面的困难。

有趣的是，在从头开始的预训练中，两种文本方向的损失曲线几乎完全相同。这种在其他语言中观察到的模式表明，LLMs可以以类似的能力处理正向和反向建模输入。这是因为模型同时从正向和反向文本中学习，使用随机初始化的参数，避免了已训练模型中初始正向方向的偏差。

RQ2：数据领域是否会影响LLM的逆向建模能力？

根据RQ1的观察，作者关注从零开始预训练设置，在这个设置中，经过训练的LLM在正向和逆向方向上的损失几乎相等。这引发了一个问题，即在所有文本中，逆向损失是否始终等于正向损失，还是在某些实例中，逆向学习会导致更低的或更高的损失？为了探索这个问题，作者使用Slimpajama（Soboleva等人，2023b）文本数据集进行案例级评估，该数据集涵盖了广泛的领域。

首先，作者计算每个文本的平均损失差异（正向损失 - 反向损失），并将每个文本与其对应的数据源标签相关联。不同源域的案例级损失差异分布如图2所示。观察到，文本样本的损失差异大致 centered around zero，呈现出近似正态分布。重要的是，这表明反向损失并不总是高于正向损失。实际上，对于超过一半的文本，预测下一个 Token 的反向预测相对较易。

如图2所示，与网络爬取的语料库（如维基百科和Common Crawl）相比，书籍和ArXiv的损失差异分布通常不那么倾向于更容易的前向模型。此外，书籍和学术论文中更容易在反向预测方向上进行预测的比例较大，而相比之下在正向预测方向上进行预测的难度更大。考虑到书籍和学术论文中的文本通常比网络爬取的文本质量更高，作者推测在反向预测更有效的文本中，可能表现出更好的逻辑连贯性和流畅性，这反映了它们较高的质量。这一猜想也体现在与代码、StackExchange和Github相关的领域。从自然语言的角度来看，代码通常具有单调的语法和重复的词汇。

从人类前瞻性思维及其在书面文本中的反映的角度来看，预测未来方向的任务，即从现在预测未来，本身就具有更大的挑战性。相反，反向预测任务则从已知结果追溯到其起源，这可能简化任务。

RQ3: 什么特征使文本在反向处理时更容易？

表1总结了从反向更容易到正向更容易的随机选定的文本示例。反向更容易的文本呈现出连贯的结构和流畅的 Stream ，使得读者容易跟随。相比之下，正向更容易的文本质量较低，连贯性较差，且往往重复。这使作者推理，在反向处理时更容易被处理的文本通常具有更高的连贯性和自然流畅性。

为了进一步验证作者的假设，作者对在分词解码过程中按步计算的损失变化进行了详细分析。作者计算并平均每个文本的损失，排除具有步损失=0的前后两个 Token ，以避免开始和结束处的急剧变化。

为了考虑输入长度的不同，作者将所有文本的步数归一化到区间。整个数据集的步损失变化趋势如图3所示。总体而言，反向损失在初始步骤相对较高，但迅速下降。在中间步骤阶段，反向方向的下降斜率相对于正向方向稍陡。在最后步骤中， Token 预测的难度再次迅速下降，而正向损失的下降趋势在整个解码过程中更为稳定。

作者进一步考察了具有Top-和Bottom-平均损失差异的数据，并显示了它们的步骤损失（step loss）如图4所示。对于Top-的数据，反向步骤损失在解码开始时迅速减小到低于正向损失的水平。相反，对于Bottom-的数据，反向步骤损失始终高于正向步骤损失，只在接近结束时才低于它。这支持作者在RQ2中假设逻辑连贯且书写良好的文本的反向方向可以简化 Token 预测任务。

应用：支持反向模型的文本可提高原始LLM的性能。如RQ3中所述，连贯且逻辑性强的文本通常具有比前向损失更低的逆向损失。因此，给定一个训练样本和从零开始预训练的前向和逆向训练的LLM模型，作者定义了一个简单的质量分数S，使用损失差异表示：S=Forward Loss - Reverse Loss。根据作者之前的分析，较高的S表示支持逆向模型的文本，意味着高质量样本。

为了进一步验证这一假设，作者在公开发布的Llama2-7B上进行持续的预训练。使用Soboleva等人（2023）发布的SlimPajama-6B作为训练数据，作者分别选择具有最低和最高分数的1B样本。模型在MMLU Hendrycks等人（2020）上的性能进行评估。

作者还比较了以下数据选择策略：（1）随机1B：随机选择1B数据，（2）逆序最小1B：根据Llama2-7B选择的具有最低逆序的最小1B数据。

表2的结果表明，训练数据的质量对LLM的性能有显著影响。作者高质量数据选择策略（ Highest Ranked）在其他 Baseline 之上，在各任务上实现了MMLU的最高准确性。由于SlimPajama 6B数据集的整体文本质量低于Llama2-7B预训练时的文本质量，使用完整的6B数据集并不会超过原始Llama2-7B。这表明，未过滤的训练集中低质量数据的存在会降低性能，正如使用低质量选择策略（ Lowest Ranked）时，性能出现了显著下降。

这一实验支持了文本通过反转建模效果更好、质量更高的假设，这对LLM获取世界知识更有利。