大语言模型为什么这么强？关键步骤是……

博文视点Broadview

发布于 2024-03-20 15:03:58

1720

发布于 2024-03-20 15:03:58

文章被收录于专栏：博文视点Broadview博文视点Broadview

研究人员发现，随着语言模型参数量的不断增加，模型完成各个任务的效果也得到不同程度的提升。

大语言模型是指模型参数量超过一定规模的语言模型，相比参数量较小的预训练模型（如 BERT、GPT-1、GPT-2 等）！

大语言模型有以下 3 个显著特点。

（1）模型参数规模更大：这是最直观的特点，在 BERT 时代，1B 的参数量已经属于很大的参数规模，而在大语言模型时代，GPT-3 系列中最大的模型具有 175B 的参数量，BLOOM 具有 176B 的参数量，PaLM 具有 540B 的参数量。巨大的参数规模意味着模型能够存储和处理前所未有的信息量。理论上，巨大的参数量可以帮助模型更好地学习语言中的细微差异，捕捉复杂的语义结构，理解更复杂的句子和文本结构。巨大的参数量也是大语言模型任务处理能力的基本保证。

（2）训练数据量更多：大语言模型时代，模型的预训练数据覆盖范围更广，量级更大。大部分大语言模型的预训练数据量在万亿 Token 以上，如 Meta 推出的 LLaMA 系列使用 1.4 万亿个 Token 的参数量进行预训练，LLaMA2 则使用 2 万亿个 Token 的参数量进行预训练， QWen（通义千问）系列大语言模型更是使用 3 万亿个 Token 的参数量进行预训练。这种大规模的数据训练使模型学习到更多的语言规律和知识，从而在各种自然语言处理任务上表现更佳。

（3）计算资源要求更高：大语言模型的训练通常需要极大的计算资源，包括大量的 GPU 或 TPU，以及巨大的存储和内存空间。这对模型训练阶段和推理阶段的计算能力、内存空间提出更高要求。LLaMA 的 65B 模型使用了 2,048 块 80GB A100 GPU，训练了近一个月。因此，计算资源昂贵成为制约大语言模型研究和开发的一个重要因素。

表1 列出了部分已公开的大语言模型的基本情况，从上面提到的模型参数、训练数据和所用的训练资源等情况可以看出，相比传统模型，大语言模型拥有更大的参数量和更大规模的训练数据。

这预示着模型的复杂性和处理能力都将显著增强，并展现出以下两种能力。

表1 部分已公开的大语言模型的基本情况

（1）具备涌现能力：涌现能力是指模型能在未明确进行优化的情况下表现出一些特定的能力或特征。例如，大语言模型能在没有经过特定任务微调的情况下，依靠其庞大的参数量和预训练数据，显示出在多种自然语言处理任务上的高效性和泛化能力。这种零样本学习或少样本学习的能力，在大语言模型上表现得尤为突出，也是与传统预训练模型的最大区别之一。如图1所示，随着模型变大、数据变多（模型训练计算量增加），涌现出很多小模型不存在的能力。当 GPT-3 的训练计算量较小时，训练效果接近 0；当训练计算量达到 2 × 1022 时，训练效果突然提升，这就是“涌现能力”，如图1（A）所示。另外，这种能力也从根本上改变了用户使用大语言模型的方式，ChatGPT 是其中最有代表性的应用之一，通过问答的形式，用户可以与大语言模型进行交互。