前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大语言模型为什么这么强?关键步骤是……

大语言模型为什么这么强?关键步骤是……

作者头像
博文视点Broadview
发布2024-03-20 15:03:58
1720
发布2024-03-20 15:03:58
举报

研究人员发现,随着语言模型参数量的不断增加,模型完成各个任务的效果也得到不同程度的提升。

大语言模型是指模型参数量超过一定规模的语言模型,相比参数量较小的预训练模型(如 BERT、GPT-1、GPT-2 等)!

大语言模型有以下 3 个显著特点。

(1)模型参数规模更大:这是最直观的特点,在 BERT 时代,1B 的参数量已经属于很大 的参数规模,而在大语言模型时代,GPT-3 系列中最大的模型具有 175B 的参数量,BLOOM 具有 176B 的参数量,PaLM 具有 540B 的参数量。巨大的参数规模意味着模型能够存储和 处理前所未有的信息量。理论上,巨大的参数量可以帮助模型更好地学习语言中的细微差异, 捕捉复杂的语义结构,理解更复杂的句子和文本结构。巨大的参数量也是大语言模型任务处 理能力的基本保证。

(2)训练数据量更多:大语言模型时代,模型的预训练数据覆盖范围更广,量级更大。大 部分大语言模型的预训练数据量在万亿 Token 以上,如 Meta 推出的 LLaMA 系列使用 1.4 万亿个 Token 的参数量进行预训练,LLaMA2 则使用 2 万亿个 Token 的参数量进行预训练, QWen(通义千问)系列大语言模型更是使用 3 万亿个 Token 的参数量进行预训练。这种大规模的数据训练使模型学习到更多的语言规律和知识,从而在各种自然语言处理任务上表现 更佳。

(3)计算资源要求更高:大语言模型的训练通常需要极大的计算资源,包括大量的 GPU 或 TPU,以及巨大的存储和内存空间。这对模型训练阶段和推理阶段的计算能力、内存空间 提出更高要求。LLaMA 的 65B 模型使用了 2,048 块 80GB A100 GPU,训练了近一个月。因 此,计算资源昂贵成为制约大语言模型研究和开发的一个重要因素。

表1 列出了部分已公开的大语言模型的基本情况,从上面提到的模型参数、训练数据 和所用的训练资源等情况可以看出,相比传统模型,大语言模型拥有更大的参数量和更大规模的训练数据。

这预示着模型的复杂性和处理能力都将显著增强,并展现出以下两种能力。

表1 部分已公开的大语言模型的基本情况

(1)具备涌现能力:涌现能力是指模型能在未明确进行优化的情况下表现出一些特定的能力或特征。例如,大语言模型能在没有经过特定任务微调的情况下,依靠其庞大的参数量和预训练数据,显示出在多种自然语言处理任务上的高效性和泛化能力。这种零样本学习或少样本学习的能力,在大语言模型上表现得尤为突出,也是与传统预训练模型的最大区别之一。如图1所示,随着模型变大、数据变多(模型训练计算量增加),涌现出很多小模型不存在的能力。当 GPT-3 的训练计算量较小时,训练效果接近 0;当训练计算量达到 2 × 1022 时,训练效果突然提升,这就是“涌现能力”,如图1(A)所示。另外,这种能力也从根本上改变了用户使用大语言模型的方式,ChatGPT 是其中最有代表性的应用之一,通过问答 的形式,用户可以与大语言模型进行交互。

图1 模型能力随训练计算量的变化情况

(2)多模态能力增强:部分大语言模型的功能进一步拓展到了多模态学习领域,能够理解和生成包括文本、图像和声音在内的多种类型的数据。这类模型不仅能处理单一模态的任 务,还能进行跨模态的信息理解和生成,比如从文本到图像或从图像到文本的内容生成。

从参数规模的爆炸性增长,到涌现能力的出现,再到对巨大计算资源的需求,大语言模型的出现标志着自然语言处理的新纪元的开始。

这些模型之所以能够取得如此显著的成果, 其背后的关键步骤就是预训练。

预训练是模型训练的初始阶段,通常在大量无监督的文本数据上进行。

在这个阶段,模型通过学习有数十亿或数万亿个Token 的文本,逐渐掌握语言的基本结构、模式和上下文关系。

这种大规模的数据驱动训练,使模型有能力捕捉到微妙的语言细节和语境变化。

在完成预训练后,模型可以在特定的下游任务上进行微调,从而快速适应并在多种自然语言处理任务上表现出色。

这种先预训练后微调的策略,不仅提高了模型的泛化能力,还减轻了对大量标注数据的依赖,这是传统模型难以比肩的。

与此同时,预训练也带来了新的问题,如模型如何处理偏见信息、如何确保模型生成的内容不违反道德伦理等。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 博文视点Broadview 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档