前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >ChatGPT的原理:机器人背后的模型

ChatGPT的原理:机器人背后的模型

作者头像
老齐
发布于 2023-03-02 08:54:06
发布于 2023-03-02 08:54:06
1K0
举报
文章被收录于专栏:老齐教室老齐教室

翻译:老齐

本文将深入讲解支持 ChatGPT机器学习模型。从介绍大语言模型(Large Language Models)开始,深入探讨革命性的自注意力机制,该机制使 GPT-3 得以被训练。然后,进一步探讨强化学习,这是使 ChatGPT 变得卓越的新技术。

大语言模型

ChatGPT 是一类机器学习自然语言处理模型——大语言模型(Large Language Models,LLMs)的推广。LLMs能够消化大量的文本数据并推断文本中词汇之间的关系。随着计算能力的提升,这些模型在过去几年中得到了长足发展。LLMs 的输入数据集和参数空间越大,它们的能力就越强。

语言模型最基本的功能是预测一句话中缺失的词汇应该是什么,其中最常见的方式是使用下一个词预测(Next-token-prediction)和掩码语言建模技术(Masked-language-modeling)。

这两项基本的技术都是序列型的,通常用长短期记忆(Long-Short-Term-Memory, LSTM)模型实现,模型会根据上下文填充最有统计学意义的词语。然而,这种序列型的模型结构存在两个主要缺陷:

  1. 模型不能将某些上下文中的词汇评估得比其他单词更重要。在上面的例子中,虽然“reading”通常与“hates”相关联,但在数据库中,Jacob 可能是一个非常热爱阅读的人,模型应该比“reading”更重视“Jacob”,并选择“loves”而不是“hates”。
  2. 输入数据被单独、顺序地处理,而不是作为整个语料库。这意味着当训练 LSTM 时,上下文窗口是固定的,仅扩展到序列中几个步骤的单个输入。这限制了单词之间的关系复杂性和可以推断的意义。

为了解决这个问题,谷歌大脑的一个团队在 2017 年推出了 transformers。与 LSTM 不同,transformers 可以同时处理所有输入数据。使用自注意力机制,模型可以针对语言序列的任何位置,给予不同部分的输入数据不同的权重。这个特性大大提高了 LLMs 的语义表达能力,也使处理更大的数据集成为可能。

GPT和自注意力

生成式预训练变换(Generative Pre-training Transformer,GPT)模型最初于 2018 年由 OpenAI 推出,即为 GPT-1。此模型在 2019 年继续发展为 GPT-2,在 2020 年推出了 GPT-3,在 2022 年,就是最近,推出了InstructGPT 和 ChatGPT。在将人类反馈纳入系统之前,推动 GPT 模型演进的最大力量来自于高效的算力,这使得 GPT-3 可以在比 GPT-2 更多的数据上进行训练,从而拥有更多样化的知识基础和更泛化的能力。

所有的 GPT 模型都利用了 Transformer 架构,这意味着它们由处理输入序列的编码器和生成输出序列的解码器组成。编码器和解码器都有多头(multi-head)自注意力机制,使得模型能够对序列的不同部分进行不同权重的处理,以推断出含义和上下文。此外,编码器还利用掩码语言建模来理解词汇之间的关系,并生成更易于理解的回复。

驱动 GPT 的自注意机制通过将 tokens(文本片段,可以是词、句或其他文本分组)转换为向量,表示 token 在输入序列中的重要性。为此,模型:

  1. 为输入序列中的每个 token 创建一个查询、键和值向量。
  2. 通过计算两个向量的点积,计算第一步中查询向量与每个其他 token 的键向量之间的相似度。
  3. 将步骤 2 的输出馈入 softmax 函数,生成归一化的权重。
  4. 将步骤 3 中生成的权重乘以每个 token 的值向量,生成表示序列中 token 重要性的最终向量。

GPT 使用的“多头”注意力机制是自注意的一种演变。模型不是只执行步骤 1-4 一次,而是多次迭代该机制,每次生成查询、键和值向量的新线性投影。通过以这种方式扩展自注意,模型能够理解输入数据中的子含义和更复杂的关系。

尽管 GPT-3 在自然语言处理方面已经有了显著进展,但它在与用户意图对齐方面存在局限性。例如,GPT-3 的输出可能会:

  • 缺乏帮助性,这意味着它们不遵循用户的明确说明。
  • 包含错觉,反映不存在或不正确的事实。
  • 缺乏可解释性,使人难以理解模型是如何得出特定的决策或预测的。
  • 包含有害或带有偏见的内容,具有有害或冒犯性,并传播错误信息。

ChatGPT 引入了创新的训练方法来抵消标准 LLM 的一些固有问题。

ChatGPT

ChatGPT 是 InstructGPT 的一个分支,引入了一种新的方法,将人类反馈纳入到训练过程中,以更好地将模型输出与用户意图对齐。基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)在openAI's 2022的论文“Training language models to follow instructions with human feedback”中有详细描述,以下是简要介绍。

步骤1:监督微调(SFT)模型

首先,聘请 40 名承包商创建一个有监督的训练数据集,对 GPT-3 模型进行微调,使其能够从已知输出的输入数据中学习。输入或提示(注:对于 GPT 中,将用户输入的数据称为 prompt,此处译作“提示”,如果有更好的译文,请读者指出)来自实际用户对 OpenAI API 的输入。标注者为每个提升编写了一个合适的回复,从而为每个输入创建了一个已知的输出,然后使用这个新的有监督数据集对 GPT-3 模型进行微调,以创建 GPT-3.5,也称为 SFT(Supervised Fine Tuning) 模型。

为了最大化提示数据集的多样性,每个用户 ID 只能有 200 个提示,任何具有共同前缀的提示都被删除。最后,删除了包含个人身份信息(PII)的所有提示。

在从 OpenAI API 聚合提示之后,标注者还被要求创建示例提示以填充只有少量真实样本数据的类别。感兴趣的类别包括:

  • 普通提示: 任何任意的要求。
  • 少量提示: 包含多个查询/响应对的指令。
  • 基于用户的提示: 对应于 OpenAI API 请求的特定用例。

在生成响应时,要求标注者尽可能推断用户的指令是什么。本文描述了提示请求信息的主要三种方式。

  1. 直接提示: “告诉我关于……”
  2. 少量提示: 给定这两个故事的例子,写另一个关于同一主题的故事。
  3. 延续提示: 给定一个故事的开头,完成它。

从 OpenAI API 收集的提示和标注者手写的提示编译结果产生了 13,000 个输入/输出样本,可用于有监督模型的训练。

步骤2:奖励模型

在第一步中训练完 SFT 模型之后,该模型会生成更好对齐用户提示的响应。接下来的优化是训练奖励模型,其中模型的输入是一系列提示和响应,输出是一个标量值,称为奖励。奖励模型是必需的,以便利用强化学习,使模型学习生成输出以最大化其奖励(参见第三步)。

为了训练奖励模型,标注者会为单个输入提示提供 4 到 9 个 SFT 模型的输出,让他们根据最佳到最差的顺序排列这些输出,从而创建以下输出排名组合。

将每个组合作为单独的数据点包含在模型中会导致过拟合(泛化到已知数据范围之外就失败)。为了解决这个问题,该模型使用每个等级组合作为一个批次数据点来构建。

步骤3:强化学习模型

在最后阶段,向模型输入一个随机提示,然后返回一个响应。响应是使用模型在第二步中学习到的“策略”生成的。这说明机器已经学会了如何实现其目标,在这种情况下,是最大化奖励。基于第二步中的奖励模型,针对输入的提示,确定一个标量的奖励值和回复,而后将奖励反馈给模型,进一步优化策略。

Schulman 等人在 2017 年介绍了 Proximal Policy Optimization(PPO)的方法,该方法用于在生成每个响应时更新模型的策略。PPO 将 SFT 模型中的每个 token 的 Kullback-Leibler(KL)惩罚项并入其中。KL 散度度量两个分布函数的相似性并惩罚极端距离。在这种情况下,使用 KL 惩罚减少了响应与第一步中训练的 SFT 模型输出之间的距离,以避免过度优化奖励模型致使过度偏离人类意图数据集。

步骤 2 和步骤 3 可以迭代重复,尽管实践中还没有广泛地执行。

模型评估

在训练过程中,测试集是没有用于模型训练的数据,用它来评估模型。在测试集上,进行一系列的评估,以确定模型是否比其前身 GPT-3 更好。

可用性: 模型推断和遵循用户指令的能力。标注者在 85 ± 3% 的程度上更喜欢 InstructGPT 的输出而不是 GPT-3。

真实性: 模型的虚假倾向。使用 TruthfulQA 数据集评估时,PPO 模型产生的输出在真实性和信息性方面都有小幅度提升。

无害性: 模型避免不当、贬损和侮辱性内容的能力。使用 RealToxicityPrompts 数据集对无害性进行了测试。测试在三种条件下进行。

  1. 被告知提供尊重的回答:导致有毒反应显著减少。
  2. 没有设定尊重性的情况下提供回答:毒性没有显著变化。
  3. 被要求提供有毒反应:实际上比 GPT-3 模型有显著更多的有毒反应。

有关创建 ChatGPT 和 InstructGPT 所使用的方法的更多信息,请阅读 OpenAI 发表的原始论文 Training language models to follow instructions with human feedback, 2022 https://arxiv.org/pdf/2203.02155.pdf。

参考资料

  1. https://openai.com/blog/chatgpt/
  2. https://arxiv.org/pdf/2203.02155.pdf
  3. https://medium.com/r/?url=https%3A%2F%2Fdeepai.org%2Fmachine-learning-glossary-and-terms%2Fsoftmax-layer
  4. https://www.assemblyai.com/blog/how-chatgpt-actually-works/
  5. https://medium.com/r/?url=https%3A%2F%2Ftowardsdatascience.com%2Fproximal-policy-optimization-ppo-explained-abed1952457b

本文来源:https://towardsdatascience.com/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286

其他资料:https://lqlab.readthedocs.io/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 老齐教室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【AI大模型】ChatGPT模型原理介绍(下)
2020年5月, OpenAI发布了GPT-3, 同时发表了论文“Language Models are Few-Shot Learner”《小样本学习者的语言模型》.
小言从不摸鱼
2024/09/18
2110
【AI大模型】ChatGPT模型原理介绍(下)
大语言模型技术原理
在今天这个时代,人们的工作和生活已经离不开数据访问,而几乎所有平台背后的数据存储和查询都离不开数据库。SQL作为一种数据库的查询和处理语言历史悠久,最早由IBM于上世纪70年代初研究关系数据模型时提出,后续发展为一种广泛使用的数据库标准访问接口。
NineData
2023/05/30
1.7K0
大语言模型技术原理
独家 | ChatGPT工作原理:机器人背后的模型
作者:Molly Ruby 翻译:张睿毅校对:闫晓雨 本文约3000字,建议阅读5分钟简要介绍让你耳朵听到起茧的聊天机器人背后的直觉和方法论。 这篇对赋能ChatGPT的机器学习模型的简要介绍,将从大型语言模型(LLM)开始,进而探讨使GPT-3得到训练的革命性的自注意力机制 (self-attention mechanism),之后研究人类反馈强化学习 (Reinforcement Learning From Human Feedback, RLHF)——使ChatGPT与众不同的创新技术。 大型语
数据派THU
2023/03/29
1.6K0
独家 | ChatGPT工作原理:机器人背后的模型
【强化学习】Reward Model(奖励模型)详细介绍
Reward Model(奖励模型)是近年来在深度学习和强化学习领域广泛应用的一种技术,特别是在生成式模型(如大型语言模型)和强化学习(RL)结合的场景中,起到了至关重要的作用。它在多个领域的应用中,尤其是在自然语言处理(NLP)和数学推理领域,展现了显著的潜力。
不去幼儿园
2025/03/22
4300
【强化学习】Reward Model(奖励模型)详细介绍
ChatGPT背后的模型
InstructGPT语言模型,是一个比 GPT-3 更善于遵循用户意图,同时使用通过我们的对齐研究开发的技术使它们更真实、毒性更小。InstructGPT 模型循环迭代的过程当中,加入了人类反馈进行训练。
算法一只狗
2023/01/18
6570
【NLP】深入浅出,解析ChatGPT背后的工作原理
ChatGPT 是 OpenAI 发布的最新语言模型,比其前身 GPT-3 有显著提升。与许多大型语言模型类似,ChatGPT 能以不同样式、不同目的生成文本,并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了 OpenAI 最新一代的大型语言模型,并且在设计上非常注重交互性。
黄博的机器学习圈子
2023/01/10
1.4K0
【NLP】深入浅出,解析ChatGPT背后的工作原理
OpenAI是如何“魔鬼调教” GPT的?——InstructGPT论文解读
ChatGPT的论文尚未放出,也不知道会不会有论文放出,但是根据公开资料显示,其训练方式,跟OpenAI之前的一个工作——InstructGPT基本无异,主要是训练数据上有小的差异,因此我们可以从InstructGPT的论文中,窥探ChatGPT强大的秘密。本文主要(粗略)解读一下InstructGPT的论文——Training language models to follow instructions with human feedback.
beyondGuo
2023/02/13
2.9K0
OpenAI是如何“魔鬼调教” GPT的?——InstructGPT论文解读
大语言模型简史:从Transformer(2017)到DeepSeek-R1(2025)的进化之路
2025年初,中国推出了具有开创性且高性价比的「大型语言模型」(Large Language Model — LLM)DeepSeek-R1,引发了AI的巨大变革。本文回顾了LLM的发展历程,起点是2017年革命性的Transformer架构,该架构通过「自注意力机制」(Self-Attention)彻底重塑了自然语言处理。到2018年,BERT和GPT等模型崭露头角,显著提升了上下文理解和文本生成能力。2020年,拥有1750亿参数的GPT-3展示了卓越的「少样本」和「零样本」学习能力。然而,「幻觉」问题 — —即生成内容与事实不符,甚至出现「一本正经地胡说八道」的现象 — — 成为了一个关键挑战。2022年,OpenAI通过开发「对话式」的ChatGPT应对这一问题,采用了「监督微调」(SFT)和「基于人类反馈的强化学习」(RLHF)。到2023年,像GPT-4这样的「多模态模型」整合了文本、图像和音频处理能力,使LLM能够以更接近人类的「听」、「说」、「看」能力。近期推出的OpenAI-o1和DeepSeek-R1「推理模型」(Reasoning Model)在复杂问题解决方面取得突破,赋予LLM更接近人类「系统2思维」的深度推理能力,标志着人工智能在模拟人类思维模式上迈出了重要一步。此外,DeepSeek-R1模型以其「超成本效益」和「开源」设计挑战了AI领域的传统规范,推动了先进LLL的普及,并促进了各行业的创新。
致Great
2025/02/17
7460
大语言模型简史:从Transformer(2017)到DeepSeek-R1(2025)的进化之路
LLM成功不可或缺的基石:RLHF及其替代技术
在讨论 LLM 时,我们总是会涉及一个名为「使用人类反馈的强化学习(RLHF)」的过程。RLHF 是现代 LLM 训练流程中不可或缺的一部分,因为它可以将人类偏好整合到优化图景中,从而提升模型的有用性和安全性。
机器之心
2023/10/08
7750
LLM成功不可或缺的基石:RLHF及其替代技术
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
本文尝试梳理一个完整的多模态LLM的训练流程。包括模型结构选择、数据预处理、模型预训练、指令微调、对齐、融合多模态以及链接外部系统等环节。
zenRRan
2023/08/22
6.7K0
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
大语言模型-1.3-GPT、DeepSeek模型介绍
1.用了4.6GB的BookCorpus数据集(该数据集主要是小说,openai 为了验证技术可行性,特意选了未出版的 7000 本书),无监督训练一个预训练模型,即generative pre-training,GPT 名字的由来。 2.对于子任务,用有标签的小的数据集训练一个微调模型,discriminative fine-tuning。 微调方式具体来说,可见上图右图部分。 对于每个任务,输入会被构造成一个连续的 token 序列。分类任务,会将输入文本拼接成一个序列,并在开头添加一个特殊token-start,在结尾增加 extract然后经过模型+线性层后输出结果,对于相似度的文本比较有趣,比如看 A 和 B 是否相似,那么就组成个序列分别为 AB 和 BA,其输入模型后,最终通过softmax 判断,是否相似,是个二分类问题。第四个问答其实是一个多分类问题。 这四个任务有一个共性,就是我们只需要对输入做定制化,输出做一些定制,但是中间的 transformer 模型不会去动它。 左图:GPT是一个transformer decoder-only的结构, MHA +add&norm 的 Block 其用了 12 层,参数量 0.11B,对,此时它还很小。另外输入的token 用了word2vec做了 embedding 表征。
用户2225445
2025/03/15
1280
大语言模型-1.3-GPT、DeepSeek模型介绍
为啥ChatGPT让LeCun酸成柠檬精?谷歌、Meta、OpenAI聊天机器人大PK!
---- 新智元报道   编辑:好困 Aeneas 桃子 【新智元导读】做聊天机器人,OpenAI不是第一家,但绝对是最出风头的那个。谷歌、Meta、DeepMind、OpenAI的聊天机器人大PK,谁最牛? 前几天,Meta首席人工智能科学家Yann LeCun的一段对于ChatGPT的点评迅速传遍圈内外,引发了大波讨论。 在Zoom的媒体和高管小型聚会上,LeCun给出了一段令人惊讶的评价:「就底层技术而言,ChatGPT并不是多么了不得的创新。」 「虽然在公众眼中,它是革命性的,但是我们知道,它
新智元
2023/02/24
5640
为啥ChatGPT让LeCun酸成柠檬精?谷歌、Meta、OpenAI聊天机器人大PK!
推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。
致Great
2025/03/10
1800
推理大模型的后训练增强技术-强化学习篇
系统学习大模型的20篇论文
【引子】“脚踏实地,仰望星空”, 知其然还要知其所以然。读论文是一条重要的途径,这一篇文章https://magazine.sebastianraschka.com/p/understanding-large-language-models非常值得借鉴,不敢私藏,编译成文。
半吊子全栈工匠
2023/09/02
4.2K0
系统学习大模型的20篇论文
一篇不枯燥的ChatGPT闲谈
导语|是的,这又是一篇ChatGPT有关的文章,虽然已经有很多篇讲ChatGPT的文章。不过,还是要写一下,毕竟过去的一个月发生了那么多新的故事。 文章总共有三部分:先科普一下ChatGPT中的GPT是什么,然后介绍从GPT3到ChatGPT的过程,最后进行一些个ChatGPT闲谈。如果不想看技术,可以直接跳到闲谈。 鉴于已经有非常多的优秀创作者进行总结和分析,本文将会包含非常多的论文原文以及资源链接,都是值得一阅的好文,再次感谢这些优秀的创作者们。 本文作者:shutianma,腾讯TEG用户研究 Cha
腾讯大讲堂
2023/04/06
1.1K0
一篇不枯燥的ChatGPT闲谈
从语言模型到ChatGPT,大模型调教全攻略
大数据文摘授权转载自夕小瑶的卖萌屋 作者:python 你是否想过,为什么ChatGPT能够如此火爆呢?我认为这主要是因为ChatGPT提供了好玩、有用的对话式交互功能,能够为用户提供帮助,而不仅仅是依靠“大”模型的魅力。毕竟,GPT-3在2020年就已经推出了,拥有175B的参数规模,但除了最初的热度之外,它并没有引起社会太多的关注。 那么,究竟是什么让ChatGPT能够生成相对客观且富有信息量的回答呢?研究者们基于预训练好的大规模语言模型,采用了多种调教手段,主要包括指令调整和基于人类反馈的对齐调整。这
大数据文摘
2023/04/21
6030
从语言模型到ChatGPT,大模型调教全攻略
ChatGPT深度解析:GPT家族进化史
导语 |2022年11月30日,OpenAI 发布了其最新的聊天机器人模型 ChatGPT。腾讯云开发者先后从其玩法体验、技术原理、上手方法和竞品洞察几个方面进行解读,并邀请腾讯前沿科技研究中心主任王强畅聊 ChatGPT 最受关注的问题(如果你对相关内容感兴趣,可点击一键跳转阅读)。然而,ChatGPT 成为现象级火爆技术之作的背后,是常年累月的技术积累和灵敏迭代。此次我们邀请腾讯 NLP 工程师张先礼深度解析 ChatGPT 进化历程——GPT 各代有何区别、如何演进?其现有能力有什么不足?未来将会有什么发展方向?欢迎各位开发者阅读、分享与交流 ChatGPT 神话的缔造之路。
腾讯云开发者
2023/02/28
2.2K0
ChatGPT深度解析:GPT家族进化史
Transformer速查宝典:模型、架构、训练方法的论文都在这里了
AI 发展迅速,这对于刚刚入门或是正想跟上「潮流」的新手们来说并不友好。如果有一份详细全面的知识列表可能会帮助他们更快走上「正途」。
机器之心
2023/09/08
3760
Transformer速查宝典:模型、架构、训练方法的论文都在这里了
我掌握的新兴技术:AIGC的前世今生
chatgpt基本回答了什么是AIGC,但目前为止,AIGC尚无明确的定义。国内产学研各界对于AIGC的理解是“继专业内容生成PGC和用户生成内容UGC之后,利用人工智能技术自动生成内容的新型生产方式”。在国际上对于的术语是“人工智能合成媒体(AI-generated Media)”,其定义是“通过人工智能算法对数据或媒体进行生产、操控和修改的统称”。 综上所述,我们认为AIGC既是从内容生产视角进行分类的,又是一种生产方式,还是用于内容自动生成的一类技术集合。
程序员库里
2024/01/29
6351
ChatGPT发展历程、原理、技术架构详解和产业未来
去年12月1日,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。
边缘计算
2023/02/23
1.3K0
ChatGPT发展历程、原理、技术架构详解和产业未来
推荐阅读
相关推荐
【AI大模型】ChatGPT模型原理介绍(下)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档