前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >跟李沐学ChatGPT背后技术:67分钟读透InstructGPT论文

跟李沐学ChatGPT背后技术:67分钟读透InstructGPT论文

作者头像
机器之心
发布于 2023-02-23 08:13:33
发布于 2023-02-23 08:13:33
9490
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:张倩

InstructGPT 和 ChatGPT 之间有很多一脉相承之处。因此,吃透 InstructGPT 论文对于想要在 ChatGPT 方向上做些工作的同学来说将大有裨益。

在 ChatGPT 走红之后,很多关注技术的同学都在问一个问题:有没有什么学习资料可以让我们系统地了解 ChatGPT 背后的原理?由于 OpenAI 还没有发布 ChatGPT 相关论文,这一问题变得棘手起来。

不过,从 OpenAI 关于 ChatGPT 的博客中我们知道,ChatGPT 用到的方法和它的兄弟模型 ——InstructGPT 一样,只不过 InstructGPT 是在 GPT-3 上微调的,而 ChatGPT 则是基于 GPT-3.5。在数据收集工作上,二者也存在一些差别。

博客链接:https://openai.com/blog/chatgpt/

InstructGPT 的论文发布于 2022 年 3 月,不过 OpenAI 早在 1 月份就发布了相关博客(参见《GPT-3 胡言乱语怎么办?OpenAI:我们重新调教了一下,新版本更「听话」》)。当时,OpenAI 明确提到,InstructGPT 利用了人类反馈的强化学习方法(RLHF)对 GPT-3 进行微调,使得该模型的输出更加符合人类偏好,这点在 ChatGPT 的训练中得到了延续。

论文链接:https://arxiv.org/pdf/2203.02155.pdf

除此之外,InstructGPT 和 ChatGPT 之间还有很多一脉相承之处。因此,吃透 InstructGPT 论文对于想要在 ChatGPT 方向上做些工作的同学来说将大有裨益。这也是我们力荐李沐这节精讲课的原因。

课程地址:https://jmq.xet.tech/s/2lec6b  (点击「阅读原文」可直达)

李沐博士是亚马逊的资深首席科学家,之前和 Aston Zhang 等人共同撰写了《动手学深度学习》。最近两年,他一直通过视频向大家介绍各种 AI 知识,制作了几十篇论文的精读课程。很多同学已经养成了跟着李沐精读论文的习惯。

李沐博士在 B 站的账号是「跟李沐学 AI」。

这节针对 InstructGPT 的解读课程总共 67 分钟,基本按照论文撰写的顺序进行介绍。

看过 ChatGPT 博客的同学都知道,它的技术原理基本用一张图就能概括,这也是 InstructGPT 论文中就已经出现的一张图(二者有细微差别)。在解读论文的摘要和引言部分时,李沐详细介绍了图上的三个步骤。

ChatGPT 博客中的技术原理图。

InstructGPT 论文中的技术原理图。

在论文的第三章,InstructGPT 的作者首先介绍了他们的数据获取方法和过程,李沐也带着大家详细读了一下。这部分在工程方面非常有价值。正如李沐所说,如果你之前没有做过这样的事情(数据标注等),需要找人帮你标数据,那么你可以看它的附录部分,里面有很多模板可以直接拿来用,论文作者甚至描述了他们标注网站的 UI 长什么样,非常值得借鉴。

接下来,李沐重点解读了第三章写到的 3 个模型(见 3.5 Models )——SFT (Supervised fine-tuning) 模型、RM (Reward modeling) 模型和 RL (Reinforcement learning) 模型,包括这些模型涉及的参数和目标函数等细节。

最后,李沐总结说,从技术上来讲,InstructGPT 还是一个非常实用的技术。它告诉了大家一个方法:给定一个大型语言模型,你怎样通过一些标注数据迅速地提升它在某一个你关心的领域中的性能,使它达到实用的程度。所以,它给想用生成模型做产品的人提供了一个可操作的思路。

当然,正如李沐博士所说,科研工作是循序渐进的,InstructGPT 也是建立在之前研究的基础上,所以想要吃透 ChatGPT 的同学不免还要回头去读更多论文。在之前的课程中,李沐也详细解读过 GPT、GPT-2、GPT-3 的论文:

课程地址:https://jmq.xet.tech/s/2lec6b  (点击「阅读原文」可直达)

另外,机器之心机动组官网也收录了李沐的《动手学深度学习》完整课程,欢迎大家前往观看。

课程地址:https://app6ca5octe2206.pc.xiaoe-tech.com/

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
OpenAI是如何“魔鬼调教” GPT的?——InstructGPT论文解读
ChatGPT的论文尚未放出,也不知道会不会有论文放出,但是根据公开资料显示,其训练方式,跟OpenAI之前的一个工作——InstructGPT基本无异,主要是训练数据上有小的差异,因此我们可以从InstructGPT的论文中,窥探ChatGPT强大的秘密。本文主要(粗略)解读一下InstructGPT的论文——Training language models to follow instructions with human feedback.
beyondGuo
2023/02/13
2.9K0
OpenAI是如何“魔鬼调教” GPT的?——InstructGPT论文解读
除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟
2020 年 5 月,OpenAI 推出了具有 1750 亿参数的史上最大 AI 模型 GPT-3,该模型不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。自推出以来,该模型就开始在不同的领域大显身手,如基于问题的搜索引擎、与历史人物对话、基于文本描述生成代码以及绘图和图像补全等等。
机器之心
2021/03/15
4620
除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟
大神李沐、快手元老李岩被曝离职后转投大模型,ChatGPT掀起AI创业狂飙
---- 新智元报道   编辑:编辑部 【新智元导读】在B站讲论文的李沐大神被曝出从亚马逊离职,与导师一同投身大模型创业。无独有偶,快手前AI核心人物李岩,也被曝出加入大模型创业赛道。 最近,互联网大佬纷纷投身大模型赛道。 昨天,李沐大神离职亚马逊、去做大模型的消息,如同惊雷一般炸响了大家的社交网络。 紧接着,今天又曝出前快手AI核心大佬李岩在2022年离职快手后成立的新公司,做的也是大模型。 显然,自从ChatGPT让全世界看到了AI上天入地般的应用场景,国内企业的AI模型层竞争,已经开始白热化了
新智元
2023/03/29
6880
大神李沐、快手元老李岩被曝离职后转投大模型,ChatGPT掀起AI创业狂飙
又一 AI 大神杀入大模型领域!亚马逊首席科学家李沐被曝离职,与导师搭档创业
作者 | 刘燕 师徒档“二搭”创业,新公司融资很顺利。   李沐被曝离职创业 日前,据媒体“亲爱的数据”报道,亚马逊首席科学家、“AI 大神”李沐已离职,并加入了导师 Alex Smola 的创业项目。 据悉,今年 2 月,“参数服务器之父” Alex Smol 教授从亚马逊云科技(AWS)离职,创办了一家名为 Boson.ai 的人工智能公司。 同月,Alex Smol 教授在领英宣布成立了新公司并担任 CEO。“我很高兴地告诉大家,我将在 Boson.ai 开始担任首席执行官兼联合创始人的新职务!
深度学习与Python
2023/03/29
1K0
又一 AI 大神杀入大模型领域!亚马逊首席科学家李沐被曝离职,与导师搭档创业
万字长文解读:从Transformer到ChatGPT,通用人工智能曙光初现
ChatGPT掀起的NLP大语言模型热浪,不仅将各家科技巨头和独角兽们推向风口浪尖,在它背后的神经网络也被纷纷热议。但实际上,除了神经网络之外,知识图谱在AI的发展历程中也被寄予厚望。自然语言处理是如何伴随人工智能各个流派不断发展、沉淀,直至爆发的?本文作者将带来他的思考。 作者 | 王文广 出品 | 新程序员 自ChatGPT推出以来,不仅业内津津乐道并纷纷赞叹自然语言处理(Natural Language Processing, NLP)大模型的魔力,更有探讨通用人工智能(Artificial gene
AI科技大本营
2023/04/14
6610
万字长文解读:从Transformer到ChatGPT,通用人工智能曙光初现
一文掌握Prompt:万能框架+优化技巧+常用指标
随着大模型在2023年横空出世,“Prompt 工程” 应运而生,作为用好大模型最重要的武器,Prompt 的好坏对模型效果有着决定性的影响。然而,网络上大量相关文章多是罗列“Prompt 工程” 中的若干技巧,少有体系化的总结,让人看完依然不知道该如何入手。
腾讯云开发者
2024/07/30
7.9K0
一文掌握Prompt:万能框架+优化技巧+常用指标
ChatGPT发展历程、原理、技术架构详解和产业未来
去年12月1日,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。
边缘计算
2023/02/23
1.3K0
ChatGPT发展历程、原理、技术架构详解和产业未来
ChatGPT 之图书大纲
您是否在为您想要写的书籍制定大纲时遇到困难?我理解您的困境,因为我也曾经历过。制定大纲需要大量时间和专注力,特别是当您的想法到处都是时。
ApacheCN_飞龙
2024/05/24
1780
ChatGPT 之图书大纲
推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。
致Great
2025/03/10
3290
推理大模型的后训练增强技术-强化学习篇
白话科普:如何训练ChatGPT,能用它来挣钱吗?【P.S. 今晚19:30,说透ChatGPT】
本文作者 | 张杰   责编 | Carol 出品 | AI科技大本营(ID:rgznai100) 对话机器人不是个新技术,以往的机器人产品很多,为什么这次OpenAI公司推出的ChatGPT能这么火?因为以前的机器人只能做简单且有限的事,问天气、放音乐还行,问个复杂一些的事就有点“人工智障”了。ChatGPT可以说技术上的量变引起了效果上的质变,在三个方面让我感觉很惊艳: 有上下文记忆能力,多轮对话衔接得很好,很难看出是机器生成的; 有学习纠错能力,在它回答错误之后,如果你纠正了它,第二次就不会再答错;
AI科技大本营
2023/04/06
4890
白话科普:如何训练ChatGPT,能用它来挣钱吗?【P.S. 今晚19:30,说透ChatGPT】
算法工程师深度解构ChatGPT技术
引言 | 本栏目特邀腾讯知名语言文本项目算法工程师冉昱、薛晨,用专业视野带你由浅入深了解ChatGPT技术全貌。它经历了什么训练过程?成功关键技术是什么?将如何带动行业的变革?开发者如何借鉴ChatGPT思路和技术,投入到日常工作中?期望本文能给你新的灵感。 ChatGPT主要特点 ChatGPT本质是一个对话模型,它可以回答日常问题、进行多轮闲聊,也可以承认错误回复、挑战不正确的问题,甚至会拒绝不适当的请求。在上周公布博文和试用接口后,ChatGPT很快以令人惊叹的对话能力“引爆”网络。 1)
腾讯云开发者
2022/12/10
3K1
算法工程师深度解构ChatGPT技术
ChatGPT/InstructGPT详解
来源:京东云 海豚数据科学实验室本文约7000字,建议阅读15分钟要搞懂ChatGPT,我们必须要先读懂InstructGPT。 前言 GPT系列是OpenAI的一系列预训练文章,GPT的全称是Generative Pre-Trained Transformer,顾名思义,GPT的目的就是通过Transformer为基础模型,使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1,GPT-2,GPT-3,以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的Cha
数据派THU
2023/03/29
9550
ChatGPT/InstructGPT详解
语音 AI 之路:约翰霍普金斯大学 CLSP 群英谱
“吴军、徐鹏、李志飞、陈果果、姚旭晨……这是一个有志青年从约翰霍普金斯大学离开之后,用 AI 改变世界的故事。”
AI科技评论
2023/10/24
2820
语音 AI 之路:约翰霍普金斯大学 CLSP 群英谱
清华博士后用10分钟讲解AlphaCode背后的技术原理,原来程序员不是那么容易被取代的!
AI科技评论报道不久前,DeepMind 的团队发布了一个可以自动生成竞赛级代码的人工智能系统——AlphaCode,号称「媲美普通程序员」,一经发表就在国内外的AI圈里引起了巨大轰动。 -论文地址:https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf -数据集:https://github.com/deepmind/code_contests
AI科技评论
2022/03/03
9490
通俗直观介绍ChatGPT背后的大语言模型理论知识
作者:cheaterlin,腾讯CSIG后台开发专家 “AI 的 iPhone 时刻到来了”。非算法岗位的研发同学'被迫'学习 AI,产品岗位的同学希望了解 AI。但是,很多自媒体文章要么太严谨、科学,让非科班出身的同学读不懂;要么,写成了科幻文章,很多结论都没有充分的逻辑支撑,是‘滑坡推理’的产物。这篇文章从底层讲起,却不引入太多概念,特别是数学概念,让所有人都能对大模型的核心概念、核心问题建立认知。文章末尾也为需要严肃全面地学习深度学习的人给出了建议。 关于以 ChatGPT 为代表的大语言模型(LLM
腾讯技术工程官方号
2023/05/25
1.8K0
通俗直观介绍ChatGPT背后的大语言模型理论知识
ChatGPT:“有多少人工,就有多少智能”
👆点击“博文视点Broadview”,获取更多书讯 作者:车万翔(哈工大) 整理:李rumor ---- 最近几天被OpenAI推出的ChatGPT[1]刷屏了,其影响已经不仅局限于自然语言处理(NLP)圈,就连投资圈也开始蠢蠢欲动了,短短几天ChatGPT的用户数就超过了一百万。 通过众多网友以及我个人对其测试的结果看,ChatGPT的效果可以用惊艳来形容,具体结果在此就不赘述了。 不同于GPT-3刚推出时人们的反应,对ChatGPT大家发出更多的是赞叹之词。 聊天、问答、写作、编程等等,样样精通。
博文视点Broadview
2023/04/04
6930
ChatGPT:“有多少人工,就有多少智能”
MXNet创始人李沐《动手学深度学习》中文版上线!
它非常有力地推动了计算机视觉、自然语言处理、自动语音识别、强化学习和统计建模等多个领域的快速发展。
Python数据科学
2019/06/14
2.3K0
MXNet创始人李沐《动手学深度学习》中文版上线!
仅5天注册用户超百万的爆火ChatGPT是什么
作者:qizailiu,腾讯 IEG 应用研究员 导读 OpenAI 近期发布聊天机器人模型 ChatGPT,迅速出圈全网。它以对话方式进行交互。以更贴近人的对话方式与使用者互动,可以回答问题、承认错误、挑战不正确的前提、拒绝不适当的请求。高质量的回答、上瘾式的交互体验,圈内外都纷纷惊呼。 为什么有如此高的评价?理论支撑是什么?背后的技术原理是什么?待解决的问题和方案有哪些?资本怎么看待这件事?本文的目标是将这些问题详细的给大家讲清楚。 1 ChatGPT 是什么? ChatGPT 本质是一个应用在对话场景
腾讯技术工程官方号
2022/12/13
2K0
仅5天注册用户超百万的爆火ChatGPT是什么
NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链
曾经一片祥和的 NLP 社区,被这个突如其来的 “怪物” 吓到了!一夜之间,整个 NLP 圈发生了巨大的变化,工业界迅速跟进,资本 “狂飙”,开始了复刻 ChatGPT 之路;学术界突然陷入了一片迷茫的状态......大家慢慢开始相信 “NLP is solved!”
机器之心
2023/08/04
2330
NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链
4.提升客户服务体验:ChatGPT在客服中的应用(4/10)
本文大纲旨在指导撰写一篇全面探讨ChatGPT如何通过优化客户服务流程、提供实际应用案例和用户反馈,以提升客户服务体验的深入博客文章。
正在走向自律
2024/12/18
2830
4.提升客户服务体验:ChatGPT在客服中的应用(4/10)
推荐阅读
相关推荐
OpenAI是如何“魔鬼调教” GPT的?——InstructGPT论文解读
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档