部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >大语言模型-1.3-GPT、DeepSeek模型介绍

大语言模型-1.3-GPT、DeepSeek模型介绍

作者头像
用户2225445
发布2025-03-15 22:05:47
发布2025-03-15 22:05:47
880
举报
文章被收录于专栏:IT从业者张某某IT从业者张某某

1.3.1GPT 系列模型成体系推进

2017年,谷歌提出Transformer 2018年,OpenAI提出GPT(1亿+参数) 2019年,GPT-2(15亿参数) 2020年,GPT-3(1750亿参数) 2021年,CodeX(基于GPT-3,代码预训练) 2021年,WebGPT(搜索能力) 2022年2月,InstructGPT(人类对齐) 2022年11月,ChatGPT(对话能力) 2023年3月,GPT-4(推理能力、多模态能力) 2024年9月,o1(深度思考能力提升) 2025年1月,o3(深度思考能力进一步增强) GPT系列模型从18年开始系统迭代,对于大模型发展起到了深远影响

GPT从开始至今,其发展历程如下:

2017年6月,Google发布论文《Attention is all you need》,首次提出Transformer模型,成为GPT发展的基础。 论文地址: https://arxiv.org/abs/1706.03762 2018年6月,OpenAI 发布论文《Improving Language Understanding by Generative Pre-Training》(通过生成式预训练提升语言理解能力),首次提出GPT模型(Generative Pre-Training)。论文地址: paperswithcode.com/method/gpt 。 2019年2月,OpenAI 发布论文《Language Models are Unsupervised Multitask Learners》(语言模型应该是一个无监督多任务学习者),提出GPT-2模型。论文地址: paperswithcode.com/method/gpt-… 2020年5月,OpenAI 发布论文《Language Models are Few-Shot Learners》(语言模型应该是一个少量样本(few-shot)学习者,提出GPT-3模型。论文地址: https://paperswithcode.com/method/gpt-2 2022年2月底,OpenAI 发布论文《Training language models to follow instructions with human feedback》(使用人类反馈指令流来训练语言模型),公布 Instruction GPT模型。论文地址: https://arxiv.org/abs/2203.02155 2022年11月30日,OpenAI推出ChatGPT模型,并提供试用,全网火爆。见:AI-001-火爆全网的聊天机器人ChatGPT能做什么

GPT 系列模型发展历程

➢ 小模型:GPT-1,GPT-2 ➢ 大模型:GPT-3,CodeX,GPT-3.5,GPT-4 ➢ 推理大模型:o-series

GPT-1(1.1亿参数)

当时NLP的问题

此时训练一个 NLP 模型和我们之前做的推荐类似,针对某个任务,首先搞一些样本,然后对模型进行有监督训练。问题出在题面上。 1.样本怎么来,大量的高质量的标注不太容易获得。 2.模型训练的任务是固定的,很难学到泛化能力,没法复用到做其他任务。 这样训练出来的模型被困在了一个特定的领域,离我们想要的 AGI(人工通用智能)有点远。

GPT-1采用的架构

➢ Decode-only Transformer架构 ➢ 预训练后针对特定任务微调 entailment术语翻译为“蕴涵”

1.用了4.6GB的BookCorpus数据集(该数据集主要是小说,openai 为了验证技术可行性,特意选了未出版的 7000 本书),无监督训练一个预训练模型,即generative pre-training,GPT 名字的由来。 2.对于子任务,用有标签的小的数据集训练一个微调模型,discriminative fine-tuning。 微调方式具体来说,可见上图右图部分。 对于每个任务,输入会被构造成一个连续的 token 序列。分类任务,会将输入文本拼接成一个序列,并在开头添加一个特殊token-start,在结尾增加 extract然后经过模型+线性层后输出结果,对于相似度的文本比较有趣,比如看 A 和 B 是否相似,那么就组成个序列分别为 AB 和 BA,其输入模型后,最终通过softmax 判断,是否相似,是个二分类问题。第四个问答其实是一个多分类问题。 这四个任务有一个共性,就是我们只需要对输入做定制化,输出做一些定制,但是中间的 transformer 模型不会去动它。 左图:GPT是一个transformer decoder-only的结构, MHA +add&norm 的 Block 其用了 12 层,参数量 0.11B,对,此时它还很小。另外输入的token 用了word2vec做了 embedding 表征。

GPT-2 (15亿参数)

➢ 将任务形式统一为单词预测 ➢ Pr (output | input, task) ➢ 预训练与下游任务一致 ➢ 使用提示进行无监督任务求解 ➢ 初步尝试了规模扩展

GPT-3(1750亿参数)

➢ 模型规模达到1750亿参数 ➢ 涌现出上下文学习能力

CodeX

➢ 代码数据训练 ➢ 推理与代码合成能力

WebGPT

➢ 大语言模型使用浏览器

WebGPT: Browser-assisted question-answering with human feedback, Arxiv 2021

InstructGPT

➢ 大语言模型与人类价值观对齐 ➢ 提出RLHF算法

Training language models to follow instructions with human feedback, NIPS 2022

1)、对GPT-3进行fine-tuning(监督微调)。 2)、再训练一个Reward Model(奖励模型,RM) 3)、最后通过增强学习优化SFT

值得注意的是,第2步、第3步是完全可以迭代、循环多次进行的。

Instruction GPT的训练规模

基础数据规模同GPT-3 ,只是在其基础上增加了3个步骤(监督微调SFT、奖励模型训练Reward Model,增强学习优化RPO)。 下图中labeler是指OpenAI雇佣或有相关关系的标注人员(labler)。 而customer则是指GPT-3 API的调用用户(即其他一些机器学习研究者、程序员等)。 本次ChatGPT上线后据说有百万以上的用户,我们每个人都是其customer,所以可以预见,未来GPT-4发布时,其customer规模至少是百万起。

ChatGPT

➢ 基于 InstructGPT 相似技术开发,面向对话进行优化

ChatGPT和InstructionGPT本质上是同一代际的,仅仅是在InstructionGPT的基础上,增加了Chat功能,同时开放到公众测试训练,以便产生更多有效标注数据。

GPT-4

➢ 推理能力显著提升,建立可预测的训练框架 ➢ 可支持多模态信息的大语言模型

GPT-4 Technical Report, Arxiv 2023

GPT-4o

➢ 原生多模态模型,综合模态能力显著提升 ➢ 支持统一处理和输出文本、音频、图片、视频信息

在这里插入图片描述
在这里插入图片描述
o系列模型

➢ 推理任务上能力大幅提升 ➢ 长思维链推理能力

o-series

➢ 类似人类的“慢思考”过程

1.3.2DeepSeek 系列模型的技术演变

DeepSeek系列模型发展历程 ➢ 训练框架:HAI-LLM ➢ 语言大模型:DeepSeek LLM/V2/V3、Coder/Coder-V2、Math ➢ 多模态大模型:DeepSeek-VL ➢ 推理大模型:DeepSeek-R1

DeepSeek 实现了较好的训练框架与数据准备

➢ 训练框架 HAI-LLM(发布于2023年6月) ➢ 大规模深度学习训练框架,支持多种并行策略 ➢ 三代主力模型均基于该框架训练完成 ➢ 数据采集 ➢ V1和Math的报告表明清洗了大规模的Common Crawl,具备超大规模数据处理能力 ➢ Coder的技术报告表明收集了大量的代码数据 ➢ Math的技术报告表明清洗收集了大量的数学数据 ➢ VL的技术报告表明清洗收集了大量多模态、图片数据

DeepSeek 进行了重要的网络架构、训练算法、性能优化探索

➢ V1 探索了scaling law分析(考虑了数据质量影响),用于预估超参数性能 ➢ V2 提出了MLA高效注意力机制,提升推理性能 ➢ V2、V3都针对MoE架构提出了相关稳定性训练策略 ➢ V3 使用了MTP(多token预测)训练 ➢ Math 提出了PPO的改进算法 GRPO ➢ V3详细介绍Infrastructure的搭建方法,并提出了高效 FP8 训练方法

DeepSeek-V3

➢ 671B参数(37B激活),14.8T训练数据 ➢ 基于V2的MoE架构,引入了MTP和新的复杂均衡损失 ➢ 对于训练效率进行了极致优化,共使用 2.788M H800 GPU时

DeepSeek-R1

DeepSeek-V3和DeepSeek-R1均达到了同期闭源模型的最好效果

➢ 开源模型实现了重要突破

在这里插入图片描述
在这里插入图片描述
为什么 DeepSeek 会引起世界关注

➢ 打破了OpenAI 闭源产品的领先时效性 ➢ 国内追赶GPT-4的时间很长,然而复现o1模型的时间大大缩短 ➢ 达到了与OpenAI现有API性能可比的水平

Large Language Model, 2025 (Book under progress)

为什么 DeepSeek 会引起世界关注

➢ 中国具备实现世界最前沿大模型的核心技术 ➢ 模型开源、技术开放

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-03-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.3.1GPT 系列模型成体系推进
    • GPT 系列模型发展历程
    • GPT-1(1.1亿参数)
    • GPT-2 (15亿参数)
    • GPT-3(1750亿参数)
    • CodeX
    • WebGPT
    • InstructGPT
      • Instruction GPT的训练规模
    • ChatGPT
    • GPT-4
    • GPT-4o
    • o系列模型
    • o-series
  • 1.3.2DeepSeek 系列模型的技术演变
    • DeepSeek-V3
    • DeepSeek-R1
    • 为什么 DeepSeek 会引起世界关注
    • 为什么 DeepSeek 会引起世界关注
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档