Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >60页PPT全解:DeepSeek系列论文技术要点整理

60页PPT全解:DeepSeek系列论文技术要点整理

原创
作者头像
languageX
修改于 2025-03-16 00:07:19
修改于 2025-03-16 00:07:19
4.7K0
举报
文章被收录于专栏:大语言模型大语言模型

DeepSeek-R1,让所有AI相关从业者,从年初卷到现在...

经过断断续续的整理,终于把DeepSeek系列论文的核心知识点汇总PPT完成差不多可以和大家分享了。虽然现在发布实在太晚,已经有铺天盖地的对deepseek技术解读文章和分享,但我依然希望将自己对DeepSeek V1到DeepSeek R1的理解与总结呈现给大家。

虽迟但到,希望这60页PPT对大家有所帮助。

MLA

MHA

GQA

MLA

MOE

MoEs和Transformer

GShard

Mixtral 8x7B

DeepSeekMoE

MTP

Blockwise Parallel Decoding

Better & Faster Large Language Models via MTP

DeepSeekV3-MTP

DualPipe

pipline parallel 流水线并行

Tensor parallel 张量并行

Expert parallel 专家并行

DualPipe 管道并行

FP8混合训练

GRPO

DeepSeek R1

参考:https://zhuanlan.zhihu.com/p/20844750193

DeepSeek-R1-Zero

DeepSeek-R1

DeepSeek-R1-Distill

在年初发布的DeepSeekR1,开源了671B的满血版以及一系列蒸馏模型后,很多企业开始紧锣密鼓的购买算力,私有化部署模型,在应用中接入ds,研究ds可以带来的价值;算法团队还要疯狂的学习以上技术点。

还没反应过来,不等大家休息,DeepSeek又来了开源周(2月24日至2月28日),开源6个核心技术项目,涵盖了从硬件优化到数据存储的全链路过程:

1.FlashMLA(2月24日):

  • 技术定位:针对NVIDIA Hopper GPU优化的多头潜在注意力(MLA)解码内核,专为处理可变长度序列设计。
  • 核心创新点
    • 动态资源分配,按序列长度分配算力。
    • 分页KV缓存,显存占用减少至1/4。
    • 低秩分解技术,支持边缘部署。
  • 性能亮点:算力峰值达580 TFLOPS,内存带宽3000 GB/s,延迟降低。

2.DeepEP(2月25日):

  • 技术定位:首个专为MoE(混合专家模型)设计的开源通信库,优化分布式训练与推理。
  • 核心创新点
    • 支持NVLink和RDMA硬件级优化。
    • FP8智能压缩,减少带宽需求。
    • 通信-计算重叠,基于钩子式方法。
  • 性能亮点:MoE模型训练性能提升,千亿模型训练成本降低。

3.DeepGEMM(2月26日):

  • 技术定位:面向Hopper GPU的高效FP8矩阵计算库,支持稠密模型和MoE模型的GEMM运算。
  • 核心创新点
    • Tensor Core深度适配,实现1350+ FP8 TFLOPS。
    • 显存优化,FP8精度下显存占用为FP16的1/4。
    • 通用性接口设计,兼容Transformer和MoE模型。
  • 性能亮点:算力利用率提升,训练迭代速度加快。

4.DualPipe和EPLB(2月27日):

  • DualPipe
    • 技术定位:双向管道并行算法,专为DeepSeek-V3/R1模型设计。
    • 核心创新点:双向计算-通信重叠,流水线气泡压缩,共享梯度传输。
    • 性能亮点:训练速度提升,硬件利用率提升。
  • EPLB
    • 技术定位:面向MoE模型的动态负载均衡工具。
    • 核心创新点:动态冗余专家分配,分层与全局负载均衡。
    • 性能亮点:节点间通信流量减少,训练成本降低。

5.Fire-Flyer File System (3FS)(2月28日):

  • 技术定位:AI专用分布式文件系统,优化数据密集型任务吞吐。
  • 核心创新点
    • 分解式架构,CRAQ协议强一致性。
    • 全局存储共享,支持KVCache显存优化。
  • 性能亮点:180节点集群聚合读取吞吐6.6 TiB/s,GraySort测试3.66 TiB/min。

6.Smallpond(2月28日):

  • 技术定位:基于3FS的轻量级PB级数据处理框架。
  • 核心创新点
    • DuckDB集成列式存储与向量化计算。
    • 弹性扩展,支持从单机到分布式集群。
  • 性能亮点:两阶段分区排序策略,PB级数据处理效率提升。

刚刚部署完的模型,又要学习新技术,看如何将这些加速工程技术点应用到推理框架节约算力成本。虽然DeepSeekR1的激活参数少,但是原模型占用空间大,而且以上工程优化技术未应用到推理框架,实际的推理成本是很高的。

最后聊聊腾讯混元和ima,确实好用至少用这么久就只出现了一次服务器繁忙,而且今天体验发现他已经有了自己的T1模型,速度比R1快不少,不知道是模型规模小还是背后算力分配多,希望T1也能出技术报告~哈哈

最后最后,个人或者企业在实际落地场景其实不用一味追求T1和R1(尤其是满血版),可以从需求复杂度,算力成本,实际效果,回复响应来选择最适合自己的大模型~

参考:

除了论文,参考很多大佬的技术博客也很多,当时没有记录链接,都是从ima来的...

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
使用DeepSeek必备的10个技巧
今天,我们直接讲干货。用10个问题带大家了解:DeepSeek是什么,怎么用,如何与DS高质量对话,以及一些隐藏技巧。
崔认知
2025/02/06
2.1K0
使用DeepSeek必备的10个技巧
DeepSeek 新手使用指南:入门必备技巧与隐藏功能(建议收藏)
2025年春节过的好快,转眼间,大家又回到了各自工作岗位了,要说这个春节,什么最火,肯定绕不开DeepSeek。
测试开发技术
2025/02/10
2.3K0
DeepSeek 新手使用指南:入门必备技巧与隐藏功能(建议收藏)
DeepSeek的提示词技巧,就是没有技巧。
几乎一夜之间,所有人都在关注DeepSeek,甚至我在老家,完全没用过AI的七大姑八大姨,都在问我,DeepSeek是什么,怎么用。
数字生命卡兹克
2025/04/14
1550
DeepSeek的提示词技巧,就是没有技巧。
【AGI-Eval学习干货 NO.2】DeepSeek小白必看指南,隐藏1000个提示词参考(建议收藏)
这个热搜#博主卖 DeepSeek 相关课程 1 天收入 50000#,我看到之后感觉得做一期干货内容,DeepSeek 的玩法现在都在摸索阶段,和大家一起学习探索。
AGI-Eval评测社区
2025/03/14
2150
【AGI-Eval学习干货 NO.2】DeepSeek小白必看指南,隐藏1000个提示词参考(建议收藏)
【AGI-Eval行业干货 NO.2】DeepSeek使用必看指南,隐藏1000个提示词参考(建议收藏)
昨天,一款热搜词条#博主卖 DeepSeek 相关课程 1 天收入 50000 元#引起热议。看了热搜描述的课程内容,我感觉最近各路媒体发的公众号干货内容不得赚它个10万8万的,真不至于花钱,今天免费给大家提供一些玩法和思路,不花钱的干货才是最香的。
AGI-Eval评测社区
2025/02/19
2510
【AGI-Eval行业干货 NO.2】DeepSeek使用必看指南,隐藏1000个提示词参考(建议收藏)
【人工智能】你知道什么是DeepSeek吗?你有去了解过DeepSeek吗?新手要入门DeepSeek的必经之路——初识DeepSeek
2025年伊始,DeepSeek 在全球AI业界引发广泛关注,它以2048张H800 GPU,仅用两个月就训练出了一个媲美全球顶尖水平的模型,打破了大模型军备竞赛的既定逻辑。
蒙奇D索隆
2025/02/11
5340
【人工智能】你知道什么是DeepSeek吗?你有去了解过DeepSeek吗?新手要入门DeepSeek的必经之路——初识DeepSeek
爆火的DeepSeek,你真的会用吗?
最近,AI 界可是被一个名字 “霸屏” 啦,它就是DeepSeek!这货简直像一颗突然冒出来的超级巨星,在全球范围内掀起了一阵 “龙卷风”。不管是刷社交媒体,还是逛科技论坛,到处都能看到大家在热烈讨论 DeepSeek。短短时间,它的下载量就像坐了火箭一样 “蹭蹭” 往上涨,直接在全球 140 多个市场的应用商店排行榜上 “C 位出道”,连曾经风光无限的 ChatGPT 在它面前都有点 “黯然失色” 了。
小码农薛尧
2025/02/12
1660
爆火的DeepSeek,你真的会用吗?
DeepSeek 精准使用提示词技巧和闭坑指南
这篇文章主要介绍了 DeepSeek 的精准使用提示词技巧和闭坑指南。包括基本使用方法,如深度思考、联网搜索、上传附件等功能的应用场景。提示词方面,强调精准高效提问,如明确需求、不定义过程、明确受众风格等技巧,还提到了反馈与迭代优化、复杂问题分步拆解等。闭坑指南包括避免冗长提示词、复杂句式等。
stark张宇
2025/03/02
1.9K3
DeepSeek-R1深度思考
与通义千问、文心一言等大模型的网页版相比,DeepSeek的页面更简洁,除了简单的介绍+对话框,深度思考和联网搜索两个选项,以及文档上传。不过DeepSeek的文档上传只有取消联网搜索的情况下才可操作,并且仅识别文字。
程序员架构进阶
2025/03/03
2800
DeepSeek-R1深度思考
“我是谁”:大模型的自我认知差异
实测,大模型谁更懂数据可视化?Gemini 2.5 Pro 是最强大的代码模型,毫无争议
Ai学习的老章
2025/06/09
1290
“我是谁”:大模型的自我认知差异
142页长文揭秘DeepSeek-R1「思维大脑」!开启全新「思维链学」研究
距离DeepSeek-R1这只「巨鲸」引发的全球AI海啸似乎刚刚平静下来,但推理模型已经成为了AI宠儿。
新智元
2025/04/23
1940
142页长文揭秘DeepSeek-R1「思维大脑」!开启全新「思维链学」研究
理解什么是推理模型,看懂这篇就够了
DeepSeek-R1、OpenAI o3-mini 和 Google Gemini 2.0 Flash Thinking 是通过“推理”框架将 LLMs 扩展到新高度的典范。
AIGC新知
2025/03/21
7350
理解什么是推理模型,看懂这篇就够了
V3 vs R1:DeepSeek 两大模型如何选择?| 送书福利
推理型模型, 提示词依赖程度弱,只要能表达清楚需求、任务和目的,R1 会“揣摩”提示词背后你想要什么。
深度学习与Python
2025/03/17
5180
V3 vs R1:DeepSeek 两大模型如何选择?| 送书福利
腾讯多款产品接入DeepSeek-R1模型,请体验
腾讯元宝、微信、ima、腾讯文档、QQ浏览器、QQ音乐等多款腾讯产品,在接入混元大模型的同时,接入DeepSeek-R1模型,欢迎体验。
小腾资讯君
2025/02/17
6030
DeepSeek + Ollama + Cherry Studio搭建本地私有知识库
知识库(Knowledge Base)是一个存储和管理知识的系统,通常包含结构化和非结构化的信息,用于帮助用户或系统快速查找和获取相关知识。
AmazingCoder
2025/02/26
4.6K4
全网最全DeepSeek保姆级攻略!这几个隐藏功能让工作效率翻倍
DeepSeek是由深度求索(DeepSeek AI)开发的一系列先进的人工智能模型,涵盖自然语言处理、代码生成、数学推理等多个领域,并以其高性能、高性价比和开源策略在业界脱颖而出。
AI研思录
2025/02/20
6450
全网最全DeepSeek保姆级攻略!这几个隐藏功能让工作效率翻倍
DeepSeek告诉我:程序员在AI时代不必焦虑
一、AI焦虑的本质:程序员为何担心被取代? 凌晨2点,程序员小王对着屏幕发呆。GitHub Copilot刚帮他自动补全了代码,但看着一行行自动生成的函数,他
方才编程_公众号同名
2025/02/04
7.3K2
DeepSeek告诉我:程序员在AI时代不必焦虑
DeepSeek爆了,问问它《哪吒2》今年为啥爆火
最近,国产大模型 DeepSeek 因其惊人的文本生成以及推理能力(深度思考)在 AI 界刷屏,并且《哪吒 2》也勇夺国产电影票房冠军。
wayn
2025/02/08
2660
DeepSeek爆了,问问它《哪吒2》今年为啥爆火
人工智能入门与高效使用DeepSeek的提示词指南
本文将分享一些使用 AI 和 DeepSeek 的技巧,帮助你更好地利用这些工具,提高效率。
星哥玩云
2025/03/03
3131
人工智能入门与高效使用DeepSeek的提示词指南
Deepseek V3/R1 技术内核 及 RAG 技术前沿进展
我知道大家和我一样,都是以一种特别积极的心态沉浸在这个 DeepSeek 的学习世界中。实际上,DeepSeek 在我们春节期间送给我们的这份“大礼包”,对我个人来说,就像是一下子把我抛回到了两年前的那个夜晚——2022 年 11 月 30 号,ChatGPT 诞生的那个夜晚。那时候,我充满了兴奋,感觉到了这个世界的不同,也感受到了大家对知识的渴望。所以,我非常急迫地想和大家分享我在这段时间里的心路历程和总结,一起探索这一切。
深度学习与Python
2025/02/27
2950
Deepseek V3/R1 技术内核 及 RAG 技术前沿进展
推荐阅读
相关推荐
使用DeepSeek必备的10个技巧
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档