Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >60页PPT全解:DeepSeek系列论文技术要点整理

60页PPT全解:DeepSeek系列论文技术要点整理

原创
作者头像
languageX
修改于 2025-03-16 00:07:19
修改于 2025-03-16 00:07:19
4.7K1
举报
文章被收录于专栏:大语言模型大语言模型

DeepSeek-R1,让所有AI相关从业者,从年初卷到现在...

经过断断续续的整理,终于把DeepSeek系列论文的核心知识点汇总PPT完成差不多可以和大家分享了。虽然现在发布实在太晚,已经有铺天盖地的对deepseek技术解读文章和分享,但我依然希望将自己对DeepSeek V1到DeepSeek R1的理解与总结呈现给大家。

虽迟但到,希望这60页PPT对大家有所帮助。

MLA

MHA

GQA

MLA

MOE

MoEs和Transformer

GShard

Mixtral 8x7B

DeepSeekMoE

MTP

Blockwise Parallel Decoding

Better & Faster Large Language Models via MTP

DeepSeekV3-MTP

DualPipe

pipline parallel 流水线并行

Tensor parallel 张量并行

Expert parallel 专家并行

DualPipe 管道并行

FP8混合训练

GRPO

DeepSeek R1

参考:https://zhuanlan.zhihu.com/p/20844750193

DeepSeek-R1-Zero

DeepSeek-R1

DeepSeek-R1-Distill

在年初发布的DeepSeekR1,开源了671B的满血版以及一系列蒸馏模型后,很多企业开始紧锣密鼓的购买算力,私有化部署模型,在应用中接入ds,研究ds可以带来的价值;算法团队还要疯狂的学习以上技术点。

还没反应过来,不等大家休息,DeepSeek又来了开源周(2月24日至2月28日),开源6个核心技术项目,涵盖了从硬件优化到数据存储的全链路过程:

1.FlashMLA(2月24日):

  • 技术定位:针对NVIDIA Hopper GPU优化的多头潜在注意力(MLA)解码内核,专为处理可变长度序列设计。
  • 核心创新点
    • 动态资源分配,按序列长度分配算力。
    • 分页KV缓存,显存占用减少至1/4。
    • 低秩分解技术,支持边缘部署。
  • 性能亮点:算力峰值达580 TFLOPS,内存带宽3000 GB/s,延迟降低。

2.DeepEP(2月25日):

  • 技术定位:首个专为MoE(混合专家模型)设计的开源通信库,优化分布式训练与推理。
  • 核心创新点
    • 支持NVLink和RDMA硬件级优化。
    • FP8智能压缩,减少带宽需求。
    • 通信-计算重叠,基于钩子式方法。
  • 性能亮点:MoE模型训练性能提升,千亿模型训练成本降低。

3.DeepGEMM(2月26日):

  • 技术定位:面向Hopper GPU的高效FP8矩阵计算库,支持稠密模型和MoE模型的GEMM运算。
  • 核心创新点
    • Tensor Core深度适配,实现1350+ FP8 TFLOPS。
    • 显存优化,FP8精度下显存占用为FP16的1/4。
    • 通用性接口设计,兼容Transformer和MoE模型。
  • 性能亮点:算力利用率提升,训练迭代速度加快。

4.DualPipe和EPLB(2月27日):

  • DualPipe
    • 技术定位:双向管道并行算法,专为DeepSeek-V3/R1模型设计。
    • 核心创新点:双向计算-通信重叠,流水线气泡压缩,共享梯度传输。
    • 性能亮点:训练速度提升,硬件利用率提升。
  • EPLB
    • 技术定位:面向MoE模型的动态负载均衡工具。
    • 核心创新点:动态冗余专家分配,分层与全局负载均衡。
    • 性能亮点:节点间通信流量减少,训练成本降低。

5.Fire-Flyer File System (3FS)(2月28日):

  • 技术定位:AI专用分布式文件系统,优化数据密集型任务吞吐。
  • 核心创新点
    • 分解式架构,CRAQ协议强一致性。
    • 全局存储共享,支持KVCache显存优化。
  • 性能亮点:180节点集群聚合读取吞吐6.6 TiB/s,GraySort测试3.66 TiB/min。

6.Smallpond(2月28日):

  • 技术定位:基于3FS的轻量级PB级数据处理框架。
  • 核心创新点
    • DuckDB集成列式存储与向量化计算。
    • 弹性扩展,支持从单机到分布式集群。
  • 性能亮点:两阶段分区排序策略,PB级数据处理效率提升。

刚刚部署完的模型,又要学习新技术,看如何将这些加速工程技术点应用到推理框架节约算力成本。虽然DeepSeekR1的激活参数少,但是原模型占用空间大,而且以上工程优化技术未应用到推理框架,实际的推理成本是很高的。

最后聊聊腾讯混元和ima,确实好用至少用这么久就只出现了一次服务器繁忙,而且今天体验发现他已经有了自己的T1模型,速度比R1快不少,不知道是模型规模小还是背后算力分配多,希望T1也能出技术报告~哈哈

最后最后,个人或者企业在实际落地场景其实不用一味追求T1和R1(尤其是满血版),可以从需求复杂度,算力成本,实际效果,回复响应来选择最适合自己的大模型~

参考:

除了论文,参考很多大佬的技术博客也很多,当时没有记录链接,都是从ima来的...

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
好详细
好详细
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
【DeepSeek】DeepSeek概述 | 本地部署deepseek
DeepSeek是由中国的深度求索公司开发的一系列人工智能模型,以其高效的性能和低成本的训练而受到关注。以下是其主要介绍:
枫叶丹
2025/02/08
2K1
【DeepSeek】DeepSeek概述 | 本地部署deepseek
大胆点!你猜DeepSeek的利润率有多高?
这种一周真是热闹啊,DeepSeek开源周,连续五天(2025年2月24日至28日)开源了5个核心技术项目,覆盖AI模型训练、推理优化、文件系统等多个领域,在今天还放出来了One more thing,直接把自己的利润率放出来了(真不拿用户当外人,哈哈)
拓荒者IT
2025/03/16
1450
大胆点!你猜DeepSeek的利润率有多高?
万字长文详解DeepSeek核心技术
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/18
2.6K0
万字长文详解DeepSeek核心技术
PPT汇总:DeepSeek核心技术前世今生
因为本文是小白方式,尽可能讲解思路为主,所以技术上涉及到的公式部分不会细讲哦。公式部分如有时间会单开文章细细讲解。
腾讯云开发者
2025/03/06
7500
PPT汇总:DeepSeek核心技术前世今生
43页PPT|天津大学《深度解读DeepSeek:原理与效应》
这篇文章是对天津大学自然语言处理实验室的深度解读报告《深度解读DeepSeek:原理与效应》的总结。以下是文章的主要内容:
luckpunk
2025/02/28
5721
43页PPT|天津大学《深度解读DeepSeek:原理与效应》
DeepSeek开源周项目汇总,世界上从来没有什么腾空出世!
最近一个月,给了自己一个深入了解DeepSeek的机会,汇总记录如下:用通俗易懂的话,讲述DeepSeek开源的那些项目。
架构师之路
2025/03/24
2K0
DeepSeek开源周项目汇总,世界上从来没有什么腾空出世!
一本书读懂DeepSeek核心技术(文末送书)
2025年年初,DeepSeek 成为全球人工智能(AI)领域的焦点,其DeepSeek-V3 和DeepSeek-R1 版本在行业内引发了结构性震动。
老_张
2025/05/21
3200
一本书读懂DeepSeek核心技术(文末送书)
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.7K0
深入了解Deepseek模型的最佳三篇论文
DeepSeek开源周:这五个项目为何只与两类公司有关?
当DeepSeek宣布连续五天开源五个底层项目时,朋友圈里出现了有趣的分化:一类人疯狂转发技术细节,另一类人则默默关闭了页面。这背后折射出一个残酷的现实——AI基础设施的优化,本质上是一场只有少数玩家能参与的"军备竞赛"。
范赟鹏
2025/05/30
2040
刚刚,DeepSeek开源MoE训练、推理EP通信库DeepEP,真太Open了!
上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。
机器之心
2025/02/25
2740
刚刚,DeepSeek开源MoE训练、推理EP通信库DeepEP,真太Open了!
DeepSeek 模型:架构创新与实际应用详解
DeepSeek 模型是近年来在自然语言处理(NLP)领域备受瞩目的开源大规模语言模型系列。其最新版本 DeepSeek-V3 采用了混合专家(Mixture-of-Experts,MoE)架构,拥有 6710 亿个参数,每个词元(token)激活 370 亿个参数。该模型在多项基准测试中表现出色,性能媲美 GPT-4 和 Claude 等领先的闭源模型。以下将详细介绍 DeepSeek 模型的架构、用途,并通过具体案例和源代码展示其应用。
编程小妖女
2025/01/16
6K0
DeepSeek 模型:架构创新与实际应用详解
对DeepSeek事件的复盘和展望
作者简介:腾讯云TVP、北京交通大学计算机学院教授、计算机科学系主任、交通大数据与人工智能教育部重点实验室副主任。主要研究方向为多模态计算、网络数据挖掘、可信与对齐、AI Agent等。曾获中科院院长特别奖、ACM中国新星奖,作为负责人先后承担相关方向的国家自然科学基金重点项目、(首批)新一代人工智能重大项目课题、北京市杰出青年基金和国家级青年人才计划,第一/二作者论文7次获得中国计算机学会推荐国际会议的主会论文奖项,以第二完成人获得中国电子学会自然科学一等奖和北京市科学技术奖。
TVP官方团队
2025/02/03
1.3K0
对DeepSeek事件的复盘和展望
深度揭秘DeepSeek:核心技术架构剖析与未来展望(1/18)
DeepSeek 是一家专注于开发先进大语言模型(LLM)和相关技术的研究公司,由知名量化资管巨头幻方量化于 2023 年 7 月 17 日创立。自成立以来,DeepSeek 凭借其在大语言模型领域的创新与突破,迅速在 AI 领域崭露头角。
正在走向自律
2025/02/13
2K0
深度揭秘DeepSeek:核心技术架构剖析与未来展望(1/18)
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/27
1.2K0
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
开源大模型DeepSeek.ai火遍全球:9条让DeepSeek颠覆通用大模型的事实
DeepSeek.ai为什么会成功? DeepSeek.ai成功的原因是什么? DeepSeek.ai有哪些不为人知的秘密? DeepSeek.ai火遍全球的几个事实:
猫头虎
2025/02/02
5240
如何重现 DeepSeek 推理性能突破
DeepSeek-V3 在多个评测中展现出强大性能,成为当前最受关注的开源大模型之一。由于采用了大规模 MoE 架构,如何优化推理性能,是工程落地上的关键难点。DeepSeek 团队于 2 月相继开源了 DeepEP、DeepGEMM、FlashMLA、EPLB 等关键组件。在开源社区工作的基础上,我们在 RTP-LLM 上完成了优化工作,对齐了 DeepSeek 推理系统的性能。
深度学习与Python
2025/05/21
3150
如何重现 DeepSeek 推理性能突破
DeepSeek开源周第四天:优化的并行策略
Deepseek开源周第三弹:DeepSeek-V3和R1 模型背后的并行计算优化技术。
AIGC新知
2025/02/28
3250
DeepSeek开源周第四天:优化的并行策略
颠覆时代!DeepSeek登场后,英伟达股价一夜蒸发17%!算力封锁还有意义吗?
从前大家都认为,要训练一个大模型往往需要大规模的算力集群才能够搞出一个ChatGPT出来。
算法一只狗
2025/01/28
1880
颠覆时代!DeepSeek登场后,英伟达股价一夜蒸发17%!算力封锁还有意义吗?
李建忠:DeepSeek关键技术创新及对AI生态的影响
作者简介:李建忠,腾讯云 TVP,CSDN高级副总裁,Boolan ⾸席技术专家,全球机器学习技术⼤会主席。对软件架构、产品创新、人工智能有丰富经验和深入研究。近年来主要研究以⼤语⾔模型为主的⼈⼯智能⽅法在软件领域的应用,提出科技创新的“范式转换立方体 ParaShift Cube”,相关研究和演讲引起业界强烈关注。
TVP官方团队
2025/02/06
11K0
李建忠:DeepSeek关键技术创新及对AI生态的影响
一文读懂 DeepSeek 开源周的五大神器!让普通人也能跨AI的山和海
你是否曾经被高昂的AI硬件成本折磨到崩溃?是否因为大模型训练速度太慢而熬夜到天亮?是否为企业AI落地的算力瓶颈而焦头烂额?...
一臻AI
2025/03/06
3380
一文读懂 DeepSeek 开源周的五大神器!让普通人也能跨AI的山和海
推荐阅读
相关推荐
【DeepSeek】DeepSeek概述 | 本地部署deepseek
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档