文章/答案/技术大牛

发布

deepseek

共 5 篇文章

深入了解Deepseek模型的最佳三篇论文

深度揭秘DeepSeek：核心技术架构剖析与未来展望（1/18）

万字长文详解DeepSeek核心技术

60页PPT全解：DeepSeek系列论文技术要点整理

43页PPT｜天津大学《深度解读DeepSeek：原理与效应》

清单首页deepseek文章详情

清单「deepseek」 04/05

60页PPT全解：DeepSeek系列论文技术要点整理

languageX

DeepSeek-R1，让所有AI相关从业者，从年初卷到现在...

经过断断续续的整理，终于把DeepSeek系列论文的核心知识点汇总PPT完成差不多可以和大家分享了。虽然现在发布实在太晚，已经有铺天盖地的对deepseek技术解读文章和分享，但我依然希望将自己对DeepSeek V1到DeepSeek R1的理解与总结呈现给大家。

虽迟但到，希望这60页PPT对大家有所帮助。

MLA

MHA

GQA

MLA

MOE

MoEs和Transformer

GShard

Mixtral 8x7B

DeepSeekMoE

MTP

Blockwise Parallel Decoding

Better & Faster Large Language Models via MTP

DeepSeekV3-MTP

DualPipe

pipline parallel 流水线并行

Tensor parallel 张量并行

Expert parallel 专家并行

DualPipe 管道并行

FP8混合训练

GRPO

DeepSeek R1

参考：https://zhuanlan.zhihu.com/p/20844750193

DeepSeek-R1-Zero

DeepSeek-R1

DeepSeek-R1-Distill

在年初发布的DeepSeekR1，开源了671B的满血版以及一系列蒸馏模型后，很多企业开始紧锣密鼓的购买算力，私有化部署模型，在应用中接入ds，研究ds可以带来的价值；算法团队还要疯狂的学习以上技术点。

还没反应过来，不等大家休息，DeepSeek又来了开源周（2月24日至2月28日），开源6个核心技术项目，涵盖了从硬件优化到数据存储的全链路过程：

1.FlashMLA（2月24日）：

技术定位：针对NVIDIA Hopper GPU优化的多头潜在注意力（MLA）解码内核，专为处理可变长度序列设计。
核心创新点：
- 动态资源分配，按序列长度分配算力。
- 分页KV缓存，显存占用减少至1/4。
- 低秩分解技术，支持边缘部署。
性能亮点：算力峰值达580 TFLOPS，内存带宽3000 GB/s，延迟降低。

2.DeepEP（2月25日）：

技术定位：首个专为MoE（混合专家模型）设计的开源通信库，优化分布式训练与推理。
核心创新点：
- 支持NVLink和RDMA硬件级优化。
- FP8智能压缩，减少带宽需求。
- 通信-计算重叠，基于钩子式方法。
性能亮点：MoE模型训练性能提升，千亿模型训练成本降低。

3.DeepGEMM（2月26日）：

技术定位：面向Hopper GPU的高效FP8矩阵计算库，支持稠密模型和MoE模型的GEMM运算。
核心创新点：
- Tensor Core深度适配，实现1350+ FP8 TFLOPS。
- 显存优化，FP8精度下显存占用为FP16的1/4。
- 通用性接口设计，兼容Transformer和MoE模型。
性能亮点：算力利用率提升，训练迭代速度加快。

4.DualPipe和EPLB（2月27日）：

DualPipe：
- 技术定位：双向管道并行算法，专为DeepSeek-V3/R1模型设计。
- 核心创新点：双向计算-通信重叠，流水线气泡压缩，共享梯度传输。
- 性能亮点：训练速度提升，硬件利用率提升。
EPLB：
- 技术定位：面向MoE模型的动态负载均衡工具。
- 核心创新点：动态冗余专家分配，分层与全局负载均衡。
- 性能亮点：节点间通信流量减少，训练成本降低。

5.Fire-Flyer File System (3FS)（2月28日）：

技术定位：AI专用分布式文件系统，优化数据密集型任务吞吐。
核心创新点：
- 分解式架构，CRAQ协议强一致性。
- 全局存储共享，支持KVCache显存优化。
性能亮点：180节点集群聚合读取吞吐6.6 TiB/s，GraySort测试3.66 TiB/min。

6.Smallpond（2月28日）：

技术定位：基于3FS的轻量级PB级数据处理框架。
核心创新点：
- DuckDB集成列式存储与向量化计算。
- 弹性扩展，支持从单机到分布式集群。
性能亮点：两阶段分区排序策略，PB级数据处理效率提升。

刚刚部署完的模型，又要学习新技术，看如何将这些加速工程技术点应用到推理框架节约算力成本。虽然DeepSeekR1的激活参数少，但是原模型占用空间大，而且以上工程优化技术未应用到推理框架，实际的推理成本是很高的。

最后聊聊腾讯混元和ima，确实好用至少用这么久就只出现了一次服务器繁忙，而且今天体验发现他已经有了自己的T1模型，速度比R1快不少，不知道是模型规模小还是背后算力分配多，希望T1也能出技术报告~哈哈

最后最后，个人或者企业在实际落地场景其实不用一味追求T1和R1（尤其是满血版），可以从需求复杂度，算力成本，实际效果，回复响应来选择最适合自己的大模型~

，

参考：

除了论文，参考很多大佬的技术博客也很多，当时没有记录链接，都是从ima来的...

deepseek

60页PPT全解：DeepSeek系列论文技术要点整理

MLA

MHA

GQA

MLA

MOE

MoEs和Transformer

GShard

Mixtral 8x7B

DeepSeekMoE

MTP

Blockwise Parallel Decoding

Better & Faster Large Language Models via MTP

DeepSeekV3-MTP

DualPipe

pipline parallel 流水线并行

Tensor parallel 张量并行

Expert parallel 专家并行

DualPipe 管道并行

FP8混合训练

GRPO

DeepSeek R1

DeepSeek-R1-Zero

DeepSeek-R1

DeepSeek-R1-Distill

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐