DeepSeek-R1,让所有AI相关从业者,从年初卷到现在...
经过断断续续的整理,终于把DeepSeek系列论文的核心知识点汇总PPT完成差不多可以和大家分享了。虽然现在发布实在太晚,已经有铺天盖地的对deepseek技术解读文章和分享,但我依然希望将自己对DeepSeek V1到DeepSeek R1的理解与总结呈现给大家。
虽迟但到,希望这60页PPT对大家有所帮助。
MLA
MHA
GQA
MLA
MOE
MoEs和Transformer
GShard
Mixtral 8x7B
DeepSeekMoE
MTP
Blockwise Parallel Decoding
Better & Faster Large Language Models via MTP
DeepSeekV3-MTP
DualPipe
pipline parallel 流水线并行
Tensor parallel 张量并行
Expert parallel 专家并行
DualPipe 管道并行
FP8混合训练
GRPO
DeepSeek R1
参考:https://zhuanlan.zhihu.com/p/20844750193
DeepSeek-R1-Zero
DeepSeek-R1
DeepSeek-R1-Distill
在年初发布的DeepSeekR1,开源了671B的满血版以及一系列蒸馏模型后,很多企业开始紧锣密鼓的购买算力,私有化部署模型,在应用中接入ds,研究ds可以带来的价值;算法团队还要疯狂的学习以上技术点。
还没反应过来,不等大家休息,DeepSeek又来了开源周(2月24日至2月28日),开源6个核心技术项目,涵盖了从硬件优化到数据存储的全链路过程:
1.FlashMLA(2月24日):
- 技术定位:针对NVIDIA Hopper GPU优化的多头潜在注意力(MLA)解码内核,专为处理可变长度序列设计。
- 核心创新点:
- 动态资源分配,按序列长度分配算力。
- 分页KV缓存,显存占用减少至1/4。
- 低秩分解技术,支持边缘部署。
- 性能亮点:算力峰值达580 TFLOPS,内存带宽3000 GB/s,延迟降低。
2.DeepEP(2月25日):
- 技术定位:首个专为MoE(混合专家模型)设计的开源通信库,优化分布式训练与推理。
- 核心创新点:
- 支持NVLink和RDMA硬件级优化。
- FP8智能压缩,减少带宽需求。
- 通信-计算重叠,基于钩子式方法。
- 性能亮点:MoE模型训练性能提升,千亿模型训练成本降低。
3.DeepGEMM(2月26日):
- 技术定位:面向Hopper GPU的高效FP8矩阵计算库,支持稠密模型和MoE模型的GEMM运算。
- 核心创新点:
- Tensor Core深度适配,实现1350+ FP8 TFLOPS。
- 显存优化,FP8精度下显存占用为FP16的1/4。
- 通用性接口设计,兼容Transformer和MoE模型。
- 性能亮点:算力利用率提升,训练迭代速度加快。
4.DualPipe和EPLB(2月27日):
- DualPipe:
- 技术定位:双向管道并行算法,专为DeepSeek-V3/R1模型设计。
- 核心创新点:双向计算-通信重叠,流水线气泡压缩,共享梯度传输。
- 性能亮点:训练速度提升,硬件利用率提升。
- EPLB:
- 技术定位:面向MoE模型的动态负载均衡工具。
- 核心创新点:动态冗余专家分配,分层与全局负载均衡。
- 性能亮点:节点间通信流量减少,训练成本降低。
5.Fire-Flyer File System (3FS)(2月28日):
- 技术定位:AI专用分布式文件系统,优化数据密集型任务吞吐。
- 核心创新点:
- 分解式架构,CRAQ协议强一致性。
- 全局存储共享,支持KVCache显存优化。
- 性能亮点:180节点集群聚合读取吞吐6.6 TiB/s,GraySort测试3.66 TiB/min。
6.Smallpond(2月28日):
- 技术定位:基于3FS的轻量级PB级数据处理框架。
- 核心创新点:
- DuckDB集成列式存储与向量化计算。
- 弹性扩展,支持从单机到分布式集群。
- 性能亮点:两阶段分区排序策略,PB级数据处理效率提升。
刚刚部署完的模型,又要学习新技术,看如何将这些加速工程技术点应用到推理框架节约算力成本。虽然DeepSeekR1的激活参数少,但是原模型占用空间大,而且以上工程优化技术未应用到推理框架,实际的推理成本是很高的。
最后聊聊腾讯混元和ima,确实好用至少用这么久就只出现了一次服务器繁忙,而且今天体验发现他已经有了自己的T1模型,速度比R1快不少,不知道是模型规模小还是背后算力分配多,希望T1也能出技术报告~哈哈
最后最后,个人或者企业在实际落地场景其实不用一味追求T1和R1(尤其是满血版),可以从需求复杂度,算力成本,实际效果,回复响应来选择最适合自己的大模型~
,
参考:
除了论文,参考很多大佬的技术博客也很多,当时没有记录链接,都是从ima来的...