DeepSeek-R1,让所有AI相关从业者,从年初卷到现在...
经过断断续续的整理,终于把DeepSeek系列论文的核心知识点汇总PPT完成差不多可以和大家分享了。虽然现在发布实在太晚,已经有铺天盖地的对deepseek技术解读文章和分享,但我依然希望将自己对DeepSeek V1到DeepSeek R1的理解与总结呈现给大家。
虽迟但到,希望这60页PPT对大家有所帮助。
参考:https://zhuanlan.zhihu.com/p/20844750193
在年初发布的DeepSeekR1,开源了671B的满血版以及一系列蒸馏模型后,很多企业开始紧锣密鼓的购买算力,私有化部署模型,在应用中接入ds,研究ds可以带来的价值;算法团队还要疯狂的学习以上技术点。
还没反应过来,不等大家休息,DeepSeek又来了开源周(2月24日至2月28日),开源6个核心技术项目,涵盖了从硬件优化到数据存储的全链路过程:
1.FlashMLA(2月24日):
2.DeepEP(2月25日):
3.DeepGEMM(2月26日):
4.DualPipe和EPLB(2月27日):
5.Fire-Flyer File System (3FS)(2月28日):
6.Smallpond(2月28日):
刚刚部署完的模型,又要学习新技术,看如何将这些加速工程技术点应用到推理框架节约算力成本。虽然DeepSeekR1的激活参数少,但是原模型占用空间大,而且以上工程优化技术未应用到推理框架,实际的推理成本是很高的。
最后聊聊腾讯混元和ima,确实好用至少用这么久就只出现了一次服务器繁忙,而且今天体验发现他已经有了自己的T1模型,速度比R1快不少,不知道是模型规模小还是背后算力分配多,希望T1也能出技术报告~哈哈
最后最后,个人或者企业在实际落地场景其实不用一味追求T1和R1(尤其是满血版),可以从需求复杂度,算力成本,实际效果,回复响应来选择最适合自己的大模型~
,
参考:
除了论文,参考很多大佬的技术博客也很多,当时没有记录链接,都是从ima来的...
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有