部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >DeepSeek神作论文速读:小透明如何长成屠龙勇士?

DeepSeek神作论文速读:小透明如何长成屠龙勇士?

作者头像
腾讯云开发者
发布2025-02-07 12:52:48
发布2025-02-07 12:52:48
2250
举报

最近 DeepSeek-v3 不要太火,这是他们最新的 V 系列模型,里面还内嵌了 R1,一个深度思考模型,总之都是大模型界的多快好省。

文章写得有点快,

我将从「零技术门槛」的角度,大致讲解 DeepSeek-V 系列的4篇论文。

本篇文章你将收获:

  1. 有效装杯,迅速理解贯穿4篇论文的技术逻辑;
  2. 欣赏 DeepSeek 如何怼人,它打了全球大模型的脸……
  3. 对技术崇拜、规则制定者的祛魅,世界永远等待屠龙少年。

4篇论文都可免费查询&下载,

《2401-DeepSeek LLM Scaling Open-Source Language Models with Longtermism(DeepSeek LLM:以长期主义视角扩展开源语言模型)》;《2405-DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model(DeepSeek-V2:一种强大、经济且高效的混合专家语言模型)》;《2408-Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning(面向深度学习的高性价比软硬件协同设计)》;《2412-DeepSeek-V3 Technical Report(DeepSeek-V3技术报告)》

虽然我们并非专业技术人员,也不是第一相关学科(像生物神经学、心理学……),但这并不妨碍我们能从其中轻微感受技术内在的逻辑,而这种逻辑可以让任何一个人为之颤抖。

全文零技术门槛,新手也能20分钟速通,阅读愉快。

在读论文的开头我想先提出一个

问题,

Why DeepSeek?

为什么是这家公司研究出了成本倒数第一,但性能却接近第一的模型?

Open AI、谷歌、微软,这些最早知名的公司都在干嘛呢?

要回答这个问题,就可以直接走进 DeepSeek 的早期论文之一:

《2401-DeepSeek LLM Scaling Open-Source Language Models with Longtermism(DeepSeek LLM:以长期主义视角扩展开源语言模型)》

2024.01,点名宣战。

《DeepSeek LLM Scaling Open-Source Language Models with Longtermis(DeepSeek LLM:以长期主义视角扩展开源语言模型)》

这篇论文的题目很有意思,Longtermism,翻译是长期主义视角,这是指什么呢?是说不能这么继续烧芯片吗,钱总有烧不起的那一天?

yes。

那么,与 Longtermism 相对的,谁是短期主义呢?

好问题。

首先我们要知道 scaling law 这个规模法则,

这曾经是模型届的基石定律,就是说模型越大(里面喂的数据越多),那么模型的性能也就会越好。

这个定律是谁提出的呢?

当然是老大哥呀。

“This wave is sparked with closed products,such as ChatGPT(Open AI 2022), Claude(An-thropic,2023), and Bard(Google,2023), which are developed with extensive computatinoal resources and subsatntial annotaion cocts.

Following LLaMa, the open-source community has primarily focuse on training fixed-size(7B,13B,34B,and70B),high-quality models, often neglecting research exploration into LLM scaling laws.”

论文写得非常优雅,

我来翻译一下:

规则制定者们(This wave is sparked with closed products)!

说的就是你!你们这些以 ChatGPT 为首的「闭源模型」!

你们都是利用了大量的计算资源(需要钱)和标注成本(需要钱)开发的,

所以你们才会特别关注每提升一个数据量级就会对模型带来的提升。

(其一,烧钱确实是技术进步的方式之一;

但是其二,你们把这种普通企业难以维持的成本投入,作为了自己的竞争壁垒。

所以,这到底是真正的技术定律、科学,还是你们人为诱导的竞争策略?)

而我们这些「开源社区」,就在那里一味的盲从(the open-source community……often neglecting research exploration into LLM scaling laws),

本来就没有钱,穷的叮当响,堆不起参数,

再说了,我们做的是中型模型(在个人电脑上就可以部署那种),赛道不同,

直接默认我们这种开源模型做不过人家闭源大模型就可以了。

但是,抱歉了,

我 DeepSeek 不这么认为。

Therefore, we revisit scaling laws in this section to address these uncertainties and ensure we are on the right path to efficiently scale-up compute, which reflects the long-term perspctive and is key to developing continuously improving models.

我们决定重新审视「规模定律」,去解决这里的不确定性(因为之前已经出现过规模定律失效的问题),确保我们走在更有效的计算路径上,这是模型能够持续改进的关键。

超级热血。

大模型的主流叙事一向是烧钱,这种叙事被三方牢牢把控:

以 Open AI 为首,以烧钱作为技术和竞争壁垒的闭源软件公司。

以英伟达为首,以让别人花钱为目的的硬件公司。

以学术顶刊为首,学术圈唯数学论、唯算法论的盲目崇拜。

光天化日之下,何曾有过新鲜事?

李飞飞作为 AI 教母,给了神经网络得以训练的图像大数据集,这里包括2200万人工标注图像,让神经网络这项被误认为失效的技术,终于得到了发挥。如果没有她,可以说所有算法都找不着路,所有算法都是零。

但李飞飞在学术圈得到了什么呢?

她的“数据集”思路曾经被无数人认为老土,没有人愿意加入她的研究,

因为大家只崇拜数学,认为模型=数学,没人觉得模型跟数据集有什么关系。

回看 DeepSeek 今天攻破的成本问题,状况何其相似?

现在让我们回到这篇论文,

这里蕴含了 DeepSeek 较为早期的思考,闪光、锐利、且优美,真的是屠龙少年之感。

V1 版本的主要观点

模型性能的提升不仅依赖参数的增加,还和数据质量、训练策略密切相关。

人不能光有钱还要会花钱,大概这意思。

他们在 V1 上的第一次改进,分为以下三个重点:

  1. 在数据集上改进,可以不大,但要足够优质;
  2. 在查询方式上改进(分组查询注意力-Grouped Query Attention,简称 GQA),通过分组查询减少计算复杂度,提高模型性能;
  3. 深度优先设计(Depth-First Design ,简称 DFD),加高模型层数,这更类似于人类解题时“一层层”推理的思维方式,使其在数学推理、代码生成等任务中表现更优。

下面举一个分组查询的例子:

FYI.分组这个概念比较重要,DeepSeek从v1-v3,在几个关键技术上,像GQA、MOE,都用了分组逻辑,这实现了它多维优化(显存、计算、容量)的目的。

它有点像,你去图书馆查一本书,按照分类查、按照首字母查,都会比随机的无序查询更快,因为分组首先减少了计算的复杂度,也就显著减少计算量和内存占用。

这篇论文中还有 SFT 和 DPO 两个技术,就不展开讲了。这两个技术主要是让模型输出的对话效果更好(更接近于人类想要的,

比如说让模型在正确性和安全性之间选安全,不要教人制造炸弹,而是劝你想开点……

时间来到2024年5月,DeepSeek-V2。

如果你看到这不想看了,可以直接把这段话拿走:

第一步,先省算力;

Grouped(各干各的流派)——分组查询(GQA)+MOE(混合专家,各司其职,减少无关激活)+LFBS(无损失负载均衡,让专家更好的干活)

第二步,再刀硬件;

HF Reduce(降维打击流,让顶级软件可以带动中端硬件)

第三步,绝活展示;

Multi(全能推理流),MLA(压缩存储)+MTP(预判全局)。M是multi的缩写,带这个单词的通常都很强…

第二篇论文的标题叫:

《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model(DeepSeek-V2:一种强大、经济且高效的混合专家语言模型)》

你好我叫 Economical,我的长期主义叫便宜。

该论文获得荣誉如下:

硅谷研究者评价其论文“充满惊人智慧”,SemiAnalysis 称其为“年度最佳技术报告”,MLA 架构被视为 Transformer 核心组件的首次成功改进。

先来看标题里提到的 Mixture-of- Experts,

混合专家技术。

记得v1中的分组概念吗,他们也是把专家进行了分组,

这个太好懂啦,有钱人,从不在1个人身上满足10个需求!

而是找10个人满足10个需求!……

他们在模型里训练了各种优势不一的模块,有的更擅长推理计算,有的更擅长情感计算。

用哪个激活哪个,不用就不激活。

因此,DeepSeek-V2虽然总共有2360亿参数,但每次处理任务时只激活其中210亿参数(约为总参数的9%)。

「多头潜在注意力(MLA)」是做什么呢?

简单理解哈,这个有点像 Mind Palace,福尔摩斯的记忆宫殿。

它记东西的时候会把每个东西贴上标签,放到一个特定的房间里特定的位置,比如一个抽屉里,然后把这个抽屉推回去,当然也可以随时拉出来。

传统模型是一个字一个字存储的,没有标签、没有折叠抽屉,全摊地上。

这从占地面积上(内存),就加上去了。

那为什么这种 MLA 技术被视为 Transformer 核心组件的首次成功改进,能获得如此高的荣誉呢?

因为 Transformer 是大模型届的网红,顶流架构,改进它比较困难。让我们来类比一下:

CNN(最早的卷积神经网络):打工人-画家,从画布的局部细节(如一朵花的轮廓)开始,逐步叠加层次,最终完成整幅画的构图。

Transformer(2019年提出,2024年被 DeepSeek 首次改进):管理层-策展人,瞬间扫视整个画廊的所有画作,根据作品间的关联性(颜色、主题)快速策划展览布局。

MLA:资本家-画廊老板。不仅快速评估作品关联性,还将展览目录压缩成一本便携手册(低秩压缩),需要时可随时展开手册还原完整信息,无需携带所有画作原件(完整 KV Cache)。

……

以上的举例只是一种对技术的文字修辞,和其真正的蕴意也许谬之千里,但技术就像一阵风,虽然我们并不生产风,但可以观察当风吹过花朵时一片花瓣的样子。

持续狂奔,3个月后,2024年8月:

《Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning(面向深度学习的高性价比软硬件协同设计)》

这篇没有模型架构创新,就理解为前面两篇论文把船造好了,

现在他们开始挖河了。

这条河是什么呢?

他们提出了一个用“顶级软件”和“中端硬件”的协同方案,叫做 HF Reduce。

因为尽管一会儿 Economical 一会儿 cost effective,口号非常好听,

但那都是软件啊,芯片硬件才是预算大头,

如果软件无法在中端芯片集群上良好运转的话,Economical 不了多久。

虽然他们依然用的是英伟达的硬件,但是使用了 Pcle 接口的 A100 芯片(便宜版本,而非更昂贵的 NVIDIA DGX),比原来 AI 训练的专用芯片直接少了一半的成本。

成果验证:

在10,000 GPU 集群上,实现了 DGX-A100 80%的性能,同时降低50%成本和40%能耗,证明了该设计的成本效益。

2024年12月,在刚刚过去的年末,DeepSeek-V3:

《24.12 DeepSeek-V3 Technical Report(DeepSeek-V3 技术报告)》

这篇论文里的 DeepSeek-V3,被评价为“开源模型的巅峰之作。

“With a froward-looking perspective, we consistenly strive for strong model performance and economical costs”.

我们以前瞻性的眼光,一贯努力追求强大的性能和划算的成本。

听起来很像获奖感言……前三篇还在奋力屠龙,这篇已经站领奖台了。

这里主要的模型架构都是对前两篇论文中技术的延续。

回想一下他们从 V1 设计的 grouped(分组查询)-V2 的混合专家(mixed of experts),现在 V3 在这里又提出一个概念,叫:无辅助损失的负载均衡(LFBS,Loss-Free Load Balancing Strategy )。

上回不是说让专家分工吗,但是如果用户只想调动某一个专家怎么办?

给所有专家进行强平?给每一个人强制公平、强制平均的工作量?

他们在这里设计了两个指标,来实现「无辅助损失的负载均衡」:一个是「偏好值」,一个是「工作量」。

意思就是说当某一个专家快累死了(负载过大),算法就会自动降低他的工作兴趣(降低偏好值),转移到其他专家身上(降低工作量)。

这样每个专家都能够实现动态稳定,模型性能就能够稳定。

同时在 MLA(多头潜在注意力)上还有一个技术叫 MTP(Multi-Token-Prediction,多标记预测),

MLA 可以为棋手提供压缩版棋谱手册(快速查阅历史棋局),MTP 训练其预判对手未来3步的习惯。

那么一次可以往后看更多步的 MTP,相比一次只能往后看一步的传统预测,就会更有整体判断能力、看到更多的结构问题,最终得出的结论也更有逻辑。

-End-

原创作者|xiuyan

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档