
本文基于 DeepSeek 2025 官方发布的技术报告与论文整理,相关论文引用见文末参考文献
2025 年的 LLM 战场,DeepSeek 无疑是一个无法被忽视的 “异类”。
当大多数厂商还在卷参数规模、卷多模态对齐、卷榜单分数时,DeepSeek 用整整一年的时间,在两条看似平行、实则紧密咬合的轨道上跑出了惊人的加速度:
R1 的强化学习尝试,到 Prover 的形式化验证,再到 Math-V2 的自验证,试图让模型从 “概率生成” 走向 “逻辑推演”。MLA 到 DSA,从 FP8 训练到视觉压缩 OCR,把大模型的 “贵族游戏” 变成了 “平民基建”。如果只盯着模型名字看,你看到的只是版本号的更迭;但当我们把 2025 年 DeepSeek 发布的所有技术报告、论文和 API 更新按时间轴铺开,一幅关于 “下一代 AI 基础设施” 的完整拼图便清晰浮现。
从 2025 年 1 月 20 号到 2026 年 2 月 10 号,尝试用一篇文章来全景复盘 DeepSeek 的 2025:
标题 | 发布日期 | 研究方向 |
|---|---|---|
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(DeepSeek-R1 模型) | 2025年1月20日 | 推理对齐(大模型经由强化学习提升推理能力) |
DeepSeek-V3 Technical Report(DeepSeek-V3 主模型技术报告) | 2025年3月25日 | 大语言模型(超大规模 MoE 架构,主线模型系列) |
DeepSeek-V3.1(DeepSeek-V3.1 混合推理模型) | 2025年8月21日 | 大语言模型+Agent(支持Think/非Think模式,多工具使用) |
DeepSeek-V3.2-Exp(DeepSeek-V3.2 实验版模型) | 2025年9月29日 | 大语言模型(Sparse Attention长上下文优化,实验性) |
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models(DeepSeek-V3.2 模型) | 2025年12月1日 | 大语言模型+工具使用(主线模型升级,强化推理与Agent能力) |
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning(DeepSeekMath 第二版) | 2025年11月27日 | 数学推理(自验证数学推理,竞赛问题解答) |
DeepSeek-OCR: Contexts Optical Compression(DeepSeek-OCR 模型) | 2025年10月20日 | OCR/文档理解(视觉压缩文本,长文档处理) |
DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via RL(DeepSeek-Prover-V2 定理证明模型) | 2025年7月18日 | 数学推理(形式化定理证明,高度研究导向) |
2025 开年,DeepSeek 就用两套组合拳奠定了全年的基调:R1 的 “脑力” 和 V3 的 “体力”。
在 R1 之前,业界的共识是 “更多的高质量 SFT(监督微调)数据带来更好的推理”。但 R1-Zero 打破了这一惯例:纯 RL,不依赖 SFT 冷启动,模型依然能涌现出自我反思与验证能力。
为什么要分 R1-Zero 和 R1?
DeepSeek 在论文中提到:R1-Zero 虽然在数学和代码上表现出惊人的 “顿悟”(Aha Moment),但它经常出现语言混合、语气不连贯、甚至自我重复的问题。这说明纯 RL 虽然能优化逻辑路径,但很难控制 “表面形式”。
因此,DeepSeek 提出了 “冷启动数据 + 多阶段训练” 的 pipeline:
Chain-of-Thought (CoT) 数据进行微调,让模型学会 “按步骤思考” 的格式。这不仅仅是一个新模型,它验证了一种 可复用的 Scale-up 范式 。它告诉开发者:推理能力不需要像教小学生一样一步步用 Prompt 诱导,而是可以通过设计合理的 Reward Model,让模型在数万次试错中自己“悟”出来。这种后训练方法,成为 2025 年所有 “慢思考” 模型的基础。
671B MoE 架构,公开 MLA 细节,强调推理/工具分离。V3 是 DeepSeek 2025 年的 “肉盾”,671B 的总参数看似庞大,但每次推理只激活 37B,这种极致的 MoE(混合专家)策略,配合 MLA(Multi-head Latent Attention),彻底改写了算力账本。
MLA 如何解决显存瓶颈?
在长文本和高并发场景下,Transformer 的 KV Cache 是显存杀手;传统的 MQA(多查询注意力)虽然减少了 KV 数量,但损失了部分性能。
DeepSeek-V3 提出的 MLA(多头潜在注意力) 采用了一种 “低秩键值联合压缩”(Low-Rank Key-Value Joint Compression)技术。简单来说,它不再直接存储巨大的 KV 矩阵,而是将其压缩成低维的 Latent Vector(潜在向量),在计算注意力时再还原。
这一设计使得 V3 在保持高性能的同时,显存占用仅为同级模型的几分之一,从而能在单卡上支持更大的 Batch Size,大幅提升吞吐量。
DeepSeekMoE 的细粒度路由
与传统的 MoE 不同,V3 采用了 “细粒度专家”(Fine-grained Experts)策略。它不是选 2 个大专家,而是把专家切得更碎,让 Token 可以更灵活地组合 64 个甚至更多的小专家。同时,通过 无辅助损失的负载均衡策略,避免了传统 MoE 训练中为了追求负载均衡而牺牲模型性能的问题。
第二季度,DeepSeek 做了两件 “硬核” 且 “反常识” 的事:搞数学证明,以及公开底层万卡集群的细节。
Lean 4 的形式化定理证明模型。大模型的最大软肋是 “一本正经胡说八道”。Prover-V2 选择了一条极其狭窄但陡峭的路:形式化验证。它不是生成自然语言,而是生成 Lean 4 代码,并在编译器中验证通过率。
Recursive Proof Pipeline
Prover-V2 不仅仅是 “生成代码”,它引入了类似 AlphaGo 的搜索策略。论文中提出了一种管线:
V3 强大的通用能力,将复杂的数学证明题拆解为一系列子目标。RL 强化阶段,利用 Lean 4 编译器的反馈(Pass/Fail)作为绝对客观的奖励信号。在 MiniF2F-test 上 88.9% 的通过率证明了:当把推理约束在严格的编译器规则下时,AI 的逻辑严谨性可以达到工业级标准。这对未来的代码生成、金融合规推理具有降维打击的意义。
2048 张 H800 集群的训练细节。这篇论文是 2025 年少有的 “工程自白书”。大多数人只谈算法,DeepSeek 却谈 带宽、通信与流水线并行。
FP8 混合精度训练的挑战
V3 是在 FP8精度下训练的。FP8 虽然快,但精度损失大,极易导致训练发散。DeepSeek 披露了他们的解决方案:
这篇论文解释了为什么 DeepSeek 能以更低的成本训练出同级别的模型,这不仅是算法的胜利,更是 系统架构与硬件协同设计 的胜利。
年中,DeepSeek 开始密集修补短板,为 Agent 的爆发蓄力。
JSON/Function Calling,发布 V3.1 强化工具使用。推理模型要落地,必须能连 API;R1-0528 重点解决了 结构化输出(JSON) 的问题,这听起来不性感,但对于开发者来说至关重要。随后的 V3.1 更是直接点名 SWE-bench(软件工程)和 Terminal-Bench,强调多步搜索与复杂任务的执行能力。
V3.1-Terminus 版本专门针对中英文混杂、随机字符等 “小毛病” 进行了清洗。这些看似琐碎的更新,恰恰是 Agent 从 Demo 走向 Production 的关键。DeepSeek 意识到,Agent 的瓶颈不在于 “能写出一首好诗”,而在于 “能连续调用 10 次 API 而不出错”。
DSA(稀疏注意力),发布视觉压缩 OCR。长文本很贵,且处理很慢。DeepSeek 在 Q3 给出了两个解法:
Attention 机制是 复杂度,文本越长,计算量爆炸。V3.2-Exp 引入的 DSA 通过稀疏化策略,只计算 “重要 Token” 之间的关联,忽略无关部分。这直接导致了 API 价格下调 50%+,让百万级 Token 的上下文处理成为可能。OCR 是 “识别字符 -> 拼凑文本”,容易出现乱码或格式错误。DeepSeek-OCR 提出了一种 “视觉压缩” 思路:Vision Encoder 把长文档(如 PDF)直接映射为高信息密度的 Visual Tokens。OCR 精度依然可控;在 10 倍压缩比下,精度高达 97%。年底的 DeepSeek 完成了最后的闭环:让 “思考” 不仅用于答题,更用于行动。
Math-V2 引入自验证机制;V3.2 将 Thinking 融入 Tool-use。DeepSeekMath-V2:
只奖励最终答案是不够的,模型必须学会 自查自纠,论文提出了一种 生成器-验证器 协同进化的框架:
Test-time Compute),模型可以持续制造更难的合成数据来喂养自己。DeepSeek-V3.2:
如果说 R1 是 “会思考的大脑”,V3.1 是 “会用工具的手”,那么 V3.2 就是二者的结合体。
它不再区分 思考模式 和 工具模式,而是支持 在思考过程中调用工具,配合 1,800+ 虚拟环境 和 85k+ 复杂指令 的合成数据训练,V3.2 成为了一个真正的 Agentic Reasoning Model。
V3.2 证明了 Scalable RL(可扩展强化学习) 在 Agent 领域的有效性。通过扩大后训练的计算量,推理能力可以平滑地迁移到交互式环境中,这意味着,未来的 Agent 不仅会执行命令,更会在执行前、执行中进行缜密的推演。
回顾 2025 年,DeepSeek 践行了三个核心逻辑:
R1 到 V3.2,证明了推理能力不是玄学,而是可以通过 RL 和合成数据进行规模化生产的工业品,只要算力到位,Pipeline 设计得当,模型就能自己变聪明。MLA 到 DSA,DeepSeek 的每一次架构升级都是在挑战物理极限(显存、带宽、计算密度);只有把边际成本压到足够低,AI 才能从 “炫技” 变成 “水电煤”。Prover-V2 到 Math-V2,他们一直在探索如何让模型“不乱说”,这种对严谨性、对形式化证明的追求,是 AI 进入金融、医疗、研发等核心高风险业务场景的入场券。2025 年的 DeepSeek,不再只是一个很强的模型,它已经进化为一套 由推理内核驱动、极具成本优势、面向 Agent 的智能操作系统。
对于开发者而言,好戏才刚刚开始。