首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >简要回顾 DeepSeek 2025 的技术报告和论文:这一年他们如何重写 AI 规则?

简要回顾 DeepSeek 2025 的技术报告和论文:这一年他们如何重写 AI 规则?

作者头像
磊叔的技术博客
发布2026-03-03 18:21:38
发布2026-03-03 18:21:38
140
举报

本文基于 DeepSeek 2025 官方发布的技术报告与论文整理,相关论文引用见文末参考文献

2025 年的 LLM 战场,DeepSeek 无疑是一个无法被忽视的 “异类”

当大多数厂商还在卷参数规模、卷多模态对齐、卷榜单分数时,DeepSeek 用整整一年的时间,在两条看似平行、实则紧密咬合的轨道上跑出了惊人的加速度:

  • 第一条是 System 2 级别的 “深度推理” 范式化:从 R1 的强化学习尝试,到 Prover 的形式化验证,再到 Math-V2 的自验证,试图让模型从 “概率生成” 走向 “逻辑推演”。
  • 第二条是几乎变态的“工程成本控制”:从 MLADSA,从 FP8 训练到视觉压缩 OCR,把大模型的 “贵族游戏” 变成了 “平民基建”。

如果只盯着模型名字看,你看到的只是版本号的更迭;但当我们把 2025 年 DeepSeek 发布的所有技术报告、论文和 API 更新按时间轴铺开,一幅关于 “下一代 AI 基础设施” 的完整拼图便清晰浮现。

从 2025 年 1 月 20 号到 2026 年 2 月 10 号,尝试用一篇文章来全景复盘 DeepSeek 的 2025:

标题

发布日期

研究方向

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(DeepSeek-R1 模型)

2025年1月20日

推理对齐(大模型经由强化学习提升推理能力)

DeepSeek-V3 Technical Report(DeepSeek-V3 主模型技术报告)

2025年3月25日

大语言模型(超大规模 MoE 架构,主线模型系列)

DeepSeek-V3.1(DeepSeek-V3.1 混合推理模型)

2025年8月21日

大语言模型+Agent(支持Think/非Think模式,多工具使用)

DeepSeek-V3.2-Exp(DeepSeek-V3.2 实验版模型)

2025年9月29日

大语言模型(Sparse Attention长上下文优化,实验性)

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models(DeepSeek-V3.2 模型)

2025年12月1日

大语言模型+工具使用(主线模型升级,强化推理与Agent能力)

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning(DeepSeekMath 第二版)

2025年11月27日

数学推理(自验证数学推理,竞赛问题解答)

DeepSeek-OCR: Contexts Optical Compression(DeepSeek-OCR 模型)

2025年10月20日

OCR/文档理解(视觉压缩文本,长文档处理)

DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via RL(DeepSeek-Prover-V2 定理证明模型)

2025年7月18日

数学推理(形式化定理证明,高度研究导向)

第一阶段:让推理涌现,让架构瘦身 (1月-3月)

2025 开年,DeepSeek 就用两套组合拳奠定了全年的基调:R1 的 “脑力” 和 V3 的 “体力”。

01. DeepSeek-R1:打破数据迷信,推理能力的 RL 跃迁

  • 关键节点:1月20日(发布),1月22日(论文)
  • 核心动作:发布 R1 及 R1-Zero,确立大规模 RL(强化学习)在推理中的核心地位。

在 R1 之前,业界的共识是 “更多的高质量 SFT(监督微调)数据带来更好的推理”。但 R1-Zero 打破了这一惯例:纯 RL,不依赖 SFT 冷启动,模型依然能涌现出自我反思与验证能力。

为什么要分 R1-Zero 和 R1?

DeepSeek 在论文中提到:R1-Zero 虽然在数学和代码上表现出惊人的 “顿悟”(Aha Moment),但它经常出现语言混合、语气不连贯、甚至自我重复的问题。这说明纯 RL 虽然能优化逻辑路径,但很难控制 “表面形式”。

因此,DeepSeek 提出了 “冷启动数据 + 多阶段训练”pipeline

  1. 1. 冷启动(Cold Start):先用少量高质量 Chain-of-Thought (CoT) 数据进行微调,让模型学会 “按步骤思考” 的格式。
  2. 2. 大规模 RL:在此基础上引入强化学习,使用结果奖励和格式奖励,逼迫模型探索更优的解题路径。

这不仅仅是一个新模型,它验证了一种 可复用的 Scale-up 范式 。它告诉开发者:推理能力不需要像教小学生一样一步步用 Prompt 诱导,而是可以通过设计合理的 Reward Model,让模型在数万次试错中自己“悟”出来。这种后训练方法,成为 2025 年所有 “慢思考” 模型的基础。

02. DeepSeek-V3:MoE 与 MLA

  • 关键节点:2月18日(V2版报告),3月25日(V3-0324上线)
  • 核心动作:确立 671B MoE 架构,公开 MLA 细节,强调推理/工具分离。

V3DeepSeek 2025 年的 “肉盾”,671B 的总参数看似庞大,但每次推理只激活 37B,这种极致的 MoE(混合专家)策略,配合 MLA(Multi-head Latent Attention),彻底改写了算力账本。

MLA 如何解决显存瓶颈?

在长文本和高并发场景下,TransformerKV Cache 是显存杀手;传统的 MQA(多查询注意力)虽然减少了 KV 数量,但损失了部分性能。

DeepSeek-V3 提出的 MLA(多头潜在注意力) 采用了一种 “低秩键值联合压缩”(Low-Rank Key-Value Joint Compression)技术。简单来说,它不再直接存储巨大的 KV 矩阵,而是将其压缩成低维的 Latent Vector(潜在向量),在计算注意力时再还原。

这一设计使得 V3 在保持高性能的同时,显存占用仅为同级模型的几分之一,从而能在单卡上支持更大的 Batch Size,大幅提升吞吐量。

DeepSeekMoE 的细粒度路由

与传统的 MoE 不同,V3 采用了 “细粒度专家”(Fine-grained Experts)策略。它不是选 2 个大专家,而是把专家切得更碎,让 Token 可以更灵活地组合 64 个甚至更多的小专家。同时,通过 无辅助损失的负载均衡策略,避免了传统 MoE 训练中为了追求负载均衡而牺牲模型性能的问题。

第二阶段:走向严谨与透明 (4月-5月)

第二季度,DeepSeek 做了两件 “硬核” 且 “反常识” 的事:搞数学证明,以及公开底层万卡集群的细节。

03. DeepSeek-Prover-V2:从“像真的”到“就是真的”

  • 关键节点:4 月 30 日
  • 核心动作:发布面向 Lean 4 的形式化定理证明模型。

大模型的最大软肋是 “一本正经胡说八道”。Prover-V2 选择了一条极其狭窄但陡峭的路:形式化验证。它不是生成自然语言,而是生成 Lean 4 代码,并在编译器中验证通过率。

Recursive Proof Pipeline

Prover-V2 不仅仅是 “生成代码”,它引入了类似 AlphaGo 的搜索策略。论文中提出了一种管线:

  1. 1. 利用 V3 强大的通用能力,将复杂的数学证明题拆解为一系列子目标。
  2. 2. 合成可学习的思维链,作为冷启动数据。
  3. 3. 进入 RL 强化阶段,利用 Lean 4 编译器的反馈(Pass/Fail)作为绝对客观的奖励信号。

MiniF2F-test88.9% 的通过率证明了:当把推理约束在严格的编译器规则下时,AI 的逻辑严谨性可以达到工业级标准。这对未来的代码生成、金融合规推理具有降维打击的意义。

04. Insights into DeepSeek-V3:揭秘万卡集群

  • 关键节点:5月14日
  • 核心动作:公开 2048H800 集群的训练细节。

这篇论文是 2025 年少有的 “工程自白书”。大多数人只谈算法,DeepSeek 却谈 带宽、通信与流水线并行

FP8 混合精度训练的挑战

V3 是在 FP8精度下训练的。FP8 虽然快,但精度损失大,极易导致训练发散。DeepSeek 披露了他们的解决方案:

  • 高精度累加:在关键的矩阵乘法累加阶段保留高精度。
  • 细粒度量化:对不同的层、不同的通道采用不同的量化比例,最大限度保留数值动态范围。
  • Dual-Pipe 通信重叠:设计了特殊的双向流水线并行策略,让计算(Compute)和通信(Communication)在时间上几乎完全重叠,掩盖了跨节点通信的延迟。

这篇论文解释了为什么 DeepSeek 能以更低的成本训练出同级别的模型,这不仅是算法的胜利,更是 系统架构与硬件协同设计 的胜利。

第三阶段:Agent 的进化(5月-9月)

年中,DeepSeek 开始密集修补短板,为 Agent 的爆发蓄力。

05. R1-0528 & V3.1:为 Agent 铺平最后 10% 的路

  • 关键节点:5月28日,8月21日
  • 核心动作:补齐 JSON/Function Calling,发布 V3.1 强化工具使用。

推理模型要落地,必须能连 APIR1-0528 重点解决了 结构化输出(JSON) 的问题,这听起来不性感,但对于开发者来说至关重要。随后的 V3.1 更是直接点名 SWE-bench(软件工程)和 Terminal-Bench,强调多步搜索与复杂任务的执行能力。

V3.1-Terminus 版本专门针对中英文混杂、随机字符等 “小毛病” 进行了清洗。这些看似琐碎的更新,恰恰是 AgentDemo 走向 Production 的关键。DeepSeek 意识到,Agent 的瓶颈不在于 “能写出一首好诗”,而在于 “能连续调用 10 次 API 而不出错”。

06. V3.2-Exp & DeepSeek-OCR:把长上下文的价格打下来

  • 关键节点:9月29日,10月21日
  • 核心动作:引入 DSA(稀疏注意力),发布视觉压缩 OCR

长文本很贵,且处理很慢。DeepSeekQ3 给出了两个解法:

  1. 1. DSA (DeepSeek Sparse Attention):标准的 Attention 机制是 复杂度,文本越长,计算量爆炸。V3.2-Exp 引入的 DSA 通过稀疏化策略,只计算 “重要 Token” 之间的关联,忽略无关部分。这直接导致了 API 价格下调 50%+,让百万级 Token 的上下文处理成为可能。
  2. 2. DeepSeek-OCR:视觉即文本这篇论文极具创新性,传统的 OCR 是 “识别字符 -> 拼凑文本”,容易出现乱码或格式错误。DeepSeek-OCR 提出了一种 “视觉压缩” 思路:
    • • 它不强制提取文本,而是通过 Vision Encoder 把长文档(如 PDF)直接映射为高信息密度的 Visual Tokens
    • • 实验表明,在 100倍压缩比 下,OCR 精度依然可控;在 10 倍压缩比下,精度高达 97%。
    • 工程价值:单机(A100-40G)可做到 20 万页/天 的生成规模,这意味着企业建立私有知识库的成本将呈现指数级下降。

第四阶段:思考即行动 (11月-12月)

年底的 DeepSeek 完成了最后的闭环:让 “思考” 不仅用于答题,更用于行动。

07. DeepSeekMath-V2 & V3.2:自验证与工具的融合

  • 关键节点:11月27日,12月1日
  • 核心动作Math-V2 引入自验证机制;V3.2Thinking 融入 Tool-use

DeepSeekMath-V2

只奖励最终答案是不够的,模型必须学会 自查自纠,论文提出了一种 生成器-验证器 协同进化的框架:

  • 验证器(Validator):专门训练来判断推理步骤是否正确。
  • 生成器(Generator):利用验证器的反馈来优化自己的推理路径。通过不断扩大验证计算(Test-time Compute),模型可以持续制造更难的合成数据来喂养自己。

DeepSeek-V3.2

如果说 R1 是 “会思考的大脑”,V3.1 是 “会用工具的手”,那么 V3.2 就是二者的结合体。

它不再区分 思考模式工具模式,而是支持 在思考过程中调用工具,配合 1,800+ 虚拟环境85k+ 复杂指令 的合成数据训练,V3.2 成为了一个真正的 Agentic Reasoning Model

V3.2 证明了 Scalable RL(可扩展强化学习)Agent 领域的有效性。通过扩大后训练的计算量,推理能力可以平滑地迁移到交互式环境中,这意味着,未来的 Agent 不仅会执行命令,更会在执行前、执行中进行缜密的推演。

总结

回顾 2025 年,DeepSeek 践行了三个核心逻辑:

  1. 1. 推理工业化R1V3.2,证明了推理能力不是玄学,而是可以通过 RL 和合成数据进行规模化生产的工业品,只要算力到位,Pipeline 设计得当,模型就能自己变聪明。
  2. 2. 架构物理学:从 MLADSADeepSeek 的每一次架构升级都是在挑战物理极限(显存、带宽、计算密度);只有把边际成本压到足够低,AI 才能从 “炫技” 变成 “水电煤”
  3. 3. 可验证的智能:从 Prover-V2Math-V2,他们一直在探索如何让模型“不乱说”,这种对严谨性、对形式化证明的追求,是 AI 进入金融、医疗、研发等核心高风险业务场景的入场券。

2025 年的 DeepSeek,不再只是一个很强的模型,它已经进化为一套 由推理内核驱动、极具成本优势、面向 Agent 的智能操作系统

对于开发者而言,好戏才刚刚开始。

参考文献

  1. 1. DeepSeek-AI et al. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv, 22 Jan 2025
  2. 2. DeepSeek-AI et al. “DeepSeek-V3 Technical Report.” arXiv, rev. 18 Feb 2025
  3. 3. DeepSeek官方. “DeepSeek-V3.1 Release – First step toward the agent era.” DeepSeek API Docs, 21 Aug 2025
  4. 4. DeepSeek官方. “Introducing DeepSeek-V3.2-Exp (Experimental).” DeepSeek API Docs, 29 Sept 2025
  5. 5. DeepSeek-AI et al. “DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models.” arXiv, 2 Dec 2025
  6. 6. Shao, Zhihong, et al. “DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning.” arXiv, 27 Nov 2025
  7. 7. Wei, Haoran, et al. “DeepSeek-OCR: Contexts Optical Compression.” arXiv, Oct 2025
  8. 8. Ren, Zizheng, et al. “DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via RL for Subgoal Decomposition.” arXiv, Jul 2025
  9. 9. DeepSeek官方. “DeepSeek-R1 Release – Open-source reasoning model & report.” DeepSeek API Docs, 20 Jan 2025
  10. 10. DeepSeek官方. “DeepSeek-R1-0528 Release – Enhanced reasoning model.” DeepSeek API Docs, 28 May 2025
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 磊叔的技术博客 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第一阶段:让推理涌现,让架构瘦身 (1月-3月)
    • 01. DeepSeek-R1:打破数据迷信,推理能力的 RL 跃迁
    • 02. DeepSeek-V3:MoE 与 MLA
  • 第二阶段:走向严谨与透明 (4月-5月)
    • 03. DeepSeek-Prover-V2:从“像真的”到“就是真的”
    • 04. Insights into DeepSeek-V3:揭秘万卡集群
  • 第三阶段:Agent 的进化(5月-9月)
    • 05. R1-0528 & V3.1:为 Agent 铺平最后 10% 的路
    • 06. V3.2-Exp & DeepSeek-OCR:把长上下文的价格打下来
  • 第四阶段:思考即行动 (11月-12月)
    • 07. DeepSeekMath-V2 & V3.2:自验证与工具的融合
  • 总结
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档