2025年12月2日,DeepSeek正式发布了新一代开源大模型DeepSeek-V3.2及其长思考增强版DeepSeek-V3.2-Speciale。该系列模型在多项推理与智能体基准测试中取得了开源模型的最佳性能,标志着开源模型在追赶闭源模型的道路上取得了重要进展。
一、核心性能表现
根据官方信息及权威评测平台Artificial Analysis的数据,DeepSeek-V3.2在公开的推理基准测试中表现卓越。标准版V3.2已达到GPT-5水平,略低于Gemini-3.0-Pro。与当前另一高性能开源模型Kimi-K2-Thinking相比,V3.2在相同测试设置下均实现领先,且其输出长度更短,计算开销和用户等待时间显著减少。
长思考增强版V3.2-Speciale则专注于深度推理,它结合了DeepSeek-Math-V2的定理证明能力,在主流推理基准上的性能表现媲美Gemini-3.0-Pro。该模型在国际数学奥林匹克(IMO 2025)、国际大学生程序设计竞赛(ICPC 2025)等赛事中均达到金牌水平,其ICPC成绩相当于人类选手第二名。Speciale版本专为复杂任务设计,Tokens消耗大、成本高,目前仅供研究使用。
二、关键技术突破:DSA架构与高效后训练
DeepSeek团队认为,此前开源模型与闭源模型的差距主要源于三方面:传统注意力机制处理长序列效率低下、训练后阶段算力投入不足、智能体应用场景中的泛化与指令遵循能力较弱。为了解决这些关键限制,DeepSeek首先引入高效的DSA稀疏注意力机制,显著降低计算复杂度并维持长上下文场景下的模型性能;其次开发了可扩展的强化学习协议,投入超过预训练成本10%的算力用于训练后扩展,以解锁模型高级能力;第三,提出创新的流程来促进工具使用场景中的泛化推理,通过合成超过1800个环境和85000个提示的大规模智能体任务数据驱动强化学习,从而显著提升模型在智能体场景中的泛化与指令遵循能力。
三、模型特点与未来方向
DeepSeek-V3.2是Deepseek推出的首个将思考过程融入工具使用的模型,同时支持思考与非思考两种工具调用模式,且在真实应用场景中能够展现出较强的泛化性。目前,标准版V3.2已在官方网页端、App和API全面上线,两个模型均已开源。
DeepSeek也指出了当前模型的不足与未来改进方向:由于总体训练计算量(FLOPs)相对较少,模型的世界知识广度仍落后于领先的专有模型;在达到与Gemini-3.0-Pro同等输出质量时,Token效率(即需要生成长度)仍有提升空间;解决极端复杂任务的能力与前沿模型相比尚有差距。团队计划通过扩大预训练规模、优化推理链的“智能密度”以及完善后训练方案来持续迭代。