刚刷到深度求索(DeepSeek)新更的V3.2正式版,以这种独特的方式给OpenAI三周年送上了“礼物”!
最新模型不仅在公开的推理类 Benchmark 测试中推理能力追平GPT-5,还拿了国际奥赛金牌,长思考版本媲美Gemini-3.0-Pro!
连之前“思考时不能用工具”的老毛病也给修了,本次 API 更新支持了 DeepSeek-V3.2 思考模式下的工具调用能力。
当前在思考模式下,模型能够经过多轮的思考 + 工具调用,最终给出更详尽准确的回答!
最重要是,并没有针对这些测试集的工具进行特殊训练(智能体评测),所以V3.2 在真实应用场景中能够展现出较强的泛化性!
发布两个模型:一个基础款,一个极致推理版本!
先说说最直观的:这次直接更了两个版本,各有各的用处,不用再纠结“想要强推理还是省成本”了。
普通版叫DeepSeek-V3.2,主打一个“日常能用、用着舒服”。
官方测下来,它推理能力跟GPT-5差不多,就比Gemini-3.0-Pro稍逊一丢丢,但比Kimi-K2-Thinking输出短太多了——之前等个回答要划半天屏幕,现在快得很,计算成本也降了,平时问问题、做个通用Agent任务(比如帮你整理资料、规划流程),这版完全够用。
真正炸的是另一个版本:DeepSeek-V3.2-Speciale
光听“Speciale”(特别版)就知道不简单——它是长思考增强版,还融了DeepSeek-Math-V2的数学证明能力
今年的国际竞赛直接杀疯了:IMO(国际数学奥赛)、CMO(中国数学奥赛)、ICPC(程序设计全球总决赛)、IOI(信息学奥赛),四个顶级赛事全拿了金牌!
更离谱的是ICPC成绩,跟人类选手第二名差不多,IOI也冲到了第十名——这哪是AI,简直是竞赛卷王啊!
不过得说句实在的,这版虽然猛,但费Tokens(简单说就是“耗流量”),成本会高一点,而且目前只供研究用,不能调用工具,日常聊天写作也没优化,适合搞技术的朋友拿去测极限,咱们普通人先看个热闹~
从上图可以看出,在数学推理上Deepseek可以说是全面超越目前昂贵闭源模型。但是在理工科和前言难题测试这种偏工程化的方面还是落后于对方。
但是这可是闭源模型砸了几百亿上千亿的成绩,这么看貌似DeepSeek更具性价比~
可以调用工具了:agent能力开源第一!
这次升级最让我惊喜的,是它终于解决了老版本的“痛点”——思考模式能调用工具了
之前用DeepSeek,要么纯思考(没工具辅助,复杂问题容易错),要么纯调用工具(没深度思考,答得浅),这次V3.2直接把两者捏合到一起:模型能先想一步,再调用工具验证/补充信息,多轮下来回答又准又细。
上图是官方给出的思考链模式
官方为了练这个能力,也是下了血本:搞了1800多个训练环境,写了8万5千多条复杂指令,全是“难解答但好验证”的题(比如让AI算复杂公式再用计算器核对)。
测下来这版在智能体评测里,直接冲到开源模型第一,跟GPT-5、Claude这些闭源巨头的差距也不是很大了——关键是它没专门练过测试工具,真实场景用起来泛化性肯定强,亲测帮我查数据、做表格,比之前准多了!
最后说下怎么用:
普通版V3.2:官方网页端、APP、API都更了,用起来跟之前一样,直接上手就行;
Speciale特别版:目前是临时API,API 用户可以通过设置
base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"
访问该模型。该模型 API 价格不变,只支持思考模式下的对话功能,不支持工具调用等功能,最大输出长度默认为 128K,支持时间截止至北京时间 2025-12-15 23:59。
开源渠道,两个版本都放HuggingFace和ModelScope上了,搜“deepseek-ai”就能找着,懂代码的朋友能扒源码玩。
DeepSeek-V3.2开源地址:
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2
ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2
DeepSeek-V3.2-Speciale开源地址:
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale
最后想说一句,DeepSeek这生日贺礼,不知道今晚会不会让山姆奥特曼和NV惊出一身冷汗?!