首页
学习
活动
专区
圈层
工具
发布

DeepSeek突发新模型!媲美Gemini3 Pro,为智能体而生

欢迎来到北茗的AI茶馆

ChatGPT发布三周年之际,DeepSeek搞了个突然袭击。

刚刚发布了「DeepSeek-V3.2」和「DeepSeek-V3.2-Speciale」两款模型。

模型有多强呢?

一句话你就懂了:超越GPT-5,与Gemini3 Pro不相上下。

分别介绍一下。

DeepSeek-V3.2,适合日常场景,平衡了推理能力与输出长度。

在推理测试中,比Gemini3 Pro稍差一点,但能和GPT-5打个平手。

DeepSeek-V3.2-Speciale,不装了,达到开源模型的最强推理能力。

在各大测试中的表现,媲美最强模型Gemini3 Pro。

IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)、IOI 2025(国际信息学奥林匹克)这些顶级竞赛的金牌随便拿!

这次的新模型有什么不同呢?

DeepSeek-V3.2将思考融入了工具使用。思考和非思考模式下,都能实现工具调用。

这简直就是为智能体而生的呀!

DeepSeek团队还提出了一种大规模Agent训练数据合成方法。

他们用大量的难以解答,但容易验证的任务,进行强化学习训练。

这样可以大幅提高模型的泛化能力。

下面是DeepSeek-V3.2在智能体工具调用方面评测的表现。

开源模型中的top one。

官方给出一个示例:

深度思考加上工具调用,回答效果大大提升。

此外,DeepSeek-V3.2引入的DSA机制(DeepSeek Sparse Attention)也有不小功劳。

想要了解DSA的小伙伴,可以看之前写的这篇:

DeepSeek突发新模型!创新注意力机制,API价格大跳水

或者直接看DeepSeek的新模型技术报告:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

总的来说,DSA大幅提高了模型在长文本上的表现,并且几乎不降低输出质量。

最后,附上两个版本的开源地址:

DeepSeek-V3.2

HuggingFace:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2

ModelScope:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

DeepSeek-V3.2-Speciale

HuggingFace:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

ModelScope:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

同时期待DeepSeek早日发布R2模型!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OsozoSNopZxSzKmiA51m5vPA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券