大家好,我是 Ai 学习的老章
昨天大模型世界很热闹,其实最近新模型一直不断,尤其是 Qwen,中间我也有测试,时间紧张没有发文
这是 V3.1 的一次小升级,核心应该是解决之前爆出的“极”bug 还有多语言混在问题
DeepSeek-V3.1 上线后,有用户反馈在用 API 调用模型时,会偶尔出现一个严重 Bug:模型会不受控地随机输出“极”、“極”、“extreme”等字样,严重影响日常使用,如果未经仔细检查就使用含有这一 Bug 的代码,很可能导致编译失败。
基准 | DeepSeek-V3.1 | DeepSeek-V3.1-Terminus |
|---|---|---|
无工具使用推理模式 | ||
MMLU-Pro | 84.8 | 85.0 |
GPQA-Diamond | 80.1 | 80.7 |
huanity's last test | 15.9 | 21.7 |
LiveCodeBench | 74.8 | 74.9 |
Codeforces | 2091 | 2046 |
Aider-Polyglot | 76.3 | 76.1 |
代理工具使用 | ||
BrowseComp | 30.0 | 38.5 |
BrowseComp-zh | 49.2 | 45.0 |
SimpleQA | 93.4 | 96.8 |
SWE Verified | 66.0 | 68.4 |
SWE-bench 多语言 | 54.5 | 57.8 |
Terminal-bench | 31.3 | 36.7 |
Terminius 最突出的表现是Agent 能力,Code Agent 与 Search Agent 的表现都有提高。
不过,眼见的网友应该发现了,升级后的模型在 Codeforces 和 Aider-Polyglot 这两个编程相关的竞技场上的表现居然都有小幅下降。不过无伤大雅,最起码修复“极”bug 后可用性大幅增加。
目前访问 https://chat.deepseek.com/就是最新的 Terminius 模型了
模型也已开源:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

模型文件 689 GB!
这玩意太大,本地部署我是玩不转,我有一台 500GB 内存的超级电脑准备 llama.cpp 纯内存模型启动一下量化模型试试。
不过这要等到 unsloth 放出 Terminius 量化版模型之后了,我还是蛮强期待的。 unsloth 之前的V3.1量化版号称:

最后,V4 国庆节会来吗?以往惯例,每逢佳节,DeepSeek必发新模型。
