
这次 M2.5:编程能力直接干到全球第一梯队,价格却只有 Claude Opus 的十分之一。
事无巨细介绍该模型之前,先看我的体验
我用的官网测试其阅读理解+svg 代码生成 + 审美能力
下图是 M2.1 时的测试

到 M2.5 再测,有瑕疵,但是加入了很多细节和巧思:采用米宣纸色调、深青色父亲轮廓(有点抽象)与朱红橘子点缀,如果不是文字的堆叠 bug,感觉比一众旗舰模型都要优秀了
阿里 Qwen3-Max-Thinking 在这题的表现虽然完美,但是细节不如 M2.5

很久没有逛官网,发现它又有了新功能——可重复使用的专家
有很多已有专家,MiniMax Agent 也可以根据描述自行创建

官方也出了很多好用的文档处理相关的专家,这也不是什么创新,N 多平台都有类似,只是叫法不一

它的快速模式和全能模式,我也试了

同样的任务,全能模式不一定更强,还是要看任务复杂程度,比如同题目,它还不是快速模式,很平庸

我的测试仅代表个人感受,不全面
官方测试用例,有一个LandingPage设计,看起来很强
然后就是 Ollama 又来送福利了
一键启动:ollama run minimax-m2.5:cloud

一键配置OpenCode, Claude Code, Codex, OpenClaw
ollama launch opencode --model minimax-m2.5:cloud

我刚找到 Ollama 免费额度查询地址:`https://ollama.com/settings
Session 是每两小时刷新,周限制是每三天刷新


MiniMax M2.5 整体评测对比:在 SWE-Bench、Multi-SWE-Bench、BrowseComp 等多个基准测试中均达到 SOTA
核心数据一览:
评测项目 | MiniMax M2.5 | Claude Opus 4.6 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|
SWE-Bench Verified | 80.2 | 80.8 | 78 | 80 |
SWE-Bench Pro | 55.4 | 55.4 | 54.3 | 55.6 |
Multi-SWE-Bench | 51.3 | 50.3 | 42.7 | — |
BrowseComp (w/ctx) | 76.3 | 67.8 | 59.2 | 65.8 |
VIBE-Pro (AVG) | 54.2 | 55.2 | — | 36.9 |
GDPval-MM | 59 | 61.1 | — | 28.1 |
一句话总结:编程不输 Opus,搜索吊打全场,价格只有十分之一。
M2.5 最让我印象深刻的是它的"编程思维"
官方说它有一个叫 "Spec-writing tendency"(规格书写倾向) 的特性——在动手写代码之前,它会先拆解功能、规划结构、设计 UI。这不就是一个高级工程师的工作方式吗?先想清楚再写代码,而不是上来就"啪啪啪"一顿敲。

编程评测详细数据:SWE-Bench 系列、Terminal Bench 2 等编程基准测试
而且它的适用范围不止是写 Python 脚本。
M2.5 在 10 多种编程语言 上接受训练,包括 Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart、Ruby,在 20 万个真实世界环境 中训练。
更夸张的是,M2.5 能处理全栈开发的完整生命周期:
在不同编程工具的 Scaffold 上也表现稳定:
也就是说不管你用什么编程工具框架,M2.5 都能打。
VIBE-Pro 是 MiniMax 自己设计的内部 benchmark,用来衡量模型在 Agent 场景下的实际工作能力。M2.5 在 Web、Simulation、Android、iOS 四个子集上的平均得分 54.2%,和 Opus 4.6 的 55.2% 不相上下,远超 GPT-5.2 的 36.9%。

VIBE-Pro 各子集详细得分:Web、Simulation、Android、iOS 端表现
搜索和工具调用能力上,M2.5 进步巨大:

搜索与工具调用评测:BrowseComp、Wide Search、RISE、BFCL 多轮测试
一个特别有意思的细节:M2.5 完成搜索任务时,平均所需的交互轮数比上一代减少了约 20%。也就是说它不仅搜得准,而且搜得快、搜得省。
M2.5 不只是一个"编程机器",在办公场景下也很能打:

办公场景评测:GDPval-MM、MEWC、Finance Modeling
这里特别说一下 MEWC 那个 74.4% 的成绩——这可是用微软 Excel 世界锦标赛 2021-2026 年的题目来考的,Opus 才 55.6%,GPT-5.2 才 41.3%。说明 M2.5 在处理复杂表格和数据分析方面确实有两把刷子。
说到这里其实已经很猛了,但 MiniMax M2.5 最炸裂的还是价格。
M2.5 有两个版本:
价格方面:
来算一笔账:
这意味着什么?输出价格只有 Claude Opus、Gemini 3 Pro、GPT-5 的十分之一到二十分之一。
同样的 SWE-Bench Verified 评测,M2.5 每个任务平均消耗 352 万 Token,而 M2.1 要 372 万。用时也从 31.3 分钟缩短到 22.8 分钟,**提速 37%**,和 Claude Opus 4.6 的 22.9 分钟几乎一样。
更快、更省、更便宜——这才是让 Agent 真正大规模落地的前提。
MiniMax 还放了一张非常有说服力的图——SWE-Bench Verified 分数进化曲线:

SWE-Bench Verified 分数进化曲线:MiniMax 从 2025 年 2 月到 2026 年 2 月的进步速度超过 Anthropic、OpenAI、Google
从 2025 年 10 月 M2 发布到现在,短短三个半月,MiniMax 在 SWE-Bench Verified 上的进步斜率明显陡于 Anthropic(Sonnet/Opus)、OpenAI(GPT)和 Google(Gemini)。这个追赶速度真的很吓人。
M2.5 背后的训练框架叫 Forge,一个 Agent-Native 的强化学习框架。

核心设计思路:
这个框架的关键在于:它让模型在真实环境中试错,而不是在合成数据上学习。这可能是 MiniMax 能在 Agent 场景上表现这么强的核心原因。
M2.5 兼容 Anthropic API 和 OpenAI API 协议,可以无缝接入各种编程工具。
在 Claude Code 中使用(推荐):
编辑 ~/.claude/settings.json:
{
"env": {
"ANTHROPIC_BASE_URL": "https://api.minimax.com/anthropic",
"ANTHROPIC_AUTH_TOKEN": "<你的 MiniMax API Key>",
"API_TIMEOUT_MS": "3000000",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": 1,
"ANTHROPIC_MODEL": "MiniMax-M2.5",
"ANTHROPIC_SMALL_FAST_MODEL": "MiniMax-M2.5",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "MiniMax-M2.5",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "MiniMax-M2.5",
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "MiniMax-M2.5"
}
}
除了 Claude Code,M2.5 还支持 Cursor、TRAE、OpenCode、Kilo Code、Cline、Roo Code、Droid、Zed 等主流编程工具,基本上你能想到的 AI 编程工具都能用。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!