首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大模型春晚3.0,MiniMax-M2.5 开源,Ollama 免费云模型上线,一键配置Claude Code、OpenCode

大模型春晚3.0,MiniMax-M2.5 开源,Ollama 免费云模型上线,一键配置Claude Code、OpenCode

作者头像
Ai学习的老章
发布2026-03-02 20:49:49
发布2026-03-02 20:49:49
510
举报
  • 昨天 MiniMax 放出了 M2.5,从去年 10 月 M2 到现在,短短三个半月,M2、M2.1、M2.5 三连发,这更新速度真的有点疯。

这次 M2.5:编程能力直接干到全球第一梯队,价格却只有 Claude Opus 的十分之一

事无巨细介绍该模型之前,先看我的体验

我用的官网测试其阅读理解+svg 代码生成 + 审美能力

下图是 M2.1 时的测试

到 M2.5 再测,有瑕疵,但是加入了很多细节和巧思:采用米宣纸色调、深青色父亲轮廓(有点抽象)与朱红橘子点缀,如果不是文字的堆叠 bug,感觉比一众旗舰模型都要优秀了

阿里 Qwen3-Max-Thinking 在这题的表现虽然完美,但是细节不如 M2.5

很久没有逛官网,发现它又有了新功能——可重复使用的专家

有很多已有专家,MiniMax Agent 也可以根据描述自行创建

官方也出了很多好用的文档处理相关的专家,这也不是什么创新,N 多平台都有类似,只是叫法不一

它的快速模式和全能模式,我也试了

同样的任务,全能模式不一定更强,还是要看任务复杂程度,比如同题目,它还不是快速模式,很平庸

我的测试仅代表个人感受,不全面

官方测试用例,有一个LandingPage设计,看起来很强

然后就是 Ollama 又来送福利了

一键启动:ollama run minimax-m2.5:cloud

一键配置OpenCode, Claude Code, Codex, OpenClaw

ollama launch opencode --model minimax-m2.5:cloud

我刚找到 Ollama 免费额度查询地址:`https://ollama.com/settings

Session 是每两小时刷新,周限制是每三天刷新

详细介绍

MiniMax M2.5 整体评测对比:在 SWE-Bench、Multi-SWE-Bench、BrowseComp 等多个基准测试中均达到 SOTA
MiniMax M2.5 整体评测对比:在 SWE-Bench、Multi-SWE-Bench、BrowseComp 等多个基准测试中均达到 SOTA

MiniMax M2.5 整体评测对比:在 SWE-Bench、Multi-SWE-Bench、BrowseComp 等多个基准测试中均达到 SOTA

核心数据一览:

评测项目

MiniMax M2.5

Claude Opus 4.6

Gemini 3 Pro

GPT-5.2

SWE-Bench Verified

80.2

80.8

78

80

SWE-Bench Pro

55.4

55.4

54.3

55.6

Multi-SWE-Bench

51.3

50.3

42.7

BrowseComp (w/ctx)

76.3

67.8

59.2

65.8

VIBE-Pro (AVG)

54.2

55.2

36.9

GDPval-MM

59

61.1

28.1

  • SWE-Bench Verified 拿了 80.2%,和 Claude Opus 4.6 的 80.8% 几乎打平
  • Multi-SWE-Bench(多语言编程)51.3%,直接超过了 Opus 4.6 的 50.3%
  • BrowseComp 搜索能力 76.3%,更是把 Opus 甩了快 10 个百分点

一句话总结:编程不输 Opus,搜索吊打全场,价格只有十分之一。

编程能力:像架构师一样思考

M2.5 最让我印象深刻的是它的"编程思维"

官方说它有一个叫 "Spec-writing tendency"(规格书写倾向) 的特性——在动手写代码之前,它会先拆解功能、规划结构、设计 UI。这不就是一个高级工程师的工作方式吗?先想清楚再写代码,而不是上来就"啪啪啪"一顿敲。

编程评测详细数据:SWE-Bench 系列、Terminal Bench 2 等编程基准测试
编程评测详细数据:SWE-Bench 系列、Terminal Bench 2 等编程基准测试

编程评测详细数据:SWE-Bench 系列、Terminal Bench 2 等编程基准测试

而且它的适用范围不止是写 Python 脚本。

M2.5 在 10 多种编程语言 上接受训练,包括 Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart、Ruby,在 20 万个真实世界环境 中训练。

更夸张的是,M2.5 能处理全栈开发的完整生命周期

  • 从 0 到 1:系统设计、环境搭建
  • 从 1 到 10:功能迭代、代码审查、测试
  • 跨平台:Web、Android、iOS、Windows、Mac 全覆盖

在不同编程工具的 Scaffold 上也表现稳定:

  • Droid 上:79.7(M2.5)> 78.9(Opus 4.6)
  • OpenCode 上:76.1(M2.5)> 75.9(Opus 4.6)

也就是说不管你用什么编程工具框架,M2.5 都能打。

Agent 能力:不只写代码,还能干活

VIBE-Pro 是 MiniMax 自己设计的内部 benchmark,用来衡量模型在 Agent 场景下的实际工作能力。M2.5 在 Web、Simulation、Android、iOS 四个子集上的平均得分 54.2%,和 Opus 4.6 的 55.2% 不相上下,远超 GPT-5.2 的 36.9%。

VIBE-Pro 各子集详细得分:Web、Simulation、Android、iOS 端表现
VIBE-Pro 各子集详细得分:Web、Simulation、Android、iOS 端表现

VIBE-Pro 各子集详细得分:Web、Simulation、Android、iOS 端表现

搜索与工具调用:比上一代提升 20%

搜索和工具调用能力上,M2.5 进步巨大:

  • BrowseComp(网页搜索):76.3%,远超 Opus 4.6 的 67.8%
  • Wide Search:70.3%
  • RISE(多步信息检索和推理):50.2%
  • BFCL multi-turn(多轮工具调用):76.8%
搜索与工具调用评测:BrowseComp、Wide Search、RISE、BFCL 多轮测试
搜索与工具调用评测:BrowseComp、Wide Search、RISE、BFCL 多轮测试

搜索与工具调用评测:BrowseComp、Wide Search、RISE、BFCL 多轮测试

一个特别有意思的细节:M2.5 完成搜索任务时,平均所需的交互轮数比上一代减少了约 20%。也就是说它不仅搜得准,而且搜得快、搜得省。

办公与专业场景

M2.5 不只是一个"编程机器",在办公场景下也很能打:

  • GDPval-MM(多模态办公任务):59% 平均胜率
  • MEWC(微软 Excel 世界锦标赛题目):74.4%,远超 Opus 4.6 的 55.6%
  • Finance Modeling(金融建模):59%
办公场景评测:GDPval-MM、MEWC、Finance Modeling
办公场景评测:GDPval-MM、MEWC、Finance Modeling

办公场景评测:GDPval-MM、MEWC、Finance Modeling

这里特别说一下 MEWC 那个 74.4% 的成绩——这可是用微软 Excel 世界锦标赛 2021-2026 年的题目来考的,Opus 才 55.6%,GPT-5.2 才 41.3%。说明 M2.5 在处理复杂表格和数据分析方面确实有两把刷子。

速度与成本:这才是真正的杀手锏

说到这里其实已经很猛了,但 MiniMax M2.5 最炸裂的还是价格

M2.5 有两个版本:

  • M2.5:吞吐 50 tokens/秒
  • M2.5-Lightning:吞吐 100 tokens/秒(比其他前沿模型快 2 倍)

价格方面:

  • 输入:**$0.3/百万 Token**
  • 输出:**$2.4/百万 Token**
  • 两个版本都支持缓存

来算一笔账:

  • 100 TPS 连续跑 1 小时 = $1
  • 50 TPS 连续跑 1 小时 = $0.3
  • 4 个 M2.5 实例跑一整年 = $10,000

这意味着什么?输出价格只有 Claude Opus、Gemini 3 Pro、GPT-5 的十分之一到二十分之一

同样的 SWE-Bench Verified 评测,M2.5 每个任务平均消耗 352 万 Token,而 M2.1 要 372 万。用时也从 31.3 分钟缩短到 22.8 分钟,**提速 37%**,和 Claude Opus 4.6 的 22.9 分钟几乎一样。

更快、更省、更便宜——这才是让 Agent 真正大规模落地的前提。

进化速度:三个半月追上全球第一梯队

MiniMax 还放了一张非常有说服力的图——SWE-Bench Verified 分数进化曲线:

SWE-Bench Verified 分数进化曲线:MiniMax 从 2025 年 2 月到 2026 年 2 月的进步速度超过 Anthropic、OpenAI、Google
SWE-Bench Verified 分数进化曲线:MiniMax 从 2025 年 2 月到 2026 年 2 月的进步速度超过 Anthropic、OpenAI、Google

SWE-Bench Verified 分数进化曲线:MiniMax 从 2025 年 2 月到 2026 年 2 月的进步速度超过 Anthropic、OpenAI、Google

从 2025 年 10 月 M2 发布到现在,短短三个半月,MiniMax 在 SWE-Bench Verified 上的进步斜率明显陡于 Anthropic(Sonnet/Opus)、OpenAI(GPT)和 Google(Gemini)。这个追赶速度真的很吓人。

技术架构:Forge 强化学习框架

M2.5 背后的训练框架叫 Forge,一个 Agent-Native 的强化学习框架。

Forge 强化学习框架架构图
Forge 强化学习框架架构图

核心设计思路:

  • Black Box + White Box 双模式:既能处理不可微环境反馈(如代码执行结果),也能处理可微信号
  • Middleware 中间件层:Gateway Server 负责分发任务、管理并发
  • Data Pool 数据池:所有的 trajectory 统一收集、过滤、复用

这个框架的关键在于:它让模型在真实环境中试错,而不是在合成数据上学习。这可能是 MiniMax 能在 Agent 场景上表现这么强的核心原因。

怎么用

M2.5 兼容 Anthropic API 和 OpenAI API 协议,可以无缝接入各种编程工具。

在 Claude Code 中使用(推荐):

编辑 ~/.claude/settings.json

代码语言:javascript
复制
{
  "env": {
    "ANTHROPIC_BASE_URL": "https://api.minimax.com/anthropic",
    "ANTHROPIC_AUTH_TOKEN": "<你的 MiniMax API Key>",
    "API_TIMEOUT_MS": "3000000",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": 1,
    "ANTHROPIC_MODEL": "MiniMax-M2.5",
    "ANTHROPIC_SMALL_FAST_MODEL": "MiniMax-M2.5",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "MiniMax-M2.5",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "MiniMax-M2.5",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "MiniMax-M2.5"
  }
}

除了 Claude Code,M2.5 还支持 Cursor、TRAE、OpenCode、Kilo Code、Cline、Roo Code、Droid、Zed 等主流编程工具,基本上你能想到的 AI 编程工具都能用。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 详细介绍
  • 编程能力:像架构师一样思考
  • Agent 能力:不只写代码,还能干活
  • 搜索与工具调用:比上一代提升 20%
  • 办公与专业场景
  • 速度与成本:这才是真正的杀手锏
  • 进化速度:三个半月追上全球第一梯队
  • 技术架构:Forge 强化学习框架
  • 怎么用
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档