首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【AGI-Eval评测报告 NO.6】o3 / o4-mini 文本权威评测:o3 强势登顶

【AGI-Eval评测报告 NO.6】o3 / o4-mini 文本权威评测:o3 强势登顶

原创
作者头像
AGI-Eval评测社区
修改2025-05-08 15:12:13
修改2025-05-08 15:12:13
2050
举报

o3 和 o4 mini 的全方位评测结果来啦!o3 直接在文本推理方向上登顶!在交互能力和指令遵循等方面处于领先地位,但在知识储备方向稍显不足。o4 mini 也表现亮眼,在代码方向,强于 OpenAI-o3-mini (high)、OpenAI-o3和Deepseek-R1 等一众模型,准确率登顶第一,在推理方向处于小型推理模型 Top1。那么一起来看下本次评测结果!

Image
Image

目录:

1. o3 和 o4 mini评测分析

   1.1 评测概述

   1.2 o3 评测结果

   1.3 o4-mini评测结果

2. o3 和 o4 mini 信息回顾

1.o3 和 o4 mini评测分析

1.1 评测概述

【评测对象】

OpenAI-o3 与 OpenAI-o4-mini

【评测方式】

基于自建的通用能力评测集与公开评测集

【评测结论】

① o3 毫无悬念的登顶,在交互能力、推理能力、指令遵循和初等数学四个方面全面领先;

② o4-mini 代码准确率登顶 Top1,高达0.5400,模型排名也来到了第三。

Image
Image

接下来我们继续为大家拆解 o3 和 o4-mini 的详细评测内容

1.2  o3 评测结果

o3 核心结论:

o3 在综合能力上表现优异,尤其在交互能力、推理能力和指令遵循方面处于领先地位。但是其知识储备相较于 OpenAI-o1 稍显不足,同时在认知能力方面与 DeepSeek-R1 存在一定差距。

同类型模型能力对比:

本次评测,我们基于自建的通用能力评测集与公开评测集,将 OpenAI o3 与 o1 进行了对比:

在通用能力上,OpenAI o3 水位优于 OpenAI o1,其中推理能力有明显提升,但认知能力稍有下降

在输出长度上,OpenAI o3 在代码推理能力提升的同时,输出长度没有增加,反而减小了,没有通过输出成本置换能力的提升。

Image
Image

o3 在推理模型领域处于领先地位,其胜率均显著优于同系列产品 OpenAI-o1,推理能力提升较为显著。

1.3 o4-mini 评测结果

o4-mini 核心结论:

o4-mini 处于推理模型第一梯队,和 o1 能力相当,但相较 o3 仍有差距;o4-mini 处于小型推理模型 Top1。

同类型模型能力对比:

我们将同为小型推理模型的 OpenAI-o4-mini 与 o3-mini 进行了对比:

在通用能力上,o4-mini 水平优于 o3-mini,其中推理能力提升较为显著,仅次于 Top1(o3);但指令遵循弱于 o3-mini(medium/high);

在交互能力上,o4-mini 较 o3-mini(high)有提升但距离 o3、o1 仍有差距,且落后于 DeepseekR1 和 V3、doubao-1.5-pro。

Image
Image

o4-mini 代码准确率登顶 Top1,强于 OpenAI-o3-mini(high),OpenAI-o3,Deepseek-R1。

【指标注释说明】

  • 客观评测准确率指标说明:模型回答正确数量/总评测数据总量;
  • 主观评测胜率指标说明:(1*N_明显好+0.75*N_稍好+0.5*N_二者差不多+0.25*N_稍差+0*N_明显差)/总评测数据量 * 评测指标是被评测模型相对于标杆模型的五档加权胜率 *标杆模型为 GPT4-turbo-0125
  • 评测方案:可点击阅读原文跳转官网,评测榜单处点击评测方案查看
Image
Image

2.o3 和 o4 mini 实测回顾

上一期我们对 o3 和 o4 mini 进行了实测,出现了不少翻车案例,无法识别梗图、找图片不同之处找不齐且识别有错误等等,详见【AGI-Eval 实测速报】OpenAI o3/o4-mini视觉推理封神?实测翻车率略高

Image
Image
Image
Image

虽然 o3 和 o4 mini 在实测中有不少翻车案例,但是在更加全面、科学的评测中,我们印证了 OpenAI o3 是 OpenAI 最强大的推理模型,它推动了编码、数学、科学、视觉感知等领域的发展。它在包括 Codeforces、SWE-bench(无需构建自定义模型特定支架)和 MMMU 在内的基准测试中设定了新的 SOTA。

它非常适合需要多方面分析且答案可能不是立即显而易见的复杂查询,在分析图像、图表和图形等视觉任务中表现尤为出色。在外部专家的评估中,o3 在困难的现实任务中比 OpenAI o1 犯的重大错误少 20%,尤其是在编程、商业咨询和创意构思等领域表现出色。

o3 作为当前最强的图像推理模型, 在V*测试中,视觉推理方法达到了 95.7% 的准确率。

Image
Image

OpenAI-o4-mini 是一种较小的模型,针对快速、经济高效的推理进行了优化——它在其尺寸和成本方面实现了卓越的性能,特别是在数学、编码和视觉任务方面。它是 AIME 2024 和 2025 上表现最佳的基准模型。在专家评估中,o4-mini 在非 STEM 任务以及数据科学等领域的表现均优于其前身 o3-mini。得益于其高效性,o4-mini 支持的使用限制远高于 o3,使其成为处理需要推理能力的问题的强大高容量、高吞吐量解决方案。

o4-mini推理能力增强伴随成本增加。如下图所示:

Image
Image

以上内容就是本次的评测内容,最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来大模型最新资讯&评测&榜单信息,记得关注我们!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.o3 和 o4 mini评测分析
    • 1.1 评测概述
    • 1.2  o3 评测结果
    • 1.3 o4-mini 评测结果
  • 2.o3 和 o4 mini 实测回顾
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档