部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >OpenAI首个免费推理模型o3-mini发布!奥特曼反思不开源的错误

OpenAI首个免费推理模型o3-mini发布!奥特曼反思不开源的错误

作者头像
用户11203141
发布2025-03-06 21:22:35
发布2025-03-06 21:22:35
30
举报

DeepSeek为大模型领域带来了新的速度提升——就在昨天,OpenAI深夜紧急发布了其最新的推理模型:o3-mini系列,包含low、medium和high三个版本。

目前,o3-mini和o3-mini-high已经正式上线。

天意生信云:dftianyi.com

根据OpenAI的官方声明,o3系列的核心目标是推动低成本推理的极限。自今日起,ChatGPT Plus、团队用户和Pro订阅用户即可体验o3-mini,而企业用户将在一周后陆续开放。

值得注意的是,免费用户也能通过选择“Search+Reason”功能体验o3-mini的搜索功能。这也是OpenAI首次免费提供推理模型,或许是受到了DeepSeek的压力,OpenAI CEO奥特曼在Reddit的“有问必答”活动中罕见地反思道:“在开源权重AI模型的问题上,我们可能站在了历史的错误一方。”

与此同时,几小时内,网友们已经开始对o3-mini进行疯狂实测。虽然相较于DeepSeek-R1,o3-mini的价格依然较高,但让我们先看看官方技术报告的内容。去年年底,OpenAI发布了o3-mini的预览版,再次刷新了小型模型的能力边界。该版本在成本和延迟上与o1-mini相当,CEO奥特曼曾预告,正式版将在今年1月发布。在最后的DDL节点,o3-mini终于登场。

整体来看,o3-mini延续了o1-mini的设计理念,依然聚焦于STEM(科学、技术、工程、数学)领域的推理优化,并且保持了mini系列“小而强”的风格。以o3-mini(medium)为例,它不仅在数学编码上与o1系列相当,而且响应速度更快。

人类专家评测显示,大多数情况下,o3-mini提供了比o1-mini更准确、更清晰的答案,偏好度高达56%。尤其在处理复杂的现实问题时,o3-mini的重大错误率降低了39%

在数学推理能力方面,o3-mini(low)在低推理强度下与o1-mini相当,而在中等推理强度下,o3-mini的表现媲美o1系列的满血版。

推理强度一旦提升至最高(high),o3-mini的表现就超越了o1系列的所有版本。根据由60多位顶尖数学家提供的FrontierMath难题测试结果,高推理强度下的o3-mini相比o1系列实现了显著提升。

官方指出,结合Python工具时,o3-mini(high)在首次尝试中就成功解决了超过32%的问题,包括28%以上的T3级问题。

在科学推理方面,o3-mini在PhD级别的物理、化学和生物学问题上,低推理强度下的表现已经超越了o1-mini。

此外,在编码领域,o3-mini在各个层级上都领先o1系列。根据它们在LiveBench测试中的表现,随着推理强度的增加,o3-mini的优势进一步扩大。而且,o3-mini在响应速度上的提升也不容忽视,平均响应时间为7.7秒,相比o1-mini的10.16秒提升了24%。

最后,在安全性评估方面,o3-mini在多项安全测试中明显超越了GPT-4o。然而,尽管o3-mini在性能上优于DeepSeek-R1,但在价格上依然显得较为昂贵——输入输出分别为0.14和0.55美元,远高于DeepSeek-R1的性价比。

网友实测展示

1.写一个弹球python脚本

运行结果展示:

2.模拟世界物理定律

运行结果展示:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信俱乐部 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档