如果未来普通人能够广泛使用 o3 模型,我相信它将在两个领域带来显著的帮助:数学领域和编程领域。
首先,谈谈数学领域。
o3 模型在美国数学奥林匹克考试(AIME)中取得了前所未有的 96.7% 的正确率,同时在博士级科学问题测试(GPQA Diamond)中的正确率也高达 87.7%。要知道,人类专家在 GPQA 测试中的平均得分仅为 70%。这样的表现充分显示了 o3 模型在复杂数学推理和高难度科学问题上的卓越能力。
同时,对比上一代的 o1 模型,o3 在 AIME 测试中的准确率提升了 13%,在 GPQA 测试中的准确率也提高了 9%。可以说,o1 大模型相较之下显得略为逊色。
再来看国内的推理大模型。例如,Kimi 最新推出的 k0-math,其在 AIME 考试中的得分仅为 50,而 o3 已经将这一成绩提升至 96.7,几乎接近满分的状态。这种对比无疑突显了 o3 在数学推理领域的卓越性能。
此外,我们再观察最近谷歌发布的推理大模型 Gemini 2.0 Flash,它在 GPQA 数学测试集上的准确率仅为 62%。这一表现不免让人猜测,o3 的发布是否正是为了狙击 Gemini 2.0 Flash。面对这种对比结果,只有一句话可以形容:o3 遥遥领先。
另一个数学基准测试叫EpochAI Frontier Math,它被认为是现在最有挑战性的数学测试之一,包括了最新的前沿数学难题。著名数学家陶哲轩(Terence Tao)说:“这个测试可能会让AI头疼好几年。”
其他模型在这个测试中,仅得分在2%,而o3生生把它干到了25.2%,也就是解决了大概25.2%的问题。那么以后有没有可能,这个测试集会被o系列模型攻破呢?我觉得机会很大,这也充分说明o3模型在处理高度复杂问题的强大能力。
Box公司的CEO亚伦·列维在X上夸赞说:“OpenAI最近推出了他们的新推理模型o3,这个模型在基准测试里表现得特别棒,现在看,人工智能的发展一点都没有慢下来的意思。”
而对于编程来说,o3提升的性能也更加强大。
在CodeForces这个全球的编程比赛平台上,o3系列模型显示出了它最强大的编程能力。目前o3推理模型得分有2727分,比大多数人类程序员都要高。
这个得分在全球排名中名列第175位,要知道,2700分以上几乎可以超越网站中99.9%的人类选手了。
在另一个编程比赛SWE-bench Verified中,o3以 71.7%的准确率刷新记录,相比前代模型o1提升 超过20%;
目前按照这个未来趋势,OpenAI的o系列大模型可能真的要奔着把所有程序员干到失业才罢休?
目前看,o3模型虽然能力很强大,但是需要的计算资源确实不少。但这确实说明,随着计算量增加,新任务的性能也会提高(至少能达到这个水平)。以前很多的技术都是一开始具有很高的成本,但慢慢的随着技术的不断进步和优化,这些高成本的障碍逐渐被克服。就像计算机的发明一样,虽然初始的造价成本高昂,但随着时间的推移和技术的深入研究,还是有望找到更高效的方法来降低成本,同时保持甚至提升其性能。这正是科技发展的魅力所在,不断挑战极限,实现更高的目标。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有