
Hi,这里是 Aitrainee,欢迎阅读本期新文章。
OpenAI 最近进行了一系列重大更新。
核心是修复了那个让很多人感觉“降智”的 GPT-5 自动路由功能。 现在,它的决策逻辑被优化,能更精准地为你的问题匹配合适的模型。
同时,界面也变得更透明了。 每一次回答,都会明确标注它用了哪个模型。
并且,新增了一个手动触发“深度思考”模式的按钮。 你也可以直接输入 “think hard” 来激活它。
一个有趣的变化是,OpenAI 承认,他们低估了用户对 GPT-4o 的依赖。
很多人觉得,GPT-4o 在情感表达和对话连贯性上,甚至比 GPT-5 更好。
所以,他们做了一个决定。
GPT-4o 重新回归。 Plus 和 Team 用户现在可以手动选择继续使用它。
开启方法: 右下角 Settings → General → 勾选 Show legacy models 。
旧版模型的保留时长,会根据实际使用情况来定。
当然,重头戏还是在 GPT-5 上。
首先,速率限制大幅提升。 所有 ChatGPT Plus 和 Team 用户的 GPT-5 调用额度,直接翻倍。
这能有效缓解之前的响应延迟问题。
最新的速率限制如下:
最关键的信息点: Team 版已经上线了 GPT-5 Pro。 并且,OpenAI 计划给 Plus 用户也提供少量的 GPT-5 Pro 额度。

GPT-5 Pro
Mustafa Akben 的教授放出了 Gemini 2.5 Pro Deep Think 和“GPT5-PRO”并排测试的结果。
结果有点出人意料。
他说,Gemini 2.5 Pro 是个好模型,但在这个测试里失败了,而 GPT-5 Pro 却成功了。
Mustafa Akben 强调,GPT-5 Pro 是唯一一个解决了这个简单基准问题的模型。
他也承认,这问题来自网上,可能存在数据污染 (contamination) 的问题。但他没看到像 Opus 或 Gemini 2.5 Pro Deep Think 这些模型能解决这个问题。


一位在波兰亚当·密茨凯维奇大学当数学家和副院长的 Bartosz Naskręcki (@nasqret),也发了一系列推文,说 GPT-5 Pro 来了,他正在用他最喜欢的“多项式伽罗瓦群”问题来测试。

他的第一印象是:印象深刻。

他说,对于这个困难的代数任务,GPT-5 Pro 是第一个能给出完整、高质量推理过程的模型。
不过,他也测了一些 GPT-5 Pro 搞不定的情况。
比如一个关于函数域 C(t) 上椭圆曲线的 Mordell-Weil 群计算问题,模型没成功。但有意思的是,模型承认了失败,并告诉他可以用其他技术来解决。

Bartosz 认为,模型能承认失败,这是实实在在的进步。
他还测了个更难的,一个 16 次多项式伽罗瓦群的计算。
模型也失败了。然后他告诉模型答案错了 (但很接近),模型还挺固执。最后他摆出了硬核事实 (用计算机代数系统 CAS 算的结果),让模型重新考虑,得到了一段很有用的讨论。
Bartosz 对几款模型做了个总结:
他说,GPT 5 和 GPT 5 Thinking对研究数学的人来说,跟 GPT-4o-mini-high 比,没啥特别新奇的。
但 GPT-5 Pro 不一样。它用的算力多得多,答案质量也超棒。
GPT-5 Pro 在其他数学任务上的表现:


总的来说,GPT-5 Pro 在处理复杂、专业的数学问题上,表现出了远超现有模型的能力。

博主Deedy Das表示:GPT-5 Pro 其实是个很扎实的模型,别老黑它。
他自己试了下,用 6 分钟就让 GPT-5 Pro “一把梭”搞定了一个 App,能合并图片、在上面写字、画箭头和矩形,还能下载高清结果。
他还特意提了,同样的需求,Grok 和 Gemini 都没搞定,Claude 和 GPT-5 倒是都做出来了。

一位叫 Peter Gostev (@petergostev) 的用户也表示,GPT-5 Pro 是真正的顶级模型,是最好的。
他说,虽然他之前对 GPT-5 的一些反应也褒贬不一,但 OpenAI 在这个 Pro 版本上取得了巨大进步。
他跑了 12 个模拟测试,宣称这是 OpenAI、Google、xAI 或 Anthropic 的其他任何模型都无法比拟的。
所有这些测试,基本都是 1 到 3 次尝试 (主要是修复些小问题) 就搞定了,输出结果非常出色。
他还大方地分享了测试用的 Prompt。
https://t.co/jYHs3LsvkN

有人用 GPT-5 Pro 三次尝试就搭了个《我的世界》克隆版,觉得除了 Opus 4 和 Gemini Deep Think,就没见过这么细节的游戏视觉效果。

最后,GPT5可能真的是遥遥领先,来自某大佬的点评:
他们验证了大概 10 万个研究生阶段的题目,无论是人工检验(找了几个清华的同事人肉看),还是用其他大模型交叉验证,结果都显示 GPT-5 的解题简洁性,达到了“无与伦比”的提高。

他感觉,GPT-5 在强化学习和合成数据方面,已经到了“登峰造极”的水平。
解题的简洁程度,比他们手里的人工答案还要高出一大截。
而且,GPT-5 用的解题工具和方法非常发散,不像人解题那样,受限于自己的知识范围,只会用微积分这些初等工具。

对此,有网友表示:为什么昨天我用了一天感觉也就那样,难道是我的话题太垃圾了

在 Cursor 里目前可以免费用 GPT-5。 我自己用下来,前端界面生成表现一般,修复代码时 GPT-5 试了几次没成功,而 Claude 一次就搞定,所以更多用它在 Ask 模式下回答问题。或生成规则时用他。
