首页
学习
活动
专区
圈层
工具
发布

Gemini 3 Pro 确实强得离谱,但离“全能神”还差这 1% 的距离!

🤯 Gemini 3 Pro 确实强得离谱,但离“全能神”还差这 1% 的距离!

大家都在刷 Gemini 3 Pro 屠榜了,那张红得发紫的成绩单确实吓人。数学吊打 GPT-5.1,视觉推理更是断层领先。

但是! 作为一个冷静的吃瓜群众,我拿着放大镜仔细看了基准测试,发现哪怕是这个“六边形战士”,也有它的阿喀琉斯之踵。

1. 代码能力:Claude 依然是“程序员之神”

别被 Gemini 的全能光环骗了。在 SWE-Bench Verified(目前最硬核的真实修 Bug 测试)中:

*   🤖 Claude Sonnet 4.5: 77.2% *   🤖 GPT-5.1: 76.3% *   🤖 Gemini 3 Pro: 76.2%

看懂了吗?Gemini 在这里居然是第三!

虽只差 1%,但说明在纯文本代码逻辑、架构理解和“听懂人话改 Bug”这件事上,Claude 依然是那个最像资深工程师的模型

Gemini 可能因为太擅长推理(Over-reasoning),反而容易在简单修补上“想太多”或者“用力过猛”。如果你是靠写代码吃饭,Claude 4.5 依然是你的首选,Gemini 并没有抢走这个王座。

2. 🧠 “过目不忘”的假象:百万级长文本的尴尬

Gemini 3 Pro 号称支持超长上下文,但在 MRCR v2 (1M pointwise) 测试中,它的得分只有 26.3%

这是什么概念? 丢给它 100 万字的书,问它一个极细的细节,它有 75% 的概率 找不准或找不全! *   虽然其他模型(Claude/GPT)在这个测试上直接“不支持”或更低,但 26% 的准确率意味着:在大海捞针这件事上,目前的 AI 依然不可靠。

别真把它当成不会出错的超级数据库用,幻觉和遗漏依然存在。

3. “卷无可卷”的理科天花板

AIME 2025(数学竞赛)上,Gemini 3 Pro 拿了 100%。很强吗?很强。 但 Claude Sonnet 4.5 也拿了 100%

这意味着在现有的评估体系下,顶尖模型在逻辑题上已经触顶了。Gemini 并没有拉开代差,大家都是满分,谁比谁高贵?这也是为什么它在 SWE-Bench 上拉不开差距的原因——基础能力大家都溢出了。

总结一下

Gemini 3 Pro 是目前的综合最强,特别是你要解数学怪题、要它操作电脑屏幕、或者读复杂的图表,它是唯一的神。

但如果你只是想让它安安静静地帮你修 Python 代码,或者处理极其枯燥的纯文本逻辑,Claude Sonnet 4.5 依然坚挺,完全不用焦虑换模型!

各位,你们会为了这 1% 的代码差距坚守 Claude,还是为了视觉能力无脑冲 Gemini?评论区聊聊!

#Gemini3Pro #Claude #GPT5 #AI测评 #大模型 #程序员

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oc0WiiCvy0VwYkfTwrd7Xk3w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券