部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Grok-3干掉GPT-4o,却没走出“AI死胡同”?

Grok-3干掉GPT-4o,却没走出“AI死胡同”?

原创
作者头像
算法一只狗
发布于 2025-05-04 13:52:57
发布于 2025-05-04 13:52:57
1450
举报
文章被收录于专栏:算法一只狗算法一只狗

如今我们越来越明显地感受到,“Scaling Law 规模扩展”似乎走到了尽头。即使投入了庞大的算力资源,Grok-3 的性能也只略高于 GPT-4o,这让人不禁怀疑,单纯依赖堆叠算力的路径,是否仍是一条可持续的发展方向。

我们先来看具体的跑分表现。从整体成绩来看,Grok-3 是首个综合得分突破 1400 分的大模型,正式登顶当前评测榜单,也兑现了马斯克曾经的“豪言壮语”。

模型跑分细节表现

📌 数学领域(AIME'24)

  • Grok-3:52分,遥遥领先,表现最优;
  • GPT-4o:仅得9分,表现异常低迷;
  • 其他模型(Grok-3 mini、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet)得分在 36–40 分之间,差距不大。

📌 科学领域(GPQA)

  • Grok-3:75分,依旧排名第一;
  • Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 均为 65 分,说明这些模型在科学推理方面实力相当。

📌 编程领域(Coding LCB Oct-Feb)

  • Grok-3:57分,继续领先;
  • 其他模型得分区间在 34–41 分,差距相对较小,但依旧未能超越。

此外,Grok-3 还推出了自家的推理能力评测模型。在同一测试场景下,它的表现超过了 o3 mini、DeepSeek-R1 以及 Gemini-2 Flash Thinking,说明其在推理能力方面也已跻身第一梯队。

Grok发展速度惊人,但道路并非自己探出来的

在发布会上,Grok 团队还展示了一张模型发展路径图。从图上看,Grok系列大模型的迭代速度惊人,几乎在一年内完成了对 GPT-4o 的追赶。

不过,这条路并不是 Grok 自己摸索出来的。在 GPT 系列问世之前,大模型的训练路径尚未明朗。是 OpenAI 的探索,真正验证并奠定了当前这条“预训练+微调+多模态”的技术路线。正因为有了 GPT 的经验,Grok 才能绕过许多弯路,高效地完成大规模训练和能力堆叠。

Grok-3 用了多少算力?一张对比表告诉你

模型名称

GPU 数量

GPU 型号

训练时长

Grok-3

200,000

NVIDIA H100

约 3 个月

GPT-4o

≈25,000

NVIDIA A100

90–100 天

DeepSeek-V3

2,000+

NVIDIA H800

不到 2 个月

从表中可以看出,Grok-3 是“堆算力到极致”的典型案例,用的是土豪级别的 GPU 配置。但问题也随之而来:

“这么多 GPU 堆出来的性能提升,真的值得吗?”

这个问题引发了广泛争议。比尔·盖茨在一次访谈中就指出,Scaling Law 可能已经接近极限,未来 AI 的突破应更多聚焦在“元认知”与“思维链条”等方向,而不仅仅是资源投入。

对未来的启示:大模型发展应回归“技术创新”

Grok-3 的成功证明了“算力堆叠”在一定阶段仍然有效,但同时也暴露了其成本高、边际收益递减的问题。这也提醒整个行业:

  • 算力和数据规模已不再是决定性因素;
  • 算法优化、模型结构创新、思维能力增强将成为下一阶段的核心;
  • 如何在更低的成本下,实现更高的效率,才是通往 AGI 的关键。


如果你需要,我也可以帮你配图或生成图表。需要我生成表格插图或图片描述吗?

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档