如今我们越来越明显地感受到,“Scaling Law 规模扩展”似乎走到了尽头。即使投入了庞大的算力资源,Grok-3 的性能也只略高于 GPT-4o,这让人不禁怀疑,单纯依赖堆叠算力的路径,是否仍是一条可持续的发展方向。
我们先来看具体的跑分表现。从整体成绩来看,Grok-3 是首个综合得分突破 1400 分的大模型,正式登顶当前评测榜单,也兑现了马斯克曾经的“豪言壮语”。
📌 数学领域(AIME'24):
📌 科学领域(GPQA):
📌 编程领域(Coding LCB Oct-Feb):
此外,Grok-3 还推出了自家的推理能力评测模型。在同一测试场景下,它的表现超过了 o3 mini、DeepSeek-R1 以及 Gemini-2 Flash Thinking,说明其在推理能力方面也已跻身第一梯队。
在发布会上,Grok 团队还展示了一张模型发展路径图。从图上看,Grok系列大模型的迭代速度惊人,几乎在一年内完成了对 GPT-4o 的追赶。
不过,这条路并不是 Grok 自己摸索出来的。在 GPT 系列问世之前,大模型的训练路径尚未明朗。是 OpenAI 的探索,真正验证并奠定了当前这条“预训练+微调+多模态”的技术路线。正因为有了 GPT 的经验,Grok 才能绕过许多弯路,高效地完成大规模训练和能力堆叠。
模型名称 | GPU 数量 | GPU 型号 | 训练时长 |
---|---|---|---|
Grok-3 | 200,000 | NVIDIA H100 | 约 3 个月 |
GPT-4o | ≈25,000 | NVIDIA A100 | 90–100 天 |
DeepSeek-V3 | 2,000+ | NVIDIA H800 | 不到 2 个月 |
从表中可以看出,Grok-3 是“堆算力到极致”的典型案例,用的是土豪级别的 GPU 配置。但问题也随之而来:
“这么多 GPU 堆出来的性能提升,真的值得吗?”
这个问题引发了广泛争议。比尔·盖茨在一次访谈中就指出,Scaling Law 可能已经接近极限,未来 AI 的突破应更多聚焦在“元认知”与“思维链条”等方向,而不仅仅是资源投入。
Grok-3 的成功证明了“算力堆叠”在一定阶段仍然有效,但同时也暴露了其成本高、边际收益递减的问题。这也提醒整个行业:
如果你需要,我也可以帮你配图或生成图表。需要我生成表格插图或图片描述吗?
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有