首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >HolyCrap! Grok4 炸裂登场!仿佛动物一夜间学会耍工具,史诗级更新!

HolyCrap! Grok4 炸裂登场!仿佛动物一夜间学会耍工具,史诗级更新!

作者头像
AgenticAI
发布2025-07-12 17:48:39
发布2025-07-12 17:48:39
3090
举报
文章被收录于专栏:AgenticAIAgenticAI

Grok4 于北京时间 7 月 10 日中午 12 点正式发布!这场发布比预告晚了一个小时,但好饭不怕晚!看完整场直播,我脑海里就一个词:惊艳!

我敢说这是一次史诗级更新,为何这么说呢?Grok4 和现有主流模型都不一样,这是一次从猿到人的进化!是的,进化,Grok 4 会用工具了,主动使用工具,它是使用类似我们之前介绍 Search R1 的思路强化检索、工具调用!接下来让我们先回顾整场发布会!

马斯克发表开场演讲,还是一如既往的卡壳式讲话,嘴巴跟不上大脑。接着是坐在他左手边的华人 Yuhuai Wu(吴宇怀),也是 xAI 的创始人之一,来自湖南。还有一位华人师从 AI 教父 Geoffrey Hinton 的 Jimmy Ba,据了解他也是 Yuhuai WU 的老师。

开场后,首先围绕的是 HLE(Human Last Exam)的跑分,目前榜首由 Google 的 Gemini-2.5-Pro-Preview-0605 占据,国内表现最好的模型是 DeepSeek-R1-0528。

图片
图片

2025 年初,由全球近千名专家联合打造的《Humanity’s Last Exam》横空出世,被誉为“人类最后一场闭卷考试”。这项包含 3000 道高难度题目的多模态基准测试,不仅挑战 AI 的极限,更试图为技术发展轨迹与风险治理提供关键标尺。

从上图可以看出,当前 SOTA 模型得分仅徘徊在 22 分左右,而 Grok4 横空出世,直接飙至 44.4%,几乎无敌碾压!即使前不久发布的 Kimi-Research 智能体也难以企及。榜单对比显示,Grok4 即便不调用工具,已完胜 Gemini 2.5 Pro;启用工具后,更是达到 44.4%的无人之境!这不就是动物学会用工具,生产力直接飞跃的震撼时刻吗?

图片
图片

然后,做了一些在线演示,比如寻找 xAI 的员工,经过几分钟直接找出大部分的 Profile,简直是 AI 版人肉搜索。然后是一些常规测试得分,诸如 GPQA(科学、数学、历史、常识)、AIME25(数学)、LCB(Live Code Bench 编程)、HMMT25(数学)、USAMO25(数学)等榜单,均有碾压性的表现,甚至在 AIME25 获得满分。

图片
图片

接下来是 ARC-AGI 表现。ARC-AGI 是一个人工智能 基准测试,旨在评估 AI 系统在解决新颖、抽象任务时的泛化能力,尤其强调其抽象推理能力和解决问题的效率,而非单纯的模式匹配或记忆能力。 它由 Keras 的创始人 François Chollet 提出,并被视为迈向通用人工智能(AGI)的重要里程碑。

图片
图片

备注,这里的榜单显示评分和我在 ARC-AGI 所看具有很大不同:https://arcprize.org/leaderboard,不知道具体的评分标准。

然后,是一个非常有意思的榜单 Vending-Bench,一个模拟环境,专门设计用于测试基于 LLM 的代理在管理一个简单但长期运行的业务场景中的能力:运营一台自动售货机。毫无疑问,Grok 4 获得了 2 倍于 Claude Opus 4 的净收益。

图片
图片

Grok 4 已经上线官方网站,常规订阅价每月 30 刀,如果是 Heavy 需要 300 刀。

图片
图片

API 也一并上线,上下文窗口 256K。

图片
图片

最后,之前预告的专用 Coding 模型,要到下个月才会发布哦!

总结

还是总结一下吧,这次发布是真的令人惊艳,也期待实际表现。未订阅 Grok 的话,暂时还只能用 Grok3。在发布过程中,他们还演示了一个多模型模型,语音会根据需要自动进行调节,比如唱歌,比如小声说话,不知道会不会模拟放屁?还挺令人期待啊!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AgenticAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档