首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Gemini 3实测:综合最强、代码最强、数学最强、多模态最强的六边形 AI 来了?

Gemini 3实测:综合最强、代码最强、数学最强、多模态最强的六边形 AI 来了?

作者头像
腾讯云开发者
发布2025-11-20 18:21:25
发布2025-11-20 18:21:25
2.2K0
举报

Google 发布了最新的 Gemini 3 模型,首日便做到了屠榜,基本在所有榜单上面超过了GPT-5.1和Claude Sonnet 4.5。 总体上看,Gemini 3 Pro 是目前「综合实力最强、数学最强、视频理解最强、代理能力领先」的模型。腾讯工程师第一时间抢鲜上手了 Gemini 3,带来了一手评测。

关注腾讯云开发者,一手技术干货提前解锁👇

Gemini 3一登场就火力全开,强势霸榜!在LMArena大模型竞技场上,它直接冲上榜首,以1501的高分在文本领域大放异彩。就连马斯克刚发布的Grok 4.1,也被它轻松拉下神坛!

根据Artificial Analysis平台的独立评测结果显示,其智能指数已达到73分,超越OpenAI于上周发布的GPT-5.1版本。

连马斯克和奥特曼都在推特上表示,Gemini 3确实是一个很强的模型。

目前谷歌已经免费开放了Gemini 3 Pro模型,可以直接去到官网进行体验。

01、模型能力

这次Gemini模型的能力真的太强了,基本在所有榜单上面超过了GPT-5.1和Claude Sonnet 4.5

在Humanity’s Last Exam(人类最后一场考试)中,主要用来测试模型是否具有“准博士级”的跨学科推理能力。这个数据集题目偏理论、抽象推理,主要测试模型的“通用智能”,被认为是AI难以解决的问题,但是在Gemini 3 Pro (不使用搜索、代码执行工具)上优势非常明显,领先 GPT-5.1 一档,几乎是 Claude 4.5 的三倍。

在科研类测试数据集GPQA Diamond上,Gemini 3 Pro冲到了90%分以上。

而在常规的数学测试集上AIME,Gemini 3 Pro 是当今数学推理最强的通用模型(不算专精数学的 NMAX),如果直接可以用代码执行,直接达到了夸张的100%。在更高难度的数学测试集上MathArena Apex,Gemini 3 Pro 吊打所有竞争对手几十倍。这是一个非常夸张的领先幅度,说明它在高难度数学推理上远超其他模型。

除了在文本领域达到了夸张的分数之外,在多模态领域也基本上处于断代的领先:

  • 在Video-MMMU(视频理解):Gemini 3 Pro 在视频理解上达到87.6%,明显领先其他大模型
  • 在ScreenSpot-Pro(屏幕理解):Gemini 3 Pro 的 UI/屏幕理解能力几乎是所有模型的碾压级优势。Gemini 3 Pro高达72.7%,而GPT-5.1只有可怜的3.5%

在测试AI coding能力上,基本全面领先,在LiveCodeBench(编程竞赛能力)上拿到了2439分数,比GPT-5.1高出200多分。

在针对一些比较复杂任务的时候,往往需要多步进行实现,但是在实现过程中需要始终围绕任务目标执行操作。

下图展示了在模拟经营环境中为期一年的自动售货机运营情况,其评分依据为期末银行账户余额。在此基准测试中,Gemini 3 Pro在一年运营周期后的资金余额为5,478.16美元,显著领先于排名第二的Claude Sonnet 4.5。

有了这种能力之后,Gemini就可以做很多的事情,比如可以帮助你快速整理收件箱。

由于多模态能力明显提升,它可以辅助你判定视频中的内容并进行解析。比如可以对匹克球比赛视频进行技术分析,识别技术动作中的可优化环节,并据此制定系统性的动作改进训练方案。

如果学习一个新的知识,可提供相关学术论文、长篇视频课程或教程资源,Gemini将据此生成交互式抽认卡、可视化图表及其他辅助知识掌握的学习材料。

总结来看,Gemini 3 Pro 是目前「综合实力最强、数学最强、视频理解最强、代理能力领先」的模型。尤其是在数学推理能力上(数学相关 benchmark 全部拉开差距)、多模态(视频、屏幕)上领先 GPT5.1 和 Claude 4.5)和Agent(工具调用 / 多代理协作)。

02、初步体验

2.1 常规测试

Q1:总结内容,生成知识卡片网页

总结这个网页(https://blog.google/intl/zh-tw/products/explore-get-answers/gemini-3/#note-from-ceo ),生成一个好看,精致的知识卡片网页内容

从整体视觉风格上看,黑白主色搭配科技渐变,风格现代;而且对于Gemini 3 的介绍比较一目了然。

Q2:开发一个“微旅程”网站,并可以执行,每天推荐一张世界小众角落的照片+一段故事。

Q3:用SVG画一个思维导图,画一个Switch

2.2 游戏编程测试

Q1:用 Three.js 实现一款3D战斗机对战游戏,在城市上方飞行,可以用触屏或者键盘操控。

虽然没有具体的城市建筑,但是游戏玩法上基本已经实现好了。

Q2:用 Three.js 实现一款愤怒的小鸟3D游戏

游戏界面基本做出来了,而且可以进行简单的操作。不过界面确实有点简陋。

03、网友测试案例

Q1:实现一个我的世界

prompt:Code a 3D Minecraft game clone within a single .html file. Make it beautiful, with pixel graphics like the original, add all main features of the game, terrain and tree generation, mobs, and a bunch of other stuff. use three.js for the rendering to make things look nice.

Q2:只用一张图片就能生成threejs体素艺术场景

根据所提供的图像,编写一个受其启发的精美体素艺术场景。请使用Three.js编写代码,并确保代码为单页形式。

Q3:模拟真实的外太空游戏光影

从视频中可以看到,它的光影场景做得特别的好。

Q4:物理水面波纹模拟

"make a realistic water physics test, full 3d you can interact with it, reflections, waves, click anywhere to drop a lemon into the water"

04、写在最后

随着 Gemini 3 的正式登场,我们已经能清晰地看到一个信号:AI 模型的发展正式进入「全能型」竞争阶段。过去我们会强调“哪个模型更擅长写代码”“哪个模型更懂视频”“哪个模型数学更强”,而现在,Gemini 3 的出现直接把这些维度拉平,甚至在多个关键能力上出现“断崖式领先”。这意味着未来的 AI 应用场景将以一种更爆炸性的速度向前涌动。

它不仅仅是一个回答问题的助手,而更像是一个“可执行的泛化智能体”:能理解复杂环境、能规划策略、能操作应用、能构建可运行系统,甚至能辅助你做一款小型游戏、一个网站、一门课程制作、视频解析……这种能力的跃迁,是从“会说”到“会做”的质变。

接下来,随着各家模型全面进入 Agent、多模态、可执行推理的大混战,我们大概率会见证一件事:

未来的应用开发者,不再是“写代码的人”,而是“写需求的人”。

从网站、数据分析,到游戏、美术、视频、学习路线、商业策划……你只需要一句话,AI 就能替你把 80% 的事情完成。

未来的2026年,很有可能就是——

「AI 个人超级能力元年」。

而 Gemini 3,只是这一切的开端。

-End-

原创作者|李洛勤

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01、模型能力
  • 02、初步体验
  • 03、网友测试案例
  • 04、写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档