刚刚,Gemini 3 再次大更新!奥特曼又要失眠了 年底了,谷歌又开始冲业绩了。 就在刚刚,Gemini 3 Flash 正式发布,直接对标 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet 这些旗舰模型。官方号称比自家前代的 Gemini 2.5 Pro 速度快 3 倍,价格砍到 Gemini 3 Pro 的四分之一,性能还不降反升。 用谷歌自己的话说,这是「为速度而生的前沿智能」。翻译一下就是:又快又便宜,脑子还挺在线。

不过,我得说句实话,在实际体验过程中,Gemini 3 Flash 的性能表现还是远远不如 Pro 的,尤其是在一些需要深度创意和精细细节的任务上。这种落差感,有点像你听说新出了一款“平价旗舰手机”,参数很顶,但真拿在手里用,发现摄像头拍照的质感、屏幕的观感,跟真正的顶级旗舰还是有差距。也欢迎更多朋友分享你的体验,看看是不是我的感觉有偏差。
即便如此,谷歌在发布时机的选择上依然称得上「快、准、狠」。 紧随 Gemini 3 Pro 与那个强调深度思考的“Deep Think”模式之后,立刻上马 Flash,这节奏摆明了就是完全不给竞争对手喘息的机会。OpenAI 的 Sam Altman 前脚刚在开发者大会上秀完肌肉,谷歌后脚就掏出一个“性价比屠夫”,这让我越来越期待 Sam Altman 的圣诞节会拿出什么反击礼物了。这场面,比科技春晚还好看。

而从今天起,你在 Gemini 产品线里能用的模型,就有点像去餐厅点菜了,分得特别细:
* Gemini 3 Flash (Fast):主打一个「快」,适合那些不需要长链条思考、追求效率的对话场景。比如快速总结文章、翻译、写个简单邮件草稿。
* Gemini 3 Flash (Thinking): 给这个“快”模型加了个“思考”模式,具备轻量化推理能力。面对一些需要多绕个弯的复杂问题时,它能模拟人类的思考过程来提升准确率,比如解一道逻辑谜题或者分析一个事件的多个可能原因。
* Gemini 3 Pro: 性能天花板,它依然是处理极高难度任务的首选。比如写一篇结构严谨的长文、进行复杂的代码调试、或者需要高度创意和一致性的多轮对话。
01.Flash 跑分超越 Pro
最让人惊讶的是基准测试结果。数据显示,Gemini 3 Flash 居然在不少测试里保留了 Pro 级别的推理能力,但延迟、成本直接降到了 Flash 级别。
具体来说,在 GPQA Diamond 这种博士级推理测试里(你可以理解为给AI做的“高考理综plus版”),它能拿到 90.4% 的成绩,跟那些体积更大、参数更多的前沿模型打得有来有回。在 Humanity's Last Exam 这个变态难度的综合测试中,无需任何工具辅助就能拿到 33.7% 的分数,这个表现已经相当惊人了。
更夸张的是 MMMU Pro 测试(一个涵盖艺术、历史、法律等多学科的视觉问答基准),Gemini 3 Flash 直接拿下 81.2%,达到了业界最先进水平,跟自家的老大哥 3 Pro 表现相当。这属实是有些“倒反天罡”,小弟在单项成绩上跟大哥平起平坐了。

以前大家觉得「质量、成本、速度」是个“不可能三角”,模型要么快但不聪明(比如很多早期的轻量模型),要么聪明但贵且慢(比如一些千亿参数模型)。现在谷歌试图用 Gemini 3 Flash 证明,只要工程化能力优化到位,用“魔法”把推理路径压缩得更高效,“六边形战士”是可以存在的。

数据显示,其 Token 消耗比 2.5 Pro 少了三成,速度快三倍,价格更是压到了输入 0.5 美元/百万 Token,输出 3 美元/百万 Token 的地板价。做个对比,GPT-4 Turbo 的输入价格大约是它的6倍。

行吧,现在的 AI 新模型不光要卷参数、卷上下文长度,还要卷性价比了,直接进入“价格战”阶段。
而且它还是个推理型模型,能根据任务复杂度灵活调整「思考」时间。比如你问“今天天气如何”,它几乎秒回;你问“帮我分析一下这篇论文的局限性并提出三个改进方向”,它就会启动“Thinking”模式,多花零点几秒来组织更严谨的回答。即使在最低的「思考等级」下,3 Flash 的表现也常常超过前代模型的「高思考等级」。这种自适应能力在实际应用中特别有价值,不会出现「杀鸡用牛刀」的资源浪费,也避免了简单问题等半天的情况。

02.对开发者意味着什么?
对于开发者来说,Gemini 3 Flash 的出现,意味着终于不用在速度和智能之间做痛苦的二选一了。
基准测试显示,Gemini 3 Flash 在 SWE-bench Verified 这个真实的编码测试集里拿到 78% 的高分,不仅吊打 2.5 系列,甚至比自家的 3 Pro 还略高一点。这意味着用它来辅助代码补全、调试或者生成简单脚本,响应会更快,成本还更低。
此外,Gemini 3 Flash 的亮点还在于多模态能力的速度提升。它能更快地处理视觉、音频等输入,把「看见、听见、理解」串成一条相对顺滑的链路,适合需要即时反馈的交互场景。
具体来说,官方演示里,它可以分析一段高尔夫挥杆视频,并在几秒钟内给出“上杆时手腕角度可以再固定一些”的具体改进建议;你在线画草图时,它也能实时识别出你画的是个房子还是棵树,并预测你接下来可能想添加什么。再叠加代码执行能力,使它不仅能理解图片内容,还能在工具链支持下对图片进行简单的处理与操作,比如“把图中蓝色的车标出来”。

03.Flash 快是真的快,但 ……
当然,谷歌官方展示的应用场景也很有意思,基本都围绕着“快”和“实时”。
比如在「投球解谜」类游戏中,Flash 可以做实时的辅助推理,在你拖动球的时候立刻给出可行的抛物线甚至提示更优解;

在交互 UI 设计流程里,它能根据你的文字描述快速生成几个加载动画方案,并配合你快速迭代做 A/B 方案对比;你提供一张产品截图,它也能完成基础识别,再结合你的需求(“帮我想一句广告语”)生成交互式注释。这些 Demo 的共同点是:强调实时性、强调迭代效率、强调“能跑起来就行”的敏捷开发。
我也用 Gemini 3 Flash 跑了几个更贴近实际工作的案例。
不得不说,对比 Gemini 3 Pro,前者的响应速度确实是极快的,几乎是你敲完回车,答案就开始流式输出了。但效果嘛,则比较中规中矩,对比 Gemini 3 Pro 则明显牺牲了视觉与交互细节的质量。

以复刻 macOS 桌面界面为例,Flash 模型的表现就略显乏力:底部 Dock 栏出现了明显的图标缺失或错位,窗口的阴影、按钮的微渐变这些体现“精致感”的交互细节,也明显逊于 Gemini 3 Pro 的生成效果。Flash 版像是“能用”,Pro 版则是“好看且能用”。
这种差距在「生成一个复古拟物风相机应用图标」的设计任务中尤为突出。Pro 版能生成带有复杂光泽、逼真纹理和怀旧字体效果的图标,而 Flash 版生成的图标则相对扁平,质感简单,视觉呈现与“复古拟物”的预期目标仍有较大差距。

此外,在尝试让它生成一个「星球信号监测仪表盘」网页时,Flash 版能给出基本的布局和可交互的图表元素,有一定程度的交互细节,但整体产出的页面效果还是略显粗糙,配色、间距、字体层次都缺乏专业设计的细腻感。

所以,我的结论是:如果你追求极致的响应速度和性价比,处理的是信息提取、简单归纳、基础代码、快速原型这类任务,Flash 是神器。但如果你要的是深度分析、复杂创意、高保真设计或需要高度稳定性的生产级任务,目前还是得加钱上 Pro。
04.谷歌的阳谋:流量即护城河
其实,谷歌最大的底牌,从来不是某个单一的模型,而是流量。
搜索、YouTube、Gmail、Google Maps、Android……每天有数十亿用户在不同场景下使用这些产品。把 Gemini 3 Flash 这种低成本、高性能的模型,像水电煤一样嵌入到这些高频应用中,用户也就在最熟悉的场景里,无感地、自然地被谷歌的 AI 服务所包围。你用搜索,AI帮你总结;你看YouTube,AI帮你生成字幕摘要;你写邮件,AI帮你润色。这种渗透是静默而深刻的。
这种打法,靠纯模型API起家的 OpenAI 和做“安全可靠AI”的 Anthropic 是学不来的。它们没有这个量级的终端用户入口。

一方面,谷歌财大气粗,确实有资本烧钱抢市场,用低价策略培养用户习惯;另一方面,谷歌在自研TPU、全球数据中心网络、分布式训练框架等基础设施和工程优化上十年的积累,确实能帮他们把成本压到竞争对手难以企及的水平。这就像它既是“发电厂”,又是“电网公司”,还是“家电制造商”,全产业链的优势太大了。
所以你看,谷歌的策略是两条腿走路:一边做 toB 的 API 服务,赚开发者和企业的钱,在性能和成本上卷死对手;另一边直接把 AI 能力塞进自家几十亿用户的产品里,覆盖海量普通用户,构建生态护城河。当用户习惯了在搜索里用 AI 模式,习惯了在 Gemini 应用里对话,自然就会对谷歌的 AI 生态产生依赖。这才是谷歌真正的阳谋。
当然,这种巨头间的贴身肉搏和内卷对行业是残酷的,小公司生存空间会被进一步挤压。但对用户和开发者来说,这绝对是好事。模型更强、价格更低、速度更快,开发者能以前所未有的低成本进行创新实验,普通人能享受更智能、更便捷的数字服务。这大概是这场看不到尽头的 AI 军备竞赛中,我们作为旁观者和使用者,能抓到的为数不多的确定性红利了。
接下来,就看 OpenAI 和 Anthropic 怎么接招了。Sam Altman 的“圣诞礼物”,会不会也是一个“价格惊喜”?我们拭目以待。