做技术选型时经常需要在不同AI模型之间切换对比,c.kulaai.cn这类AI模型聚合平台提供了统一接入多个主流模型的能力,省去了逐个申请Key和适配SDK的精力。

2026年5月20日,Google在I/O大会上正式发布Gemini 3.5 Flash。官方称其输出速度是Claude Opus 4.7和GPT-5.5的4倍,达到每秒289 tokens。Terminal-Bench编码测试76.2%,MCP Atlas代理基准83.6%,MMUU-Pro多模态理解81.2%。
但大多数开发者只用了3.5的皮毛。多数人的使用方式还停留在"打开网页→输入一段话→等结果→复制粘贴"。他们不知道的是,Gemini 3.5藏着五个被有意或无意隐藏的功能——激活之后使用效率会有质的提升。
本文从架构层拆解3.5的核心特性,结合实操给出五个隐藏功能的用法。
3.5 Flash采用的是谷歌内部Antigravity工具架构。I/O大会上谷歌演示了用Antigravity从零构建操作系统:启动93个子智能体,耗时12小时,生成26亿tokens。这个demo展示的不只是模型能力,更是Agent编排架构的成熟度。
text
text模型层:Gemini 3.5 Flash
├── Terminal-Bench 76.2%
├── MCP Atlas 83.6%
├── MMUU-Pro 81.2%
├── 输出速度 289 tokens/s
└── 上下文 100万token输入 + 65K输出
工具链层:Antigravity 2.0
├── CLI:命令行Agent开发环境
├── SDK:嵌入式Agent loop
└── Managed Execution:并行子Agent编排
能力层:五个隐藏功能
├── 四档思考强度
├── Thinking Retention
├── Dynamic Thinking
├── Antigravity 2.0工具链
└── Agentic Execution栈下沉LMArena匿名跑分显示,3.5 Flash在SVG生成、交互式3D编码、动画处理上直接超越了前代旗舰3.1 Pro。谷歌把前沿技术"压缩"进轻量模型,让Flash在干活型benchmark上反超老旗舰。
术语 | 解释 |
|---|---|
Gemini 3.5 Flash | 谷歌2026年5月发布的默认底座模型,定位"快+便宜+够强" |
Antigravity 2.0 | 谷歌的Agent开发工具平台,新增CLI和SDK |
Dynamic Thinking | 根据任务复杂度自动分配推理预算的机制 |
Thinking Retention | 多轮对话中自动保留中间推理过程的特性 |
Four-Level Thinking | 四档思考强度:Minimal、Low、Medium(默认)、High |
Terminal-Bench 2.1 | 衡量模型在真实终端环境中完成复杂编码任务的基准 |
MCP Atlas | 测试多步Agent工具调用能力的基准 |
Managed Execution | Antigravity 2.0的并行子Agent编排能力 |
缓存折扣 | 将高频系统提示缓存化以降低重复Token消耗的机制,最高达90% |
Token | 模型处理文本的基本单位,影响调用成本和处理长度 |
这是面向开发者最实用但最容易被忽略的升级。大多数人不知道这个功能或者全程用Medium。实测按任务复杂度切换能省约40%的token消耗。
text
textMinimal → 快问快答、翻译、格式转换
Low → 步骤较少的编码、代码补全
Medium → 默认档,兼顾速度与质量
High → 深度推理、并发安全分析、竞态检测判断标准:涉及"跨文件""并发""时序"上High,其他时候Medium够用。全程用High的话同一个项目跑下来token消耗是按需切换的1.7倍左右。
这个特性本质上把AI调用从"统一定价"变成"按需定价"。简单任务用低档位省成本,复杂任务用高档位保质量。
模型在多轮对话中自动保留中间推理过程。后续对话沿用之前的推论脉络,不需要开发者更改API。
对比GPT-5.5在15轮以上长对话中需要主动在提示词里提醒约束条件,3.5 Flash自己就记住了。
实测代码审查场景:第一轮分析项目架构,第二轮追问某个模块的调用链,第三轮深入分析竞态条件。三轮下来它始终记得第一轮的架构理解,不需要重新喂上下文。
对Agent工作流来说这是关键的底层能力。多步任务中每一步的推理结果自动传递给下一步,整个流程的连贯性大幅提升。
3.5 Flash默认开启Dynamic Thinking。模型根据任务复杂度自动分配推理预算——简单查询几乎零延迟响应,复杂推理自动加深度。
这跟OpenAI让开发者直接设置推理深度、Anthropic的thinking budget策略都有所不同。Dynamic Thinking是模型自己判断的,开发者不需要手动干预。
配合四档手动覆盖能力形成"自动+手动"双保险。大多数场景让自动模式处理即可,特殊场景再手动切到High档。
python
python# API调用时显式设置思考档位(覆盖自动判断)
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[...],
extra_body={"thinking_level": "high"} # 显式设置
)I/O大会同日发布的Agent开发工具。三个核心更新:
CLI:命令行直接启动多步骤Agent任务,对标Codex CLI和Claude Code。在终端里就能跑,不用开浏览器。
SDK:把agent loop嵌进自己的服务。不再依赖外部平台,适合需要私有化部署的团队。
Managed Execution:支持并行子Agent编排。现场演示93个subagent并行跑12小时处理26亿token,总成本不到$1000。
典型工作流:
text
textCLI发起任务
→ 3.5 Flash做代码生成
→ 子Agent并行测试
→ 结果汇总
→ 人工review整个流程token消耗可控、延迟低、成本低。
此前Pro版本才有的long-horizon planning、tool calling、parallel agent execution被下放到Flash层级。用最低价位的Flash模型跑完整agent loop成为现实。
MCP Atlas多步Agent工作流测试,3.5 Flash拿到83.6%,3.1 Pro是78.2%。差距5.4个百分点在Agent场景下意味着显著更高的任务完成率。
Cursor企业客户的数据显示AI生成代码比例一年内从15%-20%跳到了75%,30%的PR已由agent独立完成。当模型从"偶尔问一个问题"变成"持续不断被调用",Flash的成本优势就是核心竞争力。
Flash定价输入1.50、输出1.50、输出9.00每百万token,比上代旗舰便宜40%。配合90%的缓存折扣企业大规模调用成本优势明显。
同样500道ScienceQA题目,GPT-5.5 Pro花费471,3.5Flash分数相近仅花费471,3.5Flash分数相近仅花费1.9。Token消耗只有其他模型的10%-20%。
成本优化技巧:
API Key不要写死在代码里。建议放在环境变量或密钥管理系统里配合短期令牌机制。支持为不同项目生成独立Key并可随时吊销。
所有调用应统一经过代理服务记录token消耗和延迟。一个项目因为没做好可观测,上线第一周被恶意刷了十几万次调用费用超预算三倍。
请求编排建议分层处理,把复杂任务拆成多个阶段。这种方式比一次性大Prompt调用能节省约35%的token消耗。
Gemini 3.5 Flash的核心竞争力不在于某一项指标的绝对领先,而在于"高速度+大上下文+低成本+Agent能力下沉"的组合。
五个隐藏功能的价值排序:四档思考强度和Dynamic Thinking让成本控制精确到任务级别;Thinking Retention让多轮协作不再失忆;Antigravity 2.0让Agent开发从概念验证进入生产落地;Agentic Execution栈下沉让Flash也能跑完整agent loop。
3.5 Pro目前仅在谷歌内部使用预计下月发布。等它出来格局可能还会再变。但产品逻辑已经很清楚:轻量级产品在核心业务指标上超越旗舰同时维持更低成本,AI基础设施正在从"能力竞赛"转向"效率竞赛"。
建议从四档思考强度开始试跑。同一个任务分别用Minimal和High跑一遍,对比输出质量和token消耗。找到自己场景下的最优档位组合,这一步就能省下大量成本。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。