首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >深挖Gemini-3.5核心特性,解锁隐藏实用功能用法

深挖Gemini-3.5核心特性,解锁隐藏实用功能用法

原创
作者头像
用户12477230
发布2026-05-25 09:43:03
发布2026-05-25 09:43:03
420
举报

做技术选型时经常需要在不同AI模型之间切换对比,c.kulaai.cn这类AI模型聚合平台提供了统一接入多个主流模型的能力,省去了逐个申请Key和适配SDK的精力。

概要

2026年5月20日,Google在I/O大会上正式发布Gemini 3.5 Flash。官方称其输出速度是Claude Opus 4.7和GPT-5.5的4倍,达到每秒289 tokens。Terminal-Bench编码测试76.2%,MCP Atlas代理基准83.6%,MMUU-Pro多模态理解81.2%。

但大多数开发者只用了3.5的皮毛。多数人的使用方式还停留在"打开网页→输入一段话→等结果→复制粘贴"。他们不知道的是,Gemini 3.5藏着五个被有意或无意隐藏的功能——激活之后使用效率会有质的提升。

本文从架构层拆解3.5的核心特性,结合实操给出五个隐藏功能的用法。

整体架构流程

3.5 Flash的技术底座

3.5 Flash采用的是谷歌内部Antigravity工具架构。I/O大会上谷歌演示了用Antigravity从零构建操作系统:启动93个子智能体,耗时12小时,生成26亿tokens。这个demo展示的不只是模型能力,更是Agent编排架构的成熟度。

text

代码语言:javascript
复制
text模型层:Gemini 3.5 Flash
├── Terminal-Bench 76.2%
├── MCP Atlas 83.6%
├── MMUU-Pro 81.2%
├── 输出速度 289 tokens/s
└── 上下文 100万token输入 + 65K输出

工具链层:Antigravity 2.0
├── CLI:命令行Agent开发环境
├── SDK:嵌入式Agent loop
└── Managed Execution:并行子Agent编排

能力层:五个隐藏功能
├── 四档思考强度
├── Thinking Retention
├── Dynamic Thinking
├── Antigravity 2.0工具链
└── Agentic Execution栈下沉

LMArena匿名跑分显示,3.5 Flash在SVG生成、交互式3D编码、动画处理上直接超越了前代旗舰3.1 Pro。谷歌把前沿技术"压缩"进轻量模型,让Flash在干活型benchmark上反超老旗舰。

技术名词解释

术语

解释

Gemini 3.5 Flash

谷歌2026年5月发布的默认底座模型,定位"快+便宜+够强"

Antigravity 2.0

谷歌的Agent开发工具平台,新增CLI和SDK

Dynamic Thinking

根据任务复杂度自动分配推理预算的机制

Thinking Retention

多轮对话中自动保留中间推理过程的特性

Four-Level Thinking

四档思考强度:Minimal、Low、Medium(默认)、High

Terminal-Bench 2.1

衡量模型在真实终端环境中完成复杂编码任务的基准

MCP Atlas

测试多步Agent工具调用能力的基准

Managed Execution

Antigravity 2.0的并行子Agent编排能力

缓存折扣

将高频系统提示缓存化以降低重复Token消耗的机制,最高达90%

Token

模型处理文本的基本单位,影响调用成本和处理长度

技术细节

隐藏功能一:四档思考强度

这是面向开发者最实用但最容易被忽略的升级。大多数人不知道这个功能或者全程用Medium。实测按任务复杂度切换能省约40%的token消耗。

text

代码语言:javascript
复制
textMinimal  → 快问快答、翻译、格式转换
Low      → 步骤较少的编码、代码补全
Medium   → 默认档,兼顾速度与质量
High     → 深度推理、并发安全分析、竞态检测

判断标准:涉及"跨文件""并发""时序"上High,其他时候Medium够用。全程用High的话同一个项目跑下来token消耗是按需切换的1.7倍左右。

这个特性本质上把AI调用从"统一定价"变成"按需定价"。简单任务用低档位省成本,复杂任务用高档位保质量。

隐藏功能二:Thinking Retention

模型在多轮对话中自动保留中间推理过程。后续对话沿用之前的推论脉络,不需要开发者更改API。

对比GPT-5.5在15轮以上长对话中需要主动在提示词里提醒约束条件,3.5 Flash自己就记住了。

实测代码审查场景:第一轮分析项目架构,第二轮追问某个模块的调用链,第三轮深入分析竞态条件。三轮下来它始终记得第一轮的架构理解,不需要重新喂上下文。

对Agent工作流来说这是关键的底层能力。多步任务中每一步的推理结果自动传递给下一步,整个流程的连贯性大幅提升。

隐藏功能三:Dynamic Thinking

3.5 Flash默认开启Dynamic Thinking。模型根据任务复杂度自动分配推理预算——简单查询几乎零延迟响应,复杂推理自动加深度。

这跟OpenAI让开发者直接设置推理深度、Anthropic的thinking budget策略都有所不同。Dynamic Thinking是模型自己判断的,开发者不需要手动干预。

配合四档手动覆盖能力形成"自动+手动"双保险。大多数场景让自动模式处理即可,特殊场景再手动切到High档。

python

代码语言:javascript
复制
python# API调用时显式设置思考档位(覆盖自动判断)
response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[...],
    extra_body={"thinking_level": "high"}  # 显式设置
)

隐藏功能四:Antigravity 2.0工具链

I/O大会同日发布的Agent开发工具。三个核心更新:

CLI:命令行直接启动多步骤Agent任务,对标Codex CLI和Claude Code。在终端里就能跑,不用开浏览器。

SDK:把agent loop嵌进自己的服务。不再依赖外部平台,适合需要私有化部署的团队。

Managed Execution:支持并行子Agent编排。现场演示93个subagent并行跑12小时处理26亿token,总成本不到$1000。

典型工作流:

text

代码语言:javascript
复制
textCLI发起任务
  → 3.5 Flash做代码生成
    → 子Agent并行测试
      → 结果汇总
        → 人工review

整个流程token消耗可控、延迟低、成本低。

隐藏功能五:Agentic Execution栈下沉

此前Pro版本才有的long-horizon planning、tool calling、parallel agent execution被下放到Flash层级。用最低价位的Flash模型跑完整agent loop成为现实。

MCP Atlas多步Agent工作流测试,3.5 Flash拿到83.6%,3.1 Pro是78.2%。差距5.4个百分点在Agent场景下意味着显著更高的任务完成率。

Cursor企业客户的数据显示AI生成代码比例一年内从15%-20%跳到了75%,30%的PR已由agent独立完成。当模型从"偶尔问一个问题"变成"持续不断被调用",Flash的成本优势就是核心竞争力。

价格与成本优化

Flash定价输入1.50、输出1.50、输出9.00每百万token,比上代旗舰便宜40%。配合90%的缓存折扣企业大规模调用成本优势明显。

同样500道ScienceQA题目,GPT-5.5 Pro花费471,3.5Flash分数相近仅花费471,3.5Flash分数相近仅花费1.9。Token消耗只有其他模型的10%-20%。

成本优化技巧:

  • 明确区分系统指令与任务描述
  • 高频系统提示缓存化可降低90%的重复token成本
  • 结构化输出(JSON Schema)通常比自由文本节省更多Token
  • 按任务复杂度切换思考档位可省约40%的token消耗

安全与鉴权

API Key不要写死在代码里。建议放在环境变量或密钥管理系统里配合短期令牌机制。支持为不同项目生成独立Key并可随时吊销。

所有调用应统一经过代理服务记录token消耗和延迟。一个项目因为没做好可观测,上线第一周被恶意刷了十几万次调用费用超预算三倍。

请求编排建议分层处理,把复杂任务拆成多个阶段。这种方式比一次性大Prompt调用能节省约35%的token消耗。

小结

Gemini 3.5 Flash的核心竞争力不在于某一项指标的绝对领先,而在于"高速度+大上下文+低成本+Agent能力下沉"的组合。

五个隐藏功能的价值排序:四档思考强度和Dynamic Thinking让成本控制精确到任务级别;Thinking Retention让多轮协作不再失忆;Antigravity 2.0让Agent开发从概念验证进入生产落地;Agentic Execution栈下沉让Flash也能跑完整agent loop。

3.5 Pro目前仅在谷歌内部使用预计下月发布。等它出来格局可能还会再变。但产品逻辑已经很清楚:轻量级产品在核心业务指标上超越旗舰同时维持更低成本,AI基础设施正在从"能力竞赛"转向"效率竞赛"。

建议从四档思考强度开始试跑。同一个任务分别用Minimal和High跑一遍,对比输出质量和token消耗。找到自己场景下的最优档位组合,这一步就能省下大量成本。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 概要
    • 整体架构流程
      • 3.5 Flash的技术底座
    • 技术名词解释
    • 技术细节
      • 隐藏功能一:四档思考强度
      • 隐藏功能二:Thinking Retention
      • 隐藏功能三:Dynamic Thinking
      • 隐藏功能四:Antigravity 2.0工具链
      • 隐藏功能五:Agentic Execution栈下沉
      • 价格与成本优化
      • 安全与鉴权
    • 小结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档