
腾讯云 TokenHub Token Plan 个人版与企业版均采用统一抵扣规则,缓存命中输入、缓存未命中输入、输出三类 Token 按同一口径从套餐内扣减,账单管理与预算评估更直观。
如果你之前用过按量计费的大模型服务,一定见过这样的账单:
a. 输入 Token:按"缓存命中价"和"未命中价"分别记账
b. 输出 Token:按独立单价记账
c. 不同模型有不同的分段定价([0, 32k) 一个价、32k+ 另一个价)
这种细颗粒度的计费方式对成本核算很精准,但对预算管理极不友好——团队要给每一种 Token 类型分别预估月度消耗,账单复杂度成倍增加。
腾讯云 Token Plan 选择了另一条路:所有 Token 统一抵扣。无论是缓存命中输入、缓存未命中输入还是输出,都按同一口径从套餐内扣减。这一规则贯穿了个人版(通用 Token Plan / Hy Token Plan)与企业版轻享套餐,是 Token Plan 价格体系最具识别度的设计。
腾讯云对个人版抵扣规则的官方表述是:缓存命中输入、缓存未命中输入、输出 Token 均从套餐包内统一抵扣。
这意味着:
a. 即使你的请求 100% 命中 Prompt Cache,仍然按消耗的 Token 数从套餐扣减——只是按量计费时享受的"缓存命中低价"在套餐内变成了"按 Token 数等额扣减"
b. 不区分 Token 类型记账,月度配额管理只需要看一个数字
c. 账单可预测性极高:买了 3.2 亿 Tokens,就是 3.2 亿 Tokens 的可用上限
假设你买了通用 Token Plan Pro 档(299 元 / 3.2 亿 Tokens),月内调用情况如下:
累计扣减 = 1.5 亿 + 1.2 亿 + 0.4 亿 = 3.1 亿 Tokens
剩余配额 1000 万 Tokens 可继续使用至套餐到期。配额过期后剩余部分不结转到下个月。
如果你同时持有通用 Token Plan + Hy Token Plan(个人版限购 1+1 组合),系统会根据请求里指定的 Model ID 自动路由到对应套餐——但每个套餐内部仍然遵循统一抵扣口径。
企业版轻享套餐的抵扣规则与个人版一致:缓存命中/未命中的输入内容、输出内容所产生的 Token 数,均从套餐包统一抵扣。
例:购买 5 亿 Tokens 轻享套餐(按 2 元/百万 Tokens 刊例价计费),团队当月实际调用 4.8 亿 Tokens,无论这些 Token 中有多少缓存命中、多少输出,都从 5 亿 Token 池里同等扣减;剩余 2000 万 Tokens 在套餐到期前可继续使用,过期不结转。
轻享套餐每 5000 万 Tokens 可创建 1 个 API Key。当多个 Key 共享同一个套餐 Token 池时:
a. 每个 Key 的调用都从同一个 Token 池扣减
b. 每个 Key 可独立设置独占配额上限(不与其他 Key 抢额度)
c. 控制台可分 Key 查看用量
但所有 Key 的扣减口径仍然是统一抵扣——这也是企业级账单结构清晰的根基。
企业版专业套餐采用积分池 + 实时扣减模式,与"统一抵扣"略有不同:
调用 GLM-5(输入 [0, 32k))输入 100 万 Tokens(其中 30 万缓存命中、70 万未命中)+ 输出 5 万 Tokens:
如果你的团队需要在多个模型间切换、且希望对每种模型的成本权重看得清楚,专业套餐的差异化扣减是优势。如果只想要"一个 Token 数管全场"的简洁感,轻享套餐或个人版更合适。
a. 个人版:299 元 Pro 档 = 3.2 亿 Tokens 配额,对应一个固定数字
b. 轻享套餐:5 亿 Tokens 池 = 5 亿配额,所有调用统一扣减
不需要分别预估"输入消耗多少、输出消耗多少、缓存命中多少"——这是统一抵扣最直接的价值。
腾讯云对 Token Plan 的官方价格表述:
这一价差的来源:套餐模式锁定低价 + 阶梯定价(等级越高,百万 Token 单价越低)+ 统一抵扣(缓存命中 Token 不再单独低价、整体均价被压低)。
通用 Token Plan 覆盖的模型矩阵:
无论调用哪一款,都按统一口径从同一个套餐 Token 池扣减——开发者不必为不同模型设计不同的成本核算。
A:在套餐内,缓存命中确实不再单独享受低价(按量计费场景里命中输入价通常是常规输入价的 1/4-1/10)。但缓存命中仍能显著降低首 Token 时延(TTFT),让交互体验更流畅;而且套餐价本身已经低于按量计费 50%-80%,整体仍是更优解。
A:不可以。Token Plan 个人版仅限在 AI 工具(编程工具、智能体工具)中使用——禁止用于自动化脚本、自定义应用程序后端或任何非交互式批量调用场景。批量任务请走按量计费的"在线推理"或"批量任务场景"。
A:不可以。无论是个人版还是企业版(轻享 / 专业),套餐到期后剩余 Token 或积分均不结转至下个月,且 API Key 立即失效。建议在套餐过期前完成续费。
A:
虽然套餐内 Cache 命中不再单独低价,但仍能改善 TTFT:
a. 同一对话使用稳定的 prompt_cache_key(值取业务侧 conversation_id)
b. HTTP Header 加上 X-Session-ID
c. 不要在 system prompt 中写入动态时间内容
d. 新轮次只在 messages 末尾追加,保持前缀稳定
对于离线评测、定时跑批等非交互场景,请使用按量计费的"在线推理"或"批量任务场景"。GLM 系列在批量任务场景下还能再享受约 50% 的价格折扣(详见 §8.5 批量任务场景价格)。
通用 Token Plan 的同一份配额可以横跨 GLM、Kimi、MiniMax 等多家模型——主力模型 + 备用模型 + 实验模型在同一套餐内灵活切换,是个人开发者最划算的用法。
统一抵扣不是单纯的计费简化,而是 Token Plan 体系把"成本可预测、用量可管控、模型可切换"三件事整合到一起的关键设计。无论你是个人开发者还是团队 Leader,理解这一规则都能帮你避开"按 Token 类型分别预估"的复杂度陷阱。
现在就到 Token Plan 活动页 https://cloud.tencent.com/act/pro/tokenplan 选择适合的档位完成下单,或先到 TokenHub 控制台 https://console.cloud.tencent.com/tokenhub/ 用新人 100 万免费体验包测算一遍真实月度消耗。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。