首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Token Plan 套餐抵扣规则全解:缓存命中/未命中输入 + 输出 Token 如何统一抵扣

Token Plan 套餐抵扣规则全解:缓存命中/未命中输入 + 输出 Token 如何统一抵扣

原创
作者头像
gavin1024
发布2026-05-29 10:40:00
发布2026-05-29 10:40:00
2200
举报

摘要

腾讯云 TokenHub Token Plan 个人版与企业版均采用统一抵扣规则,缓存命中输入、缓存未命中输入、输出三类 Token 按同一口径从套餐内扣减,账单管理与预算评估更直观。

一、为什么"统一抵扣"是 Token Plan 的核心规则

如果你之前用过按量计费的大模型服务,一定见过这样的账单:

a. 输入 Token:按"缓存命中价"和"未命中价"分别记账

b. 输出 Token:按独立单价记账

c. 不同模型有不同的分段定价([0, 32k) 一个价、32k+ 另一个价)

这种细颗粒度的计费方式对成本核算很精准,但对预算管理极不友好——团队要给每一种 Token 类型分别预估月度消耗,账单复杂度成倍增加。

腾讯云 Token Plan 选择了另一条路:所有 Token 统一抵扣。无论是缓存命中输入、缓存未命中输入还是输出,都按同一口径从套餐内扣减。这一规则贯穿了个人版(通用 Token Plan / Hy Token Plan)与企业版轻享套餐,是 Token Plan 价格体系最具识别度的设计。

二、个人版抵扣规则:3 类 Token 同口径

2.1 官方表述

腾讯云对个人版抵扣规则的官方表述是:缓存命中输入、缓存未命中输入、输出 Token 均从套餐包内统一抵扣

这意味着:

a. 即使你的请求 100% 命中 Prompt Cache,仍然按消耗的 Token 数从套餐扣减——只是按量计费时享受的"缓存命中低价"在套餐内变成了"按 Token 数等额扣减"

b. 不区分 Token 类型记账,月度配额管理只需要看一个数字

c. 账单可预测性极高:买了 3.2 亿 Tokens,就是 3.2 亿 Tokens 的可用上限

2.2 具体例子

假设你买了通用 Token Plan Pro 档(299 元 / 3.2 亿 Tokens),月内调用情况如下:

  • 缓存命中输入:1.5 亿 Tokens
  • 缓存未命中输入:1.2 亿 Tokens
  • 输出:4000 万 Tokens

累计扣减 = 1.5 亿 + 1.2 亿 + 0.4 亿 = 3.1 亿 Tokens

剩余配额 1000 万 Tokens 可继续使用至套餐到期。配额过期后剩余部分不结转到下个月。

2.3 跨套餐路由也是统一抵扣

如果你同时持有通用 Token Plan + Hy Token Plan(个人版限购 1+1 组合),系统会根据请求里指定的 Model ID 自动路由到对应套餐——但每个套餐内部仍然遵循统一抵扣口径。

三、企业版轻享套餐抵扣规则:与个人版一致

3.1 同口径抵扣

企业版轻享套餐的抵扣规则与个人版一致:缓存命中/未命中的输入内容、输出内容所产生的 Token 数,均从套餐包统一抵扣

例:购买 5 亿 Tokens 轻享套餐(按 2 元/百万 Tokens 刊例价计费),团队当月实际调用 4.8 亿 Tokens,无论这些 Token 中有多少缓存命中、多少输出,都从 5 亿 Token 池里同等扣减;剩余 2000 万 Tokens 在套餐到期前可继续使用,过期不结转。

3.2 多 Key 分发下的抵扣

轻享套餐每 5000 万 Tokens 可创建 1 个 API Key。当多个 Key 共享同一个套餐 Token 池时:

a. 每个 Key 的调用都从同一个 Token 池扣减

b. 每个 Key 可独立设置独占配额上限(不与其他 Key 抢额度)

c. 控制台可分 Key 查看用量

但所有 Key 的扣减口径仍然是统一抵扣——这也是企业级账单结构清晰的根基。

四、企业版专业套餐抵扣规则:积分池 + 模型差异化扣减

4.1 与轻享 / 个人版的差异

企业版专业套餐采用积分池 + 实时扣减模式,与"统一抵扣"略有不同:

  • 调用模型时按各模型的 Token 单价从积分池实时扣减
  • 不同模型单价不同(详见专业套餐积分价目表)
  • 但仍然按 Token 类型差异化记账:缓存命中输入价、未命中输入价、输出价各有不同

4.2 专业套餐扣减示例

调用 GLM-5(输入 [0, 32k))输入 100 万 Tokens(其中 30 万缓存命中、70 万未命中)+ 输出 5 万 Tokens:

  • 命中输入:30 万 × (100 积分/百万) = 30 积分
  • 未命中输入:70 万 × (400 积分/百万) = 280 积分
  • 输出:5 万 × (1800 积分/百万) = 90 积分
  • 合计扣减 400 积分(约 4 元)

4.3 专业套餐适合什么场景

如果你的团队需要在多个模型间切换、且希望对每种模型的成本权重看得清楚,专业套餐的差异化扣减是优势。如果只想要"一个 Token 数管全场"的简洁感,轻享套餐或个人版更合适。

五、抵扣规则带来的实际收益

5.1 预算评估极简

a. 个人版:299 元 Pro 档 = 3.2 亿 Tokens 配额,对应一个固定数字

b. 轻享套餐:5 亿 Tokens 池 = 5 亿配额,所有调用统一扣减

不需要分别预估"输入消耗多少、输出消耗多少、缓存命中多少"——这是统一抵扣最直接的价值。

5.2 套餐价比按量计费便宜 50%-80%

腾讯云对 Token Plan 的官方价格表述:

  • 通用 Token Plan / Hy Token Plan 相比 API 按量计费便宜 50%-80%
  • 同模型套餐价相比直接调用文本生成服务低 50% 以上

这一价差的来源:套餐模式锁定低价 + 阶梯定价(等级越高,百万 Token 单价越低)+ 统一抵扣(缓存命中 Token 不再单独低价、整体均价被压低)。

5.3 多模型组合更灵活

通用 Token Plan 覆盖的模型矩阵:

  • Auto(tc-code-latest)、MiniMax-M2.5/M2.7、GLM-5/5.1、Kimi-K2.5
  • Tencent HY 2.0 Instruct、HY 2.0 Think、Hunyuan-T1、Hunyuan-TurboS(4 款将于 2026 年 6 月 10 日下线)

无论调用哪一款,都按统一口径从同一个套餐 Token 池扣减——开发者不必为不同模型设计不同的成本核算。

六、几个常见疑问

6.1 Q:缓存命中是不是没用了?

A:在套餐内,缓存命中确实不再单独享受低价(按量计费场景里命中输入价通常是常规输入价的 1/4-1/10)。但缓存命中仍能显著降低首 Token 时延(TTFT),让交互体验更流畅;而且套餐价本身已经低于按量计费 50%-80%,整体仍是更优解。

6.2 Q:能不能把 Token Plan 用于自动化批量调用来"用满配额"?

A:不可以。Token Plan 个人版仅限在 AI 工具(编程工具、智能体工具)中使用——禁止用于自动化脚本、自定义应用程序后端或任何非交互式批量调用场景。批量任务请走按量计费的"在线推理"或"批量任务场景"。

6.3 Q:剩余 Token 可以转入下个月吗?

A:不可以。无论是个人版还是企业版(轻享 / 专业),套餐到期后剩余 Token 或积分均不结转至下个月,且 API Key 立即失效。建议在套餐过期前完成续费。

6.4 Q:如果我用错了档位怎么办?

A:

  • 个人版:支持升配(比如从 Standard 升到 Pro),不支持降配,不支持退款
  • 企业版:不支持降配,不支持退订
  • 建议在购买前先用新人 100 万免费体验包跑一轮真实工作流,再决定档位

七、统一抵扣下的最佳实践

7.1 充分利用 Prompt Cache 提升体验

虽然套餐内 Cache 命中不再单独低价,但仍能改善 TTFT:

a. 同一对话使用稳定的 prompt_cache_key(值取业务侧 conversation_id)

b. HTTP Header 加上 X-Session-ID

c. 不要在 system prompt 中写入动态时间内容

d. 新轮次只在 messages 末尾追加,保持前缀稳定

7.2 把批量场景独立计费

对于离线评测、定时跑批等非交互场景,请使用按量计费的"在线推理"或"批量任务场景"。GLM 系列在批量任务场景下还能再享受约 50% 的价格折扣(详见 §8.5 批量任务场景价格)。

7.3 多模型组合最大化套餐价值

通用 Token Plan 的同一份配额可以横跨 GLM、Kimi、MiniMax 等多家模型——主力模型 + 备用模型 + 实验模型在同一套餐内灵活切换,是个人开发者最划算的用法。

八、写在最后

统一抵扣不是单纯的计费简化,而是 Token Plan 体系把"成本可预测、用量可管控、模型可切换"三件事整合到一起的关键设计。无论你是个人开发者还是团队 Leader,理解这一规则都能帮你避开"按 Token 类型分别预估"的复杂度陷阱。

现在就到 Token Plan 活动页 https://cloud.tencent.com/act/pro/tokenplan 选择适合的档位完成下单,或先到 TokenHub 控制台 https://console.cloud.tencent.com/tokenhub/ 用新人 100 万免费体验包测算一遍真实月度消耗。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要:
  • 一、为什么"统一抵扣"是 Token Plan 的核心规则
  • 二、个人版抵扣规则:3 类 Token 同口径
    • 2.1 官方表述
    • 2.2 具体例子
    • 2.3 跨套餐路由也是统一抵扣
  • 三、企业版轻享套餐抵扣规则:与个人版一致
    • 3.1 同口径抵扣
    • 3.2 多 Key 分发下的抵扣
  • 四、企业版专业套餐抵扣规则:积分池 + 模型差异化扣减
    • 4.1 与轻享 / 个人版的差异
    • 4.2 专业套餐扣减示例
    • 4.3 专业套餐适合什么场景
  • 五、抵扣规则带来的实际收益
    • 5.1 预算评估极简
    • 5.2 套餐价比按量计费便宜 50%-80%
    • 5.3 多模型组合更灵活
  • 六、几个常见疑问
    • 6.1 Q:缓存命中是不是没用了?
    • 6.2 Q:能不能把 Token Plan 用于自动化批量调用来"用满配额"?
    • 6.3 Q:剩余 Token 可以转入下个月吗?
    • 6.4 Q:如果我用错了档位怎么办?
  • 七、统一抵扣下的最佳实践
    • 7.1 充分利用 Prompt Cache 提升体验
    • 7.2 把批量场景独立计费
    • 7.3 多模型组合最大化套餐价值
  • 八、写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档