
1M 上下文模型让"整本书一次塞进去"成为现实。腾讯云 TokenHub 已上架的 DeepSeek-V4-Flash(1M 上下文 / 384k 输出)与 Kimi-K2.6(256k 三件套)是两款代表性长上下文模型。本文按官方规格与价格表,给出两款模型的窗口、能力、报价对比,以及在 TokenHub 上的实际接入方法。
过去要让模型理解一份 500 页的合同、整本说明书、整库代码或长达数小时的会议纪要,开发者通常要靠 RAG 切片 + 重排 + 多次拼接。这条链路工程量大、丢上下文风险高、调试也麻烦。
1M 上下文模型把这件事简化了:
a. 一次请求即可输入百万级 Tokens(约相当于数百页中文文本),无需切片;
b. 单次输出可达 384k Tokens,长报告、长翻译、长代码生成可一次产出;
c. 配合 prompt_cache_key 与稳定 system prompt,多轮迭代过程的缓存命中率可显著提升。
维度 | 数据 |
|---|---|
调用参数 | deepseek-v4-flash |
上下文 / 最大输入 / 最大输出 | 1M / 1M / 384k |
核心能力 | 深度思考、结构化输出、Function Calling、Cache 缓存 |
DeepSeek-V4-Flash 是 TokenHub 已上架模型里输入 / 输出窗口最大的语言模型之一,且四项核心能力齐备。
维度 | 数据 |
|---|---|
调用参数 | kimi-k2.6 |
上下文 / 最大输入 / 最大输出 | 256k / 256k / 256k |
核心能力 | 深度思考、结构化输出、Function Calling、Cache 缓存 |
Kimi-K2.6 的"输入输出双 256k"配置在长任务编程、长生成场景里相当稀缺。
模型 | 推理输入 | 推理输出 | 缓存命中 |
|---|---|---|---|
DeepSeek-V4-Flash | 1 | 2 | 0.2 |
Kimi-K2.6 | 6.5 | 27 | 1.1 |
读价要点:
a. DeepSeek-V4-Flash 的输入价仅 1 元/百万 tokens,输出价 2 元/百万 tokens,是 TokenHub 在售长上下文模型里单价最具竞争力的一档;
b. Kimi-K2.6 单价虽高于 DeepSeek-V4-Flash,但在"长上下文 + 长输出"任务里能减少多次拼接调用;
c. 两款模型缓存命中价分别为 0.2 与 1.1 元/百万 tokens,命中后输入端成本均显著降低。
a. 优选 DeepSeek-V4-Flash:1M 输入窗口可覆盖大多数中等规模代码库或一本书的全文;输入价 1 元 / 百万 tokens,全量扫描成本可控;
b. 备选 Kimi-K2.6:当输入在 256k 以内、需要长输出时使用。
a. Kimi-K2.6 的 256k 最大输出适合一次生成超长报告;
b. DeepSeek-V4-Flash 的 384k 最大输出更长,适合超长技术文档与翻译。
a. DeepSeek-V4-Flash 的低单价 + 1M 上下文,让 Agent 可以"多步计划 + 长工具调用历史 + 状态保留在上下文里"成为常态;
b. 配合 X-Session-ID 路由到同一推理实例,KV Cache 局部命中率会明显改善。
a. TokenHub 控制台开启 DeepSeek-V4-Flash 与 Kimi-K2.6 的"免费体验"和"启用后付费";
b. 在 API Key 管理页创建一个 API Key;
c. 业务侧将 base_url 配置为 https://tokenhub.tencentmaas.com/v1,model 字段填 deepseek-v4-flash 或 kimi-k2.6 即可切换。
from openai import OpenAI
client = OpenAI(api_key="YOUR_KEY", base_url="https://tokenhub.tencentmaas.com/v1")
resp = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[
{"role": "system", "content": "你是法律合同审阅助手"},
{"role": "user", "content": "<合同全文,可达 800k Tokens>"},
],
extra_body={"prompt_cache_key": "contract-2026-001"},
)调用时为同一份合同的多次提问保持相同 prompt_cache_key,可以让后续轮次的输入端享受缓存命中价。
DeepSeek-V4-Flash 与 Kimi-K2.6 均在 TokenHub 新人免费体验包内:DeepSeek-V4-Flash 100 万 Tokens、Kimi-K2.6 50 万 Tokens,90 天有效期。建议先用免费额度跑一次完整长文档场景再决定主力模型。
想体验 1M 上下文模型在合同审阅、整库代码、长报告生成场景的实际表现,可以直接在 TokenHub 价格页与模型广场对比 DeepSeek-V4-Flash 与 Kimi-K2.6 的能力与单价:https://cloud.tencent.com/product/tokenhub。先领新人免费体验包再上线:https://cloud.tencent.com/document/product/1823/130053。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。