15天学会AI应用开发（四）根据Token长度截断历史对话

aqi00

发布于 2026-05-20 19:28:38

1170

上一篇文章说到按照消息数量来截断历史对话，这种方式有个问题，就是每次对话的内容可长可短，导致固定消息数量的对话内容忽长忽短。

历史对话内容不光要存入数据库，还要作为初始提示词发给下次新会话的大模型。太长的提示词不仅冗余，还会消耗大量Token，让用户钱包快速缩水。太短的提示词容纳的信息量不足，难以起到充分记忆的功能。

一、为什么统计Token个数而非文字个数

改进方式是按照文字长度来截断历史对话，不过字跟字又有所不同，不如“猪”是个单字词，而“鹦鹉”是个双字词。对于大模型来说，“猪”和“鹦鹉”具有同等权重，它们都占用一个Token，也就是词元。所以，更好的办法是统计Token数量，而非统计文字数量。

Token不是单个字、也不是单个字母，而是大模型训练时固定好的“最小词块”。早期的AI库主要适配英文，常用单词、词根、词缀直接就是一个Token。对于中文则没有完整常用中文预制词块，大多只能拆成偏旁、笔画、字节片段。

原因是传统的Token分词器采用BPE算法，该算法属于字节级对子压缩，它的底层是按UTF-8编码的字节来切分，不是按中文语义切分。由于每个中文的UTF-8编码固定占用3个字节，而BPE分词器是按字节流拆分、合并成词块，因此3字节的中文很难刚好凑成1个Token。常用汉字还能凑成1个Token，生僻字、复杂字基本拆成2个Token。

可见传统的Token分词器极其违背常识，竟然还能将1个中文拆成两个Token，如此倒翻天罡，敢情是歧视中文用户吧？所以我们的国内开发者挺身而出，开发了中文分词库，能够依据习惯把中文句子切分为各个词语，使得Token数量小于文字数量，这才提高了中文大模型的效率。

二、传统的Token数量统计方式

传统的Token分词器依赖于tiktoken库，在编写Python代码前，要先在命令行执行下面的pip安装命令：

pip install tiktoken

然后编写下面的Python分词测试代码：

import tiktoken
text = "猪和鹦鹉两种动物，你更喜欢哪个？"
len_text = len(text)
print("文字长度为", len_text)
encoder = tiktoken.encoding_for_model("gpt-3.5-turbo")
len_token = len(encoder.encode(text))
print("token长度为", len_token)

运行上面的Python代码，输出日志结果如下：

文字长度为 16
token长度为 25

总共16个字符的中文，使用传统的Token分词器，竟然统计得到25个token，不合理简直太不合理了。

三、中文Token数量的统计方式

中文的Token分词器依赖于jieba库，在编写Python代码前，要先在命令行执行下面pip安装命令：

pip install jieba

然后编写下面的Python分词测试代码：

import jieba
text = "猪和鹦鹉两种动物，你更喜欢哪个？"
len_text = len(text)
print("文字长度为", len_text)
words = jieba.lcut(text)
words = [w for w in words if w.strip()]
len_token = len(words)
print("token长度为", len_token)
print(words)

运行上面的Python代码，输出日志结果如下：

文字长度为 16
token长度为 11
['猪', '和', '鹦鹉', '两种', '动物', '，', '你', '更', '喜欢', '哪个', '？']

总共16个字符的中文，中文传统的Token分词器，精简后统计得到11个Token，可见相较传统分词器大幅瘦身。

四、根据Token数量精简上下文

接下来将以Python代码演示如何按照Token数量来截断早期的上下文（即问答内容）。下面是只保留100个Token的Python代码例子：

import jieba
class ContextManager:
    def __init__(self):
        # 对话历史上下文
        self.context = []
        # 上下文的最大Token数量，设小一点，方便看到截断效果
        self.MAX_TOKENS = 50
    # 计算单条消息的Token数
    def count_tokens(self, text):
        words = jieba.lcut(text)
        words = [w for w in words if w.strip()]
        return len(words)
    # 计算整个上下文总Token
    def total_context_tokens(self):
        return sum(self.count_tokens(msg["content"]) for msg in self.context)
    # 核心：按Token自动截断（删掉最早的，直到不超限）
    def truncate_context(self):
        while self.total_context_tokens() > self.MAX_TOKENS and len(self.context) > 0:
            removed_msg = self.context.pop(0)  # 删除最早一条
            print(f"[截断] 删掉最早对话：{removed_msg['content'][:20]}...")
    # 添加新消息 → 自动截断 → 返回完整上下文
    def add_message(self, role, content):
        self.context.append({"role": role, "content": content})
        self.truncate_context()  # 截断！
        return self.context
    # 拼接成给模型的完整Prompt
    def get_full_prompt(self):
        prompt = ""
        for msg in self.context:
            prompt += f"{msg['role']}：{msg['content']}\n"
        return prompt
# 模拟多轮对话测试
if __name__ == "__main__":
    ai = ContextManager()
    # 连续发长文本，观察自动截断
    chat_records = [
        ("user", "推荐一本关于历史的书，要内容详细、适合入门"),
        ("ai", "推荐《明朝那些事儿》，通俗好读"),
        ("user", "有没有国外历史的？比如欧洲史"),
        ("ai", "推荐《欧洲通史上下两千年》"),
        ("user", "太长了有没有更短的？我只想快速了解核心脉络"),
        ("ai", "那看《极简欧洲史》精简版，100页搞定"),
        ("user", "好，再推荐一本类似风格的美国历史书"),
    ]
    print("=== 开始对话 ===")
    for role, content in chat_records:
        ai.add_message(role, content)
        print(f"\n[{role}] {content}")
        print(f"当前总Token：{ai.total_context_tokens()} / {ai.MAX_TOKENS}")
        print("--- 当前保留的上下文 ---")
        print(ai.get_full_prompt())

运行上面的Python代码，观察到最后一轮的输出日志：

[user] 好，再推荐一本类似风格的美国历史书
当前总Token：44 / 50
--- 当前保留的上下文 ---
ai：推荐《欧洲通史上下两千年》
user：太长了有没有更短的？我只想快速了解核心脉络
ai：那看《极简欧洲史》精简版，100页搞定
user：好，再推荐一本类似风格的美国历史书

可见最后一轮根据Token限制删去了较早的对话记录，使得总Token数维持在50以内，这就节约了下次会话的初始Token消耗。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-14，如有侵权请联系 cloudcommunity@tencent.com 删除

日志

本文分享自老欧说安卓微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

15天学会AI应用开发（四）根据Token长度截断历史对话

15天学会AI应用开发（四）根据Token长度截断历史对话

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐