首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >15天学会AI应用开发(四)根据Token长度截断历史对话

15天学会AI应用开发(四)根据Token长度截断历史对话

作者头像
aqi00
发布2026-05-20 19:28:38
发布2026-05-20 19:28:38
1170
举报
文章被收录于专栏:老欧说安卓老欧说安卓

上一篇文章说到按照消息数量来截断历史对话,这种方式有个问题,就是每次对话的内容可长可短,导致固定消息数量的对话内容忽长忽短。

历史对话内容不光要存入数据库,还要作为初始提示词发给下次新会话的大模型。太长的提示词不仅冗余,还会消耗大量Token,让用户钱包快速缩水。太短的提示词容纳的信息量不足,难以起到充分记忆的功能。

一、为什么统计Token个数而非文字个数

改进方式是按照文字长度来截断历史对话,不过字跟字又有所不同,不如“猪”是个单字词,而“鹦鹉”是个双字词。对于大模型来说,“猪”和“鹦鹉”具有同等权重,它们都占用一个Token,也就是词元。所以,更好的办法是统计Token数量,而非统计文字数量。

Token不是单个字、也不是单个字母,而是大模型训练时固定好的“最小词块”。早期的AI库主要适配英文,常用单词、词根、词缀直接就是一个Token。对于中文则没有完整常用中文预制词块,大多只能拆成偏旁、笔画、字节片段。

原因是传统的Token分词器采用BPE算法,该算法属于字节级对子压缩,它的底层是按UTF-8编码的字节来切分,不是按中文语义切分。由于每个中文的UTF-8编码固定占用3个字节,而BPE分词器是按字节流拆分、合并成词块,因此3字节的中文很难刚好凑成1个Token。常用汉字还能凑成1个Token,生僻字、复杂字基本拆成2个Token。

可见传统的Token分词器极其违背常识,竟然还能将1个中文拆成两个Token,如此倒翻天罡,敢情是歧视中文用户吧?所以我们的国内开发者挺身而出,开发了中文分词库,能够依据习惯把中文句子切分为各个词语,使得Token数量小于文字数量,这才提高了中文大模型的效率。

二、传统的Token数量统计方式

传统的Token分词器依赖于tiktoken库,在编写Python代码前,要先在命令行执行下面的pip安装命令:

代码语言:javascript
复制
pip install tiktoken

然后编写下面的Python分词测试代码:

代码语言:javascript
复制
import tiktoken
text = "猪和鹦鹉两种动物,你更喜欢哪个?"
len_text = len(text)
print("文字长度为", len_text)
encoder = tiktoken.encoding_for_model("gpt-3.5-turbo")
len_token = len(encoder.encode(text))
print("token长度为", len_token)

运行上面的Python代码,输出日志结果如下:

代码语言:javascript
复制
文字长度为 16
token长度为 25

总共16个字符的中文,使用传统的Token分词器,竟然统计得到25个token,不合理简直太不合理了。

三、中文Token数量的统计方式

中文的Token分词器依赖于jieba库,在编写Python代码前,要先在命令行执行下面pip安装命令:

代码语言:javascript
复制
pip install jieba

然后编写下面的Python分词测试代码:

代码语言:javascript
复制
import jieba
text = "猪和鹦鹉两种动物,你更喜欢哪个?"
len_text = len(text)
print("文字长度为", len_text)
words = jieba.lcut(text)
words = [w for w in words if w.strip()]
len_token = len(words)
print("token长度为", len_token)
print(words)

运行上面的Python代码,输出日志结果如下:

代码语言:javascript
复制
文字长度为 16
token长度为 11
['猪', '和', '鹦鹉', '两种', '动物', ',', '你', '更', '喜欢', '哪个', '?']

总共16个字符的中文,中文传统的Token分词器,精简后统计得到11个Token,可见相较传统分词器大幅瘦身。

四、根据Token数量精简上下文

接下来将以Python代码演示如何按照Token数量来截断早期的上下文(即问答内容)。下面是只保留100个Token的Python代码例子:

代码语言:javascript
复制
import jieba
class ContextManager:
    def __init__(self):
        # 对话历史上下文
        self.context = []
        # 上下文的最大Token数量,设小一点,方便看到截断效果
        self.MAX_TOKENS = 50
    # 计算单条消息的Token数
    def count_tokens(self, text):
        words = jieba.lcut(text)
        words = [w for w in words if w.strip()]
        return len(words)
    # 计算整个上下文总Token
    def total_context_tokens(self):
        return sum(self.count_tokens(msg["content"]) for msg in self.context)
    # 核心:按Token自动截断(删掉最早的,直到不超限)
    def truncate_context(self):
        while self.total_context_tokens() > self.MAX_TOKENS and len(self.context) > 0:
            removed_msg = self.context.pop(0)  # 删除最早一条
            print(f"[截断] 删掉最早对话:{removed_msg['content'][:20]}...")
    # 添加新消息 → 自动截断 → 返回完整上下文
    def add_message(self, role, content):
        self.context.append({"role": role, "content": content})
        self.truncate_context()  # 截断!
        return self.context
    # 拼接成给模型的完整Prompt
    def get_full_prompt(self):
        prompt = ""
        for msg in self.context:
            prompt += f"{msg['role']}:{msg['content']}\n"
        return prompt
# 模拟多轮对话测试
if __name__ == "__main__":
    ai = ContextManager()
    # 连续发长文本,观察自动截断
    chat_records = [
        ("user", "推荐一本关于历史的书,要内容详细、适合入门"),
        ("ai", "推荐《明朝那些事儿》,通俗好读"),
        ("user", "有没有国外历史的?比如欧洲史"),
        ("ai", "推荐《欧洲通史上下两千年》"),
        ("user", "太长了有没有更短的?我只想快速了解核心脉络"),
        ("ai", "那看《极简欧洲史》精简版,100页搞定"),
        ("user", "好,再推荐一本类似风格的美国历史书"),
    ]
    print("=== 开始对话 ===")
    for role, content in chat_records:
        ai.add_message(role, content)
        print(f"\n[{role}] {content}")
        print(f"当前总Token:{ai.total_context_tokens()} / {ai.MAX_TOKENS}")
        print("--- 当前保留的上下文 ---")
        print(ai.get_full_prompt())

运行上面的Python代码,观察到最后一轮的输出日志:

代码语言:javascript
复制
[user] 好,再推荐一本类似风格的美国历史书
当前总Token:44 / 50
--- 当前保留的上下文 ---
ai:推荐《欧洲通史上下两千年》
user:太长了有没有更短的?我只想快速了解核心脉络
ai:那看《极简欧洲史》精简版,100页搞定
user:好,再推荐一本类似风格的美国历史书

可见最后一轮根据Token限制删去了较早的对话记录,使得总Token数维持在50以内,这就节约了下次会话的初始Token消耗。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 老欧说安卓 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档