上一篇文章说到按照消息数量来截断历史对话,这种方式有个问题,就是每次对话的内容可长可短,导致固定消息数量的对话内容忽长忽短。
历史对话内容不光要存入数据库,还要作为初始提示词发给下次新会话的大模型。太长的提示词不仅冗余,还会消耗大量Token,让用户钱包快速缩水。太短的提示词容纳的信息量不足,难以起到充分记忆的功能。
一、为什么统计Token个数而非文字个数
改进方式是按照文字长度来截断历史对话,不过字跟字又有所不同,不如“猪”是个单字词,而“鹦鹉”是个双字词。对于大模型来说,“猪”和“鹦鹉”具有同等权重,它们都占用一个Token,也就是词元。所以,更好的办法是统计Token数量,而非统计文字数量。
Token不是单个字、也不是单个字母,而是大模型训练时固定好的“最小词块”。早期的AI库主要适配英文,常用单词、词根、词缀直接就是一个Token。对于中文则没有完整常用中文预制词块,大多只能拆成偏旁、笔画、字节片段。
原因是传统的Token分词器采用BPE算法,该算法属于字节级对子压缩,它的底层是按UTF-8编码的字节来切分,不是按中文语义切分。由于每个中文的UTF-8编码固定占用3个字节,而BPE分词器是按字节流拆分、合并成词块,因此3字节的中文很难刚好凑成1个Token。常用汉字还能凑成1个Token,生僻字、复杂字基本拆成2个Token。
可见传统的Token分词器极其违背常识,竟然还能将1个中文拆成两个Token,如此倒翻天罡,敢情是歧视中文用户吧?所以我们的国内开发者挺身而出,开发了中文分词库,能够依据习惯把中文句子切分为各个词语,使得Token数量小于文字数量,这才提高了中文大模型的效率。
二、传统的Token数量统计方式
传统的Token分词器依赖于tiktoken库,在编写Python代码前,要先在命令行执行下面的pip安装命令:
pip install tiktoken然后编写下面的Python分词测试代码:
import tiktoken
text = "猪和鹦鹉两种动物,你更喜欢哪个?"
len_text = len(text)
print("文字长度为", len_text)
encoder = tiktoken.encoding_for_model("gpt-3.5-turbo")
len_token = len(encoder.encode(text))
print("token长度为", len_token)运行上面的Python代码,输出日志结果如下:
文字长度为 16
token长度为 25总共16个字符的中文,使用传统的Token分词器,竟然统计得到25个token,不合理简直太不合理了。
三、中文Token数量的统计方式
中文的Token分词器依赖于jieba库,在编写Python代码前,要先在命令行执行下面pip安装命令:
pip install jieba然后编写下面的Python分词测试代码:
import jieba
text = "猪和鹦鹉两种动物,你更喜欢哪个?"
len_text = len(text)
print("文字长度为", len_text)
words = jieba.lcut(text)
words = [w for w in words if w.strip()]
len_token = len(words)
print("token长度为", len_token)
print(words)运行上面的Python代码,输出日志结果如下:
文字长度为 16
token长度为 11
['猪', '和', '鹦鹉', '两种', '动物', ',', '你', '更', '喜欢', '哪个', '?']总共16个字符的中文,中文传统的Token分词器,精简后统计得到11个Token,可见相较传统分词器大幅瘦身。
四、根据Token数量精简上下文
接下来将以Python代码演示如何按照Token数量来截断早期的上下文(即问答内容)。下面是只保留100个Token的Python代码例子:
import jieba
class ContextManager:
def __init__(self):
# 对话历史上下文
self.context = []
# 上下文的最大Token数量,设小一点,方便看到截断效果
self.MAX_TOKENS = 50
# 计算单条消息的Token数
def count_tokens(self, text):
words = jieba.lcut(text)
words = [w for w in words if w.strip()]
return len(words)
# 计算整个上下文总Token
def total_context_tokens(self):
return sum(self.count_tokens(msg["content"]) for msg in self.context)
# 核心:按Token自动截断(删掉最早的,直到不超限)
def truncate_context(self):
while self.total_context_tokens() > self.MAX_TOKENS and len(self.context) > 0:
removed_msg = self.context.pop(0) # 删除最早一条
print(f"[截断] 删掉最早对话:{removed_msg['content'][:20]}...")
# 添加新消息 → 自动截断 → 返回完整上下文
def add_message(self, role, content):
self.context.append({"role": role, "content": content})
self.truncate_context() # 截断!
return self.context
# 拼接成给模型的完整Prompt
def get_full_prompt(self):
prompt = ""
for msg in self.context:
prompt += f"{msg['role']}:{msg['content']}\n"
return prompt
# 模拟多轮对话测试
if __name__ == "__main__":
ai = ContextManager()
# 连续发长文本,观察自动截断
chat_records = [
("user", "推荐一本关于历史的书,要内容详细、适合入门"),
("ai", "推荐《明朝那些事儿》,通俗好读"),
("user", "有没有国外历史的?比如欧洲史"),
("ai", "推荐《欧洲通史上下两千年》"),
("user", "太长了有没有更短的?我只想快速了解核心脉络"),
("ai", "那看《极简欧洲史》精简版,100页搞定"),
("user", "好,再推荐一本类似风格的美国历史书"),
]
print("=== 开始对话 ===")
for role, content in chat_records:
ai.add_message(role, content)
print(f"\n[{role}] {content}")
print(f"当前总Token:{ai.total_context_tokens()} / {ai.MAX_TOKENS}")
print("--- 当前保留的上下文 ---")
print(ai.get_full_prompt())运行上面的Python代码,观察到最后一轮的输出日志:
[user] 好,再推荐一本类似风格的美国历史书
当前总Token:44 / 50
--- 当前保留的上下文 ---
ai:推荐《欧洲通史上下两千年》
user:太长了有没有更短的?我只想快速了解核心脉络
ai:那看《极简欧洲史》精简版,100页搞定
user:好,再推荐一本类似风格的美国历史书可见最后一轮根据Token限制删去了较早的对话记录,使得总Token数维持在50以内,这就节约了下次会话的初始Token消耗。