可以说大模型已经融入了我们日常的工作生活,不管你是不是技术人员,随着现在大模型产品的演进,都可能得到他的帮助,这就从侧面再次印证了,降低技术的使用成本门槛,就可能带来突破性的冲击。
谈到大模型,尤其针对一些需要本地搭建模型的场景,token是个非常重要的词汇,到底什么是token?
Token是自然语言文本的最小单位,可以是单词、子词或字符,具体取决于模型使用的分词器。例如,1个数字或1个符号计为1个token,在英语中,一个单词通常是一个token,而在中文中,一个字符或一个词语可以是一个token。
Token的作用,
每个token通常用一个整数表示,这个整数对应于模型的词表中的一个位置。例如,token"hello"可能表示为整数1024。
大多数模型对输入的token数量有限制,通常为512个token。超过限制的文本需要截断或分段处理。
Token更加实际的一个作用就是计费,作为计费单元,计算使用大模型的成本,如下是DeepSeek关于Token用量计算的介绍,
https://api-docs.deepseek.com/zh-cn/quick_start/token_usage
一般情况下模型中 token 和字数的换算比例大致如下:
但因为不同模型的分词不同,所以换算比例也存在差异,每一次实际处理 token数量以模型返回为准,这可以从返回结果的usage
中查看,e.g.
tokens used: 10521, model: Deepseek(deepseek-r1)
另外,ds提供一个可以进行离线计算Tokens用量的工具(python),可以通过下载压缩包中的代码来运行tokenizer,以离线计算一段文本的Token用量,
https://cdn.deepseek.com/api-docs/deepseek_v3_tokenizer.zip
综上来讲,Token是大模型处理文本的基本单位,通过分词器将文本分割成token,模型根据这些token生成输出,理解token化过程有助于优化模型性能和处理复杂文本。