机器学习|从0开发大模型之Tokenizer训练
继续写《从0开发大模型》系列文章,本文主要介绍从头快速训练一个Tokenizer。...对于从0开发大模型的开发者,这里解释一下。Tokenizer(标记器)是 NLP 管道的核心组件之一,它们有一个目的:将文本转换为模型可以处理的数据。...模型只能处理数字,因此Tokenizer需要将我们的文本输入转换为数字数据,比如在NLP的任务中,有如下原始文本:
我是中国人,我爱我的祖国
以上文本我们没法直接丢给模型处理,因此需要将原始文本分词,...,最后将分词模型保存到 my_tokenizer 文件夹中。...1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
长度: 31
上述代码主要是加载预训练模型