作为NLP工程领域常用的工具包, fasttext有两大作用:
pip install fasttext
💡有关迁移学习的相关概念:
💡关于迁移方式的说明: 直接使用预训练模型的方式, 我们下面通过fasttext的词向量迁移中学习
# 代码运行在python解释器中
# 导入fasttext
>>> import fasttext
# 使用fasttext的train_unsupervised(无监督训练方法)进行词向量的训练
# 它的参数是数据集的持久化文件路径'data/fil9'
# 注意,该行代码执行耗时很长
>>> model1 = fasttext.train_unsupervised('data/fil9')
# 可以使用以下代码加载已经训练好的模型
>>> model = fasttext.load_model("data/fil9.bin")
# 有效训练词汇量为124M, 共218316个单词
Read 124M words
Number of words: 218316
Number of labels: 0
Progress: 100.0% words/sec/thread: 53996 lr: 0.000000 loss: 0.734999 ETA: 0h 0m
# 通过get_word_vector方法来获得指定词汇的词向量
>>> model.get_word_vector("the")
array([-0.03087516, 0.09221972, 0.17660329, 0.17308897, 0.12863874,
0.13912526, -0.09851588, 0.00739991, 0.37038437, -0.00845221,
...
-0.21184735, -0.05048715, -0.34571868, 0.23765688, 0.23726143],
dtype=float32)
💡后期相关的参数可以再做调整 ,使用预训练模型的方式比较简单, 接下来的迁移学习实践将主要讲解通过微调的方式进行迁移学习.