全文共454个字,3张图,预计阅读时间5分钟。
训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word2vec,所以,今天小编文文带你使用维基百科训练词向量。
繁简转换
上一篇中讲到了将文档从xml中抽取出来,下一步是将繁体字转换为简体字,那么我们使用opencc工具进行繁简转换,首先去下载opencc:https://bintray.com/package/files/byvoid/opencc/OpenCC
效果如下:
转换前-繁体
转换后-简体
文章分词
使用jieba分词器对文章及进行分词,代码如下:
训练词向量
接下来就可以训练词向量啦,代码如下:
使用命令开始训练
发现训练开始:
今天先记录到这里啦,下一篇,小编带你一起体验一下word2vec的训练结果。
领取专属 10元无门槛券
私享最新 技术干货