Python实现jieba分词
【今日知图】
替换
0.说在前面1.结巴分词三种模式2.自定义字典3.动态修改字典4.词性标注及关键字提取5.高级使用6.作者的话0.说在前面1.结巴分词三种模式
默认模式
精确模式
搜索引擎模式
以上结果
2.自定义字典
jieba默认分词
加载自定义字典
以上结果
3.动态修改字典
以上结果
4.词性标注及关键字提取
以上结果
5.高级使用
自定义处理:
问题
观察以上output会发现,光荣事业跟奠定基础按照了字典文件进行了合并,但是中国梦并没有,这是什么问题呢?
于是得出以下结论:
jieba 分词自定义词典只对长词起作用
对如果定义的词比jieba自己分的短,则没有用
那如何解决呢?
直接改变主字典路径(0.28 之前的版本是不能指定主词典的路径的,有了延迟加载机制后,你可以改变主词典的路径),不用jieba默认的:
将issue.py中的jieba.load_userdict('test_string.txt')
替换为jieba.set_dictionary('test_string.txt')
此时输出:
6.作者的话
领取专属 10元无门槛券
私享最新 技术干货