前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NLP基本工具之jieba详解

NLP基本工具之jieba详解

作者头像
用户7164815
发布2020-04-26 15:35:53
1.4K0
发布2020-04-26 15:35:53
举报
文章被收录于专栏:AI人工智能与大数据

简介

jieba(结巴)是百度工程师Sun Junyi开发的一个开源库,在GitHub上很受欢迎,使用频率也很高。

GitHub链接:https://github.com/fxsjy/jieba

jieba最流行的应用是分词,包括介绍页面上也称之为“结巴中文分词”,但除了分词之外,jieba还可以做关键词抽取、词频统计等。

jieba支持四种分词模式:

- 精确模式:试图将句子最精确地切开,只输出最大概率组合;

- 搜索引擎模式:在精确模式基础上,对长词再次切分,提高召回率,适用于搜索引擎分词;

- 全模式:把句子中所有的可以成词的词语都扫描出来;

- paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。

代码:

输出:

代码:

输出

从上面的例子可以看出:

- 精确模式是比较常见的分词方式,也是默认的方式;

- 搜索引擎模式切分更细一些,包含了清华、华大、大学、中国、科学、学院等等;

- 全模式相对于搜索引擎模式更全,列出了所有可能

- paddle模式接近于精确模式。

另外,jieba还支持:

- 繁体分词

- 自定义词典

安装:

pip/pip3/easy_installinstall jieba

使用:

importjieba # 导入 jieba

importjieba.posseg as pseg #词性标注

importjieba.analyse as anls #关键词提取

算法

基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)

采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法

关于关键词提取等功能,请关注后续文章。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI人工智能与大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 算法
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档