Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >NLP基本工具之jieba详解

NLP基本工具之jieba详解

作者头像
用户7164815
发布于 2020-04-26 07:35:53
发布于 2020-04-26 07:35:53
1.5K0
举报

简介

jieba(结巴)是百度工程师Sun Junyi开发的一个开源库,在GitHub上很受欢迎,使用频率也很高。

GitHub链接:https://github.com/fxsjy/jieba

jieba最流行的应用是分词,包括介绍页面上也称之为“结巴中文分词”,但除了分词之外,jieba还可以做关键词抽取、词频统计等。

jieba支持四种分词模式:

- 精确模式:试图将句子最精确地切开,只输出最大概率组合;

- 搜索引擎模式:在精确模式基础上,对长词再次切分,提高召回率,适用于搜索引擎分词;

- 全模式:把句子中所有的可以成词的词语都扫描出来;

- paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。

代码:

输出:

代码:

输出

从上面的例子可以看出:

- 精确模式是比较常见的分词方式,也是默认的方式;

- 搜索引擎模式切分更细一些,包含了清华、华大、大学、中国、科学、学院等等;

- 全模式相对于搜索引擎模式更全,列出了所有可能

- paddle模式接近于精确模式。

另外,jieba还支持:

- 繁体分词

- 自定义词典

安装:

pip/pip3/easy_installinstall jieba

使用:

importjieba # 导入 jieba

importjieba.posseg as pseg #词性标注

importjieba.analyse as anls #关键词提取

算法

基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)

采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法

关于关键词提取等功能,请关注后续文章。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI人工智能与大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python分词模块推荐:jieba中文分词
基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
周小董
2019/03/25
1.7K0
工具 | jieba分词快速入门
全自动安装:easy_install jieba 或者 pip install jieba
昱良
2018/09/29
9710
jieba库的用法
“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.
全栈程序员站长
2022/09/29
9000
python 分词库jieba
算法实现: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
老虎也淘气
2024/01/30
2650
jieba分词器详解及python实战
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
菲宇
2019/10/22
2.1K0
jieba分词器详解及python实战
python+gensim︱jieba分词、词袋doc2bow、TFIDF文本挖掘
本文主要介绍了如何使用Python的gensim库对中文文本进行分词和建立词袋模型。首先介绍了Gensim库的安装和配置,然后通过一个示例文本展示了如何使用Gensim库对文本进行分词和建立词袋模型。最后介绍了如何使用Gensim库中的TF-IDF模型进行相似性检索。
悟乙己
2018/01/02
7.2K0
初学者|知否?知否?一文学会Jieba使用方法
我始终觉得,入门学习一件事情最好的方式就是实践,加之现在python如此好用,有越来越多的不错nlp的python库,所以接下来的一段时间里,让我们一起来感受一下这些不错的工具。后面代码我均使用jupyter编辑。先来罗列一波:jieba、hanlp、snownlp、Stanfordcorenlp、spacy、pyltp、nltk、Textblob等等…今天从jieba开始吧,let's begin。
yuquanle
2019/05/29
4790
【NLP自然语言处理】文本处理的基本方法
jieba是一个流行的中文分词工具,它能够将一段中文文本切分成有意义的词语。jieba是目前Python中最常用的中文分词库之一,具有简单易用、高效准确的特点。
小言从不摸鱼
2024/09/10
1730
Jieba中文分词 (一) ——分词与自定义字典
pip install jieba (window环境) pip3 install jieba (Linux环境)
数据STUDIO
2021/06/24
8K0
中文分词工具——jieba
在英语中,单词就是“词”的表达,一个句子是由空格来分隔的,而在汉语中,词以字为基本单位,但是一篇文章的表达是以词来划分的,汉语句子对词构成边界方面很难界定。例如:南京市长江大桥,可以分词为:“南京市/长江/大桥”和“南京市长/江大桥”,这个是人为判断的,机器很难界定。在此介绍中文分词工具jieba,其特点为:
伊泽瑞尔
2022/05/31
1.4K0
中文分词工具——jieba
python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库
“结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库。 jieba的分词,提取关键词,自定义词语。 结巴分词的原理 这里写链接内容 一、 基于结巴分词进行分词与关键词提取 1、jieba.cut分词三种模式 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for
学到老
2018/03/19
20.6K0
python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库
结巴分词原理及使用「建议收藏」
目前常用的分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等,现在项目使用的分词方法是结巴分词,本次来介绍一下。
全栈程序员站长
2022/07/04
2.6K0
结巴分词原理及使用「建议收藏」
jieba分词-Python中文分词领域的佼佼者
NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要· 往期精选 ·
派大星的数据屋
2022/04/03
6340
jieba分词-Python中文分词领域的佼佼者
结巴中文分词原理分析4
本机是win10 64位,已经安装了pip工具,关于pip下载安装(here),然后win+R,输入pip install jieba,效果如下:
AINLP
2019/06/03
8010
python jieba库用法
搜索引擎模式。在精确模式的基础上,对长词再次切分,提高召回率,适用于搜索引擎分词。
红目香薰
2022/11/28
5540
中文文本处理高手指南:从零到高手掌握Python中jieba库
jieba是一个强大的中文分词工具,用于将中文文本切分成单个词语。它支持多种分词模式,包括精确模式、全模式、搜索引擎模式等,还可以通过用户自定义词典来增加新词。本文将从入门到精通地介绍jieba库的使用方法,带你掌握中文分词的基本概念和高级特性。
子午Python
2023/08/21
1.5K0
NLP-结巴分词
结巴分词是有国内程序员(https://github.com/fxsjy/jieba)做的一个分词工具,刚开始是Python版本的,后来由anderscui(https://github.com/anderscui/jieba.NET )移植到.Net上面。
全栈程序员站长
2022/09/12
7450
NLP-结巴分词
Jieba中文分词 (二) ——词性标注与关键词提取
上一篇jieba中文分词(一)分词与自定义字典已介绍了jieba中文分词安装,分词原理,分词方法,自定义字典,添加字典等多种常用分词方法。本篇将继续介绍jieba分词关键词提取、词性标注、及常见问题。
数据STUDIO
2021/06/24
8.4K0
文本处理基本方法
在中文文本中,由于词与词之间没有明显的界限符,如英文中的空格,因此分词是中文自然语言处理的一个基础且重要的步骤。分词的准确性直接影响到后续的语言处理任务,如词性标注、句法分析等。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。
@小森
2024/03/24
1490
Hanlp等七种优秀的开源中文分词库推荐
中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。
IT小白龙
2018/10/12
3.3K0
Hanlp等七种优秀的开源中文分词库推荐
相关推荐
Python分词模块推荐:jieba中文分词
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档