前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >HanLP分词命名实体提取详解

HanLP分词命名实体提取详解

作者头像
IT小白龙
修改于 2019-01-11 08:24:00
修改于 2019-01-11 08:24:00
1.9K0
举报
文章被收录于专栏:hadoop学习笔记hadoop学习笔记

分享一篇大神的关于hanlp分词命名实体提取的经验文章,文章中分享的内容略有一段时间(使用的hanlp版本比较老),最新一版的hanlp已经出来了,也可以去看看新版的hanlp在这方面有何提升!

文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。对于文本来说,由于语言组织形式各异,表达方式多样,文本里面提到的很多要素,如人名、手机号、组织名、地名等都称之为实体。在工程领域,招投标文件里的这些实体信息至关重要。利用自然语言处理技术从形式各异的文件中提取出这些实体,能有效提高工作效率和挖掘实体之间的潜在联系。

文本预处理

1、文本清洗

目前,大部分招中标项目信息都是发布在各个网站上,所以我们获取的主要是网络文本。网页中存在很多与文本内容无关的信息,比如广告,导航栏,html、js代码,注释等等。文本清洗,就是通过正则匹配去掉这些干扰信息,抽取出干净的文本内容。

2、中文分词

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。一篇文本中不是所有词都很重要,我们只需找出起到关键作用、决定文本主要内容的词进行分析即可。目前几大主流的分词技术可移步到这篇博客中:中文分词技术小结、几大分词引擎的介绍与比较

笔者采用的是HanLP分词工具。

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP提供下列功能:

中文分词

1.最短路分词(Dijkstra精度已经足够,且速度比N最短快几倍)

2.N-最短路分词(与Dijkstra对比,D已够用)

3.CRF分词(对新词较有效)

4.索引分词(长词切分,索引所有可能词)

5.极速词典分词(速度快,精度一般)

6.用户自定义词典

7.标准分词(HMM-Viterbi)

命名实体识别

1.实体机构名识别(层叠HMM-Viterbi)

2.中国人名识别(HMM-Viterbi)

3.音译人名识别(层叠隐马模型)

4.日本人名识别(层叠隐马模型)

5.地名识别(HMM-Viterbi)

篇章理解

1.关键词提取( TextRank关键词提取)

2.自动摘要( TextRank自动摘要,提取关键句子)

3.短语提取( 基于互信息和左右信息熵的短语提取)

简繁拼音转换

1.拼音转换( 多音字,声母,韵母,声调)

2.简繁转换(繁体中文分词,简繁分歧词)

智能推荐

1.文本推荐(句子级别,从一系列句子中挑出与输入句子/词语最相似的那一句)

2.语义距离(基于《同义词词林扩展版》)

命名实体提取

HanLP分词提供词性标注的功能,所以调用分词接口后获得带有词性标注的单词集合。例如:

String word = "河南大明建设工程管理有限公司受林州市水土保持生态建设管理局委托,

林州市合涧镇刘家凹小流域2017年省级水土保持补偿费项目进行了公开招标";

List<Term> termList=  HanLP.segment( word );

System.out.println(termList.toString());

得到的输出结果为:

[河南/ns, 大明/nz, 建设工程/nz, 管理/vn, 有限公司/nis, 受/v, 林州市/ns, 水土保持/gg, 生态/n, 建设/vn, 管理局/nis, 委托/vn, ,/w, 就/d, 林州市/ns, 合涧镇/ns, 刘家凹/nr, 小流域/nz, 2017/m, 年/qt, 省级/b, 水土保持/gg, 补偿费/n, 项目/n, 进行/vn, 了/ule, 公开招标/v]

每个词性代表什么可以参考 HanLP词性标注集

招中标项目文本样式多变、内容复杂,我们无法直接定位文本中的某一位置来提取实体。小编采用基于统计和基于规则相融合的机器学习方法。

首先,统计这些实体出现的前后文单词和词性,并考虑他们之间的联系,概括出特定实体前后出现的高频词汇。

其次,利用这些高频词汇构建出“前文+特定实体+后文”的规则。

最后,利用这一规则在全文中进行模式匹配。利用投票原理,对匹配度高的规则分配高分,相反,匹配度低的规则赋予低分。然后,对所有匹配的规则进行分数排序,得到投票分数最高的规则,并从规则中剥离出特定实体,这个实体即为我们的目标实体。

例如,招标单位的提取,我们统计出改实体出现的前文频率较高的为:招标人、招标单位、建设单位、采购人、采购单位、业主等,后文为:委托、招标等。通常出现这些词汇的前后就是招标单位。然后我们再根据这个词的词性,判断它是否属于机构名、团体名。如果是机构团体名,则判定该单词为招标单位名称。这样,就可以获得我们需要的实体。其他实体的提取与此类似。

如下图:我们获得的文本是网络片段

去除标签、杂数据,得到的纯文本为:

调用HanLP分词接口,得到下图的分词列表:

1. Segment segment = HanLP.newSegment().enableOrganizationRecognize(true);

2. List<Term> termList = segment.seg(content);

最后,根据“前文+特定实体+后文”正则匹配,得出提取的实体,如下图:

技术实施流程图

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
7个优秀的开源中文分词库推荐,实用性强!
纵观整个开源领域,陆陆续续做中文分词的也有不少,不过目前仍在维护的且质量较高的并不多。下面整理了一些个人认为比较优秀的中文分词库,以供大家参考使用。
一墨编程学习
2018/12/17
13.6K0
HanLP分词工具中的ViterbiSegment分词流程
本篇文章将重点讲解HanLP的ViterbiSegment分词器类,而不涉及感知机和条件随机场分词器,也不涉及基于字的分词器。因为这些分词器都不是我们在实践中常用的,而且ViterbiSegment也是作者直接封装到HanLP类中的分词器,作者也推荐使用该分词器,同时文本分类包以及其他一些自然语言处理任务包中的分词器也都间接使用了ViterbiSegment分词器。
IT小白龙
2019/08/05
1.2K0
HanLP分词工具中的ViterbiSegment分词流程
Hanlp等七种优秀的开源中文分词库推荐
中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。
IT小白龙
2018/10/12
3.3K0
Hanlp等七种优秀的开源中文分词库推荐
python调用hanlp进行命名实体识别
本文分享自 6丁一的猫 的博客,主要是python调用hanlp进行命名实体识别的方法介绍。以下为分享的全文。
IT小白龙
2019/07/15
1.7K0
python调用hanlp进行命名实体识别
自然语言处理工具pyhanlp分词与词性标注
Pyhanlp分词与词性标注的相关内容记得此前是有分享过的。可能时间太久记不太清楚了。以下文章是分享自“baiziyu”所写(小部分内容有修改),供大家学习参考之用。
IT小白龙
2019/05/18
1K0
自然语言处理工具pyhanlp分词与词性标注
8.HanLP实现--命名实体识别
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP
mantch
2020/02/21
2.8K0
自然语言处理之hanlp,Python调用与构建,分词、关键词提取、命名主体识别
HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。在Python中一种是直接调用hanlp的接口pyhanlp.还有就是导入其基于Java的原始配置文件。
学到老
2019/01/25
3.9K0
自然语言处理之hanlp,Python调用与构建,分词、关键词提取、命名主体识别
pyhanlp 中文词性标注与分词简介
pyhanlp实现的分词器有很多,同时pyhanlp获取hanlp中分词器也有两种方式
IT小白龙
2019/01/07
1.1K0
pyhanlp 中文词性标注与分词简介
HanLP《自然语言处理入门》笔记--2.词典分词
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP
mantch
2020/02/18
1.3K0
《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 汉语分词领域主要分词算法、组件、服务(上)...
《自然语言处理实战入门》 第4课 :中文分词原理及相关组件简介的 主要内容 有如下三个部分:
流川疯
2020/08/10
2.2K0
《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 汉语分词领域主要分词算法、组件、服务(上)...
HanLP 自然语言处理 for nodejs
支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)
IT小白龙
2019/04/24
1.2K0
HanLP 自然语言处理 for nodejs
NLP之pyhanlp安装及其使用
pyhanlp的github:https://github.com/hankcs/pyhanlp
菲宇
2020/10/26
3K0
NLP之pyhanlp安装及其使用
HanLP中的人名识别分析详解
分词:给定一个字的序列,找出最可能的标签序列(断句符号:[词尾]或[非词尾]构成的序列)。结巴分词目前就是利用BMES标签来分词的,B(开头),M(中间),E(结尾),S(独立成词)
IT小白龙
2018/10/29
9580
HanLP中的人名识别分析详解
hanlp安装和使用
在https://github.com/hankcs/HanLP/releases中下载data然后覆盖HanLP-1.3.4.zip解压后的data
用户3492023
2018/11/09
1.6K0
hanlp安装和使用
HanLP使用教程——NLP初体验
话接上篇NLP的学习坑 自然语言处理(NLP)——简介 ,使用HanLP进行分词标注处词性。
SpringSun
2021/07/20
2.2K0
HanLP使用教程——NLP初体验
一文掌握 HanLP 用法
本文简绍了 HanLP 的使用方法,HanLP 是一系列模型与算法组成的 NLP 工具包,由大快搜索主导并完全开源,目前支持很多功能,项目主要是 Java 的,也支持 python,本文详细简绍 pyhanlp 的使用方法。
用户1737318
2019/05/15
5.3K0
hanlp自然语言处理包的基本使用--python
hanlp拥有:中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换、智能推荐。
IT小白龙
2018/09/28
6610
hanlp自然语言处理包的基本使用--python
HanLP-命名实体识别总结
在HanLP中,基于角色标注识别了中国人名。首先系统利用隐马尔可夫模型标注每个词语的角色,之后利用最大模式匹配法对角色序列进行匹配,匹配上模式的即为人名。理论指导文章为:《基于角色标注的中国人名自动识别研究》,大家可以百度一下看看
IT小白龙
2019/07/31
1.9K0
HanLP-命名实体识别总结
HanLP 分词
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
周小董
2019/09/18
1.5K0
HanLP 分词
HanLP中人名识别分析详解
分词:给定一个字的序列,找出最可能的标签序列(断句符号:[词尾]或[非词尾]构成的序列)。结巴分词目前就是利用BMES标签来分词的,B(开头),M(中间),E(结尾),S(独立成词)
IT小白龙
2018/12/05
9720
HanLP中人名识别分析详解
相关推荐
7个优秀的开源中文分词库推荐,实用性强!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档