笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP
命名实体识别实际上可以看作分词与词性标注任务的集成: 命名实体的边界可以通过{B,M,E,S}确定,其类别可以通过 B-nt 等附加类别的标签来确定。
HanLP内部提供了语料库转换工序,用户无需关心,只需要传入 PKU 格式的语料库路径即可。
之前我们就介绍过隐马尔可夫模型,详细见: 4.隐马尔可夫模型与序列标注
隐马尔可夫模型命名实体识别代码见(自动下载 PKU 语料库): hmm_ner.py
https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch08/hmm_ner.py
运行代码后结果如下:
华北电力公司/nt 董事长/n 谭旭光/nr 和/c 秘书/n 胡花蕊/nr 来到/v 美国纽约/ns 现代/ntc 艺术/n 博物馆/n 参观/v
其中机构名“华北电力公司”、人名“谭旭光”“胡花蕊”全部识别正确。但是地名“美国纽约现代艺术博物馆”则无法识别。有以下两个原因:
对于第一个原因,只能额外标注一些语料。对于第二个原因可以通过切换到更强大的模型来解决。
之前我们就介绍过感知机模型,详细见: 5.感知机分类与序列标注
感知机模型词性标注代码见(自动下载 PKU 语料库): perceptron_ner.py
https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch08/perceptron_ner.py
运行会有些慢,结果如下:
华北电力公司/nt 董事长/n 谭旭光/nr 和/c 秘书/n 胡花蕊/nr 来到/v [美国纽约/ns 现代/ntc 艺术/n 博物馆/n]/ns 参观/v
与隐马尔可夫模型相比,已经能够正确识别地名了。
之前我们就介绍过条件随机场模型,详细见: 6.条件随机场与序列标注
条件随机场模型词性标注代码见(自动下载 PKU 语料库): crf_ner.py
https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch08/crf_ner.py
运行时间会比较长,结果如下:
华北电力公司/nt 董事长/n 谭旭光/nr 和/c 秘书/n 胡花蕊/nr 来到/v [美国纽约/ns 现代/ntc 艺术/n 博物馆/n]/ns 参观/v
得到了结果是一样的。
各个命名实体识别模块的准确率如何,并非只能通过几个句子主观感受。任何监督学习任务都有一套标准化评测方案,对于命名实体识别,按照惯例引入P、R 和 F1 评测指标。
在1998年1月《人民日报》语料库上的标准化评测结果如下:
模型 | P | R | F1 |
---|---|---|---|
隐马尔可夫模型 | 79.01 | 30.14 | 43.64 |
感知机 | 87.33 | 78.98 | 82.94 |
条件随机场 | 87.93 | 73.75 | 80.22 |
值得一提的是,准确率与评测策略、特征模板、语料库规模息息相关。通常而言,当语料库较小时,应当使用简单的特征模板,以防止模型过拟合;当语料库较大时,则建议使用更多特征,以期更高的准确率。当特征模板固定时,往往是语料库越大,准确率越高。
以上我们接触的都是通用领域上的语料库,所含的命名实体仅限于人名、地名、机构名等。假设我们想要识别专门领域中的命名实体,这时,我们就要自定义领域的语料库了。
HanLP何晗–《自然语言处理入门》笔记:
https://github.com/NLP-LOVE/Introduction-NLP
项目持续更新中…
目录
章节 |
---|
第 1 章:新手上路 |
第 2 章:词典分词 |
第 3 章:二元语法与中文分词 |
第 4 章:隐马尔可夫模型与序列标注 |
第 5 章:感知机分类与序列标注 |
第 6 章:条件随机场与序列标注 |
第 7 章:词性标注 |
第 8 章:命名实体识别 |
第 9 章:信息抽取 |
第 10 章:文本聚类 |
第 11 章:文本分类 |
第 12 章:依存句法分析 |
第 13 章:深度学习与自然语言处理 |