首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

实体识别调研——学术界

文本中的实体包含了丰富的语义,是至关重要的语义单元,从原始文本中识别有意义的实体或实体指代项在自然语言理解中起着至关重要的作用。这个过程通常被称为命名实体识别,即在文本中标识命名实体并划分到相应的实体类型中,通常实体类型包括人名、地名、组织机构名、日期等。

1991年Rau等学者首次提出了命名实体识别任务,随后自1996年开始,命名实体识别任务被加入到信息抽取领域,它作为一个子任务被引入各类测评任务 中,如 MUC-6,MUC-7,IEER-99,CoNLL-2002,CoNLL-2003 等。

命名实体识别是自然语言处理应用中的重要步骤,它不仅检测出实体边界,还检测出命名实体的类型,是文本意义理解的基础。命名实体识别从早期基于规则和词典的方法,到传统机器学习的方法,到近年来基于深度学习的方法,神经网络与CRF模型相结合的NN-CRF模型依旧是目前命名实体识别的主流模型。

【研究热点】

匮乏资源命名实体识别

针对资源匮乏领域标注数据的缺乏问题,基于迁移学习、对抗学习、远监督学习等方法被充分利用,解决资源匮乏领域的命名实体识别难题,降低人工标注工作量,也是最近研究的重点。

细粒度命名实体识别

更精确地确定非结构化文本中提到的实体类型很有意义。通常这些实体类型在知识库的类型层次结构中可以形成类型路径。知识库中的类型通常为层次结构的组织形式,即类型层次。

细粒度命名实体识别现有方法大多是通过利用实体的固有特征(文本描述、属性和类型)或在文本中实体指代项来进行类型推断,最近有学者研究将知识库中的实体转换为实体图,并应用到基于图神经网络的算法模型中。

嵌套命名实体识别

大多数命名实体识别会忽略嵌套实体,无法在深层次文本理解中捕获更细粒度的语义信息。嵌套实体识别充分利用内部和外部实体的嵌套信息,从底层文本中捕获更细粒度的语义。

命名实体链接(实体消岐、文档级别消岐)

实体链接主要目标是进行实体消歧,从实体指代项对应的多个候选实体中选择意思最相近的一个实体。实体链接的关键在于获取语句中更多的语义,通常使用两种方法。一种是通过外部语料库获取更多的辅助信息,另一种是对本地信息的深入了解以获取更多与实体指代项相关的信息。

其中匮乏资源领域的命名实体识别在NLP领域应用有着非常巨大的价值,迁移学习、对抗学习、远监督学习方法以及图神经网络、注意力机制等新型技术都是未来研究的重点。

【数据集】

常用的命名实体识别数据集有 CoNLL 2003,CoNLL 2002,ACE 2004,ACE 2005 等。

【数据标注方法】

最常见的标注方法有 IOB,BIOES,Markup,IO,BMEWO 等。

IOB 标注法,是 CoNLL 2003 采用的标注法,I 表示内部,O 表示外部,B 表示开始。如若语料中某个词标注 B /I-XXX,B /I 表示这个词属于命名实体的开始或内部,即该词是命名实体的一部分,XXX表示命名实体的类型。当词标注 O 则表示属于命名实体的外部,即它不是一个命名实体。

BIOES 标注法,是在 IOB 方法上的扩展,具有更完备的标注规则。其中 B 表示这个词处于一个命名实体的开始,I 表示内部,O 表示外部,E 表示这个词处于一个实体的结束,S 表示这个词是单独形成一个命名实体。BIOES 是目前最通用的命名实体标注方法。

Markup 标注法,是 OntoNotes 数据集使用的标注方法,方式较简单。例如: ENAMEX TYPE = ”ORG ” > LondonENAMEX > is an internationalmetropolis,它直接用标签把命名实体标注出来,然后通过 TYPE 字段设置相应的类型。

参考文献

[1] Nadeau D , Sekine S . A survey of named entity recognition and classification[J]. Lingvae Investigationes, 2007, 30(1):págs. 3-26.

[2] Kulkarni S , Karnataka B , Sagar B M . A Survey on Named Entity Recognition for South Indian Languages[J]. Journal on Chain & Network ence, 2014, 4(1):55-71.

[3] Li J , Sun A , Han J , et al. A Survey on Deep Learning for Named Entity Recognition[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, PP(99):1-1.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201127A01B0V00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券