首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一文了解信息抽取(Information Extraction)【关系抽取】

一文了解信息抽取(Information Extraction)【关系抽取】

作者头像
ShuYini
发布于 2020-08-17 08:34:25
发布于 2020-08-17 08:34:25
3.2K0
举报

引言

信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。能从自然语言中抽取用户感兴趣的事实信息,无论是在知识图谱、信息检索、问答系统还是在情感分析、文本挖掘中,信息抽取都有广泛应用。

信息抽取主要包括三个子任务

关系抽取:通常我们说的三元组(triple)抽取,主要用于抽取实体间的关系。

实体抽取与链指:也就是命名实体识别。

事件抽取:相当于一种多元关系的抽取。

关系抽取(RE)是为了抽取文本中包含的关系,是信息抽取(IE)的重要组成部分。主要负责从无结构文本中识别出实体,并抽取实体之间的语义关系,被广泛用在信息检索、问答系统中。本文从关系抽取的基本概念出发,依据不同的视角对关系抽取方法进行了类别划分;最后分享了基于深度学习的关系抽取方法常用的数据集,并总结出基于深度学习的关系抽取框架。

正文开始

1

First Blood

关系抽取基本概念

完整的关系抽取包括实体抽取和关系分类两个子过程。实体抽取子过程也就是命名实体识别,对句子中的实体进行检测和分类;关系分类子过程对给定句子中两个实体之间的语义关系进行判断,属于多类别分类问题

例如,对于句子“青岛坐落于山东省的东部”,实体抽取子过程检测出这句话具有“青岛”和“山东”两个实体。关系分类子过程检测出这句话中“青岛”和“山东”两个实体具有“坐落于”关系而不是“出生于”关系。在关系抽取过程中,多数方法默认实体信息是给定的,那么关系抽取就可以看作是分类问题。

关系抽取方法分类(基于深度学习方法)

目前,常用的关系抽取方法有5类,分别是基于模式匹配、基于词典驱动、基于机器学习、基于本体和混合的方法。基于模式匹配和词典驱动的方法依靠人工制定规则,耗时耗力,而且可移植性较差,基于本体的方法构造比较复杂,理论尚不成熟。基于机器学习的方法以自然语言处理技术为基础,结合统计语言模型进行关系抽取,方法相对简单,并具有不错的性能,成为当下关系抽取的主流方法,下文提到的关系抽取方法均为机器学习的方法

关于信息关系抽取,可以从训练数据的标记程度使用的机器学习方法是否同时进行实体抽取关系分类子过程以及是否限定关系抽取领域和关系专制四个角度对机器学习的关系抽取方法进行分类。

根据训练数据的标记程度分类

根据训练数据的标记程度可以将关系抽取方法分为有监督、半监督和无监督三类

有监督学习,处理的基本单位是包含特定实体对的句子,每一个句子都有类别标注。优点:取能够有效利用样本的标记信息,准确率和召回率都比较高。缺点:需要大量的人工标记训练语料,代价较高。

半监督学习,句子作为训练数据的基本单位,只有部分是有类别标注的。此类方法让学习器不依赖外界交互,自动地利用未标记样本来提升学习性能。

无监督学习,完全不需要对训练数据进行标注,此类方法包含实体对标记、关系聚类和关系词选择三个过程。

根据使用的机器学习方法分类

根据使用机器学习方法不同,可以将关系抽取划分为三类:基于特征向量的方法基于核函数的方法以及基于神经网络的方法

基于特征向量的方法,通过从包含特定实体对的句子中提取出语义特征,构造特征向量,然后通过使用支持向量机、最大熵、条件随机场等模型进行关系抽取。

基于核函数的方法,其重点是巧妙地设计核函数来计算不同关系实例特定表示之间的相似度。缺点:而如何设计核函数需要大量的人类工作,不适用于大规模语料上的关系抽取任务。

基于神经网络的方法,通过构造不同的神经网络模型来自动学习句子的特征,减少了复杂的特征工程以及领域专家知识,具有很强的泛化能力。

是否同时进行实体抽取和关系分类进行分类

根据是否在同一个模型里开展实体抽取和关系分类,可以将关系抽取方法分为流水线(pipeline)学习联合(joint)学习两种

流水线学习是指先对输入的句子进行实体抽取,将识别出的实体分别组合,然后再进行关系分类,这两个子过程是前后串联的,完全分离。

联合学习是指在一个模型中实现实体抽取和关系分类子过程。该方法通过使两个子过程共享网络底层参数以及设计特定的标记策略来解决上述问题,其中使用特定的标记策略可以看作是一种序列标注问题。

根据是否限定关系抽取领域和关系类别分类

根据是否限定抽取领域和关系类别,关系抽取方法可以划分为预定义抽取开放域抽取两类。

预定义关系抽取是指在一个或者多个固定领域内对实体间关系进行抽取,语料结构单一,这些领域内的目标关系类型也是预先定义的。

开放域关系抽取不限定领域的范围和关系的类别。现阶段,基于深度学习的关系抽取研究集中于预定义关系抽取。

关系信息抽取常用数据集

基于深度学习的关系抽取方法常用的数据集有ACE关系抽取任务数据集SemEval2010 Task 8数据集NYT2010数据集等.

ACE关系抽取任务数据集:ACE2005关系抽取数据集包含599篇与新闻和邮件相关的文档,其数据集内包含7大类25小类关系。

SemEval2010 Task 8数据集:该数据集包含9种关系类型,分别是Compoent-Whole、Instrument-Agency、Member-Collection、Cause-Effect、Entity-Destination、Content-Container、Message-Topic、Product-Producer和Entity-Origin。考虑到实体之间关系的方向以及不属于前面9种关系的“Other”关系,共生成19类实体关系。其中训练数据 8000个,测试数据2717个。

NYT2010数据集:是Riedel等人在2010年将Freebase知识库中的知识“三元组”对齐到“纽约时报”新闻中得到的训练数据。该数据集中,数据的单位是句包,一个句包由包含该实体对的若干句子构成。其中,训练数据集从《纽约时报》2005—2006年语料库中获取,测试集从2007年语料库中获取。

面向关系抽取的深度学习模型构建

基于深度学习的关系抽取方法模型构建的重点在于利用不同神经网络的特点来抽取样本的特征,以学习样本的向量表示。在学习过程中,根据所用的神经网络基本结构的不同,可将基于深度学习的关系抽取方法分为基于递归神经网络(recursive neural network,Rec-NN)的方法基于卷积神经网络的方法基于循环神经网络(recurrent net neural net-work,RNN)的方法基于混合网络模型的方法四类。

基于递归神经网络的关系抽取

基于递归神经网络的关系抽取方法首先利用自然语言处理工具对句子进行处理,构建特定的二叉树,然后解析树上所有的相邻子节点,以特定的语义顺序将其组合成一个父节点,如下图3所示。这个过程递归进行,最终计算出整个句子的向量表示。向量计算过程可以看作是将句子进行一个特征抽取过程,该方法对所有的邻接点采用相同的操作。

基于卷积神经网络的关系抽取

基于卷积神经网络的关系抽取方法接受一个特定的向量矩阵作为输入,通过卷积层和池化层的操作将输入转换成一个固定长度的向量,并使用其他特征进行语义信息汇总,再进行抽取。基于卷积神经网络的关系抽取方法框架如图下5所示,除了输入层、数据表示层之外,还有窗口层、卷积层、池化层、语义信息汇总层、分类层。

基于循环神经网络的关系抽取

    由于句子含义跟单词出现的顺序是相关的,因此关系抽取可以看作是一个时序学习任务,可以使用循环神经网络来建模。

基于循环神经网络的方法在模型设计上使用不同的循环神经网络来获取句子信息,然后对每个时刻的隐状态输出进行组合,在句子层级学习有效特征。在关系抽取问题中,对每一个输入,关系的标记一般只在序列的最后得到。Zhang等首次使用双向循环神经网络来进行关系抽取,提出了BRNN模型。如下图7 所示,在双向循环神经网络中某一时刻的输出不仅依赖序列中之前的输入,也依赖于后续的输入。

基于混合网络模型的关系抽取

    为了更好地抽取句子中的特征,研究人员使用递归神经网络、卷积神经网络与循环神经网络3种网络及其他机器学习方法进行组合建模来进行关系抽取

    Vu等提 出 了 基 于 文 本 扩 展 表 示 的ECNN和基于链接的UniBRNN模型,将每个神经网络得到的多个结果根据投票机制得到关系的最终抽取结果。

    Xiao等将注意力机制引入一个多级的循环神经网络,该方法使用文本序列作为输入,根据标记实体的位置将句子分为5部分,使用同一个双 向LSTM网络在3个子序列上独立学习,然后引入词层级的注意力机制关注重要的单词表示,分别得到子序列的向量表示;随后,使用双向RNN网络进一步抽取子序列和实体的特征,并再次使用注意力机制将其转换成句子的最终向量表示,并送入到分类器中。

    Nguyen等将传统基于特征的方法(log-linear模型)、卷积神经网络方法和循环神经网络方法使用集成、投票等机制进行组合

    zhang等提出在双向LSTM 的基础上叠加注意力机制,以及使用卷积神经网络层获取句子的表示,再送入到一个全连接层和softmax层进行分类。

    在联合学习问题上,Zheng等使用递归神经网络和卷积神经网络组合来进行联合学习,也是一种共享底层网络参数的方法。

2

参考文献

[1]庄传志,靳小龙,基于深度学习的关系抽取研究综述[J].中文信息学报,2019,33(12):1-18.

[2]Zhang X,Chen F. A Combination of RNN and CNN for Attention-based Relation Classification.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-08-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【技术白皮书】第三章 - 2 :关系抽取的方法
由于传统机器学习的关系抽取方法选择的特征向量依赖于人工完成,也需要大量领域专业知识,而深度学习的关系抽取方法通过训练大量数据自动获得模型,不需要人工提取特征。2006年Hinton 等人(《Reducing the dimensionality of data with neural networks》)首次正式提出深度学习的概念。深度学习经过多年的发展,逐渐被研究者应用在实体关系抽取方面。目前,研究者大多对基于有监督和远程监督2种深度学习的关系抽取方法进行深入研究。此外,预训练模型Bert(bidirectional encoder representation from transformers)自2018年提出以来就备受关注,广泛应用于命名实体识别、关系抽取等多个领域。
合合技术团队
2022/08/23
2.2K0
【信息抽取】介绍一种端到端的关系抽取方法
事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。
用户1508658
2020/07/22
1.1K0
【NLP基础】信息抽取(Information Extraction:NER(命名实体识别),关系抽取)
信息抽取的定义为:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术
zenRRan
2020/02/18
12.1K0
【技术白皮书】第三章 - 3: 事件信息抽取的方法
事件抽取(EE)是信息抽取研究中的一个重要而富有挑战性的课题。事件作为一种特殊的信息形式,是指在特定时间、特定地点发生的涉及一个或多个参与者的特定事件,通常可以描述为状态的变化。事件提取任务旨在将此类事件信息从非结构化的纯文本中提取为结构化的形式,主要描述现实世界中事件发生的“谁、何时、何地、什么、为什么”和“如何”。在应用方面,该任务便于人们检索事件信息,分析人们的行为,促进信息检索、智能问答、知识图谱构建等实际应用。
合合技术团队
2022/08/25
2.1K0
【技术白皮书】第三章 - 3: 事件信息抽取的方法
实体抽取全解析:技术与实战
实体抽取(Named Entity Recognition, NER)技术,在自然语言处理(NLP)领域中占据着不可或缺的地位。它的主要任务是从文本中识别出具有特定意义的实体,例如人名、地点、组织机构名等,这对于理解和分析大量未结构化的文本数据至关重要。深入理解实体抽取技术不仅仅是掌握其基本原理和应用方法,更是要深挖其技术细节、挑战以及面对这些挑战时的创新解决方案。
TechLead
2024/04/10
2.1K0
实体抽取全解析:技术与实战
实体关系抽取综述及相关顶会论文介绍
每天给你送来NLP技术干货! ---- 写在前面 实体关系抽取作为文本挖掘和信息抽取的核心任务,其主要通过对文本信息建模,自动抽取出实体对之间的语义关系,提取出有效的语义知识。其研究成果主要应用在文本摘要、自动问答、机器翻译、语义网标注、知识图谱等。 1. 关系抽取任务简介 实体关系抽取作为信息抽取的重要任务,是指在实体识别的基础上,从非结构化文本中抽取出预先定义的实体关系。实体对的关系可被形式化描述为关系三元组〈e1,r,e2〉,其中 e1 和 e2 是实体,r 属于目标关系集 R{r1,r2, r3,…
zenRRan
2022/07/18
2.1K0
实体关系抽取综述及相关顶会论文介绍
【信息抽取】如何使用卷积神经网络进行关系抽取
事物、概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中。为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开。
用户1508658
2020/07/14
1.1K0
【信息抽取】如何使用卷积神经网络进行关系抽取
NLP入门:CNN,RNN应用文本分类,个性化搜索,苹果和乔布斯关系抽取(2)
前篇 一文了解自然语言处理的每个范畴用到的核心技术,难点和热点(1), 这部分涉及的NLP范畴包括: 中文分词 词性标注 句法分析 文本分类背景 下面介绍,文本分类常用的模型,信息检索,信息抽取。 8文本分类模型 近年来,文本分类模型研究层出不穷,特别是随着深度学习的发展,深度神经网络模型也在文本分类任务上取得了巨大进展。文本分类模型划分为以下三类: 基于规则的分类模型 基于规则的分类模型旨在建立一个规则集合来对数据类别进行判断。这些规则可以从训练样本里自动产生,也可以人工定义。给定一个测试样例,我们可以
double
2018/04/02
1.3K0
【每周NLP论文推荐】 掌握实体关系抽取必读的文章
欢迎来到《每周NLP论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。
用户1508658
2019/08/30
1.2K0
【每周NLP论文推荐】 掌握实体关系抽取必读的文章
【技术白皮书】第三章:文字表格信息抽取模型介绍——实体抽取方法:NER模型(上)
深度学习是一个由多个处理层组成的机器学习领域,用于学习具有多个抽象层次的数据表示。典型的层次是人工神经网络,由前向传递和后向传递组成。正向传递计算来自前一层的输入的加权和,并通过非线性函数传递结果。向后传递是通过导数链规则计算目标函数相对于多层模块堆栈权重的梯度。深度学习的关键优势在于表示学习的能力以及向量表示和神经处理赋予的语义合成能力。这允许机器输入原始数据,并自动发现分类或检测所需的潜在表示和处理。
合合技术团队
2022/08/17
1.3K0
【技术白皮书】第三章:文字表格信息抽取模型介绍——实体抽取方法:NER模型(上)
命名实体识别的深度学习综述
A Survey on Deep Learning for Named Entity Recognition
马上科普尚尚
2020/09/24
1.9K0
命名实体识别的深度学习综述
塔说 |盘点人工智能从业者必备的10个深度学习方法
导读:近日,软件工程师 James Le 在 Medium 上发表了一篇题为《The 10 Deep Learning Methods AI Practitioners Need to Apply》的文章,从反向传播到最大池化最后到迁移学习,他在文中分享了主要适用于卷积神经网络、循环神经网络和递归神经网络的10大深度学习方法。 过去十年来,人们对机器学习兴趣不减。你几乎每天都会在计算机科学程序、行业会议和华尔街日报上看到机器学习。对于所有关于机器学习的讨论,很多人把机器学习能做什么与希望其做什么混为一谈。从
灯塔大数据
2018/04/03
7490
塔说 |盘点人工智能从业者必备的10个深度学习方法
必看!一文了解信息抽取(IE)【命名实体识别NER】
信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。信息抽取主要包括三个子任务:关系抽取、命名实体识别、事件抽取。
ShuYini
2020/08/17
3K0
必看!一文了解信息抽取(IE)【命名实体识别NER】
【NLP】一文了解命名实体识别
1991年Rau等学者首次提出了命名实体识别任务,但命名实体(named entity,NE)作为一个明确的概念和研究对象,是在1995年11月的第六届MUC会议(MUC-6,the Sixth Message Understanding Conferences)上被提出的。当时的MUC-6和后来的MUC-7并未对什么是命名实体进行深入的讨论和定义,只是说明了需要标注的实体是“实体的唯一标识符(unique identifiers of entities)”,规定了NER评测需要识别的三大类(命名实体、时间表达式、数量表达式)、七小类实体,其中命名实体分为:人名、机构名和地名 。MUC 之后的ACE将命名实体中的机构名和地名进行了细分,增加了地理-政治实体和设施两种实体,之后又增加了交通工具和武器。CoNLL-2002、CoNLL-2003 会议上将命名实体定义为包含名称的短语,包括人名、地名、机构名、时间和数量,基本沿用了 MUC 的定义和分类,但实际的任务主要是识别人名、地名、机构名和其他命名实体 。SIGHAN Bakeoff-2006、Bakeoff-2007 评测也大多采用了这种分类。
黄博的机器学习圈子
2020/09/14
2K0
知识图谱从哪里来:实体关系抽取的现状与未来
最近几年深度学习引发的人工智能浪潮席卷全球,在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下,深度学习深入影响了自然语言处理的各个方向,极大推动了自然语言处理的发展。
Spark学习技巧
2019/11/21
8200
知识图谱从哪里来:实体关系抽取的现状与未来
万字长文概述NLP中的深度学习技术
自然语言处理(NLP)是指对人类语言进行自动分析和表示的计算技术,这种计算技术由一系列理论驱动。NLP 研究从打孔纸带和批处理的时代就开始发展,那时分析一个句子需要多达 7 分钟的时间。到了现在谷歌等的时代,数百万网页可以在不到一秒钟内处理完成。NLP 使计算机能够执行大量自然语言相关的任务,如句子结构解析、词性标注、机器翻译和对话系统等。
机器之心
2019/03/12
1.3K0
万字长文概述NLP中的深度学习技术
一文掌握常用的机器学习模型(文末福利)
AI 科技大本营按:本文节选自微软亚洲研究院机器学习研究团队刘铁岩、陈薇、王太峰、高飞合著的《分布式机器学习:算法、理论与实践》一书。为了让大家更好地理解分布式机器学习,AI科技大本营联合华章科技特别邀请到了本书的作者之一——微软亚洲研究院副院长刘铁岩老师进行在线公开课分享,详情请见文末信息,还有福利哦~~
AI科技大本营
2018/12/17
5990
OCR 【技术白皮书】第一章:OCR智能文字识别新发展——深度学习的文本信息抽取
信息抽取 (Information Extraction) 是把原始数据中包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始数据,输出的是固定格式的信息点,即从原始数据当中抽取有用的信息。信息抽取的主要任务是将各种各样的信息点从原始数据中抽取出来。然后以统一的形式集成在一起,方便后序的检索和比较。由于能从自然语言中抽取出信息框架和用户感兴趣的事实信息,无论是在信息检索、问答系统还是在情感分析、文本挖掘中,信息抽取都有广泛应用。随着深度学习在自然语言处理领域的很多方向取得了巨大成功,循环神经网络(RNN)和卷积神经网络(CNN)也被用于信息抽取研究领域,基于深度学习的信息抽取技术也应运而生。
合合技术团队
2022/08/15
1.3K0
OCR 【技术白皮书】第一章:OCR智能文字识别新发展——深度学习的文本信息抽取
【干货】AI 实践者需要掌握的10大深度学习方法:反向传播、迁移学习、梯度下降……
来源:towardsdatascience.com 编译:马文 文强 【新智元导读】本文总结了10个强大的深度学习方法,包括反向传播、随机梯度下降、学习率衰减、Dropout、最大池化、批量归一化、长短时记忆、Skip-gram、连续词袋、迁移学习等,这是AI工程师可以应用于他们的机器学习问题的。 过去10年,人们对机器学习的兴趣激增。几乎每天,你都可以在各种各样的计算机科学课程、行业会议、华尔街日报等等看到有关机器学习的讨论。在所有关于机器学习的讨论中,许多人把机器学习能做的事情和他们希望机器学习做的事
新智元
2018/03/21
6480
【干货】AI 实践者需要掌握的10大深度学习方法:反向传播、迁移学习、梯度下降……
独家 | 一文读懂自然语言处理NLP(附学习资料)
前言 自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科。在此领域中探讨如何处理及运用自然语言。 对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起。基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义。在哲学领域中经验主义与理性主义的斗争一直是此消彼长,这种矛盾与斗争也反映在具体科学上,如自然语言处理。 早期的自然语言处理具有鲜明的经验主义色彩。如1913年马尔科夫提出马尔科夫随机过程与马尔科夫模型的基础就是“手工查频”,具体说就是
数据派THU
2018/01/30
3.6K0
独家 | 一文读懂自然语言处理NLP(附学习资料)
推荐阅读
相关推荐
【技术白皮书】第三章 - 2 :关系抽取的方法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档