博学之,审问之,慎思之,明辨之,笃行之。 ——《礼记 中庸》
上图清晰的展示了知识图谱技术架构中的知识抽取
如果从专业的角度去定义知识抽取的定义:从不同来源、不同结构的信息资源中进行知识提取,形成结构的知识并存储到知识图谱中。
一般来说,知识抽取主要是面向链接开发数据,大家获取不知道何为链接开放数据,下面我为大家整理了一下
链接开放数据(Linked Open Data,LOD)是一种数据发布和共享的方法,通过使用统一的标准化格式和互联网链接,将不同来源的数据链接在一起,形成一个全球性的、互联的知识网络。这种方法的目标是使得数据更容易被发现、访问、集成和利用。
LOD 遵循一些核心原则,其中包括:
当然知识抽取也就是通过一系列自动化或半自动化的技术手段,从半结构化、非结构化的数据中提取出实体、关系及属性等知识要素。但是如果仅仅是抽取这些其实还是不够的,还有基于语句和语境抽取出实体间的关系以及实体所描述的事件。
下面我来介绍一下抽取中最受关注的子任务
这里举个例子:中国古典《西游记》大家都看过,唐僧这个角色有好几个叫法大家估计也知道一两个,那么这个例子放在实体链接中该如何理解呢,请看下图
当然这里仅仅简单介绍一下,想了解详细流程的可以翻阅相关书籍或资料等
注意:关系抽取的难点在于大多数关系都含有一定的隐含性,还记得本科话ER图什么一对多多对多都搞的迷迷糊糊了
注意:属性主要是针对实体而言的,对当前实体的完整描述。由于可以把实体的属性看作实体与属性值之间的一种名词性关系,因此属性抽取任务就可以转化为关系抽取任务。
结构化的数据通常来讲类似于关系型数据库中表格形式的数据,对于一般的表格,我们可以使用工具进行编写,但是面对复杂的表格,我们需要使用转换工具将关系型数据库映射到RDF。
这里的RDF本质是一个数据模型,提供了描述实体或资源的统一的标准,简单来说,它就是表示事物的一种方法和手段。从形式上表示为SPO三元组,有时候也可称为一条语句,在知识图谱中代称为一条知识。
下面我们以关系型数据库为例子
接下来我们来看看针对上图的抽取方法中的直接映射和R2RML映射
直接映射通过明确在关系模式中编码的语义,将关系数据转换为RDF,如下按照一些简单的规则创建URI进行映射。
由于URI规定只能使用英文字符,而Unicode字符集包括了当今世界上所有书写文字的字符,所以资源标识符可以使用Unicode字符
R2RML映射是将逻辑表作为输入,然后依据三元组映射规则将其转换成三元组的集合。
注意:直接映射方法不能改变RDF的结构或词语,但是如果是R2RML的话,作者可以自定义关系型数据库的视图,然后由视图来映射RDF,所以说每一个R2RML映射都是基于实际项目需要而描述的,它连接了作为输入端的关系型数据库架构域以及作为输出端的RDF词语。
半结构化数据一般指的是那种网页本身存在一定的结构,但是需要进行整理。半结构化数据的知识抽取主要通过包装器进行,包装器学习半结构话数据的抽取规则将数据从HTML网页中抽取出来,进而将它们转化为结构化的数据。
我们使用包装器进行知识抽取的步骤主要包括网页清洗,网页标注,包装器空间生成,包装器评估。
网页清洗:主要解决网页代码不规范的问题。
网页标注:将需要抽取的数据进行标注
包装器生成:Xpath集合空间,应具有一定的泛化能力。
注意:xpath在爬虫里也有使用插件获取可以参考下面两篇博客 探索Xpath:解析Web页面的利器 XPath实战:快速定位网页元素
包装器评估:对包装器进行评估需要采用一定的标准,主要有准确率和召回率。通常情况下准确率越高、召回率越高,进而评分越高。
完成包装器空间生成之后我们按照准确率和召回率进行包装器的评估。 例如:包装器A的准确率大于包装器B的准确率,但是两者的召回率相等,这样综上所述来看就是包装器A要更加的优于包装器B
值得一提的是,有监督的包装器维护开销会很大,当网站改变了模版,Xpath那里可能就会发生变动,标签嵌套啥的,这样我们可以对数据进行少量的标注,让机器学习出一定的规则,进而在整个站点下使用这些规则对同类型或者符合某种关系的数据进行抽取,从而节省资源。
非结构化数据是指社交网络、网页、新闻、论文,甚至一些多模态数据。本节以文本数据抽取为例,从实体抽取、实体链接、关系抽取以及事件抽取几个方面来讲解面向非结构化数据的知识抽取。其中,知识抽取的任务中提到的属性抽取与关系抽取概念相近,使用的方法也十分类似。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。