前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >深度学习 | 什么是知识图谱

深度学习 | 什么是知识图谱

作者头像
Justlovesmile
发布于 2021-12-14 01:41:34
发布于 2021-12-14 01:41:34
37.6K0
举报
文章被收录于专栏:云+分享云+分享

什么是知识图谱

1. 来源

2012年5月17日,Google正式提出了知识图谱(Knowledge Graph)的概念,其初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验。

实际上,知识图谱并不是一个全新的概念,早在 2006 年就有文献提出了语义网(Semantic Network)的概念,呼吁推广、完善使用本体模型来形式化表达数据中的隐含语义,RDF(resource description framework,资源描述框架)模式和 OWL(Web ontology language,万维网本体语言)就是基于上述目的产生的。用电子科技大学徐增林教授的论文原文来说:

知识图谱技术的出现正是基于以上相关研究,是对语义网标准与技术的一次扬弃与升华。

目前,随着智能信息服务应用的不断发展,知识图谱已广泛应用于智能搜索,智能问答,个性化推荐等领域。

2. 定义

知识图谱,本质上,是一种揭示实体之间关系的语义网络。

看一张简单的知识图谱:

如图所示,你可以看到,如果两个节点之间存在关系,他们就会被一条无向边连接在一起,那么这个节点,我们就称为实体(Entity),它们之间的这条边,我们就称为关系(Relationship)。

如果你看过网络综艺《奇葩说》第五季第17期:你是否支持全人类一秒知识共享,你也许会被辩手陈铭的辩论印象深刻。他在节目中区分了信息和知识两个概念:

信息是指外部的客观事实。举例:这里有一瓶水,它现在是7°。

知识是对外部客观规律的归纳和总结。举例:水在零度的时候会结冰。

“客观规律的归纳和总结” 似乎有些难以实现。Quora 上有另一种经典的解读,区分 “信息” 和 “知识” 。

这样我们就很容易理解,在信息的基础上,建立实体之间的联系,就能行成 “知识”,或者称为叫事实(Fact)更为合适。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Object)。

知识图谱实际上就是如此工作的。曾经知识图谱非常流行自顶向下(top-down)的构建方式。自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如 Freebase 项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。

然而目前,大多数知识图谱都采用自底向上(bottom-up)的构建方式。自底向上指的是从一些开放链接数据(也就是 “信息”)中提取出实体,选择其中置信度较高的加入到知识库,再构建实体与实体之间的联系。

3. 数据类型和存储方式

知识图谱的原始数据类型一般来说有三类(也是互联网上的三类原始数据):

  • 结构化数据(Structed Data):如关系数据库
  • 半结构化数据(Semi-Structed Data):如XMLJSON、百科
  • 非结构化数据(UnStructed Data):如图片、音频、视频、文本

如何存储上面这三类数据类型呢?一般有两种选择,一个是通过RDF(资源描述框架)这样的规范存储格式来进行存储,还有一种方法,就是使用图数据库来进行存储,常用的有Neo4j等。

4. 体系架构

知识图谱的架构主要包括自身的逻辑结构以及体系架构

知识图谱在逻辑结构上可分为模式层数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。

知识图谱的体系架构是指其构建模式的结构,如下图所示:

大规模知识库的构建与应用需要多种智能信息处理技术的支持。通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。

5. 知识抽取

知识抽取主要是面向开放的链接数据,通过自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。知识抽取有三个主要工作:

  • 实体抽取:在技术上,更多称为 NER(named entity recognition,命名实体识别),指的是从原始语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素,其抽取的完整性、准确、召回率等将直接影响到知识库的质量。因此,实体抽取是知识抽取中最为基础与关键的一步;
  • 关系抽取:目标是解决实体间语义链接的问题,早期的关系抽取主要是通过人工构造语义规则以及模板的方法识别实体关系。随后,实体间的关系模型逐渐替代了人工预定义的语法与规则。
  • 属性抽取:属性抽取主要是针对实体而言的,通过属性可形成对实体的完整勾画。由于实体的属性可以看成是实体与属性值之间的一种名称性关系,因此可以将实体属性的抽取问题转换为关系抽取问题。

6. 知识表示

近年来,以深度学习为代表的表示学习技术取得了重要的进展,可以将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义。

7. 知识融合

由于知识图谱中的知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。知识融合包括两部分内容:实体链接知识合并

  • 实体链接:是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。
  • 知识合并:常见的知识合并需求有两个,一个是合并外部知识库,另一个是合并关系数据库。

8. 知识加工

事实本身并不等于知识。要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。知识加工主要包括三方面内容:本体构建知识推理质量评估

9. 知识更新

从逻辑上看,知识库的更新包括概念层的更新数据层的更新

  • 概念层的更新是指新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中。
  • 数据层的更新主要是新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗杂等问题)等可靠数据源,并选择在各数据源中出现频率高的事实和属性加入知识库。

知识图谱的内容更新有两种方式:

  • 全面更新:指以更新后的全部数据为输入,从零开始构建知识图谱。这种方法比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护;
  • 增量更新:以当前新增数据为输入,向现有知识图谱中添加新增知识。这种方式资源消耗小,但目前仍需要大量人工干预(定义规则等),因此实施起来十分困难。

10. 知识图谱应用

知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。

智能搜索,智能问答,社交网络,个性化推荐,情报分析,反欺诈等等

11. 总结

从技术来说,知识图谱的难点在于 NLP,因为我们需要机器能够理解海量的文字信息。但在工程上,我们面临更多的问题,来源于知识的获取,知识的融合。搜索领域能做的越来越好,是因为有成千上万(成百万上亿)的用户,用户在查询的过程中,实际也在优化搜索结果,这也是为什么百度的英文搜索不可能超过 Google,因为没有那么多英文用户。知识图谱也是同样的道理,如果将用户的行为应用在知识图谱的更新上,才能走的更远。

知识图谱肯定不是人工智能的最终答案,但知识图谱这种综合各项计算机技术的应用方向,一定是人工智能未来的形式之一。

12. 参考资料

https://www.cnblogs.com/huangyc/p/10043749.html

https://zhuanlan.zhihu.com/p/71128505

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-12-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
干货好文!自底向上——知识图谱构建技术初探
云栖君导读:知识图谱的构建技术主要有自顶向下和自底向上两种。其中自顶向下构建是指借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库里。而自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的信息,加入到知识库中。
Spark学习技巧
2019/09/04
2.1K0
干货好文!自底向上——知识图谱构建技术初探
入门 | 知识图谱简介
磐创AI 专注分享原创AI技术文章 作者 | Walker 编辑 | 磐石 出品 | 磐创AI技术团队 【磐创AI导读】:本文是知识图谱的一篇综述类文章,带你对知识图谱有一个大体的了解。欢迎大家点击上方蓝字关注我们的公众号:磐创AI。 信息技术的发展不断推动着互联网技术的变革,Web技术作为互联网时的标志性技术,正处于这场技术变的核心。从网页的链接到数据的链接,Web技术正在逐步朝向Web之父Berners-Lee设想中的语义网络演变。语义网络是一张数据构成的网络,语义网络技术向用户提供的是一个查询环境,
磐创AI
2018/07/03
1.8K0
综述 | 知识图谱技术综述(上)
知识图谱技术是人工智能技术的重要组成部分,其建立的具有语义处理能力与开放互联能力的知识库,可在智能搜索、智能问答、个性化推荐等智能信息服务中产生应用价值。
zenRRan
2019/12/27
2.7K0
综述 | 知识图谱技术综述(上)
吐血整理!12种通用知识图谱项目简介
通用知识图谱大体可以分为百科知识图谱(Encyclopedia Knowledge Graph)和常识知识图谱(Common Sense Knowledge Graph)。
IT阅读排行榜
2022/04/14
3.2K0
吐血整理!12种通用知识图谱项目简介
【知识图谱】人工智能技术最重要基础设施之一,知识图谱你该学习的东西
互联网时代,人类在与自然和社会的交互中生产了异常庞大的数据,这些数据中包含了大量描述自然界和人类社会客观规律有用信息。如何将这些信息有效组织起来,进行结构化的存储,就是知识图谱的内容。
用户1508658
2019/11/13
1.1K0
【知识图谱】人工智能技术最重要基础设施之一,知识图谱你该学习的东西
一文速学-知识图谱从零开始构建实战:知识图谱的基本概念
目前设计到很多企业专业领域的知识库构建基本都没有很好的思路对现有的领域知识作一个很好的思路拆分理解,想要落地私域多模态大模型的应用我想还是绕不过想现有的知识库转换为知识图谱,知识图谱不论是对业务还说还是对各个员工来说都是对业务清晰认识了解的有力工具。
fanstuck
2024/09/27
1.1K0
一文速学-知识图谱从零开始构建实战:知识图谱的基本概念
AI产品经理的入门必修课(3)——知识图谱
AI核心要研究的是如何让计算机去完成以往需要人的智力才能胜任的工作,而人的智能性核心体现在对不同事物的感知能力、推理能力、决策能力。因此要想做出AI产品就离不开对感知的研究,推理机制的研究以及智能决策方向的研究。对感知智能而言,AI已经做了很多突破,例如机器对听觉、视觉、触觉的感知能力,通过摄像头、麦克风或者其他的传感设备,借助语音识别、图像识别的一些算法模型,能够进行识别和理解。
数据森麟
2021/01/25
6670
AI产品经理的入门必修课(3)——知识图谱
知识图谱(一)-基本概念 原
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。 知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
Pulsar-V
2019/07/19
6.3K1
【知识图谱】知识表示:知识图谱如何表示结构化的知识?
互联网时代,人类在与自然和社会的交互中生产了异常庞大的数据,这些数据中包含了大量描述自然界和人类社会客观规律有用信息。如何将这些信息有效组织起来,进行结构化的存储,就是知识图谱的内容。
用户1508658
2019/11/26
4.6K0
解读知识图谱的自动构建
‍【引】在AI领域, 知识系统过时了么?在《大模型应用的10种架构模式》中, 知识图谱与大模型的结合是一种重要的应用方式。知识图谱可以辅助大模型应用的推理,大模型也可以辅助知识图谱的构建,二者是可以相辅相成的。在国庆假期中,读了一篇论文“A comprehensive survey on Automatic Knowledge graph Construction”(https://arxiv.org/abs/2302.05019),整理成文。
半吊子全栈工匠
2024/11/07
2150
解读知识图谱的自动构建
大厂技术实现 | 详解知识图谱的构建全流程 @自然语言处理系列
知识图谱(Knowledge Graph)的概念由谷歌2012年正式提出,旨在实现更智能的搜索引擎,并且于2013年以后开始在学术界和业界普及。目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、情报分析、反欺诈等领域。本篇是『知识图谱构建与落地实践』的起始篇,我们与来自百度的NLP工程师路遥,一起研究知识图谱的构建流程与技术细节。
ShowMeAI
2022/01/22
26.4K3
大厂技术实现 | 详解知识图谱的构建全流程 @自然语言处理系列
知识图谱突然火了?
知识图谱(Knowledge Graph)的历程发展可以追溯到20世纪70年代诞生的专家系统,专家系统是一个具有大量的专门知识与经验的程序系统,它应用人工智能技术和计算机技术,根据某领域一个或多个专家提供的知识和经验,进行推理和判断,模拟人类专家的决策过程,以便解决那些需要人类专家处理的复杂问题。
伊泽瑞尔
2022/05/31
5090
知识图谱突然火了?
漆桂林 | 知识图谱的应用
本文首发于知乎专栏知识图谱和智能问答 作者简介 漆桂林:东南大学计算机系教授,发表高质量学术论文40多篇。特别是在国际人工智能顶级会议IJCAI, AAAI和KR, 国际语义网络顶级会议ISWC发表多篇会议文章, 在国际顶级杂志Information Sciences 和Fuzzy Sets and Systems等发表多篇杂志文章。其中一篇文章在亚洲语义Web会议获得最佳论文提名奖。请输入正文内容 前面一篇文章“知识图谱之语义网络篇”已经提到了知识图谱的发展历史,回顾一下有以下几点: 1. 知识图谱是
达观数据
2018/03/30
1.8K0
漆桂林 | 知识图谱的应用
第1章 理解知识图谱(一)
如果我们从不同的研究视角、研究目的以及多知识的不同认识程度对知识进行分类的话,可以分为以下几种:
小馒头学Python
2024/04/29
3270
第1章 理解知识图谱(一)
这是一份通俗易懂的知识图谱技术应用落地指南
从数据的处置量来看,早期的专家系统只有上万级知识体量,后来阿里巴巴和百度推出了千亿级、甚至是兆级的知识图谱系统。
黄鸿波
2020/04/14
1.5K0
【干货】最全知识图谱综述#1: 概念以及构建技术
【导读】知识图谱技术是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。我们专知的技术基石之一正是知识图谱-构建AI知识体系-专知主题知识树简介。下面我们特别整理了关于知识图谱的技术全面综述,涵盖基本定义与架构、代表性知识图谱库、构建技术、开源库和典型应用。主要基于的参考文献来自[22]和[40], 本人(Quan)做了部分修整。 引言 随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了
WZEARW
2018/04/08
8.7K0
【干货】最全知识图谱综述#1: 概念以及构建技术
知识图谱综述论文阅读
论文为A Survey on Knowledge Graphs: Representation, Acquisition and Applications,发表日期2020年,论文PDF,点击链接。
里克贝斯
2021/05/21
9130
知识图谱综述论文阅读
Datawhale 知识图谱组队学习 Task 1 知识图谱介绍
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组(比如人-“居住在”-北京、张三和李四是“朋友”),以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。
听城
2021/01/14
1.2K0
Datawhale 知识图谱组队学习 Task 1 知识图谱介绍
终于有人把知识图谱讲明白了
1977年,美国计算机科学家费根鲍姆正式命名知识工程,他曾于1994年获得图灵奖,被誉为专家系统之父,知识工程奠基人。知识工程是自上而下的,并严重依赖专家干预。知识工程的基本目标就是把专家的知识赋予机器,利用机器解决问题。
IT阅读排行榜
2023/02/13
4180
终于有人把知识图谱讲明白了
技术知识介绍:工业级知识图谱方法与实践-解密知识谱的通用可迁移构建方法,以阿里巴巴大规模知识图谱核心技术为介绍
纯KG技术领域分享:解密知识谱的通用可迁移构建方法,以阿里巴巴大规模知识图谱核心技术为介绍。
汀丶人工智能
2022/12/21
7860
技术知识介绍:工业级知识图谱方法与实践-解密知识谱的通用可迁移构建方法,以阿里巴巴大规模知识图谱核心技术为介绍
推荐阅读
相关推荐
干货好文!自底向上——知识图谱构建技术初探
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档