作者介绍
@毛毛
产品经理
集颜值和才华于一身。
对AI了解深入,经验丰富。
1
为什么要了解知识图谱
AI核心要研究的是如何让计算机去完成以往需要人的智力才能胜任的工作,而人的智能性核心体现在对不同事物的感知能力、推理能力、决策能力。因此要想做出AI产品就离不开对感知的研究,推理机制的研究以及智能决策方向的研究。对感知智能而言,AI已经做了很多突破,例如机器对听觉、视觉、触觉的感知能力,通过摄像头、麦克风或者其他的传感设备,借助语音识别、图像识别的一些算法模型,能够进行识别和理解。
感知智能的发展能够采集到海量的不同来源及不同存储方式的数据,如果想要用这些数据做出具体场景化的应用,目前市面上常用的方式有两种,一种是统计分析,也就是在业务中做的最多的数据理解和分析,包括了语义分析、情感分析,及各种指标分析的数据可视化。另外一种是决策,基于收集或者产生的数据去做自动化决策,或者智能推荐、智能问答等。而在做这些内容时依赖的核心技术就是知识图谱相关的技术。

2
知识图谱是什么
了解知识图谱是什么之前,先了解数据、信息、知识之间的关系。
eg:
「38.5」这是一条数据,不具有任何意义。
「小明测量体温为38.5度」这是一条信息,并且38.5是一个关键指标。
「正常人体的温度为36-37度,当体温超过基础体温1度及以上时,即认为发热,而不同的温度范围又可分为低热、高热...」这是一条知识,是通过许多病例、实验总结出的公认正确的。
「小明发热了,因为他体温为38.5度」这个结果是由知识推理而来的。
知识图谱是基于图模型来描述知识以及构建关联关系模型的技术手段,现实世界中常用到的知识,或者我们脑海中记住的知识,通常是一段描述性的话,而知识图谱就是将某段描述知识的话抽象成主体、属性、关系的三元组,并利用图谱的形式呈现出来。如下图即是一个简单的知识图谱。「张柏芝」、「谢霆锋」、「王菲」是人物主体;「出生年月」、「性别」、「年龄」为主体属性;「前妻」、「现任女友」、「情敌」为知识抽象出的关系。

知识推理过程
在知识图谱技术中,「张柏芝」、「谢霆锋」、「王菲」被称为节点,节点可以是实体也可以是抽象出的概念;加粗的黑线称为边,表现实体或概念之间的关系,如「张柏芝」和「谢霆锋」的关系是「前妻」。图中每一个圆都是一个节点,连接圆的直线都是边,可以看出知识图谱是由节点和边组成。而节点和节点之间的边,可以是属性、也可以是关系,例如「张柏芝」、「谢霆锋」之间的边代表的是关系,「张柏芝」、「性别:女」之间的边代表的是属性。
可以用来做什么?
最早知识图谱的应用是用来提升搜索引擎的能力,早期的搜索,是依赖网页间的超链接、搜索关键词与网页包含关键词的匹配关系进行精确或模糊搜索。但互联网终极形态是万物的互联,搜索的终极目的也是对万物的直接搜索,因此仅依靠关键词之间的匹配不足以满足日益丰富的搜索需求。在传统的搜索模式下,当我们搜索「谢霆锋的前妻是谁?」,检索结果可能是某个网页中包含了「谢霆锋的前妻是张柏芝」这句话,我们才能找到网页,在从网页中的信息中得知谢霆锋的前妻是张柏芝这个结论。

而上图知识图谱的建立,当搜索需求产生时会快速的返回「张柏芝」及个人信息。

知识图谱的构建原理及流程?
知识图谱的构建通常分为两类,一类是开放域的知识图谱、一类是垂直领域的知识图谱,像google、百度搜索等搜索引擎建立的知识图谱属于开放域的,像某个领域,电商、金融、图情、生活娱乐等基于具体领域和场景构建的知识图谱为垂直领域的知识图谱。两种图谱的场景应用不太一样,但涉及的底层逻辑和构建流程是相似的。
知识图谱的构建涉及了知识表示、知识获取、知识处理和知识利用等多方面。
*知识库是相互关联的事实及数据的集合,常被用来支持专家系统,是专业领域内规则的集合,包含了规则所联系的所有关系和数据。
*专家系统是人工智能研究方向之一,是指利用人类某个领域专家解决问题的知识或者方法来进行程序化,依赖知识库中的知识体系来进行决策。
在构建技术上,数据和算法是知识图谱的底层支持,包含了信息表示、信息抽取、信息融合、信息推理和信息决策等多个阶段。
下面通过具体示例来理解知识图谱的构建流程。
3
应用实例:电商知识图谱的构建
在目前电商的交易场景中,交易规模巨大,不仅涉及了线上、线下交易场景,还有各种新零售、多语言平台、线上线下相结合的各种复杂的购物场景,企业对数据的联通需求越来越强烈,因此电商的知识图谱对于行业而言变得很重要。
电商的知识图谱主要是围绕商品构建的,基于人、货、场的主要框架进行拆解。
在电商这个领域下进行知识表示时,首先需要确认共涉及多少个一级本体、二级本体,电商知识主要的获取来源是知识众包,核心涉及了本体的设计,围绕商品本身的属性、消费者的需求、平台运营管理的机制。在不同平台和渠道的数据采集工具不一样,采集上来的数据的存储形式也会略有差异,例如电商的卖点、详情、图片、评价,舆情信息中的品牌和口碑,涉及了大量的文本数据、图像数据。在进行知识表示时涉及了各种NLP、CNN技术。要求知识命名识别系统具有大规模实体类型识别的能力。并且把识别出的主体与知识图谱进行链接。以阿里电商认知图谱的示例主要包括:

然后需要对实体进行描述,除了基础的属性及属性值以外,需要通过实体标签进行实现,大部分实体标签变化比较快,通常是通过知识推理获取的。例如商品的标签中,可以通过材料的配比或者国家行业标准进行处理。例如:
通过知识推理,可以根据商品配料表中的数据转化为「无糖」、「低糖」的知识点,从而将数据转化为知识标签。大部分信息在提取之后会比较零散,需要将已建立好关系的知识库中或者第三方的知识库来源的信息做融合,以及实体对齐、实体消歧义的技术操作。
完成上述操作后,才会进行实体的抽取,实体抽取的过程中会利用算法进行实体间的相似性计算,主要依赖于本体库中建立的本体之间的关系,进行推理和补齐。例如不同人买了同一件商品,或买了相似商品,该以怎样的节点进行知识图谱的关联。可以采用自动化抽取或者人工抽取的方式进行实现,自动化抽取可以大批量任务,以及在多源异构的数据处理中具有极大优势。但对于复杂场景的抽取和识别依旧需要人工的介入。
在初步的知识图谱构建成功之后,需要进行知识库的质量评估,当部分关系无法通过知识库进行抽取时,需要进行知识推理算法及知识图谱补全算法进行关系链路的优化。目前市面上已有部分技术上的解决方案,感兴趣童鞋可以查阅更多资料进行扩展。