同学们,大家晚上好~~
就算是这样,最后还是败在了“长城到底有多长”这样的问题上。对于此,很多同学调侃说为什么不能多长一个脑袋。
01
知识图谱是什么?
知识图谱(KnowledgeGraph/Vault)又称为科学知识图谱,在2012年由谷歌宣布提出,开始只是作为谷歌世界知识库的名称,后来因为这个名词太深入人心,便被泛指各种大规模世界知识库或领域知识库。
说简单点,知识图谱就是一张由知识点相互连接而成的语义网络,举个小栗子,提到圣人孔子,我们会想到他处于东周春秋末期,会想到他曾写过《论语》、《春秋》,会想到他所倡导的儒家思想、由此还会想到他的徒弟颜回……
把这一系列画出来,就是一张最简单的知识图谱
如图所示,通常我们会把图1中人物、作品、地点、称为知识图谱中的实体,每个实体可以拥有不同属性,比如师徒、好友等。
通过实体的属性可以将不同的实体建立关联关系,例如:
孔子(实体)---师徒(属性)---颜回(实体)
孔子(实体)----作品(属性)----《论语》(实体)
这些就是知识图谱中的信息抽取,包括实体抽取(NER),关系抽取,属性抽取。
构建一张完整的知识图谱,除了信息抽取之外,多源知识的自动融合和知识加工同样不必可少。
怎么理解?先来说说多源知识的自动融合,还是来举个小栗子,大部分同学应该都认识张学友,他不仅是个歌手,也是个演员,我们很容易理解唱《吻别》的张学友,和出演《男人四十》的张学友,是同一个人。
但机器可能没那么容易就判断电影数据里的张学友,就是音乐数据里的张学友。
因为电影数据和音乐数据属于不同的数据源,这时候就需要多源知识的自动融合,将不同数据源的相同实体用自动华算法将其聚类。
知识加工其实包含2个方面,一是面向知识的表示学习,一是知识的应用。
说简单点,就是机器通过信息抽取和知识融合,已经搜集到了关于张学友非常详尽的知识,也分清楚了唱《吻别》的张学友,就是出演《男人四十》的张学友。
当我们开始在网上搜索《吻别》这首歌曲时,出现张学友演唱的吻别,这个从后端计算到前端呈现的过程,就是知识加工,这一个完整的循环就是知识图谱。
没有完全弄懂的同学,可以现搜一下“长城有多长”这个问题,出现的“21196.18千米”这个精确答案,就是知识图谱。
图片来自于刘知远老师《知识图谱的构建技术综述》一文
02
知识图谱带你捡币带你飞
说完了知识图谱,相信很多同学对其容纳的知识广度和深度都有了不一样的认知。
看到这里,可能很多同学就要问了,班主任把知识图谱说的那样腻害,为啥还不能成功捡币呢?
主要原因有以下2点
a 数据库的及时更新
我们接受这个新词,玩这个新游戏的时候,就是在随时随地的更新我们的知识储备。
但机器不行,目前大部分机器更新数据库都需要人类的辅助,因为这一天然劣势,可能会让机器在应对最新的题目时出错。
不过好在这一劣势,正在被机器学习和大数据技术的快速发展给弥补起来,机器学习让机器能够实时吸收和容纳新的知识,由大数据承载再实时反馈给用户。
b 自然语音理解和处理
我们能够轻易理解“妈妈的妈妈的丈夫”是外公,但机器理解起来可能就没那么容易了,通过相关语言,推断出实体与实体之间的关系,是目前知识图谱研究的一大难点。
当然自然语音理解这一难点,并不仅仅存在于知识图谱中。
领取专属 10元无门槛券
私享最新 技术干货