前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >认真聊AI | 知识图谱

认真聊AI | 知识图谱

作者头像
做数据的二号姬
发布2024-11-25 09:56:58
发布2024-11-25 09:56:58
1510
举报

原创内容

No.703

认真聊AI | 知识是怎么表示的

AI相关的基础知识聊完了,接下来就到有意思的地方了。今天我们先从知识图谱开始讲起。

图片由海艺AI绘制

之前我们陆续聊了一些关于知识和知识的表示的内容,我们继续顺着这个话题继续向下聊聊人们在结构化表示知识这件事情上的努力。

2012年,谷歌提出了知识图谱这个概念。知识图谱旨在以结构化的形式描述客观世界中存在的概念、实体及其之间复杂的关系,可以看作本体知识表示在互联网大数据时代的知识表示的一个实际应用。

可能不少朋友都多少听说过这个概念,但是很多人会觉得这个东西有点遥远。但其实并不遥远,这种技术在搜索引擎的应用已经很广泛了。

比如当我想知道“蜀道之难,难于上青天”的下一句是什么的时候,现在的百度会自动将答案给出来:

或者再复杂一点的问题问题,百度似乎也可以直接告诉我答案:

网龄稍微久一点的朋友应该知道,很久之前的度娘其实是做不到如此回应的。不止是百度,谷歌、搜狗之类的其实都做不到这样“直接报答案”。这种实现的背后其实就和今天要介绍的知识图谱技术脱不开关系。

前面在描述知识图谱的概念的时候有讲到知识图谱是本体知识表示在互联网大数据时代的知识表示的一个实际应用

这里需要稍微解释一下什么是本体。这些抽象的词汇往往都是来自于哲学领域,我们这里不谈本体这个词在哲学领域的一些概念,简单来说本体论是研究“存在”的科学,即试图解释存在是什么、世间所有存在的共同特征是什么。

在计算机领域,本体更多的是指一种形式化的、对于共享概念体系的明确且详细的说明。本体一般由概念、实例、和关系三个部分组成,此外还有一些本体自身包含公理。

我们所熟知的万维网,过去共享知识的模式是网页和网页见的超链接,而现在,万维网正在向着大量描述各种实体和实体之间丰富的关系的数据万维网进行着转变(也就是从给网页到直接给答案的转变)。

对万维网来说,描述知识的语言主要是XML(可扩展标记语言),是一种使用标签来组织互联网信息内容的标记语言。之所以叫XML可扩展主要是因为它的标签并不固定,可以根据实际需要进行扩展。

XML包含标签、元素、属性三种基本概念,标签用于标识一段数据,元素被标签包围的数据称为元素。元素可以具有属性,属性用来为元素提供额外的信息。综上所述,XML本质上是一个树形结构,每个XML文档有且仅有一个顶级标签,每个元素必须包含一个开始标签一个结束标签,标签不能交叉,必须被正确地嵌套。

然而XML并没有对每个标签的意义准确描述,同一个语义可以用很多种不同结构的XML进行描述。在没有额外信息的情况下,机器无法理解各个标签的准确含义,也无法理解各个标签之间的关系,也就无法进行知识的推理。RDF的提出在很大程度上解决了这些问题。

RDF在2004年成为W3C的正式标准,是语义网的核心内容之一,可以实现语义网的以下三个核心内容之一,可以实现语义网以下三个功能:一是保证了语义网的内容有准确的含义;二是保证了语义网的内容可以被计算机理解并处理;三是可以通过各种网页中的内容集成帮助进行自动数据处理。

类似XML格式,RDF数据模型中也包含以下几个较为重要的概念:资源、属性、陈述。

如果将RDF的一个三元组中的主语和宾语表示成节点,将之间的关系表达成一条从主语向宾语的有向边,则所有RDF三元组就将互联网的知识结构转化为图结构。也就是说,如果能够有效地将网络上各种繁杂的数据进行统一的表示。

如果同一事物在网络上有且仅有唯一的表示,机器理解和计算起来是否就方便了许多呢?链接数据linked data就是这种语义web的实现设想。链接数据的提出目的是将网络上众多的数据链接起来,构建一个计算机能够理解的语义网络,进而在此之上构建很多智能应用。

链接数据不仅打破了各种信息之间的隔阂,也打破了不同信息来源之间的隔阂。由于都遵守统一的标准,链接数据使数据集成和浏览复杂数据变得更加容易。这些标准还可以比较容易地更新和扩展模型。此外,遵循全球统一的链接原则也会提升数据质量,使数据的运用和传递更加方便。

2004年被提出并成为W3C(World Wide Web Consortium)推荐标准的除了上面提到的RDF之外,还有一种语言,那就是网络本地语言OWL(Web Ontology Language)。

OWL进一步增强了RDF的语义表达能力。语义表达主要体现在对属性和类的语义描述两方面。在属性刻画方面,RDF使用定义域和至于来表示该属性适用的类和取值范围,将属性与类关联。

OWL提供了将拥有相似特性的资源聚合在一起的抽象机制。然而OWL的表达能力与其复杂程度是正相关的,很多实际应用需要在二者之间进行权衡。

上面简单的介绍了知识图谱相关的概念和表达,实际上,知识图谱由人工和群体智慧构建到面向互联网利用机器学习和信息抽取技术自动获取的过程。

作为大数据环境下知识工程的标志性产物,知识图谱同样遵循着知识建模、知识获取、知识集成、知识共享与应用的生命周期。

传统的知识建模和获取主要是从领域专家出获取专业知识的过程,互联网的迅速发展正在逐渐改变知识的生产方式,知识资源变得丰富多样,而建模和获取任务也就需要针对知识资源的特性进行相应的调整和改变。

看图好像很简单,但实际这是一件非常复杂的事情。对于各位数据分析师来说这一点应该不难理解,毕竟我们数据分析师都知道非结构化数据不管是处理还是分析都非常复杂。对于知识图谱来说,所谓的知识其实有着多媒体性、隐蔽性、分布性、异构性和海量性的特点,知识的建模、获取和管理都是非常有挑战的事情。

虽然知识图谱的实现过程很难,哪怕是到了大语言模型遍地的今天,也很难说这项技术已经成熟。知识图谱的技术主要在语义搜索、知识问答和大数据分析与决策领域发挥作用,这些技术的突破对于我这种用户来说,还是非常期待更大的进步的。

下一节,我们将仔细聊聊搜索技术。

二号姬

半路出家自学成才的文科数据人,看过了大厂的风景也做过了小厂的CDO~目前是闲职,写写稿带带学生,欢迎勾搭~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 做数据的二号姬 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档