时隔两年,近日岛国的 Vinclu 公司对一款名为 GateBox 的女友机器人“逢妻光”( Hikari )进行了量产和更新换代(“逢妻光”不是充气的),她被养在玻璃容器里,通过全息投影技术将她的形象投射在屏幕上。
虽然名字怪怪的,但是她是一个20 岁左右、穿着短裙的萌妹子,能自主识别主人行动、言语甚至是语气进行交流对话和控制家用电器,比如早上和主人道早安“哦哈哟”、欢迎主人回家“噢噶哩”。除了不能亲亲抱抱举高高以外,还算完美。
从官方的宣传视频来看,小女友似乎还能够与聊天软件联动,从视频中男主角和逢妻光的聊天软件对话中可以看到,逢妻光还会提醒彼此第一次“相遇”的纪念日,培养感情,牢牢抓住宅男我们的心。
对于现在市面上的虚拟女友来说,给予主人情感寄托最好的方式就是语言上的交流了,区别于人类,虚拟女友并没有真正思考的能力,想要流畅的沟通互动,就要基于计算机的问答系统(Question Answering system, QA system)——用来回答人提出的自然语言问题的系统。
该系统讲究机器对于语义计算和自然语言处理的综合性应用,既充分理解我们问出的问题,和有足够的准确的知识来回答。不然答非所问或者一问三不知就很影响彼此间“羁绊”的建立。
而这种无障碍交流其实并不那么好实现,人类倾向于使用多样化、非结构化、情绪化的表达来描述问题和知识,而计算机则偏爱唯一化、结构化的知识——人很善变,机器又很轴。
怎么才能让它理解“你好讨厌”也许并不是真的“讨厌”,并跨越这道沟通的鸿沟,就是很重要的一点。
这里就要引入一个知识点叫做知识图谱,它是问答系统的一种知识来源,虚拟女友的“智商”和文化水平高低就取决于它。
先放一段知识图谱简介:知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是『实体-关系-实体』三元组,以及实体及其相关属性-值对,实体之间通过关系相互联结,构成网状的知识结构。
知识图谱的应用价值在于,它能够改变现有的信息检索方式,一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而言);另一方面以各种方式向用户展示经过分类整理的结构化知识,从而筛选出最准确的答案。
其便捷的程度就好比我问你“妈妈的爸爸的爷爷的外侄女的男朋友的弟弟的曾孙女是你的谁?”,以前的你可能需要根据那首《家庭礼貌称呼歌》边唱边比划来逐一推断,而现在全家好几十代的族谱就甩在你面前,每个人之间的关系都如此一目了然。
(对方向你甩出了一个大招《魔音入脑》)
小笔记可以做起来了
RDF 知识图谱示例
上图是一个知识图谱的示例。可以看到,知识图谱具有明显格式化特征,其值往往是一个实体名字或者一个数字、一个日期。这保证了基于知识图谱的问答系统的回答简洁性。另一方面,不同于基于信息检索的问答系统需要考虑数据真实性的问题,知识图谱的高数据质量保证了答案的准确性。
当我们甩出一个问题,并让虚拟女友能够做出反馈时,这个问题就会经过一系列转化映射成为知识图谱上的一个小成员,再把它的“族谱”拖出来,又一目了然了。例如对于上图中的知识图谱,下图展示了一些它可以回答的问题,以及对应的子结构。
自然语言问题及其在知识图谱中的属性对应
当然问答系统有多种可能的数据来源。传统的数据来源包括网页文档、搜索引擎、百科描述、问答社区等。
无一例外,这些数据来源都是非结构化的纯文本数据。有大量基于信息检索的方法致力于研究从纯文本数据中进行知识抽取和回答。
而近年来,基于知识图谱的问答系统则成为学术界和工业界的研究和应用热点方向。相较于纯文本,知识图谱在问答系统中具有以下优势。这些优势都促使本文使用知识图谱来作为问答系统的知识来源。
数据关联度-语义理解智能化程度问题语义理解程度是问答系统的核心指标。对于纯文本数据,语义理解往往建立在问句与文本句子的相似度计算。然而语义理解和知识的本质在于关联,这种一对一的相似度计算忽视了数据关联。
在知识图谱中,所有知识点被具有语义信息的边所关联。从问句到知识图谱的知识点的匹配关联过程中,可以用到大量其关联结点的关联信息。这种关联信息无疑更为智能化的语义理解提供了条件。
数据精度-回答准确率知识图谱的知识来自专业人士标注,或者专业数据库的格式化抓取,这保证了数据的高准确率。而纯文本中,由于同类知识容易在文本中多次提及,会导致数据不一致的现象,降低了其准确率。
数据结构化-检索效率知识图谱的结构化组织形式,为计算机的快速知识检索提供了格式支持。计算机可以利用结构化语言如 SQL、SPARQL 等进行精确知识定位。而对于纯文本的知识定位,则往往包含了倒排表等数据结构,需要用到多个关键词的倒排表的综合排名,效率较低。
简单总结,知识图谱的运用优势在于使得虚拟女友们的“智商”获得了显著提高,文化水平也瞬间小升初了,不仅不结巴卡壳,也许还会能言善辩。
可以畅享,也许不久的将来《超能陆战队》里的大白、《人型电脑天使心》里的小叽、《我的机器女友》里的绫濑遥都会出现在我们的生活中,带来不一样的AI与人类的情感互动,想想还真有点小激动呢。
(不要提什么《终结者》、《银翼杀手》、《西部世界》,要相信,世界是美好的!!!)
最后我们将话题扩大,从整个市场上来看,知识图谱的运用并不止步于虚拟女友。在很多我们耳熟能详的领域都有着非常多成熟的实践应用,比如搜索引擎、比如智能客服,包括在数之联提供的食安大数据解决方案和军民融合大数据解决方案中都有着广泛的应用。
【END】
领取专属 10元无门槛券
私享最新 技术干货