该专利提供的问句解析方法利用观察谓词和隐含谓词,进行不确定性推理,能够将自然语言问句转化为形式化查询语句,成功解决了传统的关键字检索和语义搜索技术等搜索引擎存在的问题。
文|集微网
校对|holly
图源|网络
【嘉德点评】该专利提供的问句解析方法利用观察谓词和隐含谓词,进行不确定性推理,能够将自然语言问句转化为形式化查询语句,成功解决了传统的关键字检索和语义搜索技术等搜索引擎存在的问题。
集微网消息,目前,互联网上出现了大量的知识资源和知识社区,例如维基百科、百度百科、互动百科等。从这些知识资源中,已有研究已经挖掘出以实体、实体关系为核心的大规模知识库。基于这些知识库,可以构建起知识库问答系统。与基于检索技术的问答系统相比,基于知识库的问答系统对问题的覆盖率可能会较低,但其具备一定的推理能力,而且在限定领域内会有较高的准确率。问答系统可以直接以自然语言的形式提问,比传统的搜索引擎更加方便和高效。
关联数据问答评测比赛推动了问答系统的发展。其目标是针对大规模结构化的关联数据,将自然语言问句转换为结构化的简单协议资源描述框架查询语句(SPARQL),从而建立友好的自然语言查询接口。将自然语言问句转换为结构化的SPARQL,需要依赖于知识库的转换规则。但是目前的问答系统中,转换规则都是人工配置,这样不仅会耗费大量人力物力,而且领域扩展性也很差。
华为提供了一种基于知识库的问句解析的方法,不需要人工配置转换规则,并且是领域无关的。
图1
上图即为本发明提供的知识库中问句解析的方法的流程图。在步骤101中,用户输入的语句为自然语言问句。进一步地,在步骤102中,可以通过短语检测,识别出文具的词序列,可将所述问句中的词序列作为第一候选短语。
步骤103可以理解为是将每个第一候选短语映射到知识库中的第一资源项,一个第一候选短语可能映射到多个第一资源项,并且,具有映射关系的第一候选短语和第一资源项具有一致的语义。
步骤104可以理解为是特征抽取的过程,即:确定所述第一候选短语在所述问句中的位置;确定所述第一候选短语的主要词的词性;确定所述第一候选短语两两之间的依存路径上的标签;从所述知识库中确定所述第一资源项的类型;从所述知识库中确定所述第一资源项两两之间的参数匹配关系。
步骤105可以称为推理或联合推理或联合消歧。具体地,可以使用thebeast 工具进行联合推理,计算问句分析空间中的每一个命题集合的置信度。
进一步地,在步骤106中,可以确定置信度的值最大的一个命题集合,并获取所述置信度的值最大的一个命题集合中的真命题的组合,其中,所述真命题用于表示从所述第一候选短语中所选中的搜索短语、从所述第一资源项中所选中的搜索资源项和所述搜索资源项的特征。
基于前述步骤的工作,步骤107可以生成形式化查询语句。形式化查询语句可以是简单查询语句SQL,也可以为简单协议资源描述框架查询语句SPARQL。
这样就可以将自然语言问句转化为SPARQL。并且,该专利中不确定性推理的方法能够运用于任何领域的知识库,具有可扩展性。
本专利提供了知识库中问句解析的设备,其框图如图2所示。
图2
接收单元501,用于接收用户输入的问句。
短语检测单元502,用于对所述接收单元501接收的所述问句进行短语检测,以确定第一候选短语。
映射单元503,用于将所述短语检测单元502确定的所述第一候选短语映射到知识库中的第一资源。
第一确定单元504,用于根据所述第一候选短语和所述第一资源项,确定观察谓词的值和可能的问句分析空间。
第二确定单元505,用于对观察谓词的值和所述隐含谓词的值进行不确定性推理,计算所述每一个命题集合的置信度。
获取单元506,用于获取所述置信度满足预设条件的命题集合中的真命题的组合。
生成单元507,用于根据所述获取单元506获取的所述真命题的组合,生成形式化查询语句。
该专利提供的问句解析方法利用观察谓词和隐含谓词,进行不确定性推理,能够将自然语言问句转化为形式化查询语句。在使用该方法时,不确定性推理的方法能够应用于任何领域的知识库,具有领域扩展性,这样无需针对知识库人工地配置转换规则,成功解决了传统的关键字检索和语义搜索技术等搜索引擎存在的问题。
关键词:知识库,自然语言问句,形式化查询语句
END
领取专属 10元无门槛券
私享最新 技术干货