
纯KG技术领域分享:解密知识谱的通用可迁移构建方法,以阿里巴巴大规模知识图谱核心技术为介绍。
KG框架图

知识服务框架图

1.RDF(资源描述框架) 2. RDFS 3. OWL(Web Ontolog Language)
整体方法是:将图谱中的实体关系映射到低维连续的向量空间
主要有:平移距离模型(距离函数)和语义匹配模型(相似度函数)
知识体系复用
推荐:开源知识图谱:DBpedia、YAGO、Freebase、OpenCyc 中文:OpenKG
网络百科:wikipedia、wikidata、谷歌(MusicBrainz、Fashion model Directory、NNDB)等
1.候选术语抽取[目的是过去更多、更全的术语]
2.术语过滤[剔除低质量候选术语]
领域术语与普通词汇有不同特征,可以采用统计信息和语义信息过滤噪声,常见方法:互信息(MI)、词频逆文档频率(TF-TDF),术语相关频率(RTF)等定量刻画统计特征,或者用词向量方式捕捉术语之间的语义相关度刻画语义特征。
3.概念属性抽取
XML、JSON文档等,程序处理为符合格式即可
知识融合难点
知识融合基本步骤包括:本体对其、实体对齐、信息融合

不同层次划分、不同命名方式

主要解决:多个信息库数据冲突。

主要包括:类对齐、属性项对齐、属性值对齐
常见方法:基于语言学特征方法、基于结构特征方法
举例:x简称y x是y的一种 这类模板。阿里巴巴集团和阿里巴巴互为同义词;连衣裙是“雪纺连衣裙”上位词。
Anchor-PROMPT算法:两对术语相似且在本体结构中有链接他们的路径,那么通用的路径中的术语也相似。





同义词发现算法:粗召回、精准分类


知识图谱本体对齐框架图

核心是:构建词林!
一般实体对齐实质两两对齐(pair-wise),但直接这么做会导致时间复杂度巨大难以计算,解决大规模实体对齐,流程一般采用分组和聚类

关键属性对齐 拥有可解释性、准确率高迁移性好的优势,缺点不易迭代构建复杂
邻居集合、通过词向量进行二分类或者聚类得到结果
目前采用方法是小样本+深度学习反复迭代,通过标注样本数据学习到数据分布规则,通过在未标注数据上运行学习出来的规则。

实体对齐可以看做二分类问题或者聚类问题
目前学术进展较快,预训练模型引入

Deepwalk SDNE等网络表示学习算法以及Trans系列算法;图神经网络(GNN)。
通过图表示学习方法,把KG里的节点、属性、边表示在一个向量空间里。单个知识图谱是无监督的,已存在三元组是标注的信息,但是多个图谱的联合表示需要已经对齐的标注数据连接两个KG才能完成。

两种方法不是对立的,增加一个简单地聚合函数可以把两种特征信息结合起来

对于规则方法可以设计一种评分算法平衡不同实体的不同属性组合(见书本)
对于表示学习的采取transformer模型的自注意机制,并通过对偶神经网络对标题进行表示学习。 这里不推荐使用softmax分类损失函数,使用在人脸识别领域广泛使用的Triplet+LOSS函数,可以分别实体细微的差异。【通过人为干预训练数据将困难样本构建为负样例,更好的区分容易混淆的实体】
两大难点:噪声数据、异构问题 工业界信息融合问题难以获得训练数据,将采用无监督算法:投票算法、迭代算法、优化算法、概率图算法。
推荐采用小样本的半监督学习方法:SLiMFast算法

主要解决增量数据挂在问题
输入数据源:结构化数据(连接数据、数据库数据)、半结构化数据(网页HTML、XML)、非结构化数据(文本、语音、图片) 输出结果:实体、实体概念、实体关系、事件关系、属性关系 核心子任务

数据集(组织机构、人名):CoNLL2003、OneNotes、MSRA、Weibo
以上都推荐大模型去做
知识推理一方面用于推理缺失或暗含的知识丰富知识图谱;另一方面可以检查知识库的不一致信息,进行知识清洗。
知识图谱中结构化知识往往是不完备的,需要用推理的方法预测表示实体之间新的关系,即链接预测任务
构建知识图谱过程中提取的数据存在数据质量和缺陷;常见方法:进行人工标注三元组进行准确率矫正,缺点标注成本高;其次随之时间推移,新的数据添加到KG中,假设旧版本KG已经评估过,不希望从头再次评估新的知识图谱准确性也是一个难点。
基于本体的知识推理、基于本体描述语言的推理
基于规则的表示语言的推理
优点规则解释性强,缺点存在数据稀疏问题,在低连通知识图谱上难以抽取特征路径,十分耗时,在大规模KG无法使用。 改进方法: 1.特征融合,把TransE的预测分数和PRA预测分数作为新特征重新训练分类器;2.增加路径向量表示,Path-based TransE
利用转移假设的评分函数,通过计算元素之间的距离对元组的合理性进行度量,评分函数越高,元组事实数据可能性越大。
上述方法都是使用不同的映射规则改造TransE的简单平移假设,改造模型都是基于L1和L2范数作为评分函数,不够灵活。
后续产出方法
略
EmbedRule模型、IterE模型
循环神经网络:Path——RNN模型(长文本性能减弱)
图神经网络:
基于预训练模型的知识推理 在以往知识图谱向量表示模型中,往往只包含三元组信息,具有稀疏,缺乏大规模的其他文本语料信息。 KG-BERT:连接预测,三元组分类,关系分类多个任务;
具体来说将实体关系三元组当做文本句子;将知识图谱补全任务转化成序列分类任务,微调后的预训练模型预测三元组或某个关系概率。

KG在搜索、推荐、业务决策、问答系统。
搜索领域引用:

推荐领域
问答,
大规模预训练模型 BERT ERNIE
目前自己对这块领域比较感兴趣。对下面两个核心技术进行归纳总结
1.知识融合是在知识图谱构建过程中经常遇到的,它是一个将多个知识库进行融合的过程。在整个过程中,会遇到异构、歧义、数据噪声及跨语言等问题。本体对齐章节,在实践中采用本体集成,并结合专家辅助的系统完成大规模的本体树融合。介绍了基于规则和基于表示学习方法的实体对齐,在信息融合部分,现阶段学界主要分为有监督和无监督两条技术路线。
2.知识推理: 随看知识图谱近年来的飞速发展,知识推理作为知识图谱补全和去噪的重要手段得到了广泛的关注。 补全和去噪是知识图谱中的两个基础任务:
在应用上知识推理已经在垂直搜索、智能问答、机器翻译、医疗、金融反欺诈和异常教等多个领域发挥了重要作用。
目前已在AIstudio公开了一些实体抽取、关系抽取、分类模型的方案,感兴趣同学可以fork。