目前设计到很多企业专业领域的知识库构建基本都没有很好的思路对现有的领域知识作一个很好的思路拆分理解,想要落地私域多模态大模型的应用我想还是绕不过想现有的知识库转换为知识图谱,知识图谱不论是对业务还说还是对各个员工来说都是对业务清晰认识了解的有力工具。
但是构建知识图谱这个构成是绕不开现有业务的深入理解,构建的过程比较像构建一个数据仓库,也是对业务的实际拆解重构过程,但是现在通过和LangChain的集成大大提高了知识图谱的应用空间,能够适用于数据并非全面充裕的小型业务场景。
本人构建过时空交通以及招投标领域的知识图谱,均起到了十分不错的业务效果,此专栏将全面详细讲述从零开始构建知识图谱搭建到应用以及集成企业知识库,落地不同业务场景的实际运用和探索,对此项目专栏感兴趣的不妨支持一下!
知识图谱的基础设计理念就是万物互联,可以想象结合业务去不断分裂不同业务的思维导图,用图来描述每一条业务线关系到的人或物。以电影数据库为例:
电影名 | 导演 | 演员 | 类型 | 年份 |
---|---|---|---|---|
盗梦空间 | 克里斯托弗·诺兰 | 莱昂纳多·迪卡普里奥 | 科幻、动作 | 2010 |
泰坦尼克号 | 詹姆斯·卡梅隆 | 凯特·温丝莱特 | 爱情、剧情 | 1997 |
敢死队 | 西尔维斯特·史泰龙 | 杰森·斯坦森 | 动作 | 2010 |
根据数据集,我们可以识别出他们直接的特征名称:
实体:
关系:
属性
我们将上述的特征可以映射为知识图谱的实体,也称之为一个节点,知识图谱的最小构成单位。
实体是知识图谱的基本单元,通常代表具体的对象或概念。在我们的电影知识图谱中,实体可以分为以下几类:
其中关系我们可以映射为描述每一个节点关联的边。
关系描述了实体之间的联系。我们在电影知识图谱中可以定义以下几种主要关系:
属性是对实体特征的描述,帮助进一步丰富知识。例如,在我们的电影知识图谱中,电影的属性包括:
知识图谱的关键组成部分包括实体、关系和属性。Google就是通过一个巨大的知识图谱,提高了用户的搜索体验。
以电影《盗梦空间》为例:
以上就是构建知识图谱的大致过程。
知识图谱的概念源于20世纪90年代的本体论和语义网研究。这个时期的主要成就包括:
2012年是知识图谱发展的重要转折点:
谷歌知识图谱:谷歌在其搜索引擎中推出了知识图谱,这一举措标志着知识图谱进入主流视野。知识图谱使搜索结果不仅限于关键词匹配,而是通过理解用户查询的意图,提供更为精准和相关的信息。这里展示了一张谷歌用来描述其知识图谱的插图。这是一张有向图,上面有命名实体(达芬奇、蒙娜丽莎和卢浮宫)以及显示实体之间关系的命名关系。
图谱的构建与应用:谷歌通过整合多个数据源(如Wikipedia、CIA World Factbook等)构建了其知识图谱,并通过图谱提高了用户体验。这一成功案例激励了更多企业和机构开始探索知识图谱的构建与应用。
知识图谱正在快速发展,具有以下特点:
知识库:是一个用于存储和管理信息的系统,可以是结构化(如数据库)或半结构化(如文档库)的形式。它集中存储特定领域的事实、规则和信息,方便查询和管理。
知识图谱:是一种以图形化方式表现知识的结构,通过节点(实体)和边(关系)来展示信息,强调实体之间的关联性和上下文。
知识库:
知识图谱:
知识库:
知识图谱:
知识库和知识图谱在数据存储、管理和应用方面各有优势。知识库更适合传统的数据管理任务,而知识图谱则提供了更丰富的语义理解和数据关联能力,适用于复杂的信息处理和智能应用。在构建知识管理系统时,可以根据具体需求选择或结合这两种技术。
尽管大语言模型这两年各方面表现非常出色,但是由于缺乏特定领域知识、实时更新信息,导致模型存在一定局限性。这些不足容易引发幻觉现象,即模型生成不准确甚至是虚构的信息。在我之前RAG详细描述的文章里面也有提到过:
虽然 RAG 成果斐然,并在各个领域得到广泛应用,但在实际场景中仍面临一些局限:
数据库中实体关系的复杂性对 RAG 构成了挑战。GraphRAG 技术应运而生,它利用实体间的结构信息,实现更精准的检索,增强关系知识的捕捉,并生成更符合上下文的响应。
GraphRAG(Graph-based Retrieval-Augmented Generation)是一种结合了知识图谱和图机器学习技术的新型检索增强生成模型。该技术由微软于2024年7月2日开源,本系列文章的目的也是包含将已构建的知识图谱运用到大模型里面去融合,再者完成对企业知识库文档进一步知识图谱自动构建,知识抽取和生成,增强对业务的理解能力。而该开源项目正好取长补短。
那么基础概念就先到此,重要的是实现过程以及是否能够在真实的业务场景下面发挥其效果,实现期望目标,因此下一章我们就开始着手部署完成知识图谱构建的。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。