00:03
大家好,欢迎大家来到腾讯云开发者社区和腾讯云像数据库团队共同打造的腾讯像数据库快速上手训练营,然后在这一期的训练营里面呢,我会给大家去详细介绍一下什么是向量,以及什么是项目数据库,然后以及我们项目数据库可以用在什么样的业务场景里面,同时我们在最后的部分呢,也会带给大家三个可以快速上手的DEMO以及可以落地的场景,带给大家去快速体验一下,通过像数据库去快速的搭建一些业务应用,然后帮助大家快速的去上手使用我们的腾讯项数据库。然后在本次的训练营里面呢,我们主要会分为五个章节去给大家详细的去进行一个介绍,以及我们项数据库的使用,然后在这个章节里面呢,我们,呃,第一个章节主要讲的是我们向量检索技术,以及我们向数据库的一些简要的介绍,然后第二个部分呢,是我们腾讯云像数据库的一些介绍,然后在第35个章节里面,就是我们真正的去带大家上手实操的一些可以落地的DEMO,比如说我们在第三个DEMO里面,我们。
01:04
之前也有给大家去推出过。Rag的7天入门课程,然后在第三个DEMO里面呢,我们会用更加呃低门槛以及更便捷的方式去给大家去用腾讯项目数据库,再加上我们腾讯的火焰大模型去有一个快速搭建rag应用的一个实践,然后在第4节课里面呢,我们会去给大家介绍的现在市面上比较火的这种双路检索,也就是我们的重密销量加系数向量检索的技术,以及我加上我们的呃内置re rank的能力,去全面提升我们整个IG应用质量,这一个呃具体的操作流程。然后在第5个章节里面,我们会去用像数据库也给大家去快速搭建一个图收应用的一个实践,然后同时有比较友好的可视化界面,然后大家也可以去快速上传自己本地的一些图片去有一个比较呃简单的体验。然后下面呢就进入到我们的第一个章节,然后就是向量检索技术和像数据库的简介,因为我相信在二三年被open AI带回了这一波向数据库,可能大多数人都不是特别陌生,但可能各位开发者也会对于整个检索技术以及向量数据库还会存有一些疑问。然后在这一期的课程里面呢,我们呃会由浅入深的就带给大家去了解一下什么是向量检索技术以及向量数据库,它和传统的其他的数据库最大的区别,以及它的一个特点和优势到底在哪里?
02:22
然后回到我们的呃,刚刚第一个点呢,就是呃,我们要去聊像检索技术和像数据库,那首先第一个环节就是什么是向的数据,可能像数据在之前我们呃数学啊,还有其他的一些学科的学习中,可能大家都不太陌生,就下面数据其实就是由这种呃一个浮点数的数组去组成的,比如说我们一个浮点数0.1,逗号0.2,然后这个我们就是可以认为是一个向量数据,然后向量数据呢。它呃可以有非常多的维度,比如说刚刚我举的一个0.1逗号0.2,它是一个二维的向量,然后在呃这个PPT,这个PPT里面呢,我们可以看到有三有三条数据,然后他们分别呢,都是一个六维的向量,然后呢,这个六维的向量呢,就是可以去呃代表一条我们的非结构化数据,然后通过我们呃各种技术上的一些手段,然后处理之后得到一条向量数据,然后在这个向量数据里面呢。
03:16
呃,我们就可以去通过后续我们可以给大家去讲到的,在向量上我们去做相似性检索,然后能够去把呃本身在计算机无法理解的一些逻辑或者关系,然后通过向量这个形式我们表去给他表示出来,可能现在讲到这里还会有一些抽象是也请各位开发者也别着急,然后后面会有更的例面A们啊,这种非结构化数据怎么去理解非结构化数据呢?就是我们的图片,视频、音频,还有文本等等的这一类数据,我们都可以去称为非结构化数据结构数据,结构数据最一别别就是还没去经过我们为逻辑理,比如开发者比较了解的MY数据的库表,然后我们其实实际上是对他进行一层逻辑抽象的,我们比如说把一个人的特征,像我们的身高体重,还有年龄以及性别这种都抽成了一个。
04:16
一个字段,然后我们称这种数据为结构化数据。它是能够。可以去做这种呃逻辑提取的,但是这种非结构化数据呢,就是我们更偏原始的一类的这种数据,就是刚刚提到的这种图片,音频视频等等的这类数据,然后这种数据呢,我们要去直接对它进行这种检索呀,或者是呃相似性的这种查询呀,肯定是啊,不能直接去进行这种操作的,所以我们会经过中间的一理,就是我们的,然后在一个名也做,然后我们通过这个能也是我们界面上会有非常多的型,然后去把我们的文本,图片,音频、视频直接通过in背Y模型,然后转为相应数据。然后转为线上数据之后呢,他就会去。保留下我们这些非结构化数据中的一些特征,比如说你像一段文本,像腾讯云销数据库,它其实也是属于像上数据库的一类,属于数据库的一类,然后呢,我们呃用这种相似性检索的一个呃方法呢,我们去搜数据库的时候,可能原本我出来的可能是一些MYSQL数据库啊,或者其他的一些数据库,然后现在我去用相似硬件的逻辑,我搜数据库,我能够去出来呃像数据库这一个数据,然后同时还能出现呃,Victor database这种从英文。
05:30
从中文直接到英文这种检索的一个数据,然后同时还能出现,比如说一些简写,像我们内部简写的叫VDB,就是v thirtyw这种简写,然后就是实现了这种呃在语义层面上的一个相似检索,或者是说这种图片的相似检索,比如说我们用到的呃,淘宝还有其他的一些电商类的软件。可能他会有这种文收图或者图收图的能力,然后其实后面底层呢,也是用了相似性检索这样的能力,然后去实现这种相似性检索,最终我们能够。呃,去处理这种非结构化数据的检索。然后呃,在。
06:05
那这页PPT呢,我们其实也是对上一页的这个,呃,刚刚右侧那个图的一个具象化,然后其实我们也讲到了,刚刚我们会有这种in模型,然后。你这种模型呢,就可以去实现把我们不同的非旧构化数据,比如说刚刚我们有提到文本还有图片,然后其实呢,他们之间呢,也可以去进行跨模态的一些检索,比如说我们用呃一个多模态的一本模型,然后就能够实现文收图或者图收图,以及还有我们的音频去收文本,音频,音频收图片这种等等的一些能力,所以呢,目前界面上也出呃,界面上也出现了一种说法,就叫我们万物接口向量化,就是我们所有的那种所有的数据都可以去作为向量化处理,然后在向量这个空间里面去进行呃相信检索,然后会对比之前传统的一些检索,它能够有更大的被挖掘的一些空间,然后。刚刚我们也提到了,就是呃也给大家去讲了向量,向量检索,呃向量以及我们的向量化的一个流程,然后其实数据用于向量化,刚刚我其实也一直在提到,我们最终还是要去用整个检索这一个更核心的能力的,然后向量检索能力呢,其实就是。
07:14
针对我们刚已经处理好的这种据,然后供相,呃,目前界内呢,也有非常多的相似性检索的方法,就比如说我们现在的算法也不太一样,比如我们有这种通过余弦距离或者余弦相似度,还有我们的点击以及。其他的一些相似性计算的方法,然后他们的核心呢,都是去对比在空间中两向量的一个相似性的,其实我们刚刚的检索都一直在提一个相似性检索,然后呃,我们核心对比的也是两两向量之间的一个相似性,比如说我们举个更具象的例子。相信大家都可能看到功夫熊猫这一个动画片,然后在功夫熊猫里面呢,有呃比较典型的两个人物啊,一个是这一个熊猫,然后另外呢,还有这个老虎,然后其实呢,我们去把它的一些特征,就是我们人为能感受到的特征去进行一个向量化,我们先抽象一个两维的向量出来,就一个是啊,可能我们呃认为这一个横轴可能是它的一个。
08:18
呃,力量,然后这个熊猫的力量呢,可能我们在潜意识中认为会比这一个老虎力量稍微弱一些,所以老虎呢,它的力量可能是10,然后熊猫的这个力量是5,然后但是在整个体型这一方面呢,我们可能认为去抽象它这个熊猫的体型是10,可能会比老虎胖一些,然后老虎的话是5,然后这样呢,我们就能够去得到老虎和熊猫这两个向量,一个呢是10逗号5,一个呢是5逗号10,然后这样呢,我们就能够去计算它们之间的一个相似性距离了,然后这样看上去呢,可能它们两个不是特别相近,然后如果说我们再引入一个。呃,另外的比如说像我们的螳螂这个角色啊,螳螂这个角色呢,可能他的体型也会比较小一些,对吧,但是他的力量会大一些,然后他会处于。
09:02
呃,在15可能15逗号5这个位置上,然后这个时候我们再去对他们三个去进行两两的一个相似性计算,哎,我们就会发现螳螂好像跟这个老虎它会比较相近一些,就一个是它的体型会更小一个,另外一个是呢,它在动画片里面展示这种力量感好像也会更强一些,然后跟老虎会比较相近,然后这个呢,就是我们去通过向量检出的基础,然后就能够发现,诶,现在跟呃螳螂相似的这一个角色可能是老虎,然后如果说在他们三个中去进行比较呢,跟熊猫更呃的相似度更接近的可能是老虎,它可能跟螳螂的一个相似度可能就不能不是那么高了,然后另外一个呢,例子呢,也是在右边这张图,然后各位开发商也可以去看一下,然后这个也是用一个比较特别简单的一个例子,去给大家有代入感的去了解一下,相当检索这个技术,然后在呃后面这里呢,就是我们的像数据库,其实刚刚我们也提到了。向量数据它是第一有,首先有三步,就第一个是生成向量数据,第二个是存储,第三个是检索,然后向量数据库呢,其实就是针对于这种向量存储和检索的产品,然后呃而实现了一种专门的数据库产品。
10:11
然后在这里面呢,我们的数据存储的类型呢,就跟我们其他的数据库存储的数据类型有非常大的区别,我们之前的存储呢,可能是这种。我们刚刚提到的比较结构化的数据,像我们也可以把它叫为这种标量数据库,或者是关系性数据库,然后它存储的数据呢,是这种,呃,我们人类能够直接去理解的,比如说我们的年龄,我们的性别,这种字段性字段类的,就类似于有一点像。呃,我们的呃这种KV存储啊,或者是说这种呃关系存储的方式,然后在我们的查询方式呢,在这种数据库里面呢,也是这种呃精确的查询,比如说我们的s select的语句,然后或以及我们得到的一个结果呢,也是一个精确的结,结果就我们去s select, 它的年龄等于18呢,那我们查出来它的年龄一定是会等于18的,但是在向量数据库这个领域呢,它会有一些区别,我们存储的数据类型呢,首先是变为了向量数据,我们向量数据就是我们刚刚提到了这种呃一长串的浮点数,比如说它的维度可能是1024维的,就是一条数据里面有1024个这种浮点数,然后作为一条数据,然后我们查询方法呢,其实是这种近视性检索,因为我们检没有办法去做到这种完全相等的精确性。
11:23
呃,精确性完全是百分之百的检索,然后。在这个里面,我们的查询方案的话,就是这种近似性检索,近似性检索的话呢,就是我们得到的是两两向量之间的一个相似性的分数,就是我们的查询结果,可以看到在右边这个表格里面呢,我们得到这一个相似应结果的话呢,对比于我们这种标量数据库或者关系性数据库,它的一个结果呢,就是一个score值,这可以看到我们score值是1.76,然后如果是用的这种余弦距离的,呃,像余弦的相似性相似度的话呢,它的score的话呢,会介于0~1之间,然后这个分数越大的话呢,越接近1,然后它的相似度是越高的,如果等于1的话呢,就完完全全是两个一模一样的向量,然后这个就是我们向数据库对比于其他传统的这种关键数据库,或者呃,这种KV类型的数据库,它的一个区别。
12:13
然后在下面其实我们也给了一个这种在文档里面的一个具体的例子,就可以看到我们在下面这一个三步的呃,流程图里面,可以看到我们左最左侧是一个PDF的文件,然后我们PDF的文件呢,我们在真正的去把它存到相数据库里面的时候,其实是会把这个PDF文件里面的。一段一段的文本,然后去作为我们的content,也就是我们的原始我们的内容,也可以看到中间这一张图,其实我们还是可以去给他啊,抽象成这种K的这种啊存储类型的,然后在这个content,这个字段呢,其实我们就是我们最终会拿去做向量化这个字段,这个content,我们会通过这个in模型,然后去最终把它转为这种向数据,也可以看到我们第三呃,最右下角这张图,然后我们会得到一个字段,这个字段呢,就是我们的这个字段。
13:03
向量化之后得到一个向量值,然后拿到这个值之后,我们存入到向量数据库,后续就可以去和其他数据去进行相似性的一个计算,然后从而能够去得到。最终我们用户想要的一个近似性检索的一个结果。对,然后这个的话就是前面就是我们的整个向量和向检索技术,以及我们向数据库这一块的一个科普,然后在后面呢,以及我们这几年为什么呃,重点的去提到了项目数据库,以及为什么我们去需要一个项目数据库,因为在近几年我们发现了这种呃大模型飞速的发展,然后产生了这种一个新的应用,和我们对话式的交互的一个形态,我们原本呢,可能是。我们原本的一个交互形态呢,可能还是更偏向于是说呃,这种用户主动的去呃,单点的呃去使用我们的这种搜索产品啊,或者是说呃有产品被动的推送给我们的来的一些内容,但是现在这种呃,类似于这种呃大模型的应用发展的这么火了之后呢,我们现在这种一问一答这种对话式的交互呢,也越来越。
14:05
显著了,然后这个形式呢,我们就诞生了新的一个检索需求,也就是我们的向量检索的需求,因为可以看到我们其实计算机它是不能够去理解人类语言的,你比如说呃,现在我们去,呃,在我们的查询窗口里面去搜什么是相关数据库,可能得到的都是一些其他网页或者网站里面的内容,但是在这种对话式的交互形态里面呢,它能够去直接告诉你像数据库是什么,以及它有哪些特点,然后这种形态呢,它背后其实就会用到这种像数据库,在整个语义这个层面去提升一定的理解能力,然后最终呢,能够。和我们人类取得一个比较不错的一个交互效果,他能够理解我们现在是呃说我们现在传过去的文本是什么样的一个内容,以及我们呃想要去检索什么样的一个呃数据,然后这一个这一块的话都是可以用像数据库去进行一个实现的。然后呃,更多的呢,像数据库可能还不仅仅是在这一个场景,就是在我们和大元模型搭配这个场景下,其实从二三年到呃二四年呢,我们这刚好今年也是。
15:10
二五年这一个新年呢,其实我们在这两这一年半多的时间内呢,我们也看到了非常多的一些相关数据库搭配的场景,同时也包含了是说这种更传统的一些应用场景,这里呢,我们也去对现在像数据库应用场景去做了一些总结,你比如说像呃最左侧的,我们目前市面上落地最多的也是公证,呃,是企业。呃,像数据库落地的一个核心场景,就是我们这种内部的智能客服,或者是说内部的知识库系统,然后这种,呃,像数据库加上大约模型呢,去实现这种呃,内部的一个智能知识库,或者是说智能客服呢,能够去实现一个更人性化,然后也更准确的一个问答服务,可能原本在内部呢,我们会需要去找各种各样的文档,或者去问各样各样的人,但是我们目前有这样一个内部的知识库的助手之后呢,我们就可以直接用对话式的这种形式跟我们的支库去进行一个互动,然后能够去更快速的获取到企业内的一些数据也好,还有我们的一些知识也好。
16:13
然后同样呢,这个也是呃去在外部去应用的一个非常典型的场景,大家可能也可以联想到就是智能客服,原来智能客服呢,可能都需要去对非常多的人力,然后以及客户团队去支撑着我们整个产品的呃售后服务,或者是说一些比较简单的呃工单的处理,但现在呢,我们去通过这种像数据库去作为大语言模型的外包知识库,我们就能够非常便捷的去实现这种智能客服的应用,然后能够去减少我们客服这一侧的成本,也减轻他们呃人员的一些压力,然后第二个场,第二个大的应用场景呢,可能还是更偏向于这种传统的业务场景。你比如说像呃,我们刚刚其实也有提到一部分,就是我们在文本这一块搜索,就是文搜文和我们的跨模态的搜索,文搜或者文搜视频等等一些跨模态的搜索场景下,其实相应数据库都能够去。
17:06
发挥相应的一个作用,比如说现在我们图片其实让计算器去做搜索,原本呢可能会有一些呃视觉检索的方案,但是由于现在呃向量技术发展的也比较火热,然后另外一个是贝利模型这一块的一个效果也比较的可观了,然后我们在整个跨模态这一块搜索也可以去通过。呃,向量能够获得一个比较好的一个搜索效果,然后还有一块呢,是在我们的推荐场景,因为推荐场景其实我们都或多或少都有感知,就可能我们在电商平台里面去收过一个东西,或者是说我们呃点过一个收藏之后,然后首页的推荐里面就会出现非常多跟这个我们点击过或者收藏过呃商品相关的其他的商品或者近似的商品,然后这种呢,其实背后用的技术的话,也是我们的量检索的技术。然后他会去把我们用户的画像去向量化,以及我们的呃,平台里面的商品都也去向量化,然后在向量化之后呢,也是会形成一个向量数据,然后我们用户。
18:09
每次进入到我们应用之后呢,都会去用我们的画像,然后去呃和我们的商品库去进行一个全库的呃相似性检索,然后去检索出来跟我们这个用户画像最相相似度最接近的一类商品,然后这个我们可以去认为是我们用户比较感兴趣的,或者是说。更符合我们用户画像的这种商品类别,然后最终主动推送给我们用户,然后去提高我们的一个交易率或者率,然后第三个部分呢,也其实也是呃,在模型这一个层面会有一些实际上的落地的应用,然后像数据库呢,其实在我们模型训练里面呢,也是可以去提升我们整个模型的一个训练和微调的过程的,这里主要呢,也是分为两个场景,第一个的话呢,是我们的训练数据级的准备,其实原本的训练数据集的准备呢,是需要大量的,一方面是人工,另外一方面是各种策略的清洗。
19:02
然后呃,最主要的在清洗那个阶段呢,可能我们需要去用上非常多的手段去对我们的训练数据去进行一个驱虫,但是我们现在有客户就把他的训练数据全部都导入到项目数据库里面,然后直接去通过项目数据库对于我们的训练数据快速的去进行去重,原本可能需要非常呃长达呃月级别或者周级别的一个数据清洗的时间呢,然后现在就可以直接降低到天级别,然后这样呢,对于他整个模型训练的前期的数据准备的工作以及工以及开销也会减少非常多,然后第二个就是我们模型训练完成之后,有比较多的一些case或者bad case的情况,我们需要去把这些场景的。呃,不好的表现给消除掉,然后比如说在这一个最右侧图片里面,我们是一个智能驾驶呃相关的一个场景,然后它在这一个车窗上呢,是反射出了一个红外,呃,那个红绿灯的一个呃导引,然后在这个场景里面呢,我们就可以去通过这种相似性检索的检索的技术,然后去检索跟这个场景相似的更多的场景,就是可能出现这种反射的情况的,然后我们去检索出来这一部分数据呢,又可以去形成新的这种的微调的数据集,然后这种微调的数据集呢,再传入到我们的。
20:17
呃,训练的模型中去,然后去把整个模型在这一个场景下的bad case给消除掉,然后整体的一个应用场景的最,呃,大概大致呢,可以分为这三大类,然后在后面呢,我们也会有更详细的。呃,这种落地的一些呃案例和工程上的一些分享,然后也希望大家后续多多支持我们的课程,然后这次呢,呃,这一节课程呢,我们主要是讲的销量以及销量检索和销量数据库相关的一些呃基础的知识,然后在下一节的课程呢,我们会去介绍到整个腾讯销数据库这一款产品的详细的一个介绍啊,谢谢大家。
我来说两句