00:04
大家好,欢迎大家来到由腾讯云开发者社区,腾讯云向上数据库团队,安登团队共同打造的rag七天入门训练营系列课程的第6期,然后在前面的三四五期中,有我的另外一位伙伴九州同事,然后为大家介绍了安登团队在RG整体的应用中有一些工程化的解决方案,以及他们目前这一套解决方案是实际上呃以经有上线的一些产品在我们腾讯内部去进行一个使用啊,在第6节这呢,我们会去介绍安登团队的Co,以及我们向量数据库这边的AI套件相关的功能。然后在安德的核心功能上呢,可以看到也分为四类,包括了云技术的呃服务领域问答以及自助知识注入,第三个是对我们的呃回大圆原模型回答的一个反馈改进,还有第4个我们的工具调用。然后第一个板块呃云技术服务领域问答,这里面已经是包含了由我们腾讯云呃线上所有产品的一些知识文档,都已经注入到了我们呃相应数据库这样一个知识库中,然后对于呃有用户对某个产品的一些功能比较感兴趣,或者是说呃对一个功能有疑问,然后都可以通过这个ATE去呃询问详细的一个产品名,加上问题的描述,然后能够获得呃相关的一个回答。
01:23
然后第二个自助支注入的这呢,对于我们有一些没有注入的一些知识文档,或者是内部的一些材料,或者一些呃Q顿文件,然后可以发现我们的回答效果不好的时候,可以通过这种方式,能够将一些知识文档以补充知识的方式给输入到我们的项目数据库中,然后去完善我们整个知识库,然后在下一次的一个回答中呢,我们的呃智能文档大模型会通过rag这样的一个范式,然后将我们补充的知识内容给以更人更人性化,更专业的一个方式去进行一个输出,能够让我们其他用户收到一个比较好的一个回答。
02:02
然后第三个就是呃,因为目前大元模型生成的一个回答内容是不可控的,难免会说有概率性的问题,它出现了。呃,对某一个回答的阐述有。有误,或者是说他的描述不好,然后在这儿安登comp呢,也是提供了一个反馈改进的按钮,能够去让用户对这一个回答去进行一些呃纠正,或者是说提出一些建议,然后在后台呢,也会有专门的同学去对这些反馈去做出一些调整。还有第4个也是一个比较亮眼的功能,像我们刚刚提到了,可能呃会有一些诊断的模型呃,去做一些意图识别,做了意图识别之后,用到我们诊断模型这一个链路,然后这呢,安登也是提供了一些常用工具的一些调用,像我们的域名查询啊,还有一些CVM的一些云服务器监控,这种都可以很快的在安上去进行一个搜索。然后整体安登克拍目前是已经覆盖了我们整个腾讯内部的一个售后以及售前的一个场景的,可以看到在售后售前这儿呢,呃,售后这儿主要是去辅助我们的一些一线的工程师,去帮助我们用户的工单快速的去呃解决用户工单的问题,然后在售前这儿呢,因为涉及到去对用户去介绍我们的产品,还有一些我们产品的核心功能,然后也会给到售前团队一些弹药库,然后能够很快的通过安获取我们呃某一类产品的一个核心能力,以及它的一些突出的亮点。
03:30
还有在其他方面也是,呃在生态这一块呢,因为安登克Palo目前呃可以做成一个比较大的一个中台应用,给嵌入到我们的呃,企业微信啊,或者一些各类的群里面,能够快速去帮我们呃回复一些问题,然后这第4块呢,就是我们客户部分,在我们安登克后续进行一个完善之后,也呃安登同学也考虑说呃最终我们会去对外进行一个开放,能够让用户自助的就可以去解决一些其他的问题。在整体安灯拍的构建里面,Rag是相当不可或缺的一环,呃,你可以看到我们目前云上有这么多的产品,然后实时又会有更新了很多的一些文档,然后都需要通过rag这种应用fans去将,呃,我们的知识库给做的很完善。然后最终能够提。
04:17
将安Co做成一个基础的设施,然后提供给我们产,无论是产研售后团队,还是我们的生态伙伴以及客户,这种都能够起到一个非常好的支撑作用,相当于andco,在我们目前呃,腾讯企业内部是已经做成了一个比较好的智能问答机器人。在右侧呢,也会可以看到,呃,目前是对Co已经嵌入页面的一些截图,像左上角这张截图呢,就是我们内部使用的一个场景,然后左下角呢,呃,是我们的一线工程师,然后它可能会有一些呃问题。需要解答的时候,会首先问到我们的安pilot,会收到一些回复,如果能够得到一些准确的回复,就可以直接呃返回给用户,然后不需要再向后传到我们的产业团队去协助用户去进行解决,然后同时在我们另外的一个平台上,云资这个平台也是去嵌入一个安登,然后去帮我们做一些呃,云资这个平台上一些文档的一些问答,还有一些快速的呃。
05:17
提问。在下一面,在下面呢,我也会去给大家主要看一下我们目前呃安在我们腾讯云内部的一个主要的界面,给大家演示一下我目前已有的一些能力。然后在这儿可以看到目前就是我们呃安登一个界面,然后在整体的这一个界面里面呢,呃在右侧就是我们与这一个呃对话的一个界面,比如说我现在可以去呃询问。腾讯云像数据库什么时候计费?然后稍等片刻之后呢,腾呃安会去呃调用整个rag这个链式,他首先会去对我这一个提问去进行一个意图识别,识别到我这儿不是一个诊断的意图,之后呢,它会去走rag那整个链路,先去啊将我的问题去进行一个向量化,然后再安的知识库,也就是我们腾讯相上数据库里面去呃检索。
06:19
相关的一些知识文档,然后再返回给我们,呃,智能文档模型,单元模型,然后再让单元模型去给我们生成回复,然后可以看到在这呢,生成一个回复,就是我们腾讯向上数据库在2024年的3月20号就开始正式一个计费了。这个就是呃,整体的一个体验,呃。智能辅助智能问答的一个体验,然后在左侧呢,可以看到。针对于刚刚可能有一些问题,或者说一些实时更新的产品知识文档,我们需要去进行补充,然后就可以通过这个入口去上传一些知识,这个知识呢,我们也是集成了我们内部的一些,呃,VT文档库,我们可以很快的去选择一些。已有的知识目录,或者是从我们其他呃,其他数据源的一些知识库去进行一些注入,同时呢,我们也是能够去支持本地文件的一些上传,然后去补充我们目前已有的知识库,也可以看到我在这里面呃,如果补充了的话,也可以去选择对应的一个知识目录以及类型去呃,看目前已经补充了哪些知识内容。
07:21
然后整体呃,在刚刚我们看到的产品体验这里,它进行回复之后呢,呃,我们也可以去点击这一个反馈纠错和一个知识库。新知识注入也可以快速的去进行一个知识库入呃知识注入,还有对于我们这一个回答去进行一个纠正,然后整体呢,这个就是我们Co目前呃的一个应用介绍。然后在介绍完安登的可之后,我们内部其实呃,目前腾讯销售数库团队与安登的可团队目前是有合作的一个关系,然后我们之前腾讯销售数据库团队呢,是已经推出了我们目前呃比较亮眼的一个AI套件。
08:05
AI套件呢,就是我们提供的一站式文档检索解决方案,我们现在的用户可以很快速的上传一个原始的文件,然后到我们数据库中来,呃,整体的rag。应用构建过程中呢的文档预处理,像我们的遇到的文档拆分已经向量化,还有存入到我们向量数据库这一个整体的数据入库的链路,目前由AI套件都是已经打通了,我们对于用户来讲就只需要上传文件,然后快速的去进行呃知识内容检索就可以了。然后目前在呃这个里面进行内容检索的时候,检索结果召回这一我们也是后续会用到呃,目前安灯工程化一些经验的能力,然后去把这个检索的内容有一个调好结果的一个返回。对于目前这一块来讲,呃,腾讯销数据库的AI套件也是能够很好去解决我用户想要目前想要很快速构建一个rag应用,它所前期会遇到一些问题,对于文档预处理,我们也在第二节课里面去进行介绍了,我们目前呃对PDF markdown word这类的文件,我们去进行内容提取的时候,都去做了非常多的一些增强的手段,以及在拆分的时候,我们也会尽量去保证我们拆分的内容是较为合理的,然后在信息补充这儿,我们也会对拆分后的每个创去补充上一些类似于。
09:26
关键字,还有标题等等的一些信息,保证我们的每一个创口在做向量化的时候都能有较多余的内容补充。然后在索引构建这儿呢,我们也是用到了腾讯向上数据库的一个呃高性能,以及它整体一个呃高性价比,然后在这儿我们索引构建也是全自动去完成的,也不需要用户去进行关注啊,能够给用户一个端到端的一个比较好的呃知识库召回的一个效果。同时在这个AI套件呢,我们也去呃对比了一下AI套件的一个接入效率,在左边呢,我也以自己是一个产品的一个角度去书写了一下,呃整体我使用AI套件去搭建一个知识库的呃接入代码可以看到在这15行代码里面呢,我就去完成了呃去连接一个数据库,然后去呃创建一个。
10:18
数据库,以及在这个数据库下面去创建一张表,然后再将我的呃知识库中的所有文件去进行一个上传,然后上传完成之后呢,AI套件会在后台自动的去进行呃解析以及索引构建,然后在这上传完之后稍微等呃几秒钟,然后我就可以去对我目前上传的这些文档去快速的去进行一个呃相似性检索,然后召回回来与我用户提供相关的知识文档内容。同时我们不仅在呃接入效率这能够去做到较高呃较快的一个接入效率,然后在召回率这一方面呢,我们也去对比了呃跟浪茜这一个常用的框架。也可以看到我们这对比的一个场景呢,也是分为了呃单文档领域,还有多文档领域的,因为这两个领域的话,其实对于召回率的影响是非常高的,各位可以想象一下,我现在呃可能只是呃使用类似于一个PDF这样的一个应用,然后我只上传了一篇文档。
11:16
然后他在这一篇文档里面拆分出来的呛可数可能就只有20个左右。然后我在这20个壳里面去找到跟用户这一个提问相关的知识内容,可能就只有三个,那我在20个里面去提取三个的一个招,呃能能够做到的一个召回率的话,是肯定比我在多文档领域,比如说我现在有呃成百上千的文档,然后拆分出来的呛口数又会呃达到千级甚至万级这么的一个数量级的级别下,然后召回率肯定是单文档领域会比多文档领域做的更好的。然后同理呢,我们可以看到在AI套件和long这两在两个方面的对比,也是印证了刚刚我们的一个猜想,在单文档方面呢,我们呃能够AI套件能够做到的一个召回率,最高是能够在呃TOP3做到89%的一个召回率,然后对比于我们那边无论去调整呃他的。
12:13
拆分的字符数,以及我们overlap向前补充的一个呃内容的长度以外,做了更多的调优之后,也能够只能把它的一个召回率给做到68.4%左右,这个也是我们调优过后的一个召回率,然后整体的使用的呃in模型都是一样的,然后呃在这儿我们去使用的相应数据库呢,也是我们腾讯相应数据库,然后呃整体的库表的配置,模板的参数配置都是一样的,然后在单文档里域可以看到我们也有较高的一个优势,然后放大到多文档领域,这我们对比于郎茜。因为我们的拆分会更加的合理,以及我们对于呃知识内容会有很多补充的手段,所以呃在多文档领域。一旦每一篇文档,它都会被拆成若干个独立的创口之后,做了那种信,做了信息补充之后,比如说我补了这个全文的关键字,补了他这个创口所属的标题,然后我再最终去进行召回的时候。
13:12
呃,它的效果是没有呃,比没有补这些信息召回率会高出很大意见可以看到在多文档领域的,无论是从TOP1还是到TOP10,我们对于郎茜那边都至少有100%的一个提升。这是多文档领域,我也去给大家介绍一下为什么呃,补充我们的关键字,以及补充我们的标题信息会如此的关键。比如说我现在呃,有两篇文档,然后A文档是介绍AI套件的拆分的,然后B文档是介绍嵌的拆分的,然后如果我没有去补充信息,直接去对这两篇文档进行拆分之后,它会被拆分成若干个创,然后呃,可能会出现一个AI套件里面的这一篇介绍文档有一部分拆分的。内容,呃,跟茜那篇文档里面提到拆分的内容是高度相似的,然后在进行召回的时候,其实我要的是对于茜这一部分的介绍,但是可能返回回来的时候,AI套件相关的介绍会排在最上面,因为in的一个原因可能会排在较上面,然后会导致我送入,呃,大约模型的时候,他把这一条信息。
14:20
认为是一个更高更准确的一个知识内容,或者是说呃。郎茜那边的。呃,制图文档内容会对呃单元模型产生一定的干扰,就会导致我们单元模型产生一定幻觉,以及我们回答不太合理。如果我去补充上这样一个内容之后,相当于我会呃,具有了。呃,每一篇文档它都每个创口,它都会具有它所属的呃,标题的信息,比如说AI套件提到拆分的部分,那可能标题就是AI套件拆分中的细节,这个可能就是它的标题,然后会被补充到这个壳里面去,然后在我去做检索的时候,我的提问可能就是AI套件中的拆分方式是怎么样的?
15:03
然后因为携带上了AI套件这个关键字,他在去做向量化的时候,这一部分的数据信息就会被保留下来,然后在我去做呃,向量这一路的相似性检索的时候,理上。他的,呃,排名的。呃,排名会比呃没有携带标题内陆会更高,或者是说与其他内容与跟其他不相关的内容对比的话,我这一条内容会排名会更高,然后再去交给大模型。让单元模型去进行一个输出的时候,会得到一个更优的一个解决效果,呃,更优的一个回答也是最终会影响到我们在这呃的一个召回率以及回答的准确率。然后整体呢,呃,这一次的课程就主要是介绍的我们呃腾讯云的安,以及我们腾讯向上数据库的AI套件,然后在下一次课呢,我们会整体的对于腾讯上数据库的AI套件会有一个简单的代码实战上手。然后为大家。
16:00
快速的创建一个向量数据库实例,然后使用上我们AI套件效果,然后去做一个知识库的召回。
我来说两句