00:00
各位线上的线下的各位,我亲爱的朋友们,大家下午好,我是来自腾讯云数据库团队的罗云,我呢自己其实是整个云行业的一个老兵啊,刚刚上场之前的那个图片啊,大家可能会觉得诶,看上去会年轻很多啊,那实际上是我去年去造的啊,这个当然中间呢,可能用到一些AI的技术,那我自己也特别的荣幸吧,今天在这么这个隆重的一个会场,能够和大家一起去分享一下腾讯云数据库团队在AG时代的一些思考。我们认为啊,随着AG的来临,整个计算机科学的基础设施会发生翻天覆地的变化,这里的变化会有很多,为今天的分享,我会给大家一一去拆解。
01:01
那我们首先去看一看,在计算机科学发展的这几十年的时间里面啊,我们的计算平台其实有过几次挺大的眼镜,那从最开始啊,我们需要用纸袋,用大型机去操作我们的这种计算设备,到后面呃,我们有开始自己的一些TC的个人电脑,再到后面我们的移动互联网时代,我们的人每个人都有自己的手机,每个人都可以便携的去使用一些你的计算设备。这里看上去整个计算平台有了很大的演进,但其实背后我们去洞察。它的调用算力的方式还是没有本质的变化的。因为我们都需要通过程序员,通过编程语言才可以去触达底层的一些计算能力。
02:05
那进入到2023年之后,其实我相信我们线上的朋友们,线下的朋友们,在很多的场合啊,一定都听到说,诶。这个大模型好像挺牛的,他可以帮我去写演讲稿,他可以帮我去做一些会议纪要,他也可以帮我去甚至于写一些代码,那从我们技术的角度,我们其实内部静下心来有过一些思考,那大模型在技术上的本质,它究竟是什么?它是一个无限大的这样的一个存储体吗?还是什么?那目前我们探讨下来啊,大模型,我们认为它的本质是一个带有智能计算的计算平台。它给我们人类带来巨大的变化是什么呢?将我们人类之前只有通过编程语言才可以触达的底层的计算体演进为了我们可以通过自然语言去调度底层的计算体,这个变化我觉得是翻天覆地的,因为有通过这样的方式,在座的各位,我们线上的伙伴也好,可能你不是程序员,你其实可以很方便的通过自然语言就可以去调度底层的计算平台,这个是我们整个做基础测施的从业人员非常非常兴奋的一个点啊,我们的用户会多了很多啊,之前我的云计算平台可能只有很专业的开发他们才可以去使用,现在基于大模型,其实大家都可以很方便的去调度算力了。
03:54
那当兴奋之余啊,我们其实可以再冷静一下,我们的人类完成数字化的改造,除了计算平台,还需要其他的吗?就像我们人的大脑一样啊,我们会把所有的知识都进入到脑袋里面,但是我们可能需要日记。
04:16
我们可能需要一些这个图书馆,我们可能需要一些这个笔记本,把你相关的数据存储起来,所以说我们认为啊,在AG的时代,通过。计算匹配上对应的存储才是解决未来我们在AI时代的重要的范式转移。我们认为在AJ时代,除了智能化的计算平台之外,还需要一个智能化的数据的调度范式。这里其实我们也可以去回顾一下啊,在过去计算机科学发展的这个时时间窗口内啊,随着我们从大型机往个人PC,在往这个手机终端去演进的时候,我们的底层的存储技术也在不停的演进,从最开始我们基一些文件系统就可以把相关的数据管理好,演进到我们需要基于一些数据库才可以把这些很好的数据存储起来,那随着我们移动互联网的发展,我们其实可以看到啊,对于nay,对于时延的要求逐渐变高,对于我们整个APP开发的这种敏捷度逐渐变高,No circle数据库变得非常流行,但其实和我上一页讲到的逻辑一样的啊,其实我们的用户还是需要程序员。
05:51
通过编程语言进行一次翻译,那在这个AI的时代,我们认为啊,会存在两个特征,真正的智能数据平台需要有两个特点。
06:07
第一是底层数据的智能化流通。这里怎么理解呢?就是当我们有了通用的智能计算之后,底层的非结构化数据可以非常智能的流通起来。我们存储在文件系统中的文件,我们存储在可能对象存储中的一些对象,我们存储在甚至于关系数据库里面的表格数据,非关系里面的KV数据,我们认为都可以通过智能化的方式让它流通和联动起来。然后呢,除了智能化的流通之外,我们认为啊,在智能化的这个时代里面的智能平台,它需要让我们人类可以和数据对话啊,我的对话这个词汇比较的精妙,就是你可以和你的数据进行交谈,用自然语言的方式在这个自智能化的数据平台里把数据取出来,然后拿到这部分数据再交给大模型做计算,就跟我们现在的人类社会,现实社会是一样的,你有广阔的一些存储平台,你也有你的脑子去作为你的一个智能计算体。
07:21
这是我们的一个判断。那在这个智能数据平台已经有它的定义之后,我们认为啊,要达成智能数据平台这样的一个目的,向量数据库会是中间的重要的数据枢纽,为什么呢?其实从这里这个PPT我们可以看到啊,我们现在现实社会里面,人类已经产生了很多的结构化数据,非结构化数据,这些数据他们的格式不一样,他们的表征也不一样,当我们的人类想要和这些数据去做交谈的时候,如果能够把它规划成一个统一的数据格式,这时候其实你的使用效率会非常的高的,你可以通过一个中间的数据平台,最前端人类通过自然语言调度我们最前端的一个大模型的一个代理,通过这个代理和中间层的向量数据库做互动,这样子其实就可以把人类社会那么多的数据都利用起来。
08:31
当然这里的向量数据库,它存在的最大的意义价值,我觉得是通过向量这种中间的数据格式,抹平了不同的数据格式之间的差异,你可能是图片,你可能是音视频的,通过把它转成向量,最后的数据存储格式都被抹平了。并且呢,其实我们都知道人类社会的科技,它的发展其实都是渐进式的,所以说我们人类在过去的几十年积累了这么多的数字世界的数据,这些数据在AG的时代一定是会要被利用起来的,那这些历史的数据怎么样快速的被VI识别呢?通过向量其实是非常重要的,也就是说我们团队和大家一起探讨下来。
09:21
会达成这样的一个这个想法啊,向量数据库是我们在AI时代重要的数据枢纽。那既然啊,向上数据库需要去承担AJ时代数据枢纽这么重要的一个作用。他需要有什么样的能力呢?比较明显的啊,你既然已经是要去承担数据枢纽这么重要的作用了。那你的企业级的数据库能力一定不能丢。一定要有分布式的能力去承接你海量的流量,单机的其实很难去做扩展,对吧,那你的安全性怎么保证,数据的这种隐私也会很重要,你的成本,你的可用性,你的可靠性,这些在我们数据库人经过这么多年的奋斗,你的积累,我觉得在向量数据库这里一定是不能丢的,OK,那除了传统的数据库我们积累下来的这些能打的经验而外啊,我们认为啊,在向数据库里面。
10:28
你的智能化将会非常的重要,因为只有智能化了之后,你才可以让人类通过自然语言和你的数据平台进行交互,和你的数据平台进行谈话啊,然后呢,智能化里面我自己的看法呢,又分为三层啊,对,底层是我们在存储这一层能不能引入更多的AI的方式,让我们的存储成本变得。压缩比更高,让它的数据分布变得更更合理,这个是在数据的智能化这一侧的做存储这一次,然后呢,在中间啊,由于设想啊,我们的传统数据库会有一些order by啊,这些传统的排序的能力,那在AI的时代,为什么不可以用一些更智能化语义的排序,让我们的这个数据库更等人的,诶,我想要去基于一个语义去排序,我要基于一个数字去排序,这些其实都可以通过自然语言来实现,OK,那在最前端我们认为啊,最重要的是向量数据库对外暴露的接口是要通过自然语言的方式,让人类可以通过自然语言和这个向量数据库进行交谈。
11:45
这个是我们认为在数据这个枢纽,这个使命达成的过程中,向量数据库它需要具备的两个重大能力。嗯。那在有了这个定义之后啊,其实非常非常的这个开心,我们腾讯云,我们腾讯集团在过去这么多年的积累,恰恰是能命中这里的诉求的啊,今天我也特别特别的高兴啊,也特别的荣幸在这个会场,像在座的各位线上的伙伴们去宣布,腾讯云是整个业界联合第三方的这个测试,完成了千亿级别的向量数据库规模的测试,并且达成了500万QPS这样的一个海量的数据测试规模啊。
12:39
非常荣幸啊,有信通院的伙伴和我们一起完成的这个测试,同时呢,刚刚我们的江主任也在介绍到,我们信通院联合了众多的伙伴完成了向量数据库技术标准的测试,当然我自己也比较自豪啊,完成这个设施的首批有很多,但首家只有一个,我们腾讯云是作为首一个完成。
13:05
中国向量向量数据库技术标准测试标准的这样一个团队啊,那。回到刚刚性能这里啊,性能测试在一个大规模情况下,我们可以做到行业的比较领先。除了大规模,我们也还在实实际际,比如说客户他在100万的请求,1000万的请求情况下,也做了很多的测试。相关的这些测试数据也是非常喜人的啊,我们在这些规模的测试情况下,我们的QPS相比较友商也有大幅度的领先,那在这个QPS的基础之上呢,我们把它。除以背后提供的这些设备啊,得到我们单QPS的成本啊,单Q单Q的成本呢,会成为向量数据库在未来友商之间晋升竞争的一个核心的PK指标,这个地方呢,我觉得其实我们也是领先不少的,OK。
14:07
那除了这个企业级的性能成本我们做的不错之外啊,其实像我刚刚讲到的,要在AG的时代去承担这个枢纽的位置,我们一定要有智能化的能力,非常高兴就是我们腾讯云的团队在这里其实也做了一些探索,在业界也还是走的比较靠前啊,腾讯向量数据库是业内第一个提出了AI原生的向量数据库的概念的这样的一个团队,甚至于领先于海外的一个团队啊,海外团队他们最近也在去提说诶我们要AI native的向量数据库,同时啊,我们在这个理念的过程之下呢,我们有一些践行啊,践行的部分。今天给大家也分享两个,第一呢,我们通过把embding的能力下沉到我们的向量数据库里面,这样就达成说,诶,我们可以通过自然语言的方式去访问销量数据库,然后呢,自然语言的方式把数据写进去实现了,我刚刚其实提到了让我们通过对话的方式去访问向量数据库,这是inbing集成到我们向数据库里面的重大的魅力。同时啊,我们其实也提出了业界首家AI套件,就是向量数据库匹配的AI套件,通过AI套件的方式可以帮助我们的这个开发者在100行的代码,通过100行的代码就可以快速的搭建一个企业级的本地的知识库啊,这里涉及到的技术会比较多啊,那怎么样把客户的初始的文本去做准确的分割,分。
15:56
播之后,它的语义不要丢失,然后分割之后,它的一些上下文的关键词怎么匹配,就是在拆分这一节啊,除了拆分之外,我们结合腾讯自己打磨的embedding的模型和行业内一些开源的模型,帮客户去做embedding模型的选型,帮他完成in bed,这是第二个阶段。那第三个阶段其实我们都知道向能数据库它其实有蛮复杂的一些索引,像flat它的这个索引规模可能不一样,HSW索引规模又不一样,我们希望在背后帮客户,帮他的索引去做自动的构建和选择,让客户省去选择索引的这个过程啊,最后结合我们内部的一些金牌序的一些办法,客户的召回率能够变得更好。
16:49
通过这一系列的组合拳,我们其实在实测的过程中啊,比客户基于开源的一些这个知识库的搭建的软件,我们的第一个版本就可以做到领先30%,这里带来的的这种这个体验的提升是巨大的,我觉得我们也非常的高兴能够把腾讯集团这么多年积累的这些拆分呐金牌的能力,作为平台化的方式给到我们的企业,给到我们的开发者。
17:23
当然啊,就是这个只是嘴巴上说一说的话,我觉得肯定是没有办法去达成我们如此伟大的梦想的,不能引导我们去走向AG,因为腾讯是从2019年左右就开始去打磨我们的,像那数据库的能力。俗话说罗马它其实不是一天能够建成的,我们在2019年开始到现在服务了40家以上的内部客户,每天支持的向量数据的检索超过了1600亿次,同时经过这一段时间,在腾讯云服务外部客户也达到了1000家,相关的客户的增速在我自己做云计算的从业这么十几年来,我觉得是非常非常的喜人的,在这个赛道里面,大家其实都非常的有热情,我们也愿意和大家一起把这个赛道打磨的更好。
18:24
最后啊,是在这次开会之前啊,我自己也观察到这个比盖在前几天啊,在他发布的一篇关于AG的深度思考的文章里面,其实提到有一个。好的地方和一些存在的挑战,好的地方呢,其实就是AG能够帮我们人类提升自己的生产力,解决很多的问题,中间呢,他也重点讲到,说我们其实在AG的时代,需要有一个新的数据格式去匹配我们AI的智能计算体,那在这个过程中呢,有一些挑战我们也在探索,我们腾讯云团队也在探索,所以说呢,最后有一句话送给大家,在AG的路上,Road to AG。
19:16
The,谢谢大家。
我来说两句