00:00
好,接下来呢,我们来看一下德鲁伊跟之前我们学过的P,嗯,Specialle kidding electric,其实还有一个是in color这么几个框架之间的一个对比,因为咱们学了这么多框架,那大家我什么时候用什么框架?啊,直接去了是吧,啊直接去了。那我们来看啊,解决这个问题啊,选型问题。画这张图画了一下啊,我们来看一下,首先对比的项目,包括德鲁伊kal ES,这都是当前非常主流的大数据分析框架啊,非常非常主流,那来看第一个,首先从这个亚秒级响应。也就说这个速度上,那德鲁伊支持麒麟,支持反系统这些它们的速度。
01:00
比不上这个啊,虽然说很快,但是跟这个德鲁一和麒麟还有一定的差距,因为麒麟是预计算对不对,我提前已经算好了,那我去了就拿结果了,你这个你再快诶也是基于内存,是不是也得算一下啊,也得算一下啊,那麒麟呢,呃,这个德鲁一呢,它也是,它也支持一定的预计算啊,所以说它不快,OK,那再往下。百亿级的数据集,就数据量非常非常庞大,那这些框架都很优秀,百亿级的都能扛得住,那再时候对circle的一个支持。嗯,你说能不能写circle口,那这个德语一呢开发中,嗯,目前我试了一下还OK啊,但是语法支持的不那么特别全,那这里面ES不行啊,ES不行啊这些意思,那再来往下离线这块。离线运算这些所有框架全部OK啊,都可以选,那再来那么实时呢。
02:00
实时这一块德鲁一没得说,肯定OK,那这个kding啊,他正在开发中,我看了一个最新版本的应该是可以了啊,其实应该是可以了啊,支持实时的,然后呢,这个目前不行啊,但实时的不行,但只上及时的查啊好,那part不行不行啊,ES可以啊。实施这块啊,OK,那还有一个呢,叫精确的基求,所以说这个课题构非常非常精确,那都有一对不起啊,它很粗糙,虽然说快快的前提是舍弃了一定的精度,那K你这个精度OK啊,因为它是预计算啊,我是提前把东西算好了,而且算的会很精确啊,那part没问题,你part没问题,Part没问题,ES差点意思啊,ES差点意。那这时候多表join的一个使用,那德鲁一用不了。啊,参与不了,那P没问题,Pressle没问题,Depar没问题,Sponsor没问题,ES差一点意思,嗯,那正好gd bc for BI,比如说像这种BI可视化工具,他们之间的一个集成成构,那都容易差一些,呃,PD没问题,就是可视化展示的啊,连接第三方这种没问题ES啊,差点意思啊,这些。
03:20
好,那下面怎么选第一个德斗一,它是一个实时处理时序数据的o lat数据库,这没问题,实时处理的分析引擎,因为它的索引首先是按照时间分片,后面会给大家讲它的原理啊,它是按照时间计分的,这是导致了他查询速度快的原因在这。那还有查询的时候也是按照时间线去入流的,相当于提前建了索引啊,索引呢是按照时间来见。正好是Kitty。核心的就是一个Q,是一种易计算技术,基本思路呢,预先对数据做多维,所以查询时只扫描索引,而不访问原数据,从而剔出。啊,它不计算了,已经计算完了,拿回来用了。
04:09
重要的是,Crystal。他没有使用大部分场景下have换一个数量机,其中关键技术就是所有的处理都是基于内存完成的。那再来,其实这个跟排非常类似,也是基于内存预算的啊,速度快,但是呢,它支持的数据源没有S多啊,所以。好,那后面的这个SPA你们目前还没学啊,它也是一个O问T分析引擎,基本思路呢,是增加机器的内存,提高B行预算啊这种方式来提高翻译速度。那再之后ESES最大的特点呢,使用的是倒排索引啊,倒表所有问题啊,ES在实际获取或聚极使用资源上比德鲁音要高啊,就是在这个数据获取或者积极用的这个职业绝大多数这个ES是用于什么呢?站内搜索就类似于那个搜索条,嗯,那这种功能里面你输入一些关键字啊,嗯,都是用ES。
05:14
那好,框架的选型,从这个超大数据的查询效率上看,你是谁查的最快,第一快的是等于,因为它的精度不是特别高,而且还产生了一定的运算,而且还是基于内存的分布式集群,那所以说它的速度最快。快它就超一些啊,记住然后之后呢,就是这个K啊,给一级串差异速度的效率啊,然后。SPA这样一个顺序啊,那从支持的这个数据源种类来说是最多的啊,然后之后呢,都一,因为它只支持单表对吧?啊,就是单表的一个查询啊,你看你怎么去呃选择啊,根据不同场景去选择不一样的,你看你追求的快还是什么,但是真正在企业开发中我见到的哈。
06:10
都有。啊,也就说我都安装在那个集群上,那这个产品经理提什么样的需求,我就用什么样的框架,比如说德鱼这边我实时跑的麒麟这边呢,该一计算一计算啊,产品经理临时来的任务,该用用去查对吧,来18号这种定时的任务,每天我还正常的跑。啊,这样的就是绝大多数任务我全能扛得住,没有任何问题对吧,只不过我是要呃搭几个服务器对吧?嗯,扔一些件资源在里面,他只要正常的跑就行了,好,这是框架的一个对比选型哈。
我来说两句