00:00
好,接下来呢,我们讲一下德鲁伊这个框架,它属于一个呃,实时处理的一个框架啊,处理速度比较快,当前呢也是比较流行的,在美团呢,滴滴啊内部呢是大量使用的,我们来看一下这个框架啊。好,这是德鲁伊框架啊,它的一个特点,德鲁伊呢是一个快速的列式分布式的,也就是列式存储的分布式的一个支持实时分析的数据存储系统,那这里面这么几个值要注意,一个是很快啊,那个呢是列式啊,分布式没得说啊,大数据框架绝绝大多数都是分布式的啊,还有呢是只是这个实时分析啊,跟我们这个还里面的数据离线分析不一样,它在这个处理PPT数据毫秒级查询,数据实时处理方面比传统的o lifeb,传统o life像have这种有了显著的性能改进啊,主要是处理来大数据场景毫秒级查询,实时处理这种业务需求啊,就需要它,好,那这个呢是德鲁伊的一个官方网站框架啊,后面呢我会带大家去看啊,啊,德鲁1.21,然后下面有一个注意的地方。
01:19
啊,要注意的地方,阿里巴巴呢,也有一个开源项目也叫德鲁伊,但是呢,这个德鲁伊呢,是类似于GDBC这种数据库连接池啊,阿里德鲁一与本文讨论这个德鲁伊没有任何关系啊,基本他俩没有任何关系啊,别搞错了啊,所以说解决问题呢,也完全不同啊,这个是我们实时处理分析的一个框架。好,那下面来看一下德鲁伊的特点。第一个它采用的是列式存储啊,德鲁伊使用面向列的存储,它只需要加载特定查询所需要的,查询速度快。
02:06
啊,比如说你这个一个建设数据里面有N多个列,N多列,那有这么多列,如果后面我们分析的这个指标不需要某一列,那你完全可以把它删除掉。你说在这个存储的时候把它先干掉。啊,我们只选择我们要的列,这是可以做到的啊,后面我给大家演示的时候你能看到啊,啊比如说查询需要哪个列,你就加在哪个列,所以说它会很快,那另一个可扩展的分布式系统啊,这么容易部署在十台或者数百台集群上,它是大集群运行啊,并且提供数百万条每秒的设计输入,你说每秒钟可以读进来几百万条的数据进入到这个对录音系统。每秒钟进来他都能扛得住啊,保留数百万条记录以及亚秒级到几秒钟的查询延迟非常非常快啊啊。
03:04
那另一个大规模的并行处理,德录音可以在整个集群中进行大规模的并行查询,因为它是分布式嘛,那肯定支持啊,并发运行,OK,还有它可以实时或批量摄取。我们日后学的这个18水名,它属于就批处理一批,比如说攒了这个100个啊,100条数据之后,统一处理一下,再来100条,再处理一下,他这个呢,可以做到实时来一条处理一条,可以实时设计数据。哎,还有一种呢,也可以做成这个批量的,这个看你怎么设置了啊。好,再往后它支持治愈制平衡B操作。啊,就类似于我们学洞集群增加一台节点之后有个re balancell对吧?啊re balance平衡,那集群扩展或缩小,只需要添加或删除服务器集群加载后台自动重新平衡,无需任何停机时间啊,他自己就做了。
04:08
像孩子吧,还得我们自己去执行一下命令,OK。数据进行了有效的预计和和预计算他进来数据它会按照时间进行分辨,同时对一些我们要算的令提前进行了一些sum求和。啊,后面呢,我再呃分析它数据结构的时候,你能看到它进行了一定的预计算啊,类似于P,但是呢,它这个聚合的这个时间会短一些啊啊还有数据的结果应用了B的map压缩这种事法,也对数据呢进行压缩啊,这是它采用的一种优化手段。啊,这么多特点,第一个呢是列式存储啊,而且呢,可以我们想要哪些列,那我们就把哪些列添加到我们查询的这个范围内,不需不需要的把它干掉,还有可扩展的分布式系统,属于大集群运行,增加节点删除节点非常容易,还有大规模的地型运算,因为它是集群,所以支持并行查询,还有实时批量啊处理都可以。
05:14
那个治愈值平衡一操作,增加节点,删除节点,自动平衡热进行有效的一计算,提前聚合啊,预算类似于K,还有采用这个bitma压缩算法啊,非常优秀的算法啊。好,这是德鲁伊的特点,那下面看一下这个德鲁伊应用的场景。第一个它适用于清晰好的记录,实时读入,并不需要更新操作,那这里面就有问题,咱们之前学用户行为的时候,一个是启动日志,一个是事件日志,启动日志我们是不是直接就是健身课。事件日志是服务器时间竖线节省串,那像这种数据它是不是就需要我们在做处理啊,啊,那这种就不行,他只能直接处理,类似于JA身这种拿过来就能用了。
06:10
啊,OK,这要注意一下再来,适用于支持腕表不用招的方式,换句话说,它只能运算单表。啊,它只能建预算单表,那不能多秒超重。啊,你只能查一个表,比如说他个表啊,或者实间时间表的某某一个表,这行啊,针对单表的一个实时运算,多表不行啊,这个要注意还有剩,用于可以总结出基础的统计指标,用一个质段表示啥意思呢?它可以把前边你来的N多条数据提前进入一个预计格,比如说这是四条,它后面加一列,比如说click。点击事件这四条呢,点击事件提前给你写个四,已经提前给你预算预计算好了。
07:00
啊,是这种方式啊,好,那再来。适用于实时性要求非常高的场景啊,要求就是快,那这种没问题,再来适用于对数据质量敏感度不高的场景。啊,它这个呢,是提前进行了一定的预计算,那他就会比如说他对这四条进行计算,它的click比如说是四,那他们就会合并成。技巧。那它这个颗粒度精精确度就不高了啊,预计串,所以说这个注意一下哈,OK,这是它应用的相应的场景。
我来说两句