00:00
好,接下来呢,我们来看一下德鲁伊这个框架原理啊,它怎么就快啊,或者说它内部是怎么工作的啊,我们来了解一下。这个呢是德鲁伊内部的分架图,这张图是官网的,可以看一看。你们现在应该有习惯看官网的习惯了。你看每个框架老师都在里面去看一下报告,哪个框架都看一下。要养成这种习惯了。官网啊,这都是非常非常重要的。今天中午有个学生正好问我一个问题啊,他去过视聘嘛,我昨天跟你说那个23乘四六那个班啊,去了入职了,入职第一天,嗯,对,给了几样东西,我不知道大家知不知道第2GET。账号密码,这没问题吧,啊,还有第二个堡垒机,知道啥是堡垒机吗?踏板跳板机。
01:04
啊服务对,你是得跳到这个服务器去访问,访问服务器啊,啊其实就是类似于我们连接虚拟机,你得也得需要一个用户名密码啊,类似的这种啊,这个还有一个wiki。没可以增长个几百个,是不是一些文档啊资料啊啊一些资料,一些说明文档啊,按照手册啊,或者操作操作说明啊,啊,或者一些表结构啊啊等等一些资料库,这个也需要给你,所以说这三样东西基本上到其他企业都有啊,第一个get。第二个viki。嗯,第三个啊,像这个跳板机账号密码。能懂吗?啊,一定要知道啊,别去了,当时给我发的表情就是老师,我崩溃了啊,我这听不懂他在说什么。啊,那就完蛋了是吧,这多简单,就点事,你翻译过来就是这样啊,没给你翻译过来的时候你会发现,哎呀,这东西好难啊,一上来就怂了,我说你身边有你的师哥师姐啊,没事的时候给你拉个群,你就你就不害怕了,好,那么来看。
02:13
这里呢,就是德鲁伊阿帕奇德鲁伊is high高性能的real time实时的分析数据库,是这样吗?啊高性能是分析数据库,那好点这块doc。啊是,那这个有点难。G,你们学的怎么样?没有啊。是什么?我弄死你。你到期的时候你肯定有啊,下载代码,上传代码,提交代码。
03:02
哎呀,这么慢吗?比较起来。像我需要一个小时,那还讲不懂。来what的is思对一啊,下面这些东东,我这有张图了。哎,结构。对,写作图啊,这呢,哎,对,你看我这张文档上的图啊,就是从这捡起来的啊,证明一下它的出处啊,其实这个文档写的我觉得还是挺好的,你看这里面写的像这个原数据存储啊,然后深入存储主keepper啊,相关的一些依赖处理,然后还有结构的啊,结构图还有data source和segment啊,就说数据源啊和里面的结构啊,然后什么样子的。我感觉这个还有查询,查询的一个过程也是流程,其实还是很好的呢,我不知道你们能不能看懂。这里面挺好的,包括你看这里面几个一个分析分析过程哈。
04:00
行,那退出来之后我们看我的吧,翻译成中文的是吧?啊你们学什么东西都需要翻译一下,其实本质都一样的,你看这张图就是官网的,那官网的你先看一下这个图例叫德鲁1NOT,所有德鲁一广射的这种节点对吧?啊节点好,还有e dependence是外部的依赖啊,啊外部依赖元数据存储,To keep,还有地表start,好,那实线呢,是表示查询的过程,那这个虚线呢,表示原数据流向的过程,还有date s,那这个是date s输入的数据啊OK哈,这么几个图例,OK。第一步先看,先看一下这个德鲁仪当中有一个啊,Manager啊,还有这个,还有ric not,比如说一个是管理者,一个是节点,还有是历史节点,是这么几个角色吧,啊,还有coordinator节调节点,Overload啊,类似于这种安全啊,负载的节点啊,这么几个节点,那先看这边呢,是streaming date by date。
05:11
最开始我们介绍这个德鲁伊的时候说过,它支持实时的流数据,还支持批量处理打造数据,是这样吗?好,那中间管理节点即时摄入实时数据,已生成S格的数据啊,S格是这个一种啊格式哈,后面我会详细介绍它,你就记住它是传进来的一个数据就可以了。那好,及时摄入的数据,他来负责读数据嘛,对吧,从这读数据。那下一个这个是历史服务器节点。历史服务器列加载已生成好的数据文件以提供数据查询。光节点是整个集群查询性能的核心所在,因为它会承担绝大部分的S的查询,也就说支持绝大多数数据的查询。什么意思?它既然叫历史,是不是就是以往的数据存在这里面对吧?缓存对缓存,然后同时你这边还实时的摄入进来数据是不是两部分数据,一部分事实的,一部分是历史的,那想也能想出来未来这两部分数据。
06:21
是不是得合并呢?哎,得合并好,有了,实时都有了,历史都有了再来。那这名查询节点,这有一个client客户端查询访问这个节点,那看这里面干了什么事,接收客户端查询请求,并将这些请求转给Peter manager manager,你看这个实现实现数表示查询呢?嗯,来,进来查询到这儿,进来查询到这儿。啊,两个主要节点都进行访问,好当brokers,比如说当brokers从这些只查询节点中收到结果时,他们会合并这些结果,并将他们返回给调用者。查询节点采用了缓存技术,那也说他要把这里的数据,这里的数据都缓存过来,然后进行。
07:12
合并啊,再返回给客户的这么一个过程啊,也就是说这边查询命令过来,首先去这实时读取数据,这边是历史的数据,他们把数据再传回来,返回给客户端啊,那中间内幕大量的保存技术啊BM。啊,明白不OK,那再来,那这还有斜条节点。这个协调节点主要负责历史节点数据的负载均衡,负责这里的数据的负载均衡,以及通过规则管理数据的生命周期啊,因为这个历史数据啊,它很庞大啊,就类似于我们这个之前还做过的re,需要这拿出来结合,那你看他通过谁管呢?啊主keep对吧?啊,他就是这个任务协调的啊,通过他来管好,那再来,那这还有一个over not not,同治节点啊同治者它叫什么呢?进程监控慢者它来监控这个的啊,你看通过谁监控呢?
08:16
这块吧,啊,并且是数据入德鲁伊的控制器。它通过监控它,它叫overload noad,是不是如果说它读取的数据特别特别大的时候,后面导致你的录音有可能扛不住,他怎么办,是不是限流啊,是得控制你这个进入的速度吧,啊好,他就干这个事了,他负责将提取任务分配给慢manager,并协调三月份的数据的发布啊,也就是说这一个是传进来的三月份的数据,比如说原始数据。那这个是慢manager,如果他认为负载已经扛不住了,他就要限制它流入的速度。有这条线管理者。问他的好,再来,那下面这还有一个deep stories啊,数据文件存储存放生成的segment,比如说存放数据的,并供历史服务器下载,对于单节点集群可以是本地磁盘,而对于分布式一般都是存储在A上,也是把数据存在A上啊,这是这么一个功能。
09:23
那再来还有原数据,原数据存储德等一集群的原数据信息,比如三月份的相关信息,一般用MYL把原数据信息再次存储到MYSQL里面啊,那再来。那这还有一个主题本,咱们现在讲吧,对吧,它是为德鲁基德鲁伊集群提供以执行协调服务啊,如内部服务的监控协调管理啊,你看这里面监控这个组件啊,协调这个组件都是通过主key来中转的啊,中转的这个状态。好,那回头来我们稍微总结一下啊,稍等一下,首先这边有数据进来啊,要进入到这个慢慢这好慢在这读进来,那他在读的过程当中,其实是受这个overla的这个节点监控的啊,监控实时读进来多少数据啊,多少多少,好,那之后读完这是读到这数据,那他读完的数据通过这个deep stories再把它存储到历史服务器节点。
10:29
这个节点,那么这边客户端来访问broke not说要查询数据,那他查询的命令咔到这,卡到这。啊到这,那么他就会把这两个数据通通的再汇总到这里面的内存当中。啊,内存当中,然后返回给客三啊的一个查询,那在这期间这里面还有一个括号点no,它主要负责这里面数据的负载均衡的啊,负载均衡的啊就这么几个,那这个呢是存储原始数据啊,统一协调调度啊存储的数据的。
11:08
这么几个角色啊,这张图如果你像你在你脑海中有印象的话,那日后在面试的时候,如果问你这个登录仪底层的原理是什么,那就OK了啊,官网也就这张图啊。OK。
我来说两句