00:00
好,那接下来呢,我们继续往下看啊,下一个呢,就是这个主题本,那主题题本更简单了啊,我们讲了一天这半天记,其实只需要掌掌握两句话,第一句话它的选举机制是半数机制啊,OK了啊,这么简单啊,另一个主配牌长位置。MS盖啊类的啊等等这些那个就够了啊,基本上呢,就到这个难度,当然主keepper个别公司问过特别深的,就是主keepper这个学以上岗啊,是不能,但是极少极少啊,目前为止咱毕业了将近七八百个学生,只有两个学生知道吗?啊,所以说这个概率呢,你可以选择性放弃啊,没有任何问题,而且它不是一个绝对的一个嗯,必须要会的东西啊,OK,行,那这个呢是主力包相问题之后呢,是这个flow啊,Flu这个东西呢,是一个非常呃非常常用的,在面试过程当中问的也是最多的啊,一个框架那个,那这一块好,第一道题就是它的组成。
01:06
啊,它的组成呢?分为south China,那面试官会问,在你的项目当中,你选择了什么south,为什么?啊,那我们选择的是太阳电上啊,那为什么呢,支持断点续传和端工作个文件啊,OK,就这么简单,那下一个问题你的TRY选择是什么?Channel member channel卡啊都可以,那我们这项目你可以说channel对吧,那么接下来的问题就是有三中什么特点。安全啊,但是慢慢慢传能快,但是容易般容易丢数啊,那卡卡传能省去了think这啊下一题必须得是卡卡啊OK啊那解决了,那这个think咱们在个项目当中用过什么性格。
02:08
HTS信对吧,啊HSOK,那在配置HS shift的时候要注意什么问题。是不小文件了啊,产生小文件,那要是控制这个小文件,需要配置三个值啊,常值一个是用来控设置时间的,达到一小时形成一个文件啊,或者达到128兆啊,现在文件啊,那像那个even的个数内容基本上在企业开发中不用了,都把它设置零禁用啊,禁用也是时间和大小是主流的,OK,那你说s title s我能搞定了,那在S和title之间有一个四五。叫put事物,China,这之间有一个take事物啊,OK,那就组成,说到这种程度组成就OK了,那下一个问题就是在通幕当中有三个G。
03:13
啊,三个线。拦截器啊,选择器,还有一个监控器,OK,那么先说一下拦截器在你的项目当中用过哪些拦截器?EDL拦截器还有分类型拦截器,好,那问题又来了,在EDL拦截器当中你做了什么事?简单的过滤掉数据,不完整的接收数据,对吧?啊,主要是判断的是否是大框开头,大框结尾啊这种,那如果是加上服务器时间的,那校验一下服务器的时间的长度和是否是全部是数值。
04:03
啊,就OK了。那在这个分类型当中。发电型来电器,那这里面我做了什么事?把包里面的数据按照不同的类型放到的不同里面去,对吧?啊就是这么一部分OK。那大家有没有一个疑问呢?这个两个拦截器我能不能放到一个代码里面实现。完全没有任何问题,对吧,那为什么要分开呢?结耦啊,OK啊,结耦OK,但是呢,其实你要放在一个里面,性能上会略微好一些哈,会略好一些,这个要知道OK,错行,那这个是拦截器,那拦截器还没完,他会问你如何来简单的制定一个拦截器步骤。那就是定义一个类,实现intercept接口啊,实现Internet的接口,然后重写里面四个方法,初始化close和单一文的处理,以及多一文的处理啊,然后最后还要创建一个静态内类build啊,这就完了啊,妥妥的反就么简单来记。
05:28
那拦截器完成之后,下边就到了选择器。那问你一共有几个选择题,两个replacing和moreplacing啊,那默认是哪一个replacing啊,那repla什么特点,全部的传到所有的传统,那传统呢,PLA呢,选择传网不同的匹配的map上,就是那个不同的topic上,对吧?OK,那还有一个监控器。
06:00
那么监控器什么时候用?在我们搭建完集群以后,要想测试这个集群的性能,那这时候我们就要对它进行一个监控,那监控发现什么了,就觉得他有异常了呢。尝试提交的次数大于了成功的次数,就说没有异常,那这时候我们的办法就是增加的个数和内存啊,内存这两个角度,那正常情况下在企业当中的内存是多少呢?试剂啊,试剂游泳啊,那这个试剂在哪里配浮动往因v.SH里面是不是有参数啊啊OK,那两个参数还要配置成一致的啊,一致的防止类型抖动啊OK。那就没了啊,那还有最后一个,最后一个问题就是辅助电流数。
07:06
我是丢啊,你想一想,他如果是fair try,那就不丢,如果是ever就有可能丢啊,要记着点算丢啊,还有那那时候会问辅助宕机了会有影响吗?没有,我们有断绝续传,哎,对啊,没有影响,记住,因为我们的so端有PA丁支持断点续传,中间这位置我们选择fair final,它有磁盘落盘对不对啊,而且我们中间还有手啊,所以说非常稳定运行啊,不要被面试官唬住啊,这样就完美解决掉啊,进官进入到啊好,那辅助我就这件事就结束了。你想想辅通国扩扰你们这么久啊,其实就点事一个它的组成啊下我该组成s shadow性啊,那什么sa为什么,什么颤头为什么啊,什么性格小尖处理,然后中间事物事物。
08:09
接触,然后三个器啊,拦截器,选择器。啊,监控器,那接下来就是拦截器,你用了哪两个拦截器啊,用它干什么,了解什么事,然后它的自定义步骤是什么,那选择器有哪两个选择器分别什么特点。啊,然后监控器用它干什么了,什么情况下发现进行异常没了。这种。是吧,所以说我给大家的要求就是在你毕业的时候,两个小时之内把从linus一直刷到Spark结束啊,应该说到你班应该到fli了啊,Fli结束两个小时内把所有编辑背出来,OK,稳稳的。嗯,对,两个小时。自己跟自己背。就那么简单。啊,我现在我跟你说,我两个小都遇得上,我要这一说的话,可能一个小时搞定18个,我从来都没看过,但是18个的面试题我倒背不流,对我都不知道他是干啥的,但是我告诉你这个题你一说我就知道啊,就这么我从来都没看过那个大的那个质量题啊。
09:20
行,那这个呢,就是这个相关的啊总结然后。那下面呢,就是那个到达卡布瓦啊,卡巴卡布尔呢,也是一个非常重要的框架啊,在这个采集通道上啊,问的最多的一个是一个是卡法啊这么两个东东啊,而且呢,各种把坑给你们啊,好,那我们来看一看卡板,那卡板呢,首先呢是它的这个架构,那这些架构呢,分成了几块啊,左站这一块呢,是分盘者啊,然后呢,中间呢是卡的这个集群里面有brokeer啊brokeer然后它这个leader follow啊,分区等等这些事儿,那还这还有呢,消费者啊,还有主keepper啊,那这里面有一个注意事项。
10:04
主hipper里面有没有生产者的信息?没有啊,他只有的是消费者的信息,这一点要注意,你看生产者跟他有关系吗?没有任何关系啊,这是一个坑啊,要注意好,那这完成之后下边。那这个不是卡夫卡,你要记住,卡普卡是做了它的压力测试的,可以测试它的生产能力和消费能力。那面试官正常情况会问什么呢?诶,你们卡发的生产速度是多少?直接就蒙了是吧,0.1肯定是小啊,你可以这个十兆20兆啊,30兆啊,这样子去一下就OK了啊OK吧啊这道题还有他的那个消费能力,消费能力。行,那你记住你会跟编试官说啊,我们这个搭完机器之后,我们其实是做了这个生产测试和压力测试的,对吧?啊压测试的啊,没有任何问题,那好,还有呢,就是这个卡尔机器机器的数量。
11:11
这个你要跟别人说我是怎么刷来的啊,并不是拍脑拍来的啊,你可以帮他去计算,那这里面呢,就是2N加一,那这个N呢,就是三单者的峰值速度乘以负本,然后再除以100,那增值生产的速度呢,是兆每秒,记住了啊,这是兆每秒,好,你把这个一拍过去,那直接变成完就差不多了啊OK,那这个完事之后,那下面就是卡不卡保存数据的时间。默认是七天好,那么卡不卡磁盘,你要给他留多大的力量?七天乘以每天的数据量是这样吗?啊,其实还要一定的预量预留,比如说这是70%对吧?啊到9%OK。
12:04
那还有卡卡有多少个分区?对啊,你设置多少分区。面试官直接会问啊,你说你不知道,那你你咋处理开发呀。正常情况下是三到以我们的数据量啊,三到十个分区啊,因为分区影响什么。消费消费的并发度对吧?啊并发度,那么三到十个这个分区的个数不能超过集群的个数啊,也不能说不能,应该说不建议超过集群的个数啊,对啊,不要超过十个,OK,那么。卡巴卡的副本多少个?没问你们是副本设到哪个?一个弄死你一个副本两到三个,两个副本居多,两个副本居多啊,因为呢,它是影响磁盘的IO啊,磁100O啊,所以说呢,正常情况是两个居多啊,为了很多大场啊两个居多,OK,部分那还有。
13:13
卡夫卡当中有多少个topic?那多了几个,告诉我两个完了。几个?比如说你说一个六个是吧,面试官第二需求是哪六个,对,那你这四个,那是哪四个,每个单位里面做集成哪些数据。就这么简单,多简单,如果概括的同学一定会知道,那有几个对不对,而且里面存在什么数据。啊,所以说面试官就会通过这种方式测试你啊,以前的学生就说,哎,老师好难啊,我这实在答不出来了啊,其实很简单对吧,几秒钟的事就搞定,那你想一想,他那个我们在这个用户前端,就是用户行为里面是有12张表吗?啊,12个表正常情况下一张表就对应的一个topic,因为它就是一个事了,对吧,一个主题吗?啊就是一个主题,那为什么这个topic它不是这个12声呢?它有一个轻度的一个聚格可以。
14:21
把一类事聚在一起,比如说商品的列表,商品的详情。啊,还有商品的这个点击是不是都是围绕商品的一个事了,那我就可以放到一个行业里面,那这边我们还有广告。是不是单独一个事儿啊,可以放一个好的电影,那前面还有通知。前台活跃后台活跃也是通知类的,我再放一个论,我还有这个评论点击啊,评论收藏点赞是不是这一类信息我也可以放在一个topic片里面,然后故障日志我是不是也可以单独放一个topic里面。啊,都可以。那放到每一个它啡里的原则是什么呢?看这比如说是考不卡,那下一题有离线数据,你说离线这个数仓去读这里面的卡卡数据,那还有10SPARK实名,你是实时的去读取这里面的数据,还有像德鲁伊这种方向读这个数据,还有ES读取这种数据,还有其他业务部门也来读这个数据。
15:26
那么你这个topic的这个主题要求能满足下一级所有用户的需求。什么叫满足所有需求呢?比如说你把那个商品的详情,商品列表啊,商品点击放到一个topic里面了,那么离线这块,它只要假如说啊,只要点一实时这块只要列表。那么你放在一起就不合适对吧?啊,那肯定有人就有余了,那你就尽量要分开。
16:01
啊,就这么一个原则啊,如果下一级对象他对这么大的一个颗粒度能够接受了,那没问题啊,这些都可以消费的走。啊,那正常情况下,这里面的套里面呢,啊,十几个十几个到20几个。啊是比较正常的啊,是几个二型啊,OK,行,那这是它里边啊一个往下过啊好。还要问卡发当中你做不做监控?装啊,用什么建的卡尔单这和方子啊,那在真正的企业开发中呢,有个别这个比较有实力的技术公司,他们是自己开发的啊,自己开发了一套啊,OK,要知道那这也是卡发啊,这里面写呢,正常情况下是三到十个啊,一般情况下不要超过集群的数量啊,副本数呢是两到三个,正常情况下设两个的居多啊,还有多少个topic表,通常情况下是多少张表就对应着多少个topic屏啊,那当然有些公司会尽快进行一个合并啊,合并OK。
17:05
好,那这一个问题卡卡对不对数。啊,这是非常问的卡瓦再说卡应答,嗯,卡巴有一个AC的一个应答机制,它如果等于零对不对。它属于什么特征,发过去就不管了,对吧,不需要等一达直接再发,那这种就很有可能丢数啊。20个等于AK等于一。说了算可乘一哪,那AC等于负一。对,那就是leader和啊都会应答啊,OK,那这个呢,正常情况下看你设置是哪一个值,这样去跟他说就OK了,那下边还有一个IHR。副本节电,那这里面isr解决了什么问题?其实它解决的就是leader挂了,涉及到老大的问题。
18:03
啊,Leader化,那leader化了之后,在isr队列里面的人有机会当老大,那什么条件能进入到这个R呢?两个参数啊,一个是延迟条数,另一个是延迟时间,那新版本只剩下延迟时间啊,延迟时间啊OK,那就是这个问题,还有啥啊,你就记住谁挂了谁那不大啊好,那下面呢,还有这个卡夫卡的分区分类策略。啊,那卡帕有几个分就没策略。两个认和run默认是认啊,那认呢,它是按照这个。线程这个是消费者线程啊,去除以对应的多少个消费者啊,然后这么去除了,除完之后除不尽的放在低位对吧?啊低位,那这样的话就会导致负载不均衡啊,不均衡就容易出现数据倾斜啊,那这里面就出现了一个叫。
19:15
啊,那它的特点呢,是将所有的主题组成一个大的topic列表,然后对这个列表按照哈特进行排序啊排序然后按照文学一个引发啊,那这样减少这个。顺序线啊,那这里面其实有一定的前提条件的,就是同一个消费图啊,里面的所有的消费者的线程必须得相等啊好,那这是这块,那下面呢,还有一个就是卡夫卡的数据量的一个计算,就卡夫卡当中有特。那我们来看啊,面试也容易问这个啊,每天呢,我们是数据量是100G。啊,总数一点,每天产生1亿条对吧,这么评估的,那么这一条呢,除以24除以60。
20:08
分60秒啊,那就是1150秒每秒钟。啊,每秒钟好,平均每秒钟1152,那么这个扛法,他工作当中肯定有他的低谷和高峰,那比如说我们是电商的,问大家什么时候卖东西。晚上是吧啊,一般晚上或者搞一些活动的时候是这样吧,啊,那什么时候不买东西,一般早上起来的时候买东西么?很少吧,挤地铁的时候上班可能也少啊,那这里面就涉及到一个低谷和高峰啊,不同行业不一样,你像这个小说或者新闻类的,是不是早上这时候反而更活跃了啊,更活跃一些哈,好。然后高峰期每秒啊,我这里乘以了是20倍,如果个别活动的时候啊,其实20倍的不止啊不止,那我是220倍啊差不多,那这里面就是2300条和23000条,那每条日志的大小,它是在0.5K到2K之间,那通常情况下我们取1K啊居多一些,那么就是每秒钟这么多,这。
21:19
2.3兆到20兆,你最多的时候20兆左右啊,20兆左右啊,你可以说30兆40兆,我觉得没问题啊,没问题,所以说这里面就是这个卡卡的数量啊,他会问你,诶卡卡里面每秒钟大概有多少条数据啊,就1000多条啊,那会问你每秒钟有多少兆的数据啊,二三十兆对吧?啊,这就文本的啊。最后一个问题,卡挂挂掉了怎么办?很多电视总爱问这个事,卡卡挂了会不会有影响?那。好,那这个他挂掉啊,没关系啊,首先他前一级数学负重嘛,啊负重,而且重部没有缓存啊,OK,还有你最开始是不是还有三篇日志呢。
22:14
记得吗?这个日出保存30天呢,最差的结果是我把这年的数据再重新跑一遍也就完事了啊,这是最差的价格啊,好,而且短期内没有任何问题啊,短期没有问题,不要被这边官网糊住了啊,就说他发了什么什么怎么样啊,其实没有任何问题啊,因为卡不卡的数据也是生储到这个基板上没问题啊。行,那这就是整个这个面试题啊,分好不好啊,就这么多,你看才多少东西。
我来说两句