00:00
好,接下来呢,我们回顾一下昨天讲的内容啊,那我以面试题形式来回顾啊,首先呢,第一章当中有一道面试题对吧,那我问一下啊,还是提问的形式啊,欣欣,你给我说说第一章当中有哪道面试题?哎,数据常数的输入和输出,对吧,那它的输入是什么。满眼用户的日志啊,OK。业务兄弟,买车里兄弟,嗯。嗯,系统是输入到系统报表,OK,这是最基本的一个答案啊OK了啊好,接下来呢,是来到这个第二章,第二章当中第一个啊,我这边这个可问的啊,来大新你给我说说系统框架版本的典型以及依据。你选择什么框架版本?阿帕奇句阿帕奇版本零。
01:06
就是比较通用,然后可以配置性比较高。他就是灵活性比较强一些啊,灵活性比较强,但是呢,对基础要求会高一些,那另一个呢。一下用的人比较多,主要是。稳定性好。而且安装起来是。来,那最主要的就是版本性兼版本之间的一个兼容性,嗯,它是最好的,不需要你考虑这方面问题,如果你用它默认啊。OK啊行,那APP呢。主要是那个是开源,然后。没有OK,好下一个下一个呢是服务器的选型,服务器的选型的话。魏琴,你说说你选择什么样服气理由?
02:03
嗯。物理机安全。数据安全对。对,没有运维人员的话,尽量选择云主机,OK,那么它的价格是怎么样呢?嗯,OK,就是运云主机呢,是机加包括这个运维,同时又包括这个服务器的这个钱啊,那一年的话大概是5万左右啊,正常咱们这个配置啊,啊5万左右,那这个像物理机的话啊,正常一台物理机以我们大多数这种企业来说啊,10万块钱左右,15万块钱,但是呢,需要考虑运维成本啊。呃,这是服气,那剩下的资源啊,资源这个计算吧。
03:01
再找一个。来,冬姐,你给我说说。这个集群的资源计算,你有一条数据。然后呢,每条日志1K。那你怎么去购买这个服务器,嗯,要求半年内。不更换了,服气。或者不增加户籍。怎么说?对,这里面有几个点,第一个点呢,是这个半年对吧?啊,半年就对应了180天,嗯,好,那对应180天,那首先要算出一天呢,那一天的量呢,是一条1K啊,那我给它转化成多少G对吧?那除以1024,再除1024就变成了G对吧?先除以102变成兆啊,再乘以102是不是就变成了这个G,那约等于呢100G啊,每天100G,那我这边是半年不增加伏G,那就要乘以180天啊这样然后呢,同时还有三个副本,所以说再乘以个三,OK哈,接近也是这个54台,然后呢,还有一个20%~30%的。
04:38
预量啊预量,那你要再除以一个0.7啊0.7,那这样的话将近77G左右,那我就8K的这个磁盘的话,那我乘以十台服器啊,那这样的话就OK了啊,是这么算的啊OK。行,那这个搞定之后下边直奔。最核心的linus开始。
05:00
那我再找一个。基文,你给我说说Linux和下有哪些问题?800。说具体事儿吧。不定身边的长命的都不记得了,对。123还有。到了没有?第二,感谢。I。嗯。逗号呢?啊那类OK,嗯,行,那下呢几个常用工具。
06:00
打个还有这些。400。其他的记不住了,你找同学帮你来,谁帮你?嗯,行,那当官的来。上sad。还有呢,看OK对了,不错啊,还有嗯。行,那这就是这个Linux和这块啊,第一道题呢,就是Linux长命令啊,第二题,第二道题呢,就是这个cell啊,它的工具啊常用工具,那有这个aw KD上看好,那下边到了这个这块。同样能够生成函当中,嗯,第一个文档里面有两个问题,分别是什么?答案是什么?忘了忘了不行啊。Android第一个文档入门里面。两道面。
07:01
忘了就是你看谁能帮你。谁能帮你?啊,没人帮你啊,组长啊,来吧。他愿不愿意帮你啊?这张。明白了吗?常用动物号对第一道题。对,开头完成过程当中的配置八个配论件对吧。那来说说吧,咋动?50070。巴黎巴巴。要你帮吗?那么。还有什么这个50010啊啊,50090啊,对吧,啊行,那你给我说说这个,那发个配件。发菜呢?大声。俺家饭菜呢,腌菜呢?
08:03
那不了。三个因为分别是谁的三个因为。还不可以吗?这不对应着asv和对吧,啊,这三四个组组成,其中在三个组件嘛,AS6嘛,对吧,嗯,还有一个。S slaves,嗯,Oks,那在安装过程当中有两个组件是必须安装的什么?SS聚合接D配对吧,啊马音OK啊,声音要大啊,下次我还得找你啊,声音太小啊,你在面试过程当中,如果说你的声音啊很小,那面试官只有一种可能,认为不自信嘛,虚嘛,是吧啊肾虚加热班啊。那肯定不行啊。所以再补一补啊,没事儿当保健休息啊。
09:00
那这是这个孩子王第一个文档,好,第二个文档是什么,没问题啊。HDFS呢读写流程对吧,嗯,第三个呢,开始就是mapdu和延,嗯,Mapdu。问一下沈瑞来。你说上。Map就是的suffer及优化。嗯。嗯。嗯。啊,贼白的啊。保险缓制器100兆,嗯,然后达到81%血对吧。然后呢?
10:03
先你记住哈,千万别把这个硬化和那个搞在一起,你先把这个沙发说完,然后再说句话啊,这样思路更清一些。嗯。然后呢?归排序对吧,嗯,归排序,把数据按照分区放到。对应的纸板上对吧,好,那你六端开始拉取。嗯。那你在哪儿啊?拉取到内存对吧,内存不够呢,一写一写到磁盘,然后。
11:01
什么进行归并排序啊。嗯,归排之后,在这个工程当中,后面可以加上。分组对吧,然后进入到reduce方法是不是这样过程啊,有那么难吗?那接下来你说句话。那地方能有啊。对。内存100兆可以调大到。200张,嗯,然后80%可以调到90~95 OK,嗯,然后这个归并的时候墨迹。默认默认这个。十个啊,那我们可以调达到20 OK,好,那继续,那在推平过程当中可以进行。Commander条件。
12:03
那什么情况下不影响业务结果?对汇总操作对吧,嗯,不用操作OK,好,那为了减少磁盘O,我要进行什么。压缩啊,那慢步正式压缩有几个地方可以进行压缩。三个地方对吧。Map之前,Map之后和reduce之后,那么卖之前要注意什么?嗯,尽量选择能够支持芯片对吧,那卖了之后呢。啊,速度比较快对吧,那快的话谁快。三米和蜡螺,那这个切片谁,谁能切片蜡螺和谁?B这个to to OK,那re,输出端一般就分场景,那我想永久保存。
13:09
压缩比最高的,但是速度慢去了是吧,嗯,好OK,那这个压缩完之后就进入到这个re端,那re端这块怎么化。让人更在。默认拉取几个,五个,那我说可以提高拉取的次数啊,个数可以拉到十个,嗯,好拉过来进入到哪。那存,那这个内存可以调大,OK,好,那这个是NUMBER6,同时从整体上来考虑的话,我要增大map test和呢。内存默认内存是多大,都是1G,开发中能到多少啊,四到6G对吧?啊四到6G OK啊这是这块,同时还可以增加CPU的核数啊,这个的核数还可以,这个呃,增加啊这个重试的一些次数啊啊这是这一块,那除了那个S优化还有一个小文件。
14:16
对吧,啊文件那小文件的优化。还记得哪里吗?是种三类。嗯,四种三类分别是R文件归档和自定义音不档。之后combine再一库,还有一个JYM怎么用,那么这两个属于一类,它优化了什么?减少了内漏的存储空间,对吧?啊,因为它对外是一个整体,对内是一个小文件,那就把1万个文件,它对这个内漏来存储的话,可能就需要存储一个文件,这个大小就够了,是这样吗?OK,那这个combine发动发呢?
15:09
他解决什么?嗯,对,它是不是将多个小文件合并成一个啊,那它就是改变了是不是切片的个数,就开启开启ma的这个个数啊,那接来重用它减小的什么。减少了这个GM开关的时间,对吧,因为它这里面的这个任务呢,很小啊,那每次这个开关这个时间也许都比这个运行计算这个时间还长啊,所以说可以减少这个地方啊,就说GM呢,它是在有大量小文件的时候,是一定要这个开启冲动的,OK啊,后面去努力啊。这是爱榜,不要慌啊,正常,现在不会是正常的啊,当第都不会,你就得陪我睡了啊,那下面呢啊,继续爱榜。
16:05
这找高手来,张强昨天晚上学习的是吧?你给我说说,还这么严工作机制。客户端上单,他提交请求,然后给他一个。地址对吧,那地址里面提交哪三个内容。擦完了。在吗?得有切片的,没有切片那怎么还有呢?运行程序是不是有加包啊啊,这有加包,这不三个东西啊,提交完成之后,客户端下面有商量来着。嗯,告诉他我已经提交完了,同时申请运行application master对吧?嗯,好,Master,那形成一个任务,那这个任务放在哪里面。
17:08
是队列里面队列默认这个队列是什么?嗯。掉气不掉哪个掉线。容量调度器对吧,呃,容量调器啊,放到这里面好,那既然放到调度器里面,哎,那有空的资源。就会领取这证。那林云要运行这个任务,需要。需要在点容器对吧?嗯,在里面申请CPU和内存啊,内存啊,那同时就启动了。安master对吧,啊,整个照顾老大安master好,请用他之后,他就会去这个集群上去读这个,这是主要就是读这个。切片啊,根据这个切片的个数决定启动mapa的个数啊,OK,启动mapa的个数啊,申请启动这么两个,启动完之后,这两个note外表需要运,运行这个任务同样需要申请。
18:14
资源啊好,那申请到资源之后,这边一个启动命令啊,开始执行,执行完最终按照分区放到对应的平台上。放完之后是不是就开始启动reduce test,每个reduce test拉取对应分期的数据?然后进行计算,计算完成之后写到,啊,然后这个呢,Master学我已经运完了,把我干掉。啊,就是每个过程啊OK。行,那下面的话最后一个盐的调度G调度器啊,一刀会你跟我说说。三本道具。啊。
19:01
容量物品道具啊。单队列先进先出,OK。多带点。电影都是队列的歌手。多。是吧,嗯。啊,利落。大于等于对列数对吧?啊,OK,好,不错,你看同样是学习,这真是不一样啊,一刀割还是有本钱的。下回继续学习啊啊。啊,那这个是开豆腐,其实拍豆腐就这么多内容啊,想想其实真的没有啥东西啊,好,那来一个最简单的。
20:04
芳华,你给我说说,祝keepper。两个面试题分别是什么?选举机制,什么机制?半数即是OK。唐。来great OK,好,那下面是来到这个这一块啊,找一个汉江那一条鱼波说数当中有哪些是。主场。组成,那你得说说清楚它的so是什么,那是什么什么对。就在项目中,一般面试官就问,你在项目中用的是什么,理由是什么?太阳电压OK,嗯,支持断子续多中啊,OK,然后探走。
21:05
就是分。Five。慢慢。嗯,老板传统的优点是。他比较稳。不容易,不容易。对。是在食堂里面。是写在内存里面。如果发生意外,或者。然后丢数据,在会丢数据,然后卡不卡的,就是配合卡不卡使用对。然后。要注意什么?小文件怎么怎么处理小文件配置?
22:06
三个参数。而已。有一个插座就是。一个是。一个是大小。这个就是。时间时间时间啊,分享对多长时间,还有一个就是。Even个数,嗯,OK,把它禁止掉啊。那接下来完事之后,那现在继续。啊,你这个事我事我说一下。失物就分put特失物和take失负。特失误就是。写到China。他even是批量提交的包装的一个。
23:03
失误。这个失误就是。甚至在拉取的时候是批量拉取的,包装在这个一个这个事物里面。行,继续上去。拦截器,还有选择器,还有监控器。拦截器的话,项目中就用到一条拦截器就是一些最简单。逻辑非常简单的数据过滤,它不能做。整条链路的性能产生影响。第二个拦截器就是。分类。然后它的作用就是根据。在中加一个。
24:00
标识。它是哪种类型的。选择没有是那截器步骤。就是实现。实现拦截器接口,然后实现四个方法。还有就是。那好吧。恩,最重要的两个方法就是。第一个就是。单基本过滤嘛,第二个就是。结合过滤,然后。框架调用的是。Even集合过滤。所以在even集合过滤的话,要调。之前你自己写的那个大译文。对,一个是单英文的处理,一个是多英文的处理,对吧,同时还有一个数字化和一个关闭,然后呢,还有插。就是实现一个内部类,内部类丢的,因为框架调用的是这个类的。
25:08
嗯,OK,嗯,完美下来选择C。显示器就啊。China选择选择器的话分两种,一种。就是。全部都发给所有的,还有一种就是根据你自己的配置。不,一个叫默认。啊,他把所有数据发往所有通道对吧,那这个呢,是选择性的方往不同通道,OK,那这个监控器什么时候用。监控器在啊。一开始。集群测试的时候。可以用来就是看你这个。你是不是?是不是?
26:00
Take失误和。的思路就是相等。就是写到的个数。啊,Shift拉拉出的个数是不是相等,就是尝试提交的次数是否跟成功的次数一致,对吧?因为它是attempt尝试是交啊,如果尝试提交了三次,那最终他就成功了三次,那肯定就是我提交一次就成功一次,那如果尝试提交三次成功了一次,那说明你两次失败了对吧?OK啊行,那如果发现这个机械性能不OK,尝试失败了呢,从事的这个事数非常多,那怎么办?增加的数量,增加数量。增加内存在哪里增加内存?那软件。在。com下面的那个。弗母,因为对吧,啊弗因为啊在里面,那好,那一般情况下你们调整成多大。
27:04
世纪,嗯,好,那问祖母丁丁数。看了的话不会丢。因为是写在磁盘里面。我是用。嗯,丢,同时这里面其实还可以加上一个DR啊,因为TDR它也保证这个数据不丢补充,因为它是支持的典型的,那如果让你去制定一个。上实现跳加的功能怎么实现?那个磁盘上面的文件保存你现在。原理就是。他在磁盘上的某个文件写进一一串接串嘛,然后接这是。这是以这个文件名。
28:02
然后。这个省串是个省速度嘛。那里面有一辆文件名更有信心。对,嗯,像这个在1.7之前,比如说1.6啊及以前吧,嗯,是没有TDRS的,那这时候呢,都是自己去自定义这个上实现TDRR的功能,那这时候这TDRR怎么实现的呢?其实它就记录了这个文件读取的位,读取的高问题,那下次的时候我就从上次读取的位置开始读,那这个K量呢,把它保存到磁盘当中。啊考啊,类似于卡卡对吧,卡法的时候是也是有空量啊,啊是一样的,它保存到一个位置啊,然后下次再读取的时候从这个位置去读啊非常不错啊,像这个一考你这种状态的话,应该能达到一个刚毕业的学生当中的一个入门级别。门。如果再快一些的话,现在就具备了这个现在能拿到一个offer,至少应该是这种这种水平,但是呢,再高的offer呢,这个你这个熟练度会影响你的分数啊,因为好多同学啊,这个数据面试说老师我我这每次都答的都对啊,啊怎么这个面试官就是不要我。
29:17
其实这个答案。从你嘴里说出来和从另一个人嘴里说出来都是对的,但是也可能从要里去啊,原因什么呢?就是你说出来这个状态啊,是不是这个非常这个呃,非常自然啊,而且非常熟练,而且说的这个非常自信的说出来,还是那个我一在想啊,不是你想想了半天,然后磕磕绊绊的说出来,这结果是不一样的。啊,差了很多,至少差个三五千块钱是正常的。啊,这种方法所以说啊,天天每天在练,大家可以熟心啊,是非常有用的啊,之前咱们有一个学生去阿里啊,去阿里巴巴那一共经历过六遍,那绝对是魔鬼式的这个训练啊,怎么训练他每天早上起来第一件事对着墙说一个小时。
30:04
嗯,从内模是刷到18个,然后从这个项目第一个项目刷到最后一个项目。就是对着自己说,而且录音啊,录音之后让们发现哪个地方有问题啊,第一时间给老师打电话啊,说老师这句话呢,你给我解释解释啊,然后把他捋券了之后,然后他继续这样啊,他最后发了一个朋友圈,就他女朋友以为他进了传销啊,以为三三万五是一个传销,传销巨口,因为他就像找冷文一样啊,今天就是背练题,背练题啊过一遍很兴奋,他只要过了一遍,第一时间给老师发微信,老师我过了啊,下一次我还是很紧张啊,还是很虚啊,然后继续下沉,继续下沉,一直到最后成功了。其实他在去阿里之前,他拿到了一个国险,知道吗。进了你们的菜,嗯。他拿了一个4KL。嗯,一个月才才开始。啊,你想一想啊。那这个努力跟付出是成正比的,包括他在学习过程当中,后面会给大家发一下他在学习过程当中总结的一些笔记和资料,包括一些算法啊,你看是怎么总结的,他把上课老师所有的话,就是口述的话翻译成笔记。
31:16
笨蛋。啊,全部一行一行去翻译,对是那啊,就一点小,因为有些东西是在这笔记上没有的。他把这全部都翻译成这句话啊,接下下啊,包括我这每一期一期期往下传啊。这个很厉害啊,这个人要善于总结哈,行,那后面的话我们来看一下这个最后一个尴尬啊,像这个一涛啊,就有潜质,无论多方面条件,应该去哪里问题不大。嗯,同学瞅瞅,来之前你给我说说。然后那个。对。
32:00
然后消生产者的话就是。零。后失,对,有可能丢失是需要达到leader返回leader的,然后才发送。然后负一的话是一点,再加上S,然后才能。OK,还有。嗯,都主题OK。按什么分的?你分了多少个主题?取掉。对,那你的业务是什么。
33:02
你这个项目当中,你不能到主题。对,那你有多少张表,12张,12张表那多少钱?如果有相同的业务背险的可以进行合并。不需要做的表。嗯,OK,消费里。这个。就最细的情况下,对吧,最分的最细颗粒度最细的话,一张表一个柱体啊,然后呢,它在体业开发中呢,都会有一定的轻度的一个聚合啊,把一类事物的表放在一个topic里面啊对,那像咱们这12张表啊,初步的能合到六七张表啊,六七个主题啊这种样子哈,OK。副本,嗯,副本副本那你是多少个。OK,从从哪方面考虑?为什么?你为啥不在线呢?
34:04
跟你没关系,对,选择两个原因跟你有点关系,其实就是减少食盘忧嘛,这在为了减少为了快啊,那你要是三个的话,考虑的就是安全可靠对吧?啊,这是两两个维度啊OK。嗯。是他这个在一点。嗯。考虑的是两个原因因素,一个是时间。这个。延迟现在的话。OK,消费者的消费者,消费者一个消费的。同意收费者组里面的消费者。
35:00
只能设为同一个。嗯。默认是哪个?认真什么的。嗯。但是如果说平均的话,就。的话,前前面的。行,然后还有毕竟。一个是测试,一个是台数的选择啊测试数的话有两。嗯。嗯。台数。二代什么?风是什么?
36:01
什么时候有空?什么数据?三法,速度还是消费数据。啊,生产速率峰值生产速率乘以副本。除以除以三啊,OK,好,那不错,但是呢,你只能得六六十分左右。就是你很多东西都记下来了,而且记得也不错,但是呢,就是细节不行啊,细节没有特别到位啊,或者自己有的时候可能还没想太明白啊,就是这种要细节上啊,要知到在啊,至少你现在出去找工作啊。得念个五六家以上吧啊,应该还好啊,现在的日子还长呢,后面有好多目标生啊,这样整体还不错啊,这个考法这块啊,基本上呢都打出来了啊,那有一些个别遗漏的,就是这个保存时间七天,基盘大小啊,那也是每天的数据量乘以七天。还有呢,就是那个卡呢,有监控,嗯,有这么两类,市面上一类呢,是这个公司自己去开发的这个监控器,另一类呢,就是这个现成的开的卡manager和monitor。
37:09
那还有一个是分期数,分期数呢,正常情况下,像咱们这个数据量就是三到十个分区啊,要求呢,分期数不能超过集群的数量啊,尽可能哈,OK,然后是副本啊,多少这个分数SR啊,分析分测量啊这么几个,然后呢,还有一个卡卡的数量啊,他会问你的卡夫卡里面峰值的生产,嗯,每每秒过多少条。啊,就是你这个打法当中,你表大概多少条啊,第一个呢是平均多少条,还有一个呢,就是这个峰值。那这里面呢,进入两个数值,像你咱们这个一条的数据量的话,每秒钟呢,是1100多条平均,那如果是峰值的话,那每秒钟将近二点时个。
38:00
啊,你说个四五十兆问题就OK啊,没有问题啊,行,那这这一块,那另一个呢,就是卡马挂了之后啊,有没有问题,那卡瓦呢,其实挂了啊问题不大啊,首先呢,咱前一集有姆啊优盾缓冲,另一方面呢,这个在最前一集呢,还有日志保存30天,大不了再重考一下啊,短期内没有任何问题哈,行,那这就是这个整个啊,我们要掌握的内容,比如说第一个文档就要掌握这些,那就OK了。基本上一个小时之内啊,全拿来。
我来说两句