文章/答案/技术大牛

发布

首页视频123_尚硅谷_面试题_技术框架

123_尚硅谷_面试题_技术框架

2022-12-022022-12-02 16:02:32播放35

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据项目之电商数仓/4.视频/123_尚硅谷_面试题_技术框架.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来呢，我们看一下啊，复习一下这个项目当中涉及到的技术啊，有这么多，那还有呢，下面这块呢，都是业务啊，你说如果你说一个项目的话，描述就从两块，一块呢是项目当中用过哪些框架，另一块就是项目当中分析了哪些业务，这么去描述一项才能描述的透，而且这些东西都要你去主动去说的，不要等面试官提问啊，否则的话，这个时间呢，会非常非常短啊，基本上五分钟十分钟可能就在那了，面试官觉得他自己没什么问的，你呢，这边他觉得还等着他问的啊，满足了那个技术啊，说不出来啊，这就尴尬了啊，那么来看一看啊，第四啊，涉及到的这个基础，包括linus cell啊，这是第一块，那Li这块呢，其实第一道面题就是linus的常用命令啊，常命令，那常用命令当中包括什么？Top常看内存啊，DF杠查看磁盘空间，还有top磁盘，还有这个l top-O高比较高的这个磁盘程序。
01:00
啊还有呢，是查看端口号，那这啊I呢是查看报告系统运行时长啊，还有查看进程啊这么多正当中有这么问的，说你用查看命令，还有一种直接给右边这个说利用当中如何查看内存，如何查看支盘，如何查看多口号，如何查看进程，那你就得反过来，这是无论正展还反的都会啊，这是这块的要求啊好，那下面呢是下这块，那下这块呢，就是常用工具啊，目前来说你只需要记住有这么四个动作，W ked s就行了，那后面的时候，呃，如果你其他的重要的东西都复习完，那你再来复习一下它啊，那就差不多了，这块呢，不是特别重点啊，至少在呃次重点注意，那再之后呢，就是这个这块啊，这块呢其实已经逐渐在弱化了，面试这块，面试问的比较多的就是SPA啊，而且最近有个趋势呢，就是福。
02:00
啊，弗Li你只要会一些，那就是锏啊，而且在面试的时候是非常会用的啊，至少从这个三简历上你写的弗Li看，就是月底面试的这个机会就多很多，之前在我们内部的那个，呃，学生在五八啊，五八内部啊，他就跟那个他的面试官就交流过，就他的老大哈，老大老大的面试官他说那老大里边呢，就是只要这个这个人写了弗Li。我就会把他约过来，因为新在这个福那格，他就属于一个初级阶段，各方面都不是特别成熟，那这时候他还能对这方面有研究，而且不管做成什么样，那就说明他其实是对技术比较执着，而且愿意去学习，愿意去拥抱这个新技术，那从这个角度来说，那就值得去练一下。啊，所以说这就是这个个，呃，日后咱们要加大力度去研究的这个点啊好，那回来我们看一下还总结一共分三个文档啊，第一个文档当中呢，就有两个标题，那第一个呢，就是常用动号啊，像这个有这个50070啊，500755009050010啊802090080881988啊类似这些，那像这些当中50070必须得会50090是吧？啊80881088，至少至少这三个是要写出来的啊啊这种问题比较简单，一般情况下HR的问题了啊，都涉及不到这个技术人员啊。
03:30
啊，但是这种问题如果挂了，那就是凉透透的是不容易错的啊好，那再往下呢，是配置文件，也就说在安装过程当中配置过哪些配置文件啊，那现有这个process a颜、set map set啊，4SET，还有三个EV as EV雅、EV map克SEV，还有一个是Li姆这么八个文件，那同时还完成过程当中有两个必备的条件，一个是JPK，另一个呢，就是SSH啊这么几个哈。
04:06
啊，那再往下呢，就是这个as读写流程啊，读写流程这一块就这么两张图，它不是面试题，它是种笔试题啊，需要你之后的时候呢，在呃纸上去画出来啊就OK，那再往下呢，是这个那教的上过程，以及还字句话，那这块如果面试官问你这个S，那就一定要把优化顺带着带出来啊，这个很关键啊啊那S这块呢，他首先呢，他就是我们来看。三三呢，它的范围呢，是map方法之后，Reduce方法之前这么一块啊，那map方法出来之后，首先呢，它其实是先进入到分区啊，交记这个数据是哪个分区的，然后再进入关线网程区啊，外网区里面所说也存数据存完之后到达百分之啊，这个环保制题100兆哈，到达80%的时候进行。
05:05
一些啊，它就会产生大量的一些文件啊，一些文件，好，那对这些文件我们要进行归定啊，归定归定完之后把它写入到对应磁盘的，按照分区啊放好等待re端来拉取啊好定端这边拉取，那定端拉取数据。首先把它拉取到内存啊，然后内存不够了，再一解到磁盘啊，那这个过程当中，我们可以对内存当中数据和磁盘当中数据进行一个word的规定，规定之前可以进行一次分组，最终写到reduce方法当中啊，这就是三的一个过程，当然在这个过程当中，我们可以进行一些优化，比如说还原往上去默认100兆，你可以调大到200兆啊，然后呢，默认是81%节，你可以调大到90~95，目的是什么？
06:01
减少一些文件的个数啊，减少一些文件个数好，那他到达一写的时候产生大量文件，那需要对它进行规定啊，那规定的时候我们可以进行提前的，那的这个条件是什么呢？啊判成条件呢，是不影响最终的结果啊，那什么不影响最终结果呢？求和对不对？求和啊，那求平均值呢，它就会影响最终的。结果啊，在这一块，好，这是一个优化成的，那同时为了减少O，我们可以采用压缩啊，是麦，也就是压缩，那压缩的话在麦当中有三个地方可以进行输入端，输出端和reduce输出端这么三个位置，那输入端讲究的就是是否可以支持切片啊，那支持切片的有拉图罗和B这本书啊这本书那外克输入端讲究的就是快啊，那快的话有什么呢？三啊，还有拉多啊，那输出来呢，那看你不同的技术了，是日日后还用还是不用，如果用的话，我们其实要看切片，如果不用的话可以永久保存，采用压缩比最高的对吧？啊永久下沉，好那这是这块，那压缩完传完之后就进入到re端，那re，端这块首先面临的就是拉取麦克端数据的这个一次拉取的示数啊，默认呢。
07:33
它是一次拉取五个，你可以调大的时候，就说调成十个啊，那拉到内存，那这个内存呢，你也可以把它调大啊，内存调大啊，这也是OK的啊，但是从这个过程当中产生优化，那同时还可以采用哪些呢？其实可以调大map。运行的内存和reduce test运行的内存，那默认他们的内存都是一个G，真正开发的时候都可以调到四到六个G啊这个情况，同时其实这里面还可以加一个什么呢，呃，的容器，增加CPU。
08:12
个数啊，还有是增加这个呃，失败层次的次数，还有最近我又加了一个。延安延有什么呢？延安有单个节点最大运行的内存。就是单个服务器，比如说十台服务器，每一个服务器单个运行的这个内存默认是八个G啊，八个G，那这个内存你可以调大啊，还有这个单个节点当中，每一个任务它默认执行的内存最大也是八个G啊，也是八个G啊，那这个也可以去适当的去调整优化啊，这是研究这块啊，那除了这个三号过程当中优化，其实还差一块就是小文件的优化。啊小件，那小件话呢，分为这个呃三类四种啊哪三类呢，第一类呢，就是这个加上啊，就是自定义把数据存到里面，其实它这种优化呢，主要是。
09:14
优化的是内的空间，因为他们对外都是一个整体，对内是一个一个的小文件啊，减少的是内购的这个空间的压力，那还有呢，是什么呢？Combine的话，它主要优化的是啊小就是的数对不对啊，开启ma的个数减少切片好，那那个呢是GF，它主要优化的是。接VM开关的次对吧，因为一个小文件它很快打开就执行完了，那开关的时间都比一次性的时间长，那我就还没要有必要关吗？我就没必要关了，一直开了啊，这也是解决的一个手段啊好，那这是这些啊电话那擦完事之后呢，到了这个延的召唤提交流程啊，提交流程，提交流程这一块其实很简单，就是这边是动端，这边呢是雅安啊雅安那客户端最后一条代码为comp，已经提交代码之后，把它提交到雅安申请运行应用程序application，那这边呢，就会给他一个地址把它传到。
10:26
啊，让他把这样的资源传到这个地址，那传的资源就包括切片菜麦和战包，对，那这里面这个切片日后用它干嘛。开启的对不对？好，那这边放好之后，他就会向这个申请说运行程序同时开启，就是单个应用的大好，那就形成对应的任务，那这个任务就会进入到队列里面啊放到队列好，那放到队列里面，你一旦这边资源有了，那我们男生就会把这任务领过来。
11:07
拧过来，要想执行这个任务，就需要容器，那里面就有内存，同时他要把master启动起来，那这个巴车就会是在集群上这个地方找到这源，尤其是找到这个芯片，你看界片，假如说是两个，那他这边就申请说，诶，我需要两个。呃，资源去运行这个对应的芯片，比如说看ma运行ma test运行这两个好把任务领过来了，那领过来之后这边一启动就开启麦啊，运行完之后把它放到对应的分区。去盘上等待比六的拉取，那这块就会再来一个比六代学啊拉取对应分期的数据。啊运行，那直到这个程序运行完结束，这个就告诉上呢，申请销毁自己啊，把自己给杀死啊就这么一个过程啊延的调落，呃，延安的这个工作机制，那后面呢，还有这个像这个默认的调落器啊，延安的默认调落器是这个容量调落器啊调度器的分类呢，包括三种啊，分别是Fi容量和供体啊，以及它们三者之间的区别，那这里面最主要区别是这样，首先呢，Fi发队列器呢，调刻器呢，它属于单队列单任务，嗯，而且支持是先进先出，同一时间只有一个任务，战略性它的兵发动呢，基本就是唯一，那像这个容量道器呢，它属于这个多队列啊，每一个队列当中啊，支持先进先出，同一时间只有一个任务执行，那它的并发度呢，其实是队列的个数啊好，那下面这个公内调射器呢，是也是多队列，每一个队列。
12:55
当中呢啊，会有同时时间有多个任务执行啊，那他们之间的这个启动呢，是按照这个呃缺合啊，谁学越多就该起了谁，那他们并发度呢，是大于等于队列的个数啊，这是这个啊，那正常情况下，在大公式当中或者机器配置比较好的，我们会选择公平啊，因为它这个并发度高一些，那像这个配置各方面一般我们一般就会选择这个容量高期啊这是不同的哈，好，那翻导导路器有没有用啊，企业当中是没有用的哈，注意再之后呢，像项目中啊采用拉压缩，那这块呢，如果让你呃自己去开发项目的时候，你要知道如何去把它配置成拉压缩啊，同时其实还有一个对吧？啊教会。
13:45
那其他中基本上都会用到压缩啊，要注意呃，还多参数优化，那参数优化这一块，这就是企业经验，比如说你当了还多集群，哪些东西你需要配的，那第一个呢，像那个A赛呢，那是文件中配置多目录。
14:03
啊，登录最好提前配置好，否则日后改日志呢，需要这个重启服务器，也就说在这个配置A的时候，比如说你有四个插槽，那我们把四个插槽这个位置全都给你提前配置啊，插上即插机用啊好，那还有呢，是内动的，它有一个工作线的池，那主要用来处理电动的这个并发的啊它俩之间通信，那这个通信多少合适呢？20的LOG2维集群的个数，那通常这个呢，我们是十台啊，实际按八台算的，其实是二的三次方对吧？啊是三次方，那就是20乘以三是60啊，那如果这块呢是16，那这个是四，那就这块写80啊，性能达到最佳。那还有呢，是编辑日志和镜像文件，这个路径尽量分开。嗯，日后呢，在大数据场景下，能分开的路径尽量都分开，提高一个效率啊，包括后面的母都看看这呢是服务节点上雅安可使用的内存，单个服务器默认是八个G，这块要注意，而且它这个不是智动的内的，如果你节点的一个资源不够八个G，那你一定要把它调小了啊，否则这个严呢，他探测不到，他就认为你有八个G了，那你机器可能直接就崩告，还有呢，是单个任务申请的这个最多的物理内存也是八个G啊，这块注意这两个字。
15:25
那还有呢，项目开发中是一定要做这个基准测试的啊，测试这个开拓集群，它的读性能，写性能以及MR计算能力的测试，那测试它干嘛？那你如果说前一面来了1T的数据，那他会问你这1T多长时间能够上传到这个文件集群。那你就这个读写性能就很重要了，它的写性能你就往上写，这个能力是多少兆每秒，你就能算出来它大概多长时间能把它消化掉，如果你算出24小时都算不出来，那肯定这个设计就有问题，对吧？啊，这要注意啊，那后面呢是还那么当机了怎么办？
16:06
因为在企业当中，孩子我当机了啊，而且这也是你面试的过程当中，那人问，那你遇到没遇到过什么问题，那遇到问题就是之前孩子当机了，那孩子当题怎么造成的。那这你要说一下，比如说如果mmr造成系统倒计是运行照程序啊，只是要控制雅同时运行的百分任任务数啊，100班嘛，它调度的这个任务比较多，和每一个任务申请的最大内存。啊，那你默认这每个任务最大内存都是八个G，你一加一起，比如说128G的内存的话，加一起122G G，那是不是直接就O了啊，这个可以，所以说要调整备你M的单个任务申请的最大内存可以调整，这是一种mmr造成的，还有一种如果写入文件过量，造成那个的宕机，相当于前一级来的数据往那个ad上传的时候，数据量太大了。
17:06
啊，那这次怎么办呢？可以让前一节缓一缓，比如说加上这种卡不卡进行缓存消息的那个高峰啊，逐渐的慢慢的往上推啊，中间加上这种考卡往对应啊，这也是可以的，这两个方式哈，这是宕机，那最后呢，后边呢是那个主力分相关的同学，那主力分这两道题啊，半数机制还有啥内令啊，没啥说的，那就是说在最后安装主力分的时候，基础是基数台安装啊，有三台的，有五台的，目前是这两个居座哈，在写当中。好后面呢是这块，那这块呢，就是面临什么问题呢，你为什么要选择当中，你要考虑哪些事情。可以回忆一下啊，那你说在这个项目当中，我们选择是，那首先呢，就是当中涉及到它的组成有有有。
18:05
那south这一块我们选择的就是太阳第二，那辩试官就会问你为什么选择太阳第二啊，原因很简单，支持断点器分啊，多风，那么在1.6之后之前我们用的什么呢？啊，就E啊，有啊这样，那他们都有各自的问题啊，刚才说过E呢，断的容易丢数啊，那个投D呢，它属于这个不支持啊，都有对应的问题，所以说1.7之后才产生了这个。那还有这个title这块，Title这块我们能选的这是列出了三个，这是有前提的啊，前提下一级它得是行法才有三个，如果不是行法的话，只有两个特点啊，翻传统，翻传统和卡发传统，那翻传统的特点呢，就是啊到之后它保持数据不会丢失，但是呢，传输数率呢，相对是慢一些，那慢传统呢，传输速率快一些，但是当地之后丢数据啊，卡法传承呢，前提是下一级它是卡卡。
19:03
啊，那我们就可以省去一个的阶段啊，三阶阶段啊，但是面临这个问题呢，其实就是呃，你把省了它缓存这个缓冲的这个能力就弱了一些啊，中间过程少了啊，但是效率提高好这是这块，那同时呢，还有这个到这块其实是有事物的，是不得事误，到这这块呢，是有配合事物啊，这要注意。呃，下面这个是拦截器，也就说你在项目当中用不用过拦截器，那其实我们这块呢，是用了两个拦截器，一个是ETL，一个呢是这个分类型啊，其实在企业当中啊，有这么两类，有的是用这个拦截器，有的是不用的。啊用有用的理由，不用也不用理由，比如说用就是因为我对这个性，这个机器这个性能要求不是别高，我慢慢的传啊，没有时间上的要求，那我肯定会用啊，因为分类型在这我就分比较方便，那么如果在时间上这个性能要求极高啊，我尽必须在这个一分钟内或者两分钟内上出日后的那个实时指标等等，那这个我就不能在这啊，因为它占用的时间啊比较大这块注意，那比如说啊，我们这里面，我们这个时间性能要求还好啊，电商里面没有那么高的要求啊，没有问题去加入这个呢，那首先呢是EF，那EDL里面要问啊，你做了哪些信息，那一定是非常非常轻量级的，只是判断了一下杰森的这个完整性啊就OK了，还有那分类型，那分类型这块就涉及到你分了哪几类类型啊，千万不要只要说什star类型，译文的类型。
20:38
那就完蛋了是不是啊，因为我们说我们的卡夫卡好几个，不会是两个吧啊，真正大的时候至少要说一个五六个啊，五六个之前给大家说过怎么分呢？你像我们有12张表，12张表当中像那个商品的点击浏览，嗯，点击浏览列表啊，这三张表我觉得可以放上一个啊，三张表放上一个啊，加一个商品情放在表那，像那个广告我觉得可以单独来一个没问题，还有像评论收藏点赞，那这些属于类啊用户行为的啊，评论点赞收成，那还有像这个。
21:21
误日志，这是错误类型的，你可以单独来一个，还有像那个启动日志，那启动日志你也可以再来一个啊，一类事情，这都没有任何问题啊，所以说你要把这个类提前分好，但是只有一点要求，在面试的时候不能说只有两个啊，100和12的有点太粗了哈啊这也要注意，那下面呢，就是那个自定义截的步骤，那很简单，第一个类实现S接口重写里面四个方法啊，分别是初始化。啊化还有这个啊，单一文的处理和英文的集合处理，写完这些之后，同时最后要写一个build啊OK啊这是这块，那再往下呢，是这个传检测器，那传检测器呢，一共有两种啊，两种像这个replace和集啊默认的是，那他的特点呢，就是他们把所有的数据啊传到下一级啊，那那个mark呢，是选择性的传到下一级啊这块区别啊，那那这块完事之后呢，是那个监控器，那我们用的就是那个杠杆啊，那在企业当中怎么用的，基本上就是你搭建完这个恐基金之后，你需要这东西去监控的同时看到如果刚刚里面尝试提交的次数和最终成功的次数。
22:43
不一样，而且尝试提交次数大于成功的次数，那就认为你这个集群性能上各方面可能不太OK，那怎么办？你这要提高F的内存。或者增加的台数。
23:01
啊，抬手，这是你要做的。啊，尤其是看这个多内多不多，如果积压的特别多，那这个要调大内存啊，正常情况下这个内存呢，是四个G左右啊，要调到这种啊啊这是这块还有采集的数据会不会丢啊，那这个呢，其实是看你用什么title了啊，你要用ma那就有可能啊，Ma就有可能就就不会丢啊同时呢，我们前端呢，还有对吧啊这个收品位，那最后呢是调整这个内存，那内存呢，就是在那个EV点里面去调整啊，那那个大小呢，是四个G啊四个G啊。啊，那还有呢，是要将这个呃，初始的这个GM内存和最终运行呢，最好要设置一致，减少内存个抖动啊，那再往下呢，是这个能，如果你选择的是头，那它这个优化呢，是官方说啊，如果你是指定这个多个的话，那是可以提高这个山头的性能，就是日后你要遇到这个多目录就尽量把它都分开啊，同时像这个备份的呃和正常的检查点这两个目录呢，也把它放在不同的盘上最好使啊，因为这样的是真正的一个备份，万一列是坏了。
24:18
啊，那你可以还有另一块指盘啊，这要注意，那下面还有一个亮点呢，就是这个ADS小文件啊，怎么保证这里面不产生小文件，那这里面其实有五个参数，一共是五个参数，这有三个就有两个，那下面这两个呢，主要是控制这个文件的那个名称的，比如说这里面。这是三个文件夹，你可以认为是三个文件夹，比如说这是十秒，20秒，30秒产生这十个文件夹，那这个这个过程当中，这里面会有一个一个的小文件啊，产生一个一个文件，那这个文件呢，控制他们的那个，呃，什么时间能用，为什么说时间什么时间能用呢？因为它默认的后面是有个time临时文件。
25:00
这个临时文件什么时候转正，靠的就这三个文件，这三个参数，这三个参数分别代表了一个小时之后它能转正，还有一个是它的大小到达180兆的时候，它能产生，还有呢，是even的这个个数写成零，这是静止，如果你写成一的话，只要一个它就滚动了啊，这是不一样的地方啊，好，那这是弗姆小文件的一个处理，再往下呢，是这个卡卡这块。哎，考法，考法这块的面题呢，也是比较多啊，那第一个呢，就是考法的架构，那架构这块要注意什么呢？呃，它有这么几块，生产者啊，集群消费者主题本要注意的就是这个生产者啊，他不在这个主题本里面，主推里面只有这个消费者信息啊，这块要注意一下，那在之后呢，就是搭建了卡发机群，是一定要测试的啊，测试它的生产能力和消费能力啊，尤其是它这个生产这个速度，有了这个生产这个通制速度之后，我们就可以评估我们到底要多少台，这个卡不卡，能扛得住我们日后的这个生产那个，呃，数据量啊，2N加一是二乘以峰值产出度乘以副本除以百加一啊这么一个过程，好，那再往后呢，是卡不卡，日志保存的时间多久啊，七间啊，硬盘大小，那就每天数据量乘以七天，其实这块啊，最好再有一个70%的运量除以个百除以一个0.7啊，那是比较完美的啊啊。
26:27
开源卡板的监控面试官的总备，哎，你们卡板走不出监控啊，那这时候呢，其实你就直接说开源的像卡瓦那啊，在企业当中也是发展使用的啊，这样注意简单啊，再往下呢，是卡布卡的分区啊，分区分居数呢，并不是越来越好啊，这块呢，注意正常情况下咱们这个数据量就是三到三到十个啊，问的有有三个的，有五个的啊，也有十个的啊，十个的偏少一些啊，那一般的就是不要超过基金的数量就行了啊，超过集因数量的意义就不大了啊好再之后呢，是副本数的一个胜利啊，通常是两个居多啊，就大多数问的都是两个啊，上头的有很少啊，这样注意当有呢是多少个topic，那这个汤呢，刚才其实大列了啊，就是这个分类型的少啊，那尽量呢是写这个零七个啊topic啊，当然呢这块呢，你说一两秒就topic没有问题啊，你分的越细，那这个肯定是满足需求的，因为我之前说过这。
27:27
卡不卡这块他主要是看的下一级这个消费者是什么，比如说这个八名，这是这个呢，是这个ES，这个是德鲁，这个是啊，每一个这个消费者他消费的内容可能不一样，如果你这里面他们的分析，只要能满足后面所有的消费者，那你就是一个好的分法啊，好的分类那就OK了啊，那最直接的就是一两秒一个好几个，那肯定能满足。嗯，但是你要有一个轻度的聚合的话，比如说按这个呃，通知啊，前加活跃，后台活跃加通知，属于通知类的，那这个他才统计统计走过去啊，只要满足价值需求就行了，好，那是这块，那最后呢，像这个条对定数啊，那这块呢，涉及到AC等一个配置，S等于零，那就发过去就完了，那就没有可能丢，那SK等于一呢，就是老大收上啊，老大他断说啊，只要收到了，老大就经拿了，那另一个呢，是ACK等于一啊，那这里面就要求啊，这个老大和这个副本啊，类似于这个所有的啊，都要去交流一下啊才会这个岗回上次没找到这哪试试。
28:37
啊里面就有这个东西啊，你能看到啊，对，就是在在哪里好，那在这块啊在里面能看到，再之候呢，是那个卡马的哀商啊副本同步队列啊，那这个其实就是老大挂了之后，实际上老大的问题啊，那这里面那实际上老大的条件呢，一个是延迟小时啊，另一个呢，是那个延迟时间啊这两个新版本呢，只剩了一个这个，呃，延迟时间啊，发止这个频繁进入，对啊啊，那这个呢，就是策略啊，这里面一共有两个啊和币默认的是这个啊策略三个。
29:18
现在好。哦，那那那可以研究研究啊，那可以，那还有第三个是吧，我们来看一看，那这两个呢，像这个认证应该是相对来比较差一点的啊，它是容易导致数写的啊，他呢就是一个简单粗暴的一个相除啊，而且呢，这个产生这个余数呢，就尽量往这个小的里面放啊，那像这个专面呢，呃，他你可以认为是全击拉，嗯，然后重新排列啊，排成一个大的这个什么的，排一个列表，然后对这个列表按照进行再排序啊，最后就会一个一一次一次的这个训啊就OK了啊行，那后面再研究一下这个新的啊，那卡瓦侬的这个数据计算啊，这块呢，就是你卡管理每天有多少数据量啊，峰值多少啊，平均多少类似的这种，那其实这个呢，比如说总数据量，我们是每天100G，每天产生1亿条数据啊，然后一条呢，这个你一相除之后，平均每条啊，平均每秒钟1150条啊，平均每分钟呢，是啊，每秒钟这些低股的时候。
30:25
快400条，我觉得400条有点多了啊，可以100~200条，我觉得往下除一下高峰值呢，是那个二到20倍啊，我觉得甚至很多时候达到要搞活动100倍200倍也是OK的啊啊然后每条日志呢，这是0.5K到2K啊，正常的情况下就是二点每秒钟2.3兆到20兆啊，我觉得你不超过50兆就没问题啊，应该超过50兆，超这30兆40兆啊都可以哈，峰值了，还有呢，就是打完网挂了之后怎么办啊，其实呢，有所前面有记录，最主要的是那个日志我们保存了30天啊，这个多投这件事到不了再成分重新跑一遍，他这个短期是没有任何问题的啊，卡消息顺序积压，卡卡消息能力啊不足怎么处理，你说卡卡里面那个消费不出去啊，产生积压，如果是卡消费能力不足，就可以考虑增加那个topic的分期数，因为增加这个分期数呢，就是提高了这个密方，那这时候你要注意。
31:25
这几个消费者那个数他俩得一样啊，那才能达到这个这个效果啊，因为消费者没增加，你分期增加了，那那没有用啊，啊这要一致，另一个呢，就是如果这个是下午的数据处理不及时啊，比如说这个SPA面对消费呢，消不及时，那可提高每次拉取的这个批次数据量啊，增加这个数据量啊，拉取批次数据量过少啊，使处理的是小于生产速度啊是总之你的消费速度要大于它的生产速度，那这事就没问题啊，想办法提高下一级的这个商级能力啊OK，再之后呢，是这个还的这个架构啊，还有还有架构呢，第一道题呢，就是还的语元数据啊，元数据组成，组成呢这一块包括这个像客户端啊元数据四个系啊这下呢是这个啊S，那原数据呢，默认他会问啊，你的默认那个数据存在哪个数据库，这是你对吧？啊，后来他改到这个口啊，原因就是因为。
32:25
买什么支持多用客户端访问啊OK，那这完事之后呢，就是have你这个啊传统数据库吧，啊关于数据库的一个必要，那这块呢，你就可以，我觉得可以简单粗暴一点，这个问件也越来越少了哈，其实还有个呢，它是清楚数量，你买里面答有多多对吧，这不是一个级别的，你买里面就是百万条啊，顶多是千万条，那还有里面平平常常几亿条，没有任何问题对吧，再个是那个，呃买香肠的是生产奶茶，那还有里面的这个呃修改呀，呃，这个是差很多对不对啊，删除还行，查询也一般，查询速度也没有连百收款啊，也不是一个级别的啊，这块要注意，那再最后呢，就是问的这国就是内部表外表区别啊，内表外表区别，那这个其实是最简单的啊，这主要就是你那个原始数据删不删的问题，对吧？啊，你像内部表的话就是原始数据删掉啊，外表呢就是啊不删啊不删。
33:25
之后呢，叫那个四个派啊，四个拜呢有二个派，上个派第十个派拉斯个派二派于全局海序，上个派分居排序第呗，就是分居排序class是他们两个啊合一起对不对啊，这是在什么情况下好那法的说包括什么还有。那什么个什么没写是吧？啊这写了啊对吧，还有那个啊这么几个啊，还有那个里面是一参数啊，先前向后的啊这啊这里面呢，就是你要结合你的分析指标啊去说一下就会好一些，那还有一块呢，就是自定义这个UDF和UDF啊，所以说他会问你的项目中用没用过，那肯定用过对吧？啊那用那个自定义uf呢，是解析这个公时段utf呢，解析的是事件字段，那还要问说这个东西，呃，我不用自定义行不行啊，肯定可以没有问题啊，那英文将来盖精在啊去解析这个啊没有问题可以搞定，那他问那你为什么要还要自义呢。
34:41
其实就是一个灵活的问题，我可以通过这个自定F和PF去定位到这个时候当中哪一条异常数据啊，他没解析通过，我可以把它打印到我想要的这个文件里面，输数据日后人排除bug，那个排查bug的时候是非常非常网络的，那你要是这个系统的，那他就帮你解决不了这个啊，而可能就是直接就异常发出去了，办法啊，这常啊，那制定义的步骤。
35:10
啊，第一个类继成uf同学里面呢，以外的类的方法，那自定义uf，第一个类继成再类呢，Uf重新里面三方啊初始化和还有一个process，那像初化里面主要是定义啊返回值的类型和名称，那还有一呢这个process里面呢，主要是具体的一个啊，这个一对多的一个处理的啊啊啊还有优化这块啊，基本上是必本的啊，但是呢，咱这里面列出的比较少啊，其实真正的这个企业当中至少有30多种。啊对三啊太多了，而且各种参数啊，电进来竞赛中，那就其从其中呢抽取出一些啊，比如说麦克克一打开啊，行列过滤行列过滤啊先行列过滤，然后再再处理，然后呢分总分区合理生成麦个数也就个数啊还有一个就是这个最主要我想说的就是word验的处理这个这个产数这加就是word，如果你是那个办公的任务，它word认这个就打成数了啊，他就会把你这个小文件合并在一起啊，这个没的数啊，合并文件呃多少大小认为是小文件呢？小于它就认为是文件，那这个合并成多大呢？合并成2.56章，这个跟我们的理解有可能不太一样，因为我们觉得块十一二八兆呢啊，但这汉里面呢，默认是2.56章啊，这块给一下啊，这同意，那如果你是慢零六任务啊，如果你认为会产生大量小文件，那这一块你要把它设成负，因为它。
36:48
默认的是啊，这块要注意啊，好，那再往后呢，是这一块啊，这一块呢，其实这个面试题啊啊挺挺纠结啊，为啥呢？因为呃不咋用，再就是咱们项目当中是没写这个对吧？啊没写，所以说尽量就不要去碰它啊，不要去碰它就是哪怕说这个我就了解了一下啊，直接使过一下啊，因为他这个水还比较深的啊，尤其是这个二级水的已经优化都可以怎么设计的啊，其实他要问问的并不是说咱们说这些原整。
37:22
他要问的是你具体你这个公式用这个字段你怎么设的啊，这个就比较难了，嗯，因为这个有些场景他就用不上这东西，这是这个价格港一辈子在哪里使用呢？阿里阿里那国大量使用，为什么用呢？它是数据量越大越不用，如果是这个数据量就是像咱们这个100G200G，那就意义就不大啊，ES就完全就搞定了，统统就搞定了，所以说这个不用它啊，这个要处理下，这最开始的项目就是用这一遍，但是呢，学生被新问了啊，被问的死的很惨啊，基本这数上根本就没要用了一遍啥用啊。
38:03
啊，这就很尴尬啊，所以说新就不写了，这ESES这个就足够了，那那我们也可以稍微了解一下，比如说的这个设计原则啊，那基本上就是啊，长度散裂啊，不致这种长原则啊，后面呢，所说配如设计的就生成这种术啊哈西啊，散啊，转反转啊啊等等这些规则啊，但真正的时候，其实他想了解的是并不是这个概念，是你实际的啊，结合这个字段去找述啊，所以这块呢，我们也不写了，所以说呢，也还好啊，尽量呢，你就没人去问这个东西了啊，你要写了那就会问你啊。当面呢这块呢，是这个尼斯二级税啊，如果日后有同学去做这方面的话，那基本上你用的都是这个分尼斯啊，它是一个二级引，创建二级引的啊，提高这个参数啊，那这个呢，咱这边是其实是有资料，后边呢，我会把这个引加到这个课程里面去啊啊资已经研发完了啊，差的就是一个在后去的一个录制啊啊这块。
39:11
行呃，再往下呢，是史库啊，S这块呢，问的最多的就是你在用的过程当中遇到过哪些问题，怎么解决，其实就是导入导出的过程当中啊，比如说那空值的一个啊，一致性问题啊，其实的本质呢，就是在当中啊，那在底层是以这个杠N来乘数的，而满次当中呢，是以这个就成的纳啊，那他俩既然两边成分不一样，那在导入的时候就要加一些这个参数啊，这些参数呢都是官网提供的。啊，什么input这些类型啊，好，那还有呢，就是这个导出一致性的问题啊，导出，那导出这一块其实就是这么一个问题啊，这边是have，这边是它往这导的过程当中，如果你直接就导到目标表，有可能这中间任务坏掉了，导致这里边有一半数据是OK的，一半数据不OK的，那老板看了就得看到你这个数据不一致，那就容易出问题啊，那怎么办呢？你可以先把这数据导入到这一张临时表看表导完导成功了之后，再把这些代表通过事物啊盖到这里面去啊，那这个过程呢，其实你只需要在导出过程当中加上这个到table啊就OK了。
40:35
那当然这个会产生一张临时表，那个临时表你想把它删掉，加上一个看看零类，你说导完之后它自动就把它删掉了啊，这是02B行，那还有呢，就是如果底层运行的什么任务啊，那就是这个只有外国阶段，没有这些阶段的任务，那还有呢，就是果导出的时候，你是执行的时间大概多久分，那通常情况呢，是这个五分钟到两个小时啊，小任务呢，小数一点可能就五分钟就啊，通常情况下在这个40分钟到50分钟左右啊，了解这圈，通常这个位比较正常啊，那后面呢，像这个SPA啊和SPA那这块呢，我就。
41:18
不在这说了啊，后面习惯这个时候再说。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之电商数仓

（35/142）

9分33秒

01_尚硅谷_数仓项目介绍

400

3分18秒

02_尚硅谷_数仓采集_用户行为采集课程介绍

360

15分26秒

03_尚硅谷_数仓采集_数仓的概念

340

4分16秒

04_尚硅谷_数仓采集_项目需求

390

8分42秒

05_尚硅谷_数仓采集_项目技术选型

410

12分33秒

06_尚硅谷_数仓采集_系统数据流程设计

380

4分49秒

07_尚硅谷_数仓采集_框架版本选型

360

5分28秒

08_尚硅谷_数仓采集_框架版本具体型号

390

9分7秒

09_尚硅谷_数仓采集_服务器选型

340

21分24秒

100_尚硅谷_业务数仓_DWS层之用户行为宽表

450

10分21秒

101_尚硅谷_业务数仓_需求九：GMV成交总额

490

10分17秒

102_尚硅谷_业务数仓_需求十：ADS层之新增用户占日活跃用户比率

390

12分58秒

103_尚硅谷_业务数仓_需求十一：ADS层之用户行为漏斗分析

410

22分50秒

104_尚硅谷_业务数仓_用户购买商品明细表（宽表）

420

14分14秒

105_尚硅谷_业务数仓_需求十二：ADS层品牌复购率

330

27分9秒

106_尚硅谷_业务数仓_需求十三：求每个等级的用户对应的复购率前十的商品排行(学生分享)

420

26分37秒

107_尚硅谷_业务数仓_数据可视化

380

14分47秒

108_尚硅谷_业务数仓_Azkaban安装

380

16分23秒

109_尚硅谷_业务数仓_GMV指标获取的全调度流程

360

6分34秒

10_尚硅谷_数仓采集_集群资源规划设计

370

13分5秒

110_尚硅谷_业务数仓_拉链表理论

380

29分13秒

111_尚硅谷_业务数仓_拉链表制作

330

24分37秒

112_尚硅谷_业务数仓_业务数仓项目总结

330

1分24秒

113_尚硅谷_业务数仓_即席数仓课程介绍

370

10分20秒

114_尚硅谷_即席数仓_Presto简介

370

22分13秒

115_尚硅谷_即席数仓_Presto安装及使用

350

5分51秒

116_尚硅谷_即席数仓_Presto优化

330

7分40秒

117_尚硅谷_即席数仓_Druid概念、特点、场景

370

6分51秒

118_尚硅谷_即席数仓_Druid对比其他框架

290

11分24秒

119_尚硅谷_即席数仓_Druid框架原理

370

12分41秒

11_尚硅谷_数仓采集_测试集群服务器规划

440

5分5秒

120_尚硅谷_即席数仓_Druid数据结构

390

14分50秒

121_尚硅谷_即席数仓_Druid安装

280

18分53秒

122_尚硅谷_面试题_总体架构

360

41分22秒

123_尚硅谷_面试题_技术框架

350

22分0秒

124_尚硅谷_面试题_用户行为、业务数据、即席查询

340

36分54秒

125_尚硅谷_面试题_开发经验

380

3分28秒

126_尚硅谷_CDH数仓_课程介绍

390

4分7秒

127_尚硅谷_CDH数仓_CM简介及架构

330

20分4秒

128_尚硅谷_CDH数仓_CM安装环境准备

380

30分4秒

129_尚硅谷_CDH数仓_CM、Hadoop、Zookeeper安装

290

13分18秒

12_尚硅谷_数仓采集_埋点数据基本格式

430

6分17秒

130_尚硅谷_CDH数仓_采集Flume的安装

330

7分48秒

131_尚硅谷_CDH数仓_Kafka安装

400

3分53秒

132_尚硅谷_CDH数仓_测试Flume和Kafka安装

300

3分25秒

133_尚硅谷_CDH数仓_消费Flume配置完成

380

9分49秒

134_尚硅谷_CDH数仓_Hive、Oozie、Hue安装

390

3分29秒

135_尚硅谷_CDH数仓_用户行为数仓ODS层导数据

360

9分22秒

136_尚硅谷_CDH数仓_用户行为数仓完结

380

3分8秒

137_尚硅谷_CDH数仓_业务数据生成

430

15分37秒

138_尚硅谷_CDH数仓_业务数仓完结

400

6分34秒

139_尚硅谷_CDH数仓_Oozie执行前准备

340

7分15秒

13_尚硅谷_数仓采集_事件日志数据（上）

350

10分23秒

140_尚硅谷_CDH数仓_Oozie任务编写及运行

270

5分24秒

141_尚硅谷_CDH数仓_即席查询数仓搭建Impala

350

5分58秒

142_尚硅谷_CDH数仓_Spark安装及总结

430

13分26秒

14_尚硅谷_数仓采集_事件日志数据（下）

350

28分13秒

15_尚硅谷_数仓采集_日志生成代码编写

370

7分5秒

16_尚硅谷_数仓采集_Logback日志打印控制

400

11分17秒

17_尚硅谷_数仓采集_服务器准备

360

23分41秒

18_尚硅谷_数仓采集_Hadoop安装

340

2分53秒

19_尚硅谷_数仓采集_项目经验之HDFS多目录配置

350

5分19秒

20_尚硅谷_数仓采集_项目经验之支持LZO压缩配置

370

9分38秒

21_尚硅谷_数仓采集_项目经验之基准测试

380

8分3秒

22_尚硅谷_数仓采集_项目经验之HDFS参数调优

400

6分19秒

23_尚硅谷_数仓采集_Zookeeper安装

430

9分14秒

24_尚硅谷_数仓采集_项目经验之ZK集群启动停止脚本

380

6分33秒

25_尚硅谷_数仓采集_生成测试日志

260

2分2秒

26_尚硅谷_数仓采集_集群日志生成启动脚本

310

6分39秒

27_尚硅谷_数仓采集_集群时间同步修改脚本

350

2分7秒

28_尚硅谷_数仓采集_集群所有进程查看脚本

340

16分15秒

29_尚硅谷_数仓采集_每日回顾

360

7分5秒

30_尚硅谷_数仓采集_日志采集Flume安装

340

9分19秒

31_尚硅谷_数仓采集_Flume组件及配置

380

11分24秒

32_尚硅谷_数仓采集_日志采集Flume配置分析

400

26分57秒

33_尚硅谷_数仓采集_ETL拦截器

380

11分15秒

34_尚硅谷_数仓采集_分类型拦截器

400

16分15秒

35_尚硅谷_数仓采集_日志采集Flume启动停止脚本

280

7分4秒

36_尚硅谷_数仓采集_Kafka集群安装

410

12分6秒

37_尚硅谷_数仓采集_Kafka集群启动停止脚本

310

9分22秒

38_尚硅谷_数仓采集_Kafka Manager安装及脚本

360

11分29秒

39_尚硅谷_数仓采集_项目经验之Kafka压力测试

330

4分1秒

40_尚硅谷_数仓采集_项目经验之Kafka机器数量计算

420

23分59秒

41_尚硅谷_数仓采集_消费Kafka数据Flume

330

2分38秒

42_尚硅谷_数仓采集_项目经验之Flume内存优化

400

7分9秒

43_尚硅谷_数仓采集_项目经验之Flume组件

400

19分28秒

44_尚硅谷_数仓采集_采集通道启动停止脚本

350

3分2秒

45_尚硅谷_数仓采集_调试经验

390

35分45秒

46_尚硅谷_数仓采集_面试题（Linux、Shell、Hadoop）

410

22分44秒

47_尚硅谷_数仓采集_面试题（Flume、Kafka）

360

38分31秒

48_尚硅谷_用户行为数仓_每日回顾

370

3分50秒

49_尚硅谷_用户行为数仓_用户行为数仓课程介绍

330

8分24秒

50_尚硅谷_用户行为数仓_为什么要分层

390

9分12秒

51_尚硅谷_用户行为数仓_数仓分层

300

2分26秒

52_尚硅谷_用户行为数仓_数据集市与数据仓库概念

320

1分11秒

53_尚硅谷_用户行为数仓_数仓命名规范

300

15分44秒

54_尚硅谷_用户行为数仓_Hive&MySQL安装

390

17分44秒

55_尚硅谷_用户行为数仓_Hive运行引擎Tez

410

3分7秒

56_尚硅谷_用户行为数仓_项目经验之元数据备份

360

100

18分25秒

57_尚硅谷_用户行为数仓_ODS层启动日志和事件日志表创建

370

101

14分0秒

58_尚硅谷_用户行为数仓_ODS层加载数据脚本

400

102

29分44秒

59_尚硅谷_用户行为数仓_DWD层启动日志建表及导入数据

420

103

7分38秒

60_ 尚硅谷_用户行为数仓_DWD层启动表加载数据脚本

380

104

10分18秒

61_尚硅谷_用户行为数仓_DWD层事件基础明细表创建

350

105

22分2秒

62_尚硅谷_用户行为数仓_自定义UDF函数（解析公共字段）

430

106

34分5秒

63_尚硅谷_用户行为数仓_自定义UDTF函数（解析事件日志基础明细表）

360

107

6分57秒

64_尚硅谷_用户行为数仓_DWD层数据解析脚本

330

108

21分21秒

65_尚硅谷_用户行为数仓_DWD层事件表加载数据脚本

340

109

10分42秒

66_尚硅谷_用户行为数仓_今日回顾

330

110

13分49秒

67_尚硅谷_用户行为数仓_业务术语

390

111

14分54秒

68_尚硅谷_用户行为数仓_日期的系统函数

360

112

12分58秒

69_尚硅谷_用户行为数仓_每日活跃设备明细

380

113

12分6秒

70_尚硅谷_用户行为数仓_每周活跃设备明细

510

114

6分43秒

71_尚硅谷_用户行为数仓_每月活跃设备明细

290

115

3分50秒

72_尚硅谷_用户行为数仓_DWS层加载数据脚本

330

116

18分8秒

73_尚硅谷_用户行为数仓_需求一：ADS层日活、周活、月活用户数

290

117

9分24秒

74_尚硅谷_用户行为数仓_每日新增设备明细表

350

118

3分34秒

75_尚硅谷_用户行为数仓_需求二：ADS层每日新增设备表

400

119

11分0秒

76_尚硅谷_用户行为数仓_用户留存分析

350

120

12分44秒

77_尚硅谷_用户行为数仓_1、2、3、n日留存用户明细

360

121

12分41秒

78_尚硅谷_用户行为数仓_需求三：ADS层留存用户和留存比率

360

122

22分3秒

79_尚硅谷_用户行为数仓_新数据准备

370

123

12分34秒

80_尚硅谷_用户行为数仓_需求四：沉默用户

380

124

18分43秒

81_尚硅谷_用户行为数仓_需求五：本周回流用户数

410

125

6分13秒

82_尚硅谷_用户行为数仓_需求六：流失用户

320

126

9分0秒

83_尚硅谷_用户行为数仓_需求七：最近连续3周活跃用户数

390

127

19分59秒

84_尚硅谷_用户行为数仓_需求八：最近七天内连续三天活跃用户数

380

128

13分41秒

85_尚硅谷_用户行为数仓_用户行为数仓业务总结

440

129

12分47秒

86_尚硅谷_用户行为数仓_Hive企业面试题总结

370

130

6分35秒

87_尚硅谷_业务数仓_业务数仓课程介绍

340

131

16分53秒

88_尚硅谷_业务数仓_电商业务与数据结构简介

320

132

6分27秒

89_尚硅谷_业务数仓_表的分类

380

133

8分25秒

90_尚硅谷_业务数仓_同步策略

350

134

14分15秒

91_尚硅谷_业务数仓_范式理论

320

135

7分23秒

92_尚硅谷_业务数仓_雪花模型、星型模型和星座模型

350

136

3分11秒

93_尚硅谷_业务数仓_配置Hadoop支持Snappy压缩

320

137

11分19秒

94_尚硅谷_业务数仓_业务数据生成

330

138

7分14秒

95_尚硅谷_业务数仓_Sqoop安装及参数

380

139

14分25秒

96_尚硅谷_业务数仓_Sqoop导入数据

360

140

7分51秒

97_尚硅谷_业务数仓_ODS层建表及数据导入

260

141

12分59秒

98_尚硅谷_业务数仓_DWD层建表及导入数据

350

142

8分37秒

99_尚硅谷_业务数仓_需求讲解

370

123_尚硅谷_面试题_技术框架

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐