00:00
好,接下来呢,给大家总结一下这个电商促仓这个项目啊,这个项目当中涉及到的一些技术点和面试当中我们需要用到的东西,那这里面是给大家总结了有14章,十章内容,十章内容当中第一章这个是你面试的时候才用到啊,这个面试的技巧是哪来的呢?是咱们呃之前的一个学生啊,出去面试的时候,一个猎头给他的啊,猎头给他推荐工作,让他去按照这个方式去去做啊,非常非常经典啊,我看了一下跟我想的是一样的是吧,记日文是按照我的套路来的啊,大家呢,可以到就阅的时候看一下,那后面呢,这个是手写代码啊,手写代码呢,这个是日后如果你想去打赏的话,那是一定要看的,包括快排规定二杀树啊,其实这里还不够,还有像这个呃,递归队列这些都是你们需要长握的啊,那在这里面呢,我们先不回复他啊,后面呢,会专门去练习之后第三章。
01:00
一直到这个第九章啊,那这个就是整个我们要复习的内容啊,项目相关的无论是业务还是技术框架全在里面,好,那接下来看一下这个项目框架,项目框架呢,我给大家介绍一下啊,这里面有多少道面试题啊,第一道面试题就是数仓的概念,当中面试官总会问一道说你们这个数仓的输入数据源有哪几个,输出到哪?啊,那这里面呢,其实就是用户行为数据,也是日志的数据,对吧?那还有一部分呢,就是业务数据,也就是买Q里的数据,如果再深入一点,其实还有一个爬虫的问题,个别公司有啊,啊爬起电的数据啊,通常情况下呢,是放到这个漫DB里面,然后再通过或者电插把它导入到书上里面啊好,那最终输出数据到哪,那这里面呢,至少要一个地方。
02:01
报表就是报表系统,绝大多数都有啊,但是像后面这个运用画像推荐系统,有的公司有,有的公司没有,这要注意啊好,那接下来呢,是舒畅这个整个流程设计,也是日后你在讲项目的时候,其实你是要先把这个框架给画出来。啊,这块呢,画出来之后,然后沿着这个支点,哎,比如说这块没人提,这块没人提,这块没人提,这块没人提,这块没人提啊一点一点把它拉起来,搭上这通道,然后上面通道啊这样一点点展示。说一个框架,比如说举个例子,这里面哎,我们采用去采集这个日志。那你要跟面试官解释我们为什么用这个。啊,其实有没有想过,如果不用输这个日志文件,一天把所有的数据全部堆到这,那你说要过一天之后,到凌晨的时候,我们要分析的数据,我们需要把它上传到PP,能不能实现看电脑?
03:07
但是这个时间很久,你想我写一个这个as代码啊,加va代码,其实就一个po上传吗?啊,而且我上传文件肯定能上传,但是为什么我不这么玩,就是因为那个数据量太大,一半我上传不了,那怎么办?我们就分而置之,你这个文件来一段来一点,我就踩一点,来一点踩一点啊,这是服母的作用。哎,所以说我们是这样实施的器材好,那另个呢,就是这个,那这样当那可以啊没问题啊,那里面就有主将,那主将呢,就包括那我们就是选择什么什么什么为什么这你要给解释出来,那其实比如说我这里面选择TS,为什么呢,支持断点集算登录,那以往我们用的什么呢?Eec,还有这个E呢,是属于这个,呃太杠F监控一个文件,那么一旦这个通幕挂掉,直接就有可能丢数据了。
04:07
啊,就是卷了啊,然后还有如果你是在图里,他就不支持断奶集传,如果挂掉,那么书籍就重复了,重头再读一遍是吧?啊所以说它有不好的地方才会诞生了,这个太DR啊等等一系列一点点往络系,那至于这个过程,后面我们这里面会有详细的一个描述啊好在这像头那下,那接下来呢,就是这个框架版本的选型啊,前面这个框架八八十号啊已经初步这个讨论,OK,那下一个要讨论的问题就是我们到底选择什么版本啊,有的那个技术人员说我选择阿帕奇,有的选择说电讯,有的选择APP,那日后你给老板报这个方案的时候,这三个方案都可以去报,但是你要给出理由啊,你更倾向于哪一个,那这里面如果是这个中大型公司啊,对这个技术呃,掌握的比较好的,兼容性,各方面都调查过的,那通常就要都抓发起。
05:07
啊,然后呢是c.C点呢,它是小公司啊,他选择S的原因就是因为他不需要考虑版本的兼容性,拿回来就能用,比较简单实用,这就是中小公司,他节省了这个时间成本,所以说他才会选择它啊,当然他有一些问题啊,因为想想他把这个所有版本号固定死了,举个简单例子,四年级当中18个版本多少。1.61.6对吧?哎,那实际开发你们会用1.6吗?不会2.1,那怎么办?手动哎手动升级,升级成2.1,呃,这就是你后续要需要做的啊,那还有呢,HTTP啊HP呢,这个呢,目前我知道的有哪个公司在做呢,金山啊金山云在用这种啊,深圳那边呢,有一个叫呃跨越富运啊,也是一个比较名气啊,他们在用啊,那这个好处呢,它其实就是支持二次开发啊,可以改变码,但是呢,性能不是特别稳定。
06:10
啊,所以说相对来说用的比较少一些啊,前面的占比比较大一些啊,啊这是观察版本显性给出理由,那通常以后我们这个写项目的时候写哪一个呢。电器啊电器,现在呢,咱楼上我的是有台服务器了啊服务器呃,已经安装好了,调试OK了,嗯,我会呃录一个完整版的全套的4D游戏出场啊,全套的从零到一去打啊打全部打起来,里面会包括N多框架,像什么一啊呃啊啊,还有这个啊,卡布啊啊等等一些东西全部在里面啊OK,好,那下面呢,就是服务器的选型啊,我们选择什么样的服务器。啊,这个呢,日后也给大家去看一看,这个福器长什么样啊,长什么样,其实就是一个类似一个刀片这么宽啊,然后长度呢,比如说这样。
07:06
啊,这么长。好,就这么一个东东,那这个东东哈,跟咱们连接虚拟机没有任何区别。啊,没有任何区别,我试过他在在楼上那主机现在是192.108.1.241啊,直接我这台电脑啊,我在楼上把直接能拼通,需要用户名和密码就完了啊,也就说他的主机名称是192.168.1.241。然后我这边儿用户名儿。Root密码多少我告诉你不是,然后你就可以连上了啊,就这么简单,好,这是物理机,那物理机的正常的配置在公程当中,128G,我楼上那也180G的啊,然后20核CPU40线程啊也是它并发度是多少,这呢是8T的固态啊,不是把这8G的这个机械,你可以认为这个呢,你可以认为是2T的这个机械啊,2T的固态啊发了啊,2000固太啊,然后呢,单台的价格呢,在这个4万左右啊,我楼上买那个呢,没有没带这个啊,没带这个,呃,大概在两万五左右,嗯,两万五是华为一的品牌,品牌机贵,如果你买组装机配置,那会便宜很多,嗯,正常情牌应该在1万以内,七八千块钱应该能主装出了。
08:26
啊,这么一个价格啊,但是在企业当中一般都会买这个品牌机,为什么呢?它售售后服务非常好,你像咱买一台机器是直接送货上门。所有东西给你调试好,只做到什么呢?我这边电脑直接能连着对吧,而且我这电脑页面是有一个跟你个客户端类似于就是面。外的界面是一模一样的啊,直接连接就行了啊,好用的工具,远程连接工具呢,也是或者是啊都行哈,像这是物理机,如果你买同样的配置的云主机的话,每年5万块钱左右啊,5万块钱左右运维的成本这块啊,那物理机呢,需要一个专业的运营人员,当然我觉得哈,要是买品牌机的话。
09:11
呃,也不太需要这个,呃,特别强的运儿员,你只需要给钱就行了啊,你只要给钱这个发百单他自己就过来了,而且上门服务送货上门啊,不说24小时,二十二四小时服务也差不多啊,基本能帮证他运行啊,另一个呢,是云主机啊,那云主机呢,肯定不需要那个服务啊,基本上就是你找这个阿里云的客服,他就能把你搞定了啊,这是服务器的选择,那后面呢,是那个数据规模的一个计算,比如说呃,我每天的收据量有多少,那我需要买多少台服务器。啊,一般情况下去企业的时候,老板怎么给你说一句话,我每天的数据量啊一条,那剩下的事你告诉我买多少台服务器,然后你告诉我每台服务器上运行的这个东西大概是多少啊,就是我这个资源去哪,比如说我的磁盘去哪了,我内存去哪了,你要我这个订单就OK了,说出理由,那我就看这个,嗯,给你钱了啊,去买自己的服务器就行了啊那么来看一下怎么计算。
10:12
点不开了呢,那算了,那首先第一个每天日活,假如说是100万的日活的话,那每人平均100条,那就一天的话是1亿条,其实啊,这是1亿条,那1亿条每条日志呢,大小呢,大概在1K左右啊,通常是0.5K到2K都属于合法范围啊,那约了语呢,就是100G。那这个就好记了,约等于啊,100万的日活对应着100G的数据,那同样你是50万,那就对应了50G的数据啊,这个就好说了啊好,那半年内不扩容服务器。那半年就是180天呗,啊,大家说180几天啊,无所谓,约等于18G啊,18G好,那么同时我们要保证保存副本,那副本呢,三份啊,那就乘以354T,还要预留20%~30%的八分,也就是说你不可能把54D的所有的时间,所有的空间全用完,你要有个预感啊,那到达多少预警呢?一般情况下是70%。
11:20
啊,那你就除以百机时就77T,能保证你这个机群正常稳定运行啊,那算到这的话,你每个服务器8G,那乘以个十,那就约等于80T呗,啊80T这么一个情况,当然这里面还要考虑一个是这个呃数仓的分成的问题,要是数仓分成的话,那这块呢,还得乘以一个一到两倍啊,那一到两倍这块怎么算的呢?有ods层、DWD层,还有DWS。As ADS就是存这个结果指标,它的数据量很小,几乎可以忽略不计,那上面这些数据量还是比较大的啊,那同学是不是把这个再乘以一个三份?
12:02
啊,其实也没必要,为什么呢?中间我们会采用压缩和存储啊,会减少一定的这个数据量,那我们采用的压缩通常是什么呢?史耐加orc orc属于劣势存储,史耐属于。压缩对吧?嗯,还可以采用拉罗压缩加缩or或者是这样吗?啊这样一个组合啊好,那是这块,那后面呢,还有一个呢,是根据你数据的规模搭建服务器,那说具体这十台服务器上放了哪些东西啊,你看内弄的弄的啊,Matter not matter啊这个是。在然后啊呢,这里面是分了双层,双层是吧,当然单层也有啊,还有啊的话就按这个啊,这只是一个示意图啊啊示意图啊类似的这种啊,去一个一个去告诉哪台服务器上安装什么东西啊就可以了,那后面呢,还有一个人员配置的一个参考,你说你面试官会问你上家公司有多少人。
13:13
呃,你的公司组织结构是什么样的,我来看。首先,第一道题是整体架构。他问的是你属于这个公司当中的什么部门?啊,相关的部门有哪些,你看比如说你属于研发部啊,这是一个通用的一个名词哈,研发部那技术总监下面有各个项目组,包括数据组,还有什么这个前端组啊,还有这个金属平台组啊,还有其他好多啊啊总监上面呢,就是副总了啊或者总裁啊,其他的呢,还有这个产品运营,还有测试啊,还有这个呃,产品对产品,产品有的是要产品部,有的叫运营部,还有这大的就分开,也有这么分开的啊,都有啊,这是一个公司的架构,像我们这块呢,属于这个有叫数据组的,没问题,还有叫大数据组的啊,也有五花八门啊,啥样都有啊,但是呢,都属于合理干的活都一样啊,都是大数据开发,还有这个家化组。
14:12
啊,加法手上OK,在这块整体架构上,你要知道有这么几些名词就OK了,大的方向你是研发物,那小的方面呢,你可以说你是pass机主就OK,那还有你们部门的职级等级晋升规则,就说一般面试官有的时候会问你什么级别啊,你像那个京东,它内部有什么T1 T2 T3T4T5对吧?啊华为那个阿里的话是T1T2TT3 T4T5P6 t1P7T8,是不是一直是这个级别,每个级别代表了你的能力是不一样的啊,那他们在内部晋升的时候是需要答辩的。啊,需要放PPT,说你这个之前干过哪些哪些活,对公司做过哪些贡献啊,最后答这个答辩升级,说OK,从这个初级变成高级啊,来这,那我们一般情况下都会说自己是中高级啊,不会说自己菜鸟对吧?啊中专中高级啊好,晋升规则每个公司不一样啊,有的公司呢是靠这个答辩,有的公司就是看领导一句话是吧,觉得小伙表现不错啊,该升职加薪了啊,就改了啊,所以说不要说的那么太正规,太正规的话一般都是那种你能叫得出名字的这种大公司。
15:23
啊,像美团啊滴滴啊,百度啊,啊腾讯这种啊,像你们待的这种中小公司一般都不会啊好后面呢,还有这个人员配置参考这一块啊还是参考呢,如果你写的是这种三个人左右的公司。那怎么分工呢?有主场,那剩余的就是这个主员了,基本上分工不是特别明确,来啥活就干啥活,而且很有可能要干一些加的或者前端啊,干加E呢,主要就是跟人家去对接口啊,把这数据对过来,那干前端这块呢,主要是这个可视化这块啊,如果把这报表展示的好,比如说我们后面用那个一可话展示。
16:02
啊是这种,OK,那后面像那个中小型公司三到六个人,那就有一个稍微初级的一个分工啊,比如说组长。离线的两人,实时的一人啊,实时的一般呢是呃,离线的一般是多于实时的,这个也很好理解,因为日后你们在写简历的时候,离线30个指标,实时十个指标,真正在企业开发的时候,像离线的指标得100~200个,那他的任务量就明显就大于实时的容务量,需求也会多,所以说他的人呢,相对来说会多一些啊好,那像这个江万译这个人,这人就可有可悟啊,如果有的话,一般情况下也是类似这种组长啊,或者金说叫大牛他去兼顾着会这些东西啊,这样下你可以把这人扔到这个离线里面啊,得出一个人行这一块,那再往下呢,像那个中型公司啊,那就有五个老十人了啊,相当于是一个比较大的一个团队了,哈,啊,不小了,组长一人离线三到五人左右啊,离线就是舒畅实时呢,两人加一对接这块,你可以让这个组。
17:14
这样去兼顾也没问题,还有前端这块对接就是可视化,最主要是报表可视化,嗯可以单独也可以是呃这个呃一个人兼职,兼职这个多份这个工作啊都行行,这块这俩人没有也没问题啊,通常情外其实像后面他会有严格的这个呃主机配合你,你需要跟他做的就是对接口。啊,如果把这个数据对接好,对好对接好了啊,你像对接加va,就是如何跟他对这个买Q里的业务数据啊,他这数据如果有异常,那你要跟他去交流啊,那还有一块呢,这个前端这块呢,其实对的是可视化,你上面的指标怎么去可视化展示的票或者展示的是否有问题啊,这块是对对这个东西的,那这样的话呢,这个中大型公司那人其实就。
18:03
不设上限了啊,这20人已经满足不了了,你看京东内部的上百人啊,个别都上千人啊,组长一人啊,离线五到十人啊,然后实时到五人加一两人左右啊,然后前端一人,这是嗯,符合一个比较正常的一个标准啊,当然不绝对,以上这些作为参考啊,因为各大公司之间差异呢,还是比较大的,你像你们这些能耳熟能详的ofo啊,这是在有学生最好只有五个人啊,这么大一公司只有个人。啊,做这些东西,甚至还有一些上市公司是刚开始做一个没有的去了,你重新开始拉啊,这种也是比较多的啊好,那这个呢,是根据你的公司去选择一个合理的范围就OK了,这是项目架构这块的一个总结。
我来说两句