温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,接下来呢,我们讲一下第五个文档,第五个文档呢,主要是上微谷大数据项目电商数仓,这里面呢,这个电商数仓完全采用CDH框架去搭建,那这个目前呢,在市面上这个CDH呃,去搭建整个这个项目啊,应该咱们算独一份啊,那这块呢,这个视频大家日后呢要永久保存,嗯,以后以后呢,如果说在企业当中遇到用CH去搭这个项目,那这个呢就是非常非常宝贵了哈,这时候你花多钱应该买不到,所以说后面认真听,那我们简单介绍一下这个项目当中啊,我们涉及到这么多内容,一共七章,第一章呢属于这个cloud manager啊,主要是cloud manager整个这个框架的一个简单介绍,之后呢,第二张呢是这个采集模块,也是搭建这个收藏模块的过程当中啊,我们要用到哪些组件,比如说之前我们用到的hi豆主kper卡不卡啊,以及这个二级消费的这个啊,这些组件呢,在CD的。
01:00
当中怎么去安装之后来到第三章,第三章呢,主要是数仓环境搭建的一个准备,这里面我们最主要的其实是安装这个have,但是呢,安装have我们为了这个更好的通讯化操作啊,我们需要安装hill,但是呢安装hill的前提需要安装物点,那这样呢,我们就在搭建受仓之前把have woody和he全部安装成功啊。之后呢,来到这个第四章,第四章呢,属于这个用户行为数仓搭建,那我们严格按照我们之前讲的阿帕奇那个数仓这个顺序,包括ods层DWD层DWS以及ADS啊,这里面呢,我们只跑一个指标,因为呢详细的这个业务啊,我们在之前的项目当中已经讲过了,这里面呢就不再详细的赘赘述了哈,只是为了把这个跑通而已。之后呢,来到这个第五章,第五章呢,主要是业务数仓这一块啊,业务数上这一块,那这里面呢,我们其实用到了这个额外的技术呢,就是这个scoop啊,也是基于CD,基于这个CDH去安装这个scoop啊,然后呢,用这个scoop进行数据的一个导入导出,嗯,好,那剩下的这个业务数上当中仍然有odsd wdd ws以及ADS,那这里面我们只跑了一个最简单的指标,就是这个GMV啊,同时呢,这里面到最后的时候啊,我们用乌Z去调度了整个GMV这个指标全流程分析。
02:26
啊,我们在这个呃,以前的阿帕奇这个项目当中,舒商项目当中用的是阿斯卡班啊,那这样呢,我们就把整个呃,这个大数据框架啊,争取全部都覆盖到哈,好再往下呢,是这个第六章,第六章呢主要是讲一下这个impala,就是计息查询这一块啊,方便这个快速查询出这个产品经理提出的一些及时的指标,在之后是第七章,第七章呢这块呢也是非常有用的啊,因为我们这个CDH啊是5.12.1,默认的这个Spark版本呢,是1.6,那么在真正的企业开发当中呢,我们都需要把这个。
03:02
18个版本啊,提高到这个二点几,2.0以上吧,啊,2.0以上,那这个怎么替换啊,这里面呢,采用了这种方式啊,这种方式一定要会哈,日后呢,你还有类似的这种需求,比如说这个像flu啊,他现在呢是1.7,那我们能不能调到1.9啊,类似这种需求是有的哈,好,那这个呢,就是我们整个第五个文档需要掌握的内容哈。
我来说两句