00:00
好,接下来几天时间给大家讲解上硅谷大数据项目电商数仓啊,那上回谷电商数仓这个项目最终运行的结果是什么样的呢?给大家呈现一下,最终运行的结果就是这样的啊,你能看到对应的每天的日活,周活,月活啊,类似于这种曲线图,然后你可以看一下啊,这个数上当中每一天数据的这个留存,一天后的留存,两天后,三天后,四天后以及六天后的一个留存,还有对应的转化率。啊转化率,比如说看到这种展示页面,点击页面,访问页面,咨询页面,订单页面啊,对应的一个转化比,那同时还可以看到对应的GMV,那GMV呢,这个呢,属于这个订单的一个交易额啊,订单交易额,你看2月10号,2月11号,2月12号啊,5月8号9月13号啊等等这种图哈,那同时呢,还可以看这种地区的统计,看辽宁啊,这里面沈阳它的总销售量啊,21.1%,大连20,鞍山35,类似的往这一放啊,鼠标放在上面就能显示出对应的销售份额啊这个就是我们最终数仓的时候,可视化的一些指标啊,当然我们做的主要不止这些啊,啊有很多只是用于可视化的,我们展示了这个五个啊作为代表性的,好,那接下来呢,给大家讲解一下这个项目当中有哪些亮点啊,有哪些亮点,那首先是来到这里面的辅助质量这个项目当中。
01:35
及到的技术点非常非常多啊,比如说包括阿斯卡班,德鲁伊,Have,卡普、klys wood preal cell SCO to keeper啊,也就是说把我们之前啊,CA之前所有的框架全部都用上了,同时又增加了很多新的框架,比如说德鲁伊啊,当前比较流行的,还有类似这个Kitty也是当前比较流行的啊,这些框架啊,全给大家去讲解哈。
02:06
OK,回过头来,这里面一共分为五个文档,用于讲解这个项目,那这里面分别从用户行为的采集模块,比如说首先把这个通道打通了,那另一块呢,是用户行为的数仓,那主要是分析用户的日志数据,还有一部分呢是业务数据,那业务数据呢,就是Java后台买售后当中的数据啊,这个书上的一个搭建,同时还支持计息查询,也是产品经理突然间给你一个临时任务,这种的一个查询任务啊,我们也可以用,这里面讲的是PAL啊,还有德鲁伊,还有Kitty去查询哈。那同时这里面还有最大的一个亮点,就是我们采用完全的CDH框架,把整个数仓搭建一遍,前面这三个,这四个文档适用的阿帕奇。嗯,第五个文档用CDH安装完成,那我这里用的这个,呃,集群呢,是32G内存的啊,现在来说这个配置比较高一些哈,好,那分别给大家介绍一下第一个文档当中有哪些亮点。
03:15
整个第一个文档一共分为五张啊,那这五张呢,我们是完全按照企业开发的流程去做的啊,比如说项目需求啊,项目架构设计,项目选型设计啊,服务器的选型,以及这个器件的选型啊,还有这个整个集群资源的数据量的一个规划啊,所有的东西全部按照企业的标准去做的,那同时最后一章这里面把整个这个文档当中涉及到的所有的技术点,比如说linu style啊,Hioop主keepber卡不卡啊,这些框架的面试题全部都给大家讲解啊,因为整个这个项目讲解过程当中,是以企业开发和面试题两个角度啊去给大家去阐述的哈,好,这里面涉及到大量的这个项目经验啊,因为有从这个,嗯呃百度的呃,还有这个美团的,还有滴滴的啊,从一些老学员当中拿过来的,反馈回来的一些经验啊,都融入到这个项目当中了,OK,这是第一个文档。
04:16
接下来呢,是第二个文档,第二个文档呢,就是用户行为数仓,那这个数仓当中也是采用这个开发和面试题相结合的方式给大家去讲解,哎,那这个当中比如说用到的亮点,我们采用了增加了一个tag引擎。啊,Tag引擎是have的一个tag引擎,优化了提高的速度,同时呢,这里面我们还讲解了一个项目经验原数据备份,比如说主keepper啊,MYSQL的一个高可用哈,同时下面这里面我们分析的指标就有八个啊,八大类的指标啊,八大类的指标里面呢,还有具体的这个小的指标啊,非常之多哈,完全是按照企业的标准去做的。那下面还有这个具体的总结,总结这一块也是分为项目经验的总结,以及have整个框架技术的一个总结哈,OK,这是第二个文档,第三个文档呢,是业务数据与仓库的一个介绍,也就是说这个数据呢是来源于javae后台的买S好,那这里面呢,一共是有八张表啊,八张表分析的是以这个GMV转化率,漏斗以及这个品牌复购率啊,这里面还涉及到大量的这个窗口函数开窗啊等等,以及这个数据的可视化啊。
05:35
还有全流程的阿兹卡班调度,也就是说所有任务用阿兹卡班自动化调度完成啊,不需要人为参与啊,同时这里面还有一个比较当前比较流行的订单拉链表啊的一些详细的一些技术介绍啊,最后的时候仍然是项目总结啊,项目总结。之后来到第四文档。第四个文档呢,主要是机器查询,主要解决的是这个产品经理,呃,临时给你分,让你查询一些业务指标,那这里面涉及到的框架呢,有这个PAL德鲁伊以及KLY啊,都属于这种及其查询的啊,速度非常快的,因为以前我们讲过这个inaller,那这里面就不再用inal了哈,好,这是这个最后一个呢,就是这个第五个文档,第五个文档当中啊,那也是市面上目前为止啊唯一的一份采用全流程的cloud manager。
06:28
整个受藏的搭建,那这里面用cloud manager去安装hiop主keepper卡夫卡以及后面have乌hill啊,Hillll全流程的一个调度啊,同时最终我们跑了一个任务是这个业务数据,这里面用的就是乌J啊,乌J和hill啊,完全把整个任务也是从数据产生一直到数据可视化,全流程调度,完全按照企业标准去做的,那最后一个呢,是这个机器查询啊,也是用power去机器查询啊,也是基于cloud manager去安装的,那还有一个呢,是这个Spark这一块,呃,我们整个这个GDH他25.12.1,我们用的是这个版本,那这个版本当中它的默认Spark是1.6,我们需要把它升级到Spark2.1,那这个怎么升级,那我们在这里面也给大家啊全流程的这个讲解透彻了哈,好,这是我们整个核心的一个授课内容,那除了这些授课内容当中还给大家整理。
07:29
给了一套非常非常高频的面试题。5.1。那这个5.1当中就给大家总结了啊,无论是技术框架还是这个项目框架。总结的还是比较到位的哈,我们来看一下。嗯,这里面分为了14章啊,分别是面试的一些技巧啊,手写代码需要你哪些代码是手写的,同时从第三章一直到第九章,整个是按照这个项目啊的角度去啊准备的一些问题,那这个项目当中,尤其是大家比较关心的是这一块,你这个这个第八章吧,啊项目中遇到过哪些问题。
08:09
怎么解决的对吧?啊,这是这个同学最大的痛点,那这里面你不会选,那老师都已经准准备好了,那同时项目当中遇到的一些框架经验,比如说hidoop,它有哪些是在企业当中我们需要关注的一些内容啊,都在这里面呢?还有一些大家比较难回答的问题,比如说一些业务框架问题啊,问你,呃,你每天干什么事,比如说这个啊,每天在项目开发中做什么事,还有项目开发的一些流程,以及还有像呃这个DWS层啊,DW1层啊,也是书商当中每一层做什么事啊,这里面全部都给你,你想要的答案都在这里面啊,都免费的分享给大家,同时呃,再播报一下啊,也就是近期我们又研究了这么多新技术哈,包括开头click house、德鲁伊、k hill PAL in卡,Tolink data叉parcel啊等等15个框架,呃,全费全部免费啊,可以给大家发放,呃后面呢,还有这个CDH全套书商的一个项目啊,电商推荐。
09:10
Li,两个实时的项目,还有用画像,以及我们最后在项目阶段是有一个项目实战,项目实战里面包括是在线教育的数仓实时用画像啊,全套的这个项目哈,呃,这里面强调一下啊,如果你花钱买我们不卖,如果说你是呃免费想学习,那我们赠送啊,只要能帮助大家,那就是我们最大的这个心愿哈。
我来说两句