00:00
好,接下来呢,我们讲第三个文档,第三个文档呢,是数仓项目当中的业务系统数据仓库,那这个文档当中一共有十张啊,我们分别来看一下,第一章呢,是电商业务与数据库的一个结构的一些介绍啊,那这里面呢,属于一些常识性了解的内容啊,包括电商的业务流程,还有s dosto啊一种常识的概念,那同时呢,还给大家列了八种表。之前我们学用户行为的时候是12张表,那这里面呢,我们是有八张表,这八张表很关键啊,很关键很关键,而且是非常有代表性的。那后面呢,给大家详细说哈,好,接下来第二章,第二章我这块写着了,这里面叫面试的重点,你说日后数商这块问理论问的最多的基本都在这。啊,这是理论层面啊,就是书上这个建模怎么建的啊,有哪些表等等都在这里,那这里面包括书上当中表的分类,以及同步的策略,什么同步策略呢?把满circle里的数据如何导入到file里面啊,采用哪几种方式去导,有增量,有全量啊,还有什么新增的变化啊,那这几种方式它是不同的,那再往下还包括范式理论,也就说你在设计数据仓库的时候遵循的哪几种范式?
01:29
还有关系模型啊和维度建模啊,关系建模和维度建模啊,关系建模呢,主要是买增当中数据库的建模,维度建模呢,主要指数仓当中你是怎么建模,那这里面追寻什么理论,那还有具体的纬度建模,包括雪花模型,星型模型以及星座,那他们之间又是什么样的关系啊好,这是第二章,全部都是面试的重点啊。啊,接下来从第三章开始,开始继续的去搭建这个舒商,那这个舒商呢,跟我们之前学的这个用户行为舒商差不太多啊,只不过呢,这个呢,比用户行为受商更简单一些啊,它这个结表结构不像这个用户行为的啊,欠各种嵌套,它就是单一的一层啊,那这里面ods层啊,DWD层啊,每一层做了什么事啊都类似,那这里面把买生活里的数据导入到have,用到了一个框架是。
02:29
是库本啊,是库本,那在这个深圳这片啊,面试题面的最多的就是此副本参数如何设置的,有哪些参数,分别代表了什么含义啊。好,那之后呢,是DD层啊,然后DWS层,这个DWS层就是用户行为宽表,几乎是做数仓必做的。啊,几乎每个公司都做,就是说一个用户来到你这个网站,他做了哪些事啊,评论呐,收藏啊,点赞呐,啊还有这个下单呢,支付啊,所有的事情都可以聚集在这个课表里面啊之前呃,咱们学生在去哪儿网,他们一共就三张表啊,一共就三张表能解决70%的业务。
03:18
那么是前天晚上啊,咱们有一个老学员,在座的是一个金融公司。他们全公司就一张课表。所有的业务全从这个课表里面出,也就是在DWS层把前面所有的表全部汇总到这里面。然后从这里面去统一分析字段,也是ad绳全部掉这个方面啊,这样去做啊,非常非常快啊,简洁OK,那这是这一块啊。接下来呢,就是来到了这个第四章,第五章,第六章啊,这里面就是我们日后要分析的业务指标,那GMV呢,表示的其实就是这个订单金额啊,有多少金额,下单金额,那转化率,转化率也是一个公司几乎必分析的。
04:07
比如说来到首页的人数,最终有多少人转化为支付了?啊,那这种指标是肯定要统计的啊,你说进来1亿人,出去一万人支付,那这个转化率是多少,那还有这叫漏斗分析,那这个漏斗分析其实说的也是这个事啊,只不过呢,这个一级一级的减少,比如说页面啊详情详情,然后到订单,订单到支付啊这一条线漏斗OK,那还有一个品牌复购率。那这个分析的就是你在一个月内。啊,一个月内一次购买,两次购买,三次购买的人数是多少?啊,购买了一次,购买两次,购买三次啊,这也是老板关心的啊,多少人在重复的购买,他的用户特征是什么。好之后第七章,第七章呢就是数据的可视化,那这一章要求我们把ADS的结果最终导入到Mac。
05:10
然后通过Java程序读满之后的数据,可视化到页面上进行展示。啊,那这就是相当于一个完整的闭环了,从数据的产生到数据的展示,可视化出报表啊,整个一条链条搞定,啊这是这一块,然后呢,下面是到了这个阿尔卡班全流程调动,那这里面是用自动化的手段,从数据产生到可视化展示,一条龙展示,那这里面展示的是这个GV啊GMV啊总金额。啊,那后面还有一个,也就说最近无论是面试还是开发啊,做的比较多的叫拉链表啊,拉链表这么一个概念啊,那这个概念呢,主要解决的就是还有数场当中某一个字段的修改。
06:03
怎么来处理,因为还有他修改某一个字段不擅长。那怎么办呢?修改不了一个字段,那我就修改你。炫耀。这么一个思想啊在里面啊,那接下来呢,是第十章,第十章呢,就是整个对前面写的内容进行一个总结回顾啊,所有的知识点都在这儿,就是整个第三个文档的知识点在这啊好,那这呢就是这个业务数仓。这个项目啊,我们要做的事情。
我来说两句