00:00
好,接下来呢,我们看一下第一章数仓的分成的概念,这里面呢,一共有四小节,第一节呢是为什么要分成,嗯,第二节是数仓分几层,嗯,然后呢,还涉及到一个数据集市和数据仓库的概念,这概念呢属于了解性内容,那受商这个命密规范呢,属于开发过程当中,嗯,必须要知道的,而且严格按照这规划,记住了啊,这么些东西啊,来看这个为什么要分程。那首先呢,我把这个数据仓库的这个分成啊,给大家拿起来了,那看这里面有一个倒三角。那说明什么含义呢?数据越来越越小对吧?啊,越来越少啊这样所以说前面进来的数据呢,很多啊,逐渐呢,会一层一层的减少啊,那么来看,首先呢,这里面竖叉分了四层。啊,分类市场,那并不是所有的公司他都承认市场。
01:00
目前我了解的大部分分公司都是按这种市场分的,嗯,但是呢,像京东内部,嗯,他们有分九成的,有分11层的。那想也能想到,他分的越层次越多,说明他的业务越复杂啊,业务越复杂啊,但是绝大多数小公司,中小公司都能搞定啊,这是三个啊,这四场,那好我们来看一下这市层分别什么I例第一场呢叫ods层,也是原始数据层。原始数据层存放原始数据,把直接加载过来的数据啊,不做任何修改就保持着原貌,你可以是认为数据的一个备份。什么也不动啊,就完成的放在了,OK,那时候接下来呢,就到了这个明细数据层,这个DWD层,它呢属于结构与密度与这个原始数据表保持一致啊,尽可能一致哈,就个别情况也不一致,然后对ODI层数据进行主要是清洗。
02:02
啊,清洗其实还有个降维,降维降维是在后面业主场里头,这给大家加一下啊,那这里面你会认为先是清洗,比如说从原始数据上过来的数据啊,它有可能含一些脏数据,那什么样的数据是张数据呢?比如说。ID值为空的。啊,你是一个订单订单表,那订单表里面的ID为空,那肯定不允许,那还有一些呃,超过范围的数据,比如说订单的金额。他必须得为正。那你突然发现这里面那个金额没付,那它就是异常数据。或者这个订单这个金额呢,在10万以内,你突然发现一个一个亿的订单,那它也是错误的。啊,这种情况啊,异常数据干掉啊,同时ID值不符合法的干掉啊,还有一些核心字段,比如说一张表格的核心字段啊,你像那个贫困表。
03:00
那评论表当中的评论内容或者评论ID,如果没有的话,有可能就把他。干掉。嗯,比说重要的字段啊,一定要有OK,那也就是说从ODS到DWD层这块主要做的工作就是数据集齐,把数据准备好,为未来的DWS和ADS层做准备。啊,清洗干净做准备好,那DWS它主要是以DW底层为基础进行,叫轻度贵重。什么叫青空汇总啊,比如说啊进达学城,其实它是有一张,不是一张,应该是多张课表。其中最典型的几乎各大公司都要创建的表叫行为目标。那这个行为就记录了这个用户。这一天当中所有的行为。包括比如说评论,他评论了什么,来到这个网站,他收藏了什么,点赞了什么,浏览了什么。
04:00
下班没有?支付没有这些信息,那好大家想一个问题,那这是一张用户行为宽表,它需要有这么多状态,那问你评论内容在什么表里面?是不是在最开始的评论表里啊,哎,那收藏呢?对应的有稍长点。点击有对应的点击表,浏览对应的浏览的表,支付有支付的表,下单有下单的表,那他就会这个新用行权表,它是将前面所有的用到的表进行一个汇总啊汇总他会在汇总为这一个用户这一天当中评顿了多少次。收藏了多少次?点击了多少次?支付了多少次,支付金额多少?啊,类似于按天气轻度聚合啊,这是这一层要做的事情,它有N多个方面,运用行为的方面,购物车的方面啊,商品的方面啊等等哈。
05:06
好,那下边是AXABX就最简单了,它是为各个统计报表提供数据了,直接出报表,那你说今天到底有多少个用户活跃活跃。多少个用户新增多少多少个新增用户。瓶状的倒是,这里面要么就是结果了。老板看到的就是。最终的结果中间你前面算了什么,他不关心,他只看结果,那之前带大家看过那个神策吧。是吧,啊,那审策里面记住了,比如说有什么这个各种曲线是吧?啊,这个新增诶一点再新增再新增啊这样然后还有什么留存率啊,然后这个是那斜斜转角的那种,嗯,各种东计化的东西,那就是在这一条小门。那再把再把这一层的数据,最终把它导入到里面啊,为什么要导入MY0来说。
06:05
快了对不对啊,你像我们在书上里面的读写速度是不很慢啊,因为它是基于have的底是M2啊好,那之后那看了这个受上分了这么多层,那我再研究一下,为什么就把它分成这么多层呢。我不夸张,行不行,我直接进来,我就对这个数据进行各种分析。能不能打到下巴?可以,但是你是不是觉得效率很低啊?你想想在分析的过程当中,我可能要要清洗吧。对吧,你能拿把这个张数据拿出来用吗?那肯定不可能啊,那我要清洗,清洗完之后,你像刚才我说的这个用户行为这种宽表,你是不是自己买,你算一个指标到聚合一次。那是不是很麻烦重复工作呀?好,那第一个就是把复杂的问题简单化,将一个复杂的任务分解成多个步骤啊,每一场只做一件事,那就非常简单,而且呢,还方便定位问题。
07:03
啊,比如说他这一层出现错误,那我就要直接往上一层找,我不需要了,要绕到这,我一层一层往前推,往往下推。啊,方便定位啊,OK,那再往下减少重复开发。比如说你要算一个这个新增指标。那假如说第一次算从第一层到这一层,这一层到这层,这层到这一层,那下面再算一个日活,我还需要从这到这吗?不需要了,也许我只到这一层,前面这些都属于公共的数据准备上。数据都已经准备好了,那下面拿回来我再给你算啊。那我就这个减少这些重复性的操作。好,那另一个呢,就是隔离原始数据,无论是数据的异常还是数据的这个敏感性,是真实数据与统计的数据呢,进行结构,啥意思?ODS,它是保持数据的原貌,不做任何成本。
08:02
那无论你后面这些怎么分析,怎么运算,哪怕是分析错了。那后面我把它分散掉,是还有这一层啊,还有一层比说这一层啊,始终是原始数据,最原始的数据。啊,那这个属于这个活力原始剧啊,啊OK,所以这是书商分成,以及为什么分成哈。
我来说两句