00:00
好,下面我们再来看一下这个表的同步策略啊,同步策略首先来看一下。同步策略包括全量表,增量表,新增和变化以及拉链表啊这么四列,那这四类呢,我们一一个一个来看,首先全量表表示的是存储完整的数据,你说只要买身口里面有数据,我就把它全部都导入到还数上。这就是全量导数,有什么导什么,那另一个呢是增量表,它表示的是存储新增加的数据,也就说今天你新产生的我倒过来,以前的我不倒,这就是指导新增,那就是增大的,那第三个叫新增,即变化。那我能咋来?那它表示的含义呢,是他今天有新增的,或者他今天操作了以前的数据,比如说改变了以前的数据。
01:05
那就是把新增和变化的数据统统的倒过来。啊,那这也就是导的新增和变化,那还有一种呢,是拉链表啊,其实拉链表呢,是对定期的对这个新增和变化后续进行一个合并啊,我们日后呢,单独来讲它啊,它作为一个单独一个知识点啊,来重点去讲解。那我们先看前三种啊,全量增量新增及变化。那第一个,那首先十体表的同步策略。实体表呢,比如用户商品,商家销售员啊,这些业务对象。那么这些时代表的数量呢,相对来说比较少啊,比如说用户,你像咱们的用户说的话也就几百万,对吧,对咱们大数据场景来说根本就不大。一般情况下我们会说我们的呃,用户有500万个,已经算比较大的比较大了,因为一万一万的日活,每天就能产生一个G的数据啊,咱们一般说100万以内。
02:13
对吧,啊,100万以内啊,通常是50万左右,那50万个生活,那总用户500万我觉得差不多。属于一个中小型电商啊,比较大好,然后商品,那商品的话,京东有多少个商品啊。没有啊,也就我觉得也就几十万个也了不得了啊,肯定没有这个用户多对吧,这用户还少很多,一般一个中小型的一个电商啊,有个这个几万个商品就已经不错了啊,比如说卖这个,呃,专门卖保健品的是吧,专门卖衣服的啊,还有这个专门卖这个那啥的。嗯,卖鞋的对,卖固定还有卖书的对吧,像当当这种啊,这是卖书的啊,所以说他的这个不是特别多啊,是家OK,还有商家,那商家是不是更少了啊,商家就更少了啊,销售员啊,销售员也不是特别多,那像这种通常就可以做每日全量,想要每天导个500万条数据过来,这不清标标吗?对不对啊,清标嘛,就是每天存一份完整的数据进每日全量。
03:24
记住,实体表导的策略就是每日全量导入。那就是。假如说这边呢,是每日用户吧,啊用户用户这里面无论你今天有新增还是有变化,什么改名字通通的一下覆盖到。还表里面是不是全部覆盖啊,全部覆盖就行了,好,那下面还有一个是维度表的同步策略,那维度表的策略就包括像订单的状态,审批的状态,商品的分类等等这些码表,那它的数据量还不如实体表。对吧?啊,你说维度表的数据量比较小,通常也可以做每日全量,就是每天存一份完整的数据啊,针对这里面还做了一个说明,如果有这种情况,可能会有变化的状态数据可以存每日全量,如果说有些数据啊,一部分是变化的。
04:20
没变化的客观维度啊,有一部分数据呢是变化的,有一部分是不变化的。那你可以把这些种族变化的东西啊,单独存一份,你说没有必要每日都全覆盖了啊,这种情况啊,那这个呢,就比如说这个性别啊,啊地区啊,民族啊,我觉得这个也有可能变化,比如说性别是吧?啊比如说性别啊,这也不好说。好,那这是维度表啊,尽量咱们通常情况下做的都是每日全量,那下面呢,是这个事物型40表。那就是一旦产生。
05:01
就不变化,那比如说交易流水超出日志输入不记录这个啊,因为数据不会变化,且数据量巨大啊,因为只要你有任何一个操作,他都会给你记录起来。啊,那这种呢,就叫每日增量。我存储你的增量过程啊,因为你之前的数据我都有啊,没必要再导一次啊,那这个呢,就要每日增量是不限40表,那还有一个就是这个周期型四时表,比如说订单请假贷款,他每天都会周期的发生变化啊,定期发生都是变化,那这种的数据量呢,其实也很大。啊,那针对这种变化,我们就把它做成,最后做成什么呢?拉力表,对这种周期性变化的表做成拉力表啊,那他的这个同步策略呢,就是新增及变化啊,新增的数据和变化的数据我都给你打过来,然后做拉链表对你进行合理啊这么一个过程啊好,那比如说这个呢,就是我们的一张拉链表。
06:08
啊,那这张拉表是它什么特点呢?你看他在90年1月1号到2018年12月31号,这么长时间都叫张三。那么如果说啊,我要是每天都记录一条的话的结果就是从九零年到一八年,我要有多少啊,这多少年啊,那365乘以十八点六十八乘以18是这么多少啊,那对于我们来说,那个时候你没有用,我们把它做成拉链表,我有个起始时间和截止时间就能记录出来,在这一时间段,它某一时刻它是什么,叫什么名字啊,完全可以判断出来啊,然后这个是他改到了一九年,改了名字叫张小三这段时间啊,之后呢,又改了名字张大三这名字。啊,那拉链表三条数据就表示了九零年到这是表示什么呢?一个至今至今未拿到的,也是一个当前这个状态啊好,那这是拉链表的一个优势哈。
07:10
后面会详细讲解,那现在我们来看还是这八张表。我们在同步策略的时候怎么同步,那第一个订单表怎么同步。但他的什么数据。同步车辆包括新增全量新增和变化对吧,那这个订单表呢,新增和变化好订单详情一旦产生就不变化,那就是新增好三品表用户表是不是全亮了啊,全量导入那三级一级分类二级分类三级分类全亮啊支付流水新增对吧。啊,那这样呢,就对应过来了啊,也说这个表的分类以及同步策略啊,这一块呢,面试官总会问,诶,你们书上当中有哪张表啊,有多少张这个市值表,多少张维度表,然后你们再把他们往来往这个数场里面导入的过程当中,是全量,是增量,是新增还是变化。
08:20
啊,他会这么问啊,那你要想好了啊。
我来说两句