00:00
好,那下边呢,我们来具体的去制作一下那个拉链表,那制作拉链表啊,首先第一个我们得有一个初始化的订单表啊,有个初始化订单表,然后在这个基础上加上两列,那现在呢,我们需要造一个最原始的初始化数据,那很简单,只要在本里面生成一天的数据就行了,比如说我们生成的是12号吧,第一天。呃,13号的数据,比如说初始化的时候,这是13号的数据,然后第二天变化的是14号的数据,他们两个进行一交易,就得到了临时拉力表,然后临时拉表再覆盖原来的,那这里面涉及到两天的数据,12号和13号和14号的数据,对吧?好,那先票数据。那首先照一下13号的数据。来到这里点一下好正常。那这样就生成完了,你看一眼啊。
01:01
13号订单。看十条数据吧,啊对,这十条数据啊,日期13号OK哈,这里面。Time,有的有的没有啊啊行,然后呢,通过这个脚本去导出数据。大盛。哎呀,在导数过程当中,我建议大家把那个阿卡班配了啊。能退的都退了啊,这里面很耗支援啊。那是。上大。
02:07
然后还有一个。最喜欢的就是上档Q啊,看这床的啊。这边人玩任务啊。好起来了。咋办呢?啊,这个是啊,这是二百六是代表啊。
03:01
玩一会儿。时间应该在十十分钟左右吧。没电脑应该不太想。对,拉链表啊啊,其实是比较简单的,但是呢,是因为以前呢,很少有人去做这个拉链表,所以。就会觉得这个比较新,比较新的东西。我发现最近市面上又出了一堆新框架,我要崩溃了,这个速度跟不上啊,至少现在又出了五到六个吧新框架。什么语音?还得继续。我感觉这个日子好难过呀,稍微感觉这个稳定一点了,然后又出来一点,稍微稳定一点又出来个太痛苦了,其实这个框架法都是相通的啊,跟你们之前留的也差不太多,但是呢,就这点变化对于你们来说就是恐惧的,你知道吗?一旦遇到这种这种情况下说这个之前没减过啊,致命的打击,直接小心脏就已经受不了了。
04:27
那刚才有个同学问我,问了我一个框架,我说这个我想了好久啊,要要去过这个框架了,确实啊,已经提上日程了,但是呢,这个时间比较紧啊。得得,让我缓一缓他是吧,这边一直上课,你说让我一边研发,这也够呛啊,陈妾也做不到啊,是吧?所以我就发了,我说目前还没有,直接一个上吊的小表情就过来了。现在市市面上这个大数据比较常用的一些框架,至少得三四十种吧。
05:05
这种三四十种。你想想你会了多少?还不够吗?八岁教跟。啊,大学教材,你别提教材,那出一本教材至少的时间得落后一年对吧,嗯,你要从那个就是开始排版呐,整理啊,啊这种出版至少要晚一年的技术,上半年技术。在互联网行业晚一年晚一个月也受不了啊,这个是吧。你包括今年的弗林,那多火呀,这受不了,那必须得上。就是组织四五个老师,就不上课也得把它刻出来。我初步打算Li未来得加到15天。15天的时间。算了。15天的时间,那现在面临的我也在考虑一个问题,就是。
06:03
得上课呀,对吧,不删课哪有哪有新课进来呀。晒什么呢?想半天开可能要看看一两天。然后前面Java我们持续再砍,已经卡到不能再卡了,是吧,你们已经受不了了,Java那个。那没办法呀,你说最开始你知道那个框架我讲多少天吗?15天,可你起止15天啊,SM讲了九天,九天好像是项目讲了15天,就是加了意项讲了15天,然后其他的什么放假还不算,那你说加一期,一个半月到两个月是那样,那是第一期哈,第一期的时候。那实在没办法呀,那时候没有没有别的课呀,没有这么多房假呀,哪有这么多房,谁知道肯定能合行,那这个呢,好啊,再继续吧,再继续。
07:08
你发现大数据变化多快呀。那时候才一,现在回想一下,才是一七年的五六月份,那个时候的状态啊,一七年今年才多少,一九年就两年时间,两年时间出了出了多少重量级框架,嗯。而且两年时间,你发现市场上有多少大数据成员是吧?瞬间以后春笋般的诞生了。以前你找个大数据成员太难了,你出多少钱没有人来,这真是这样。心态逐渐的还有一些了。嗯。钱到位了,你们,你们说钱到位了,多少钱算到位啊?土也好,开到100万,找找找找讲师。
08:00
仍然找不到合适的,不是说这个应有肯定有人来应聘,对吧,你开到年薪100万,那肯定有人来,但是。他不符合我们的要求啊,对不对,我们也有诉求啊,他得首先得他讲课对吧,还得能备课,他得有研发能力。这是两项技能啊。有的人能开发,但是不能讲,讲不了,你一听他课那就迷糊,有的人能讲,但是他不能开发。有两个,两者都间距呢,太少了。
09:00
嗯。我觉得大数据啊,至少还能活个三五年,应该是没问题。好之后之后之后我也不好说这个互联网这东西,它变化实在太快了,这个东西怎么处理。行,那目前呢,这个数据呢,我们已经生成完了啊,生成完了嗯,同时呢,也已经导入到了DWD层,那DWD层结束之后,现在呢,我们需要建一个表啊,这表在D达历程建一个订单拉链表啊,初始化单表,那么这个初始化单的表和订单表它的区别是什么呢?只是多了两个字段,分别是有效开始日期和有效结束日期啊,就接下来字段仅此而已,其他时段全部一样啊,你看我在原来的订单表基础上就加了一个history历史的意思啊。
10:10
上前。请一下。然后呢,这个创完表之后啊,就可以向里面去插入数据,那插入数据呢,它的来源也仍然是这个订单表啊订单表,那他这个订单表呢,也是只是在这里面加上两个固定的字段,开始日期和结束日期没了,其他字段全部一样啊,是不一样啊直接插入。创建表。好。使用房间。只是增加两个字段而已,然后呢,向里面去插入对应的数据,数据来源于原来的订单表。
11:07
搞定。插入之后可以查一下啊。查询一下。OK,那这里面呢,就有了对应的数据了,有了数据之后,下边我们开始制作变动的数据,比如说现在呢,到目前为止,我们相当于把原来的这个订单表变成了初始化的拉链表,加了两个字段,那下面我们要做的就是制造MYSQL里的数据,这是13号的数据,那这边呢,变成14号的数据。啊,那这里面我们就要制造新增和变化,那其实呢,我是造了两条数据啊,两条你这边的数据呢,是一到十的一个ID,我再来两条呢,这两个ID呢是一和二,对,这是一个修改,那这个怎么怎么照出来的呢?这块变成错,只要是处的话,它就重新排这个ID,那就从一二开始啊,所以说这里面就会有新的数据产生,是这样照的啊。
12:28
比如说你看一下那个这里面。你看目前的它的编号是一到十,是这样吗?嗯,你看我现在再执行一下啊,指一下这条2月14号的中。过来刷新一下。看变成ID为一和二的吧,那就相当于对原来的一和二订单做了一个修改,好那就有变化的数据了,OK,好有它最后那下面呢,我们继续去导。
13:05
OK,倒时间。时间呢,也是十分钟左右。刚才说到这个大数据是吧,三五年应该是没问题啊。但是你这个期间你就一直跟着这个新技术走,肯定你永远不会担心找不到工作,就跟你像那个甲骨文今年的裁员对吧,那裁完员之后,你你发现那些人都失业了吗。没有,他瞬间就被别营公司接收到了,对不对啊,比如说你要腾讯要裁员,那瞬间阿里巴巴的人就去对着打人去了吗?把人家都弄过来了啊,就是这样的,包括之前那个优酷,不是我是那个。那个贾跃亭,那个乐视对吧,你看他裁员的时候多少个那个组团去是不是招聘啊。
14:00
只要你是金子,然它永远会发光的,那前提是你得试着。你别那个一到那个工作当中就开始。开始这个天天游戏是吧,游戏人生那什么那。昨天那个老学员,就是刚0925的北京的朋友也也没多久啊,说连续加了三天,有点受不了了,这加了多少啊,每天晚上11点下班,很多正常的事儿啊。那连着三天,我说我都连着七年了,还这有啥呀,对吧,一直都是这样的啊,这时候就是你从事这个互联网开发程序员,那就这样每天早出晚归,你像他们11点的话,早上去点晚了十点钟啊,十点钟到11点去。那其实时间也不长,对不对,只是这个作息时间不一样而已。但是也挺好啊,你是你你这个晚上11点回家,可以打车,还得报销。
15:02
多好,还省钱,晚上还有还有加班儿钱。我跟你说,我刚来北京的时候,我就为了吃那个25块钱加班餐,我天天加班,我加班到破产为止。包括之前那个也是加班的时候可以打车啊,到那个九点以后可以打车,那我就那我就加到09:01。太有兴趣。都是的,都是卡点吗。说实话,加班的时候效率真的不是特别高啊,你们加班的时候就不高啊,心里很累,而且不知道要做啥,反正就是为了加班而加班啊,因为大家都没懂啊,别人没找你也就在那待着啊,就看相互聊聊天,扯扯淡啊,然后整一下完事了。打断结果。
16:00
不打算结婚啊,这跟结婚没关系。长得帅是吧?这这找对象,这不丑吗?所以啊,一定要对自己狠一点,我我总举个例子,就是咱们第一期那个一个学生。他叫。叫他去那个第一家公司,去的是中国北斗啊,北斗刚去的时候就四大,后面的人就是30城令,一跳去了一家金融公司。那人家是怎么干的,那真的是天天晚上干到三四点钟啊,那书一摞一摞的看啊,你们真的达到这么多,真的没问题,包括你们上班,你们知道那个无敌吧,就来分享这个,你看那边那个书了吗?是一摞一摞的说各种手势啊。是吧,你你还从他那买呢,对啊,那那么多书包,那办公室还还有的书呢。那他他是真看啊,他可不是那个摆设啊,对他是挺材,他史学书嘛,然后你包括他,你看我还从他那拿了一些那个资料,阿里巴巴的啊,内部的什么架构啊,这原来什么一堆。
17:13
那就说明人家真的去下工夫,去研究了,下工夫了那那就有收获,你看人家现在面试那就是无敌状态啊,真是无敌是吧?啊,那不一样。认识的人应该知道,他其实是一个比较比较内敛的一个人,我感觉不是特别那种能说的,还是靠硬功夫的。而且他学校一般一个普通的天津的吧,天津大学的,不是不是天津那个大学啊,天津理工吧,好像。一。那他们还有个211呢,现在还在家待着,刚才我给他打电话,就搁家待着,嗯,不出去面试,跟执命证似的。211年龄也也合适,各方面经济条件都是顶配,你换成任何一个人的身份,那出去都得是25以上。
18:09
他那不。不知道大家想啥?所以啊,你们就业的时候啊,谁的电话都可以不接,我的电话一定要接啊,要不然你们就要凉凉了。嗯。嗯。好,那14号数据已经导入到出仓,然后呢,O点来城继续倒。这也就是导数据比较麻烦,其实理论呢非常简单,一会儿你看就行了。
19:06
昨天我电脑跑这个。嗯,还有德鲁伊。都跑崩了,哎呀,我这电脑是真不行,真的真的不行。不是啊,对,那有可能有可能是那原因啊,你说的应该是有可能。啊,真没注意,因为我一直认为我是可以八级啊,啊低档这电脑差在哪呢,我这个再往上调调不动了,不知道我电脑为啥我在调,我正常我是电脑为32G嘛,我应该能调到16G。那就死活交不上。你看啊,这这块。那随便拿一个这个。那有没有高手能帮我呢?我正常我应该能调到16G,它下面就提示这个32位主机将无法开启RA大于8G的这个主机值。
20:01
我这个无论是三段S还是Y,还是这个Y面都是60G的。也不让你啊。32分钟我超不行是吧,这是警嗯,点不确定能点确定能查这是那这也很不爽啊,他万一他他他不让你用不了那个大姨妈机什呢。这不好说,32肯定是用不了,网上应该是,他还跟你说减少减少内存还要关机。只个警告而已。我回头再试一下,这个严重影响我这个我电脑这个性能。以前就给卖了。现在最近那些老师买的电脑配置一个比一个高。气我气我我给你换一个电太强了,行,那现在呢,这个2月14号数据啊,也造完了,那在这个2月14号的数据呢,下边呢,我们就来啊呃,创建对应的这个表啊电子表。
21:15
那这个是什么表呢?临时的拉链表啊,现在你稍微回顾一下啊,最开始的时候我们准备的是初始化的拉链表,在这个订单表最后加了两个字段,然后呢,我们又准备了满赛里的数据,满赛里的数据呢是一和二两条ID,那们这边呢是一到十号ID的数据,现在呢,我们要做的就是创建一张临时拉链表,那用于这两个表来进行一个合并啊,是这样的哈,那这个是临时拉表,它也是拉链表,那拉链只要是拉链表,它的特点就是在后面加上两个字段,分别是开始日期和解除日期,那你看看。开始日期和解除日期那就完了啊,那创建吗。
22:09
OK,创建完成之后,下面呢,就是要往这里面去导入数据,那导入数据过程当中就涉及到表的造影,那这里面是核心的有可处理来看。首先稍微巩固一下,比如说这是219年1月1号对应的原始订单表的数据开始日期,结束日期。啊,只要是拉来表,那就是有两个字段。好,那接下来到了下一天产生了对应的订单的新增和变化,来了这张表。那下边。针对这两张表,我要进行交易处理,把它合并成下面这张表。那下面这个就是具体的拉链表。那我怎么合并的呢,来看。
23:03
这是具体的这个合并语句,也就是说像这张表里面插数据,这是一张表。现在表里面插入数据,那插入的数据来源看第一条。第一个呢是order four where,条件立即等于1月2号。那是不是代表新生和变化啊,新生和变化,那新生和变化里面只是加了两个字段。开始日期和结束日期对吧?啊,那你这步处理完就相当于把这三条干掉解决掉。在。OK吧啊解决掉解决掉了,下面就开始具体的去它啊处理它和对应的时张表的一个造应,那在下面了,来了一个UN尼奥联合查询。那你看它是用这个dwd her啊history,那它是谁呢?啊啊,初始化的这张拉列表去left照应,记住是left照应,照应谁。
24:11
1月2号的所有数据,哪个1月2号呢,这里面的。是这样吗?他们两个进行join。啊,两个表是life的照音left的招音的特点就是左表全影啊,全包含去照音它left它们招这两个表照议的结果就是123这三个点有吧啊下面这个四五有没有没有吧啊没有那时候那个二能够匹配上一和三。这边应该是。空吧,是这样吗?嗯,好。上来,那继续,那你这一张他们的判断条件是ID相等,且按的T等于999,那看能够满足这个条件的是它。
25:02
问,ID相等首先满足了对吧?啊,同时on time得等于它。啊,那这是oh oh就是初始化拉列表的是它,因为我们希望是把这个值改成。啊,是这样吗?我们希望的不就把它买掉吗?嗯,先把它改掉,那它怎么改掉呢。就这句话,这句话能搞定的。那这句话是OIOI是它,也就是说这里面新成和变化的表格数据,那如果说它的ID为空,你噪音完为空,那看一和三是不是噪音完为空啊啊它为空,那么就还是保持为oh的按子看,那oh是不是就还是嗯,Oh啊oh。On。
26:00
那这个表是吧,是不是就是原来还原来那个订单表啊,那这个初始化那个表啊,他原来是什么是不是还是什么呀,那是九九还还是九九,那如果这个ID不为空,那这里面不为空的就是这个二号题的。他们呢?他们两个不会空。那不为空,它就把这个值改成什么了呢。当前这个OI dt减一,那当前这个OIDPOI也是1月2号,1月2号减一就变成了1月1号。那1月1号也就把它就改成1月1号。这意思吧,啊,也就是说用这张拉链表去left的噪音心程和变化列表,那只要ID匹配的上,且and time等于它99,那我就把它改成对应的对值。那就完了。
27:00
啊,那至于其他的这什这个新和变化的表,只是在末尾加上两个字段,初始化是开始时间和结时间。啊,最核心的一句在这儿。啊,这就是这个拉链表的阵地啊,改变不了一个字段,我改你深表啊好。那这块往下里面啊,直接插出去了啊,不写了。插入完数据之后,相当于目前阶段的是这是初始化单的表,这是买设过程中的表,这是time表,比如说临时拉表,那还需要把这个临时拉的表去覆盖它啊,把初始化的对不对覆盖掉啊,然后把复始覆盖之后,变成又一个新的初始化拉的表啊,那这么一个过程,那也就是说用这里面。像这个。
28:00
原来的初始化拉列表里面去插入数据,插入数据的来源呢,是这张临时拉列表啊,探了拉啊,查询临时拉列表里的所有数据,插入到初始化拉列表里面去,OK。下。查出完成之后,你可以查一下啊,目前的这个初始化拉列表的一个状态哈。好,看完了缩小一下,缩小一下。那现在呢,这个就是最终的拉链表的状态,那么来看这里面有两个订单。这个你看。2月13号,2月13号,然后这边变成2月14号开始999结束,还有一个这个订单。这两个那还是二月十三二月13啊,然后二月十四九九九是这样吗?我们要的这个效果吧,啊就是这个效果啊,这个是这个初始化拉链表啊OK哈。
29:11
后面的你可以做成脚本吗?
我来说两句