00:00
好,接下来从第三章开始啊,我们就开始真正的这个数仓搭建啊,从第一层OD层开始OD开始OD层是干嘛呢。保存数据原创啊,不做任何修改,OK,那这里边啊就输差,现在呢,我们已经来到了这个位置,而且是第一层ODSODS啊,那下面既然是出仓,那你就要建一个数据仓库,建一个数据库,然后在这数据仓库里面在建各种的表啊表,首先这gma是全球电商global ma,当然这名字你可以任意去写哈,每个公司起名不一样,好,那后面还有一个。对吧,散控是吧,散控跑路嘛,对吧,我没教过你啊,千万不要用这个,那尽可能的不要用,控制自己的情绪,所以说已经到了这个无法忍受的时候啊,想想要忍住啊说。
01:04
我们交换给令可以把它忘掉行,然后之后呢,存完数据库之后,就可以使用这个数据库啊,然后进行进一步的一个分析了哈啊。张家立过。C的这个对。别批错了,有的拼的是gil,那是全球邮件啊,然后要的。要G单,那这样的这个就是这个全球输差来到这个数据库啊,那这个数据库创建完成之后,下边呢,我们就开始ODI层,ODI层呢就是原始数据,对数据不做任何的修改。那问大家一个问题,现在我的数据在什么位置呢?在A点百是吗?啊,AD100是我要我要把它导入到have里面去,是这样一个过程吗?哎,好。
02:07
那我问你,像一个还有市场里面导入数据有几种方式。来,赶快。行,你等下。又怂了,来吧。我得拿证据证明一下,你们老师给你们讲过多少?很多少是吧,啊,就是记住你们的特点就是学多少忘多少。喜欢你吗?是数据导入吧,对吧,咱现在涉及到导入还外加一个对吧?嗯,外加一个school,那就说加载not in射I,嗯,还有什么指定,还有in是这么多啊,啊叫做那你能想其他几种呢?那这里面比较常见的是这个not和insert啊,这两个字比较注意的啊,后面的话我们也会用这两个去导入数据,OK,这是要往里面导数据,那导入数据之前,首先你这个。
03:17
还要给他丢掉吧。啊,丢表,那你要见表,那这个表我建成什么样的表结构,有没有考虑过啊。我们先从这个最简单的启动日志这表来说,因为启动日志它就是一个原始的接行数据,就是这样。那长这样的话,你在这个ods层要见表。怎么建?变成啥样?建成所有的这支灯。它的特点是跟原始数据保持原貌。其实原始数据一他就可以认为就是一个实验证法。
04:00
那就是一个证块吧,啊,管你多大的,它就是就是一个这支块啊,那电表首先这是标准,标准的键表,就是如果存在先删掉啊删掉OK,然后然后呢,创建一张外语表。为什么要创建web?数据数据多人共同维护这张表的时候,删除不掉原始数据,对吧,只能删掉原数据,OK好,那其实呢,这里面就是一个字段,也就一个实例啊,这样去理解就可以了,那好,那在列表的时候就是创建一个外部表表明,然后一个字段来类型是这。啊好然,然后按照代表创建分区,Ran的大啊DT那这个反引号的。那一会我们再接着它先况这那是这然后呢是压缩格式拉缩螺压缩,那这个呢,是官网上嗯这么配置的,所以说我们是按照官网来的,那这里面配置呢,其实是这叫呃拉着罗test的一步,一如说输入一步慢输出一步的话呢,配置的是t test的不能。
05:25
慢想想为什么?对方便看啊,那你想想存储在那个还里面的数据,它是拉着罗的,反过来是拉着罗,那你要想读拉着罗的文件。那你的input方化呢,必须得支持拉文,那我这里面是拉text input化,它就能读取拉文件,那么读完这文件,我是为了要给我分析的吧,那分析的时候得支持可望的看到对吧?啊,所以说呢,输出的时候是太高的啊啊。啊,那头算下数据存储的位置。
06:03
比如说我把这个数据导入到哪里去,那这个位置呢,我是又额外再建的,这叫二号,是自己起的名字,输仓,输仓的概念,然后呢,Gma属于这个电商的名称,然后ods也是ods层,嗯,然后ods层对应的表名字啊,这就OK了。好,那这就是一个建表语句啊,简表语句。行,那我们就来写一下啊,写一下这个。那写的话,这边如果存在把它删除z table啊,If ext与这个是你赛谁呀?Ods,然后是start后缀,因为我后面还有这个业务数据库的后缀呢是DBR,过时上把三除,然后创建表create。
07:07
外s table那表明的就是OS star,那这个字段呢?啊,这一个是他。啊,那这个line的类型呢,String啊,OK,好,那接下来它的是按照分区进行存储t.d attention的BY啊,那这里面呢,是DD使间,那前面加一个反引号,这啥意思呢。跟这个系统的变量不要重叠,可以看一下。资料。资料包。扩展资料第一个就是。
08:06
呃,这个反引号是my circle的转移式符,避免和my circleq本身的关键字冲突,能懂意思吗?啊,防止跟这个系统这个关键制冲突了啊,加了单引号之后,他就会认为是系统自定义的啊,就这么一个功能啊。好。那它完事之后回来,那是分区讲完了,分区完之后是不是开始存储了start艾s to e,哎,那as的话,这里面规定了它的input和art不同,那这个是从哪来的,或者说我们要自己写的话啊,为什么要这么写呢?那来看这个地方。看泰国,直接看泰国。不知道这个网速怎么样啊?
09:01
所以说好多东西啊,都是从这个网上来的,那这里面有一个number menu打开。好,那找一下你看这个。是不,它和拉克罗压缩之间的一个文档啊,你看这里面还有什么阿芙罗orc卡是不是很多啊,你说之后你在学习过程当中,其实你是参考这个去配置你的汉文好打开。那这个就是拉着罗压缩相关的一个配置,包括咱们这个拉轴压缩呀,也是都是参照这个文档去配置的,你看这里面是不是高赛啊,还有什么这个你看是不是咱们也是占到对应的配置文件里面的啊,都是按照这里面去配的啊,那下边到这块。黑包DeFine创建表啊,或者表的一个定义,那这里面呢,是创建一张表,如果存在产生什么啊,然后这块。
10:07
Start at start at,它这里面定义的就是input for是不是就是拉多罗test,然后阿对应的就是还ignore,它的含义就是因为important话呢,是属于当中。第一个主体输入数据的一个组件,二的话呢,是控制输出的一个组件,嗯,好,那存在这个磁盘上,它的格式是拉脱罗,那你就用它去读,读完之后对它进行运算的结果需要进行可什么或者说我们能方便的看到啊,就这个原因啊,所以说这里面我们按他可。行,那咱把这两块拿过来,你不能画了,不要画不画。搞定。
11:00
那这两个表件之后,下边还有一个location的一个指定,比如说把这张表存在什么位置,O c location存在什么问地方呢标号,那这个路径呢,目前还没有,那它自己会自动生成wre。House下面的map下面呢,Ods ods下面呢,Ods。这么一张表,好,那这个完事之后我们就可以见表了。对。那这样呢,这里面就有了一张表。整体保存,嗯,ODS大,那有了这张表之后继续啊,继续往前看,那下面呢,我们要往这张表里面去。插入数据。那现在插入数据。最原始的数据在这个位置大家看啊。
12:04
I。现在我们的数据是在内的gma log start这里面啊,我们知道这两个24号和二十四一号,你说这个路径下的数据,把它导入到。My house gmail OS。这个表里面是吧,哎,放在这里面去,那这个怎么说呢。那这里面遇到了这个命令date in part,那原数据输入源在什么位置呢?就刚才说这个俊对吧,就在date麦那,然后二十十号先找他的。
13:04
啊,输入数据在这,那将这个数据导入到。变动黑板,哪个黑白呢?Ods start。啊,那导入到这个表的哪一个分区呢?P。拿冠军。DP等于2019杠零二杠幺零,因为我是2月10号的是不是。嗯,好,那就倒过来了。那咨询一下呗。R,拿过来申请一下,能不能成呢?成了,那怎么能验证成了呢?我们来看一下这里面的东西啊,刚才是2月10号的刷新。
14:01
没有了吧,相当于是一个剪切是吧,那剪切来看看目标地址有没有。外号金麦尔OS star。有数据吧,而且是拉着螺,也就是说保持了数据的原貌,没有对数据做任何的修改啊,那虽然倒过来了,那我这边能不能查到这个数据呢。Froms限制一下。厘米。嗯。是不是这两条数据就过来了。啊,就这么简单,那这里面是建的和金表有在那个金山后面又多了一个一列2月10号。那这呢,就是这个啊,启动日志的一个导入过程啊,就这么简单,好,那他导完之后,那剩下的事就简单了哈,那下面呢,我们继续来导这个一本像事件日志的这个表,那们来看看。
15:15
那首先这个呢,是事件表的原始格式。看着好复杂是吧?啊,既有这个伏击时间,然后再就是JA省,JA省里面又套JA省套了一堆,那我们在自定义这个have表结构的时候,是不是很难下手么?是这样吗?本质它不管多少,它都是一个字符串啊,就是一个实内字串,好,那既然知道这个本质之后,这是不简单了,这样的地方一它存在,把它删除掉之后,仍然创建一张外部表字段,String CRA方嗯,外部表,然后line。
16:02
时间,OK。然后下边仍然是分区part等吧。那这种压缩start as你不能把我发。啊,这地方设置存储位置一模一样的啊,一模一样,好,那下边我仍然来写一下啊,这里面,那这回我就可以基于这个记起了。啊,基于这个其他表star表,那这里面ODS1杯invent了。然后这个表名字就同时它也是一个字段分区也是按照日期进行分区存储,仍然是按照拉着的方式存储,然后location,只不过location这儿变成了基本上啊啊就OK了,R拿过来。咨询一下。
17:03
这样呢,就创建成功了,创建成功之后下边仍然是导数据,那导数据的话,我们就用这个对。啊,能做到。方便一会做这个脚本啊好,那这个not这块注意not pass,原始数据这块变了,变成eva业绩。Table那这块又变了。然后分区是不是没变了,那好我们仍然去导一下这个数据。张。成功成功之后我查一下CD slide from from o文章啊。那边的不中。什么事件表的数据也过来了,哎,这就是ods上的魅力,保持数据的话,对数据不做任何的修改啊,这就完事。
18:08
那大家想的问题,那每天我都要去执行一下这个命令。每天我都在这个客户客户客户端上去执行下,他们肯定不方便,需要我们把它做成脚本,OK。
我来说两句