00:00
好,上午呢,我们把这个右户行为受叉当中的前三章啊,以及这个OD啊,Odh已经做了,那下午的话,我们从这个DWD开始往后做。那咱们稍微回顾一下,O o Di,我们做了什么事啊?OD就是将HD上的数据导入到have。表里面对吧,啊表里面,那在还有表里面建表的时候,我们建了几个字段呢。一个字是不是就一个字段一个啊,因为它就是一个字符串啊,OK好。那接下来来到DW层,DWD层呢是对数据呢进行清洗,同时呢,把数据展开准备好啊,等待这个下一级在这个数据一个分解啊,那这里面就要求将这个string,比如说你的一个。
01:00
建设数据把它解析看啊,解析成一个一个字段,方便还里面去查找一个字段的一个指标,那就要进行解析,那解析的话啊,我们来看。看这。那首先我们叫,比如说我先处理这个启动表啊,启动表,启动表呢就比较简单,我们就需要先创建表。啊这点,但是呢,这个启动日志它是不分两块的,分哪两块呢?一部分是公共字段,一部分是事件或者说详情字段啊分出两块啊,两部分代表组成的,但是呢,它最终的组成的都是一个揭示数据啊OK,那这里面你可以先建表,那建完表之后剩下的事呢,就要下列个表里面去导数据。那导数据。怎么打呢?嗯。
02:02
啊,那这里面啊,我们来看,首先呢,把这个我们之前生成的这个日志拿出来启动啊。让大家看回复一下啊,之前的我们这个造的这个数据长啥样。在人也去做。打开。在E盘。Idea。然后是他。回顾一下,我们造了两种数据,一种呢是启动日志,一种是事件日志,那他们的格式我们要非常清楚。明天夜行。好,那这样呢,它生成了更多数据,那我们就拿出其中一条这个启动日志。
03:07
拿过来。大家是不是有快捷方式?搞定,搞定之后拿回来。这是。给吗?啊,这是开源的哈,然后打开随便打一个就行啊都可以,然后把这块的贴身粘进去,然后格式化教练你发现正确接神啊。你说长这样。那咱这样,我们就要把这个这单个一个字段,你ODX层给我们提供的是一个字段,对吧,那就把它。简西城。一个一个的整个一个一个取出来。
04:00
那要取的话,那它整体是一个接身对象。那我拿到,只要我能拿到这个对象之后传进去对应的P。就能得出对应的。啊,就是这个道理啊,就简单,那好,那我们来回来看。那这块首先我们的目标是把这个健身,比如说刚才那个健身数据传到这张表里面,DWD程啊,但是呢,这个这些呢,它是存在OD绳,就存成了一个时间这串,但是呢,它本身是一个接。嗯,那好,那它既然是个阶层,我要给他解析的话,这里面用到了一个叫框架或者一个函数叫概的阶层。那么在。传进去一个。Line,这个line是谁呢?ODS里面只有一个这个,它的这段就是line。
05:02
那传进这个来,然后刀符。点2MID mid是什么?你找一下m mad是不是就是P呀,哎,对应的P,那你传进去P值就能得出对应的Y流值,然后这是别名复数,就点零。那我就取出来了,然后插入到对应的。表里面啊,新表就这么一个过程,好,那这里面哈,我们先迁移表啊,先表移出来别着急,首先。也就说我们要将ods的start表里面的拉数据,因为它里面只有一个line字段,把它导入到DWD里面的start start标准去,那这里面呢,有N这个字段啊,N个字段。
06:03
OK啊,这么一个过程,好,那首先这个ODF上表,而且数据都有了,那下边呢,这个是DWD上大,还没有这个表,怎么样这点。C啊,可。外部表吧,ES table,那前面呢,你可以加上一个z table if啊,SDS,这那这个是哪一个表呢?Or DW d OK,如果if存在啊,把它删除掉好了。比如说要创建这么一张表,那这张表里面有多少字段呢?N多字段是吧,咱把这字段拿来,那创建一个外表,然后这些字段统统拿过来。
07:01
二。那这样呗,我这么早知道。那这些字段完事之后,下面注续写啊,写的分区t part的BY啊BY,那这里面还是DT啊,String啊,当然这个DT啊,其实它跟这个系统没有重名的啊,这么写也没问题啊。好,然后呢,把它存储到受上的对应的位置,LC,听问罗贝啊,指向对应的位置,那什么位置呢?W,也就wherehouse下边的GG下边呢?DWDDW下面的DWD。啊,那这样的这个这表语句我们就行了,你说建了一个DWD层的一个三表啊,拿过去创新。
08:04
我寿昌还没写论文呢,等一下啊。我手上提起来。C star。形它那现在啊,他写他编写,我们边继续再写啊再写,那如果说创建表已经创建完了,那剩下的事就是将。这张表里的Y解析成对应这里面的一个一个的知道对吧?啊,要做这件事情好,那我们。啊,分开啊,这个你们用过吗?拆点是吧?啊拆开两个字大。看见那也说,下面我们说的是向这张表里面去插入数据,那插入数据对应的就是in射的动,然后table在哪张表里面呢?
09:10
这张表里面啊,应该不是你是right是吧,OA。It open。也下了allright。看一下向这张表里面去插right table,往里面插插的话是插入到对应的哪个分区r t part,那这里面DD等于,如果截使一个日期的话,就是2019杠零二杠幺零啊,先把2月10号的插进去,后面我们再写脚本。插入到这里面,那这里面的数据来源于哪呢?Slide from。Froms star啊,来加。
10:04
那我向这里面,我要查询的字段,是不是得向这些字段里面赋值啊,啊,那就说把这些字段的名称得放在这这意思吧,哎,好,那这阶段。那这些字段呢,其实就得需要解析了啊,就需要我们用这个get接一个语错了啊get。J3OB减CD啊。啊,那里面第一个字段就是这个OS start log里面的第一个字段,对吧,然后后面呢,取的这里面的值,那这个值呢,就是大号符点。假如说是他的话。就这样就取出的值了,哎,这个刀符呢,代表的是整个JA身整体啊,一个间整体,那这个呢,是代表这个JA身的P啊P好,那后边的几个别名啊,那这样呢,就把后边的所有的这些东西都用这个get金身有在把它获取到啊好,那这个重复工作我就不做了啊,直接拿过来。
11:26
OK,那这样呢,就是把所有的字段一个一个的对过来,这地方就要小心,不要那个出错啊,要仔细一点就可以了,好,From这张表,然后where DG等于今天2019杠零二杠幺零啊,2月10号的数据全部导过来啊。那这就是讲这个过程啊,首先建表,然后下这张表里面插入数据,数据的来源ods层的表,Ods层只有一个字段,Line知道。
12:01
啊,通过这个接身传进去,T取出对应的外交值的方式插入进去,OK,那看这面几个差不多了。好,Five。好激动。先看见点拿来。咱们会建N多张表啊,嗯,在这学习这个数张过程当中,有些同学他会把所有的表关系画成一张大图啊,我希望这班同学也会有人有啊,比如说在这个。总结的时候,其中有个同学。咱们整个这个文档当中涉及到这么多个表啊,现在呢,又不止这些表了啊,至少又加了将近十张表,那看看表每一层啊出在什么位置,比如说刚才我们建了这个ODI上建了两张表。
13:06
啊,然后DW异常右线什么表,那它们之间是什么样的关系。如果这张图你能画出来,整个收藏这个文档没有任何问题。啊,所以说大家这个学习方法啊,非常非常重要啊。好,那这边体重起来了,要等。今天。搞定搞定之后,下边咱们开始煎饼。这。好,创建完表之后,向列表里面导入数据。嗯,三二这行。那他执行执行完之后,我们思考一个问题,那每天我都这么执行一下吗。
14:03
肯定又是遇到了不方便的问题,只要不方便就变成脚本啊,只要问题解决哈。好,算好了,算完之后呢,我们来查一下s select from DW层的啊,Start start。零零的。嗯,那这样呢,就把这个数据获取完了,你看就是一个一个的字段啊,这是20199年2月10号,2019年2月10号。非常干净对吧,一个一个的制造,那你想查哪一哪一列就能查哪一列啊,所以说这就是把这个数据呢准备好,等待DWS和ADS层的进一步的一个处理啊。好,上午呢,我们把这个用户行为数差当中的前三章啊,以及这个OD啊,OD称已经了,那下面的话我们从这个DWD开始往后做。
15:07
那咱们稍微回顾一下O,我们做了什么事啊?OD就是将HD上的数据导入到have。表里面对吧,啊表里面,那在还有表里面建表的时候,我们建了几个字段呢。一个字是不是就一个字段一个啊,因为它就是一个字符串啊,OK好。那接下来来到DW层,DWB层呢,是对数据呢进行清洗,同时呢,把数据展开准备好啊,等待这个下一级在这个数据一个分解啊,那这里面就要求将这个string,比如说你的一个。建设数据把它解析看啊,解析成一个一个字段,方便还里面去查找一个字段的一个指标,那就要进行解析,那解析的话啊,我们来看。
16:07
看这你。那首先我们叫,比如说我先处理这个启动表啊,启动表,启动表呢就比较简单,我们就需要先创建表。啊,这边但是呢,这个启动日志它是要分两块的。分哪两块呢?一部分是公共字段,一部分是事件或者说详情字段啊,分出两块啊,两部分电表组成的,但是呢,他最终的组成的都是一个接算数据啊OK,那这里面你可以先建表,那建完表之后剩下的事呢,就要下列表里面去导数据。那导数据。怎么打呢?啊,那这里面啊,我们来看,首先呢,把这个我们之前生成的这个日志拿出来启动啊。
17:05
让大家看回复一下啊,之前的我们这个照的这个数据长啥样。在哪也去做。打开。在E盘。Idea。然后是他OK。回顾一下,我们造了两种数据,一种呢是启动日志,一种是事件日志,那他们的格式我们要非常清楚。明天夜行。好,那这样呢,它生成了更多数据,那我们就拿出其中一条这个启动日志。然后呢?
18:03
咱俩是不是有快捷方式啊。要给。搞定,搞定之后拿回来。这是。给吗?啊,这是开源的哈,然后打开随便打一个就行啊都可以,然后把这块的贴身粘进去,然后格式化教练你发现正确贴身啊。你说怎么这样?那咱这样,我们就要把这个这单个一个字段,1ODS层给我们提供的是一个字段,对吧,那就把它。解西城。一个一个的整个一个一个取出来。那要取的话,那它整体是一个接身对象。那我拿到,只要我能拿到这个对象之后传进去对应的P。
19:04
就能得出对应的value。啊,就是这个道理。啊,很简单,那好,那我们来回来看。那这块首先我们的目标是把这个健身,比如说刚才那个健身数据传到这张表里面DWD层啊,但是呢,这个这些呢,它是存在ODI声,就生成了一个时间这串,但是呢,它本身是一个接省。嗯,那好,那它既然是个阶层,我要对它解析的话,这里面用到了一个叫框架点,或者一个函数叫概的阶层。那么在。传进去一个。Line,这个line是谁呢?ODS里面只有一个这个,它的这段就是Y,那传进这个line,然后刀符。点mid mid是什么?
20:05
你找一下M是不是就是P呀,哎,对应的P,那你传进去P值就能得出对应的Y流值,然后这是别名复出一个边名。那我就取出来了,然后插入到对应的。表里面啊,新表就这么一个过程,好,那这里面哈,我们先嵌移表啊,先表移步出来,别着急,首先。也就说我们要将ods的start表里面的LA数据,因为它里面只有一个line字段,把它导入到DWD里面的start start标准去,那这里面呢,有N个知段啊,N个知段。OK啊,这么一个过程,好,那首先这个ODF上表,而且数据都有了,那下边呢,这个是DWD上大,还没有这个表,怎么样这点。
21:08
C啊。外部表吧,ES table,那前面呢,你可以加上一个z table if啊,SDS,这那这是哪一个表呢?Or DW d OK,如果if存在啊,就把它删除掉好,然后了。比如说要创建这么一张表,那这张表里面有多少字段呢?N多字段是吧,咱把这字拿来,那创建一个外表,然后这些字段统统拿过来。好。那这样的,我这么早知道。那这些字段完事之后,下面注意写啊,写的分区t part的BY啊BY,那这里面还是DT啊,String啊,当然这个DT啊,其实它跟这个系统没有重名的啊,我这么写也没问题啊好,然后呢,把它存储到受上的对应的位置LC。
22:23
Location啊,指向对应的位置,那什么位置呢?W,也就house下边的GG下面呢?DWDDW下面的DWDW。啊,那这样的这个建表语句我们就行了,你说建了一个DWD层的一个S表啊,拿过去创建。我舒昌还没写论文呢,写一下啊。
23:03
我手上提起来。C star。形它那现在啊,他写他编写,我们边继续再写啊再写,那如果说创建表已经创建完了,那剩下的事就是将。这张表里的Y解析成对应这里面的一个一个的知道对吧?啊,要做这件事情好,那我们。啊,分开这个你们用过吗?啊彩笔是吧?啊拆开两个字大。好看家那也说,下面我们说的是向这张表里面去插入数据,那插入数据对应的就是in射的一动,然后黑板在哪张表里面呢?
24:03
这张表里面啊,应该不是引你是right是吧OV。It open。In all right。看一下像这张表里面去插right table往里面插,插的话是插入到对应的哪个分区T啊partan,那这里面DD等于,如果截使一个日期的话,就是2019杠零二杠幺零,先把2月10号的插进去,后面我们再写脚本。插入到这里面,那这里面的数据来源于哪呢?From。Froms star。啊,来这样。那我向这里面,我要查询的字段,是不是得向这些字段里面赋值啊,啊,那就说把这些字段的名称得放在这这意思吧,哎,好,那这阶段拿来。
25:12
那这些字段呢,其实就得需要解析了啊,就需要我们用这个get接一个错了啊get。尖COBCD啊。啊,那里面第一个字段就是这个OS start log里面的第一个字段,对吧,然后后面呢,取的这里面的值,那这个值呢,就是逗号符点。假如说是他的话。就这样就取出的值了,哎,这个大符呢,代表的是整个接身整体啊,一个间整体,那这个呢,是代表这个接身的K啊K好,那后边呢几个别名啊,那这样呢,就把后边的所有的这些东西都用这个get金身有带把它获取到啊好,那这个重复工作我就不做了啊,直接拿过来。
26:19
OK,那这样呢,就是把所有的字段一个一个的对过来,这地方就要小心,不要那个出错啊,要仔细一点就可以了,好,From这张表,然后where DG等于今天2019杠零二杠幺零啊,2月10号的数据全部导过来啊。那这就是讲这些过程啊,首先这表,然后下这张表里面插入数据,数据的来源ods层的表,Ods层只有一个知道,Line知道。啊,通过这个接身传进去T取出对应的Y流值的方式插入进去,OK,那看这面几个差不多了。
27:08
好,Five。好,知道。先看这表,拿来。咱们会建N多张表吗?呃,在这学习这个书商过程当中,有些同学他会把所有的表关系画上一张大图啊,我希望咱班同学也会有人有啊,比如说在这个。总结的时候,其中有个同学。啊,咱们整个这个文档当中涉及到这么多个表啊,现在呢,又不止这些表了啊,至少加了将近十张表,那看看表每一层啊出在什么位置,比如说刚才我们建了这个ODI层建了两张表。啊,然后DW异常右些什么表,那它们之间是什么样的关系。
28:03
如果这张图你能画出来,整个收藏这个文档没有任何问题。啊,所以说大家这个学习方法啊,非常非常重要啊。好,那这边体重起来了,要等怎么样?搞定搞定之后,下边咱们开始煎点。好,创建完表之后,向列表里面导入数据。三二这些。那他执行执行完之后,我们思考一个问题,那每天我都这么执行一下吗。肯定又是遇到了不方便的问题,只要不方便就变成脚本脚本去解决哈。
29:03
好算好了,算完之后呢,我们来查一下s select from DW层的啊,Star。零零,他。嗯,那这样呢,就把这个数据获取完了,你看就是一个一个的字段啊,这是20199年2月10号,2019年2月10号。非常干净对吧,一个一个的知道,那你想查哪一哪一列就能查哪一列啊,所以说这就是把这个数据呢准备好,等待DWS和ADS层的进一步的一个处理啊。
我来说两句