00:00
好,接下来呢,我们简单回顾一下昨天讲的内容。那我们来回顾一下提问的方式。第一章当中我们要掌握什么内容呢?这里面就一道题,手上分几层,每一层做什么事,对吧,一道题,那下面呢,唐老师给我说说。是啥分呢,没事没事。市场达成。哦,什么?我问。O属于延上。大。微信上。W。嗯,类似于他。As。啊,那ODS它其实是保持数据原貌,不对数据做任何修改啊,那DW是什么呢?主要是。
01:02
ETL把数据准备好对吧,在这个过程当中进行各种清洗过滤好,那到D拿层呢。对清做汇总啊,把多张表按照这个主题维度啊,组合成一种呃,一个一个的框表,比如说根据用户的行为,把他今天的点赞,评论,收藏啊,这个浏览等等行为放到一张框架里面,方便后面获批指标的一个分析,那么NDS什呢?对,这里面的报表系统直接就可以从这里面去拿数据啊,就是把ad上数据导入到白系里面去之后啊,那直接就可以进行化展示了啊好,那这是第一章我们要找的内容,就是书称分几层,每一层做什么事。好,那接下来。嗯,赵鑫,你给我说说数仓的命名规范这块你们公司是怎么做的?
02:06
你的公司当中书上是有命名的。那个原数是。就是ADS开头嘛,对不对,你看前缀啊继续。DW。临时转呢?对,OK,嗯,好,这个受商这个命中规范这块啊,要要知道啊,也就是说正常情况下每一层都是以每一层的这个名称作为前缀,比如说o DS DW ddws ADS。
03:00
然后这里面其实你要是再进一步说的话,在它的后一层再加上主题的名称,比如说今天我们要分析的有这个用户活跃提供新增用户留存,那ods后面跟上,比如说这个活跃是UV啊,UV的主题,那新增呢是你有这个midd。那这下面再加那个主题的结构,嗯,然后之后后面呢,可以加一些后缀,这样举例啊。行,那接下来来到了这个第二章,第二章当中啊,有道没题问一下。今晚你给我说上。太子引擎的unit。或者你为什么老太太?对,它是基于内存运算的,对吧,然后效率上呢,各方面会高很多啊,同时其实它会将一些中间的这个过程呢,进行一个整合,对吧?啊减少了一些中间的一个步骤。
04:15
OK啊,行,那这是太引擎,要知道它其实是还有优化的一个手段。那下面还有一个原数据备份。来,你穿,你给我说说。你们这个蓝色怎么备份。大概什么原理呢?对,备份到两台卖保证。在附近。对主成共用一个ID,中间切换用什么?
05:07
OK,差不多了,比如说正常情况把这个两个满射安装在不同的主机上啊,一个作为主,一个对重对外包露,在接口呢,是统一的一个IP地址,那么这个组成之间的切换呢,是用这个keep level啊,来回动态的切换啊,OK,这是这一块。那下面继续。那再问。张强,你给我说说单引号和双引号的区别。对,直接是这号对吧。双引号是把里面变量的值能够拿出来,这样呢。对,因为谁在最外边,谁就全力最大是吧,就能一样能求出你的谁啊,单引号在最外面。
06:08
对中间全部作为正方法处理好,那反减号呢?对,直接就相当于是执行对应的命令,对吧?啊直接执行命令好OK,那下面继续啊,再往下走。嘻嘻,你给我说说。你在这个项目开发工程当中,嗯,自定义没自定义,或UDF和UDTF他们成了。嗯,他们分别干了什么事?Etm机阴工之段。有吗?
07:03
具体的事件是的,对吧,啊四件这块OK,那还有那么。这个解析的过程当中,其实系统是有一些函数可以解析的,为什么还要用自定义U点和自定义UTM?是否多是一举?就是抓取这些异常数据对吧?啊,这个判断这个系统是否稳定,把一些异常的这个数据,嗯,我们可以给他抓出来是吧,写到这个文件里面,然后方便我们日后的一个调试,这样OK,行,那下面我再问一个。东姐,你给我说说自定义udf的步骤。
08:08
不会。不会找人帮你。没人帮你啊,没人帮你。嗯。谁叫啥呀?现在诚有点诚意啊。一个方面。你愿意帮?对。重写的是e value类的方法,对吧,另一个类继成udf,重写里面的E外类的方法,OK,那制定UDTF呢?说你说。
09:00
嗯嗯。继承继承UDTF,然后。你有几个方法?三个方法。初始化还有一个。那在初始化里面做什么事?输出参数的类型是吧,你这。好。可以。他是接受。
10:01
行,差不多啊,这就是这个自定义UPF啊,这些process里面呢,其实是通过这个啊零获取到这个输入的值,然后呢,它本质上就是一个接身额,那我就调一个进身对象,然后呢,返回一个进身为数组,那我就循环变率这个数组取出一个一个的值啊,一个一个的事件值,那对应每一个事件我们都取出它对应的事件名称和。事件着地啊,这样呢,就把它一个一个的循环账给开了,这就是自定义U定第啊。那剩下的事就好说了啊。
我来说两句