00:00
好,接下来呢,我们看一下第十章啊,号称最难的业务指标啊,如果这个搞定的话,那市面上至少一些生活题你不用担心对吧?啊,那我来看一下这难度怎么样,那这里面呢,要求求出最近七天内连续三天活跃的用户,那这个简单七天。Z。六再来一个啊,最近这期间只要有三天连续活跃,我就认为它符合我的范围内,比如说这三天可以,你这三天也可以啊,哪怕说这三天也行,只要连续三天就行了,好,那我们来看一下怎么回事。啊,这个说明一下,目前是一个同学发现了这个是否有问题啊,就是张强同学啊,非常厉害,我希望咱们其他同学也能有这种精神,是吧?啊把它这个。不断的去研究啊,有一些问题,他就是有可能有问题啊,没有说这个100%的这个全对啊,那么来看一下啊,是怎么分析的,我们来先来看看这个时候有没有问题,呃,左侧呢这块呢,是我们最终要进行可视化的报表,那需要统计日期没得说,很简单,最近七天日期也没问题,对吧?啊,我们用的太多了,然后呢,是这个最终需要的结果,七天内连续三天的国运户数。
01:30
啊,这个结果那右侧呢,就是我们这个写法啊,计算那上边这块一一对应过来的。啊没得说,那中间这块就是各种只查询了,只查询的一个签到,同时还用到了窗口函数。啊,这是那来看一下,那首先你可以从里往外去写那第一块。先做的是查询最近七天的活跃用户,因为你这不七天内连续三天活跃嘛,那我先查出最近七天的活跃用户,然后并对用户活跃日期进行排序啊排序这里面用的是rap还有什么。
02:17
排序的函数。大。啊,还有。这个啊是吧,啊这么三个函数排序函数,那我们其中用了一个RA啊,还用到了开窗啊,因为这里面呢,是对用户国内的日期进行排序啊排序那rock呢,就是跟这个开窗函数over啊一起使用,那在这个over里面我们是按照ID进行。分区,然后按照日期进行排序啊,那么结果是这样。首先我们按照这个ID进行分析。
03:00
然后按照这个日期进行排序。日期怎么说,15号17号18号19号十号十六十七来行,然后同时前面加上一个。啊,那好,排名。排好了啊,排好了啊,那这里面呢,他查的表呢是热活啊,那热活呢,这里面都对应的这个日期啊,都是驱重过了,因为是日光嘛,一天只能有一个日期,它活跃一次啊,所以说这里面不涉及到这个相等的一个问题,所以说你理论上你选择rock number和this都没有任何问题,对吧?啊,因为你这是日播。啊,技术火什么的。好,那现在呢,是查询期间的活跃用户,并对这个用户呢,进行了排好名了,已经排好序了。然后这个再往下。
04:00
这里面加上了一个他干掉了啊,他因为什么干掉了。啊。得是最近七天对吧,那最近七天这个DT是在这个范围内,那它很显然不在这个范围内啊,那我就把它干掉好那再来。接下来计算用户活跃日期和排名之间的差值,你说这个活跃日期和这个排名的差值,那这里面涉及到一个数学的一个概念,就是等差数列和等差数列的一个相结。啊,现在。你看这是等差数列,这也是个等差数列,然后减出来,如果它们是连续的。那他的值就相等。你减一下吧,啊,你算一下17号减25 18减35 19减45,那这里面一旦你跳跃了,那就15减一。
05:05
那你发现跳跃了,它就变成17了,他就不想等。那么如果相等,那就说明它是连续的啊,比较巧妙的一个运算啊,等差数列去减等差数列,如果有一个数列它不连续,那它就是不连续的啊,如果相等,那就证明它是连续的。非常非常巧妙啊,就是比较比较巧,你不这么算也能算出来,那其他种方式呢,可能会更复杂一些,复杂一些对。那好,那这个呢,就是用这个日期去减这个多的排名,减出来差值如果相等。那又来了。对用户和这个差值分组,统计差值的个数。啊,等于说对它进行分组,按达分组,怎么分组成它和他们啊,那分组完之后,这个抗的星大于等于三的。
06:08
那相当于这种连续的次数大于等于三的。你看放到新完之后再点下。那他就符合要求对吧。啊,然后将差值相同的个数大于等于三的取出即为连续三天,即以上回。能理解啊,好,那我们稍微回顾一下,首先是求出最近七天的活跃用户,并对活跃用户进行排名啊,排名那就是rap啊,先开窗,开完窗排名,排完之后,这是代表的是最近七天的日活。那他算完之后,要求按照这个日期和这个排名做差,是这句话。啊做差,那做差出来,如果它是连续的这个日期,那这面做差的值就应该是相等的。
07:06
那相等的话,我对你这个日期这个差值进行一个分组。让我看不清。这个分组看了些。如果判了线大于三,那就是代表了连续的次数大于三。啊,这就OK了啊,当然这里面有个小问题啊,不知道同学想不想。对啊对对,这是七天,那就有可能前三天连续中间第四天断了,然后567右联系,那就会出现两个两个。那怎么办呢?那我们再触手在后面这些再包装一个,只查询外面是不是就可以下去除了。上面的成套是可以做一个。
08:00
啊,那个也行啊,但是我们这样也可以啊,就是说把它外围包一个,对这个整体再做一次驱虫没问题吧,啊也是可以的啊行,那是后话,那我们先一步一步来啊,一步来啊,这个呢,算是目前分析指标当中最复杂的。啊,如果说你在面试的过程当中,如果整这种难度的就能搞得定,那思考这块你不用担心了啊,所以说从这从今天开始以后,每天你就把咱们分析的过的这个指标都给我分析分析啊,每天给我写一遍,默着写,如果你能写到最后一天毕业。那这些生问题你就没有障碍,那circle障碍问题要是没有障碍的话,那你想一想,日后找工作那就没有障碍啊,Circle至少是第一关啊。好,那我们来看啊,一点点写啊,别着急啊,这里面因为这个步骤比较多。好,那像这里面插出去。
09:04
前面请淡定。好,那这个呢是统计日期2月20号,然后呢是最近七天的日期,那这个简单的方派的C跟CT最近七天。紧接这。七点,那就是减七二,那是A。最近七天Monday,然后是。周一。嘛,Mon最近七天啊,最近七天是吧?啊,那这个跟周没关系是吧?啊不对,最近七天,然后后面这个就更简单了,对吧,那就是2019杠零二杠二零知道吗?啊没毛病啊,很搞定,也就说最近七天诶那这个。
10:11
这。七天算上今天应该是你看啊,我们来算一下,减六的话是14号对吧,我先把这个写一下当前日期减六啊,先写全了一九杠零二杠二零,那你说二月呃,20号减六,减六的话是减到2月14号那十四十五十六十七十八。十四十五十六十七十八十九二十就是这么七天了啊,最近七天啊OK啊,所以说这一块你可以减六最近七天日期,然后后面看他行。OK。好,From下面各种指差点题,先来一个第四不多者是符合这好,那接下来我们开始往下写啊,首先呢是查询出来最近七天的活页,然后按照日期进行排序,Slide。
11:16
最近七天设备ID。还有日期。还有要排序第二个over over里面是按照先分区,按照ID行分区吧,R t partition by ID呢是它,然后over order是吧,Order by按照时间进行排序啊啊。From是日活,那日活呢,是DW UV Del d,对,然后这个条件日期,日期必须得是七天以内,多少条件?
12:05
然后DT大于等于。是7000减六嘛,是吧,那是是不是他呀,啊就是。然后按的条件DT小于等于小于等于可以谈。那这样呢,就是最近七天的日期啊,最近日期,然后按照这个这什么mid进行分区,同时按照日期进行排序啊,那它呢是作为第一步。GD,那你看着这个图呢,它就相当于是走到了这一步。先走到这一步啊,首先按照生命ID进行对应的分区啊生态区,然后同时这块呢,又开窗了啊开窗开窗,然后按照这个日期进行了一个排序啊排序然后这时间呢是七天以内,那就把不是七天以内的先干掉,对吧,干掉之后,然后我们就开始要做。
13:25
差了对吧,啊要做差,那做差的话。好,CMD,然后做长date at date sub了做长啊,S是用DT时间去减去。比如说这里面的,然后from。
14:02
是它它from这里面的值啊,这里面的值。那做完差之后我要进行。分组吧是吧,啊分组,那这里面from是加上一个看看啊,那套了外面又套了一层是吧?套了一层,那还得在外面一层对它进行分组。啊,再套一下s mid。对这里面的内容进行分组,那分组的话就是合数BY啊什么呢,再加上这个是de date。
15:14
按照这么两个进行分组,分组完事之后还要having count星得大于等于三啊,大于等于三啊这样那这个完事之后还要在就外一层去除掉周一周二周三周四共享啊,这个第五第五天第六天第七天这种连续的是吧?啊,那外面还要再报一层,报一层啊,就再来一层,这比较多啊from买。
16:04
啊,这块。加括号。这场是为了这个驱虫啊。说吧。MI啊,接手。这样一个过程,这一块我看一下啊。这块mid没问题,能捋顺吗?你先试一下是吧,先跑一下。这么一个过程,那我们先跑一下啊,看看行不行啊,不行再调。好搞定,然后呢,我们来咨询一下。看看有没有问题。包包底了,那这个是28行,28行这这个是不是不太对呀,哦,原来是放在放在外面。
17:15
没有那个。这是。T1T2T4这个呢,这个也得有一个T3。还有吗?差不太多了,再来一下。写三方呢,就要不断的去调啊。嗯,差不多。在面试的时候,能不能在高度紧张的情况下才显得?其实它是一层一层写出来的啊,无论它多复杂的这个口,它都是一点一点一点的去,呃,像剥洋葱一样啊,一点点包出来包出来,嗯,这大部分情况下都是从里往外去写啊,但是有一些人也是崇外往里写的时候也有啊有来啊,这张没有。
18:23
嗯。零个数据连续三天的。这个不太好,我下。十号十号14号到20号,那肯定没有对吧,因为我这没有啊,那这里面我可以换一下,换成多少号呢?12号对吧?啊,12号要换一下,因为20号我们没有照这个对应的数据,12号试一下。12号。照这个12号,就是为了这个指标照了解吧,选一下啊。
19:04
对。像这个指标你要能搞得定的话,那后面就没啥大问题了,你们在学have的时候是不是还学过那个,嗯。上市购购物的那个时间呢?上市购买的时间和本次购买时间的类似于那种差值。对,类似这种指标,虽然说咱这就出来了是吧?啊,像那种指标也要尽可能的加到这个数场里面,就是日后你在写简历的时候,能把你以前写过的circle候啊,跟电商相关的能写在这里面都写在这里面,这样的话,你想想你这个书场里面的指标,至少咱们讲过的,我觉得也得在20~30多万啊之间,你在这个范围。
我来说两句