00:00
好,接下来呢,我看一下第七章数据的可视化,那这一张呢,主要是把我们之前在have表中ADS所有的指标啊,把它导入到myc当中。那导入到买成功当中之后,后面呢,咱们会写一个这个行政过的程序啊,随证过的程序。他呢,就专门去扫描这个MYSQL,实时的去读这里面的数据,然后进行可视化展示,就这么一个过程啊,那好,那从这个ADS层把数据导到MYSQL,用到的工具呢,就是。S school,对啊,就是s school本导出,导出之后剩下的事,这准确来说这一块都是由我们的Java程员来做的啊,包括咱们这个页面呢,也是我是找这个Java的老师啊帮咱们去写的哈,好,我们来看一下。首先呢,我们来看一下这些,呃,这里面我们能展示的哈,有这么多,有这个每日活跃留存率漏斗分析GMV,还有一个是全国商品销售啊,这么五个点啊,五个表当中其中啊最后一个啊,这个咱们没有在这个离线这块做是在哪里呢。
01:15
你们日后学这个实时的项目的时候,那里面其中有一个指标就是统计这个商品的这个销售额啊,那时候就可以可刷展示了啊好,那在这块那第一个呢就是活跃,那现在我们要想展示需要做什么事呢?需要在我的买当中创建对应的表啊,因为现在哈,现在have里面我们是有对应的表的as。那么目前呢,这个MYSQL里面是不是还没有对应的表接收我这个值啊,哎,那这个adh的表和MYSQL的表要求。字段必须得一致吧,啊,必须得一致才能真正的去倒过去啊导过去好,那现在呢,我们就打开我们这个输入circle输入样。
02:04
打开。那还坐102ROOT6个零。眼睛。你们是不是断网了?好打开这个最重要之后。这里面是我们原始的这八张表,那需要我们在这里面创建一些结果表,真正的在开发的时候,记得我这个导出的这个SL结果表能放在这个表里了吗?能放在我这版水里吗?我这买之后存储的是不是have的这些元数据啊,啊这边那那个买之后是不是用于可视化的,他们两个要求得是不是得结耦啊,啊得分离开一部分,你可以认为这个MYSQ是加VA1成圈的,这个是属于我们大数据成员的。能懂吗?啊,这属于跨部门了啊,所以说一定要把这个啊分开啊,尤其是可视化,它是不是一个重要等级,跟我们这个差一些啊,差一些啊,所以说这块要注意哈,好,那这里面呢,我们就呃,为了方便就在这里面体现了一个哈。
03:16
好,直接就创建这个表,那这个表啊,你看一下叫ad SUV count。是不是就是任务新增啊,看你回忆回忆统计日期,日活,周活月活,然后是否是周末,是否是月末啊,是不是跟我们的计算一模一样啊,哎,对这里面要求必须得一样,但是这里面哎有于哪地方要注意呢,看类型。我们那边是不是G啊,哎,G的话你需要把它变成画叉对吧?啊OK好。那我们来创建一下。执行。二创建成功。
04:01
刷新一下。那这里面就有这张表了啊,有这张表,有这张表之后,这里面目前是空的,那我们初级啊,为了这个可视化,这个效果好看,我先插入一些啊测试数据,日后呢,我们在跑数据的时候,那你可以把它覆盖掉啊,这是一个啊没有什么。嗯嗯,可以正常的显示哈,你看我招了多少假数据是3月1号,一直到3月31号吧,啊这些哈,其实就往里面插入数据。然后这里面你看这个YYY是不是既是周又是月啊,这是假的啊,这是假的。执行好插出来数据,那下一个表,下一个表呢,是这个留存率啊留存率,那这个留存率啊,我们也是需要在这里面再建对应的这个表啊留存。好创建。
05:04
创建完之后,还是先插入一部分假数据,让大家感受一下这个效果。OK搞定,然后之后下面呢,是这个漏斗分析,漏斗分析,那我们还是先创建表。执行。OK,建完表之后呢,向里面插入一条数据啊,为了才能展示。OK。正好下面呢,就是这个GMV啊GMV我们再创建一张表。OK,那这g ma就有数据了,有数据之后,这里面插了这么几个数据。
06:01
3582。OK,搞定下面全国商品销售额啊,这个呢,大家现在没做过啊,没做过他提要做一个什么效果呢?把你这个鼠标一放在这,比如说这个辽宁上,那它就会自动弹出来销售总量,比如说这是个3万,那么沈阳它占这个销售额的百分比,大连鞍山啊,实现这么一个效果啊,其实这种需求在企业当中其实应有比较多的。啊,那这个呢,在你们日后的这个需求当中会用到啊,因为这个效果比较好,所以说就给大家拿回来了啊。拿过来这边。搞定,然后呢,向里面插入数据,你看它那个数据格式插入的就是你盛联一通外教啊,北京2000,然后辽宁多少,然后浙江先是省啊省之后后面再去对应的这个比例啊。
07:09
就行了啊像这些控件,目前我这个控件是用什么做的呢。一串听过吗?百度的一个开源框架啊,一啊一串百度开啊,包括这个面试的时候,呃,其中有一个面试官问,诶,你们这个可式化用的什么,他说用的一串,然后面试官问那是哪个公司这个出来的。完了卡住了,就就这么卡住了啊,就就是就是昨天啊,就是你们那个刚毕业那班的学生给我气坏了,我说真是这都没记住。好,那这是这块现在呢,就是把所有的数据都准备好了,那下面就要运行我们这个super ear master啊这么一个程序,那我给大家给过代码了吧,对吧?啊对,那直接打开导入进来就是这个效果,那这里面记住啊,看这个resource,最后一个啊I practice,这里面要根据你的买SQ数据库啊去配置一下,比如说你连的是它数据库在102上,那你这块配的102,如果是其他主题,那这块连其他的,然后在这个买信号里面的数据库对应的就是gma网啊,看你的是什么,你的不是gma这块要改一下啊,其他后面不用改。
08:25
当时呢,这个数据库的名称啊,用户名root密码六个零,你这块如果不一样,改一下其他地方就不用再修改了,就这么简单,好,那同时要注意,那你在启动这个程序之前,你要把这个虚拟机给启动起来。尤其是你这个买SQ在哪台机器上对吧?哎,它得能连接到你的MYSQL服务,这个是关键,OK吧,好,那我现在这三台都已经启动起来了,然后直接就可以运行是吧。
09:03
他只带这个topad啊。你班就已经开始学,学过四门课了吧,对吧,第一第一个班开始讲什么word程了,一开是。啊,那启动起来之后,打开一个页面,然后LOGHO8080ACTIVE呢是第一个是热活啊这个页面啊打开是这样的,你刚打开呢这块呢,你看你点这这就有活动统计流程,统计转化率GMV地区,那这个活动的这块需要你去选择日期,你要不选择日期的话,它不给你显示啊,因为以前是我让他显显示这个当天,但当天呢,因为咱们是照的假数据,你说今天是多少。5月15号他不一定这天就有啊,因为跟咱上课有关系哈,所以说就没那么显示,那咱刚才导入的是3月1号到3月31号是不是都有啊啊对啊,随便打这个。七号啊,你看这一打开啊就有了啊,这就是热活周活月活啊,月活比较少,那你往后点。
10:08
这月活。然后中国。热火啊,就点的多一些,那再来呢,下次。能感到就是这种曲线,你说日后老板看到的就是这种情况啊,这种情况啊,那我这个的话呢,他是往前累加的这个七天啊,并不是这个当天这这一个哈,他这个算的稍微有点问题啊,包括这个周啊,但是你能感觉到这个意思,你说这就叫后台这个报表以后。你去公司的时候,别人一说是报表,报表啊,不知道啥意思,也就说我们为这个报表系统准备数据了,他展示的这些东西都是由我们来提供,但是真正的这个可视化这一过程,那跟我们其实关系不大。OK吧啊,而且要是真的去做这个东西的话,一定不要做太久啊,如果你做太久的后果就是。
11:01
怎么玩?出来找户了,就这么简单啊,OK吧,好,那下面哎来看,哎呀,这这数据倒的不起来是吧,这是留存留存率对吧?啊留存率啊,我这个是展示的这个内容有一些问题啊,展示内容有问题,跟这个数据有关系,这是3月9号,假如说这个新增数应该有数啊,是长啊这一列应该是他那边给我接口调的不太对啊,我这改一下,那这一块呢,正常是应该有新增数据啊,然后呢,是一天后留存,两天后留存,三天后留存,是这样吧啊这样一个过程啊过程。行留存率,然后后面呢是转化率啊,转化率呢,一进来默认的话,这块你不选择日期,它就没有,没有的话,它就是这个随机给你显示了啊,默认一张图,那我们刚才导进来一条数据,这条数据呢是4月8号,4月28号的数据看看,嗯。
12:00
这我们是不是就一个订单,一个是之后的一个转化率啊,啊就这两个啊,看着是比较丑,但是呢,呃,这个意思是有了啊,就这个意思啊,示意一下。好,那后面呢,是那个降位。哎,GV啊,这就是GMV这个效果啊,你看我们这有三月份的啊,五月份的啊,七月份的九月份的啊,然后这个是销售额订单量啊,都可以进行可视化的一个展示啊,就最终的数据都在这里面可视化了,那还有后面呢,还有一个地区啊,地区统计啊,像这个地图也是一插的自带的啊,所有的这些工件都是它自带的啊来,你往这一放。哎,比例就出来了,你看这种效果啊,好多这个领导都喜欢看这种那。啊,这个。这个效果就就好很多了,对吧?啊这个意思啊,行,那这是这样,那我们下面继续。这是我们插入的一些假数据,那真正的如何让它闭环呢?就是要通过spring将MY将这个have里ADS数据导出到S里面去啊,就是没过程,那么在导出的过程当中其实是有些坑的啊,面试官在深圳这片最喜欢问的就是。
13:17
你在用script的过程当中遇到过哪些问题?那我现在就问你们,你们目前为止遇没有遇到过问题,遇到过遇到过啊,那也是大神对吧啊,有遇到有没遇到过的吗?没遇到过那就凉凉了对吧?肯定是遇到过问题啊,那么来看究竟有哪些问题我们可能会遇到啊,那这呢是school导出脚本啊,井号叹号B啊,然后这个数据库名称gmail,然后呢,这是一个导出。函数啊等函数你先不看它,直接看下面这块。这是不是一个分支啊啊case啊case语句,然后是单表单表导数,这是所有表的一个导数啊,当然这里面我只导了三张啊,其他有两张没导啊,一个是留存,一个是啊销售额啊,它那个数据有点问题,所以说没导那这几个OK导那具体的导数参数还是在这个方法里面啊,都在这。
14:19
那我接着来看一下,首先呢,我们导出到的满是开1023306啊往这里面去导,然后呢,这个数据库的用户名密码入六个零,好导出到对方的表是参数一,也就说是这个方法传进来的参数一。那其实就是表明呗,你看它的参数是不是它吧,是这样吧,啊,就是表的名字啊,表名字OK,然后呢,Number,呃,NUMBERS1I路径,也就说这个是输出数据源的东径,就是你数据在哪在哪呢?外house下边是什么。
15:00
数据库名称G,然后ad层,Ad层的这张表是这意思吗?那把它导出到MYSQL,导出到MYSQL的是不是这张表里面去。啊,这么一个过程,好,那下面再加了一个input files上面应该写的BY-T,用杠T分割没问题,然后呢,是杠杠update mode,这个你们没用吧?啊没有过,那看一下put啥意思。加乘下。哎,这个差数呢,它是这样out帽。如果是欧美只更新,无法插入新数据。比如说这是MY。你往这里面写,只允许你更新原来已有的数据,对吧,如果是这个啊,那另一个呢,是允许新增,比如说插出来之后,哎,没有胡克往上垂一下,是这么一个功能,好,那下面这还有一个阿的杠T啊,那你是说阿的杠T允许更新的情况下啊,允许更新的情况下,指定哪些字段匹配视为同一条数据啊,那我们这里面选的就是这个CE允许新增,同时它也可以覆盖原来的。
16:19
比如说进入更新,而不增加多个字段,用多化分割啊,他这啥意思呢。你这里面不是允许新增吗?在这个情况下,如果。跟这条数据你认为跟他匹配上了,那匹配的条件是什么?你怎么认为它是同一条,那这里面给出这么一个结论,如果说这几个K都相同,我就认为它是同一对象,比如说这是呃,姓名啊。姓名,然后年龄。啊,然后身份证号,假如啊,如果说这三个特征满足了,我就认为他是同一个身份。
17:01
那么其实它还有很多字段的,比如说还有这个,呃,喜喜好啊,还有这个性别等等其他字段,那其他字段我不我不是我不是不计算在内,我只判断前面这些。你说它属于一个关键时段,你可以认为是一个ID。啊,组件对其他的我都不管啊好,那这里面呢,我只关心它的品牌ID,一级分的ID,还有这个是状态,还有这个日期,这四个字段如果相同,我就认为它是同一个人,那我就更新,如果这四个字段不一样,那我就新政。啊,OK吧,好,那下面呢,还有两个input now-three input now杠这个你们也以前也没有过。那这个是干嘛的呢,来看。看官网,你们是好久不看官网。你看就这么小,需要他的时候就来了啊,没办法。
18:06
那我们收一下这个。这也太巧了,运气来了,挡不住啊,今天。啊,那这一块,那看看这个有没有英文好的啊,来我们慢慢读一下啊,School没有算了,我英文还凑合吧。找一个,找一个比我菜的。啊,百度多差呀,对不对。之前录视频给百度一顿黑啊,然后被学生一顿所你走黑百度。来看那大概的含义啊,大概注意一下,将默认导入空值作为字符串空值,但是have使用字符串杠杠。嗯,表示。这个说的行吧,我觉得还不如我说的呢啊,咱们看我翻的,看我下面这段翻译呢啊,还有说那在底层它是怎么存储的呢。
19:11
啊,就是还中的now在底层,它纯的时候纯成P-N啊,而买的这个now,这底层的纯的就是now,它两端不一致。一端是买是海尔,一端是买S。那那它不一样,那怎么办呢?你为了保证两个一致,在导出的时候你可以加上这么两个参数啊,导入的时候用这么两个参数啊,你说导出用导出的参数,导入有导出的参数。那来看一下,你看school by defpart默认的part now values at now however is however。这句话很关键,Have is however using string,它to存储成now,比如说大指的时存的是它values and,第二幅就是part deal with,处理这个now will not work kind you should put some参数你怎么处理呢?这么一个参数,第一个杠杠它and,杠杠它in k of in part于说你在导入的过程当中,用这个2PORT-now,然后杠杠使G。
20:24
还有后面这几个,这几个参数用于导出是这样吗?啊,然后if you wish to proper,什么now value because super is using in general code,有need case value这个啊,这也是一个T,你说具体的使用的时候,其实就是把它换成它,这里面涉及到了一个转移啊,涉及到一个转移指数啊,那你看一下我们这里面他说了,他说是导出的时候用的是input杠,Now three,对吧,你看我们用的。Put now使劲对吧?Put now那使劲它是表示替换的意思。
21:07
把now替换成。啊,不是应该是把这里面的要导出的话,应该是把这里面的换成那啊,应该是一个地块啊,就是一个地块啊。总之如果你这边是have,它底层存now存的是N,你在买里存档就是now,那你看你怎么转,那转的时候人家已经给你封装好对应的参数了啊,你就用就可以了,就这么简单。那这也是面试的一个考点,什么考点,比如说你在school导入导师的时候,你是如何来处理,那啊,那那这几个参数就是你要记住的啊。OK。行,我看还有没有没了啊,没有了啊,那下面呢,我们就来进行一下这个脚本啊。
22:02
OK。OK。这是你们开发的这个经验啊,这是经验值,这个是既是面试的经验值,也是这个开发的时候要要用的。很重要。这也是这就这道题是咱们那个企业老师李工龙老师,呃,强烈建议要加上的,因为他们在这个导出数据,导出数据的时候啊,就是这样用的。好,那这个是school ID,那我们用它导一下。那行。导出,那这样呢,咱们这边定时去执行这个导出。那也就跟这边的可视化。
23:03
闭环了,这边是不是就实时可以独板申购的数据进行更新呢?啊,他这边我记得是当时设的是五秒钟刷新一次。啊,五秒杀一次,五秒杀一次,就五秒读一次买字啊,那是这样啊,那这这就是一个完整的一个大数据开发,从你在某一个商城网站上买点。啊,进入一些点击行为啊,然后之后经过我们大数据后台一顿分析,然后把这个结果再导出到SQSQ的这里面展示。啊,这就是真正的一个企业的时候,一个全流程,全流程。那我看到哪了?你在打?不难哈,然后呢,我们可以先在MYSQL里面查一下数据,只要MYSQL里面有这些数据了。那可视化就是Java程序员的事啊,记住啊,咱们个Java程序员的分水里就在这个MY口,你把数据扔到MYQ里面去,剩下的事可以说就跟你没关系了啊,前提是得准确啊,你扔的不准不及时,那他要找你啊,那剩下的怎么展示,展示什么样,那跟你没关系啊。
24:26
所以这个分工啊,你们也是要学习的。有的同学是这个什么活儿都都跟你干,我现在跟你们说过吧,是吧。前端安卓Java大数据都干12K对吧,那你看现在人去VIVO直接29对吧。希望,希望上个班那个刘妍希也能拿下VIVO,真的是,你们赶紧毕业吧。
25:05
反正至少我觉得这双簧应该是能拿下其他的像大哥这种有希望。啊,拿下。改了之后呢,我们先从这里面查一查这个数据啊,嗯,最后一条看2月10号,二月11号数不就有了啊,有了之后我看一下啊,这是日活吧,日活的。这得查一下,2月10号。2月10号。哎。就一个点呢,2月10号07:53啊,对不对。753是这样吗?啊这样呢,他就展示出来了,因为它周边是没有一个点的啊,因为2月10号2月11号嘛,就这两个点嘛,你有这就有一个2月10号对吧,你要查2月11号。2月11号这是多少,看753这里呢,771。
26:00
753 771对吧?啊,就是微波程啊,其他的都一样啊,我就不演示了,你可以去查一下啊,OK,这就是整个大数据啊,一个全流程闭环啊,为什么加这个,你感觉现在感觉没什么这个技术含量,其实。你们的学哥学姐们就这一点,这层窗户纸你要不给他点破了,他始终觉得这地方很神秘啊,他到底怎么就展示了呢?啊,这个总说这个报表,报表到底长啥样啊,我说不知道,那现在你看完之后也就这样啊,也就长这样。啊,没啥大不了的啊,OK。
我来说两句