00:00
好,下面呢,我们来看一下,分析一下表的同步策略啊,因为我们整个这个数据库当中有八张业务数据的表,那这八张表我们应该怎么用库去导,那首先看第一个订单表怎么导。同步车辆包括新增、全量新增和变化。这么三类啊。那订单表应该不到到它的新增和变化啊,是新增的变化能找过来,那下面这个订单详情一旦产生就不会改变,那导它的增量,哎增量好。那像这个三分表和用户表全量,因为数据量比较小,全量那它的一级分类,二级分类,三级分类全量对吧?啊,这属于维度表,那这时候支付流水一旦产生就不变化增量啊,全量这样就OK了,比如说这八个表对应的导入的导出的策略啊这么几种OK。
01:12
那这个完成之后,下面呢,我们就要写这个school定时导入的脚本,将MY里的数据定时导入到as。这么一个过程。啊,写这么一个脚本啊,扫这半张表的数据,那我们来看一下啊,这个脚本看大家能不能看得懂哈,首先一进来井号碳2B。然后传进来一个单二第二个参数,或者有一个读电的日期,也说第二个参数是日期,那么第一个参数呢。有第二参数就一定有第一个参数对吧,往下找,找到最下面去。啥事儿?这是最下面。人说你传进来的表名。
02:01
你传哪个表名,我就要导哪一个,传哪个表名导哪一个,那这下面对应的是具体的方法,好吧,那如果你传进来的是二,那我一下子就导八张表啊八个表,那好,那下面这八张表拿一个为例啊,比如说啊往上找啊,随便导一个找到最上面吧。找到最上边,比如说第一个方法,这个方法呢,就叫in part SQ啊导的是3D列表这个函数,那这个函数里面它又掉了一个函数。对吧,你看一进来现它又掉了一个函数,那它掉的函数呢,叫1PART。那1PART对是谁呢?是它那这个一派对里面,它传了两个参数,这是其中一个参数,这是第二参数。看一下,比如说这个函数又有嵌套的一个函数,那第二个第一个参数其实就是表明第二个就是过滤条件circle,再来看看,那我们其实调的核心都是它,那它这里面school in的,然后连接对应的买circle。
03:13
用户名,密码,然后最终的目的地,真身高,Date,数据库名称base,那前面有没?然后D地之前我们用户行为是log,然后DO1 do1表示这个函数或者这个方法里面的第一个值,那第一个值就是它。XQ表明XQ in份,然后之后到了对应的日期,对应的日期啊,那下面这块对应的查询条件用的就是这个。啊,就是工程,那其实你可以再看一个。再看一个,这是导一热表,同样也是调的一泡类的,然后第一个参数,第二个参数固定条件啊,全是这种方式啊存在的,这核心是一类的。
04:00
好,那这里面就涉及到了有八张表,它们对应的导入的策略不一样,那像这个三维表,它属于全量导入,那全量导入查询过滤条件就是。我查询哪些全部过滤过了对吧,那这个外尔条件不需要反应过滤,那一等于一什么含义啊,防止什么防止注入用的。啊,防止施工中用的,诶,你们没学过吗?啊,学过是吧,那算了,那不讲了啊,学过这我再给大家的资料里面也有,呃,再给大家点资料。扩展资料,扩展资料里面有一个外一等于一嘛,这呢啊外一等于一这。那这儿可以打开。其实这个呢,外一等一呢,就是为了防止啊,防止这个生活注入啊,来破坏这个注入的啊,它就防止这个。
05:04
对吧,啊,给你来一个二条线啊,一等一,只要一等一,那就全全全成功了啊,全成功了啊是这个意思,防止这个啊先不看了,那我们这里面首先订单表全量导入Y1等于一。用户表全量导入一等一,然后一级分类,二级分类,三级分类,三个维度表也是全部导入啊,全部导入五张表搞定了,那剩下还剩三张表啊,30表,那三张表分两类,第订单详情,还有一类支付信息。那么这两个都属于是。增量对吧,啊增量,那增量的话,你看还是前面一趴类的具体表明,然后查询条件,只不过如果是增量的话,那你看这里面的date和create have。
06:05
等于什么呢?创建日期,比如说创建日期是津贴对吧,啊创建日津贴,那下一个支付这个信息。支付的它的创建信息,这个pay卖的时候也是支付的那个时间等于当前日期。那说今天产生的,那它都是今日的新增,因为支付表和订单详情我们导的就是。增量啊,新增,好,那现在我会让大家看这个订单付面试官最爱问的就是你如何把百色罗里的新增和变化导入到市场里面去。更新什么?那订单表里面有啥来,你看一下。嗯,最分的就是这个订单表格,类似这种,那你根据这个值段如何把它的生成和变化导入到A。
07:09
根据它的创建时间和操作时间,如果创建时间和操作时间都是今天,那是不是就是新政的变化啊,都是今天的倒过来,那好我回来来看。啊。往下转,那你说这个呢,是订单表啊,订单表这一块,那他这个对动化可time是今天,或者操作时间是今天。啊,那这样呢,就把数据就导过来了,比如说订单表导的是新增和变化啊,那上边这个支付和订单详情导的是新增,那至于其他五张表导的是全量。啊,简答一个过程OK,好,那这个脚本啊,就不带大家写了啊。
08:00
来。测试一下。CDCD。对。哎。啊。OK。这什么的亲戚?好,那这样呢,这个脚本我们就搞定了,搞定之后呢,我们用这个脚本去真正的去导入一下数据,首先导的就是那个2月10号的数据导一下。这个导入的过程时间大概在15~20分钟左右啊,那这个时间呢,大家也可以去导一下自己的这个数据。
09:07
拒绝链接。掉没起那个只是那个没有警告。我看一下不是不是。查一下这个机型的状态。对了吧,是不是全换掉了啊好,嗯,C140STOP,把集群停掉,重新拆一下啊就好了,每个是集群技能是。看错了。还我应该是导一个snap没重启没重启啊,最好那个改完那个snap压缩要重启一下。
10:09
我的工作尽快要完成了,剩下的事儿呢,到了你们动手的时候了啊,很快啊。你们自己写代码不兴奋吗?一点也不兴奋。这个不像是一个程序员啊,程序员应该是非常幸福。你大爸爸没错。好,那接下来我们再写一下啊。今天晚上应该彻夜不睡,也要把需求做完,必须得这种,每个班都有一宿不睡,第二天把需求做完啊,之前哪有一个老学员出去工作啊,他是刚去一家公司,要求是从零到一,开始搭这个数据采集和数仓。
11:10
啊,然后呢,领导给的任务是一周之内搭完啊,我给他的任务是什么呢?一晚上今天晚上你不睡觉,第二天一定要把这个东西搭完,送到第二天送到指导办公室桌上啊,搞定啊对,然后呢,他的我给他出的招呢,是什么呢?因为我知道他这个水平一般,我说正好里边有个大神没上班呢啊,他现在呢,急需要去锻炼他自己的动手能力啊,然后你拉着他一起做,然后那个大神呢,非常开心啊,然后就帮他一宿没睡,做完了两个人都很开心。大神怎么可能不讲呢,平时都已经天天请他吃饭按摩了,是吧?好意思那什么好,那接下来我们具体来执行一下这个先导一下。
12:03
什么叫什么叫你的真朋友,对吧,你最需要他的时候。他在。那比如说你像那个一条有有有bug有问题,那你肯定上了,这是。那同样道理,阿迪有问题,那银行肯定也会帮他解决。这边应该跑起来跑起来了,好了,那这样呢啊,大家啊,去导自己的数据,把这个整个数差啊搭建起来啊,尽量把这数据呢,今天给它导成功了。好,我现在的2月10号的数据导完了啊,导完之后呢,我这里面还要再生成一下2月11号的数据,然后再继续导啊,我先把21号数据也是11号1000个订单啊,200个要用SQ200个用户吧,300个SQ生成一下。
13:07
执行。那这里面呢,又生成了这个2月11号的数据啊,你可以打开看一看,看看群里有没有啊,然后过来过来之后你会发现,哎,这里面的日期呢,就有2月11号的,2月11号的这就OK了啊OK之后呢,仍然用这个脚本继续去导2月11号的数据。走,那这个时间呢,还会再经过这个15分钟左右啊,那你们还是继续找你们的数据啊。好,现在的我们2月11号数据也导完了啊,大导这个时间呢,大概在十几分钟左右啊,行,那我们继续往下看哈,那在这个导入的过程当中,如果有个别同学啊,有几个点,目前为止只遇到两个,它在导入过程当中会报一个这个circle exce啊这个异常,那如果发这异常的话,你需要在导入的参数里面加上这个指定杠杆啊,Com,点尽这些driver啊就OK了啊,极个别极个别的同学啊,会有这种情况,那你记得把这个加上啊,其他的没有问题啊行,那这呢就是导入数据。
我来说两句