00:00
好,呃,那这个地方呢,是有一个导出,用X可以导出到idfs的一个路径啊,可以导出到IDF路径啊呃,那么这个东西呢,我们来看一下直接一样的,跟刚才我们那个我把这个拿过来啊。你对比一下看一下。呃,那这个地方呢,叫EXPORT1张表对吧,然后叫to一个路径,而import呢,Port用的是from,其他的是不是一样的表对吧?然后一个路径,而且刚才是不是我们随便给一个路径,虽然路径里边有东西对吧,但是他告诉我们的报错信息还记得吗?无效路径不可用的一个路径,对吧?啊,因为你的路径呢,不是xport出去的,那我们就看一下xport出去的路径,它有什么特点。
01:10
啊,它有个特点一样的,这个to呢,我们可以把这个to写到下面对吧,写在这个,然后这个地方,好,那我们来导出一下,在这个命令当中用port,然后呢,Table student,对吧,然后叫to,然后跟着一个路径啊,这两个路径对吧,那这个路径呢,我们先这样啊,还是一样的,我们看看它能不能自已给我们干什么。创建。对吧,我们来一个一跟目录想来一个。啊,就写简短一点啊,走一下这就搞完了,让我看一下,那就说明如果成功了,说明可以干什么,创建路径,好注意看一下他这个路径跟我们普通路径有什么区别吧,点进去它里边多的什么。
02:03
没原数据信息还错的,他会将原数据信息一把都导出去啊,然后DATA2个数据啊,就是原始的这个student表里边啊。有两个数据啊,还好刚才我们是从表的。它有两个数据对吧,就是这个样子的,所以呢,它实际上呢,它这个路径,刚才我们看到它是一个不可用的路径,其实就缺了谁呀,原数据信息啊,这是我们将数据导出去,那导出去以后,我们是不是就可以用这个命令再给他导到我们什么表里面了。对,刚才的东西不可用吗?那现在这个跟目录下STUDENT1不就可用了吗?对吧,那我们找一下,然后呢,找一张表对吧?Table,那大家想一下啊,这个阶段一里边已经携带了原数据信息了,那这张表如果说我们往以这C的表是不是已经存在了呀,对吧,我们试一下。
03:17
所以当时我们给他家测的就是一破的这个命令,当时那个路径呢,我们随便给的,我们是不是也测了这个表存在和不存在都测了,是不是都不行,但实际上m input的这个东西,如果这个表存在,它告诉我们什么表意存在,而且里面包含了数据了,那所以说我们接下来有两个东西要测。因为他报错信息告诉我们是表存在,并且包含了数据文件。那大家针对于这种情况,接下来我们要测的两种情况是什么情况,第一个我来一个不存在的表,第二个我再测一下,表存在了,但是里边没有数据,对吧,我们看一下可不可以对吧,就是我们看到它暴露信息之后就想到,哎,可能是表存在的问题呢,因为他用的是什么and是并且啊对吧,啊同时都存在,那所以说呢,我们再来一个。
04:19
啊,有三五了是吧,那接下来呢,我们的往什么六里面倒,然后再从这个地方找好,然后我们那的心from么六可以。导出来了对吧?好,这是一种情况,也就是说当你表不存在的时候,是不是可以导对吧,而且呢,它的一个字段信息就跟之前那张表一样的,导出去的原数据信息一样的,对吧?那么这个时候还有一个问题,就我在创建一个什么对ID对,注意跟这个之前的表保持什么一致,对吧?啊,那然后这个地方写,然后是。
05:22
那这张表肯定是一个空表,对吧?刚创建的,那我们能不能导进去呢?我们来试一下啊,来到这破的这个地方,我们写一个七,然后from这个A表里表这个怎么样啊,也是可以的,看上去可以的,对吧?所小欣from这个什么STUDENT7是不是也可以对吧?所以刚才的报读信息就告诉我们这个事情了,因为他刚才的暴露信息是怎么说的,说你表存在了,并且里面已经包含了数据文件了,所以说在这种情况他用的是end嘛,对吧?啊用的end如果说表已经存在了,就不能导的话,他暴露信息可能就只要这一个就够了,所以有时候从暴露信息我们推出来一些东西,对吧?可能我们不太确定,那我们去干什么。
06:17
测一版啊,就测一版,因为它用的是end叫并且啊两个同时存在的报的错是这样的,对吧,所以呢,也就是说我们导入数据用input的数据导入的时候需要什么东西,想一想条件就是说用input这个关键字的时候。他比较严格的对吧,第一个对于输入数据是不是有要求。你输入数据所给的路径必须是。Xbo导出去的那个路径对吧,这是一个你随便给的路径不行,第二个还有什么要求。我们在写入的这张表,要不然呢,你不存在,要不然你可以存在,但是得是一个什么空表零里边不能有数据,对吧?啊,所以它的条件呢,是这样子的。
07:12
啊,条件是这样的,所以我们之前说的未完待续,因为之前我们没办法,也是在没有讲xport的时候,Input就不可能成功,对吧,因为他对于这个目录呢是有要求的,对吧,不是说随便一个目录你都能用input给它导进来,这是不可能的,对吧?这是我们的export这个关键词,那这个其实说你从一张表导到另外一张表里边啊呃,我们如果说这种导法太麻烦了,你是不是要导两次?假如说这种情况,我要把A表导到B表,你要怎么做?先要把A表X,然后再用一导入吧,比较麻烦,如果真的是这样的话,我直接从A表查往B表干什么,插入不就行了,用音色的加C的这个语法不就够了吗?对吧,也不需要这样去麻烦了啊好,那也就它的应用场景这边也给他写了,主要是应用于。
08:08
两套哈萝卜集群之间的一个汉数性别。啊两套啊,就是说你有两套爬平台啊迁移,但其实在公司当中,大家遇到这种场景也很少啊,也很少,这种情况也比较少啊,因为一般的你所在的部门啊,有一套集群已经够不错的了啊,当然对于公司来说,他可能有很多套不同的集群啊,可能也不是说不同吧,就是哈多这一套就是同样的哈多集群在公司当中都有可能什么。有好多套,但是呢,你所用的一套为主啊,主要是一套,如果说真的做这种数据迁移,其实还有很多其他的方式。啊,还有很多其他的方式来做啊,那公司当中多套这个集群主要用来干什么事的啊,一般是这样,你想想看,公司当中它整个的IDF集群啊,是一直不会去停掉,或者说不会去关闭掉,但是呢,随着年头的增长,你HDF数据是不是也越来越多,里边可能有呃,什么五年八年以上的数据。
09:20
那那个数据对于现在的分析来说,其实对意义不大了,你才是提到了对吧?啊,因为你可能分析的都是近期一些数据,对吧,老早的数据呢,可能没什么用了,那这个时候呢,我们就会在工作当中就会划阶段啊,就是说五到八八年的这种,或者五到十年的这种数据了,嗯,分为近五年数据,五到十年以及十年什么以上的啊,那近五年的数据呢,我们叫热数据。就可能经常会要干什么访问的这种呢,我们把它称为热数据,它就在比经常用的这套题型当中,那还有一种就五到十年的这个呢,不能称为上热数据,但是有一些需求还会干什么用得到对吧?那我们就放到另外一套机器上,那十年以上的这种数据几乎怎么样用不到了,那既然数据数对于一个公司来说,数据就是它的一个什么生钱的地方,对吧?啊,或者是有同学提到生命也可以啊,数据呢,就是公司的一个生命是吧?那这个数据呢,他也不能说直接就干什么删掉了啊,那怎么做呢?从这一套题型当中选择压缩比最高的那种压缩方式。
10:39
写到磁盘里啊,因为现在在服务器上这个磁盘啊,都是那种。可插拔的磁盘啊,可插拔的,也就说选择用一个压缩比非常高的给他写到本地磁盘,那么那个磁盘什么拔了好拔了啊,就是放在那数据也不会丢,用磁盘,因为磁盘时比较便宜,对吧,就不放到idl集群了,因为你放在SD集群,第一个它是不是会占用你磁盘对吧?啊,第二个它还占用你内存,因为它还要存原数据啊,对吧?所以用压缩比算法比较高的给它下载到本地,然后把磁盘拔了啊,如果要用的时候再把这个磁盘干么挂载上去啊,就类似于你Windows,其实Windows挂载磁盘是最方便的,你插的这个移动硬盘不相当于是挂载了一块磁盘。
11:29
对吧,有的东西说备份,我们要拷到这个移动磁盘里边,移动硬盘里边不就是一样的,你拷完之后是不是给它拔了,服务器上也一样的Linux系统呢,也可以挂载磁盘。啊,Li系统也可以挂在磁来也是一样的啊,就是说你用的时候插上去对吧,不用的时候就给它拔掉啊,给它拔掉是这个意思啊呃,一般的是这种情况用用xport或者说用port这种方式呢,也比较少,其实比较少,因为在大家学的XB当中,两套集群之间,注意是两套集群啊,是不是也有命令可以直接将数据发过去。
12:08
啊,有吗?当然你们肯定没演示啊,因为咱们那个虚拟机没办法装多少集群装不了,其实它也有直接的命令,可以从A集群,注意是A集群啊,就是相当于可能我们装了一个102 103104,对吧,有一个内node或者什么样子的,然后还有一个105 106 107,它呢是独立的一套集群,它是独立集群,那我们想把数据从这导到这儿,那这是have表啊,我们可以这样导,假如不是have呢,是一个很普通的一个数据呢。你能用这种方式吗?导不了,其实两套跨两套机群当中呢,它也有方式,CP对SCP有人记得啊,你们肯定讲过,但是应该没解示,因为没办法打两套集群对吧?啊,没办法打两套集群,用SCP命令呢,也可以跨集群去传输数据,这个还有它自己的局限性,因为它导的数据必须得是have所管理的数据,对吧?因为咱们在这是不是执行的have命令呢?对吧?啊,那其实那个更常用一些,两套集群之间数据传输啊,像这是S整体呢,就是我们说的它这块的不太常用,最后一个S库啊,我们现在怎么讲,这个是一个专门的一个工具,它是用来将数据导到哪呢?导到买S里面的啊,它可以直接将数据注意那一同说,哎,我买S不有数据吗?注意你现在买S里面数据是什么。
13:38
是原数据吧,没有那个student里边,刚才我们这个数据对吧?啊是没有的,那you呢,可以导到MY思,那这个一般是什么时候用的,就原始数据进来,你经过分析之后,数据量是降下来了。就你做some吗?Count呀,数据量是不是就下降了。对吧,那数据量小了,是不是可以放到MYSQ存储。
14:03
没问题吧,而且那有的时候数据量小了,我为什么非要放到买四个呢。你想一个问题,我们分析完的结果就放在have里边吗?那有什么意义啊,最终我们看到的这个数据结果是不是应该要用格式化做一个展示啊,对吧,就类似于阿里的那个什么打平,或者大家经常看到的那种说一个指标同比增长,或者说什么样的这种,最后把它形成一个图吧,对吧?那这个图你觉得从have里边获取数据好还是从MYSQ获取数据好啊,肯定是MY搜QL对吧?啊也究最终这个地方呢,最后我们要将分析好的结果导到MYS狗那会用到我们的S库啊,用到搜库来做这个事情,这是我们后续课程当中会有专门去讲一个框架的,这个框架其实也比较简单,也就是用一些命令啊,啊它呢,也就是一个半天的一个框架啊,半天的框架,像这是我们所说的xport以及port的AI演示啊。
我来说两句