00:00
好,那我们接下来安装一下所谓的一个太子引擎啊,这个是太子官方文档当中写的一个图啊,你越往后学,学的越多的计算框架,你一定会发现一个事情,就是什么事呢?就是任何一个计算框架啊,它上来先跟MR比一比,对他先跟MR去比一比。啊呃,就说他比mi优对吧?啊,就这个事,但是大家其实仔细想一个问题啊,虽然你优于mmr,但是呢,所有的框架都要跟我比。那说明mmr的地位其实不低。对吧,能能明白这个意思吧,啊,所有人都来跟你比一下,但是它的地位呢,不是有在速度上面的,而是在于思想,因为其他的框架,大数据里边计算框架一定都用的是MR思想,叫分制的思想,先分后合,一定是这样子的啊,所以呢,他要跟MR去比,对吧,就是说哎,我用的是你的思想,但是我比你干什么快,对吧?啊,总想做这样的事情对吧?这是官方文档当中的,呃,先那个太子呢,它也是阿帕奇的啊。
01:12
所以他的官方地址就是。对吧,就是刚才我们那张图啊,官方文档当中就上来呢,先跟哈比一下,包括你以后要学的SPA,我们看一下,对吧,SPA的一个官方的Spark,也是那个阿瓦奇维护的一个开源方向啊。但这个班这个网速真的是很烦很难受。
02:00
啊,算了吧,看来现在还不适合我们去看Spark啊,是后面我们要去学的,所以看子一下打开了Spark,其实打不开是吧?啊也就告诉大家现在还没到Spark阶段是吧?行,那我就不看了,那边太慢了,我就不等了,那所在叫他优于哪呢?主要你看这张图自己看了。没有云,没有云,对然他发现了他这中间有云,那这个云代表什么东西啊,大家想想代表了磁盘,就是他多个任务之间,看这是map map吧,他个任务串联的时候必须要借助什么磁盘环,而对于T子引擎来说,或者说Spark啊,它都不需要,不完全依赖于磁盘,但是当你输量太大了,它也会落盘啊,内存放不下了,它也不落盘,那不就等着内存溢出吗?对吧,它也会落盘,但是呢,如果说你数量小的时候,它尽量的优先使用内存,你内存能放得下,我都放内存,但是你想想看MR任务,如果说两个MR任务串连,哪怕你中间产生的只有1K的数据。
03:08
他是不是照样落板,然后你必须再去读文件啊,对吧,他就不能很轻松的把这个任串联起来,而且呢,这是独立的多个任务,你独立多个任务在调度的时候,是不是又要浪费时间啊,对吧,你必须是不是要等到这个任务执行完了再去执行这个任务,而且呢,单独要启动它比较麻烦,所以呢,慢慢在这啊中间过程,中间结果。啊还点FS,所以呢,它就会更快一点啊,更快一点行,那我们来去安装一下啊,首先呢,把这个安装包让我们拖进来CD出来啊,这个是候Mo是吧,那我们拖到这个扫啊拖到这里边,然后呢在我们的资料里边加包,加包里边呢,有两个关于太子的啊,给他扔进来。一个是所谓的什么mini对吧?啊,一个呢是太子这个是要放到集群的,这个是在本地安装的,因为他太子呢,他会去加载本地房间面料,然后呢,去集群上找我们的执行下方啊,所以呢,集群SDFS和本地都要有啊,就比较忙烦这个事情对吧?行,那我们就按照规骤来做一下,首先呢,在本地去创建一个T子目录,哎,错了,不在这啊,来到这个地方来OB Mo就解压创建一个T子目录,那么接下来呢,我们看一下,我们先把这个密给它解压到本地。
04:31
啊,解压到刚才我们太子这里边啊,那以前解压的时候好像我们没有创建目录,是不是这个时候为什么创建目录呢?等会你就知道了,因为他还是挺恶心的啊,他散的,他自己没有目录,如果说这个时候你不解压到太子目录,你直接解压到Mo,他就把这一套直接放在module里面了,对吧,就很恶心啊,啊他价包还放在外面,但是人家明明有什么。有利宝包,还外面放一堆假包,其实利包包里边呢,还是家包啊,他还非得这样放,那这个是人家开发的,咱们也管不着对吧,没办法啊,好,那接下来呢,在HDF集群去创建一个T子目。
05:13
啊,这是哈杜命令了啊,我们就去操作一下RC拿过来创建,那你到那个按FS上去创建也可以啊,啊接下来呢,把我们这个踏包,注意刚才解压的是mini你包对吧,把这个踏包扔到进去。然后我们到集群上就等着去看就好了,太这哎已经上传上来了啊,他其实最后呢,用的价包所寻到价包这个他自己会去解压啊好,那接下来呢,我们去修改一下我们的。哈杜环境变量啊,要修改了,首先呢,新建一个T点杠之前你看这个在哪啊。Ec吧,对吧,那把这个来哎插入,然后我们看下放什么东西啊,这是个插卖文件投信息就不聊了,第一个第一个目的对吧?在哪啊,在集群上面对吧?然后接下来是否用哈动集群,那肯定是的,然后这是关于资源的配置啊,啊用的CPU核数,那这个由于咱们的资源不是很足,所以呢,配的比较低啊,都是一个G这种的对吧?啊比较低啊都关于一些资源的配置,行,那我把这个拿过来往这一放好保存退出,呃,那接下来呢,是修改我们的整个那个哈,一个环境变量,当然等会这个东西啊,注意它要干什么,分发啊,分发一下啊分发一下就是我们修改的哈的东西都要分发一下,我们都改完啊,然后接下来呢,我们要去添加一个。
06:57
环境变量啊,添加一个环境变量啊,然后呢,主要是加载我们那什么太子本地的这些加包啊,加到环境变量里边,这个我们拿一下来插入啊,然后接下来呢,把这个拿过来保存退出啊,把存出这个是不需要再下载节点上,因为我们T子呢,只要在本地这一条就够了,因为最后分发任务到其他节点,它是从集群上去找的,这样找的,所以刚才我们所说的这个是不是就指向集群太子的这个地址啊,那你这个东西103104要不要知道啊,要知道的对吧?啊,它是要知道的,而这个本地的环境变量呢,只有102有这个。
07:43
它包,所以说不需要的啊,所以不需要的,那我们把这个去分发一下XXYC,然后呢,是哈度路底下有一个ec,哈度里边有一个T的set啊给发最好呢,等还得我重启一下啊呃,那接下来呢,我们还要修改have的计算机。
08:02
因为如果说我们把这个都做了一套了,说环境变量里边已经有了T加包,最后你不用。那你刚才做事有意义吗?对吧,那其实更重要的是它啊这个。这个还记得吗?执行引擎对吧。默认MR,如果说我们刚才做了那么多事情,又上传idfs,又在本地解压,最后这个地方放在MR那不白做了吗?所以说这个属性一定要改成什么,对,改成test对吧?啊,这个要改一下啊,行,这个是要注意啊,大家改的时候都要注意一下这个目录对吧?好,那我们到这来改下,这里面东西有点多是吧?好啊,干掉已经好,这个放在这,然后呢,我们去加一下。在have杠里面去配置上我们的直线琴,呃,这个我得调一下,行,好保存一下啊,保存下好了,这个东西不用分班,因为还有咱们也就装了一个102对吧?啊,也就装了一个102,好,那接下来呢,我们去用一下,因为家呢先把它停掉,因为我们加了改了很多的环境变量,对吧,改了很多的配置信息,所以呢,我们要把机群干什么重启一下,因为那个配置文件我们也说过,包括live这些东西呢,都是动态啊,不是非动态的静态资源,对吧,我们要重新去加载一下,就要去重新启动啊。
09:40
这个我们只是把它装起来,简单的去用一下就好了啊,然后下节课呢,我们再去写我们那几个需求啊,那个需求有的还是很简单的啊,So easy啊,真的不骗你的,真的有很多事没说,所有的都比较简单,肯定有的,那有简单的呀,生态环境当中也一样,但是绝大部分都是比较简单的需求,现在呢,我们用的这个。
10:18
Be have,它启动的就是这个,诶你看一下啊,这个可能还是那个还在安全模式啊,啊对吧,我还没有等到退出安全模式啊,这个no的安全模式啊,然后我们呢,去看一下,好,现在呢,我们就启动,因为它启动的时候,他去连那个DFS嘛,安全模式也肯定进不去啊。好,启动了,启动之后呢,我们再执行一个任务,你看一下有什么区别了啊,他也去浪池的一个就就不是刚才的那个发肉了,但是这个打印的东西太多了是吧?对呀,他有进场,然后呢,我们去看一下啊,看一下什么东西呢,起来了,你看啊第一个,你看第一个图跟谁比啊,跟哈多对吧?啊是谁都想跟哈多比一下,好,那我们就看一下啊。
11:27
103。太子引擎啊,是太子啊是太子对吧?啊,我们执行了一个太子引擎啊,啊这不是走妈了,有的,除非量太度大的时候呢,你们全发现到它的一个速度呢,你可以去做一个对比,速度呢,要比MR要快啊,比MR要快啊行,这是我们说的安装tag引擎并测试啊,零测试。
我来说两句