00:00
啊,这个时候好,呃,那接下来呢,我们看一下这个第九章啊,第九章呢是跟压缩和参数,其实跟第十章里面是相关的,它也是属于这种优化。也是属于优化当中的对吧?压缩嘛,存储方面的对吧?啊还有其他的一个格式,我们来看一下,首先第一个,呃,第一点呢,叫哈杜的压缩配置,诶我们现在不是聊have吗?为什么又聊到哈,对,因为我们have是不是基于HDF做存储的,MR默认的用MR做计算的对吧?而且就算我们如果用的是Spark引擎,Spark里边啊,它读写数据用的还是行里边的,哎,读数据用的还是大家所熟悉的input form,写数据用的还是大家熟悉的out form,所以呢,这些编码呀,这些压缩是不是一样用啊,对吧?啊所以我们来看一下第一个这个东西是不是大家之前都见过对吧?哈,对里边的啊,那你可还记得这些东西。
01:07
呃,最重要的两个这里边哪个拉斯罗和那他们俩什么区别呢?在这对吧,区别在这,其实他们的压缩比或者压缩效率其实差不多对吧?当然肯定有差距,两个不同的算法嘛,有差距,但是总体来说呢,差不多,那问题就在于是否可切片啊,那这这块它不可切片,它可切片对吧?其实在生产环境当中用的更多的反而是snap,那大家可能想不通了,因为我大数据当中,我用这个snap不可接分,那不是卖呀,不不能用多个了吗?不就减少了它这个变异度吗?这个问题怎么解决啊,用怎么我们所说的这个东西是否可切,大家要注意是针对于单个文件来的,如果说我用的虽然是na,但是我这个目录当中有十个snap文件呢。
02:13
它几个麦克十个,那是还是可以并行吗?那你我们在生成这个数据的时候,我是不是可以把一个文件,把它的大小可以看成降下来,是不是也能完成,虽然你不可切,那相当我人为的提前替你做好界面,对吧?我们所说的128兆一个切片,不是说这个目录里边把所有文件累加起来128兆去切,它虽然按照128兆去切,但是它是遍历单个文件,然后看单个文件有没有超过128兆去切,对不对,能理解这个事吧,对吧?虽然我三不能够自动的,就是单个文件不能切分,但是我在往里面写数据的时候,我控制每个单个文件的大小不就好了吗?对,我让他生成这个文件的时候,就按照什么,假如说100兆一个snap文件,100兆一个snap文件,我用这样的方式,如果能做到的话,我是不是亲手解决了斯奈比不可切分的一个缺点?
03:14
对吧,啊,这个要理解一下,所以生产环件中反而塞用的更多,那我们接下来看一看为什么用的多,因为我们要做测试对吧?啊行,那接下来呢,是如果说我们要用的时候是要支持用这些编码了,而对于我们的哈杜这性能比较,这个大家都之前都见过的,对吧?那哈杜这个东西它是支持怎么看check。Native对吧,三怎么样是支持的对吧?因为咱们现在啊,是基于这个3S737这个系统呢,默认内置了这个STEM的压缩方式啊,所以哈呢,你可以启用这个snap的压缩方式啊,它这样的,因为由于是系统,如果说你用的六系统这个snap压缩方式呢,你还要自己去装一下,因为Linux系统没有,而哈当中呢,它自带的也没有啊,就比较麻烦对吧,所以呢,要去额外的装一下啊,当然由于我们用的新系统就不用了,它这个地方哈,多check对吧,就能看到诶它是有的。
04:23
啊,它有的,所以就不用国外去装了,行这是我们所说的压缩,而且呢是之前大家所知道的一些点,然后接下来呢,是压缩配置,压缩配置看一下在哪个文件当中啊。只有他在扣其他的这些东西呢。在这对吧,统一是写在上面的,但是这个呢,比较特殊啊,写在外面的对吧,去输入压缩的,那有map输输出的压缩,默认都是关闭的对吧,默认是default,还有这个是fair output,就是video,或者说要总的输出,其实这个是给output和ma去用,对吧,还有压缩的什么。
05:05
默认按行压缩,其实还可以按什么按块进行压缩啊,按行按块进行压缩,其实我们一般选用的可能按块压缩效率更高一点啊,效率更高一点,主要的配置就是这些,而且呢,都是大家之前在学MR当中用过的啊,那接下来呢,我们再来测一下啊,在have当中也可以直接用。对吧,那我们先测这个脉搏端的输出,就是中间过程的压缩,其实往往来说啊,中间过程其实我们比较少用,因为你压缩之后,它是不是也不到最终存储,它是给V用V的这边还要干什么解压反而说效率高也不见得对吧,所以中间的也比较好用,那我们来看一下啊,我们来测一下啊,首先呢,呃,我们不用这个压缩。啊,不启用这个所谓的压缩,我们来看一下我们执行任务做一个对比啊,因为它是中间压缩对吧,所以呢,我们只能去看日志去看啊,它不像最终的压缩,如果最终压缩我是不是看输出文件就够了,对吧?那我们先执行一个任务啊,现在我们任何任何东西都没改呢,就没有启用压缩对吧,默认的它都关的。
06:17
我们只是说给大家做一个对比。然后等这个任务跑完之后呢,我们到这来还渡口,哎,不是啊,错了,是应该到103,我们看日志嘛,刚才说的对吧?嗯,这个任务呢,还在跑运行当中,应该快完了啊,哎,走完了,走完之后呢,我们就可以看这个日志刷新一下。这有一个A10日对吧,点X。点过来注意你看它自动跳转到了19888这个端口,所以说你要看这个日志的话,幺九我们得把什么历史服务配置以及启动对吧,我这边我之前给大家看过啊,我这边是启动的,我是不是一直用的什么HDP点去启动的。
07:05
自己写的脚本吗?然后在这个脚本启动过程当中呢。启动了谁呀,历史服务,所以我每一次历史服务就是自动起的啊,我不用单独去开了,我是写在这个清洗脚本当中的啊,那我们来看一下这当中啊,那map我们是不是应该看map日志对吧?点开点到那里边,呃,你点这个它可以加在全部的日志,其实这里边呢,你是看不到所有的一个内容的啊,没没有那个所谓的呃,那个什么压缩啊等等这些东西,这个里边你去假如说我们等会儿把这个打开放在这,我们等会就搜一下,多一个对比啊,先放在这日志啊,我们再家点一下啊,就是大家,因为我感觉大家很少看这个,就这个页面的日志,嗯,从黑色进来对吧,然后呢,它分map reducer各只有一个完成的一个,对吧,我们可以点到map里边,对应呢,你就看它的一个。
08:01
日志对吧,啊看他的一个日志,详细的日志在这中间过程啊,主要是这一块呢,它开始你主要看这啊,我们等会儿对比这就行了,这呢开始干什么flash那在中间过程启用压缩,肯定是这个一写过程当中。采用压缩吧,对吧,其实就看这块就好了,这个我们先放在这,这是普通的,然后接下来呢,我们就启用麦克当的压缩,首先呢,将压缩数据传输过程当中的压缩给它干什么?打开诶错的位置了,这个位置当中好那接下来呢,开启这个数据,这个默认情况下,刚才我们看到在上面是对块,是什么for对吧?这个东西呢,都可以直接set加分号可以看到对吧,所以呢,我们要把这个属性改为出对吧,启用map端压缩,然后我们设置一下启用的什么压缩方式,我们用OK吧,它默认的是不是的呀,对吧,代我们把这个哎走一下,启用代压缩,启用好以后我们再去同样的搜狗,搜狗的没变对吧,还是执行这个搜狗再跑一个任务,然后呢,我把这个还放在这啊,我再开一个好103。
09:19
嗯,那就最上面那个任务吧,正正在运行对吧?啊,他永远的放在最上面的,我们只要他等待他运行结束就好了,就是我们看刷写那一块,我们启用了压缩,而且用了加看有什么区别对吧?在日志当中这个因为我们只能通过日志去看中间文件,你是不好去看的,好走完了,走完好以后呢,那就是他们刷新啊,还是一样的点那个什么历史卖吗?点进来还是看那个老卜斯,还是看一写来看这。能看到启用了吧,你看刚才这个文件这。
10:08
有看到什么点什么stem.default点什么拉拉丝螺啊等等东西吗?没有,因为我们之前是没有启用什么压缩的,对吧?通过两个日志我们对比,哎,看来这个东西确实怎么样啊,生效了对不对?我们这个啊,因为中间过程只能通过日志的方式,所以呢,我之前先跑一个任务做对比用的啊,所以要做对比用的啊,这是开启呃,Map端输出的一个压缩。啊,它是可以生效的,对吧。
我来说两句