00:00
首先这有一个文件,当然这个可以打开啊,在我们给大家的这个资料里边,有一个data目录,也有一个log.data啊,咱们啊可以把这个拖进来,嗯,拖到哪呢?OB Mo data啊,给它扔进来,这就是一个普通的数据啊,呃,他呢是多大呀,我记得应该是18兆啊。对吧,18兆行,那接下来呢,我们来做测试,这个测试首先呢,我们去做一个CE的一个门。这个可以,嗯,其实这个地方存储我们是不是可以不写。嗯,因为默认的是不是就是它呀,啊可以不写啊,那这样我不写啊,拿到这现在这个所谓的叫log text这张表,那这张表我们去导数据data叫log in对吧。
01:08
把它拿过来,拿过来好以后呢,再把我们刚才的那个数据叫猫他吧,Into table好,那这张表的数据呢,我们去看一下,那它毋庸置疑肯定是多大呀,18.1的,其实因为我们家说了,你t file里边文件呢,它就是put上去的,对吧?啊就直接放上去的,那刚才这个吧,点开。18.13没有问题吧,啊,原始数据直接放上去的啊,这个能读好,那接下来呢,这个是T,它不会改变它那个什么东西,而且我们刚才粘的时候是没粘它对吧?好,那么接下来呢,我们再继续。我们来创建一个orc格式,并且不指定压缩,就是我们自己不指定它的压缩方式对吧?为nu,因为OC它默认的用到了压缩方式了,OC这种格式默认用到压缩,所以呢,我们就去指定一下为now压缩方式,为now就不指定压缩方式,好那这张表大家想一下我这个东西啊。
02:18
还能行吗?我直接给他导到叫所谓的lo OC里边。报错了,他说什么东西啊,不用想,肯定是文件格式的问题,对吧,你看啊,不能够匹配文件的什么格式,对吧?啊文件格式,那我们要怎么样。因为我们说这个命令啊,Load data,它是相当于把数据直接给put上去,对吧,它不会改,我们走MR是不是就行了,那怎么样导入数据可以走MR呢?Insert吧,Insert c的方式吧,对吧,我们从这个所谓的刚才我们TST表里面去查,查出来往这张表里边放,对吧,也就是说我们通过这种方式,哎,就这样子,第一次导的时候用into或者o right是不是没有区别,对吧,因为它肯定是空表嘛。
03:44
然后我们去看一下logoc,它的一个文件大小。这张表吧,跑完了好来运看一下啊塞,我们压缩都没启用。
04:04
对吧,如果说我们再启用一个点里,它的文件就会怎么样更小啊,就会更小or RC这种格式,然后接下来呢,我们再去创建一个什么,它可以它为默认的,也没有压缩,所以呢,我们也不用指定它的一个压缩方式,为什么为那啊,所以直接好,那这个我们也就不直接往里漏的了,是不是漏的还是会一样的,对吧?啊,因为你做as啊,所以呢,我们直接就做这个事了,In色的干什么往里面去写入啊,其实这答案都有了,在在这是吧。所以说最终呢,存储文件方式,如果说大家都不启用压缩的情况下,OC最优啊,对吧,然后其次是卡费的,然后呢才是啊,因为他什么都不干对吧,等这个走完走完之后呢,我们就看一下所谓的叫log啊这个。
05:00
好,然后接下来呢,我们切到HDFS到这个log的它是什么?13啊13这比T是不是能好一点,对吧?啊它能好一点,好,这是我们所看到它的一个。存储啊,这是存储效率是不是这样子的,那么接下来呢,我们就做一个什么事呢?我们去随便去查里面的数据,同样的搜考啊,对吧,去查里的数据,我们就对比一下查询速度,因为你压缩了,我在查询的时候是不是要要解压缩对吧?要解压缩啊,不是压缩啊,就是说你这个特殊的文件格式,那我是不是读这个文件格式,还要找索引,还要找什么东西,找到你对应的数据嘛,对吧,那我们就看一下啊这个数据啊,那这个呢,我给它放到OB06,直接放到D上就行。Data目录啊叫log TT text这个目录对吧?来我们看一下它的一个运行时长。
06:04
其实查询效率呢,是差不多的啊,查询效率是差不多的,嗯,那既然这样存储效率OC最高,查询效率差不多,那你说你用哪个OC吧,之前我们提到在have当中呢,其实用的更多的C15,对吧,我把这个记录一下啊,这是T对不对。好,那接下来第二个,呃,我还是一样的啊,把它放到,因为我们有这项目录对吧,然后呢,我给它放到这个目录少了一个D是吧?行,就是从这三个词语句啊,只有最后的表不一样对吧?其他东西都一样的啊,因为你要对比,你肯定要用控制变量法对吧,你不能说有很多东西都在变,最后说这个表比它就那不行,你OC说启用了压缩,然后说比我这个呃存储的文件要小,那这个没意义啊,对吧。
07:07
是吧,啊,就因为咱们数据量还不大,其实差不多啊,因为他过程当中需要去解码,相当于对吧,你有编码个税,你要去解码,解码肯定会消耗一些什么,多少得消耗一些时间吧,对吧。但是15跟18,以及我们看到了7.7跟18兆相比,那这个差距是不就大了对吧?快差了三倍了吧,对吧,18除以三等于六嘛,57.7是吧,快差了三倍了,肯定两倍多,那我肯定还是用括号C这个16对吧,是不是查询速度方面是差不多的对吧?但是存储效率是差很多的啊,所以呢,咱们之前就提到了,在生产环境当中还有这一块呢,更多的时候可能我们用的是orc这种格式啊,Orc格式啊。
我来说两句