00:00
那我们在生产环境当中,你用RC,我们用OC格式,这个没问题,而我们同样的也可以结合什么压缩方式来用吧,对吧,我们今天说了在生产环家用的更多的可能是这个拉斯螺,或者说是这个snap这两种压缩,对吧?那我们就来测一下,结合这个压缩方式来使用,其实它这个压缩方式呢,整个这个内容在这啊,这个东西这些属性写在哪啊,写在建标语句的TBL还记得吧?它不是有一个表的属性嘛,对吧,写在这个位置啊,写在这个位置的,好,那我们来看一下,第一个我们去建一个orc加上z label的一个方式,对吧,是用这种方式来接一张表。建好建好以后呢,往这里面去写入数据。这是用了z label加上OC,因为我们刚说了OC是我们用的更多的,那我们主要测一下OC对吧,其实就是说刚才我们的属性之前我们是不是写了一个慢嘛,那就是不启用压缩对吧?啊不启用压缩,那我们看一下Z类。
01:13
下面呢,我们还得测一个啊,然后还有一个跟来做啊,这边走完走完之后呢,我们也去S去看一眼。哎,多了一个啊呃,那这个文件呢,我们叫log orc zb对吧,它呢是2.78,是不是加了这个压缩方式之后变得怎么样,更小啊,变得更小对吧?啊,变更小行,这是OC结合着Z力啊,那当中呢,还有orc结合什么snap啊,结合snap啊,其实它这个效率也是蛮高的啊,这都有对吧?其实下面在课堂上还是要演示一下,其实如果说对着这个说也行,这个数据我们总部是自己造的吧,自己编的一个是吧?当然呢,也可以在这里边用这个Du-H这种方式去查询,对吧?啊,当然我们其实可以直接进到HBF去看也可以啊。
02:24
结合的比好,那我们再回到DF,嗯,这个呢叫它吧,3.75是不是比刚才7.7也还更小了,对吧?啊,但是刚才比Z怎么样要大一点啊,要大一点,因为Z当中呢,它用的默认的压缩算法。啊好,那接下来呢,我们这天说了OC用的多,还有这个STEM用的多,所以这两个呢,我们结合测一下啊,STEM结合着这个什么他啊,我们也去测一下啊,那放这块呢,我们去查一下,他呢就还是更大了,对吧,这个差距大了,刚才我们看到这个所谓的2.7跟3.7。
03:22
三十七十八兆其实也差的蛮多的嘛,说实话,因为咱们总共数据18嘛,对吧,如果说你是一个G的数据,假如说我举个例子啊,你差一兆,那这这个咱们就可以忽略不计了,如果是一个G的数据,最后压缩说差一兆是不是可以忽略不计啊,你肯定是咱们还要看基数嘛,对吧,所以说压缩这块呢,还是啊,但是市场用的更多还是你的表。好,这个倒完倒完好以后呢,我们再去看一下这个帕跟6.39对吧?啊,这个压缩比就明显差很多了,那差两三倍了,对吧,肯定不会用它了啊,肯定就是怕配的这种啊,就不太会用了,主要还是怕位这种文件格式,当然我们看到嗯,它呢存的东西很多啊,它除了会对我们数据做序列化这个方面呢,可能会小一点之外,但是呢,它还会建很多的索引啊,索引多引是不是也要存呢?对吧?啊,那这个东西呢,就会复杂一点啊,它更高一点,那有同学可能在想,那为什么我们不用那个Z呢?那不光是存储啊,我们还要考虑什么查询对吧,还要查询啊解压缩嘛,当时我们压缩比,压缩比啊这一块内容是不是大家比较两个东西,一个就是看文件大小,还有一个就是看差询效率对吧,所以之前都对比过,比呢其实是更优的综合考虑,你不能说它什么都好,这是压缩比。如果说压。
04:50
科比,你能把一个什么,你想想啊,假如说100兆的文件。你给它压缩成80兆,还有一个呢,压缩成十兆,那你解压缩的时候,那肯定压缩成十兆的效率会低一些,对吧?啊效率相对来说更低一些了,因为压缩比很高嘛,你解压缩肯定就会麻烦一点,对吧,你要恢复这个数据就肯定麻烦一点了,所以综合考虑呢,得到结论就是我们使用什么orc结合着snap啊结合来用。
我来说两句