00:00
好,那么接下来呢,我们看一下我们的分区表啊,前面聊了很多对吧,到处会提到这个分区表,因为在生产环境当中,我们用分区表还是用的非常多的,又提到一个字叫分区。其实到现在为止,你看啊,M2当中有分区概念,刚才呢,我们在这排序的时候有一个RI也是分区的一个概念。那所那什么叫分区呢?其实大家对于分区这个东西应该理解的。分区干嘛用的呢?分区是干嘛用的呢?为什么要有分区这个东西呢?对啊,有才提到了,数据量太大了。
01:07
如果不分区,不把这个数据分开,那么就只能说跟all派一样,用一个人去做这个事情吧,对吧?啊,不够,并行太慢啊,分区其就这概念,包括大家或者想一想,我们现在提到的就包括M8当中,我们提到的分区跟分区是不是指的是reducer那边啊,对吧?Map那边叫什么叫切片,叫分片对吧?其实你仔细想一想,在map端的一个切片跟reduce端的一个分区,它有一个区本质意义上的区别吗?不,不聊它的方法啊,当然切面跟分区的方法规则肯定不一样,对吧?就是他们所作用产生的作用有什么区别吗?有区别吗?没有区别,你卖端去切片或者叫分片对吧?
02:03
不是提高必孕度吗?Videor,我们所谓的分区不也是提高必度吗?其实它就是说将数据干什么?分开,然后呢,大家一起去计算,那现在呢,我们看啊have里边呢,它有一张表叫分区,有一种表叫分区表,这个表是分区的,那表里边是不是放数据的,那所谓的分区其实就是把我们表的数据干什么分开放。其实讲的就是这意思,就把我们表的数据呢,哎,不放在一个目录里面了,我分多个目录去放完之后,你再查我这张表数据的时候啊,我不是分成一个一个的小目录的吗?你可以在查询的当中写上分区信息。如果说你过滤扫描我数据的时候,过滤条件里面有分区信息,我就能够避免全表扫描,我只扫描,因为我相当于把径就是这个意思,假如说在这他幺零对吧,完之后呢,我们到这来。
03:10
有have house,随便啊,随便找一张表,六一现在呢,是不是你把所有的文件全部放在这,但凡你要去扫描表,这下面的所有文件,你是不是都要去扫描,你能指定到某一个去扫描某一个文件吗?能做到吗?你写这个语句做不到吗?如果说这底下我在这里边啊,这不是文件,而这是什么?目录文件夹啊,是文件夹,他其实分区表就这样意思,大数据呢,同样是一个表里的数据,我给他放在不同的文件夹里面,然后你扫描的时候可以指定到这个文件夹去扫描,避免全表扫描,而且生秒文件当中一般是按天来放到文件夹。一天的数据我专门放在一个文件夹里边,因为有很多的指标啊,在生产环境当中,有很多的指标是对头一天的数据做分析的。
04:06
我只要投一天的数据,如果你把所有天的数据放在一起。你是能过滤出来当天的根据里边说这个数据里边有个创建时间,对吧,然后根据时间过滤,但是你扫描的时候怎么样啊,你扫描的全表啊,只不过说过滤,把这一点过滤出来了啊,那我们如果建了分区表,我在扫描的时候,我就扫描那一天的数据,其他的以外网的数据我是干什么不扫描了,所以分区表呢,在整个的理解当中啊,它首先呢将数据分开,其实它是对于我们have表的一种优化。提高查询效率的,避免全秒扫描的一种优化方案啊,然后呢,我们来用一下啊。
我来说两句