hive查询过程
就如上文所示一样Hive类似与hiveQL转化的Mapreduce的语言解释器。...join.png
实现的过程是在Map阶段将来自哪个表的数据打上标签,在reduce阶段,按标签区分不同的列,按key来进行数据的合并。
2.MapReduce实现groupy
?...groupby.png
在map阶段将字段组合为key值,将value值设为统计的次数,在reduce阶段直接进行合并。
3.Mapreduce实现distinct
?...clipboard.png
分区表:
分区:把数据放在不同的磁盘文件中,就认为是不同的分区,数据库对不同的分区会进行单独的管理,优化,最终的目的是加快我们数据查询的速度,在hive中,把不同的分区分在表中不同的子文件夹中...,我们把这样的数据存起来,模5,10,100 模的这个数字叫做桶,模几就分成几个桶,桶实际上就是模的数字,我们的记录就被划分到这个桶里面了,那么hive在进行查询的时候就会按照5个桶或者10个桶来进行处理