我为了优化的目的使用多插入查询,当然它对我有很大的帮助,但随着每天的运行,我可以找到3到4个id(计数超过1000万),在reducer上花费了太多的时间。为了解决这个问题,我实现了skewjoin优化属性,但是它抛出了我正在使用的属性set hive.exec.compress.intermediate=true;
set
我正在运行一个类似于tableA left on tableA.col1=tableB.col1和tableA.col2=tableB.col2的蜂巢查询。tableA有18亿个数据,tableB有3100万个记录。现在,我加入的最后一个减速器还没有完成,而且还在运行很长时间。我能看到长时间运行的任务如下所示
reduce > copy task(attempt_1498868574233_185232_m_001336_0 succeeded at 8.94
我尝试了一些蜂箱优化特性,并遇到了这样的问题:我不能在hive0.12中使用桶映射连接。在我尝试了下面的所有设置之后,只生成了一个哈希表文件,并且这个连接结果只是映射连接。> set hive.enforce.bucketing=true;hive> insert> set hive.auto.convert.join=true;
hive</e