如果我将散列分区器应用于星火的聚合键函数,即myRDD.aggregateByKey(0, new HashPartitioner(20))(combOp, mergeOp)
myRDD是否在使用combOp和mergeOp聚合其键/值对之前先进行重新分区?或者,myRDD是否首先通过combOp和mergeOp,并使用HashPartitioner对结果进行重新分区?
作为策略,我们不更新我们的文档,但是我们用更新的值重新创建。当我处理这些事件时,我只想保持更新的事件,所以我想根据多个值从我的RDD中筛选项目。greater than the one of above, since the update operation is done after the document is generated我一直在做的是reverse
.groupBy(_.someI