,distinct去重主要实现逻辑是
map(x => (x, null)).reduceByKey((x, y) => x, numPartitions).map(_._1)
这个过程是,先通过map...相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对。}...A4 测试代码
import org.apache.spark....是初设定的partition数
val rdd = sc.parallelize(List(1, 2, 3, 3, 3, 3, 8, 8, 4, 9), 3)
//因为distinct实现用...解释:这里仅供理解,在实际运行中,分区会随机使用以及每个分区处理的元素也随机,所以每次运行结果会不同。