pyspark.RDD.collect
3.take()
返回RDD的前n个元素(无特定顺序)
(仅当预期结果数组较小时才应使用此方法,因为所有数据都已加载到驱动程序的内存中)
pyspark.RDD.take...), (10,1,2,4)] # 默认以子tuple元素的大小排序
[(20,2,2,2), (10,1,2,3), (20,1,2,3)] # 这时候就是以 子tuple元素的第[3]个位置的数字为顺序...top_test\n",flat_rdd_test.top(3))
[(20,2,2,2), (20,1,2,3), (10,1,2,4)]
7.first()
返回RDD的第一个元素,也是不考虑元素顺序.../结合律的运算符来归约RDD中的所有元素;
处一般可以指定接收两个输入的 匿名函数;
pyspark.RDD.reduce
print("reduce_test\n",...和map类似,但是由于foreach是行动操作,所以可以执行一些输出类的函数,比如print操作
pyspark.RDD.foreach
10.countByValue()
将此 RDD 中每个唯一值的计数作为