一些算子介绍:
map:就是对每一条输入进行指定操作,为每一条返回一个对象:
?...可以看到使用map时实际上是[ [0,1,2,3,4],[0,1,2],[0,1,2,3,4,5,6] ]
类如切分单词,用map的话会返回多条记录,每条记录就是一行的单词,
而用flatmap则会整体返回一个对象即全文的单词这也是我们想要的...,第一个和第二个元素聚合产生的值再和第三个元素聚合,以此类推
?...take(n):获取RDD中前n个元素:
?
first() : 返回RDD中的第一个元素:
?
top:返回RDD中最大的N个元素
?...takeOrdered(n [, key=None]) :返回经过排序后的RDD中前n个元素
?
min,max,mean,stdev:
?
fold:对每个分区给予一个初始值进行计算:
?