spark 的计算流程大概如图:
?
其中, 通过多次处理, 生成多个中间数据, 最后对结果进行操作获得数据....本文不涉及任何原理, 仅总结spark在处理的时候支持的所有操作, 方便后面使用的时候, 可以参照本文进行数据的处理.
以下函数整理, 基与Python中RDD对象....方法名 说明
「过滤」
filter 过滤掉函数计算后返回 false 的数据
distinct 对数据集中的元素进行去重.
「数据转换」
map 一对一....计算元素的样本方差 (除以 n-1那个)
「保存结果」
saveAsTextFile 将结果输出到指定文件....等等吧, 都是 saveAs 打头的方法
----
比如Spark SQL等还有一些自己实现的方法来方便使用的, 没有在此列出. 留着后面写的时候作为参考, 毕竟英语是硬伤.