简单来说,Spark 是一款分布式计算框架,能够调度成百上千的服务器集群,以处理 TB、PB 乃至 EB 级别的海量数据。...数据输入:通过 SparkContext 对象读取数据数据计算:将读取的数据转换为 RDD 对象,并调用 RDD 的成员方法进行迭代计算数据输出:通过 RDD 对象的相关方法将结果输出到列表、元组、字典...、dict 或 str 的列表)参数numSlices: 可选参数,用于指定将数据划分为多少个分片# 导包from pyspark import SparkConf,SparkContext# 创建SparkConf...:15【分析】③take算子功能:从 RDD 中获取指定数量的元素,以列表形式返回,同时不会将所有数据传回驱动。...[[1, 3, 5], [6, 7, 9], [11, 13, 11]], 1)# 输出到文件中rdd1.saveAsTextFile("D:/output1")rdd2.saveAsTextFile(