RDD 中的每个元素提取 排序键 ;
根据 传入 sortBy 方法 的 函数参数 和 其它参数 , 将 RDD 中的元素按 升序 或 降序 进行排序 , 同时还可以指定 新的 RDD 对象的 分区数...新的 RDD 对象 ) 中的 分区数 ;
当前没有接触到分布式 , 将该参数设置为 1 即可 , 排序完毕后是全局有序的 ;
返回值说明 : 返回一个新的 RDD 对象 , 其中的元素是 按照指定的..., 统计文件中单词的个数并排序 ;
思路 :
先 读取数据到 RDD 中 ,
然后 按照空格分割开 再展平 , 获取到每个单词 ,
根据上述单词列表 , 生成一个 二元元组 列表 , 列表中每个元素的...执行环境 入口对象
sparkContext = SparkContext(conf=sparkConf)
# 打印 PySpark 版本号
print("PySpark 版本号 : ", sparkContext.version...()
3、执行结果
执行结果 :
D:\001_Develop\022_Python\Python39\python.exe D:/002_Project/011_Python/HelloPython/