一、RDD#sortBy 方法
1、RDD#sortBy 语法简介
RDD#sortBy 方法 用于 按照 指定的 键 对 RDD 中的元素进行排序 , 该方法 接受一个 函数 作为 参数 , 该函数从...新的 RDD 对象 ) 中的 分区数 ;
当前没有接触到分布式 , 将该参数设置为 1 即可 , 排序完毕后是全局有序的 ;
返回值说明 : 返回一个新的 RDD 对象 , 其中的元素是 按照指定的..., 统计文件中单词的个数并排序 ;
思路 :
先 读取数据到 RDD 中 ,
然后 按照空格分割开 再展平 , 获取到每个单词 ,
根据上述单词列表 , 生成一个 二元元组 列表 , 列表中每个元素的...进行排序 , 按照升序进行排序 ;
2、代码示例
对 RDD 数据进行排序的核心代码如下 :
# 对 rdd4 中的数据进行排序
rdd5 = rdd4.sortBy(lambda element:...rdd2.collect())
# 将 rdd 数据 的 列表中的元素 转为二元元组, 第二个元素设置为 1
rdd3 = rdd2.map(lambda element: (element, 1))