将每个分区内的最大值进行求和,初始值为0
scala> val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8,9),2)
rdd1: org.apache.spark.rdd.RDD...:分区0为1,2,3,4 分区1为5,6,7,8,9 第一个分区最大值为4,第二个分区最大值为9,全局聚合后的结果为13
将每个分区内的最大值进行求和,初始值为5
scala> val maxSum...为条为单位打印,而foreachPartition以分区为单位打印。...应用场景:比如要将计算好的数据写入到HDFS/Hive/MySQL等中,需要使用foreachPartition效率更高。...而foreachPartition每建立一个JDBC连接就可以将整个分区数据写入MySQL中,资源消耗小更高效。