spark如何将分区分配给executor。当我在spark shell中使用1个驱动程序和5个执行器运行以下代码行时:
> var data = sc.textFile("file") // auto generates 2 partitions这似乎非常低效,因为在包含分区的每个节点上重复运行5个任务,而不是均匀地分布在节点上。对于在相同rdds上重复多次的迭代任务来说,效率低下是最明显的。所以我的问题是,spark如何
我正在尝试理解Apache Spark调度程序到底是如何工作的。为此,我设置了一个包含一个master和两个worker的本地集群。我只提交了一个应用程序,它简单地读取4个文件(2个小文件(~10MB)和2个大文件(~1.1 the )),连接它们并收集结果。另外,我在内存中缓存了这两个小文件。这就像是调度器不确定地工作。干杯,
吉姆