Spark :在每个执行器上处理rdd之前调用自定义方法

文章/答案/技术大牛

发布

2回答

scala闭包功能是否有助于Apache火花？

、、

前几天，我和一位同事进行了讨论，他不经意地提到，除了内存中的计算之外，Scala中的闭包是在Spark上执行应用程序如此高效的原因。我确实在官方的火花文档中找到了下面的文字，但我不太明白。为了执行作业，Spark将RDD操作的处理分解为任务，每个任务都由一个执行器执行。在执行之前，Spark计算任务的结束。闭包是那些必须是可见的变量和方法，执行器才能在RD

浏览 0提问于2019-01-27得票数 0

2回答

、、

我正在开发spark流媒体应用程序。我有一个要求，我需要验证某些条件(通过读取存在于本地文件系统中的文件)。我试着这样做：verifyCondition ...但verifyCondition有没有办法让每个执行者都执行它？谢谢

浏览 10提问于2016-08-31得票数 0

回答已采纳

1回答

因此，在Spark中，当一个应用程序启动时，就会创建一个包含该应用程序的数据集(例如，WordCount的words数据集)的RDD。到目前为止，我所理解的是，RDD是WordCount中这些单词的集合，以及对这些数据集所做的操作(例如，map、reduceByKey等)。然而，afaik，Spark也有HadoopPartition (或一般的:分区)，它由每个执行器从HDFS读取。我相信驱动程序中的RDD也包含所有这些分区。那么，Spark

浏览 1提问于2016-04-11得票数 0

1回答

如何限制每个执行器的并发map任务数？

、

我的Spark应用程序中的映射操作将RDD[A]作为输入，并使用自定义映射函数func(x:A):B将RDD[A]中的每个元素映射到B类型的另一个对象。由于func()在计算每个输入x时需要大量内存，因此我希望限制每个执行器的并发映射任务的数量，以便同一执行器上的所有任务所需的内存总量不会超过节点上可用的物理内存量。我检查了可用的spark配置，但不确定要使用哪一

浏览 1提问于2015-01-02得票数 5

1回答

本机文件系统上的Spark行为

、、

我们正在试验在我们的项目中运行Spark，没有Hadoop，也没有像HDFS这样的分布式存储。Spark安装在具有10核和16 on的单个节点上，并且该节点不属于任何群集。假设Spark driver占用2个内核，其余的在执行时被执行器(每个2个)消耗。如果我们处理存储在Spark本地磁盘中的一个大CSV文件(大小为1 GB)作为RDD，并将其重新分区到4个不同的分区，执行

浏览 10提问于2019-02-01得票数 0

回答已采纳

2回答

NullPointerException在Scala Spark中，似乎是由集合类型引起的？

、

sessionIdList的类型为：res19: org.apache.spark.rdd.RDD[String] = MappedRDD[17] at distinct:20:46 ERROR Executor: Exception in task ID 80 at org.apache.spark.rdd.RDD.filter= null) kDis

浏览 0提问于2014-05-22得票数 14

回答已采纳

1回答

在所有spark executors和驱动程序上执行脚本或小函数，而不使用DataFrame或RDD

、、、、

因此，我需要将私有CA证书安装/导入到spark驱动程序和执行器上的TrustStore文件中。我不能在主spark submit命令之前使用单独的步骤导入证书，因为spark脚本是动态提交的(从s3下载)。s3中的这个spark脚本包含有关私有CA证书文件(.pem)所在位置(在单独的s3位置上)的信息。我查找了一些方法来做到这一点。大多数解决方案都需要创建RDD或DataFrame，

浏览 6提问于2020-07-12得票数 0

1回答

如何在pyspark中设置spark.executor.plugins

、、、

我有一段python代码，其中有一些rdd函数，我想将其分发到多个执行器中。我希望在sparkish代码运行之前，能够在每个执行器上执行一些python代码(初始化一个记录器方法)。我读到并发现这是可能的，通过在创建spark会话时提供spark.executor.plugins，但是找不到任何关于如何在python spark api(pyspark)中使用它

浏览 14提问于2020-07-03得票数 0

1回答

星火如何利用每台机器中的多核并行性？

、

我在集群中以独立模式运行Spark (100台机器，每台计算机16个CPU核，每台机器32 GB RAM )。我在运行任何应用程序时都会指定SPARK_WORKER_MEMORY和SPARK_WORKER_CORES。在星火程序设计中，我把它当作一个串行程序来编程，然后星火框架会自动并行任务，对吗？当我使用SPARK_WORKER_CORES = 16运行程序时，我遇到了OOM崩溃。我再次尝试使用SPARK_WORKER_CORES = 4，程序成功地完成了。我控制<

浏览 2提问于2017-01-23得票数 0

回答已采纳

1回答

获取所有Apache Spark* executor日志*

我想以编程方式收集Spark应用程序驱动程序中的所有执行器日志。(当出现故障时，我希望收集并存储所有相关日志。)有没有好的方法可以做到这一点呢？一种想法是创建一个空的RDD，每个executor一个分区。然后，我以某种方式确保每个分区实际上是在不同的执行器上处理的(不知道如何处理)，并执行一个mapPartitions，其中我从磁盘加载执行器日志，然后执行一个co

浏览 0提问于2015-05-14得票数 8

1回答

星火流、卡夫卡和多个主题的糟糕表现

、、

当使用一个主题时，没有问题的执行者总是处理相同的主题/分区(测试到24个分区)。当我添加另一个主题时，一些用于处理主题/分区的执行器会从一个批处理到另一个批处理。当执行器再次处理相同的主题/分区时(例如，在前一次处理之后的3批，所以1:30 )，我从代理处获得了请求超时( KafkaConsumer参数)的解除连接，然后我对Kafka的新获取查询在40年代被阻塞对于某些主题/分区，本地

浏览 3提问于2017-10-15得票数 8

2回答

火花流-kafka-0-10:如何限制火花分区的数量

、、、、

是否可以用spark-streaming-kafka-0-10库配置Spark来读取多个Kafka分区，或者用单个任务来读取整个Kafka主题，而不是为每个可用的Kafka分区创建不同的Spark任务？我有四个虚拟主机，一个有火花放电的主人，每个都有一个火花工作者。其中一个主机还运行一个基于的Kafka代理。每台主机都有四个核心和大约8GB的未使用RAM。我正在使用SubscribePattern类订阅Spark的所有206个主题： val stream = KafkaUtils.cre

浏览 3提问于2017-02-20得票数 1

回答已采纳

1回答

为什么DStream.foreachRDD在java.io.NotSerializableException: org.apache.spark.SparkContext中失败了？

、、、

我需要在卡夫卡处理的数据基础上用GraphX构建一个图表。但是，sc.parallelize()似乎会引发错误java.io.NotSerializableException: org.apache.spark.SparkContext。._2) rdd.foreachPartition(partition => { // Build a graphedgeRDD = sc.parall

浏览 0提问于2017-06-26得票数 1

回答已采纳

2回答

调优火花、设置执行器和内存驱动程序以读取大型csv文件

、、、、

基本上，我只是将一个大的csv文件读取到一个DataFrame中，并计数一些字符串出现的情况。TotalNumberOfTasks: (18500)，为什么这是固定的？

浏览 4提问于2017-12-05得票数 1

1回答

在rdd中使用pyspark的子字符串

、、

我不是RDD方面的专家，我想找一些答案来解决这个问题，我试着在pyspark上执行很少的操作，但是无法实现，特别是通过子处理，我知道我可以通过将RDD转换成DF来实现这一点，但是我想知道在之前的DF时代之前是如何做到的公司是否仍然更喜欢在RDD或dataframes中工作？Helmet, Re|HL-U509-R完整

浏览 0提问于2019-08-17得票数 0

回答已采纳

1回答

从理论上讲，Spark会丢失失败作业的数据吗？

、

因此，我们使用RDD并对一组数据执行flatMap。然后，我们使用map操作对每个元素进行转换。在一组固定的元素上，我们看到在每次运行时，如果一些执行器在map操作期间死亡，spark会旋转新的执行器，但它不会为操作提供数据我们期望Spark应该提供

浏览 0提问于2018-09-25得票数 2

5回答

获取PySpark中可见节点数

、、

我在PySpark中运行了一些操作，最近在我的配置(在Amazon EMR上)中增加了节点数量。但是，即使我将节点数量增加了两倍(从4个增加到12个)，性能似乎没有变化。因此，我想看看新节点对Spark是否可见。我正在调用以下函数：>>>> 2 但我认为这是在告诉我分配给每个节点的任务总数，而不是Spark可以看到的节点总数。如何查看PySpark在集群中使用的节点

浏览 142提问于2015-02-27得票数 23

回答已采纳

2回答

Spark dataset.write()是否导致在驱动程序节点上收集行？

我正在努力微调性能，这是一个火花作业，它将处理过的数据集(在集群上)的结果写入HDFS和关系数据库。我分别使用dataset.write()、.jdbc()和dataset.write().csv()方法。我想知道这些方法是否会导致将所有行收集到驱动节点，从而影响作业的性能？

浏览 0提问于2017-12-06得票数 1

回答已采纳

1回答

调整纱线中的火花作业

、、、

，spark.yarn.executor.memoryOverhead，根据。=hdfs:///spark-history --conf spark.eventLog.enabled=true --conf spark.yarn.historyServer.address=xxxxxxxxx:xxxx --conf spark.sql.tungsten.enabled=true --conf spark.ui.port=5051 --conf spa

浏览 0提问于2018-05-04得票数 0

回答已采纳

2回答

Apache Spark:并行化和广播的区别

、

在Spark (Python)中：r = sc.parallelize([1,2,3,4,5])r

浏览 5提问于2016-09-21得票数 9

回答已采纳

点击加载更多

scala闭包功能是否有助于Apache火花？