在spark中中止映射执行

文章/答案/技术大牛

发布

1回答

、、

如何在spark中中断映射作业： if (value == 0)

浏览 5提问于2016-09-17得票数 0

回答已采纳

0回答

在条件下中止RDD映射(所有映射器)

、

我有一个很大的文件要处理，加载到RDD中，并使用map函数对其行执行一些验证。我有一组错误，即使在文件的一行遇到，也会对整个文件造成致命的影响。因此，我希望在一行验证失败时立即中止任何其他处理(整个集群中所有启动的映射器)(以节省一些时间)。谢谢。 PS:使用Spark 1.6，Java API

浏览 2提问于2018-07-18得票数 0

回答已采纳

1回答

spark Async接口的部分结果？

有没有可能取消一个spark未来，并仍然得到一个较小的RDD与处理的元素？Spark Async动作在这里“记录” 我考虑的用例是有一个非常大的映射，它可以在计算30分钟后中止，并且仍然收集-or，甚至迭代或saveAsObjectFile-已经有效映射的RDD的子集。

浏览 1提问于2015-04-07得票数 2

1回答

映射函数在DataFrame上的应用

、、

我正在使用python/spark 2.1。我已将数据上载到表中。该表是一个充满字符串的单列。我希望对列中的每个元素应用一个映射函数。我将表加载到数据帧中：我能看到的唯一方法是别人说的是将其转换为RDD以应用映射函数，然后返回到dataframe以显示数据。但这会引发作业中止阶段失败： df2 = df.select("_c0").rdd.

浏览 1提问于2017-07-31得票数 18

回答已采纳

3回答

从PySpark中的其他两个列的函数中添加一列

、、、、

在数据框架df中，PySpark中有两列：+----------+----------+| [5,7,6] | [10,7,7] |df.withColumn("distance", dist(co

浏览 1提问于2022-06-28得票数 0

回答已采纳

2回答

在努力提高代码性能时，因为我有许多作业失败(中止)，每当我需要在许多其他操作中使用相同的数据same时，我就考虑在Spark上使用persist()函数。在执行任务时，以及在Spark应用程序UI中的各个阶段，我觉得这样做并不总是最优的，这取决于分区的数量和数据大小。我不确定，直到我因为坚持阶段的失败而放弃了这份工作。我在质问persist() ，无论何时对数据文件执行许多操作，使用的最佳实践是否总

浏览 2提问于2019-02-12得票数 8

1回答

可以切片列表，但不能索引

、、、、

：调用Py4JJavaError时出错：：由于阶段失败而中止的任务:阶段120.0中的任务1次失败1次，最近的失败: 120.0阶段中丢失的任务1.0 (TID 241，本地主机，执行器驱动程序)：org.apache.spark.api.python.PythonException:回溯(最近一次调用)：文件org.apache.spark.SparkException行229，在main process() File "/home/fi

浏览 2提问于2018-05-24得票数 1

回答已采纳

1回答

在吡火花RDD上执行map/减时出错

、、、

lambda o: (o.split(",")[0], float(o.split(",")[1])))我可以很容易地对第二个rdd数据执行map /还原函数，但是当我试图执行映射或减少时，我会得到以下错误:那么我们如何将第一个rdd数据转换为第二个rdd数据，或者如果有任何解决以下错误的方法，请提供帮助。谢谢 z:org.apache.spark.api.python.PythonRDD.runJob

浏览 1提问于2020-11-12得票数 0

回答已采纳

1回答

运行TPCDS基准测试数据集时的火花错误-无法找到dsdgen

、

当我运行这个： scala> [troberts@master1 spark-sql-perf]$ spark-shell --master yarn --deploy-mode cliers /home/troberts/spark-sql-perf/target/scala-2.11/spark-sql-perf_2.11-0.5.1-SNAPSHOT.jar -i TPCDPreparation.scala由: org.apache.spark

浏览 0提问于2020-03-28得票数 2

回答已采纳

1回答

Spark StackOverFlow上的配置单元错误

、、

我在CDH 5.10上运行Spark上的Hive。我得到了下面的错误。我已经检查了YARN、Hive和Spark的所有日志，但除了以下错误之外，没有其他有用的信息：由于阶段故障，作业已中止:阶段0.0中的任务0失败了4次，最近一次失败:阶段0.0中丢失了任务0.3 (TID4，xxx.local，执行器1)：java.lang.StackOverflowError

浏览 0提问于2017-09-08得票数 0

1回答

为什么Spark会在出现异常的情况下终止驱动程序进程？

、

我是Spark流媒体和Spark的新用户。在我的测试中，我注意到流中的一个单一错误会导致整个流媒体应用程序失败。为了更清楚，让我用一个例子来解释。如果我的代码有一个bug，并且假设所有的数据项都是整数，那么在处理流中的foo字符串时，它将抛出一个异常。在这种情况下，默认情况下，Spark engine会重试任务3次(可以在中查看spark.task.maxFailures参数)。然后，在所有不成功

浏览 0提问于2015-10-29得票数 0

1回答

资源匮乏下Kubernetes上的Spark作业无限期等待SPARK_MIN_EXECUTORS

、

我正在使用Spark 3.0.1，并在Kubernetes上进行项目spark部署，其中Kubernetes代理spark作业的集群管理器，spark使用客户端模式提交作业。如果群集没有足够的资源(CPU/内存)用于最小数量的执行器，则执行器将无限期地处于挂起状态，直到资源释放。假设集群配置为： total Memory=204Gifree memory= 4Gi<em

浏览 7提问于2021-02-05得票数 0

1回答

如何将file.deflate.gz文件加载到火花数据中？

、

当将数据加载到Spark时，它在ArrayOutofBound异常下失败。val cf = spark.read.option("header", "false").option("delimiter", "\u0001").option("codec", "deflate").csv("path/xxx.deflate.gz")错误： org.apache.spark

浏览 4提问于2017-08-17得票数 0

1回答

fail显示火花放电

、、、、

pip install Pysparkfrom pyspark.sql import SparkSessionpdf = pd.read_excel("xxxx.xlsx", sheet_name='Input (I)')df.show()：org.apache.spark.SparkException:由于

浏览 1提问于2021-11-04得票数 0

1回答

以编程方式中止整个测试集的执行？

、、

如何从脚本中中止整个测试集的执行？我有一个库，如果遇到某些情况，它得出的结论是，进一步的测试执行没有任何意义。我知道的“最难”的中止是ExitTest，但它只中止当前测试的执行，而不是整个测试集。我知道我可以将它映射到测试集中的测试依赖项，但这些依赖应该只用于建模测试之间的业务驱动依赖关系，协调并行测试执行，而不是我正在寻找的全局中止，它可以在任何时候发生，在任何测试中(即在库代码中</e

浏览 0提问于2015-11-23得票数 2

1回答

火花上下文问题

、、、

spark = SparkSession.builder.appName('QUEUEVQL').getOrCreate() dfs2 = spark.sparkContext.parallelize(dfs).toDF() resDf = spark.sql("se

浏览 4提问于2021-07-22得票数 0

1回答

如何在星火中指定作业超时？

、、、、

这项工作通常需要不到5分钟才能完成，但有时我会遇到工作卡住的问题，因为执行者丢失了，而我仍在调查中。如果执行超过指定的超时时间，如何在Spark中指定超时以使驱动程序杀死所有执行程序及其本身？

浏览 12提问于2022-10-01得票数 1

回答已采纳

1回答

如何删除包含csv数据的RDD中包含空值的条目？

、、、、

我试图将csv文件中的值映射到RDD中，但是我得到了以下错误，因为其中一些字段为null。线程“主”org.apache.spark.SparkException中的异常:由于阶段失败而中止作业:阶段0.0中的任务0失败1次，最近一次失败:阶段0.0中丢失的任务0.0 (TID 0，本地主机，执行器驱动程序)：java.lang.NumberFormatException:空字符串下面是我正在使用的代码。

浏览 1提问于2019-01-06得票数 1

回答已采纳

1回答

在超时时退出慢速星图，但保留到目前为止的结果

我正在一个Spark上映射，使用一个非常昂贵的函数(可能每行几十秒)。这可能需要太长时间，我需要中止它，以便为数据流中的其他作业让路。是否有办法在超时时尽早退出转换，但保留到目前为止计算出来的部分结果？

浏览 1提问于2018-07-06得票数 0

1回答

Hortonworks纱线故障的字数计算实例

、、、、

虽然我能够在本地模式下运行spark Java示例，但是我无法在模式下运行Java示例。下面是我用于执行的步骤：在Eclipse中，我创建了一个Java项目，在src下，主管创建了一个文件JavaWordCount，代码取自Apache附带的示例示例。-主纱-客户-num-执行器1-驱动器-内存512 m-执行器-内存512 m-执行器-核心1/家庭/火车/桌面/火花&#

浏览 1提问于2015-02-28得票数 0

点击加载更多