executor失败后，Spark无法在HDFS中找到检查点数据 - 腾讯云开发者社区

、

. context.start()在其中，我的上下文使用一个配置文件，在该文件中，我可以使用像appConf.getString所以我实际上用： appConf.getString("spark.checkpointDirectory如果我停止应用程序并更改应用程序文件中的配置，除非我删除检查点目录内容，否则不会获取这

浏览 7提问于2016-04-25得票数 3

回答已采纳

1回答

如何使用结构化流检查点管理HDFS内存

、、

我需要了解如何在HDFS中管理/清理检查点。作业运行良好，我能够从失败的步骤中恢复，而不会丢失数据，但是，我可以看到HDFS利用率每天都在增加。我找不到任何关于Spark如何管理/清理检查点的文档。以前，检查点存储在s3上，但由于要读/写大量的小文件，这被证明是非常昂贵的。:///path_to_checkpoints") \

浏览 34提问于2019-01-07得票数 2

回答已采纳

1回答

我试图测试下面的程序，以获得检查点和读取如果从检查点位置，如果应用程序失败，因为任何原因，如资源不可用。当我杀死作业并重新触发它时，执行就会从头开始。不知道还需要什么才能做到这一点。谢谢!！._import org.apache.spark.sql.functions._ import org.apache.spark.SparkContextimport org.apache.spark</em

浏览 5提问于2020-06-05得票数 5

回答已采纳

2回答

在spark* submit中将hdfs路径作为环境变量传递*

、、、

我正在尝试使用spark submit在yarn集群上运行我的spark程序，我正在读取一个放在hdfs中的外部配置文件，我正在运行作业- ./spark-submit --class com.sample.samplepack.AnalyticsBatch --master yarn-cluster --num-executors 3 --driver-memory 512m --executor-memory 512m --executor-cores 1

浏览 2提问于2015-04-15得票数 1

1回答

在磁盘上保留RDD的情况下，Spark如何从executor丢失中恢复

、

有时，executors会迷失方向，spark (1.6)会因为错失源数据而发疯。在这种情况下，persist(磁盘)似乎可以帮助我。但我想知道，由于persist on disk使用非dfs位置来存储数据，远程执行器如何读取数据？或者，在YARN可以将执行器调度到特定节点之前，计算会停滞吗？也许我使用了错误的机制，rdd.checkpoint(hdfs://)在这里更合适？

浏览 2提问于2017-03-20得票数 1

2回答

压缩批次9时IllegalStateException：_spark_metadata/0不存在

、、、

我们有使用Spark Structured实现的流应用程序，它试图从Kafka主题读取数据并将其写入HDFS位置。有时应用程序会失败，并出现异常：java.lang.IllegalStateException: 10) 我们无法解决此问题。我找到的唯一解决方案是删除检查点位置文件，这将使作业在我们再次运行应用程序时从头

浏览 0提问于2019-05-31得票数 6

2回答

度量系统不识别应用程序jar中的自定义源/水槽

、

尽管我的自定义源/接收器在我的代码/胖jar中，但我在CustomSink上得到了CustomSink。 spark.executor.extraClassPath =hdfs

浏览 2提问于2016-09-29得票数 1

1回答

不存在结构化流增量文件。

、

我正在运行scapk2.2.1结构化流，程序在一段时间后失败，因为文件不存在，我在中找到了这个，但是它不适用于me.And，所以我认为问题可能是检查点，我将代码更改为 Dataset<Row4730 bytes)19/01/24 10:50:22 WARN TaskSetManager: Lost task 4.0 in stage 13.0 (TID 976, 34.55.0.164, executorat org.apache.

浏览 1提问于2019-01-28得票数 4

3回答

未能提交本地jar以激发集群: java.nio.file.NoSuchFileException

、、、

~/spark/spark-2.1.1-bin-hadoop2.7/bin$ ./spark-submit --master spark://192.168.42.80:32141 --deploy-mode cluster file:///home/me/workspace/myprojUsing Spark's default log4j profile: org/

浏览 4提问于2017-06-20得票数 6

4回答

Kafka结构化流检查点

、、

我计划在HDFS中存储检查点。我读了一篇Cloudera博客，建议不要在HDFS中为Spark streaming存储检查点。结构流检查点也存在同样的问题吗？。在结构化流中，如果我的spark程序停机了一段时间，我如何从检查点目录中获取最新的偏移量，并在该偏移量之后加载数据。我将检查点存储在一个目录中，如下所示。option("checkpointLocation&quo

浏览 3提问于2017-10-07得票数 4

1回答

由于新名称文件已存在，结构化流式kafka驱动程序重新启动失败，并出现HDFS文件重命名错误

、、

我们正在使用Spark 2.1中的结构化流式处理测试重新启动和故障转移。“无法将/user/spark/checkpoints/Structur

浏览 31提问于2017-02-04得票数 0

1回答

第一次运行后不能更改火花执行器的核心数目。

我使用Spark2.1.0，在我的星火流应用程序中我注意到了奇怪的行为。在第一次运行时，我不能更改执行程序的核心数目。应用程序在星火独立群集上运行。spark.metrics.conf=/usr/lib/spark/conf/metrics_analytics.properties --class com.MyApp hdfs:///apps/app.jar--driver-mem

浏览 3提问于2017-08-08得票数 2

1回答

我们正在使用spark hdfs检查点

、、、

我们使用Spark 2.4.3进行流处理。这是在AWS EMR上。电子病历中存在集群故障的可能性，因此我们决定定期将数据备份到S3。参考：User class threw exception: java.net.NoRouteToHostException我们在文本编辑器中打开了检查点文件。我们可以在那里找到存在的IP地址。有没有办法让我们避免这种情况？

浏览 0提问于2020-06-19得票数 0

1回答

从Kafka回放偏移Spark结构化流

、、、

我正在使用spark structured streaming (2.2.1)来消费来自Kafka (0.10)的主题。) .option("startingOffset", "earliest")我的检查点位置是在外部HDFS目录上设置的。在某些情况下，我希望重新启动流应用程序并从头开始使用数据。然而，即使我从HDFS<

浏览 1提问于2018-04-18得票数 0

1回答

火花-提交：--罐子不起作用

、

我正在为火花流作业构建度量系统，在系统中，每个执行者收集度量，因此需要在每个执行器中初始化度量源(用于收集度量的类)。PS:我尝试使用HDFS (将jar复制到HDFS，然后提交作业并让executor从HDFS的路径加载类)，但失败了。我检查了源代码，似乎类加载器只能解析本地路径。下面是日志，您可以看到jar在2016-01-15 18:08:07被添加到类路径，但是初始化从2016-01-15 18:07:26开始。信息2016-01-15 18:08:07 org

浏览 4提问于2016-01-15得票数 5

2回答

无法使用spark-sftp api将数据帧写入目标sftp服务器

、、

我正在尝试执行sftp，并将数据帧从spark-cluster写入到目标sftp服务器。代码在spark-shell中运行良好，但当我使用scala代码部署我的jar时，它会失败，并显示以下错误： *Caused by: org.apache.hadoop.security.AccessControlException: Permission denied: user=abcuser, access=WRITE, inode="/":hdfs:supergr

浏览 14提问于2019-09-04得票数 2

1回答

java.net.UnknownHostException: hdfs在DCOS集群上的星火提交失败

、、、、

我在DCOS集群上以集群/rest模式运行一个spark-submit： $ .,http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/core-site.xml --conf spark.mesos.executor.docker.image://hdfs/history --conf spark.ex

浏览 1提问于2018-11-14得票数 0

1回答

火花结构化流检查点在生产中的使用

、、、、

当使用Spark结构化流时，我难以理解检查点是如何工作的。我在HDFS中创建了一个目录来存储检查点文件。spark

浏览 7提问于2020-07-08得票数 3

1回答

删除spark-structured-streaming写入的损坏拼接文件时会丢失数据吗？

、、、

我使用spark-structured-streaming作为消费者从kafka获取数据，按照指南参考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html然后将数据保存到hdfs作为拼图文件。这是我的问题:程序运行良好，但一些容器很少失败(但它确实发生了)，导致了一些损坏的拼接文件。它将导致错误，如不是拼图文件(长度太小: 4)或[

浏览 20提问于2019-05-25得票数 0

2回答

丝上的星火是如何处理文件的？

我正在使用Yarn在Spark中执行一个过滤器，并接收以下错误。任何帮助都很感激，但我的主要问题是为什么找不到文件。-aa00/05/merged_shuffle_1_343_1我可以配置存储混叠数据的位置吗？:99) at org.apache.spark.scheduler.Ta

浏览 3提问于2015-07-08得票数 10

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

带检查点火花流的中流转换配置

如何使用结构化流检查点管理HDFS内存

如何在Scala中读取检查点数据

在spark* submit中将hdfs路径作为环境变量传递*

在磁盘上保留RDD的情况下，Spark如何从executor丢失中恢复

压缩批次9时IllegalStateException：_spark_metadata/0不存在

度量系统不识别应用程序jar中的自定义源/水槽

不存在结构化流增量文件。

未能提交本地jar以激发集群: java.nio.file.NoSuchFileException

Kafka结构化流检查点

由于新名称文件已存在，结构化流式kafka驱动程序重新启动失败，并出现HDFS文件重命名错误

第一次运行后不能更改火花执行器的核心数目。

我们正在使用spark hdfs检查点

从Kafka回放偏移Spark结构化流

火花-提交：--罐子不起作用

无法使用spark-sftp api将数据帧写入目标sftp服务器

java.net.UnknownHostException: hdfs在DCOS集群上的星火提交失败

火花结构化流检查点在生产中的使用

删除spark-structured-streaming写入的损坏拼接文件时会丢失数据吗？

丝上的星火是如何处理文件的？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐