Spark作业在SPARK_LOCAL_DIRS位置填满磁盘

文章/答案/技术大牛

发布

1回答

apache-spark

spark作业在很短的时间内(< 10分钟)填满了磁盘。我有一个10 at的磁盘空间，它在SPARK_LOCAL_DIRS位置变满了。在我的例子中，SPARK_LOCAL_DIRS设置为/usr/local/spark/temp。有很多类似输入-0-1489072623600的文件，每个文件的大小在3MB-8MB之间。

浏览 18提问于2017-03-11得票数 0

1回答

未挂载到目录的k8s - emptyDir上的火花

apache-spark、kubernetes

我用相当大的数据量在Kubernetes上启动了一些Spark作业，而作业失败了，/var/ data /spark目录中没有足够的空间。正如星火文档在上说的那样 Spark使用临时划痕空间在洗牌和其他操作期间将数据泄漏到磁盘。当使用Kubernetes作为资源管理器时，将为SPARK_LOCAL_DIRS中列出的每个目录挂载一个SPARK_LOCAL_DIRS卷来创建pods。我将其

浏览 0提问于2019-02-26得票数 1

1回答

Apache storage中的临时存储

apache-spark

火花在运行火花作业时创建temp files。它是为master node中的所有工作节点创建临时文件，还是在resp工作节点上创建临时文件？临时目录的路径是什么？我们该把这条路设置在哪里？如何在运行spark作业本身时删除这些临时文件以避免此错误？将spark.worker.cleanup.enabled设置为true是否有效？

浏览 4提问于2020-06-09得票数 0

3回答

Apache未能创建临时目录

apache-spark

at org.apache.spark.util.Utils$.createDirectory(Utils.scala:285) 我还没有在spark-env.sh中配置SPARK_LOCAL_DIRS是否应该将SPARK_LOCAL_DIRS配置为每个主/工作节点中的有效目录？如果是这样的话，目录必须具有的最小磁盘空间是多少？

浏览 6提问于2017-05-08得票数 2

回答已采纳

1回答

Spark设备上没有剩余空间

apache-spark、pyspark

我有一个EMR作业，它读取大约1TB的数据，过滤它，并对其进行重新分区(重新分区后有一些连接)，但是我的作业在重新分区时失败，并出现错误"No space left on device“。我试着改变"spark.local.dir“，但它没有用。我的工作只在d2.4xlarge实例上完成，但在r3.4xlarge上失败，它有类似的核心和内存。我找不到这个问题的根本原因。

浏览 0提问于2018-07-17得票数 1

2回答

我的sparkDF.persist(DISK_ONLY)数据存储在哪里？

hadoop、apache-spark、persist

我应该在哪里指定这个位置？

浏览 1提问于2018-01-24得票数 8

回答已采纳

1回答

Spark编码为Gzip并发送到S3 - java.io.IOException:设备上没有剩余空间

scala、apache-spark、amazon-s3、gzip

发送到S3，如下所示：作业开始运行，不久之后会出现以下内容： org.apache.spark.SparkException: Job aborted due to stage failure: ... : java.io.IOException

浏览 17提问于2016-08-04得票数 1

1回答

如何配置spark溢出到磁盘的位置？

apache-spark

我在官方文档中找不到这个配置。假设我决定安装spark，或者使用spark docker镜像。我想配置“溢出到磁盘”发生的位置，这样我就可以挂载一个可以容纳它的卷。磁盘溢出的默认位置在哪里?

浏览 2提问于2020-10-14得票数 0

1回答

火花工作者/tmp目录

apache-spark

虽然我定义了spark.local.dir conf param来写/opt，但是火花工作者一直在写/tmp dir，例如/tmp/spark-e071ae1b-1970-47b2-bfec-19ca66693768，但我使用的是spark-2.1.1-bin-hadoop-2.7独立模式(由4个工作人员组成的集群，120g内存，32个核心)。

浏览 4提问于2017-11-15得票数 4

3回答

火花流作业日志大小溢出

apache-spark、spark-streaming

我在集群模式下运行星火流(2.1)作业，并在几周后遇到作业被终止(由资源管理器杀死)的问题，因为纱线容器日志导致磁盘被填满。有什么办法可以避免这种情况吗？谢谢!

浏览 0提问于2018-05-08得票数 3

回答已采纳

2回答

由于空间问题而导致火花作业失败

hadoop、apache-spark、pyspark、diskspace

我正在编写一个批次处理程序在星火使用火星雨。每个数据节点包含140 GB RAM和3.5TB磁盘空间。在每个集群节点上，我们为存在tmp目录的根(/)分区分配了100 GB。一个多月来，我一直在努力通过玩各种火花配置参数来实现这个目标。这可能会导致磁盘空间问题，我必须与我们的IT团队检查是否可以扩展根目录的大小。我估计这个作业的输出大约是4.6GB。

浏览 6提问于2017-06-21得票数 5

回答已采纳

1回答

指定用于溢出RDDs的文件系统火花用途。

apache-spark

我们在文档中找不到这一点。分析证实，它被保存在Unix文件系统中，而不是HDFS中。出现在date.和中讨论溢出行为，但spilled.文件所在的位置不是一个未回答的显示溢出UI的问题，但没有提供我们所要求的详细信息。

浏览 1提问于2019-11-19得票数 0

回答已采纳

8回答

为什么作业失败时“设备上没有空间”，而df却不这么说？

apache-spark

在执行洗牌时，我的星火作业失败了，并说“设备上没有空间”，但是当我运行df -h时，它说我还有空闲空间！为什么会发生这种事，我该怎么解决呢？

浏览 4提问于2014-09-07得票数 58

回答已采纳

1回答

星火持久化MEMOERY_AND_DISK与大子

apache-spark、in-memory、alluxio

在它下面使用带有hdfs的Tachyon，多少相当于使用MEMORY_AND_DISK持久化RDD。在这两种情况下，当数据量超过内存运行时，它们就会被撞到硬盘上。我理解jvm垃圾收集造成的性能差异。

浏览 1提问于2015-06-27得票数 1

回答已采纳

2回答

如何使用spark-env.sh文件设置SPARK_LOCAL_DIRS参数

apache-spark、sparklyr

我正在尝试更改spark写入临时文件的位置。我在网上找到的所有东西都说要通过设置spark-env.sh文件中的SPARK_LOCAL_DIRS参数来设置它，但我没有幸运地看到这些更改真正生效。我使用spark 2.2.0和R sparklyr包作为前端。worker节点使用弹性伸缩组进行旋转。在/tmp/jaytest创建了一个存放临时文件的目录。在每个worker中有一个，在spark master计算机和两个

浏览 188提问于2018-08-29得票数 6

1回答

将Spark的本地tmp文件夹放在共享目录中安全吗？

apache-spark

在我们的集群中，本地磁盘很小，而我们有一个巨大的网络挂载共享文件系统。为此目的使用共享驱动器安全吗？星火创建的tmp文件夹有唯一的ID吗？

浏览 0提问于2019-03-26得票数 1

回答已采纳

2回答

星火究竟在哪里将RDDs保存在磁盘上？

apache-spark

我在不同的存储级别上使用persist，但在使用MEMORY_ONLY和DISK_ONLY时没有发现性能上的差异。我想我的代码可能有问题.在哪里可以在磁盘上找到持久化的RDDs，以确保它们实际上是持久化的？

浏览 7提问于2015-05-05得票数 7

2回答

为什么行计数作业在火花壳中运行速度比mapreduce作业慢

apache-spark

我运行一个作业来计算一个10 job文件中的行数。下面是启动火花壳的命令和火花作业的代码。=10.8.12.16SPARK_LOCAL_DIRS=/home/appadmin/<e

浏览 3提问于2016-09-23得票数 2

回答已采纳

1回答

Spark -在主题建模上没有留下磁盘空间

apache-spark、jupyter-notebook、apache-spark-mllib、apache-spark-ml、apache-spark-2.3

我在一个64 32内存、32个内核和500 32磁盘空间的系统上运行Jupyter notebook。大约70万个文档将被建模为600个主题。词汇量为48000个单词。使用了100次迭代。spark = SparkSession.builder.appName('LDA').master("local[*]").config("spark.local.dir", "/data/Data/allYears/temp

浏览 7提问于2019-04-28得票数 1

1回答

星火临时文件不会被自动删除

apache-spark、hadoop

我拥有提交作业的星火纱客户端，当它提交作业时，它会在我的"spark.local.dir“目录下创建一个目录，其中包含如下文件：有办法可以自动清洗这些东西吗？每当我提交一个火花作业时，我都会在同一个文件夹中再次看到这些新条目。这是淹没我的目录，我应该设置什么使它自动清除？我已经看了几个在线链接，即使是这样，但找不到解决这个问题

浏览 2提问于2019-01-31得票数 0

点击加载更多