Spark RDD内存 - 腾讯云开发者社区

、、、

让我们从冲积内存中创建一个RDD。rdd2 = rdd1.map(...)第二个问题的原因是我需要加入两个大的<em

浏览 7提问于2016-06-09得票数 0

回答已采纳

1回答

Spark scala -获取数据集列并转换为Seq

、、、

有没有更好的方法可以不用collect来做这件事下面是我运行的代码，它可以编译，但由于内存问题而出错 ds.collect().map(x => x.name) 我是Scala的新手，因此一些人可能会认为这个问题很愚蠢

浏览 98提问于2019-06-27得票数 0

3回答

如何找到spark RDD/Dataframe大小？

、、

我知道如何在scala.But中找到文件大小如何在spark中找到RDD/dataframe大小？如何找到RDD大小？

浏览 4提问于2016-01-26得票数 45

回答已采纳

1回答

火花应用程序java.lang.OutOfMemoryError:直接缓冲存储器

、、

org.apache.spark.shuffle.FetchFailedException: java.lang.OutOfMemoryError:直接缓冲内存，在org.apache.spark.storage.ShuffleBlockFetcherIterator.throwFetchFailedException)( org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:297) at org.apa

浏览 1提问于2016-01-21得票数 3

1回答

为什么火花会因FetchFailed错误而失败？

、、、

org.apache.spark.rdd.RDD.iterator(RDD.scala:270) at org.apache.spark.rdd.MapPartitio

浏览 2提问于2016-03-10得票数 2

2回答

在Spark中获取错误: Executor丢失

、、

/spark-submit --master yarn --deploy-mode client --executor-memory 10g <path/to/.py file>rdd= sc.textFile("<path/to/file>")header_rdd = rdd.map(lambda l: h in l) data_rdd =

浏览 0提问于2015-10-12得票数 2

1回答

Apache Spark Java设置内存大小

、、、

我正在尝试在客户端节点中运行Spark Job (通过Intellj构建和运行)。由于某些原因，我无法在Spark会话中设置目录内存(似乎在客户端模式下，内存是在JVM启动之前分配的)。我的虚拟机有20G的RAM，但当内存达到5G时，Spark作业就被终止了，这大致是分配给驱动程序的默认内存大小。有一些解决方案建议通过spark-submit运行作业。我对在intellj中运行Java Spark和正确设置驱动程序内存</em

浏览 28提问于2020-05-09得票数 0

1回答

记忆计算中的火花

、

如果Spark计算内存中的所有RDD操作，那么在内存中持久化RDD有什么区别？

浏览 1提问于2016-11-14得票数 2

回答已采纳

1回答

退出代码为143的非零出口容器

、、、、

该环境使用了pyflem2.1.0，Java 7，并且有足够的内存和内核。由于json文件不是可以使用spark.read.json()直接读取的格式，因此应用程序的第一步是将json作为文本文件读入rdd，并将flatMap应用于所需的格式，然后使用spark.read.json(rdd)创建数据以供进一步处理，代码如下 raw_rdd = spark<

浏览 0提问于2020-04-03得票数 0

2回答

清除Spark节点上持久存在的RDD数据

、、

在任务失败的情况下，当尝试从头开始任务时，spark是否清除持久RDD (StorageLevel.MEMORY_ONLY_SER)并重新计算它们。或者将附加缓存的RDD。我在持久化RDD的任何任务失败的情况下看到重复的记录。任何帮助都将不胜感激。

浏览 5提问于2017-03-21得票数 1

1回答

阿帕奇星火GraphX java.lang.ArrayIndexOutOfBoundsException

、、、、

我试着理解如何使用Spark，但总是有一些问题，所以也许有人可以建议我读什么等等。我试着阅读火花文档和学习火花-O‘’Reilly媒体书，但找不到任何解释，我们需要多少内存来处理不同大小的网络等等。(每1台机器有1台工人，每台机器有4Gb内存)：at org.apache.spark.rdd.RDD$$anonfun$15.apply(RDD.scala:631) at org.apache.spark.rdd.

浏览 1提问于2015-05-04得票数 0

1回答

Apache Spark中的惰性评估

、

我正在尝试理解Apache spark中的延迟计算。我的理解是：步骤：3)然后我在RDD2上应用过滤器并创建RDD3 (仍然没有数据加载到内存中，RDD3也是一个数据

浏览 2提问于2018-03-04得票数 1

2回答

我在星火1.5.2 (每隔20小时可再生)上有一个"GC开销上限超过“。

、、

我在Spark1.5.2(每20小时可复制一次)上有一个"GC开销上限“，我的代码中没有内存泄漏。会不会是斯派克的错？因为Spark1.6.0，他们改变了内存管理，它能解决这个问题吗？(CacheManager.scala:78) at org.apache.spark.rdd.Union

浏览 2提问于2016-09-06得票数 0

回答已采纳

1回答

Spark -如何将持久化数据从磁盘移动到缓存？

在进行即席数据分析时，我遇到了一个非常简单但令人沮丧的模式：您将rdd1缓存在内存中，然后将rdd2缓存在内存中，由于内存限制，这会将rdd1逐出到磁盘。如果你要取消持久化rdd2，有没有什么办法让spark把rdd1移回内存呢？

浏览 0提问于2020-04-10得票数 0

1回答

我的本地火星雨少了什么？

、

在驱动程序上列出text.TextRelation 16/12/29 11:55:36 INFO storage.MemoryStore:块broadcast_2存储在内存中(估计大小为61.8 KB，空闲78.0 KB) 16/12/29 11:55:36 INFO storage.MemoryStore:块broadcast_2_piece0存储为内存中的字节(估计大小为:块broadcast_3存储为内存中的值(估计大小为212.1 KB，空闲309.7

浏览 5提问于2016-12-29得票数 1

2回答

火花启动比指定更多的执行器

、、、、

我正在运行Spark1.5.1在独立(客户端)模式下使用Pyspark。我正在尝试启动一个内存似乎很重的作业(也就是说，在python中，这不应该是executor-memory设置的一部分)。然而，两个执行程序被启动，每个有30g的内存和40个核心。为什么火花会这么做？我试图限制内核的数量，以使每个内核有更多的内存，我如何执行这一点呢？现在，我的应用程序因为占用太多内存而被淘汰。(RDD.scala:297) at org.apache.spark.Cache

浏览 1提问于2016-08-28得票数 2

1回答

星火如何利用每台机器中的多核并行性？

、

当我使用SPARK_WORKER_CORES = 16运行程序时，我遇到了OOM崩溃。我再次尝试使用SPARK_WORKER_CORES = 4，程序成功地完成了。当然，通过数据并行来开发多线程需要更大的内存，但我不知道我的Spark程序中的哪个功能是由多线程并行化的。所以我不知道哪个部门负责OOM。我控制RDD分区的数量(并行度)，通过考虑机器的总数和每个工作者的内存量(每台机器)，以便数据的每个RDD分区都能容纳在内存中。在对RDD</em

浏览 2提问于2017-01-23得票数 0

回答已采纳

2回答

缓存RDD后的“采取”操作只会导致2%的缓存

、

scala> rddscala> rdd.persist()在此之后，完成后，我将检查Spark<

浏览 4提问于2015-07-20得票数 3

1回答

在apache spark中，RDD缓存逐出的LRU策略是如何工作的？

、、

(1) Spark如何决定为RDD驱逐哪些分区？ (2) LRU和RDD StorageLevel之间的关系是什么？(3)如果数据源大小很大(大于所有executor内存之和)，spark如何加载数据并创建RDD？它与LRU有关吗？我创建这个问题的目的是为了获得一些关于RDD LRU驱逐的细节，StorageLevel。

浏览 0提问于2017-09-06得票数 1

1回答

Spark中的迭代缓存与检查点

、、

我在Spark上运行了一个迭代应用程序，我将其简化为以下代码： anRDD = anRDD.zipWithIndex.filter(t => t._2 % 2 == 1).map(_._1).cache() //(s"Iteration: $iteration, Values: $c

浏览 1提问于2019-07-30得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

RDD在RDD中的内存使用

Spark scala -获取数据集列并转换为Seq

如何找到spark RDD/Dataframe大小？

火花应用程序java.lang.OutOfMemoryError:直接缓冲存储器

为什么火花会因FetchFailed错误而失败？

在Spark中获取错误: Executor丢失

Apache Spark Java设置内存大小

记忆计算中的火花

退出代码为143的非零出口容器

清除Spark节点上持久存在的RDD数据

阿帕奇星火GraphX java.lang.ArrayIndexOutOfBoundsException

Apache Spark中的惰性评估

我在星火1.5.2 (每隔20小时可再生)上有一个"GC开销上限超过“。

Spark -如何将持久化数据从磁盘移动到缓存？

我的本地火星雨少了什么？

火花启动比指定更多的执行器

星火如何利用每台机器中的多核并行性？

缓存RDD后的“采取”操作只会导致2%的缓存

在apache spark中，RDD缓存逐出的LRU策略是如何工作的？

Spark中的迭代缓存与检查点

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐