为什么在读取文件时增加NumPartitions会比spark RDD中的原始文件增加输入大小？

、

我正在使用sc.textFile(<fileName>, 1)读取一个带有一个分区的小文本文件，我可以看到输入大小与原始文件大小相同。但是，当分区增加到5. sc.textFile(<fileName>, 5)时，输入大小几乎是原始文件大小的3倍。我正在调用count操作来启动作业，并且

浏览 15提问于2021-04-30得票数 0

1回答

为什么在访问偏移量时，ClassCastException与重新分区的dstream一起发生流流失败？

、、

在我的星火应用程序中，我以如下方式从一个Kafka主题创建了一个DStream： .createDirectStream[String, Array[Byte], StringDecoderMessageAndMetadata[String, Array[Byte]] => (message.key(), message.message()) }之后，我使用asInstanceOf函数提交了对Kafka主题的偏移： directKafkaStream.foreachRDD { <

浏览 3提问于2017-05-30得票数 1

回答已采纳

1回答

spark java.io.IOException:磁盘空间不足

、、

我在一个8节点的spark集群上运行逻辑回归算法，每个节点有8个核心和56 GB的Ram (每个节点都运行windows系统)。并且spark安装驱动程序具有1.9 TB的容量。我在are上训练的数据集有大约4000万条记录和大约6600个特征。但在训练过程中，我总是会遇到这样的错误： Py4JJavaError: An error occurred while calling o70.trainLogisticRe

浏览 2提问于2015-03-14得票数 1

3回答

在Spark2.1.0中读取大文件时内存不足

、、、、

我想使用spark将一个大型(51 it ) XML文件(在外部HDD上)读入一个数据文件(使用)，执行简单的映射/过滤，重新排序，然后将它写回磁盘，作为一个CSV文件。--我想了解为什么不增加分区数，停止OOM错误在读取和写入时(初始值为1,604)将数据重新划分/合并为(5,

浏览 7提问于2017-05-05得票数 8

1回答

如何提高火花性能？

、、、、

我有处理大型数据集的Java程序。数据集存储在hdfs (csv)中。String[]filter字符串数组加载csv文件单独行映射到MyObject 保存MyObject到Cassandra<code>G 211</code>public", "4g"); sp

浏览 6提问于2020-05-22得票数 3

回答已采纳

2回答

Apache中的RDD分区，以便一个分区包含在一个文件上

、、、

RDD上定义自定义分区，这样一个分区必须包含一个文件。使每个分区i.e.one csv文件跨一个节点进行处理，以加快数据处理速度。我怎样才能做到这一点？3600 2.第一列为第二列，分

浏览 9提问于2016-06-08得票数 5

1回答

ShuffledRDD[' number ']后面的数字表示什么？

、、

我正在尝试从hdfs路径读取文件路径，并在上面执行一些转换，最后在上面应用一些自定义分区。{FileSystem, Path} val numPartitions = 96val rdd = fs .filter(x => x.getPath.to

浏览 1提问于2021-02-04得票数 0

回答已采纳

1回答

MapOutputTracker serializeMapStatuses内存中的火花输出错误

、

我有一个火花作业，在第0阶段有几十万个任务(300000个或更多的任务)，然后在洗牌过程中，以下异常抛到驱动端：org.apache.spark.MapOutputTrackerMaster.getSerializedMapOutputStatuses(MapOutputTracker.scala2G的INTEGER.MAX时，它就会抛出内存错误。这意味着映射状

浏览 3提问于2017-09-30得票数 0

1回答

Apache分区分发策略

哈希分区、范围分区和编写自定义分配器的能力。但是分区是如何按集群节点分布的呢？有什么办法可以影响这件事吗？

浏览 0提问于2018-05-20得票数 2

回答已采纳

1回答

为什么Spark在读取文本文件时将RDD ID增加2而不是1？

、、

在使用spark-shell时，我注意到了一些有趣的事情，我很好奇为什么会发生这种情况。我使用基本语法将一个文本文件加载到Spark中，然后简单地重复这个命令。REPL的产出如下：myreviews: org.apache.spark.rdd.RDD[St

浏览 0提问于2018-11-29得票数 0

回答已采纳

1回答

如何在重新分区后在input_file_name中获得正确的PySpark

、、、、

我正在开发一个PySpark作业，用于读取文本文件，并在AWS S3桶上编写拼图文件。我需要添加一个列到每一行，描述原始文本线的源文件。我使用的是input_file_name，但是在输出列中看不到正确的源文件名。似乎对整个任务或错误的分区使用相同的文件名。我不知道这是由我需要做的重新分区引起的，还是因为我正在S3中<

浏览 3提问于2020-03-24得票数 1

回答已采纳

2回答

spark历史服务器不显示RDD，即使它是持久化的

、

我在spark版本2.0.2中运行spark shell。这是我的程序，myrdd.setName("test")myrdd.collect但是我仍然无法在spark history服务器的"storage“选项卡中看到任何RDD信息。

浏览 20提问于2017-02-23得票数 1

回答已采纳

1回答

Spark分区的HDFS文件是如何实现的？

、

如果我们有一个未压缩的320块HDFS文件存储在一个16个数据节点集群。每个节点都有20个块，如果我们使用Spark将这个文件读取到RDD中(在创建RDD时没有显式传递numPartitions ) textFile = sc.textFile("hdfs://input/

浏览 3提问于2016-12-08得票数 2

1回答

Spark读取的numPartitions值是否取决于执行器的数量？

、

我已经在一个具有两个核心和16 up内存的单一节点上设置了Spark，以生成一些粗略的POCs。我希望使用val df = spark.read.format('jdbc')...option('numPartitions',n).load()从SQL源加载数据。当我试图通过调用一个numPartitions值来测量读取不同df.rdd.count值的表所花费的</em

浏览 0提问于2020-04-14得票数 0

回答已采纳

1回答

使用Spark* RDD处理对象的成员变量时，处理结果未保存，*

println("***TEST map size is "+map.size);} addItem()是将(K，v)加到对象的成员变量“map”中。test()是从文件中读取行(每行是(k，v)对)到RDD，然后处理每一行以将相应的(k，v)添加到"map“。当调用test()时，我们可以看到addItem()一直被成功调用，“map”的大小不断增加。但是当执行

浏览 4提问于2017-03-13得票数 0

2回答

在Spark中获取错误: Executor丢失

、、

我有一个主程序和两个从程序，每个主程序和两个从程序都运行在32 GB的RAM上，并且我正在读取一个包含大约1800万条记录的csv文件(第一行是列的标题)。./spark-submit --master yarn --deploy-mode client --executor-memory 10g <path/to/.py file>rdd然后，我修改了代码，删除了

浏览 0提问于2015-10-12得票数 2

2回答

reduceByKey的分区方面

、、

尽管RDDs是遗留下来的--而且在下一次任务之前还有一点时间--我仍在想：考虑到它的工作原理类似于Map中的combineByKey，那么真正的意义是什么？在实际情况下，我怀疑它不是经常使用的，一般情况下(根据我自己的观察)，已经重新划分了它。

浏览 3提问于2020-05-21得票数 1

2回答

在本地文件系统(非HDFS )中使用Scala读取Apache Spark中的文件时，如何更改输入块大小

、、、、

我有一个从本地文件系统读取CSV文件的程序。Spark (在本地模式下运行)实际使用实例的全部16核。所以我有16个并行运行的任务。现在，我要做的是在读取文件时调优它的性能。在检入Spark UI时，我发现每个任务读取128MB的文件作为输入大小<

浏览 5提问于2018-04-12得票数 1

1回答

退出代码为143的非零出口容器

、、、、

在这个问题上，我看到了各种各样的线索，但所给出的解决方案在我的情况下行不通。该环境使用了pyflem2.1.0，Java 7，并且有足够的内存和内核。我正在运行一个处理Json文件的星火提交作业，该作业运行良好，文件大小<200 if，但是如果超过这个值，对于退出代码为非零的容器，它会失败，然后我检查了纱线日志，错误是java.lang.OutOfMemoryError:所请求的数组

浏览 0提问于2020-04-03得票数 0

2回答

调优火花、设置执行器和内存驱动程序以读取大型csv文件

、、、、

我想知道如何选择最佳的设置运行调我火花工作。基本上，我只是将一个大的csv文件读取到一个DataFrame中，并计数一些字符串出现的情况。TotalNumberOfTasks: (18500)，为什么这是固定的？这是什么

浏览 4提问于2017-12-05得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么在访问偏移量时，ClassCastException与重新分区的dstream一起发生流流失败？

spark java.io.IOException:磁盘空间不足

在Spark2.1.0中读取大文件时内存不足

如何提高火花性能？

Apache中的RDD分区，以便一个分区包含在一个文件上

ShuffledRDD[' number ']后面的数字表示什么？

MapOutputTracker serializeMapStatuses内存中的火花输出错误

Apache分区分发策略

为什么Spark在读取文本文件时将RDD ID增加2而不是1？

如何在重新分区后在input_file_name中获得正确的PySpark

spark历史服务器不显示RDD，即使它是持久化的

Spark分区的HDFS文件是如何实现的？

Spark读取的numPartitions值是否取决于执行器的数量？

使用Spark* RDD处理对象的成员变量时，处理结果未保存，*

在Spark中获取错误: Executor丢失

reduceByKey的分区方面

在本地文件系统(非HDFS )中使用Scala读取Apache Spark中的文件时，如何更改输入块大小

退出代码为143的非零出口容器

调优火花、设置执行器和内存驱动程序以读取大型csv文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐