对少于N个分区的N个文件的磁盘进行spark写入

文章/答案/技术大牛

发布

1回答

、

我们可以写数据到100个文件，每个文件有10个分区吗？我知道我们可以使用repartition或coalesce来减少分区数量。但我看到一些hadoop生成的avro数据的分区数量远远超过了文件数量。

浏览 11提问于2018-01-08得票数 8

回答已采纳

1回答

如何可靠地写入和恢复分区数据

我正在寻找一种方法来写入和恢复分区数据集。对于这个问题，我可以接受两个分区的RDD和Dataset[Row] / Dataframe这样做的目的是为了在恢复数据时避免混洗例如： spark.range(

浏览 0提问于2016-10-06得票数 2

1回答

Apache火花-洗牌写入的数据比输入数据的大小更多。

、

我在本地模式下使用Spark2.1，并运行这个简单的应用程序。val N = 10 << 20 sparkSession.conf.set("spark.sql.autoBroadcastJoinThresholdas k2") df1.join(df2, col("k1") === col(&

浏览 4提问于2017-05-18得票数 4

回答已采纳

1回答

在保存到分区拼花文件时实现并发性

、、

当使用dataframe向parquet写入partitionBy时：我期望所编写的每个分区都由一个单独的任务独立完成，并与分配到当前火花作业的工人数量并行。然而，实际上只有一个工人/任务运行时，一次写在地板上。一个工作人员正在循环遍历每个分区并依次写

浏览 0提问于2018-06-26得票数 5

回答已采纳

2回答

将星火数据分割成分区，并并行地将这些分区写入磁盘。

、、、

问题概要:假设我在AWS中的EMR集群上使用spark处理了300+ GB的数据。该数据有三个属性，用于在Hive中对文件系统进行分区:日期、时间和(比方说) anotherAttr。我将它们收集到驱动程序上的一个列表中，并对列表进行迭代，为每个组合构建一个新的DataFrame，使用行数来对DataFrame进行重新分

浏览 0提问于2020-05-09得票数 0

回答已采纳

1回答

Apache使用动态分区覆盖和S3委员会将Parquet文件写入到S3

、、、、

以分区Parquet文件的形式将我的星火作业的结果写入S3。除了最后一颗子弹外，我什么

浏览 33提问于2022-01-17得票数 2

6回答

火花失效:引起: org.apache.spark.shuffle.FetchFailedException:太大的框架: 5454002341

、、

我正在为确定父子表的表生成层次结构。下面是使用的配置，即使在收到与太大的帧有关的错误之后：--conf spark.yarn.executor.memoryOverhead=1024mb \import org.apache.spark.SparkContext; import org.apache.spark.sql.{DataFrame

浏览 3提问于2018-07-11得票数 8

1回答

当写入和重读到parquet文件时保留数据分区。

、

当我将带有定义分区的数据文件写入磁盘时，将其作为拼板文件，然后再次重新读取拼图文件，分区就会丢失。是否有一种方法可以在写入和重读过程中保留数据的原始分区？第二个数字在我看来也不错:我得到了100个*.parquet文件、100个*.parquet.crc文件和两个_SUCCESS文件<

浏览 0提问于2018-06-28得票数 8

回答已采纳

1回答

星星之火: DataFrameWriter必须是阻塞的步骤吗？

、、、

我已经用一个列(例如，id)对数据进行了分区，并将这个数据集保存在某个位置。不幸的是，似乎正在发生的事情是，在将任何东西写入磁盘之前，Spark将我的所有id组处理成一个大任务(自然会泄漏到磁盘)。会变得很慢。我可以列出所有分区(ids)，一个一个地加载它们，同时利用分区剪枝、重复和写入。但这似乎是多余

浏览 0提问于2018-03-26得票数 0

1回答

块火花处理文件

、、

我想处理(从csv文件中)的数据块，然后在每个分区/块中进行一些分析。我如何做到这一点，然后以并行方式处理这些多个块？我想要运行地图和减少每块

浏览 5提问于2017-02-23得票数 1

2回答

基于具有12个不同值的列进行分区后，为什么我会获得更多分区

、、、

df = spark.read.format().load(path) 注意: ColumnX有12个不同的值 print(df_partitioned.rdd.getNumPartitions

浏览 19提问于2020-08-03得票数 1

回答已采纳

2回答

在HDFS上进行spark存储和读取镶嵌

、、

我正在写这段代码spark.conf.set("spark.sql.shuffle.partitions",outputData = inputData.sort($"colname")如果我想从HDFS中读取文件"outputFile“的</em

浏览 1提问于2016-11-04得票数 3

2回答

如何修正“超级块中的坏幻数”

、、、

我尝试将所有数据从一个SSD移动到另一个SSD。旧的SSD是500 GB，新的SSD是1000 GB。首先，我创建了一个备份：然后我尝试恢复备份： gunzip -c /media/ubuntu/local/backup1.img.gz | dd of=

浏览 0提问于2022-12-11得票数 2

1回答

spark:将有序数据保存到拼图

、、、、

我有30TB的数据按日期和时间分区，每小时拆分为300个文件。我进行了一些数据转换，然后希望按排序的顺序对数据进行排序并保存，以便于C++程序接收。我知道在序列化时，只有文件中的顺序是正确的。如果我在SessionID上分区，我会有太多，所以我做了一个模N来生成N个存储桶，目标是获得大约100-200MB的1<

浏览 4提问于2019-11-16得票数 3

2回答

连接大型和巨型spark数据帧

、

我尝试过的唯一不会出错的事情是将df1分解为300,000个行块，并在一个df2循环中与foreach连接。但这花费的时间可能比它应该花费的时间长一个数量级(可能是因为它太大了，不适合作为持久化，导致它重做拆分到那个点)。重新组合结果也需要一段时间。df1是df2的一个子集。df1=df2.where("fin<1").selectExpr(&

浏览 2提问于2016-03-12得票数 8

回答已采纳

2回答

有效地让partitionBy写入与原始表相同的总分区数。

、

我被要求把它作为一个单独的问题发出来，所以这里是：据我所知，df.partitionBy(COL)将把带有COL值的所有行写入自己的文件夹，并且每个文件夹(假设行以前通过其他键分布在所有分区中)的文件数量与整个表中的大致相同如果我有一个包含500个分区的大表，并且对一些属性列使用partitionBy(COL

浏览 0提问于2018-06-09得票数 38

回答已采纳

1回答

使用加密设置对整个NVMe驱动器进行加密，会使它比跨磁盘的分区加密更努力，更快地失败吗？

我有几个非引导NVMe磁盘，其数据必须被加密。我一直在磁盘上运行cryptsetup，而不对它们进行分区，然后在devicemapper设备上创建一个文件系统。我是否应该首先对这些磁盘进行分区(在整个磁盘上使用一个大分区)并在分区上运行cryptsetup？这些磁盘将严格地作为zpool的一部分，因此我认为没

浏览 0提问于2020-10-01得票数 0

回答已采纳

1回答

文件系统也使用块存储吗？

、、、、

我对文件系统的实际内部运作感到困惑。问题是文件存储还是块存储。据我所知，不同之处在于我们访问数据的级别:文件级的文件存储和块级的块存储。我的问题是:文件存储最终是否也将文件分割成块，并将其再次存储在单个块上？因此，真正的区别在于谁负责将这些块组合成文件？如果是块存储，这是由操作系统在该块服务器上完成的，如果是文件存储，则是在<e

浏览 0提问于2021-12-13得票数 1

3回答

在Spark2.1.0中读取大文件时内存不足

、、、、

我想使用spark将一个大型(51 it ) XML文件(在外部HDD上)读入一个数据文件(使用)，执行简单的映射/过滤，重新排序，然后将它写回磁盘，作为一个CSV文件。--我想了解为什么不增加分区数，停止OOM错误在读取和写入时(初始

浏览 7提问于2017-05-05得票数 8

1回答

ec2如何向现有设备添加更多卷

、、

devtmpfs 3.8G 44K 3.8G 1% /dev/dev/nvme0n1p1MOUNTPOINT├─nvme0n1p1 259:1 0 8G 0 part /

浏览 0提问于2018-06-19得票数 0

点击加载更多