Spark分区数据多个文件

文章/答案/技术大牛

发布

2回答

配置单元分区表上的spark行为

、、

我使用Spark 2。我们将hive表划分为2000个分区，并以拼接格式存储。当在spark中使用这个表时，在executors中恰好有2000个任务被执行。但是我们有一个256MB的块大小，我们期望(总大小/ 256 )分区的数量肯定会比2000小得多。spark是否有任何内部逻辑使用数据的物理结构来创建分区。任何参考/帮助都将不胜感激。更新

浏览 1提问于2018-04-05得票数 2

1回答

我已经设置了一个包含4个worker(每个有4个核心)和1个master的spark独立集群。每台都有Windows10操作系统。我向我们的spark独立集群提交了spark的ML示例: multilayer_perceptron_classification.py。但它是将所有任务都交给一个执行者在一个worker上执行。enter image description here 火花代码是(代码使用multilayer_perceptron_classification.py MLlib)： spark = SparkS

浏览 33提问于2019-02-26得票数 0

回答已采纳

1回答

ADLS中的parquet文件的分区数是否与将其作为dataframe读取后的分区数相同？

、、

我在ADLS中有3个拼花文件 2块文件有10个子块文件，当我在数据库中读取它时，分区的数量等于10个，这是预期的行为。第三个文件有172个 snappy.parquet文件，当我将它作为一个数据文件读取时，分区的数量等于89，原因是什么？使用此命令df.rdd.getNumPartitions()查找数据格式的分区数。

浏览 1提问于2022-07-17得票数 1

回答已采纳

1回答

从S3读取分区数据-分区是如何发生的？

、

当我使用Spark从S3读取多个文件时(例如一个包含多个Parquet文件的目录)-此外，分区是否默认为用于写的分区(即每个文件=1个分区)？

浏览 0提问于2018-11-11得票数 5

回答已采纳

2回答

Dataproc未使用pyspark并行处理大数据

、、

我开发了一个pyspark代码，它从GCS读取一个csv文件。csv文件的大小约为30G。df_raw = ( .read .option('header', 'true')pyspark gs://<my-gcs-bucket>/<my-program>.py \ --region=${

浏览 4提问于2021-05-03得票数 0

1回答

火花内存调优

、、、

我读到的关于这方面的所有文档都是从集群端(https://spoddutur.github.io/spark-notes/distribution_of_executors_cores_and_memory_for_spark_application.html但是我想知道我们如何调整这些与特定输入文件相关的参数。例如:我不想在同一个集群中对1 GB使用相同的参数，而对250 Gb使用相同的参数。

浏览 19提问于2021-11-21得票数 0

2回答

蜂箱分区、火花分区和加入火花-它们之间的关系

、、、

试图理解Hive分区是如何与Spark分区相关联的，最后提出了一个关于联接的问题。问题1:val table1 = spark.table("table1").as[Table1Row]那么，生成的数据集将分别有多少个分区？map(row1 => ((row1.date, ro

浏览 4提问于2018-04-25得票数 5

3回答

将大文本文件导入Spark

、、

我有一个以竖线分隔的文本文件，大小为360 is，压缩(gzip)。该文件位于S3存储桶中。这是我第一次使用Spark。我知道，您可以对文件进行分区，以便允许多个工作节点对数据进行操作，这会带来巨大的性能提升。但是，我正在尝试找到一种有效的方法来将我的一个360‘m的文件转换为分区文件。有没有办法使用多个spark worker节点来处理我的一个压缩文件，以便对其

浏览 1提问于2017-10-25得票数 4

1回答

马赛克决策Azure BLOB编写器节点创建多个文件

我正在使用马赛克决策数据流功能从Azure blob读取文件，执行一些转换，然后将该数据写回Azure。它工作得很好，除了在我给出的输出文件路径中，它创建了一个文件夹，我可以看到许多文件的名称中有一些奇怪的“part-000”等。我需要的是输出位置中的一个文件--不是很多。

浏览 15提问于2020-06-18得票数 2

回答已采纳

1回答

如果有在加载阶段拥有'maxRecordsPerFile‘的好方法，就会产生火花

、、

我已经按存储在s3上的空间列(四键)数据进行了分区。假设将150个分区中的5000个文件加载到我的spark应用程序中时，我希望将数据分解为15,000个分区，但我希望保留已存在的分区。例如，通常我现在每个分区有200mb，所以我想将这些分区分解到50mb，对于已经少于50mb的分区，我希望保持原样。当然，这方面有很多工作要做，但可能会有一些优雅的解决方案，比如Spark在保存阶段

浏览 48提问于2020-03-25得票数 1

3回答

如何以压缩的csv或拼花文件(类似的to.gz格式)有效地上传pyspark

、、、

我在S3中有130个GB的S3文件，它使用从redshift到S3的并行卸载加载。因为它包含多个文件，所以我想减少文件的数量，这样我的ML模型(使用sklearn)就更容易阅读了。我已经设法使用: S3将多个数据从spark_df转换为火花数据格式(称为spark_df)。 spark_df1包含100多个列(特性)，是我对数百万客户ID的时间序列推断数据。因为它是时间序列

浏览 8提问于2022-05-14得票数 0

回答已采纳

1回答

在保存到分区拼花文件时实现并发性

、、

当使用dataframe向parquet写入partitionBy时：我期望所编写的每个分区都由一个单独的任务独立完成一个工作人员正在循环遍历每个分区并依次写出.parquet文件。为什么会出现这种情况--在这个spark.write.parquet操作中是否存在强制并发的方法？

浏览 0提问于2018-06-26得票数 5

回答已采纳

2回答

为什么火花创建的分区少于从S3读取的文件数量

、

我的工作是把5.000个小的拼花文件读入s3。当我执行一个mapPartitions和一个collect之后，只使用278任务(我希望使用5000)。为什么？

浏览 2提问于2018-11-06得票数 0

1回答

、

我有5个表存储为CSV文件(A.csv，B.csv，C.csv，D.csv，E.csv)。每个文件都按日期进行分区。如果我有如下的文件夹结构：A/ds=2017-07-02/A.csv 然后使用下面的命令将自动识别Spark 2.x中表A的分区 .option(

浏览 1提问于2017-07-29得票数 1

回答已采纳

1回答

星星之交后重新排序的蜂巢表

、、、

=209715200 第二个表名- t

浏览 1提问于2019-04-05得票数 2

1回答

读取Avro文件，一次一行。Python

、

上下文:我想把Avro文件读入Spark作为RDD。我想知道，如果我可以访问Avro数据模式，是否可以一次解析一行Avro文件。我正在使用pyspark来编写我的spark作业。我正在考虑使用sc.textfile来读入这个巨大的文件，如果我可以一次解析一行的话就可以进行并行解析。任何指向解析Avro文件的指针，一次一行，将非常感谢。

浏览 1提问于2015-12-12得票数 1

1回答

为什么Spark应用程序将包含多个csv文件的DataFrame保存到S3存储桶

、、、

嗨，我是Spark和Amazon EMR集群的新手。我试图编写一个可以在Amazon EMR集群上运行的演示spark应用程序。当代码在Zeppelin notebook上运行时，它会返回输出，我认为输出会保存为Amazon EMR集群上的单个文件，如下所示： %pyspark spark.conf.set('spark.sql.repl.eagerEval.enabled应用程序时，它将多个CSV文件保存到S3存储桶中。我想知道为什么我的Spark

浏览 31提问于2021-04-16得票数 0

回答已采纳

2回答

如何存储500 of /1TB数据的文件

、

我是新来的火花，我读到火花储存的数据在内存中。它会把数据存储在磁盘中吗？提前感谢

浏览 3提问于2017-01-02得票数 1

回答已采纳

1回答

吡火花中列上的重新分区是如何影响分区数量的？

、、、、

我有一张有一百万张记录的数据。.| domain1 | 如果我执行df.repartition("domain")，如果一个分区不能容纳特定域密钥的所有数据，应用程序会失败还是会根据数据自动创建适合的分区？假设在上面的数据中，基于域键已经进行了重新分区，那么就会有两个分区(惟一的键是dom

浏览 1提问于2018-12-12得票数 1

回答已采纳

1回答

并行执行一个函数，在PySpark中处理庞大的XML文件

、

我有一个，它只有1列(文件名)和许多行。这些是具有size>= 1GB的XML文件的文件名。还有另一个功能如下所示。filename): <do process 1>我想同时调用dataframe文件f的所有行上的函数转换文件。

浏览 15提问于2022-08-23得票数 0

点击加载更多

配置单元分区表上的spark行为

spark如何将训练任务均匀地分配给执行者？

ADLS中的parquet文件的分区数是否与将其作为dataframe读取后的分区数相同？

从S3读取分区数据-分区是如何发生的？

Dataproc未使用pyspark并行处理大数据

火花内存调优

蜂箱分区、火花分区和加入火花-它们之间的关系

将大文本文件导入Spark

马赛克决策Azure BLOB编写器节点创建多个文件

如果有在加载阶段拥有'maxRecordsPerFile‘的好方法，就会产生火花

如何以压缩的csv或拼花文件(类似的to.gz格式)有效地上传pyspark

在保存到分区拼花文件时实现并发性

为什么火花创建的分区少于从S3读取的文件数量