如何使用Spark加速S3上的恢复分区？

文章/答案/技术大牛

发布

1回答

、、

我正在使用EMR上的Spark3.0将一些数据写在S3上，并进行每日分区(数据可以追溯到大约5年前)，方式如下： writer.option("path", somepath).saveAsTable("my_schema.my_table") 由于有大量的分区，该进程仅“恢复分区”就花费了很长时间，因为所有任务似乎都已完成。

浏览 14提问于2021-04-30得票数 0

1回答

从S3读取分区数据-分区是如何发生的？

、

当我使用Spark从S3读取多个文件时(例如一个包含多个Parquet文件的目录)-此外，分区是否默认为用于写的分区(即每个文件=1个分区)？

浏览 0提问于2018-11-11得票数 5

回答已采纳

1回答

S3前缀中的回滚写入失败-通过Spark进行分区

、、

我们通过EMR使用Apache Spark(2.4.5)作业，它读取存储桶前缀{ S3 }/{ prefix }/*.json，执行一些数据消息，然后在覆盖模式下通过Spark作业save()将其重写回相同的我的问题是，如果Spark作业在将数据重写到S3前缀分区时失败，那么我们是否有办法以任何原子/事务方式恢复该前缀分区中的数据。spark<

浏览 11提问于2020-10-02得票数 0

5回答

spark读取S3中的分区数据部分在冰川中

、、、

我在S3的拼图中有一个按日期(dt)分区的数据集，其中最旧的日期存储在AWS Glacier中，以节省一些钱。例如，我们有..。s3://my-bucket/my-dataset/dt=2017-07-01/ [in glacier]s3://my-bucket/my-dataset/dt=2017-07-09/2017-08-24" val p

浏览 4提问于2017-08-21得票数 7

1回答

星火中的蜂箱分区和桶形支持不像预期的那样工作

、

在使用S3中的分区时，Spark逐个列出所有分区，这将消耗time.Rather &它应该在元存储表中查找分区&应该立即进入分区。我尝试以125个partitions.When为例，通过附加分区列值来计算S3的确切位置&尝试访问它，它在5sec.But中执行，如果我试图让Spark计算出分区，它将列出所有分区，这本身需要超过30秒如

浏览 1提问于2017-10-22得票数 0

回答已采纳

2回答

spark.sql.files.maxPartitionBytes不限制写入分区的最大大小

、、

我正在尝试将拼板数据从另一个s3桶复制到我的s3桶中。我希望将每个分区的大小限制为128 MB。我认为默认情况下，spark.sql.files.maxPartitionBytes应该设置为128 MB，但是当我在复制后查看s3中的分区文件时，我会看到大约226 MB的单个分区文件。我看了这篇文章，它建议我设置这个星火配置键，以限制分区的最大大小：，但它似乎不起作

浏览 54提问于2020-06-30得票数 1

1回答

在所有spark* executors和驱动程序上执行脚本或小函数，而不使用DataFrame或RDD*

、、、、

我正在尝试使用Spark Structured Streaming从Kafka topic中读取数据。Kafka Broker启用了SSL。因此，我需要将私有CA证书安装/导入到spark驱动程序和执行器上的TrustStore文件中。我不能在主spark submit命令之前使用单独的步骤导入证书，因为spark脚本是动态提交的(从s3下载)。s3中的

浏览 6提问于2020-07-12得票数 0

4回答

Spark写拼花木板到S3最后一个任务永远要用

、、

我正在编写一个从DataFrame到S3的拼图文件。当我查看Spark UI时，我可以看到除了一个快速完成的编写阶段(例如199/200)之外的所有任务。如何优化？谢谢。

浏览 3提问于2015-08-05得票数 10

1回答

使用Spark和Alluxio管理S3的文件大小

、、、

我使用Spark在Alluxio中写入数据，使用UFS作为S3，使用Hive拼接分区表。我在Alluxio中使用配置单元分区字段上的重分区函数来提高写操作的效率。这会导致在Alluxio中创建单个文件，即在S3中为分区组合创建单个对象。虽然Alluxio具有使用S3的偏移量以字节为单位读取数据

浏览 8提问于2019-07-02得票数 1

2回答

如何使用Spark* Streaming更新拼图文件？*

、、

我正在使用spark streaming来创建实时数据管道。我正在从Kafka获取实时数据，并使用Spark处理这些数据。但是当我用来自S3的新数据更新S3上现有的拼图文件时，它的性能就不好了。因为我必须从S3中获取现有的分区拼图文件，并用来自Kafka的新记录替换旧记录，然后在S3上覆盖完整的分区拼图文件。

浏览 18提问于2019-11-03得票数 0

3回答

Spark是否支持对拼图文件进行分区修剪

、、、

第二个tag_id - tag_id有200000个唯一值，我主要通过特定的partition值访问数据。如果我使用以下Spark命令：sqlContext.setConf='PLANT01' and tag_id='1000'") 我希望得到一个快速响应，因为它解析到单个分区</em

浏览 2提问于2016-05-12得票数 19

1回答

使用saveAsTable将镶嵌数据写入S3未完成

、、、、

在EC2机器上使用Spark2.0.2时，我一直在尝试将表以parquet格式写入带有分区的S3中，但应用程序似乎从未完成。我可以看到Spark已经将文件写入_temporary下的S3存储桶/文件夹，一旦Spark saveAsTable作业完成，应用程序就会挂起。查看s3可以看到，生成的分区包含文件夹分区中的数据(

浏览 7提问于2017-03-04得票数 1

1回答

Apache使用动态分区覆盖和S3委员会将Parquet文件写入到S3

、、、、

以分区Parquet文件的形式将我的星火作业的结果写入S3。确保每个作业覆盖它要写入的特定分区，以确保幂等作业。我正在运行一个pyspark应用程序，并编写到S3 (实际上是一个on 实例)，确保spark.sql.sources.partitionOverwriteMode设置为dynamic。但是，这意味着我的spark-staging文件是在S3中进行

浏览 33提问于2022-01-17得票数 2

2回答

Spark/EMR能否从s3多线程读取数据

、、、

由于一些不幸的事件序列，我们最终得到了一个存储在s3上的非常零散的数据集。表元数据存储在Glue上，数据写入bucketBy，并以拼图格式存储。因此，文件的发现不是问题，spark分区的数量等于存储桶的数量，这提供了很好的并行性。当我们在Spark/EMR上加载这个数据集时，我们最终让每个spark分区</e

浏览 2提问于2020-01-20得票数 2

2回答

在S3中将每个分区数据写入单个文件中

、

我们有这样的用例，我们希望按列值对数据帧进行分区，然后将每个分区写到单个文件中。我做了以下事情来做同样的事情： df.rdd.saveAsTextFile("s3:

浏览 1提问于2018-03-14得票数 1

1回答

pyspark在输出中写入许多较小的文件

、、

我正在使用pyspark处理一些数据，并将输出写入S3。我已经在athena中创建了一个表，它将用于查询此数据。数据采用json字符串的形式(每行一个)，spark代码读取文件，根据特定字段对其进行分区，并写入S3。 .appName("testApp")\

浏览 5提问于2019-12-16得票数 2

1回答

如何在火花/冰山中启用分区存储连接？

、、

如何使用Spark3.3.0中的存储分区连接功能？我已经尝试过了，我的查询计划仍然显示了昂贵的ColumnarToRow和Exchange步骤。我的设置如下：在a.id = b.id AND a.ts = b.ts和a.id = b.id上尝试连接表很大，使用

浏览 15提问于2022-10-03得票数 1

回答已采纳

1回答

Spark如何创建从S3读取的对象的分区？

、、、、

Spark如何创建从S3读取的对象的分区？我在S3中有一个118MB大小的对象。我将对象读入胶水动态框架。转换为spark数据帧并应用了一些转换。然后将数据写回S3。输出文件夹由大小为51MB和39MB的两个对象组成。Spark如何决定从S3读取的数据的分区方案？

浏览 1提问于2020-06-26得票数 1

1回答

spark如何在幕后读取数据？

、、

例如，我有点困惑于spark是如何从s3读取数据的。假设要从s3读取100 GB的数据，而spark集群的总内存为30 GB。spark是否会在触发操作后读取所有100 GB的数据，并将最大数量的分区存储在内存中，并将剩余的分区溢出到磁盘?还是只读取可以存储在内存中的分区，对其进行处理，然后读取其余数据？任何到

浏览 2提问于2021-09-19得票数 2

0回答

将pyspark 2.2.0数据帧分区写入S3并行化

、、、

开始使用pyspark，遇到了我用代码创建的瓶颈： g=d

浏览 4提问于2017-12-10得票数 0

点击加载更多