重新分区和spark.sql.shuffle.partition中的火花差异

、、、

我正在和--conf spark.sql.shuffle.partitions=100一起运行一个spark程序在应用程序内部，我有以下内容 Dataset<Row> df_partitioned我的问题是，这是将数据划分为500万个分区还是100个分区，每个用户的执行工作是如何进行的。

浏览 19提问于2019-04-05得票数 1

1回答

如何-分散作业，以免耗尽内存

、、、、

我试图运行一些火花作业，但通常执行者会耗尽内存：>>> sqlContext.getConf("spark.sql.shuffle.partitions")

浏览 9提问于2017-02-06得票数 2

回答已采纳

2回答

排序后的数据分区的数目？

、

如何在使用orderBy后确定分区的数量？我一直认为生成的数据true具有spark.sql.shuffle.partitions，但这似乎不正确：在这两种情况下，spark都执行+- Exchange rangepartitioning(i/n ASC NULLS FIRST, 200)操作，那么在第二种情况下，如何将得到

浏览 1提问于2018-12-14得票数 5

回答已采纳

1回答

基于cassandra表分区键的火花数据保持

、、

从Cassandra表加载数据时，火花分区表示具有相同分区键的所有行。但是，当我使用相同的分区键在spark中创建数据并使用.repartitionByCassandraReplica(.)重新划分新的RDD时方法，它最终会在一个不同的火花分区中结束？如何使用连接器定义的分区方案来实现火花中的

浏览 4提问于2015-11-24得票数 1

回答已采纳

1回答

火花再划分

、、、

什么是需要重新划分数据。如何确定火花中的重新分区大小。DF.repartition(num)

浏览 1提问于2020-05-05得票数 0

回答已采纳

1回答

星火结构流生产者是使用卡夫卡默认分区之间的星火分区还是仅在分区内？

、、、

如果我们有相同密钥的记录在不同的火花分区中，那么Kafka分区(使用默认的卡夫卡分区按键)是否会被火花卡夫卡作者正确地发送分区呢？例如，在写到Kafka之前，我们有这样的火花分区：| ------- | ----------------- || key1

浏览 7提问于2022-06-21得票数 -1

1回答

mapreduce与火花分析的区别

、、、

我想问一下，在使用Hadoop/MapReduce和Spark时，在数据分区方面有什么显著的区别吗？它们都在HDFS(TextInputFormat)上工作，所以理论上应该是相同的。是否有数据分区过程可能不同的情况？任何见解都会对我的学习很有帮助。谢谢

浏览 4提问于2016-09-23得票数 8

回答已采纳

1回答

如何确保每个火花DataFrame分区不超过给定的数据大小(MB)

在一次火花数据访问操作中，我发现每个任务的输入大小(MB)都有很大的差异。一些任务的大小几乎为1GB，而另一些任务的大小为15 1GB。较高的输入大小将导致执行器丢失。但是我想知道，有什么方法可以重新划分DataFrame，使每个分区的大小不超过给定的大小(MB)。

浏览 4提问于2016-03-26得票数 0

1回答

如何在重新分区和合并中确定RDD的preferredLocation？

、

RDD什么时候得到它的首选位置？如何确定首选位置？我在重新分区和合并中看到了一些奇怪的行为，我无法理解: 1.当从n到n-1分区合并时，我看到火花只是将一个分区合并到另一个分区。(我认为理想的行为应该是均匀分布在所有的n-1节点上) 上述行为与preferedLoc

浏览 0提问于2016-12-06得票数 0

2回答

每个分区中对象数的火花合并

我们开始在我们的团队中尝试火花。在我们减少工作在火花，我们想写结果到S3，但我们想避免收集火花的结果。目前，我们正在将这些文件写入RDD的Spark，但是这导致了大量的小文件。我们希望能够将数据聚合到由写入文件的对象数量所划分的几个文件中。例如，我们的总数据是1M对象(这是常数)，我们希望生成400K对象文件，而我们当前的分区产生大约20k<em

浏览 2提问于2018-12-18得票数 1

回答已采纳

2回答

} ssc.awaitTermination(); } 当我同时运行两个火花流作业时线程"main“中的异常:在org.apache.kafka.clients.consumer.internals.SubscriptionState.assignedState(SubscriptionState.javaorg.apache.spark.streaming.kafka010.DirectKafkaInputDStream.lat

浏览 0提问于2018-05-27得票数 2

回答已采纳

1回答

洗牌分区与再分区的区别

、

我是一个新手，在火花，我试图了解洗牌，分区和重新划分功能。但我还是不明白他们有什么不同。两者都减少了分区的数量？？谢谢

浏览 7提问于2022-06-09得票数 0

1回答

如何计算repartitionByCassandraReplica.JoinWIthCassandraTable()和DirectJoin=AlwaysOn的输入大小？

、、

我知道这两种方法在确定火花分区时遵循不同的策略：对于DirectJoin，我在输入列中得到了36.9Gb大小，它需要4.5分钟来进行连接和计数。问题1 对于这两种连接策略中的每一种，阶段选项卡的输入列是如何计算

浏览 6提问于2022-09-26得票数 0

回答已采纳

1回答

是否在HDFS集群上重新分配数据？

、、

我正在阅读Hadoop和Spark文档，以了解spark如何在Hadoop集群上工作。根据Hadoop文档，Hadoop集群是一组具有计算和数据存储能力的通用硬件，它们还假定“移动计算比移动数据便宜”。现在，当我处理一个大文件，它是存储在HDFS上使用火花。Spark是否会随机地将文件中的数据重新分发到Hadoop集群，或者它知道存储数据分区的节点将要求各自的节点处理其数据？我提出了这个问题，因为没有提到火花如何处

浏览 11提问于2022-09-13得票数 1

回答已采纳

1回答

数据集预测是否受益于数据集分区？

我们希望使用来加快过滤和连接到一个具有数千个小(kb大小)文件的大增量数据集上。是否建议将主数据集( transforms.api.IncrementalTransformOutput.write_dataframe()与partitionBy=[col1, col2,...])进行分区，以减少文件数量，或者这是否是多余的工作，因为它无论如何都是由预测完成的？如果建议优化主要数据集，是否有关于何时进行这一工作的指导方针？

浏览 3提问于2022-09-07得票数 1

1回答

需要帮助理解火花放电在纱线上的执行

、、

在Hadoop集群上，我已经有了一些纱线结构的图片，以及火花architecture.But，当我试图理解它们时(这就是当spark作业以主身份运行在纱线上时所发生的情况)，我正在进入一些confusions.So根据我的理解，一旦我提交了关于纱线的火花作业，应用程序管理员接管

浏览 0提问于2018-11-03得票数 1

1回答

蜂窝分区到火花分区

、

出于效率的原因，我们需要处理一个大的数据集。数据源驻留在Hive中，但具有不同的分区条件。换句话说，我们需要从蜂巢检索数据到火花，并在星火中重新分区。但是在Spark中有一个，当数据被持久化时，它会导致重新排序/重新分配分区(无论是对parquet还是ORC)。因此，我们在星火中的新分区丢失了。作为一种选择，我们正在考虑在一个新的Hiv

浏览 0提问于2018-07-30得票数 0

1回答

当从cassandra源读取数据时，spark中的重新分区会改变spark分区的数量吗？

、、

我正在从spark的cassandra表中读取一张表。我在cassandra中有很大的分区，当cassandra的分区大小超过64MB时，在这种情况下，cassandra分区将等于spark分区。由于分区太大，我在spark中遇到了内存问题。我的问题是，如果我在从cassandra读取数据后开始重新分区，spark分区的数量会

浏览 48提问于2021-06-07得票数 1

2回答

星火流和卡夫卡:一个集群还是几个独立的盒子？

、、

我有一个Kafka主题(我可以将它分成几个主题)，每分钟排队几十万条消息，我的星火流应用程序通过应用转换获取消息，然后更新UI。知道在Kafka中处理了所有故障并复制了数据，为实现尽可能好的性能和健壮性，实现星火流应用程序的最佳选择是什么：我很想选择第二种选择

浏览 4提问于2016-01-04得票数 1

1回答

火花LuceneRDD -它是如何工作的

、、、、

有一个官方的例子val luceneRDD请回答以下问题：我可以为luceneRDD设置分区数吗？

浏览 4提问于2017-05-31得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何-分散作业，以免耗尽内存

排序后的数据分区的数目？

基于cassandra表分区键的火花数据保持

火花再划分

星火结构流生产者是使用卡夫卡默认分区之间的星火分区还是仅在分区内？

mapreduce与火花分析的区别

如何确保每个火花DataFrame分区不超过给定的数据大小(MB)

如何在重新分区和合并中确定RDD的preferredLocation？

每个分区中对象数的火花合并

2具有相同消费群id的火花流作业

洗牌分区与再分区的区别

如何计算repartitionByCassandraReplica.JoinWIthCassandraTable()和DirectJoin=AlwaysOn的输入大小？

是否在HDFS集群上重新分配数据？

数据集预测是否受益于数据集分区？

需要帮助理解火花放电在纱线上的执行

蜂窝分区到火花分区

当从cassandra源读取数据时，spark中的重新分区会改变spark分区的数量吗？

星火流和卡夫卡:一个集群还是几个独立的盒子？

火花LuceneRDD -它是如何工作的

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐