如何在Spark的JavaRDD分区之间共享数据？

、、、

我试图从CSV文件中读取并将这些条目插入数据库。我发现，内部spark创建了两个RDD，即rdd__0和rdd__1，它们工作在相同的数据上并完成所有处理。有谁能帮助找出为什么不同的数据集会两次调用调用方法。 SparkConf conf = new SparkConf().setAppName(“REadFromCS

浏览 3提问于2015-05-29得票数 0

2回答

如何在Apache Spark中拆分输入文件

假设我有一个大小为100MB的输入文件。它包含CSV格式的大量点(经纬度对)。我应该做什么，以便在Apache Spark中将输入文件拆分为10个10MB文件，或者如何自定义拆分。注意:我希望处理每个映射器中的点的子集。

浏览 2提问于2014-12-23得票数 4

回答已采纳

0回答

、、

我有一些对象要在apache spark中的分区之间共享。下面是我面临的代码片段和问题。private static void processDataWithResult() throws IOException { }我

浏览 2提问于2016-07-13得票数 0

1回答

在java中触发自定义分区

、、

我想用spark编写一个自定义分区程序，并且我正在编写java。但是，我注意到，javaRDD类(或Dataset类)没有像scala中那样的partitionBy(分区)方法。如果没有此方法，我应该如何划分RDD或数据集？

浏览 0提问于2017-11-26得票数 2

回答已采纳

1回答

星星之火-卡桑德拉: repartitionByCassandraReplica或将数据集转换为JavaRDD和back不维护分区的数量？

、、

我正在使用Spark-CassandraConnector3.0.0，我试图在分区键上加入一个带有cassandra表的数据集，同时也使用.repartitionByCassandraReplica。但是，repartitionByCassandraReplica仅在RDDs上实现，因此我将数据集转换为JavaRDD，执行repartitionByCassandraReplica，然后将其转换回dataset但是，在这个过程中，分区的数量似乎在“改变”

浏览 9提问于2022-09-06得票数 0

回答已采纳

1回答

在分区中写入之前，从bean中删除列

、、、、

我想按日和市写分区数据。按City和bday进行分区可以切换/关闭。org.apache.spark.sql.AnalysisException:文本数据源只支持一列当我用CSV格式

浏览 5提问于2022-11-02得票数 0

回答已采纳

2回答

在Spark中，makeRDD函数和并行化函数有什么区别？

、、

我有一个单一的等式，在制造火花应用程序。在Spark中，makeRDD函数和parallelize函数有什么区别？

浏览 4提问于2015-07-15得票数 15

回答已采纳

1回答

Spark SQL中的配置是如何共享/隔离的？

、、、、

因此，我有我的spark context sc，从中我得到了我的spark sql上下文，sqlContext.sql("setspark.sql.shuffle.partitions=2") 有时我想使用2作为混洗分区，但在其他一些时刻(可能是并发的)，我希望使用200。这个sqlContext是在我的所有线程之间共享<e

浏览 0提问于2016-07-06得票数 0

1回答

在这种情况下，火花是如何内部工作的？

、、

JavaRDD<String> textFile = sc.textFile("C://test.txt"); Spark将在单线程中从文件中读取切割机块。不确定是否有默认的块大小或取决于文件大小。星星之火将根据以下两个参数( a)它在步骤1和b中读取的数据大小(根据cpu中

浏览 3提问于2017-06-13得票数 0

1回答

Spark streaming如何与Kafka共享Kafka分区？

、、

我想知道如何在从executor进程内部运行的SimpleConsumer之间共享Kafka分区。我知道高水平的Kafka消费者是如何在消费者群体中的不同消费者之间分享部分的。但是，当Spark使用简单的消费者时，这是如何发生的呢？将有多个执行器用于跨机器的流式作业。

浏览 0提问于2018-05-18得票数 0

1回答

火花DataFrame RangePartitioner

、、

假设我们有一个包含2列的dataframe，而一个列(例如'A')的值从1到1000之间是连续的。还有另一个具有相同模式的dataframe，但是相应的列只有4个值30,250,500,900。(这些值可以是任意值，从1到1000之间随机选择)df_a.partitionByRange($"A") df_b.partitionByRange($&quo

浏览 0提问于2018-10-26得票数 3

回答已采纳

2回答

如何使用合并更改分区数？

、、

我在java和Cassandra数据库中使用spark，在我的程序中，我使用了mapPartitions来请求cassadra。但是我注意到我的mapPartitions只在一个火花节点上执行。为了查看RDD中的分区数，我使用了：并显示一个分区。我已经发现，我可以编辑分区的数量，usig如下： JavaRDD MyRDD2

浏览 3提问于2015-01-22得票数 1

回答已采纳

1回答

什么时候文件是“可分割的”？

、、、、

当我使用spark时，我有时会在 HIVE 表中遇到一个巨大的文件，有时我会尝试在一个HIVE表中处理许多较小的文件。我如何知道我的文件是否可以分割？如果文件是可拆分的，我如何知道要使用的分

浏览 0提问于2015-12-10得票数 7

1回答

将python函数传递给pyspark中的Scala RDD

、、、

我想要做的是在Python中加载这个库，并将一个python函数传递给它。Python中的用法如下： spark.这是不是可以通过在Python和JVM之间来回切换的Spark功能来实现？

浏览 14提问于2019-11-14得票数 0

1回答

如何使用Dataset API编写字数统计？

、、

我需要写一个单独使用spark数据集的字数统计逻辑。我使用spark的JavaRDD类实现了相同的过程，但我希望使用Spark SQL的Dataset<Row>类来完成相同的过程。如何在Spark SQL中进行字数统计？

浏览 10提问于2017-07-20得票数 2

回答已采纳

1回答

无法在同一个笔记本中跨数据共享

、、、

如果我在databricks中的同一个笔记本中同时使用Scala和python，那么single会话将如何创建两个会话或单个会话？如果Scala和python的会话不同，它们之间是如何共享的？尽管我们无法在它们之间共享变量。

浏览 3提问于2022-07-30得票数 2

回答已采纳

3回答

在Spark2.0中从用逗号分隔的字符串行中获取不同的项

、、、

我正在使用Spark2.0来分析一个数据集。有一列包含如下字符串数据：A,BB我希望得到一个包含列中所有不同项的JavaRDD，如下所示：B如何在火花中有效地做到这一点？我在Java中使用Spark，但是Scala示例或指针是有用的。编辑:我尝试过使用flatMap，但是我的实现非常慢。JavaRDD<String> d = dataset.flatMap(s -

浏览 6提问于2016-10-13得票数 2

回答已采纳

2回答

如何用Spark高效读取多个小拼图文件？有CombineParquetInputFormat吗？

、、、、

Spark生成了多个小镶木地板文件。如何有效地处理生产者和消费者Spark作业中的少量镶木地板文件。

浏览 0提问于2017-01-25得票数 0

1回答

使用Spark* BigQuery连接器使用Dataproc写入BigQuery的速度很慢*

、、

我们有一个Spark Streaming应用程序，它从Pubsub读取数据并应用一些转换，然后将JavaDStream转换为Dataset，然后将结果写入BigQuery规格化表。 .foreachRDD(new VoidFunction2<JavaRDD<PubSubMessageSchema>, Ti

浏览 7提问于2021-02-24得票数 1

4回答

Kafkaconsumer对于多线程访问是不安全的

我使用下面的代码来读取Kafka主题，并处理数据。<Row>, JavaRDD<Row>>() { records = rdd.union(rec

浏览 1提问于2017-06-14得票数 11

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

spark是否创建了两个工作在相同逻辑上的数据集或阶段？

如何在Apache Spark中拆分输入文件