在reduceByKey() api spark中获取密钥

文章/答案/技术大牛

发布

1回答

、

有没有一种方法可以在reduceByKey()函数的pyspark中获得键的名称，这样我就可以获得传递给reduceByKey()函数的两个值之间的公共键？例如：//can i get the key value common

浏览 3提问于2017-03-03得票数 0

2回答

最近，我有了将数据存储在keyValue对中的场景，并遇到了一个函数reduceByKey(_ ++ _)。这是更多的速记语法。我不明白这究竟是甚麽意思。例：reduceBykey(_ + _)的意思是reduceByKey((a,b)=>(a+b)) 所以reduceByKey(_ ++ _)的意思是？我能够使用reduceByKey(_ ++ _)从数据中创建密钥值对。val y = sc.textFile("fi

浏览 1提问于2017-05-23得票数 6

回答已采纳

1回答

pyspark使用sql查询并执行group by优化

、

在spark中，人们也可以使用spark api函数来编写sql查询。应该始终使用ReduceByKey而不是groupbykey，因为它可以防止更多的混洗。在sql查询中，只有group by，没有reduce。在内部，使用reduceBykey比使用group by更优化吗？

浏览 21提问于2020-09-07得票数 0

1回答

用于并行RDD的spark.default.parallelism默认为2，用于火花提交。

、

运行以下通过火花提交(spark.default.parallelism未设置)println("Partititon

浏览 2提问于2016-02-13得票数 8

1回答

如何在Spark Streaming中运行(流式) reduceByKey

、、

我使用Python API for Spark streaming中的textFileStream()方法在创建XML文件时读取它们，将它们映射到一个xml值中，从ElementTree中提取“有趣的”项并将它们放入一个字典( ElementTree：flatMap )中，然后我执行一个reduceByKey()来聚合每个键的计数。因此，如果密钥是字符串网络名称，则值可能是数据包数。在减少时，我的字典中只剩下每个网络

浏览 11提问于2017-07-25得票数 0

1回答

在Spark中使用reduceByKey的正确方法是什么

、、、、

我是apache spark的新手，不知道我是误解了reduceByKey还是遇到了bug。我使用spark-1.4.1-bin-hadoop1构建，因为spark-1.4.1-bin-hadoop2中的python Cassandra接口有问题。reduceByKey(lambda x，y: y)返回最后一个元组的第一个值，但是reduceByKey(lambda x，y: x)抛出异常。/bin/spark-submit --d

浏览 4提问于2015-09-24得票数 0

1回答

Spark SQL中Group By子句的底层实现

、

Spark SQL中Group By子句的底层实现是什么？我知道Spark支持下面两种类型的Group by操作，即GroupByKey和ReduceByKey。ReduceByKey是一种map side reduce，它提供了比GroupByKey更好的性能。在我们的应用程序代码中，我们在Spark Dataframe上使用Spark SQL，而不是直接创建RDDs。所以，我想到了这个问题，Spark</

浏览 0提问于2019-08-30得票数 1

1回答

什么时候我应该使用RDD而不是星火中的数据集？

、、

我知道我应该主要使用星火数据集，但是我想知道是否有好的情况，我应该使用RDD而不是数据集？

浏览 4提问于2020-05-21得票数 1

回答已采纳

1回答

使用Flume +火花流的示例单词计数应用程序

、、、

下面是我使用Scala在spark.streaming中获取Flume事件和进程的代码。当尝试使用reduceBykey函数时，我得到以下编译错误： value reduceByKey is not a member of org.apache.spark.streaming.dstream.DStream我不认为这是一个依赖问题，我有其他简单的应用程序在使用reduceBykey的同一个Eclipse中工作。pa

浏览 0提问于2015-09-18得票数 1

回答已采纳

1回答

带有参数化类型的mapValues后的mapValues不编译

、、

当我调用RDD.mapValues(...).reduceByKey(...)时，我的代码不会编译。但是当我倒序时，RDD.reduceByKey(...).mapValues(...)((x, _) ⇒ x)Test.scala:7: error: value reduceByKey is not a member of org.apache.spark.rdd.RDD[(Long, E)] possible cause: maybe a semic

浏览 0提问于2018-03-21得票数 0

回答已采纳

2回答

Apache API没有mapPartition转换

Spark有mapPartition API，而Flink DataStream API没有。有谁能帮助解释原因吗？我想要做的是在Flink上实现一个类似于星火reduceByKey的API。

浏览 2提问于2015-10-28得票数 7

回答已采纳

1回答

带字典的PySpark约简键

、、、、

为什么Spark强制从元组列表中构建RDD，以便在进行还原键转换的情况下？$$anon$1.read(PythonRDD.scala:166) at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:70) at org.apache.spark.rdd.RDD.co

浏览 0提问于2018-01-18得票数 1

2回答

在Spark中使用reduceByKey时，有没有有效的分区方法？

、、

当我使用reduceByKey或aggregateByKey时，我会遇到分区问题。例如，reduceBykey(_+_).map(code)因此，作为解决方案，我使用了repartition方法。

浏览 1提问于2017-03-26得票数 5

1回答

在reduce阶段更改密钥

、、

假设我的(键，值)对现在是：(word1,d2=1)(word3,d1=1)(word1@d2, 1/2)(word3@d1, 1/1) 我读了Spark的文档。reduceByKey()将返回( K，V)的数据集，其中V1，V2 -> V和密钥将保持K。但在上面的例子中

浏览 0提问于2018-01-30得票数 0

2回答

reduceByKey的分区方面

、、

尽管RDDs是遗留下来的--而且在下一次任务之前还有一点时间--我仍在想：考虑到它的工作原理类似于Map中的在实际情况下，我怀疑它不是经常使用的，一般情况下(根据我自己的观察)，已经重新划分了它。

浏览 3提问于2020-05-21得票数 1

3回答

如何在Scala星火中访问类型签名以进行调试

、

sc.parallelize(data)val countsRdd = dataTupleRdd.reduceByKey(_ + _)ArrayStringorg.apache.spark.rdd

浏览 2提问于2017-04-24得票数 0

4回答

Scala中的Spark代码可以转换成Java吗？

、、、

我有使用Apache Spark的源码。源代码是用Scala编写的，我想把它转换成Java。是否可以从所有Scala源代码转换为Java？

浏览 0提问于2014-11-28得票数 0

1回答

Pyspark - reducer任务迭代值

、、、、

我希望我的reducer任务像java一样遍历与映射器中的键一起返回的值。这就是我想做的。谁知道有没有这样做的选择？

浏览 1提问于2015-05-17得票数 0

1回答

reduceByKey:它是如何在内部工作的？

、、

我是Spark和Scala的新手。我对reduceByKey函数在Spark中的工作方式感到困惑。假设我们有以下代码：val pairs = lines.map(s => (s, 1))映射函数很清晰:s是键，它指向data.txt中的行，1是值。但是，我不知道

浏览 42提问于2015-05-10得票数 66

回答已采纳

3回答

在Scala Spark中未找到reduceByKey方法

、、

这一行：抛出错误 valwordCounts = logData.flatMap(line => line.split(

浏览 0提问于2014-05-30得票数 25

回答已采纳

点击加载更多