Pyspark中具有键-值对的AggregateByKey函数

、

我有一个关于pyspark中聚合密钥的问题。RDD数据集，如下所示: premierRDD=('Chelsea'，(‘2016-2017’，93))，('Chelsea'，(‘2015-2016’，50)) 我希望使用aggegrateByKey函数将50和93的分数相加，我的预期输出应该是：('Chelsea'，‘2016-2017’，(93,143))，('Chelsea'，‘2015-2016’，(50

浏览 69提问于2019-02-22得票数 0

回答已采纳

1回答

PySpark -聚合还是按多个键缩减？

、

我有一个具有以下元组格式的RDD：我只想按(a, (b,c))和d进行分组，如下所示：在pySpark中如何按多个键分组?在这种情况下，reduceByKey和aggregateByKey哪个函数更优？

浏览 6提问于2017-12-19得票数 0

1回答

火花AggregateByKey从pySpark到Scala

、

我将我的所有代码转移到scala，并且我在pySpark中有一个函数，对于如何转换到scala几乎没有什么线索。有人能帮忙解释一下吗？PySpark看起来如下所示： lambda (sum, sum2, count),： val dataSusRDD = numFilterRDD.aggregateByKey((0,0,0), (sum, sum2, count) =>

浏览 1提问于2015-06-02得票数 0

回答已采纳

1回答

在pyspark中解析文本文件

、、、

我正在尝试使用pyspark将下面的文本文件转换为hive表。因此，我的文本文件如下所示orgid: csuorgid: dmoorgid: csu我的代码如下parts=lines.flatMap(lambdal:tuple

浏览 1提问于2017-11-17得票数 0

1回答

AggregateByKey分区？

、、

我有：好吧，我的问题是：如果我把partitionBy(新HashPartitioner)放在aggregateByKey()将使用来自A_RDD的hashPartitioner，对吗？2)或者，如果像第一个示例一样，aggregateByKey()将首先按键聚合每个分区，然后以更有效的方式向右分区发送每个“聚合”(键、值)<e

浏览 2提问于2016-12-10得票数 2

6回答

reduceByKey与groupByKey与aggregateByKey与combineByKey的火花区别

、、

有人能解释reducebykey、groupbykey、aggregatebykey和combinebykey之间的区别吗？我看过有关这方面的文件，但不明白具体的不同之处。用例子来解释会很好。

浏览 7提问于2017-04-12得票数 96

回答已采纳

1回答

火花聚集键除法器命令

、、

如果我将散列分区器应用于星火的聚合键函数，即myRDD.aggregateByKey(0, new HashPartitioner(20))(combOp, mergeOp) myRDD是否在使用combOp和mergeOp聚合其键/值对之前先进行重新分区？或者，myRDD是否首先通过combOp和mergeOp，并使用HashPartitioner对结果进行重新分区？

浏览 0提问于2016-01-25得票数 0

回答已采纳

2回答

PySpark:一步计算平均值、标准差和平均值周围的值

、、、

我的原始数据是表格格式的。它包含来自不同变量的观察结果。每个观察的变量名称，时间戳和值在当时。数据在HDFS中存储为Parquet，并加载到(df)中。现在我要计算每个变量的默认统计数据，如平均值、标准差和其他统计数据。之后，在检索完平均值之后，我希望筛选/计数与平均值密切相关的变量的值。由于对我的</

浏览 2提问于2016-07-08得票数 4

回答已采纳

1回答

在java中按键对RDD进行分组

、

我试图使用groupby对RDD进行分组。大多数文档建议不要使用groupBy，因为它是如何在内部对密钥进行分组的。还有其他方法来实现这个目标吗。

浏览 5提问于2018-01-09得票数 1

1回答

Spark aggregateByKey:使用密钥

我想从我的RDD中创建一组布卢姆过滤器。我的做法如下：其中rdd类似于RDD[(Int, Long)] 问题是，这些值不是在每个组中均匀分布的也就是说，“一刀切”在这里不起作用，我希望根据每个键的元素数量，对每个键进行不同的size过滤器初始化。所以我想要的<

浏览 0提问于2017-12-07得票数 2

回答已采纳

2回答

星火聚合函数- aggregateByKey是如何工作的？

、

假设我在3个节点上有一个分布式系统，并且我的数据分布在这些节点之间。据我所知，每个火花工作者节点都将从文件中读取a部分。因此，现在假设每个节点将存储：我的问题是，假设我想对这些数据进行计算，并且有一个步骤，我需要将键组合在一起，所以键值对应该是有一个名为groupByKey()的函数，使用起来非常昂贵，建议使用aggregateByKey()。所以我想知道groupBy

浏览 6提问于2014-07-17得票数 46

回答已采纳

3回答

按键表示和求和元组

、、、

在我的Scala应用程序中，我有一个具有以下格式的RDD：(05/05/2020, (name, 1))...我要做的是按日期对这些元素进行分组，并将与键具有相同“名称”的元组相加。为了做到这一点，我目前正

浏览 0提问于2018-10-19得票数 1

回答已采纳

1回答

RDD的Pyspark平均间隔

、、、、

我正在尝试使用PySpark来找出相邻元组列表之间的平均差异。例如，如果我有一个如下的RDD我想找出每个键的平均差异from pyspark import SparkContextinterval = vals.aggregateByKey(aTuple, lambda a,b

浏览 5提问于2019-11-10得票数 0

回答已采纳

2回答

组合键和聚合键的区别

、

我是Apache spark的新手，所以这个问题可能不适合问，但我不明白combinebykey和aggregatebykey之间的区别以及何时使用哪个操作。

浏览 0提问于2017-04-19得票数 7

2回答

Apache Spark按键聚合的工作原理

、

我对按键聚合函数的工作原理有点困惑。 JavaPairRDD<String, Integer> aggregateByKey= mapToPair.aggregateByKey(1, mergeValue, m

浏览 2提问于2016-08-10得票数 1

1回答

双倍的Scala空(聚合的Min比较)

、

所以我有一个叫做AggregateByKey的函数我有一个AggregateByKey组件，它执行min: math.min(u._4，v)，问题是初始值为0.0，所以如果没有负数，它总是为0.0，因为它将传入的数字与0.0进行比较。有没有人对如何解决这个问题有任何想法？

浏览 2提问于2015-09-04得票数 1

回答已采纳

1回答

如何使用自定义类进行频率分布的aggregateByKey？

、

我的目标是为我的所有索引或键获得前100个值。aggregateByKey放在一起来使用这个类，以便得到我的前100个值！._2 > 1).aggregateByKey(initFreq)(freqSeq, freqComb) 显而易见的问题是，我使用的函数没有返回任何内容。所以，我想知道如何修改这个类，或者我是否需要从一个全新的角度来考虑这个问题，然后从这个类中选择一些<e

浏览 0提问于2015-11-18得票数 1

回答已采纳

2回答

如何在Scala中使用Spark删除重复项(更像基于多个属性的筛选器)？

、、、、

作为策略，我们不更新我们的文档，但是我们用更新的值重新创建。当我处理这些事件时，我只想保持更新的事件，所以我想根据多个值从我的RDD中筛选项目。greater than the one of above, since the update operation is done after the document is generated我一直在做的是reverse .groupBy(_.someI

浏览 2提问于2016-09-21得票数 0

回答已采纳

1回答

星火JavaRDD对JavaPairRDD？

、

我是斯帕克的新手，我正在努力理解两个JavaRDD和JavaPairRDD之间的区别，以及如果我将JavaRDD转换为JavaPairRDD，这个操作会有多重？

浏览 0提问于2018-11-05得票数 2

回答已采纳

2回答

Apache : groupByKey vs reduceByKey与aggregateByKey

、

这三个Apache转换有点让人困惑。有什么办法可以决定什么时候使用哪一种，什么时候避免？

浏览 11提问于2017-03-15得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PySpark -聚合还是按多个键缩减？

火花AggregateByKey从pySpark到Scala

在pyspark中解析文本文件

AggregateByKey分区？

reduceByKey与groupByKey与aggregateByKey与combineByKey的火花区别

火花聚集键除法器命令

PySpark:一步计算平均值、标准差和平均值周围的值

在java中按键对RDD进行分组

Spark aggregateByKey:使用密钥

星火聚合函数- aggregateByKey是如何工作的？

按键表示和求和元组

RDD的Pyspark平均间隔

组合键和聚合键的区别

Apache Spark按键聚合的工作原理

双倍的Scala空(聚合的Min比较)

如何使用自定义类进行频率分布的aggregateByKey？

如何在Scala中使用Spark删除重复项(更像基于多个属性的筛选器)？

星火JavaRDD对JavaPairRDD？

Apache : groupByKey vs reduceByKey与aggregateByKey

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐