在pyspark中对具有多个字段的值使用reduceByKey

、、

我有一个键值rdd，其元素形式为：我希望使用reduceByKey能够为同一个键分别收集所有v1和v2的总和，并在同一索引中将所有1相加，因此得到的缩减后的rdd具有：我试了几次，比如：和其他几次类似的试验，但都是徒劳的

浏览 15提问于2017-01-25得票数 2

回答已采纳

1回答

具有多个值的PySpark reduceByKey

、、

所以虽然我有和这个问题一样的标题：A.reduceByKey(lambda x,

浏览 0提问于2016-09-16得票数 0

回答已采纳

1回答

Pyspark RDD ReduceByKey多功能

、、、

我有一个名为DF的PySpark DataFrame，它有(K，V)对。我想在ReduceByKey中应用多个函数。例如，我有以下三个简单的函数：当我只应用一个函数时，例如，，执行以下三项工作： DF.reduceByKey(sumFunc) #works

浏览 0提问于2016-02-24得票数 2

1回答

PySpark -聚合还是按多个键缩减？

、

我有一个具有以下元组格式的RDD：我只想按(a, (b,c))和d进行分组，如下所示：在pySpark中如何按多个键分组?在这种情况下，reduceByKey和aggregateByKey哪个函数更优？

浏览 6提问于2017-12-19得票数 0

1回答

Spark中groupBy的替代方案

、、、、

，分别使用窗口函数和groupBy。使用这两种方法，我都得到了想要的结果。where("rank = 1")val df2 = df.groupBy(df("id")).agg(collect_list($"json_data").as("json_data")) 使用这两种方法，我获得了相同的性能。但是阅读有关Spark的文档，似乎这两种方法都效率不高，因为具有相同键

浏览 0提问于2018-06-05得票数 3

1回答

我是apache spark的新手，不知道我是误解了reduceByKey还是遇到了bug。我使用spark-1.4.1-bin-hadoop1构建，因为spark-1.4.1-bin-hadoop2中的python Cassandra接口有问题。reduceByKey(lambda x，y: y)返回最后一个元组的第一个值，但是reduceByKey(lambda x，y: x)抛出异常。尝试使用reduc

浏览 4提问于2015-09-24得票数 0

2回答

获取RDD中每个键的最大值和最小值

、、、、

spark.sparkContextrdd = ssc.sparkContext.parallelize(pd_binance)以下是结果的一小部分0.02704600', '3.90800000'], ['0.02704700', '7.44600000'] 我想要得到每个键的最大<em

浏览 6提问于2021-01-02得票数 1

1回答

用电火花将时间戳写到Postgres

、、、、

我正在Python上开发一个Spark脚本(使用Pyspark)。我有一个函数，它用一些字段返回一个Row，包括processed_data1是一个有效的日期时间字符串编辑显示完整的代码： def __init__(self, user,

浏览 5提问于2017-01-19得票数 0

回答已采纳

1回答

在reduceByKey() api spark中获取密钥

、

有没有一种方法可以在reduceByKey()函数的pyspark中获得键的名称，这样我就可以获得传递给reduceByKey()函数的两个值之间的公共键？例如：//can i get the key value common

浏览 3提问于2017-03-03得票数 0

1回答

对reducedByKey的对表示使用(，)和[，]的区别

、、、

我正在应用一个映射，然后使用pyspark在RDD上应用reduceByKey转换。my_rdd_out = my_rdd.map(lambda r: [r['my_id'], [[r['my_value']]]])\ .map(lambda r: r[1]) 这里的<

浏览 0提问于2016-09-26得票数 0

回答已采纳

1回答

在PySpark中使用reduceByKey()无法获得正确的平均值

、、

我正在学习PySpark。我一直试图通过“性别”(男性('M')，女性(‘F’))在键/值RDD中使用reduceByKey()转换来获得平均体重。我使用的代码是：def get_mean(*args):‘我从这段代码中得到

浏览 0提问于2021-08-04得票数 0

1回答

当reduceByKey运行时会发生什么？

我的mapToPair函数产生下面的输出。(a，1) (a，1) (b，1) private static final Function2<Integer, Integer, IntegerInteger a, Integer b) throws Exception { }它工作得很好，有人能解释一下这段代码在执行对(b，1)时是如何工作<

浏览 1提问于2015-02-11得票数 0

回答已采纳

4回答

何时使用countByValue，何时使用map().reduceByKey()

、、、

我对scala很陌生，我正在编写一个简单的wordCount示例。因此，我正在使用countByValue，如下所示：val words = lines.flatMap(x => x.split("\\W+")).map(x => x.toLowerCase()) val wordCo

浏览 0提问于2018-10-21得票数 5

回答已采纳

1回答

火花-最大/最小参数

、

在Pyspark中，当我们需要基于(Key，Value)获得总计(SUM)时，我们的查询如下：当我们需要为(Key，Value)查找MAX / MIN值时，我们的查询内容如下为什么我们不使用x[1]、Y[

浏览 2提问于2016-12-31得票数 1

1回答

Reducing (Key，Value)，其中value是Spark中的字典

、、、、

我的问题是，我使用了一个map函数来创建表单(key，dict)的Rdd，如下所示的[(0, {‘f_0’:’-0.5’}), (0, {‘f_1’:’-0.67’}), (1, {‘f_0’:’-0.36’}), (1, {‘f_1’:’-1.5’})] 按键缩减的所需形式应为：[(0, {’f_0’:’-0.5’,’f_1’:’-0.67’}), (1, {‘f_0’:’-0.36’, ‘f_1’:’-1.5’})] 我正在使用pyspark，python on d

浏览 15提问于2019-09-14得票数 1

1回答

作为PySpark的reduceByKey键的列表

、、、

我试图在格式为reduceByKey的(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ...数据上调用pyspark的(([a,b,c], 1), ([a,b,通过简单地应用.reduceByKey(add)，pyspark似乎不会接受数组作为普通键的键，即值约简。我已经尝试过先通过.map((x,y): (str(x),y))将数组转换为字符串，但这不起作用，因为字符串的后

浏览 3提问于2015-07-14得票数 8

回答已采纳

9回答

PySpark -对数据格式中的列进行求和，并以int形式返回结果

、、、

我有一列数字的电火花数据。我需要对该列进行求和，然后在python变量中将结果作为int返回。+-----------++-----------++-----------+ 我会把130作为一个int返回到一个变量中，以便在程序中的其他地方使用

浏览 22提问于2017-12-14得票数 56

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中<

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

Spark reduceByKey接收自己的输出作为后续调用的输入

、

我有一个flatMap步骤，它读取一个点，并计算成对的相似性矩阵中的各种“块”，以使这个点驻留(我想这是一种比天真的O(n^2)计算略有效的方法；如果您好奇，请参阅以获得我的灵感)。，每个键都是一个整数--最终的n到n对相似矩阵中的唯一块--值是一个由两个整数和一个字符串组成的3元素列表。问题是:当reduceByKey调用pairwise_blocks方法时，早期迭代的<

浏览 4提问于2014-07-22得票数 0

回答已采纳

1回答

PySpark:迭代PairRDD中的值

、、

如何在RDD(key，value)中迭代值。object at 0xb0e824ac>)]tsRDD.map(lambda x:(x,1))).countByKey().items()`[('abc', 2), ('pqr', 1), ('xyz', 2)]` 但是我需要使用.map .red

浏览 1提问于2015-06-30得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

具有多个值的PySpark reduceByKey

Pyspark RDD ReduceByKey多功能

PySpark -聚合还是按多个键缩减？

Spark中groupBy的替代方案

在Spark中使用reduceByKey的正确方法是什么

获取RDD中每个键的最大值和最小值

用电火花将时间戳写到Postgres

在reduceByKey() api spark中获取密钥

对reducedByKey的对表示使用(，)和[，]的区别

在PySpark中使用reduceByKey()无法获得正确的平均值

当reduceByKey运行时会发生什么？

何时使用countByValue，何时使用map().reduceByKey()

火花-最大/最小参数

Reducing (Key，Value)，其中value是Spark中的字典

作为PySpark的reduceByKey键的列表

PySpark -对数据格式中的列进行求和，并以int形式返回结果

在使用PySpark时，如何在Spark中实现Python数据结构？

Spark reduceByKey接收自己的输出作为后续调用的输入

PySpark:迭代PairRDD中的值

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐