在python中删除RDD中的重复元组？

文章/答案/技术大牛

发布

1回答

从PySpark RDD中删除重复的元组对

、、、

我得到了一个rdd。示例: test = sc.parallelize((1,0)，(2,0)，(3,0))我可以得到笛卡儿产品如下:注意，收集和打印语句只有故障排除。), ((2, 0), (2, 0)), ((2, 0), (3, 0)), ((3, 0), (1, 0)), ((3, 0), (2,

浏览 7提问于2021-08-31得票数 2

回答已采纳

1回答

、、

我有一个作为元组对列表的RDD： ((1.1, 1.2), (0.4, 2.1)), ((9.0, 9.0), (9.1, 9.1)), ((9.1, 9.1), (9.0, 9.0))] 如何从该RDD中删除重复的元组，并获得所需的输出, 1.2),

浏览 5提问于2018-02-27得票数 0

回答已采纳

2回答

在spark中使用.distinct()，结果会发生怎样的变化？

、

我使用每个日志行中的元组(day，host)创建了RDD。下一步是对主机进行分组，然后显示结果。我使用distinct()将第一个RDD映射为(day，host)元组。当我不使用distinct时，我会得到与使用时不同的结果。那么当在spark中使用distinct()时，结果会发生怎样的变化呢？

浏览 4提问于2015-06-17得票数 0

1回答

电火花rdd滤波器重复

、、

我有这个rdd我对python和pyspark很陌生，我只想用RDD方式来解决这个问题，我知道使用dataframe方法的解决方案，但只需要使用rdd我试图在

浏览 3提问于2020-09-04得票数 0

回答已采纳

3回答

如何在Python3pysight中反转RDD中的键和值？

、、

这在Python2.7中有效，但在Python3.5中它返回 rddInverted = rdd.map(lambda (x,y): (y,x))

浏览 5提问于2016-07-25得票数 4

1回答

Spark (Scala) sqlDataFrame加入未按预期工作

、、

我有一个包含电影收视率的数据帧，另一个包含userIds及其索引的数据帧。我想要连接这两个数据帧，这样我就可以拥有每个电影分级的相应用户索引。但是，在连接表之后，我获得了比连接前更多的记录，这对我来说毫无意义。我希望得到相同数量的记录，但是使用额外的u_number列:我的第一个想法是使用Left join，ratingsDf作为left，userDataFrame作为right，但是我尝试的任何join都得到了不想要的</e

浏览 0提问于2016-06-22得票数 0

1回答

根据火花中的值删除重复键

假设我有一个RDD，它通过并行化一个键值对列表(1，4)，(2，3)，(1，1)，(1，0)，(2,0)，并且我想根据它们的值删除具有相同键的元组(所以对于具有相同键的元组，只有值保持最低的元组)。因此，我想应用一个转换，以便RDD最终由(1,0)，(2,0)表示(只要移除正确的副本，我就不在乎在这里排序)。目前，我正在做的是 RDD = RDD

浏览 2提问于2014-10-24得票数 2

回答已采纳

1回答

在Python中组合两行

、、

我在处理python火花rdd时遇到了一些小问题。我的rdd看起来new_rdd = [((A1, A2), (V1, V2)), ((A1, A3), (V1, V3))] and so on.问题是，flatMap删除

浏览 2提问于2015-11-13得票数 0

回答已采纳

1回答

按键求RDD的交集

、、、

我有两个RDD，一个很大，另一个要小得多。我想在大RDD中找到所有独特的元组，其中包含来自小RDD的键。

浏览 1提问于2015-12-07得票数 2

1回答

如何批量收集RDD中的元素

、、

我有一个pyspark RDD，它有大约200万个元素。我不能一次收集它们，因为它会导致OutOfMemoryError异常。如何批量采集？这是一个潜在的解决方案，但我怀疑还有更好的方法:收集一个批处理(使用take、https://spark.apache.org/docs/3.1.2/api/python/reference/api/pyspark.RDD.take.html#pyspark.RDD</

浏览 29提问于2021-10-12得票数 0

回答已采纳

1回答

带字典的PySpark约简键

、、、、

为什么Spark强制从元组列表中构建RDD，以便在进行还原键转换的情况下？:166) at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:70) at org.apache.spark.rdd.RDD.computeOrReadCheckpoin

浏览 0提问于2018-01-18得票数 1

2回答

RDD过滤器、Spark2.1和Python3.5中的映射操作出错

、、、、

我正在尝试运行中给出的Spark / Python的Logistic回归示例，并且已经成功地使用了Spark1.6和Python2.7。现在我必须将它移到Spark2.1和Python3.5( 3.6是不兼容的)，我正在使用Ubuntu16.04中的木星笔记本# Evaluate the model on training:48 但是，当我试图使用结果RDD、count()、collec

浏览 2提问于2017-04-12得票数 1

回答已采纳

1回答

如何使用Python动态地从RDD中获取值？

、、

RDD中的一个记录如下所示： 'Title: Global Warming', 'Database: AWS898,', 'Access: Public ,',我试图提取RDD的4到N元组位置中的值。但是RDD可

浏览 0提问于2018-02-24得票数 1

2回答

连接两个RDD，然后按另一列分组

、、、

我有两个rdd2，第一个具有Code: string, Name: string格式，rdd2的格式是Code: string, Year: string, Delay: float。rdd1 = [('a', 'name1'), ('b', 'name2')] rdd2 = [('a', '2000', 1.25), ('a', '2000',

浏览 5提问于2021-06-01得票数 0

回答已采纳

2回答

星火1.5.1，Scala2.10.5:如何扩展RDD[Array[String]，向量]

、、

我在Scala2.10.5中使用Spark1.5.1 我想要获取(String, Vector)，中的每个String，并将其与Vector组合起来创建一个元组--这一步将导致从初始RDD的每个元素创建几个元组。最终目标是构建一个元组的RDD：RD

浏览 3提问于2015-11-05得票数 1

回答已采纳

2回答

Spark using Python* :将RDD输出保存为文本文件*

、、

我正在尝试使用python在spark中解决单词计数问题。但是，当我尝试使用.saveAsTextFile命令将输出的RDD保存到文本文件中时，我会遇到这个问题。这是我的代码。请帮帮我。我被卡住了。感谢您的宝贵时间。

浏览 0提问于2015-12-04得票数 6

回答已采纳

3回答

在火花上找不到reduceByKey方法

、

我在我的Java月食上使用的是火花核心2.10 jar。我在里面找不到任何reduceBykey方法！我对reduce的建议只有reduce和treeReduce。知道这是怎么回事吗？

浏览 5提问于2016-09-08得票数 0

回答已采纳

1回答

如何使用LabeledPoint过滤RDD？

、

我的初始RDD如下所示：我尝试这个操作：RDD.colle

浏览 0提问于2021-05-01得票数 1

1回答

如何在Pyspark中找到元素的索引？

、、、、

这是我的第一个问题。我在用电火花编码。我有和RDD：如何找到元素e的索引？ .map(lambda key,index : index).collect根据所提供的解决办法：

浏览 0提问于2018-01-29得票数 3

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Pytho

浏览 34提问于2017-03-01得票数 1

回答已采纳

点击加载更多

从PySpark RDD中删除重复的元组对