在Python中从一对RDD中获取值_在Spark中对RDD排序_在python中删除RDD中的重复元组？ - 腾讯云开发者社区

、

如何从形式为[('key', (value1, value2))]的一对RDD中获取value1和value2。

浏览 11提问于2017-07-07得票数 0

1回答

整数到所有可能对的RDD (有序)

、、

我正在使用pyspark从一个int数组的RDD中找到所有可能的对。[[0, 1, 2],输出所有可能组合的RDD键值对：我想在python中实现它，而不是scala。

浏览 4提问于2020-12-28得票数 0

2回答

将星火rdd的泡沫化表示写入文件时出错。

、、、、

我使用下面的代码来持久化星火rdd。rdd = sc.parallelize([1,2,3])import pickle错误信息是： at java.lang.Thread.run(Thread.java:722) 我认为rdd类似于句柄，我不需

浏览 6提问于2017-11-30得票数 2

4回答

有谁能纠正我对坚持火种的理解吗？如果我们在RDD上执行了缓存()，那么它的值只缓存在那些最初计算RDD的节点上。这意味着，如果有一个由100个节点组成的集群，并且在第一和第二节点的分区中计算RDD。如果我们缓存了这个RDD，那么Spark将只在第一个或第二个工作节点中缓存它的值。因此，当这个Spark应用程序在以后的阶段尝试使用这个RDD时，那么Spark驱动程序必须从第一个/第二个节点获取值</

浏览 3提问于2016-08-28得票数 23

回答已采纳

1回答

将python函数传递给pyspark中的Scala RDD

、、、

我有一个scala库(简单地说)，它接收一个函数，将其应用于RDD并返回另一个RDD ..val res = rdd.map(function) }import mylibrary.runFunction这个库打包在jar中，我现

浏览 14提问于2019-11-14得票数 0

1回答

如何使用pyspark.resultiterable.ResultIterable对象

、、

我在一对rdd中构造了1TB的记录，我希望按键对所有记录进行分组，然后只对值应用一个函数。我的代码如下：rdd_pair=rdd.map(lambda a: (a[0], a)) rdd_pair.take'1', '2013/12/03 1

浏览 0提问于2018-03-22得票数 3

1回答

RDD中的分区数和Spark中的性能

、、、

在Pyspark中，我可以从一个列表创建一个RDD，并决定有多少个分区：sc.parallelize(xrange(0, 10), 4) 我决定对RDD进行分区的分区数量对性能有何影响

浏览 21提问于2016-03-05得票数 43

回答已采纳

4回答

如何在PySpark中删除RDD以释放资源？

、、

如果我有一个不再需要的RDD，如何将其从内存中删除？要做到这一点，以下内容是否足够：谢谢!

浏览 1提问于2015-01-17得票数 24

1回答

PySpark -广播火花数据

、、、

我想循环所有列，以便从另一个数据帧(在SchemaWithHeader colName结果为1 )中进行某些处理。例如，-循环是列-名称、年龄和薪资所必需的。方法1 Sch

浏览 2提问于2018-12-26得票数 0

1回答

如何在火花流中以多批处理间隔传送数据流

、、

这两个数据流是不同步的，这意味着时间stream1中的某些键-- t0可能出现在stream2中的time t1中，反之亦然。Contextq.add(empty_rdd); }); 稍后，这个空流与stream1统一(即union())，最后，在<

浏览 0提问于2016-05-20得票数 5

回答已采纳

1回答

带字典的PySpark约简键

、、、、

为什么Spark强制从元组列表中构建RDD，以便在进行还原键转换的情况下？) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306) at org.apache.spark.rdd.RDD.iterator(

浏览 0提问于2018-01-18得票数 1

2回答

scala中基于键的两对RDDs的比较

、、

有没有一种方法来比较基于键的2对RDDs的值。例如：RDD2: RDD[(Int, String)] = {(5, "AAA"), (2, "XYZ"), (3, "LMN")} 我的任务是获取值不同的两个rdds中的键数。

浏览 6提问于2017-10-06得票数 1

1回答

聚合字典的ReduceByKey方法

、、、

我有一个spark方法，在这个方法中，我运行了一个flatMap函数，该函数返回一个元组列表。元组中的键值是Timestamp，值是dict。)}, {'id': '2', 'val': '7M', 'date':Timestamp('2000-01-03 00:00:00')}]) ] 到目前为止，我已经尝试过了：output = rdd.flatMap

浏览 18提问于2020-04-17得票数 0

1回答

PySpark代码是在JVM还是中运行的？

、、

当我使用python3 t1.py运行以下名为t1.py的脚本时，我想了解在这个引擎盖下面发生了什么。具体来说，我有以下问题：什么样的代码被提交到火花工作节点？是python代码还是提交给spark节点的等效Java代码？是还原中作为UDF处理的添加操作，因此运行在工作者节点上的python子进程中？如果添加操作运行在工人节点上的python子进程中，那么worker JVM是否为添加的分区中的每个数字与python子进程通信？如果

浏览 0提问于2020-05-15得票数 9

回答已采纳

1回答

Pyspark: json对象中的rdd

、

这是家庭作业rdd = sc.textFile('./hw2-files-10mb.txt')1)如何通过rdd方式选择用户中的'id_str‘？我尝试了将rdd映射到返回field

浏览 0提问于2018-10-03得票数 1

1回答

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云