pyspark:仅基于rdd的操作

、、、、

我正在尝试只使用基于rdd的操作。中，如下所示：然后，我对每个raw中first elements的不同元素感兴趣。在这种情况下，我希望使用3不同的元素。这就是我所做的list_ = rdd.collect() # to get the list for i inif result[1

浏览 6提问于2019-11-10得票数 1

回答已采纳

3回答

` `pyspark‘与` `pyspark’包

、、、

pyspark mllib和pyspark ml包有什么区别？：我发现的一个不同之处是，pyspark ml实现了pyspark.ml.tuning.CrossValidator，而pyspark我的理解是，如果在Apache框架上实现算法是mllib，那么库应该使用，但似乎存在分裂？在没有转换类型的情况下，每个框架之间

浏览 4提问于2017-04-05得票数 18

回答已采纳

2回答

将Spark Dataframe列中的数据用作条件或其他列表达式中的输入

、、、、

我有一个想要在PySpark 2.0中执行的操作，该操作作为df.rdd.map很容易执行，但由于出于性能原因，我更喜欢留在Dataframe执行引擎中，所以我想找到一种仅使用Dataframe操作来完成此操作的方法RDD风格的操作如下所示： formatter = "%.{}f".format

浏览 9提问于2016-08-31得票数 0

1回答

星火流+ MLlib相结合

、、、、

下面是pyspark中使用的代码：在集群中编译错误时返回的错误有没有办法使用静态数据生成的modèle来预测流示例？谢谢各位，我真的很感激！

浏览 3提问于2016-04-25得票数 7

回答已采纳

1回答

我正在尝试查看在partitionBy保存后续操作之后，rdd上的persist()是否会保存后续操作，而spark ui似乎表明我没有保存任何操作。如果persist正常工作，我认为阶段7或阶段8应该被跳过 (无论哪种情况，我的测试代码都可能是错误的，请让我知道。) ? 下面是我使用的代码 from pyspark import SparkContext, SparkConf from pyspark.<

浏览 35提问于2019-06-22得票数 1

1回答

如何批量收集RDD中的元素

、、

我有一个pyspark RDD，它有大约200万个元素。我不能一次收集它们，因为它会导致OutOfMemoryError异常。如何批量采集？这是一个潜在的解决方案，但我怀疑还有更好的方法:收集一个批处理(使用take、https://spark.apache.org/docs/3.1.2/api/python/reference/api/pyspark.RDD.take.html#pysp

浏览 29提问于2021-10-12得票数 0

回答已采纳

1回答

分发一个新的RDD，就像星火中现有的RDD一样？

我有两个具有不同密钥的RDD：RDD2: (K2, V2) 我有一个函数，它对来自V2的数据进行操作，然后映射K2和K1。结果是一个新的RDD，RDD3: (K1, V2_transformed)。我的最终结果是基于对RDD1's V1和RDD3 V2_transformed by key的一些操

浏览 8提问于2014-10-27得票数 1

回答已采纳

1回答

RDD和PipelinedRDD型

、

我对PySpark (更多的是对Scala的了解)有点陌生，最近我遇到了下面的观察。当我使用并行化()方法创建RDD时，返回类型是RDD类型。但是，当我使用range()方法创建RDD时，它的类型是PipelinedRDD。1,2,3,4,5,6,7])[1, 2, 3, 4, 5, 6, 7]<class '

浏览 6提问于2020-06-08得票数 1

回答已采纳

2回答

火花相交

、

我希望在pyspark中得到两个RDD的交集。它们看起来如下：rdd2 = sc.parallelize([["abc","123"],["df",345],["ghi","678"]) 是否可以使用pyspark的

浏览 4提问于2016-12-19得票数 1

回答已采纳

1回答

将字符串列表转换为Python

、

我有以下Python / Pyspark代码：df = spark.sql(sql_command) 文件"/opt/mapr/spark/spark-2.1.0/python/<

浏览 0提问于2017-08-09得票数 1

2回答

pyspark rdd/dataframe未在cassandra中自动创建表

、、、、

在检查了所有找到的源之后，datastax-spark-cassandra连接器支持在cassandra中使用scala和java中的rdd自动创建表。特别是对于pyspark，有另一个包可以完成这项工作-- 。但是即使有了这个包也不能自动创建表格。对于dataframe，我根本找不到任何选项。我刚接触pyspark和cassandra，任何帮助都是非常感谢的。尝试仅使用anguenot包作为依赖项。Spark版本: 2.4.7 Cassandra :最新docker镜

浏览 8提问于2021-03-03得票数 2

1回答

火花放电中循环到并行过程的替换

、、、

我在脚本中使用for循环为size_DF(数据帧)的每个元素调用一个函数，但这需要很长时间。我尝试通过逐个映射删除for循环，但是我没有得到任何输出。size_DF是我从表中获取的大约300个元素的列表。用于：size_RDD = sc.parallelizelength, end_date)if len(size_DF) == 0: print "

浏览 0提问于2018-02-28得票数 2

回答已采纳

1回答

PySpark和Scala

、、

它是混乱的多个火花版本，所以让我问它无论如何。注意，这个问题纯粹是从性能角度出发的，而不是从开发人员的生产力/技能角度考虑的。我是个新手，很多人都想知道2017年的最新状况。我知道python的JIT问题，这不是问题所在。这完全是从PySpark的角度出发的。我仍然无法理解为什么PySpark与直接使用scala的spark相比速度慢(或者说它是一条错误的语句)。<e

浏览 2提问于2017-10-08得票数 0

1回答

在PySpark中应用自定义函数时使用外部模块

、、

下面的代码片段试图将一个简单的函数应用于一个PySpark RDD对象：conf = pyspark.SparkConf()rdd = rdd.map(lambda line: line.split(","))rdd = <em

浏览 3提问于2016-03-20得票数 1

回答已采纳

1回答

需要RDD的实例，但返回了类“pyspark.rdd.PipelinedRDD”

、、、

df,spark):return result.rdd.sample(False, 0.1).map(lambda row : (row.temperature))任何帮助都将是

浏览 0提问于2017-06-04得票数 5

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

将键值rdd转换为仅包含值列表的rdd。

、、、

如何将键值rdd转换为只有PySpark中的值列表的rdd？假设rdd有(key1，“这是一个测试”)和(key2，“今天是周日”)，我想将这个rdd转换成一个包含(“这是一个测试”，“今天是周日”)的rdd。键值对是user_id和tweet，我希望首先标记这些tweet，并报告每个令牌的计数。然后对特定用户组执行相同的操作。都是PySpark的</em

浏览 0提问于2018-05-20得票数 0

回答已采纳

2回答

星火StorageLevel在本地模式不工作？

、

\pyspark后，输入到windows命令提示符中的 from pyspark import SparkConf, SparkContextrdd.persist(pyspark.StorageLevel.DISK_ONLY) rdd.take(60).show() *

浏览 2提问于2019-01-31得票数 0

2回答

对RDD的每个元素使用sparkcontext函数

、、

我需要使用Pyspark从Elasticsearch读取数据。我正在尝试在pyspark中设计一个流，如下所示-ii) foreach -in-rdd1"org.elasticsearch.hadoop.mr.LinkedMapWritable"，rdd2 = sc.newAPIHadoopRDD("org.elasticsearch.hadoop.mr.EsI

浏览 0提问于2016-07-11得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

我可以将pandas数据帧转换为spark rdd吗？

` `pyspark‘与` `pyspark’包

将Spark Dataframe列中的数据用作条件或其他列表达式中的输入

星火流+ MLlib相结合

spark:持久化分区不起作用

如何批量收集RDD中的元素

分发一个新的RDD，就像星火中现有的RDD一样？

RDD和PipelinedRDD型

火花相交

将字符串列表转换为Python

pyspark rdd/dataframe未在cassandra中自动创建表

火花放电中循环到并行过程的替换

PySpark和Scala

在PySpark中应用自定义函数时使用外部模块

需要RDD的实例，但返回了类“pyspark.rdd.PipelinedRDD”

在使用PySpark时，如何在Spark中实现Python数据结构？

将键值rdd转换为仅包含值列表的rdd。

星火StorageLevel在本地模式不工作？

对RDD的每个元素使用sparkcontext函数

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐