在pyspark中创建rdd的rdd

文章/答案/技术大牛

发布

1回答

需要RDD的实例，但返回了类“pyspark.rdd.PipelinedRDD”

、、、

嗨，我在Notebook中有这段代码，并尝试编写python spark代码： spark.sql("SELECTdf,spark):return result.rdd.sample(False, 0.1).map(lambda row : (row.temper

浏览 0提问于2017-06-04得票数 5

回答已采纳

1回答

如何在没有模式的情况下查询dataframe和rdd

如何将csv文件without any schema加载到spark rdd和dataframe中并分配模式AA,19970101,47.82,47.82,47.82,47.82,0

浏览 0提问于2019-07-17得票数 0

1回答

如何在Spark中从另一个RDD的前n项生成RDD？

在pyspark中给出一个RDD，我想创建一个新的RDD，它只包含它的前n项(副本)，如下所示： n=100 rdd2 = rdd1.limit(n) 除了RDD没有像DataFrame那样的方法limit注意，我不想收集结果，结果必须仍然是RDD，因此我不能使用RDD.take()。我使用的是pyspark

浏览 19提问于2019-10-13得票数 0

回答已采纳

1回答

如何从任何数据库表创建PySpark RDD？

由于我是星火社区的新手，任何人都能解释如何从数据库表创建PySpark RDD吗？我可以使用PySpark方法的textFile()方法从CSV文件创建SparkContext RDD。但我不知道从数据库表中创建PySpark RDD。

浏览 0提问于2018-02-10得票数 1

回答已采纳

2回答

、、、

可以在pyspark中创建rdd的rdd吗？我试过了rdd2=sc.parallelize([4,5,6])并得到错误

浏览 22提问于2019-11-17得票数 0

回答已采纳

4回答

从列表的RDD创建星火DataFrame

、、

我有一个rdd (我们可以称之为myrdd)，其中rdd中的每个记录都具有如下形式：我想把它转换成一个DataFrame --最简单的方法是什么？

浏览 0提问于2015-04-07得票数 15

回答已采纳

1回答

电火花纱获得烟斗拒绝许可

、、

我试图用CDH在纱线上运行电火花，在这个生火的主程序中，有一条类似于rdd.pipe("XXX.sh")的语句，每次我运行它时，都会弹出一个被拒绝的错误，我该怎么办来解决这个错误呢？谢谢。_0079/container_1495632173402_0079_01_000001/pyspark.zip/pyspark/rdd.py"，第2346行，在

浏览 3提问于2017-05-25得票数 0

1回答

如何使用pyspark.mllib rdd api度量来测量pyspark.ml (新数据帧api)？

、、

MlLib的旧API有评估指标类：，而新的dataframe API没有这样的类：它有计算器类，但它是有限的。

浏览 0提问于2016-09-06得票数 0

1回答

传递由: PySpark引起的函数错误的java.io.EOFException映射转换

当我试图将一个函数传递给Spark的map方法时，我遇到了一些问题。我的问题似乎是在功能，但不确定它。我的功能是这样的： rowDict = row.asDict() rowDicthash_column返回一个Row()对象，或者通过将函数简化为只返回("Hello")，但仍然收到相同的错误。在执行代码时，我收到了以下

浏览 34提问于2022-10-28得票数 0

2回答

在Spark中重命名缓存的RDD/Dataframe描述

、、

在Scala中，有一种名为setName的方法，它允许用户在Spark的Storage选项卡下指定用户友好地显示缓存的RDDs/Dataframes。(我在这个操作中使用Databricks ) 注意:我已经尝试使用使用Python 的setName方法，但这似乎没有更新Spark中存储选项卡中RDD名称的描述(每个"RDD名称“以查询形式显示)-有人知道我们如

浏览 10提问于2022-01-01得票数 0

3回答

检查类型:如何检查是RDD还是DataFrame？

、、、、

我使用的是Python，这是一个Spark RDD / DataFrame。我正在编写一个函数，其中RDD和DataFrame都可以传入，所以如果传入了DataFrame，我将需要执行input.rdd来获取底层的RDD。

浏览 1提问于2016-04-20得票数 11

回答已采纳

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

制作和操作numpy数组，并通过pyspark使用数据

、

我在使用pyspark.mllib.stat.KernelDensity中手工创建的测试数据时遇到了一个问题。在使用(某些)pyspark时，numpy.float和Python的通用float之间存在某种问题/差异；特别是使用numpy.float的中断构造的RDDs。有没有办法让我创建的NumPy数组的元素是python的浮点数而不

浏览 0提问于2018-05-15得票数 0

2回答

访问火花放电中的JavaRDD

、、、

在中，我通过调用从Java加载的类的静态函数来创建一个JavaRDD对象。是否可以使用Pyspark访问这个JavaRDD？将映射的RDD写入Spark表。获取表的<em

浏览 8提问于2015-08-20得票数 3

2回答

ValueError: object (3)的长度与字段长度不匹配

、、

我手动创建PySpark DataFrame，如下所示：[('timestamp', 1506340019), ('pk', 111), ('product_pk_1510134261242_0002/container_1510134261242_0002_01_000003/pyspark.zip/pyspark/worker.py", line 172,/

浏览 1提问于2017-11-08得票数 3

回答已采纳

1回答

火花放电中循环到并行过程的替换

、、、

我在脚本中使用for循环为size_DF(数据帧)的每个元素调用一个函数，但这需要很长时间。我尝试通过逐个映射删除for循环，但是我没有得到任何输出。size_DF是我从表中获取的大约300个元素的列表。用于：size_RDD = sc.parallelizenewObject.full_item(sc, dataBase, len(l[0]

浏览 0提问于2018-02-28得票数 2

回答已采纳

1回答

从RDD - PySpark创建数据帧

、、、

在执行PySpark代码时，通过提供所需的模式从现有的DataFrame创建DF时，我无法展示在什么情况下会引发以下异常，此代码在Databricks社区平台中执行。请帮助解决将数据框显示为输出的问题。代码： from pyspark import SparkConf, SparkContextsc = SparkContext.ge

浏览 108提问于2021-10-25得票数 0

回答已采纳

2回答

将数据从吡咯烷酮写入ElasticSearch

、、、、

这是我的剧本：from pyspark.sql import SQLContext17/05/05 17:51:52 INFO Executor: Running task 0.0 in stage 1.0 (TID 1) 17/05/05 17:51:52 INFO/pyspark/sql/da

浏览 1提问于2017-05-05得票数 4

回答已采纳

1回答

火花放电rdd分裂问题

、、

我试图从rdd中筛选值为"01-10-2019“的 ### Split <e

浏览 5提问于2020-02-08得票数 1

回答已采纳

1回答

RDD和PipelinedRDD型

、

我对PySpark (更多的是对Scala的了解)有点陌生，最近我遇到了下面的观察。当我使用并行化()方法创建RDD时，返回类型是RDD类型。但是，当我使用range()方法创建RDD时，它的类型是PipelinedRDD。1,2,3,4,5,6,7])[1, 2, 3, 4, 5, 6, 7] >>> print(type(listRDD

浏览 6提问于2020-06-08得票数 1

回答已采纳

点击加载更多