使用pyspark将RDD转换为DataFrame - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

火星雨流中的to.JSON()

、、、、

采用toJSON()方法将DataFrame转换为文档的RDD，并在火花流的transform()函数中实现了这一转换。我使用pyspark进行编码，如下所示： rddDataframe = sqlContext.createDataFrame(rdd)return rdd dstream_test = d

浏览 2提问于2016-06-30得票数 0

2回答

RDD[string]：将DataFrame转换为pyspark

、、、、

我想将pyspark.sql.dataframe.DataFrame转换为pyspark.rdd.RDD[String]data = df.rddtype (data)新的RDD data包含Row first =

浏览 2提问于2016-02-17得票数 8

回答已采纳

7回答

到目前为止，Spark还没有为流数据创建DataFrame，但是当我进行异常检测时，使用DataFrame进行数据分析更方便、更快。我尝试了几种方法，但仍然无法将DStream转换为DataFrame，也无法将DStream中的RDD转换为DataFrame。ssc.socketTextStream()方法读取输入流数据时，它会生成DStream，然后我尝试将DStream中的每个个体转换为

浏览 2提问于2016-02-06得票数 10

回答已采纳

1回答

如何使用pyspark.mllib rdd* api度量来测量pyspark.ml (新数据帧api)？*

、、

MlLib的旧API有评估指标类：，而新的dataframe API没有这样的类：它有计算器类，但它是有限的。

浏览 0提问于2016-09-06得票数 0

4回答

PySpark计算相关性

、、、、

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。corr函数期望接受rdd of Vectors对象。如何将df['some_name']列转换为rdd of Vectors.dense对象？

浏览 12提问于2016-06-03得票数 16

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

、、、、

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。在pandas数据帧中，我可以将第三列视为dtype=object。pdDF = pandas.DataFrame(myRdd, columns=columnNames) 我可以做一些类似的事情，将上述格式的pyspark RDD转换为pyspark D

浏览 1提问于2018-04-07得票数 1

1回答

声明字段类型和实际字段类型不匹配时生成空值的PySpark* SQLContext.createDataFrame*

、、

在PySpark (v1.6.2)中，当使用指定的模式将RDD转换为DataFrame时，值类型与模式中声明的值类型不匹配的字段将转换为null。from pyspark import SparkContextfrom pyspark.sql.types import StructTypesqlContext = SQLCont

浏览 27提问于2016-07-27得票数 0

回答已采纳

1回答

星星之火1.6:如何将从Scala jar生成的RDD转换为吡火花RDD？

、、、

我正在尝试创建一些POC代码，演示如何从PySpark调用Scala函数，结果是一个PySpark.RDD。以下是Scala端的代码：>>> type(moo) >>> <class 'pyspark.rdd.RDD</em

浏览 18提问于2017-05-05得票数 0

回答已采纳

4回答

如何在结构化流式传输中将数据帧转换为rdds？

、

我使用pyspark流从kafka获取数据，结果是一个dataframe，当我将dataframe转换为rdd时，它出错了： Traceback (most recent call last):File "/home/softs/spark-

浏览 56提问于2020-01-06得票数 3

1回答

如何在PySpark中从文本文件创建DataFrame？

、、、

我是Pyspark的新手，我想在pyspark中将txt文件转换为Dataframe。我正在尝试让pyspark中的数据整齐。有什么帮助吗？谢谢我试着这样做，但它还没有起作用。# read input text file to RDD lines = sc.te

浏览 11提问于2019-07-11得票数 0

回答已采纳

1回答

使用整行udf过滤Pyspark Dataframe

、、

有没有办法选择整行作为一列输入到Pyspark过滤器udf中？我有一个复杂的过滤函数"my_filter“，希望应用于整个DataFrame：new_df我知道我可以将dataframe转换为RDD，然后使用RDD的filter方法，但我不希望将其转换为RDD，然后再转换回data

浏览 2提问于2018-08-28得票数 4

回答已采纳

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

如何从文件中读取数据并将其传递给Spark/PySpark中的FPGrowth算法

、、、

我试图从文件(用逗号分隔的项)中读取数据，并使用FPGrowth算法将这些数据传递给PySpark算法。到目前为止，我的代码如下：from pyspark import SparkContext data = txt.map(lambda line:

浏览 4提问于2017-12-11得票数 0

回答已采纳

1回答

如何阻止pyspark* dataframe变为list？*

、

我从一个pyspark dataframe开始，在对它使用.take()之后转换成一个列表。我怎么才能保持它是pyspark数据帧呢？df1 = Ce_clean df1 = df1.take(1000)<class 'pyspark.sql.dataframe.DataFrame

浏览 1提问于2020-09-17得票数 1

3回答

我可以将pandas数据帧转换为spark rdd吗？

Pbm： a)读取一个本地文件到Panda dataframe中，比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe中。c)需要使用spark将PD_DF写到HDFS。

浏览 0提问于2015-04-15得票数 4

1回答

星星之火:如何将元组转化为DataFrame

、、

我使用以下方法将其转换为DataFrametrain_label_df = train_rdd.map(lambda x: (Row(**dict_/container_05_000002/pyspark.zip/pyspark/rdd.py", lineFile "/mnt&#

浏览 8提问于2020-07-07得票数 1

回答已采纳

1回答

spark流式传输到pyspark* json文件中的数据帧*

、、、

我正在从kafka流式传输json数据，我需要转换为pyspark中的Dataframe。为了流媒体，我使用了下面的代码。pddef convert_Json2DF(time,rdd): nf.toDF().show()# Convert RDD[String] to RDD[Row] to DataFrame #rowRdd

浏览 3提问于2017-07-30得票数 0

1回答

如何将PySpark* RDD转换为具有未知列的Dataframe？*

、、、

我是通过从RDD中的文本文件加载数据来创建PySpark的。现在，我想将这个RDD转换成一个dataframe，但是我不知道RDD中有多少列和列。我正在尝试使用createDataFrame()和语法，因为它是sqlDataFrame = sqlContext.createDataFrame(rdd, schema)。现在，由于我不知道列是什么，所以如何将rdd转换为dataframe？到目前为止，

浏览 9提问于2017-04-07得票数 2

2回答

如何在火花放电中将密集向量的关系式转换成DataFrame？

、、、、

我有这样的DenseVector RDD[DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0,0.0, 0.0]), DenseVector([0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0])]

浏览 3提问于2016-12-26得票数 11

回答已采纳

4回答

从列表的RDD创建星火DataFrame

、、

我有一个rdd (我们可以称之为myrdd)，其中rdd中的每个记录都具有如下形式：我想把它转换成一个DataFrame --最简单的方法是什么？

浏览 0提问于2015-04-07得票数 15

回答已采纳

点击加载更多

火星雨流中的to.JSON()

RDD[string]：将DataFrame转换为pyspark

如何将星火流数据转换为星火DataFrame

如何使用pyspark.mllib rdd* api度量来测量pyspark.ml (新数据帧api)？*

PySpark计算相关性

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

声明字段类型和实际字段类型不匹配时生成空值的PySpark* SQLContext.createDataFrame*

星星之火1.6:如何将从Scala jar生成的RDD转换为吡火花RDD？

如何在结构化流式传输中将数据帧转换为rdds？

如何在PySpark中从文本文件创建DataFrame？

使用整行udf过滤Pyspark Dataframe

将数据保存到HDFS的格式是什么？

如何从文件中读取数据并将其传递给Spark/PySpark中的FPGrowth算法

如何阻止pyspark* dataframe变为list？*

我可以将pandas数据帧转换为spark rdd吗？

星星之火:如何将元组转化为DataFrame

spark流式传输到pyspark* json文件中的数据帧*

如何将PySpark* RDD转换为具有未知列的Dataframe？*

如何在火花放电中将密集向量的关系式转换成DataFrame？

从列表的RDD创建星火DataFrame

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐