在'None Type‘对象上转换pyspark dataframe失败

文章/答案/技术大牛

发布

1回答

、

我有一个有很多列的pyspark数据帧'data3‘。我试着对它运行kmeans，除了前两列，当我运行我的代码时，任务总是在TypeError上失败:浮动()参数必须是一个字符串或数字，而不是'NoneType‘，我做错了什么？

浏览 14提问于2019-08-01得票数 0

回答已采纳

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.sque

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

在DataFrame中将RDD转换为PySpark

、、

我无法将RDD数据转换为pyspark中的Dataframe。from pyspark.sql.types import StructType, StructField, StringType:阶段5.0中的任务0失败1次，最近的失败:在阶段5.0中丢失任务0.0 (TID 7) (IP-10-172-239-64.us-west-2计算程序)：org.apac

浏览 5提问于2021-04-02得票数 0

1回答

如何在Scala中将DataFrame转换为DynamicFrame对象

、、

我正在尝试将一些pySpark代码转换为Scala，以提高性能。在AWS (它使用Apache )中，会自动为您生成一个脚本，它通常使用DynamicFrame对象加载、转换和写入数据。但是，DynamicFrame类并不具有与DataFrame类相同的所有功能，有时您必须将其转换回DataFrame对象，反之亦然，以执行某些操作。下面是我如何在DataFrame中将DynamicFrame对象<e

浏览 1提问于2018-05-17得票数 3

回答已采纳

1回答

pyspark错误：'DataFrame‘对象没有属性'map’

、、

我正在使用Pyspark2.0通过读取csv来创建一个DataFrame对象，使用：我使用以下命令找到数据的类型type(data)pyspark.sql.dataframe.DataFrame 我正在尝试将数据中的一些列转换为LabeledPoint，以便应用分类。from pyspark.sql.types

浏览 4提问于2016-09-08得票数 6

1回答

pyspark.pandas.frame.DataFrame饼图

、、、、

如何为pyspark.pandas.frame.DataFrame生成相同的饼图？piefreq.plot.pie() 对于pandas.core.frame.DataFrame，我使用以下代码成功地生成了我想要的饼图

浏览 12提问于2022-06-25得票数 2

回答已采纳

1回答

星星之火1.6:如何将从Scala jar生成的RDD转换为吡火花RDD？

、、、

我正在尝试创建一些POC代码，演示如何从PySpark调用Scala函数，结果是一个PySpark.RDD。sc.parallelize(List.range(1, 10))这就是我在PySpark端访问它所做的事情：>>> jrdd = foo.getTestRDD(sc._jsc.sc()) >>> type

浏览 18提问于2017-05-05得票数 0

回答已采纳

1回答

PYSPARK:-在不丢失null值的情况下分解dataframe中的数组：“DataFrame”对象没有属性“_get_object_id”

、、、

调用下面的对象时出错是在不丢失空值的情况下分解dataframe中的数组，但在调用列时我得到错误，说对象没有属性‘_ code.This _ object _id’。from pyspark.sql import SparkSessionfrom pyspark.sql import Row frompyspark.sql.types import ArrayTyp

浏览 2提问于2018-07-05得票数 2

3回答

我可以将pandas数据帧转换为spark rdd吗？

Pbm： a)读取一个本地文件到Panda dataframe中，比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe中。c)需要使用spark将PD_DF写到HDFS。

浏览 0提问于2015-04-15得票数 4

2回答

如何在火花放电中将密集向量的关系式转换成DataFrame？

、、、、

0.0, 0.0, 0.0]), DenseVector([0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0])] fields = [StructField(k, _infer_type(v), True) for k,_infer_type raise TypeError(&

浏览 3提问于2016-12-26得票数 11

回答已采纳

1回答

用电火花将稠密向量转换成数据

、、、

我正试图将密集向量转换为dataframe (最好是星火)，并附带列名并遇到问题。from pyspark.ml.linalg import SparseVector, DenseVector temp: <type 'n

浏览 0提问于2018-09-27得票数 3

回答已采纳

3回答

如何在ipython中将Spark RDD转换为pandas数据帧？

、、、、

我有一个RDD，我想把它转换成pandas dataframe。我知道要将RDD转换为普通的dataframe，我们可以这样做但我想将RDD转换为pandas dataframe，而不是普通的dataframe。我该怎么做呢？

浏览 1提问于2016-01-16得票数 35

1回答

实例化时将SparkSession传递给自定义变压器

、

(让我们称之为my_transformers.py，我想：“好吧，我需要一个SparkSession对象来完成这个工作……所以让我们把它放在__init__方法上吧”。, HasOutputCol): def __init__(self, spark=None, inputCol='my_input', output_col)然后，在我的另一个模块/笔记本上： import

浏览 1提问于2019-05-17得票数 0

回答已采纳

3回答

错误: AttributeError：'DataFrame‘对象没有属性'_jdf’

我想要执行k-折叠交叉验证，使用吡火花来细化参数，我使用的是pyspark.ml。我得到了属性错误。AttributeError: DataFrame对象没有属性“_jdf”from pyspark import SparkConf, SparkContext from pyspark.ml.classification importDecisionTreeClassi

浏览 3提问于2019-04-10得票数 20

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

= hiveContext.sql("SELECT * FROM my_table")<class 'pyspark.sql.dataframe.DataFrame有一篇优秀的StackOverflow文章展示了如何在PySpark：中执行PCA>

浏览 1提问于2016-10-06得票数 4

回答已采纳

1回答

与单独运行相比，具有多个聚合的吡火花旋转数据要长/冻结得多。

、、

我想将用户的长格式转换为宽格式，例如：我做错了什么？df_groupby.pivot('day').agg(*aggs) aggs只是不同列(如f.sum(f.col(numeric_col))或f.first(f.col(string_col

浏览 1提问于2021-01-28得票数 1

1回答

星火DataFrame如何区分不同的VectorUDT对象？

、、、、

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。()root |-- SparseVectorvector (nullable = true) 但是当我一行

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

、、、

我知道python在库中是非常全面的，但是当我们切换到pyspark时，如果我们需要的东西还没有在pyspark中可用呢？你能把它们混合在一起，用python编写一部分代码，用pyspark编写一部分代码吗？

浏览 4提问于2017-08-30得票数 0

3回答

“DataFrame”对象没有属性“withColumn”

、

我正在尝试比较两个pandas数据帧，但是我得到一个错误，因为'DataFrame‘对象没有'withColumn’属性。可能的问题是什么？import pandas as pdpd_df1=pd.DataFrame(df1.dtypes

浏览 24提问于2019-07-11得票数 2

1回答

不需要两次指定参数的python包装函数

、、

我有一个函数来执行一些数据处理，例如： df: DataFrame, prev_fmt: str,from functools import wraps import pyspark

浏览 4提问于2022-10-07得票数 0

点击加载更多