pandas的等价物是否适用于pyspark？

、

我真的希望能够在spark数据帧的整个列上运行复杂的函数，就像我在Pandas中使用apply函数所做的那样。例如，在Pandas中，我有一个apply函数，它接受一个混乱的域，比如sub-subdomain.subdomain.facebook.co.nz/somequerystring，然后输出facebook.com假设我有一个如下所示的简单函数，我从pandas DF列中提取日期的不同位： def format_da

浏览 23提问于2020-04-05得票数 2

1回答

如何在火花放电中实现.dot (AttributeError：'DataFrame‘对象没有属性’DataFrame‘)

、、

在熊猫中，我们知道点产品的df1.dot(df2.T)，但是当我在pySpark上运行时----> 1 df1.dot(df2.T) /opt/cloudera/parcels/CDH-7.1.3-1.cdh7.1.3.p0.4992530/lib/spark/python/pyspark

浏览 2提问于2022-07-09得票数 2

回答已采纳

1回答

PySpark中pandas.cut()的等价物是什么？

、、、

pandas.cut()用于将值绑定到离散的间隔中。0.587, 0.781)] Categories (3, interval[float64]): [[0.2, 0.393) < [0.393, 0.587) < [0.587, 0.781)] 如何在PySpark中实现相同的功能？我看过QuantileDiscretizer，但它绝对不是pd.cut()的等价物，因为它不返回间隔。

浏览 37提问于2021-05-06得票数 2

回答已采纳

1回答

Pyspark等同于pandas的所有函数

、、、、

True True None True None True NaN True True 在pysparkTrue None 1 True NaN True True 1 这可以通过df.all().astype(int)函数在pandas如果您对pyspark的等价物有任何帮助，将不胜感激。

浏览 22提问于2020-12-16得票数 0

回答已采纳

1回答

Pyspark相当于Pyodbc？

、、、、

我目前有以下Python代码，可以将本地SQL Server数据库中的表读入Pandas：import pyodbc server中做同样的事情。在Pyspark中，此代码的等价物是什么？我尝试过以下几种方法：import osfrom pyspark</em

浏览 0提问于2017-11-28得票数 3

1回答

使用“导入pyspark.pandas”导入错误

、、、

这是我正在做的新课程的一部分。我试图安装火花放电，我打算使用pyspark.pandas。我试着这样检查我的包裹。import pandas as pdimport pyspark.pandas as ps 但是当我运行导入时，我会看到下面的错误。ImportError: cannot import name 'print_exec' from 'pyspark.c

浏览 6提问于2022-06-25得票数 0

回答已采纳

2回答

我能够使用Talend job创建.csv文件，并且我想使用tSystem组件将.csv转换为.parquet文件？

我有一个创建.csv文件的Talend作业，现在我想使用Talend v6.5.1转换.parquet格式。我能想到的唯一选择是，tSystem组件从.csv临时登陆的本地或目录调用python脚本。我知道我可以使用pandas或pyspark很容易地将其转换，但我不确定同样的代码是否适用于Talend中的tSystem。能否请您提供建议或说明- import pandas as pd DF =

浏览 23提问于2019-07-10得票数 0

1回答

Pyspark管道在pandas数据帧上的应用

、、、

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

1回答

pandas_udf错误RuntimeError:来自pandas_udf的结果向量不是所需的长度:预期长度为12，实际长度为35

、、

我在下面的代码中遇到了pandas_udf错误。代码是创建一个基于另一列的数据类型的列。相同的代码适用于正常的较慢的udf (注释掉)。基本上，任何比"string"+data更复杂的东西都会返回一个错误。# from pyspark.sql.functions import udffrom pyspark.sql.functi

浏览 109提问于2019-11-28得票数 3

回答已采纳

1回答

如何在不将列列表临时存储到变量中的情况下重命名df列？

、、、

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： spark.read.format("snowflake")实际上，我想知道<

浏览 1提问于2021-04-21得票数 0

3回答

我可以将pandas数据帧转换为spark rdd吗？

Pbm：

浏览 0提问于2015-04-15得票数 4

3回答

在zeppelin中将pandas数据帧转换为spark数据帧

、、、

我是新来齐柏林飞艇的。我有一个用例，其中我有一个熊猫数据帧。我需要使用齐柏林飞艇的内置图表来可视化集合。我在这里没有明确的方法。我的理解是，如果数据是RDD格式，我们可以使用zeppelin可视化数据。首先，我尝试将pandas的数据帧转换为spark的数据帧，但失败了import pandas as pdprintsqlCt

浏览 0提问于2015-10-06得票数 17

1回答

尝试在Dataproc上提交作业时出现"ImportError:没有名为pandas的模块“

、、

但在尝试提交作业时，它返回ImportError: no module named pandas。我导入pandas，以及运行作业的脚本中的其他几个包。我不知道如何绕过这个问题。attributes/dataproc-role) apt-get install python-pandasinstall python-glob apt-get

浏览 1提问于2017-09-23得票数 0

2回答

在pandas中堆叠与Pandas* / SFrame等效的列表数组*

、

在pandas数据帧中是否有SFrame堆栈的等价物？Pandas自己的堆栈只适用于级别，而我正在寻找在包含列表的其他列的同一级别上扩展单个列。Input Dataframe:在实际数据框中还有一些像user这样的列| user | friends || 3 | [4, 5, 10, Non

浏览 5提问于2017-08-19得票数 1

回答已采纳

4回答

Pyspark:有没有等同于pandas info()的方法？

、、、

在PySpark中是否有与pandas info()方法等效的方法？我正在尝试获取有关PySpark中数据帧的基本统计信息，例如:列数和行数、空值数、数据帧大小 pandas中的Info()方法提供了所有这些统计信息。

浏览 4提问于2017-06-08得票数 6

1回答

Pyspark --如何离开合并数据帧

、、

在Pandas中，我可以像这样合并两个数据帧：3 baz 3 baz 75 foo 5 foo 8 在pyspark中会有什么等价物呢？

浏览 11提问于2020-05-30得票数 0

回答已采纳

1回答

改进Pandas在火花放电中的应用

、、、、

我必须在Pyspark中的滑动窗口内执行聚合。我可以很容易地通过构造一个Pandas来实现这一结果，它将Pandas中的某些列作为输入，将它们转换为Pandas DataFrame，然后计算聚合并返回标量结果。然后将UDF应用于所需的滑动窗口。是否有办法改善这种运算的计算时间？我正在数据库中使用Pyspark。我的熊猫UDF是： @pandas_udf(FloatType(), P

浏览 5提问于2021-04-11得票数 2

1回答

如何测试此函数？

、、、

SparkSession.builder.appName("App").getOrCreate() query = "SELECT * FROM table" return spark.createDataFrame(pandas_df) 要对其进行测试： from unittest importmock @mock.patch("pandas.re

浏览 16提问于2021-11-01得票数 1

回答已采纳

2回答

pyspark.pandas和熊猫有什么区别？

、

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将dataframe转换为系列化，但它并不将dataframe转换为串联，因为我的dataframe有多个列。有没有办法将pyspark.<e

浏览 8提问于2022-10-14得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在火花放电中实现.dot (AttributeError：'DataFrame‘对象没有属性’DataFrame‘)

PySpark中pandas.cut()的等价物是什么？

Pyspark等同于pandas的所有函数

Pyspark相当于Pyodbc？

使用“导入pyspark.pandas”导入错误

我能够使用Talend job创建.csv文件，并且我想使用tSystem组件将.csv转换为.parquet文件？

Pyspark管道在pandas数据帧上的应用

pandas_udf错误RuntimeError:来自pandas_udf的结果向量不是所需的长度:预期长度为12，实际长度为35

如何在不将列列表临时存储到变量中的情况下重命名df列？

我可以将pandas数据帧转换为spark rdd吗？

在zeppelin中将pandas数据帧转换为spark数据帧

尝试在Dataproc上提交作业时出现"ImportError:没有名为pandas的模块“

在pandas中堆叠与Pandas* / SFrame等效的列表数组*

Pyspark:有没有等同于pandas info()的方法？

Pyspark --如何离开合并数据帧

改进Pandas在火花放电中的应用

如何测试此函数？

pyspark.pandas和熊猫有什么区别？

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐