根据行值对pyspark dataframe应用UDF

文章/答案/技术大牛

发布

1回答

、、、、

我有一个具有以下模式的pyspark dataframe +-----------+---------+----------+-----------++-----------+---------+----------+-----------+ 对于grouping2 A、B、C和D中的值，我需要分别应用UDF_A、UDF_B、UDF_C和UDF_D。.

浏览 12提问于2021-01-21得票数 0

2回答

计算PySpark中每一行的唯一值

、、、、

我有PySpark DataFrame： StructField("col1", StringType"cc", "dd"),我需要计算每一行中唯一值的计

浏览 6提问于2022-10-17得票数 1

回答已采纳

1回答

矢量化火花放电地距计算

、、、

我有两个数据集：分：{‘纬度’：数字，‘经度’：数字，‘收入’：} 我基本上需要计算df中的每一行和每一行的百分比之间的距离，当距离是

浏览 0提问于2018-03-14得票数 0

回答已采纳

1回答

我正在寻找一种方法来减少在我的大型数据集上计算SHAP值所需的计算时间(大约180米行，6个特性)，我遇到了这个，讨论了如何在SHAP上使用PySpark。def calculate_shap(iterator: Iterator[pd.DataFrame]) -> Iterator[pd.DataFrame]: for X in iterator代码片段演示了如何在PySpark中使用Pandas并行化应用扩展程序。我们定义了一个名为calculate_

浏览 6提问于2022-07-28得票数 2

5回答

更新spark中的dataframe列

、、、、

查看新的spark API，还不清楚是否有可能修改DataFrame列。from pyspark.sql import functions as F df = df.withColumn('new_column_name

浏览 12提问于2015-03-17得票数 95

回答已采纳

2回答

Pyspark UDF - TypeError：“module”对象不可调用

、、

根据我在网上找到的一些教程，我正在尝试运行以下代码：from pyspark.sql import SparkSessionfrom pyspark.sql import udfdata={'integers': [1, 2, 3],) df = spar

浏览 1提问于2019-03-01得票数 1

1回答

如何将udf添加到sqlContext中

、、

", example)或者我可以用udf包装Python函数，这样就可以将它应用于dataframe：from pyspark.sql.types import IntegerType example_udf = udf(example

浏览 1提问于2018-04-13得票数 0

回答已采纳

1回答

不能在pyspark中使用python eval()作为pandas udf，但在python udf中使用相同

、、、、

我是pyspark中的pandas udf的新手，需要帮助为大型数据帧(>1亿行)中的每一行应用udf。我的dataframe中有一列，其中包含使用dataframe中的列的多个条件。对每一行应用条件的最好方法是使用python eval。当在python udf中使用python eval时，它工作得很好，但是运行起来需要很长时间，因为我有几百万行。同样，在Pandas <

浏览 29提问于2021-06-25得票数 0

2回答

如何在PySpark 1.6中将DataFrame列从字符串转换为浮点型/双精度？

、、、

在Spark1.6 DataFrame中，目前没有PySpark内置函数可以将字符串转换为浮点型/双精度型。New_DF = rawdataDF.select('house name', float('price

浏览 0提问于2016-02-28得票数 5

2回答

DataFrame在PySpark中的逐行操作

、、

如果有一个DataFrame，并希望根据行的值对函数中的数据进行一些操作。my_udf(row): if row.val_x > threshold return row return row 有人知道如何将我的udf<

浏览 1提问于2017-08-22得票数 1

回答已采纳

3回答

withColumn不允许我使用max()函数生成新列

、、、

sc.parallelize([[1,2,3],[0,2,1],[9,8,7]]).toDF(["one", "two", "three"]) File "<stdin>", line 1, in <module> File "/opt/spark152/python/pysp

浏览 6提问于2016-06-15得票数 6

回答已采纳

7回答

PySpark -从值列表中添加列

、、、、

我必须根据一个值列表将列添加到PySpark数据。spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"])我需要在dataframe后面

浏览 13提问于2018-01-09得票数 16

回答已采纳

1回答

如何根据PySpark中其他列中的计算创建新列

、、、

我有一个下面的DataFrame：| some_id | one_col | other_col|| xx4 | 0| 12473| 我需要添加一个新列，它基于对第一和第二列进行的一些计算，但是如何根据结果直接添加一个新列值呢？一些伪码： import pyspark</em

浏览 0提问于2018-04-27得票数 1

回答已采纳

1回答

如何将numpy.array作为新列添加到pyspark.SQL DataFrame？

、、、、

下面是创建pyspark.sql DataFrame的代码import pandas as pddf = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]),也许可以使用udf，但我不知道如何创建一个为每个DataFrame<em

浏览 0提问于2015-08-11得票数 6

1回答

用户定义函数返回序列

、、

我正在尝试将python函数转换为UDF，以便在上使用。该函数将列名与列值连接起来，然后以行方式连接生成的字符串。例如： def get_vector(datafra

浏览 3提问于2021-07-21得票数 2

回答已采纳

1回答

是否在不使用UDF的情况下向pyspark* dataframe添加新列？*

、、

我目前有一个pyspark dataframe，其中一列包含我想要使用我编写的返回信息字符串的函数查找的数字行。我知道最简单的方法是使用withCoulmn并定义一个UDF来从旧的列创建一个新列，但是我的函数不能将它注册为UDF.Is的方式使我可以基于旧列的值创建一个新的dataframe而不需要创建一个UDF？

浏览 5提问于2017-08-01得票数 1

回答已采纳

2回答

查找最接近火花放电中的值列表的值。

、、、

让我们假设拥有这个Pyspark dataframe：y = np.random.randint(1, 100, 1000)spark_df = spark.createDataFrame(df)lst

浏览 5提问于2021-09-28得票数 4

回答已采纳

1回答

在列表达式中处理Pyspark中的空值

、

我一直在为pyspark中的一个问题抓挠我的头。df.where(my_col.isNull()).select(my_udf(my_col)).toPandas()my_res_col = F.when(my_col.isNull(), F.lit(0.

浏览 0提问于2020-07-02得票数 0

1回答

过滤Spark SQL数据帧中的距离

、、、、

我有一个带有纬度和经度列的Spark SQL DataDrame，我试图通过计算到输入的距离来过滤低于阈值的行。我当前的代码看起来像这样。我使用geopy (great_circle)来计算后面长对之间的距离。Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~' for 'not' when building DataFram

浏览 11提问于2017-12-19得票数 0

回答已采纳

1回答

PySpark: UDF不是在数据文件上执行的

、、、、

我正在使用PySpark在木星上的Azure。我试图使用UDF在dataframe上进行测试，但是UDF没有执行。我的dataframe是通过以下方式创建的：我已经确认这个数据被填充了100行。我还试过使用pyspark.sql.functions from pyspark.sql.functio

浏览 0提问于2016-03-24得票数 1

回答已采纳

点击加载更多