Pyspark -调用返回Series.interpolate()作为结果的pandas_udf时出错

Pyspark是一个用于大数据处理的Python库，它提供了与Spark分布式计算框架的交互能力。在Pyspark中，可以使用pandas_udf函数来定义和使用基于pandas的用户自定义函数，以实现在分布式环境中对数据进行处理和分析。

根据你提供的问题，当调用返回Series.interpolate()作为结果的pandas_udf时出错，这可能是由于以下原因之一导致的：

数据类型不匹配：在使用pandas_udf时，需要确保输入和输出的数据类型匹配。如果返回的Series.interpolate()方法的结果与定义的输出类型不一致，会导致错误。可以检查输出类型的定义和实际结果是否匹配，尝试使用cast函数将结果转换为正确的类型。
缺少必要的依赖：pandas_udf函数可能需要依赖其他库或模块才能正常工作。请确保所需的依赖已正确安装，并在代码中导入所需的模块。
数据处理逻辑错误：当调用Series.interpolate()方法时，可能存在数据处理逻辑上的错误。请检查代码中对数据的处理方式是否正确，并确保在调用该方法之前，数据具有正确的格式和结构。

总结起来，当调用返回Series.interpolate()作为结果的pandas_udf时出错时，建议首先检查数据类型是否匹配，确保所需的依赖已正确安装，最后检查数据处理逻辑是否正确。如果问题仍然存在，建议提供更多的错误信息和代码片段，以便进行进一步的排查和解决。

腾讯云相关产品和产品介绍链接地址：

腾讯云Pyspark文档：https://cloud.tencent.com/document/product/849/39051
腾讯云大数据平台TencentDB for PostgreSQL：https://cloud.tencent.com/product/tcpg
腾讯云大数据平台TencentDB for MySQL：https://cloud.tencent.com/product/cdb
腾讯云大数据平台TencentDB for MongoDB：https://cloud.tencent.com/product/cynosdb-mongodb
腾讯云大数据平台TencentDB for MariaDB：https://cloud.tencent.com/product/cynosdb-mariadb
腾讯云大数据平台TencentDB for Redis：https://cloud.tencent.com/product/cmem
腾讯云大数据平台TencentDB for TDSQL：https://cloud.tencent.com/product/tdsql
腾讯云大数据平台TencentDB for HybridDB：https://cloud.tencent.com/product/hybriddb

我可以给熊猫发送一个火花数据作为论据吗？

、、、、

是否有可能发送一个火花数据作为一个论据给熊猫UDF和得到一个熊猫的数据作为回报。下面是我正在使用的示例代码集，并且在调用函数时出错： import pandas as pd from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf spark = SparkSession \ .builder \ .appName("PrimeBatch") \ .master("local[*]") \ .getOrCreate()

浏览 4提问于2020-11-26得票数 1

回答已采纳

2回答

使用部分函数的pyspark pandas_udf出错

、、、

我定义了一个pandas udf函数，并希望将除pandas.Series或pandas.DataFrame之外的其他参数传递给udf函数。我想使用partial函数来做这件事，但它出错了。我的代码如下： from functools import partial from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf, PandasUDFType conf = SparkConf().setM

浏览 15提问于2019-12-18得票数 0

回答已采纳

5回答

如何修复"ImportError: PyArrow >= 0.8.0必须安装；但是，没有找到“？

、、

我使用PySpark 2.4.0并在pyspark中执行以下代码 $ ./bin/pyspark Python 2.7.16 (default, Mar 25 2019, 15:07:04) ... Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.4.0 /_/ Using Python version 2.7.16 (default, Mar 25

浏览 6提问于2019-03-27得票数 4

回答已采纳

1回答

为什么我的应用程序不从pandas_udf和PySpark+Flask开始呢？

、、

当我的Flask+PySpark应用程序有一个带有@udf或@pandas_udf注释的函数时，它将不会启动。如果我简单地删除注释，它就会启动。如果我尝试用烧瓶启动我的应用程序，就会执行脚本的第一次词法解释。例如，调试器在导入行(如从pyspark.sql.functions导入pandas_udf、udf、PandasUDFType )处停止。但是，根本没有执行任何语句，包括最初的app = Flask(name)语句。(这会是某种隐藏的例外吗？)如果我在没有烧瓶的情况下启动我的应用程序，具有相同的精确功能和相同的导入，它就会工作。这些是进口品： from pyspark.sql impo

浏览 5提问于2018-11-14得票数 3

1回答

grouped_agg : pandas_udf，Pyspark的多个参数

、、、

我正在尝试应用一个带有两个参数的pandas_udf。但是我得到了这个错误。首先，我尝试使用一个参数，它是可以的： from pyspark.sql.functions import pandas_udf, PandasUDFType from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession \ .builder \ .config('spark.cores.max', 100) \ .getOrCreat

浏览 24提问于2018-12-19得票数 3

1回答

pandas_udf给出了与pyarrow相关的错误

、、、、

我有一个数据帧，我想要在其中使用pysaprk中的polyline库获取给定地理位置的lat_long +-----------------+--------------------+----------+ | vid| geolocations| trip_date| +-----------------+--------------------+----------+ |58AC21B17LU006754|eurnE||yqU???????...|2020-02-22| |2T3EWRFV0

浏览 30提问于2020-08-31得票数 0

回答已采纳

1回答

在spark数据帧上实现pythonic统计函数

、、、

我在spark数据帧中有非常大的数据集，它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计，如mean、stdev、skewness、kurtosis等。如果我想使用像Jarque-Bera (JB)或Shapiro Wilk(SW)等高级统计测试，我会使用像scipy这样的python库，因为标准的apache pyspark库没有它们。但为了做到这一点，我必须将spark数据帧转换为pandas，这意味着将数据强制到主节点中，如下所示： import scipy.stats as stats pandas_df=spark_df.toPan

浏览 30提问于2020-09-13得票数 0

1回答

pandas_udf错误RuntimeError:来自pandas_udf的结果向量不是所需的长度:预期长度为12，实际长度为35

、、

我在下面的代码中遇到了pandas_udf错误。代码是创建一个基于另一列的数据类型的列。相同的代码适用于正常的较慢的udf (注释掉)。基本上，任何比"string"+data更复杂的东西都会返回一个错误。 # from pyspark.sql.functions import udf import pyspark.sql.types from pyspark.sql.functions import pandas_udf, PandasUDFType @pandas_udf(returnType=pyspark.sql.types.StringType(), functi

浏览 109提问于2019-11-28得票数 3

回答已采纳

1回答

当我使用UDF操作一个列时，它有一个问题

、、

当我使用UDF处理一列时，我不确定UDF处理是不是从这一列逐个处理元素？如果是的话，我不明白为甚麽会有问题。 import pyspark.sql.types as typ from pyspark.sql.functions import udf,pandas_udf, PandasUDFType def parse_model(v): return v.split(' ') Parse_model=pandas_udf(parse_model,typ.ArrayType(typ.StringType(),True)) sample_data_df.withColu

浏览 14提问于2019-05-20得票数 0

回答已采纳

1回答

在Palantir铸造代码库中定义Pandas UDF的正确方法是什么？

、、、

我想在Palantir Foundry代码库中定义以下pandas_udf。 @pandas_udf("long", PandasUDFType.GROUPED_AGG) def percentile_95_udf(v): return v.quantile(0.95) 但是，当我试图在全局范围内定义这个udf时，我会得到以下错误： AttributeError: 'NoneType' object has no attribute '_jvm' 但是，如果我在转换调用的函数中定义了相同的函数，则代码运行良好，如下所示： from pys

浏览 2提问于2021-03-02得票数 1

回答已采纳

1回答

PySpark:带有标量Pandas的无效returnType

、、

我正在尝试从pandas_udf返回一个特定的结构。它在一个集群上工作，但在另一个集群上失败。我尝试在组上运行udf，这需要返回类型为数据框架。 from pyspark.sql.functions import pandas_udf import pandas as pd import numpy as np from pyspark.sql.types import * schema = StructType([ StructField("Distance", FloatType()), StructField("CarId", IntegerTy

浏览 2提问于2018-03-26得票数 5

回答已采纳

1回答

如何在火花放电群中使用UDF？

、、、

我很难在火星雨上使用熊猫的UDF。你能帮我理解一下这是如何实现的吗？以下是我的尝试： import pyspark from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf from pyspark import pandas as ps spark = SparkSession.builder.getOrCreate() df = ps.DataFrame({'A': 'a a b'.split(), 'B&#

浏览 4提问于2021-10-27得票数 1

回答已采纳

2回答

pandas_udf在两个ArrayType(StringType())字段上操作

、、

我写了一本UDF。它非常慢。我想用pandas_udf代替它，以利用矢量化的优势。实际的udf有点复杂，但我已经创建了一个简化的玩具版本。我的问题是:在我的玩具示例中，是否有可能用一个利用向量化的pandas_udf替换UDF？若否，原因为何？我知道没有UDF我也能达到同样的效果。这是因为我简化了这个例子，但这不是我的目标。 from pyspark.sql import functions as f from pyspark.sql.types import ArrayType, StringType import pandas as pd #Example data df = sp

浏览 0提问于2019-09-05得票数 3

回答已采纳

1回答

利用ImageSchema从PySpark中应用主成分分析

、、、、

浏览 7提问于2020-06-30得票数 2

3回答

可以在纯Spark中使用吗？

、

这样做是可行的： from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf import pandas as pd spark = SparkSession.builder.getOrCreate() @pandas_udf(returnType="long") def add_one(v: pd.Series) -> pd.Series: return v.add(1) spark.udf.register("add_one", add

浏览 10提问于2021-10-18得票数 6

回答已采纳

2回答

要应用于PySpark中的窗口的用户定义函数？

、、、、

我正在尝试将用户定义的函数应用于PySpark中的窗口。我读到过UDAF可能是可行的，但我找不到任何具体的东西。举个例子(取自此处：，并针对PySpark进行了修改)： from pyspark import SparkConf from pyspark.sql import SparkSession from pyspark.sql.window import Window from pyspark.sql.functions import avg spark = SparkSession.builder.master("local").config(conf=Spark

浏览 0提问于2018-01-09得票数 11

回答已采纳

1回答

带有PySpark 2.4的Pandas UDF

、、、

我正在尝试基于下面的spark文档使用PySpark 2.4，pyarrow版本0.15.0和pandas版本0.24.2执行pandas_udf，在调用pandas_udf函数时有问题。 import pandas as pd from pyspark.sql.functions import col, pandas_udf from pyspark.sql.types import LongType # Declare the function and create the UDF def multiply_func(a, b): return a * b multiply

浏览 1提问于2020-11-06得票数 0

1回答

如何在pyspark中使用pandas_udf拆分dataframe中的字符串

、、

我只有一列的dataframe。我想使用pyspark中的pandas_udf拆分字符串。因此，我有以下代码： from pyspark.sql.functions import pandas_udf, PandasUDFType @pandas_udf('str') def split_msg(string): msg_ = string.split(" ") return msg_ temp = temp.select("_c6").withColumn("decoded", split_msg(temp._c

浏览 17提问于2019-10-03得票数 0

回答已采纳

1回答

在阵列上操作的熊猫UDF

、、

我有一个PySpark UDF，它接受一个数组并返回它的后缀： func.udf( lambda ng: ng[1:], ArrayType(IntegerType()) ) 是否有可能将其转化为标量pandas_udf？潘达斯提供必要的矢量化操作吗？谢谢

浏览 0提问于2019-01-30得票数 3

回答已采纳

1回答

熊猫用户定义函数Py4JJavaError

、、、、

我已经开始使用@pandas_udf来处理pyspark，在使用文档中的示例进行测试时，我发现了一个我无法解决的错误。我正在运行的代码是： from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf, PandasUDFType spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame( [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],

浏览 1提问于2020-05-12得票数 1

回答已采纳

1回答

无法在数据库中使用Pandas

、、、、

我必须运行一个以几个参数作为输入并返回一些结果作为输出的脚本，所以首先我在本地机器中开发了它--工作正常--现在我的目标是在Databricks中运行它，以便并行化它。当我试图将它并行化时，问题就出现了。我从已经挂载的Datalake中获取数据(问题不在那里，因为在读取DataFrame之后我能够打印它)，将其转换为Spark，并将每一行传递给按材料分组的主要函数： import pandas as pd import os import numpy as np import scipy.stats as stats from pyspark.sql import SparkSession

浏览 4提问于2021-04-16得票数 0

回答已采纳

2回答

如何将Python Pandas函数转换为Python PySpark

、、、

我目前在将Python Pandas函数转换为Python PySpark时遇到了一个问题，因为它们是不同的库。我想要做的是有一个查询函数，然后将它应用回相同的列。这是我为Python Pandas所做的(Age是我试图从中检索的数据集中的列)： Age = [1, 3, -100, -99999, 39, 60, 87, 20, 21, 77777] def clean_age(Age): if Age>=0 and Age<=95: return Age else: return np.nan df['Age&

浏览 17提问于2020-05-18得票数 0

回答已采纳

1回答

pandas_udf和to_pandas的区别是什么？

、

当我用熊猫清理大数据的时候，我有两种方法:一种是从pyspark 2.3+清洁数据中使用sdf，另一种是通过toPandas()将sdf转换成pdf，然后使用熊猫进行清洁。我搞不懂这些方法有什么不同？我希望帮手能从分布、速度和其他方面来解释。

浏览 1提问于2019-01-21得票数 1

回答已采纳

1回答

pyspark.sql 'pandas_udf()‘函数之前的冒号(:)？

、、

在pyspark.sql模块的apply()文档中，在函数'pandas_udf()‘之前提供了包含冒号的代码。这意味着什么，为什么包括在内？我在运行这一行时会遇到语法错误。文档中的代码如下。这是一个。显然，运行代码给了我一个语法错误。也试过移除冒号，但没有运气。 from pyspark.sql.functions import pandas_udf, PandasUDFType df = spark.createDataFrame( [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)], ("id"

浏览 0提问于2019-07-24得票数 1

回答已采纳

1回答

如何在结构化查询中使用scikit学习模型？

、、、

我正在尝试将使用泡菜检索的scikit模型应用于结构化流数据流的每一行。我尝试过使用pandas_udf (版本1)，它给了我这个错误： AttributeError: 'numpy.ndarray' object has no attribute 'isnull' 代码： inputPath = "/FileStore/df_training/streaming_df_1_nh_nd/" from pyspark.sql import functions as f from pyspark.sql.types import * data_s

浏览 4提问于2019-11-20得票数 1

回答已采纳

1回答

PySpark。将数据文件传递给pandas_udf并返回一个系列

、、、

我正在使用PySpark的新pandas_udf装饰器，我试图让它将多个列作为输入并返回一个系列作为输入，但是，我得到了一个TypeError: Invalid argument 示例代码 @pandas_udf(df.schema, PandasUDFType.SCALAR) def fun_function(df_in): df_in.loc[df_in['a'] < 0] = 0.0 return (df_in['a'] - df_in['b']) / df_in['c']

浏览 1提问于2018-11-29得票数 1

回答已采纳

1回答

基于火花放电的整列计算统计量

、、

我试图使用PySpark注释将一个发行版安装到整个pandas_udf列中。 therefore将该列拆分为较小的块，因此我无法获得基于整个人口的分布(该列的所有值)。这是我使用的代码： from pyspark.sql import Row import pandas as pd import numpy as np import scipy.stats as st l = [('a',0),('b',0.1),('c',0.2),('d',0.3),('e',0.4),('f',0.5)] r

浏览 0提问于2018-02-15得票数 0

回答已采纳

2回答

计算PySpark中每一行的唯一值

、、、、

我有PySpark DataFrame： from pyspark.sql.types import * schema = StructType([ StructField("col1", StringType()), StructField("col2", StringType()), StructField("col3", StringType()), StructField("col4", StringType()), ]) data = [("aaa", "aab", &

浏览 6提问于2022-10-17得票数 1

回答已采纳

1回答

在PySpark Pandas UDF中指定用户定义函数的正确方法

、、、、

我使用的是pyspark 2.4.2，所以对于这个版本的docs，可以这样做来创建一个GROUPED_MAP： from pyspark.sql.functions import pandas_udf, PandasUDFType df = spark.createDataFrame([(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],("id", "v")) @pandas_udf(returnType="id long, v double", functionType=PandasUDF

浏览 11提问于2021-01-08得票数 0

回答已采纳

1回答

如何将变量传递给UDAF (自定义聚合函数)

、

import pandas as pd import numpy as np from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.sql.functions import PandasUDFType, pandas_udf from pyspark.sql.types import * import os @pandas_udf(schema, functionType=PandasUDFType.GROUPED_MAP) def split(df, validation_

浏览 5提问于2020-09-21得票数 0

3回答

pySpark将mapPartitions的结果转换为spark DataFrame

、、

我有一个作业需要在分区的spark数据帧上运行，该进程如下所示： rdd = sp_df.repartition(n_partitions, partition_key).rdd.mapPartitions(lambda x: some_function(x)) 结果是pandas.dataframe的rdd， type(rdd) => pyspark.rdd.PipelinedRDD type(rdd.collect()[0]) => pandas.core.frame.DataFrame rdd.glom().collect()返回的结果如下： [[df1], [df2],

浏览 124提问于2019-12-10得票数 4

回答已采纳

2回答

火花放电drop_duplicates(keep=False)

、、、

我需要一个用于潘达斯 drop_duplicates(keep=False)的解决方案。不幸的是，keep=False选项无法在pyspark中使用..。 Pandas示例： import pandas as pd df_data = {'A': ['foo', 'foo', 'bar'], 'B': [3, 3, 5], 'C': ['one', 'two', 'three']} df = pd.DataFra

浏览 1提问于2019-01-09得票数 1

回答已采纳

2回答

使用Pandas矢量化UDF的Spark 3

、、

我正在考虑在PySpark (v3)中使用Pandas UDF。由于许多原因，我知道迭代和自定义定义函数通常是不好的，我也知道我在这里展示的简单示例可以使用SQL函数来完成PySpark -所有这些都不是重点！我一直在遵循这个指南：https://databricks.com/blog/2020/05/20/new-pandas-udfs-and-python-type-hints-in-the-upcoming-release-of-apache-spark-3-0.html 我有一个来自文档的简单示例： import pandas as pd from typing import It

浏览 19提问于2020-06-30得票数 0

回答已采纳

2回答

PySpark SQL中的用户定义聚合函数

、、、、

如何在PySpark SQL中实现用户定义的聚合函数？ pyspark version = 3.0.2 python version = 3.7.10 作为一个最小的例子，我想用一个UDAF替换AVG聚合函数： sc = SparkContext() sql = SQLContext(sc) df = sql.createDataFrame( pd.DataFrame({'id': [1, 1, 2, 2], 'value': [1, 2, 3, 4]})) df.createTempView('df') rv = sql.sql(

浏览 24提问于2021-03-09得票数 4

回答已采纳

2回答

pyspark寄存器内置函数及其在spark.sql查询中的使用

、、

在spark.sql查询中注册和使用pyspark version 3.1.2内置函数的正确方式是什么？下面是一个创建pyspark DataFrame对象并在纯SQL中运行简单查询的最小示例。尝试使用...TypeError: Invalid argument, not a string or column: -5 of type <class 'int'>. For column literals, use 'lit', 'array', 'struct' or 'create_map' fu

浏览 4提问于2021-08-19得票数 0

回答已采纳

1回答

如何在火花放电中计算指数加权移动平均

、、、

我试图使用分组Map在PySpark中运行指数加权移动平均。但是，它不起作用： def ExpMA(myData): from pyspark.sql.functions import pandas_udf from pyspark.sql.functions import PandasUDFType from pyspark.sql import SQLContext df = myData group_col = 'Name' sort_col = 'Date' schema = df.sele

浏览 0提问于2018-04-30得票数 3

1回答

更新日期时间戳而不转换为本地时间的pySpark

在pySpark需要转换外汇交易日期时间如day+1每天下午16点，所以我做了下面的代码，工作很好，但是当我试图截断小时/分钟/秒并保持最新，无论我做什么，系统总是转换为悉尼时间(我在悉尼澳大利亚)。我搜索了谷歌，知道我需要设置火花会话到格林威治时间，但是我使用的是一个叫做Palantir的系统，它与普通的pySpark代码编辑器不同，当我转储代码spark.conf.set("spark.sql.session.timeZone", "UTC")时，它总是给我错误。伦敦时区有没有什么办法可以不用设置spark时区就能一天一次地转？谢谢 .withColum

浏览 26提问于2019-08-28得票数 0

2回答

在StringType中将ArrayType转换为PySpark

、、、、

我正试图在我的数据集上运行PySpark中的PySpark算法。 from pyspark.ml.fpm import FPGrowth fpGrowth = FPGrowth(itemsCol="name", minSupport=0.5,minConfidence=0.6) model = fpGrowth.fit(df) 我得到了以下错误： An error occurred while calling o2139.fit. : java.lang.IllegalArgumentException: requirement failed: The input col

浏览 0提问于2018-04-05得票数 2

回答已采纳

2回答

使用带有逻辑语句的pandas_udf触发异常错误

、、、、

我正在尝试使用pandas_udf部署一个简单的if-else函数。以下是代码： from pyspark.sql import * from pyspark.sql.functions import * from pyspark.sql.types import * import pandas as pd @pandas_udf("string", PandasUDFType.SCALAR ) def seq_sum1(col1,col2): if col1 + col2 <= 6: v = "low" elif ((col1 + co

浏览 10提问于2021-01-13得票数 1

回答已采纳

1回答

Pandas UDF功能中未识别的功能

、、

我正在使用Pandas上的火星之火。我有一个主文件__main_.py，包含： from pyspark.sql import SparkSession from run_udf import compute def main(): spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame( [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)], ("id", "v"))

浏览 1提问于2020-05-10得票数 3

1回答

pyspark udf的写入测试

、

我有一些内部的python依赖项在spark pandas_udf中执行。为了传递参数，我们将其封装在另一个函数中。代码如下所示 def wrapper_fn(df, parameters): @pandas_udf(schema,GROUPED_MAP) def run_pandas_code(): """ Importing some python library and using it """ return pandas_df return df.groupby(<key&

浏览 14提问于2021-04-01得票数 1

1回答

每组合并以填充时间序列

、、

我试图合并每组两个数据格式，以填补每个用户的时间。考虑到下面的pyspark数据， df = sqlContext.createDataFrame( [ ('2018-03-01 00:00:00', 'A', 5), ('2018-03-01 03:00:00', 'A', 7), ('2018-03-01 02:00:00', 'B', 3), ('2018-03-01 04:00:00', 'B&#

浏览 0提问于2018-07-04得票数 3

回答已采纳

2回答

Pyspark:在数据帧的不同组上应用kmeans

、、、

使用Pyspark，我希望将kmeans单独应用于数据框架的组，而不是一次性应用于整个数据框架。目前，我使用了一个For循环，它在每个组上迭代，应用kmeans并将结果附加到另一个表。但是有很多组使得它很耗时。有谁能帮我吗？？非常感谢! for customer in customer_list: temp_df = togroup.filter(col("customer_id")==customer) df = assembler.transform(temp_df) k = 1 while (k < 5 & mtrc <

浏览 0提问于2017-11-10得票数 12

2回答

毫升起火花放电作用

、、、、

我对火种和蟒蛇有点陌生。我正在尝试将ML函数作为pyspark运行。下面是一个示例： from pyspark.sql.functions import col, pandas_udf from pyspark.sql.types import StringType df = spark.createDataFrame(['Bob has a dog. He loves him'], StringType()) def parse(text): import spacy import neuralcoref nlp = spacy.load(

浏览 2提问于2020-06-16得票数 5

1回答

不能在pyspark中使用python eval()作为pandas udf，但在python udf中使用相同

、、、、

我是pyspark中的pandas udf的新手，需要帮助为大型数据帧(>1亿行)中的每一行应用udf。我的dataframe中有一列，其中包含使用dataframe中的列的多个条件。对每一行应用条件的最好方法是使用python eval。当在python udf中使用python eval时，它工作得很好，但是运行起来需要很长时间，因为我有几百万行。同样，在Pandas udf中尝试运行失败时，会抛出Python异常"PythonException:从UDF抛出异常：'TypeError: eval() arg1必须是字符串、字节或代码对象‘“ 示例代码如下，此代码不

浏览 29提问于2021-06-25得票数 0

2回答

如何在Pyspark中将阿拉伯文本(٠٤-٢٥-٢٠٢١)中的日期时间解析为英语日期

、、

我正在读取包含一些日期列的JSON文件。问题是某些日期列包含阿拉伯语/乌尔都语文本的日期： ٠٤-٢٥-٢٠٢١ 我想把它转换成yyyy-mm-dd格式的英文日期。如何在Pyspark中实现这一点？

浏览 40提问于2021-09-11得票数 5

回答已采纳

1回答

无法在PySpark项目中生成文档而不运行session

、、、、

我有一个Python包，其中有一个模块，其中包含要在PySpark设置中使用的UDF。在运行单元测试时，我已经想出了一种初始化和关闭Spark会话的方法，但是我在创建文档时遇到了问题。我使用的是，所以我只需运行make clean docs并遇到以下错误： File "/usr/local/lib/python3.9/site-packages/pyspark/sql/pandas/functions.py", line 432, in _create_pandas_udf return _create_udf(f, returnType, evalType)

浏览 8提问于2022-03-31得票数 1

回答已采纳

1回答

熊猫UDF方法getstate([])不存在误差

、、、

我正在使用pyspark 2.4.1，并试图用下面所示的Pandas编写一个简单的函数。基本上，创建一个新列并根据df.x=='a'和df.y=='t'分配字符串值。但是，我一直收到Method __getstate__([]) does not exist错误。下面是我尝试过的两种使用Pandas的方法，并且不确定编写它的其他方法是什么：数据 x = pd.Series(['a', 'b', 'c']) y = pd.Series(['t','t','t'])

浏览 1提问于2021-03-19得票数 0

回答已采纳

2回答

运行和/累积和与地板和天花板Py火花

、、、

我是新来的火花，我正在计算一个窗口运行的总和是0，上限为8 下面给出了一个玩具示例(注意实际数据更接近数百万行)： import pyspark.sql.functions as F from pyspark.sql import Window import pandas as pd from pyspark.sql.functions import pandas_udf, PandasUDFType pdf = pd.DataFrame({'ids': [1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3],

浏览 4提问于2019-12-06得票数 3

回答已采纳

1回答

基于火花放电柱值的圆

、、、

我需要根据summary_measure_value值舍入reading_precision from pyspark.sql.functions import * import pyspark.sql.functions as F from pyspark.sql import * df = spark.createDataFrame( [(123, 2897402, 43.25, 2), (124, 2897402, 49.25, 0), (125, 2897402, 43.25, 2), (126, 2897402, 48.75, 0)] , ['model_id',

浏览 5提问于2021-06-22得票数 0

回答已采纳