在spark 2.2中使用pandas_udf - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

带有PySpark 2.4的Pandas UDF

pandas、apache-spark、pyspark、apache-spark-sql

我正在尝试基于下面的spark文档使用PySpark 2.4，pyarrow版本0.15.0和pandas版本0.24.2执行pandas_udf，在调用pandas_udf函数时有问题。import pandas as pdfrom pyspark.sql.types import LongType# Declare the function and create the UDF de

浏览 1提问于2020-11-06得票数 0

2回答

使用部分函数的pyspark pandas_udf出错

python-3.x、pyspark、pandas-groupby、user-defined-functions

我想使用partial函数来做这件事，但它出错了。import SparkConf, SparkContextfrom pyspark.sql.functions import pandas_udf, PandasUDFType spark = SparkSession.builder.config(con

浏览 15提问于2019-12-18得票数 0

回答已采纳

1回答

可能将数据分解为拓扑的各个部分

python、pandas、apache-spark

所以我希望能够对每个块进行分块并使用toPandas#do chunking to take X records

浏览 1提问于2018-10-26得票数 10

回答已采纳

1回答

什么是计算向量列余弦相似度的最快方法？

python、apache-spark、dataframe、pyspark、apache-spark-sql

我目前的方法使用了一个udf，花费了几分钟时间，对于我想要创建的webapp来说太长了。[index, column]).Tdf_pd.head()df_pd_new = pd.DataFrame([[new_input]]) df_new = spark</e

浏览 2提问于2018-02-27得票数 6

5回答

如何修复"ImportError: PyArrow >= 0.8.0必须安装；但是，没有找到“？

apache-spark、pyspark、pyspark-sql

我使用PySpark 2.4.0并在pyspark中执行以下代码Python 2.7.16 (default, Mar 25 2019, 15:07:04) /_/ SparkSession available as 'spark'. >>> from pyspark.sql.functions i

浏览 6提问于2019-03-27得票数 4

回答已采纳

1回答

有没有办法在Spark中实现矢量化的UDF？

python、pandas、pyspark

在Pandas中，您可以这样做： @pandas_udf(df.schema, PandasUDFType.GROUPED_MAP) returnpdf.assign(v=pdf.v - pdf.v.mean()) df.groupby('id').apply(subtract_mean) 我们有没有办法在Spark中做到这一点？

浏览 26提问于2021-11-09得票数 0

2回答

如何在pyspark pandas_udf中记录/打印消息？

pandas、apache-spark、pyspark、user-defined-functions

我已经测试过logger和print都不能在pandas_udf中打印消息，无论是集群模式还是客户机模式。: ['a'] * 10 + ['b'] *7 + ['q']*3, }) LOGGER = log4jLogger.LogMana

浏览 0提问于2019-07-24得票数 6

1回答

BinaryType列转换为ArrayType(FloatType())

arrays、pyspark、casting、binary

我有一个BinaryType()列在DataFrame中，可以使用以下UDF将其转换为ArrayType()列：def我之所以问这个问题，是因为我对目前的方法有两个顾虑：从性能的角度来看，UDF可能不是最佳的方法(？)BinaryType()列是通过从JSON文件中读取它来创建的；在JSON中，它被存储为Base64编码的字符串。

浏览 13提问于2022-02-14得票数 1

1回答

在pandas_udf* spark中返回一个Pandas序列*

apache-spark、pyspark、apache-arrow

在Apache Spark上，我有一个应该返回pd.Series的pandas_udf函数，如何将其存档？我试过了：def udf

浏览 36提问于2020-02-27得票数 0

1回答

PySpark访问DataFrame列的foreachPartition()自定义函数

python、apache-spark、dataframe、iterator、pyspark

为此，我在我创建的dataframe上调用"foreachPartition(inside)“方法。"inside“函数需要dataframe值。

浏览 1提问于2018-05-22得票数 0

回答已采纳

1回答

熊猫用户定义函数Py4JJavaError

python、pandas、apache-spark、pyspark、user-defined-functions

我已经开始使用@pandas_udf来处理pyspark，在使用文档中的示例进行测试时，我发现了一个我无法解决的错误。我正在运行的代码是：from pyspark.sql.functions import pandas_udf, PandasUDFTypespark = SparkSession.builder.getOrCreate() df = spark.createDataFrame(

浏览 1提问于2020-05-12得票数 1

回答已采纳

1回答

有没有办法强制spark工作人员使用分布式的numpy版本，而不是安装在他们身上的版本？

pandas、apache-spark、pyspark、pyarrow

情况如下:在使用spark 2.3的企业集群上，我想运行pandas_udf，它需要pyarrow，而pyarrow需要numpy 0.14 (AFAIK)。我可以发布pyarrow (我想，没有办法100%验证这一点)： pyspark.sql.SparkSession.builder.appName("pandas_udf_poc").config("spark.executor.instances.config("spark.driver.

浏览 26提问于2018-12-17得票数 3

回答已采纳

3回答

PySpark抛出错误方法getnewargs([])不存在

python、apache-spark、pyspark、flatmap

使用apache，我需要对所有文件执行一个操作，并对结果进行处理。这是我为同样的代码编写的代码： return spark.read.text(file_name).rdd.map(lambda r: r[0]) file_name = 'path_to_file' spark = SparkSession \do_operation_on_each_li

浏览 0提问于2016-11-07得票数 19

回答已采纳

2回答

PySpark pandas_udfs java.lang.IllegalArgumentException误差

pandas、apache-spark、pyspark、pyarrow

有谁有在运行在Windows上的本地pyspark会话上使用的经验吗？我在linux上使用过它们，取得了很好的效果，但是在我的Windows机器上没有成功。pyarrow==0.15pandas==0.24示例脚本：spark.conf.set("spark.sql

浏览 0提问于2020-02-19得票数 8

回答已采纳

1回答

熊猫udf在火花放电中的窗口功能

python、sql、pandas、apache-spark、pyspark

目标是使用作为pyspark中的窗口函数。下面是一个很小的例子。df是一个pandas DataFrame和一个spark表：from pyspark.sql import SparkSession spark.createDataFrame(df).createOrReplaceTempView('df')In [10]: spark.sql('SELECT *

浏览 3提问于2022-04-30得票数 1

回答已采纳

1回答

Pandas UDF功能中未识别的功能

python、pyspark、user-defined-functions

我正在使用Pandas上的火星之火。我有一个主文件__main_.py，包含：from run_udf import compute spark= SparkSession.builder.getOrCreate() [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)], ("

浏览 1提问于2020-05-10得票数 3

1回答

PySpark:带有标量Pandas的无效returnType

apache-spark、pyspark、apache-arrow

我正在尝试从pandas_udf返回一个特定的结构。它在一个集群上工作，但在另一个集群上失败。我尝试在组上运行udf，这需要返回类型为数据框架。from pyspark.sql.functions import pandas_udfimport numpy as np 116 except TypeError: C:\opt\spark\spark

浏览 2提问于2018-03-26得票数 5

回答已采纳

1回答

如何将来自RDD.mapPartitions()的Pandas数据帧转换为Spark* DataFrame？*

python、pandas、apache-spark、pyspark

我在Spark2.2.0中使用pyspark的调用这个函数。但是我不能将mapPartitions()返回的RDD转换为Spark DataFrame。1.87, 0.6, 7.1), (-0.3, 0.1, 8.2), (2.8, 0.3, 6.1), (-0.2, 0.5, 5.9)], columns=("A", "B", "C")) result = rddIn.

浏览 11提问于2018-01-31得票数 3

回答已采纳

1回答

Pyspark中的Pandas Udf在yarn客户端或集群模式下仅在一个执行器中运行

python、pandas、apache-spark、pyspark

我有一个从Hive Table读取数据并应用pandas udf的代码，当它从表中读取数据时，它在11个执行器中运行，但是当它执行一个pandas udf时，它只使用一个执行器。spark-submit --master yarn --deploy-mode client --conf spark.dynamicAllocation.enabled=false --conf spark.executor.instances=20 code_test.py from pyspark.

浏览 12提问于2020-10-01得票数 0

2回答

查找最接近火花放电中的值列表的值。

python、dataframe、apache-spark、pyspark

np.random.randint(1, 100, 1000)spark_df= spark.createDataFrame(df)lst = [10, 20, 30] 我想检索所有3 (=len(lst))行的spark_df，以便lst和spark_df.x| y|

浏览 5提问于2021-09-28得票数 4

回答已采纳

点击加载更多

带有PySpark 2.4的Pandas UDF

使用部分函数的pyspark pandas_udf出错

可能将数据分解为拓扑的各个部分

什么是计算向量列余弦相似度的最快方法？

如何修复"ImportError: PyArrow >= 0.8.0必须安装；但是，没有找到“？

有没有办法在Spark中实现矢量化的UDF？

如何在pyspark pandas_udf中记录/打印消息？

BinaryType列转换为ArrayType(FloatType())

在pandas_udf* spark中返回一个Pandas序列*

PySpark访问DataFrame列的foreachPartition()自定义函数

熊猫用户定义函数Py4JJavaError

有没有办法强制spark工作人员使用分布式的numpy版本，而不是安装在他们身上的版本？

PySpark抛出错误方法getnewargs([])不存在

PySpark pandas_udfs java.lang.IllegalArgumentException误差

熊猫udf在火花放电中的窗口功能

Pandas UDF功能中未识别的功能

PySpark:带有标量Pandas的无效returnType

如何将来自RDD.mapPartitions()的Pandas数据帧转换为Spark* DataFrame？*

Pyspark中的Pandas Udf在yarn客户端或集群模式下仅在一个执行器中运行

查找最接近火花放电中的值列表的值。

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐