pyspark UDF函数返回类型

、、

除了名称和函数本身之外，还可以选择指定返回类型。当未指定返回类型时，我们将通过反射来推断它。参数：javaClassName - java类的全限定名 returnType -注册的Java函数的返回类型。该值可以是pyspark.sql.types.DataType对象，也可以是DDL格式的类型字符串。因此，如果我有10个Java UDF

浏览 76提问于2018-08-11得票数 0

1回答

是否有一种方法可以获得pyspark.sql.column.Column的dtype而不首先在pyspark.sql.DataFrame上调用它？

、、

这可能是一个小众问题，但假设您有一个定义如下的udf：import pyspark.sql.types as stWithout调用pyspark.sql.DataFrame上的udf，并在resultWithout上使用dtype()函数将该函

浏览 2提问于2021-11-20得票数 0

回答已采纳

1回答

将int列转换为列表类型pyspark

现在，我想将它从int类型转换为list类型。from pyspark.sql.types import ArrayType return [x]

浏览 1提问于2019-01-07得票数 3

回答已采纳

1回答

向量列到doubleType的电火花变换

、

我有一个向量类型的列，每个向量中有一个值。我只想得到这个值，并将该列保持为doubleType。|testcol|[1.2]|期望输出df：|1.3||3.4|remove_vector_func = udfremove_vector_func("testcol")) 我在printSchema()中看到，列类

浏览 1提问于2019-04-10得票数 1

1回答

、

street_address=None, subregion=None, type=None, zip_plus_4=None)])] 正如您所看到的，有一个名为isPrimary的字段，它是我想要选择的字段，这是我编写的函数Payload = {"lat":float(lat), "lon":float(lon)}| {}| | {

浏览 136提问于2021-07-30得票数 0

1回答

在Pyspark中使用UDF函数时，稠密向量应该是什么类型？

、、、、

我希望在pySpark中将列表更改为向量，然后使用此列进行机器学习模型的培训。但是我的星火版本是1.6.0，它没有VectorUDT()。那么，在我的udf函数中应该返回哪种类型呢？from pyspark.sql import SQLContextfrom pyspark.sql.functions,column return Vectors.dense

浏览 1提问于2018-04-03得票数 8

回答已采纳

1回答

从UDF返回ArrayType of StructType时出错(并且在多个UDF中使用单个函数)

(编辑)更改的字段名(来自foo，bar，.)因为旧的命名令人困惑from pyspark.sql.types import IntegerType, StructType, StringType from pyspark.sql.functionsArrayType的其他类型(StringType，IntegerType，.)例如，尽管如此。此外，在多个UDF中

浏览 0提问于2019-08-07得票数 0

回答已采纳

1回答

当输出是要从Pyspark使用的复杂类型(使用StructType和StructField)时，如何传递Scala UserDefinedFunction

、、、、

因此，我想创建一个可以在Pyspark中使用的scala UDF。我的问题是试图让这个在pyspark中可调用。StringType,true)),true)) 我的问题是我不能让它在Pyspark上工作。注册此函数时，我无法定义正确的返回类型。>) 返回类型是可选的，但是如果我省略了它，那么结果是[] (一个空列表) 所以..。我如何在pyspark中实际使用这个scala UDF？

浏览 29提问于2020-10-09得票数 4

回答已采纳

1回答

如何使用PySpark得到对应于最高tf的词？

、、

from pyspark.ml.feature import HashingTF, IDF, Tokenizer, CountVectorizer, StopWordsRemover from pyspark.ml

浏览 3提问于2018-10-10得票数 3

回答已采纳

1回答

将不带返回值的Python Lambda函数转换为Pyspark

、、、、

我在Python语言中有一个有效的lambda函数，它可以计算dataset1中的每个字符串与dataset2中的字符串之间的最高相似度。没有返回值，因为该函数的目的是向bigquery数据集中插入一行。这个过程需要相当长的时间，这就是为什么我想使用Pyspark和Dataproc来加速这个过程。将熊猫数据帧转换为spark很容易。我在注册udf时遇到了问题，因为它没有返回值，而pyspark需要一个返回值。此外，我不知道如何将python中的&#x

浏览 16提问于2019-07-19得票数 2

回答已采纳

1回答

ClassDict (用于pyspark.mllib.linalg.DenseVector)的构造所期望的零参数

、、、、

我知道错误了我有一个函数，我将其转换为udf，用于从dataframe如下所示： #does something udfunc = udf(func, ArrayType

浏览 0提问于2016-07-07得票数 7

回答已采纳

1回答

具有多个参数的用户定义函数返回空值。

、、、、

我试图将python函数转换为PySpark用户定义的函数，如下所示：from pyspark.sql.functions importudf,col,arrayfrom datetime import/input/applicationloan

浏览 8提问于2022-07-11得票数 2

回答已采纳

1回答

如何在pyspark.sql.Column上迭代？

、

我有一个DataFrame，我希望得到一个特定的列并迭代它的值。例如：1 23 7我通过df.userId获得df.userId列，对于本专栏中的每个userId，我想应用一个方法。我怎样才能做到这一点？

浏览 2提问于2017-10-04得票数 3

回答已采纳

1回答

Python to Pyspark函数UDF如何输出列表列表

、、、、

我在Python语言中有一个函数(有许多不同的函数，但情况相同)，我正在将它转换为PySpark，然而，这个函数有一个不同整数类型的列表作为输入，有一个输出是一个列表，其中包含n个整数类型的列表，举个例子pyspark.sql.functions import udffrom pyspark.sql import functions as F= udf

浏览 55提问于2021-09-19得票数 0

1回答

Spark DataFrame ArrayType或MapType用于检查列中的值

、、、、

与我相关的两个列类型是ArrayType和MapType。我可以使用映射类型，因为在map/dict中检查成员资格比检查数组中的成员资格更有效。但是，要使用映射，我需要使用自定义udf而不是内置(scala)函数array_contains进行筛选。有了MapType，我可以做到：from pyspark.sql.functions import udf df另一方面，内置

浏览 1提问于2018-10-30得票数 2

回答已采纳

2回答

pyspark寄存器内置函数及其在spark.sql查询中的使用

、、

在spark.sql查询中注册和使用pyspark version 3.1.2内置函数的正确方式是什么？下面是一个创建pyspark DataFrame对象并在纯SQL中运行简单查询的最小示例。For column literals, use 'lit', 'array', 'struct' or 'create_map' function...的pyspark内置函数运行相同查询的代码出现错误import pandas a

浏览 4提问于2021-08-19得票数 0

回答已采纳

1回答

pySpark中UDF返回对象的动态模式推断

、、、、

我想在pySpark中使用UDF，它不返回原子值，而是返回嵌套结构。我知道我可以注册UDF并手动设置它将返回的对象的模式。StructField('text',StringType()) )并在UDF</e

浏览 3提问于2017-03-16得票数 3

2回答

带有函数的pySpark* withColumn*

、、、

我有一个dataframe，它有两列: account _ id和电子邮件 _ address，现在我想再添加一列'updated _ 电子邮件 _ 地址‘，我在电子邮件中调用了一些函数 _ 获取更新的地址|djasevneuagsj1 |cde@test.com |null | +---------------+--------------+---------------+ 在函数内部更新_ 电子邮件‘它打印出来： Column 它还显示了df的列数据类型，如下所示： dfData:pyspark<

浏览 38提问于2019-12-13得票数 1

回答已采纳

1回答

如何从Pyspark中的UDF函数发送日志

、、

如果在PySpark中将任何类型的登录添加到UDF函数中，它将不会出现在任何地方。这是一种实现这一目标的方法吗？例如。下面是我想使用的一个函数： try: except Exception as e:logger.error(

浏览 0提问于2019-10-15得票数 5

0回答

如何在PySpark中创建一个返回字符串数组的自定义函数？

、、、、

我有一个返回字符串列表的udf。这应该不会太难。我在执行udf时传入了数据类型，因为它返回一个字符串数组：ArrayType(StringType)。predistposed |+----------------------+代码是 my_<em

浏览 6提问于2017-12-07得票数 26

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark (2.3+)可从PySpark/Python调用的Java函数

是否有一种方法可以获得pyspark.sql.column.Column的dtype而不首先在pyspark.sql.DataFrame上调用它？

将int列转换为列表类型pyspark

向量列到doubleType的电火花变换