Spark创建不接受输入的UDF

、、、、

我想向我的Spark dataframe添加一个具有随机生成的id的列。为此，我使用UDF调用UUID的随机UUID方法，如下所示： UUID.randomUUID().toString()val newDf = myDf.withColumn("id", idUdf($"

浏览 4提问于2017-01-26得票数 5

回答已采纳

1回答

Spark 2.1将UDF注册到functionRegistry

、、、、

嗨，我想注册一个已经创建的UDF对象。我使用的是SPART2.1，sparkSession.udf.register()函数不接受UDF参数，而只接受常规scala函数。很容易从大型Spark中漏掉一些东西，所以只需问一下，是否有一个函数或构造函数可以在2.1中允许这样做？

浏览 3提问于2017-11-17得票数 0

回答已采纳

2回答

可以在Spark Dataframe列中存储numpy数组吗？

、、

此函数返回一个numpy array，代码如下：dataframe = dataframe.withColumn('vector', create_vector_udf('text'))现在<

浏览 4提问于2017-07-07得票数 10

1回答

Scala火花UDF函数，它接受输入并将其放入数组中

、、、

我正在尝试为Spark创建一个Scala，它可以在Spark中使用。该函数的目标是接受任何列类型作为输入，并将其放入ArrayType中，除非输入已经是ArrayType。下面是我到目前为止掌握的代码：importorg.apache

浏览 8提问于2022-05-06得票数 0

1回答

spark UDF不接受数组

、

为什么Spark UDF函数不支持scala数组，而使用WrappedArray则可以呢？在这里的函数定义中，ArrayDate给出了Classcast异常。billdate"+billdate) } return billdate import org.apache.spark.sql.functions.udfval udffn = udf(getDate

浏览 10提问于2020-10-11得票数 0

1回答

mlflow.pyfunc.spark_udf与向量结构类型

、、

我的PySpark数据集包含分类数据。它在潘达斯身上运行得很好。(以下代码)。因此我需要让它在星火中发挥作用logged_model = 'runs:/e905f5759d434a131bbe1e54a2b/best-model' # Load model as a Spark</em

浏览 4提问于2021-07-26得票数 1

回答已采纳

1回答

删除火花- scala中word中的特殊字符

、、

我在French上有一个csv文件，其中包含像(é, à, è, ç)这样的特殊字符。我通过spark 2 - scala 2.11将这个csv文件放在hdfs中。我完成了数据的转换，然后将我的数据转移到Elasticsearch 5.6。é = eà = aval urlCleaner = (joined_df2:String)

浏览 2提问于2018-03-20得票数 2

回答已采纳

2回答

什么是非类型化Scala和类型化Scala？他们有什么不同？

、、

API with caution; 在Spark3.0中，默认情况下不允许使用org.apache.spark.sql.functions.udf在SparkVersion2.4和更低版本中，如果org.apache.spark.sql.functions.udf(AnyRef，DataType)获得带有基元类型参数的Scala闭包，则如果输入值为但是，在S

浏览 9提问于2020-12-03得票数 6

回答已采纳

1回答

Apache Spark* 2.3.0 -如何将两个array<string>合并成一个array<string>*

、、

将两个array<string>合并成一个array<string>在2.4.x版本中是可能的，也很容易，但在2.3.0版本中找不到这样做的方法。输入-预期输出-有人能解释一下如何使用Java在Spark中实现这一点吗？

浏览 9提问于2021-09-22得票数 1

2回答

星星之胞udf:没有处理程序用于联非新议程分析异常

、、、、

创建了一个项目‘spark udf’&编写的单元udf如下所示：import org.apache.hadoop.hive.ql.exec.UDF 构建它&为它创建jar。试图在另一个spark程序中使用此udf： spark.sql("CREATE OR REPLACE FUNCTION up

浏览 4提问于2018-09-04得票数 5

回答已采纳

1回答

在UDF如何通过Row？

、、

我正在用Java编写一个UDF。 UDF1<Dataset<Row>,String> myUDF = new UDF1<Dataset<Row>,String>() { public StringSystem.out.

浏览 0提问于2018-12-16得票数 1

2回答

如何在自定义函数中使用自定义类型？

、、

我需要编写一个具有特定类型的用户定义函数作为输入我创建了一个案例类Point当我在Sql查询中使用udf时，它不工作。

浏览 3提问于2017-05-05得票数 1

1回答

spark dataframe中键值对的字符串(无Pyspark)

、、

例如:我有一个带有字符串的列。我需要将其转换为元组或数组。主要的挑战是我需要整数形式的键和双精度形式的值。Array. 如果有人给我提供一个想法或建议，那就太好了。

浏览 15提问于2020-07-15得票数 0

回答已采纳

2回答

多列和集合元素的星火UDF模式匹配

、、

给定df如下：val df = spark.createDataFrame(Seq((3, 2, 1)我想编写一个udf，它以Three columns作为inout；并根据最高输入值返回新列，如下所示： import org.apache.spark.sql.functions.udfdef udfScoreToCategory=

浏览 5提问于2017-08-16得票数 0

回答已采纳

1回答

火花作业无需执行udf即可完成。

、

我有一个问题，一个长期的，复杂的火花工作，其中包含一个udf。输入的

浏览 0提问于2018-11-19得票数 0

2回答

如何将Spark* Dataframe列的每个值作为字符串传递给python UDF？*

、、、

我正在尝试GPG加密一个spark dataframe列FName我已经创建了一个udf，它接受字符串值作为输入，并提供加密的字符串作为输

浏览 4提问于2018-11-18得票数 1

1回答

注册匿名类功能

在编写spark代码时，我使用了UDF (用户定义函数)。UDF是一个接口，它以下面的方式实现。package sparkProject; import org.apache.spark.sql.api.java.UDF1(SparkSession spark) { spark.udf().register("regist

浏览 32提问于2020-01-12得票数 0

回答已采纳

2回答

数据库-创建永久用户定义函数(UDF)

、

我可以创建一个UDF函数，并使用spark.UDF方法注册到spark。但是，这仅适用于每个会话。如何在集群启动时自动注册python UDF函数？这些功能应该对所有用户都可用。

浏览 14提问于2019-02-16得票数 1

回答已采纳

1回答

我可以从apache spark* UDF返回一个Tuple2 (在java中)吗？*

、、、

我需要一个UDF2，它接受两个参数作为输入，对应于两个类型为String和mllib.linalg.Vector的Dataframe列，并返回一个Tuple2。这可行吗？如果是，我如何注册这个udf()？hiveContext.udf().register("getItemData", get_item_data, WHAT GOES HERE FOR RETURN TYPE?);UDF2<String,

浏览 11提问于2017-01-10得票数 1

回答已采纳

2回答

PySpark抛出ImportError，但模块实际上存在并运行良好

、、、、

我正在使用Cloudera，而Spark版本是2.1.0。 Master = tableA.crossJoin(tableB) \.withColumn('ratio',fuzz_udf(tableA['colA'],tableB['col

浏览 0提问于2017-07-11得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark 2.1将UDF注册到functionRegistry

可以在Spark Dataframe列中存储numpy数组吗？

Scala火花UDF函数，它接受输入并将其放入数组中

spark UDF不接受数组

mlflow.pyfunc.spark_udf与向量结构类型

删除火花- scala中word中的特殊字符

什么是非类型化Scala和类型化Scala？他们有什么不同？

Apache Spark* 2.3.0 -如何将两个array<string>合并成一个array<string>*

星星之胞udf:没有处理程序用于联非新议程分析异常

在UDF如何通过Row？

如何在自定义函数中使用自定义类型？

spark dataframe中键值对的字符串(无Pyspark)

多列和集合元素的星火UDF模式匹配

火花作业无需执行udf即可完成。

如何将Spark* Dataframe列的每个值作为字符串传递给python UDF？*

注册匿名类功能

数据库-创建永久用户定义函数(UDF)

我可以从apache spark* UDF返回一个Tuple2 (在java中)吗？*

PySpark抛出ImportError，但模块实际上存在并运行良好

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐