示例Java程序中的Spark UDF反序列化错误

、

当我在我的spark(用java编写)应用程序中使用UDF函数时，我得到了这个错误。处不可序列化...由:类: jp.co.nec.necdas.commons.customize.service.dataset.ALMTriggerProcessLogic序列化堆栈：-对象不可序列化引起，所以我尝试了一下，但得到了如下相同的错误：由:类: jp.co.nec.necdas.commons.<em

浏览 0提问于2019-10-17得票数 0

1回答

、、、

import org.apache.spark.sql.*;import org.apache.spark.sql.types.DataTypes("SELECT 5 + 1").show(); spark.udf().register("plusOne", (UDF1<Integer, Integer

浏览 64提问于2020-10-11得票数 1

1回答

星星之火SQL并使用现有的hive udfs

、、、、

我必须阅读spark中现有的hive，所以在spark.sql中我创建了临时函数并使用它，它在火花外壳中工作得很好，但是在火花-提交错误时失败了： com.xxx.x.x.udfs.isb_udf.evaluate(Java.lang.string)：org.apache.hadoop.hive.metadata.HiveException :无法在xxxx类的对象xxxx.udf上执行方法公共静态布尔xxxx.<

浏览 0提问于2019-07-14得票数 2

1回答

Spark任务不可序列化

、、、

我们正在迁移我们的变异代码从Hadoop到星火运行在卡桑德拉之上(通过DataStax企业)。DSE 4.7在生产中，4.8在发展中。我们的数据的每一个文本值都是前缀和后置“。

浏览 3提问于2016-03-23得票数 1

回答已采纳

1回答

UDF返回"sc不可序列化“。

、、

我有一个来自Cassandra数据库的数据集，使用下面的代码片段创建，然后我尝试在其中一个列上创建一个UDF。但是，在这样做时，我会得到错误的java.io.NotSerializableException: org.apache.spark.SparkConf。load() 我已经将UDF简化为给定列中字符串的长度。dfSurvey.withColumn("respText",responseFromJsonTe

浏览 0提问于2017-03-13得票数 0

回答已采纳

2回答

使用tensorflow.keras模型在pyspark中产生一个泡菜错误

、、、、

我想在pysark pandas_udf中使用tensorflow.keras模型。但是，在将模型发送给工作人员之前，当模型被序列化时，我会得到一个泡菜错误。我不确定我是否正在使用最好的方法来执行我想要的，因此我将公开一个最小但完整的示例。是一个pandas_udf： '''Spark pandas <e

浏览 11提问于2020-04-08得票数 4

回答已采纳

2回答

Spark (2.2)：使用结构化流对Kafka中的Thrift记录进行反序列化

、、、

我是spark的新手。我使用结构化流媒体从kafka中读取数据。我可以在Scala中使用以下代码读取数据： .format("kafka") .option("startingOffsets", startingOffsets) .

浏览 1提问于2017-10-19得票数 2

1回答

似乎不适用于星火提交。

、、、

我无法让UDF与火花提交工作。我在使用火花壳的时候没有任何问题。会感谢你的帮助的！-你好，文奇 Exception in thread "main" java.lang.NoSuchMethodError: scala.reflect.api.Ja

浏览 2提问于2016-08-17得票数 3

回答已采纳

1回答

将spark.sql查询转换为spark/scala查询

、、

我使用在scala中返回true/false的一些业务逻辑，在中添加了一列。实现是使用UDF完成的，UDF有10个以上的参数，因此在使用UDF之前我们需要先注册UDF。)org.apache.spark.sql.expressions.UserDefinedFunction <and> (f: org.apache.spark.sql.api.java.<

浏览 0提问于2019-04-20得票数 0

1回答

Hashtable[String，String]的Scala错误

、、

我正在写一个小的UDF val transform = udf((x: Array[Byte]) => { stock }) 我在哪里得到错误java.lang.UnsupportedOperationException

浏览 17提问于2020-01-20得票数 0

回答已采纳

2回答

Spark (2.3+)可从PySpark/Python调用的Java函数

、、

我的问题是：我想有一个大量的UDF库，为火花2.3+，都是用Java写的，都可以从PySpark/Python访问。阅读上面我链接的文档，你会发现在一个类和Java函数(可以从PySpark中的Spark-调用)之间存在SQL一对一的映射。因此，如果我有10个Java UDF函数，那么我需要创建10个公共Java类，每个类有1个<em

浏览 76提问于2018-08-11得票数 0

1回答

在Java中创建SparkSQL UDF

、、、、

问题我可以在Java中成功地创建一个<

浏览 4提问于2016-03-27得票数 5

回答已采纳

4回答

星星之火sql --无论是使用行转换还是使用UDF。

、、、

我想要一个有50列的输出表(O)，这些列是从I的列派生出来的，也就是说，有50个函数将I的列映射到O的50列，即o1 = f(i1)，o2 = f(i2，i3) .在spark sql中，我可以通过两种方式做到这一点：行转换，其中对整行I进行逐个解析(例如: map函数)，以生成一行O。使用我猜在列级别上工作的UDF，即以I的现有列作为输入，并生成相应的O列之一，即使用50个UDF</

浏览 12提问于2017-04-14得票数 20

1回答

用序列化问题在Dataframe上调用UDF

我在UDF的博客上看了一些似乎有效的例子，但实际上，当我运行它们时，它们给出了臭名昭著的任务，而不是可序列化的错误。val df = sc.parallelize, "a", &qu

浏览 1提问于2019-03-10得票数 2

回答已采纳

1回答

理解火星雨中的罐子

、、

我是个新手，我的理解是： jars就像一捆java代码文件。我在内部安装的每个库都有自己的jar文件，这些jar文件需要与驱动程序和执行器一起使用，以便它们能够执行用户交互的package调用。这些jar文件类似于那些API调用的后端代码。为什么用python中的所有代码都不够呢？(我猜答案是，Spark最初是用scala编写的，在那里它以jars的形式分发它的</em

浏览 5提问于2021-12-09得票数 1

回答已采纳

3回答

无法禁用或禁止配置单元注册日志

、、、

在应用程序中，创建了一个日志文件来写入日志信息和日志错误信息，但在日志文件中，写入了一些不需要的配置单元信息日志INFO Hive:234 - Registering function rankcom citi oprisk andes udf Rank 将Spark 2 3 1与hive和java 8配合使用如果希望仅写入应用程序</e

浏览 22提问于2019-10-25得票数 0

1回答

由Spark* Executor执行的类反序列化期间的StackOverflowError*

Spark作业开始在代码中突然失败，它从总大小约为1 GB的文件中折叠一些历史数据。我将跟进实际的RDD大小。(URLClassLoader.java:467) at java.net.URLClassLoaderat java.net.URLClassLoader.access

浏览 9提问于2016-08-04得票数 1

2回答

如何在spark中使用由orElse组成的部分函数作为udf

、

正如问题所述，我想使用一个由orElse组成的部分函数，作为一个在spark中的udf。下面是一个可以在火花壳中运行的示例：df.show df.withColumn("pf", baselineUdf(c

浏览 1提问于2016-10-07得票数 5

回答已采纳

1回答

用火花将字段添加到Csv中

、、、

问题是，如何为CSV中的每一行添加geohash和timehash字段(因为数据大约为200 GB)？问题的更新：public class Hash {public staticJavaSparkContext Spark_Context; UDF2 geohashConverter = new UDF2<Lon

浏览 0提问于2018-08-02得票数 0

回答已采纳

1回答

用Java在GraphFrames中获取shortestPaths

、、

我是Spark和GraphFrames的新手。当我想了解GraphFrame中的shortestPaths方法时，GraphFrames documentation给了我一个用Scala编写的示例代码，但不是用Java编写的。是必要的，因为应用程序接口需要Seq或ArrayList，而我无法传递ArrayList来正确编译它。`udf((x: Int) => x)` 2. use Ja

浏览 32提问于2020-08-27得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

org.apache.spark.SparkException:任务不可序列化，除实现java.io.Serializable之外的任何其他解决方案