如何解决AttributeError：'RDD‘对象在使用UDF时没有'_get_object_id’属性？

文章/答案/技术大牛

发布

1回答

、、、、

UserDefinedFunction(lambda (line_a, line_b): aa(line_a, line_b), StringType())print(a)example_dataframe.show() 我想根据条件生成一个新列，而不是其他属性。我知道可以使用"withColumn“子句指定条件，但我想尝试使用自定义函数。_get_

浏览 1提问于2017-07-18得票数 0

回答已采纳

1回答

AttributeError：'UserDefinedFunction‘对象没有属性'_get_object_id’

、、、、

我用一个函数创建了python (python_file.py)，然后在同一个作用域中将函数作为一个UDF调用。守则如下：pyspark_func = udf(outer.my_funct, StringType())它导致了 AttributeError：'UserDefinedFunction‘对象没有

浏览 5提问于2017-10-10得票数 2

3回答

使用SparkSession创建SparkConf对象时发出

、、、

我对火花还不熟悉，需要一些关于以下问题的指导--每当我试图使用SparkSession对象创建SparkConf对象时，我都会得到以下错误- 我在本地模式下使用Spark2.3和Python3.7。，但没有一个解决了我的问题。即使当我试图直接创建SparkSes

浏览 1提问于2019-05-11得票数 6

回答已采纳

2回答

如何通过显示应用程序版本的列过滤数据？

、、、、

'1.2.0‘+---+-------++---+-------+| 2| 1.23.0|我尝试使用UDF中的库包。version.parse(text) vers = None version_parse_udf= F.udf(version_parse, T.StringType()) df

浏览 6提问于2022-07-20得票数 0

1回答

我的想法是首先在实例化对象时调用API，然后将该对象传递给任务。理想情况下，所有执行者都使用相同的对象/副本。我还使用了一个对象不可序列化的外部库。如果必须多次实例化，这就不那么令人担心了。如果我试图广播my_obj，就会得到AttributeError: 'Broadcast' object has no attribute '_get_object_id' (下面是跟踪)。如果我调用外部的秘密，然

浏览 9提问于2022-03-08得票数 0

1回答

如何在Pyspark中从MapType列中获取键和值

、、、

我尝试在PySpark中复制这个问题的解决方案(Spark < 2.3，所以没有map_keys)：下面的是我的代码(与上面链接的问题的df相同)： .select(F.explode("alpha"))\ .distinct()\ df.select("id", distinctKeys.ma

浏览 44提问于2020-05-20得票数 0

回答已采纳

1回答

AttributeError:在编写拼花文件时，“StructType”对象没有属性“_get_object_id”

、、

我在编写拼花文件时出错：下面是我使用的命令： df.write.format("parquet").

浏览 2提问于2020-07-30得票数 1

1回答

AttributeError：'NoneType‘对象没有属性'_jvm’(编码在UDF之外很好地工作)

、、、、

我知道有类似的线程，但我无法用这些解决方案来解决我的错误。(schema, F.PandasUDFType.GROUPED_MAP) 这将引发以下错误：

浏览 26提问于2022-01-15得票数 0

回答已采纳

1回答

用Pyspark问题求解openCV问题的描述符

、、、

我从火花的哲学开始，在我的例子中，火花。我必须将图像加载到文件夹中，并提取描述符以进行维度缩减。= sc.parallelize(lst_path) df = spark.createDataFrame(row_rdd", udf_image("path_img")) 使用printSc

浏览 2提问于2020-02-12得票数 1

1回答

AttributeError：'StructField‘对象没有属性'_get_ object _id'：使用自定义模式加载拼花文件

、、、

我试图使用自定义模式使用PySpark读取一组拼花文件，但是它给出了AttributeError：'StructField‘对象没有属性'_get_object_id’错误。('4',31103,'Execute',149,'DEF'),('5',31204,'Execute',145,'DEF'),('6',3

浏览 1提问于2017-09-13得票数 4

回答已采纳

1回答

星星之差AttributeError：'NoneType‘对象没有属性'_jvm’

、、、

我发现了类似的问题，但没有回答如何解决这个问题。 return regexp_extract(x,re_string,0) df = df.wit

浏览 3提问于2022-04-28得票数 0

回答已采纳

1回答

没有属性错误将广播变量从PySpark传递给Java函数

、、

我在PySpark中注册了一个java类，我试图将一个广播变量从PySpark传递给这个类中的一个方法。binary_file: myPythonGateway.setData(data) 但是，如果我直接传递byte[]，而不将其包装在p

浏览 3提问于2020-07-04得票数 0

1回答

Pyspark中的奇怪行为

、、、

我在PySpark中观察到一个奇怪的行为。也许你们中的一个会知道发生了什么。df.filter(~df.mydate.isNotNull()).count()此输出：10 return lambda *a: f(*a) File "<ipython-input-109-422e4b5e07cf>", line 2, in create_my_d

浏览 34提问于2018-01-10得票数 0

1回答

尝试使用从Azure服务总线加载消息到ADLS

、、

我使用的代码如下：当我执行以下操作时：FormulaClassification/F1Area/F1Domain/flightStream/

浏览 9提问于2022-02-04得票数 0

回答已采纳

1回答

org.apache.spark.SparkException:由: java.io.NotSerializableException引起的不可序列化的任务

、

我有两个Scala代码-- MyMain.scala和MyFunction.scala，分别构建和构建的MyFunction jar将在MyMain中充当UDF。该项目是在SBT中构建的，build_jar编译输出作为工件存储(只存储所需的类，即MyFunction.class，而不是依赖项)。MyMain.scala将上述工件jar导入lib文件夹下，并使用unmanagedBase := baseDirectory.value / "lib" in build.sbt将其添加到类路径中。中的MyFuncti

浏览 1提问于2019-10-27得票数 2

回答已采纳

1回答

'StructType‘对象没有属性'toDDL’

、、、

我运行这个脚本时使用的是spark 2.4.3 & python 3.6.10data = [("Java", "20000"100000"), ("Scala", "3000")] spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate()

浏览 13提问于2021-06-04得票数 1

回答已采纳

2回答

将列表转换为RDD

、、、

此代码生成一个错误：AttributeError：'list‘对象没有属性'saveAsTextFile'rdd = file.map(lambda line: (line.split

浏览 0提问于2018-04-17得票数 0

回答已采纳

1回答

无法调用pyspark udf函数

、、、

尝试使用UDF函数，但遇到错误： import timefrom pyspark.sql.functions import lit,unix_timestamp, udfreturn unix_timestamp(end, format=timefmt) - unix_timestamp(start, format=timefmt) calc_time_udf= udf(lambda start, end: calc_time(start, end), Timesta

浏览 36提问于2021-07-23得票数 2

回答已采纳

2回答

AttributeError：'NoneType‘对象没有属性'sc’

、

不好意思me.Today我想运行一个关于如何在Pyspark.The结果中使用sqlContext创建DataFrame的程序是AttributeError，它是“AttributeError：'NoneType‘对象没有属性'sc'”，我的计算机是win7，Spark的版本是1.6.0，API是python3 .I有过几次google并阅读了Spark文档，并且无法解决我寻求帮助的problems.So问题。_jvm.S

浏览 3提问于2016-11-28得票数 6

1回答

当输入参数是从dataframe的两列连接起来的值时，引发UDF错误

、、、、

下面的python代码将一个csv文件加载到dataframe df中，并将一个字符串值从df的单个或多列发送到UDF函数testFunction(...)。如果我发送一个列值，代码就能正常工作。但是，如果我从df的两列发送值df.address + " " + df.city，则会得到以下错误： PythonException:从UDF中抛出一个异常：&#

浏览 6提问于2022-05-21得票数 0

回答已采纳

点击加载更多