不能使用withColumn迭代pyspark列

、、

为什么我在使用pyspark时会得到一个列不是可迭代的错误？cost_allocation_df = cost_allocation_df.withColumn( 'resource_tags_user_engagement',

浏览 19提问于2019-10-31得票数 0

2回答

如何根据大小更改列值

、、、

我在PySpark设置中有一个dataframe。我想更改一个列，比如它叫做A，它的数据类型是"string“。我想根据它们的长度来改变它的价值。特别是，如果一行中只有一个字符，则希望将0连接到末尾。“修改”列的名称必须仍然是A。这是用于使用PySpark3的木星笔记本。这就是我迄今尝试过的： df = df.withColumn("A", when(size(df.col("A")) == 1, concat(df.col("

浏览 2提问于2019-06-17得票数 1

回答已采纳

1回答

如何将子字符串和instr结合使用

、、

我试图同时使用子字符串和instr函数来提取子字符串，但无法这样做。我试着使用pyspark本机函数和udf，但得到了一个错误，即“列不可迭代”。你能帮帮我吗from pyspark.sql.functions import UserDefinedFunction{"chargedate

浏览 7提问于2019-12-08得票数 1

回答已采纳

1回答

传递列以转换为时区值

、

我使用to_utc_timestamp将时间戳转换为UTC时间。我在一列中有日期时间，在另一列中有时区，当我通过时区时，它说列不可调用：怎么修呢？

浏览 0提问于2018-12-19得票数 2

回答已采纳

1回答

当我迭代pyspark dataframe中的列数据时，df.withcolumn太慢了

我正在对pyspark dataframe列进行AES加密。我正在迭代列数据，并使用df.withcolumn将列值替换为加密值，但速度太慢我正在寻找另一种方法，但我没有得到任何方法 ''' obj= AES.new(key, AES.MODE_CBC,v) df=df.withColumn(col,F.

浏览 27提问于2019-08-28得票数 0

1回答

如何在pyspark中迭代dataframe多列？

、、

浏览 1提问于2020-06-04得票数 1

2回答

比较和删除Spark / PySpark中不一致数组的数据列中的元素

、、、、

我有一个Pyspark.sql.dataframe，它有两个数组列，其中包含String。两个列数组的长度都不一致，有些行也有空项。我需要比较这两列，并且必须删除B列中的每一行的一个数组元素，当它在列覆盖中的数组中找到时。import array_remove, array_intersect 而且还 df= df.withCo

浏览 5提问于2020-01-30得票数 1

回答已采纳

1回答

无法将循环表达式写在pyspark的列中。

、

“，{"keyname"："Tariff_Loc"，"value"："VNSGN"，"description"：”.“}Errro:列不可迭代root |-- Charg

浏览 2提问于2022-05-26得票数 1

2回答

如何在火花放电中创建空结构？

我正试图在pyspark中创建空的struct列。对于数组，这可以工作。import pyspark.sql.functions as F但这给了我一个错误。df = df.withColumn('newCol', F.struct()) 我也看到了类似的问题，但对于scala来说，这并不能真正帮助我。

浏览 4提问于2021-09-21得票数 2

1回答

pySpark中的数据帧级计算

、

我正在使用PySpark，并希望利用多节点的优势来提高性能时间。例如：假设我有3列，有100万条记录： Emp ID | Salary | % Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 | 我想要计算新的薪水列，并希望使用pyspark中多个节点的能力来减少整体处理时间。我不想做一个迭代的逐行计算新工资。 df.withCo

浏览 16提问于2021-03-24得票数 0

1回答

如何动态地在pyspark* dataframe中添加列*

、

我试图添加几个基于输入变量vIssueCols的列from pyspark.sql import functions as Ffrom pyspark.sql.window import WindowvQuery1 = 'vSrcData2= vSrcData'我不能写一个

浏览 13提问于2018-01-07得票数 1

回答已采纳

1回答

无法使用列属性将新值赋值到中的列

、、、

它有许多列，其中一个列是eventAction，它具有“转换”、“签出”等分类值。event1.show() 但是，在执行eventAction列时

浏览 3提问于2021-03-23得票数 0

回答已采纳

2回答

TypeError:列是不可迭代的--如何在ArrayType()上迭代？

、、、

names"，方法是向每个元素应用一个函数，而不使用udf foo_udf = f.udf(lambda row: [foo(x) for x调用pysp

浏览 1提问于2018-02-26得票数 16

回答已采纳

1回答

解析包含Pyspark中XML字符串的列

、、、

我已经创建了一个UDF，用于获取XML字符串、命名空间字典、x路径语法和XML中键值对的键，并返回一个值数组，以便稍后使用withColumn(col,explode(col))爆炸。现在，我正试图使用Pyspark在Databricks中包含XML字符串的列在dataframe上迭代此函数，并使用返回的数组创建一个新列。到目前为止，我已经使用作为我最初方法的想法，并在将整个行传递给withColumn时阅读了。我

浏览 6提问于2020-04-10得票数 0

2回答

使用OR运算符对一个数组中的每个元素在的单个"when“函数中

、、、、

我有一个列数组我想要处理一个Pyspark，在其中我创建了一个名为"Is_Diversified“的新列，并在上面提到的每个DiversityTypes元素的值上设置了它的值Yes，使用或operater的No，在一个when函数中设置如下： p_df = p_df.withColumn('Is_Diversif

浏览 2提问于2020-08-28得票数 1

回答已采纳

3回答

withColumn不允许我使用max()函数生成新列

、、、

该列等于其他三列中的最大值。2| 3| 3|| 9| 8| 7| 9|我想我应该使用withColumn，就像这样：但这会产生错误 Traceback

浏览 6提问于2016-06-15得票数 6

回答已采纳

1回答

在PySpark* DataFrames中，为什么setitem没有完全实现？*

、、、

在PySpark中，我们不能使用传统的熊猫或R风格的符号来根据DataFrame中的旧列来制作新的列。例如，假设我试图连接两列：df['newcol'] = F.concat(df['col_1'], df['col_2']) 结果：TypeError: 'DataFrame' object does not suppor

浏览 1提问于2016-07-28得票数 1

回答已采纳

2回答

电火花迭代列加内存泄漏

、、、

我一直在尝试对pyspark数据执行一些迭代计算。列是根据前面的列添加到df中的。然而，我注意到，使用的内存不断增加。下面是一个简单的例子。from pyspark import SparkContext, SparkConffrom pyspark import Rowdf = [Row(Z_0=0.0, Z_1=0.0)] df = sc.parallelize(df).toD

浏览 3提问于2019-10-21得票数 0

回答已采纳

1回答

高阶函数PySpark阵列列的条件变换

、、、

我有一个带有数组列的PySpark DF，其数据包括: 0，-1,0,0,1,1,1我试过：) 但是，返回错误“不能将列转换为bool:在构建Dat

浏览 1提问于2022-08-24得票数 1

回答已采纳

1回答

PySpark基于列的vlaue添加月份到日期字段

、、、、

我有一个带有日期列和整数列的dataframe，我想根据整数列将月份添加到date列中。我尝试了以下方法，但是我得到了一个错误：withColumn('future', f.add_months('cohort', col('period'))) TypeError:

浏览 2提问于2022-02-08得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何根据大小更改列值

如何将子字符串和instr结合使用

传递列以转换为时区值

当我迭代pyspark dataframe中的列数据时，df.withcolumn太慢了

如何在pyspark中迭代dataframe多列？

比较和删除Spark / PySpark中不一致数组的数据列中的元素

无法将循环表达式写在pyspark的列中。

如何在火花放电中创建空结构？

pySpark中的数据帧级计算

如何动态地在pyspark* dataframe中添加列*

无法使用列属性将新值赋值到中的列

TypeError:列是不可迭代的--如何在ArrayType()上迭代？

解析包含Pyspark中XML字符串的列

使用OR运算符对一个数组中的每个元素在的单个"when“函数中

withColumn不允许我使用max()函数生成新列

在PySpark* DataFrames中，为什么setitem没有完全实现？*

电火花迭代列加内存泄漏

高阶函数PySpark阵列列的条件变换

PySpark基于列的vlaue添加月份到日期字段

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐