如何根据pyspark dataframe中的一些条件将列名作为withColumn语句的一部分？

在pyspark中，可以使用withColumn方法来添加或替换DataFrame中的列。要根据DataFrame中的一些条件将列名作为withColumn语句的一部分，可以使用when和otherwise函数来实现条件判断。

下面是一个示例代码，演示如何根据条件将列名作为withColumn语句的一部分：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例DataFrame
data = [("Alice", 25, "F"), ("Bob", 30, "M"), ("Charlie", 35, "M")]
df = spark.createDataFrame(data, ["name", "age", "gender"])

# 定义条件
condition = col("gender") == "M"

# 根据条件动态添加列
df = df.withColumn("new_column", when(condition, col("name")).otherwise(col("age")))

# 显示结果
df.show()

在上述代码中，我们首先创建了一个SparkSession，并使用示例数据创建了一个DataFrame。然后，我们定义了一个条件condition，该条件判断gender列是否等于"M"。接下来，我们使用withColumn方法根据条件动态添加了一个新列new_column，如果条件满足，则将name列的值作为新列的值，否则将age列的值作为新列的值。最后，我们使用show方法显示了结果。

这里推荐使用腾讯云的Tencent Spark服务，该服务提供了强大的Spark集群和分布式计算能力，可以方便地进行大规模数据处理和分析。您可以通过以下链接了解更多关于Tencent Spark的信息：Tencent Spark产品介绍。

如何根据pyspark dataframe中的一些条件将列名作为withColumn语句的一部分？

、

我有一个包含虚拟编码值的pyspark数据帧，如下所示：df = df.withColumn("conversions",F.when(col('conversio

浏览 7提问于2019-03-27得票数 0

回答已采纳

1回答

在PySpark中计算两个日期之间的差异

、

目前，我正在使用dataframe，需要计算两个日期之间的天数(作为整数)，并将其格式化为时间戳。我选择了这个解决方案：df1 = df1.withColumn("LD", datediff("MD", "TD")) 但是，在从列表中计算和后，我得到了一个错误：“列不可迭代”，这使得我无法根据列名</e

浏览 13提问于2022-09-26得票数 0

3回答

如何修改pyspark使用的一行中的一个列值

我想当userid=22650984.How在pyspark平台上更新它的价值?谢谢你的帮助。

浏览 8提问于2018-04-08得票数 11

回答已采纳

2回答

PySpark动态时语句

、、、

我有一个用于创建列名的字符串列表。此列表是动态的，可能会随着时间的推移而变化。根据字符串的值，列名会更改。下面是我目前拥有的代码的示例： F.when(df.pet == "dog", df.dog_Column) \ .otherwise(F.when(df.pet == "cat", df.ca

浏览 1提问于2018-06-20得票数 3

回答已采纳

2回答

在PySpark中按一列中的不同值筛选行

、、、、

.|我如何过滤这个表，使其在PySpark中只有不同的路径？

浏览 4提问于2016-09-02得票数 20

回答已采纳

2回答

PySpark在pyspark.sql.functions.col和pyspark.sql.functions.lit中的差异

、

我发现很难理解这两种方法与pyspark.sql.functions之间的区别，因为PySpark官方网站上的文档并不能提供很好的信息。例如，以下代码：print(F.col('col_name'))研究结果如下：

浏览 10提问于2017-09-24得票数 15

1回答

动态创建spark中的多列

、、、、

对于每个子段，过滤条件可在底层字典中用于子段，即a，b，c，d，f。此外，子段字典键的筛选条件也是pyspark dataframe的列名。我想要为每个段一次创建吡火花数据帧中的子段列，当满足筛选条件时，每个子段列的值为1，否则0，类似于， pyspark_dataframe.withColumn</e

浏览 4提问于2017-09-11得票数 1

回答已采纳

2回答

string for Python -不能将字符串列强制转换为十进制/双进制

、、

我尝试了几个版本，在所有的版本中，我都有一个DataFramedataFrame.printSchema之后，我希望将列'gen_val'(存储在变量results.inputColumns中)从String类型转换为Double类型。版本#1dataFrame = dataFrame</

浏览 1提问于2017-10-25得票数 3

回答已采纳

2回答

Spark DataFrame:根据列值按行排序列名

、

对于下面的dataframe中的每一行，我希望根据降序列条目查找列名(作为数组或元组或其他什么)。，并根据这些列项应用函数。values_ls.append(f.col(col) ...get column value... ) 这个问题相当简单，但是要在pyspark中有效地实现这个问题似乎很有挑战性。我使

浏览 0提问于2019-07-02得票数 1

回答已采纳

1回答

如何将一列从另一数据中添加到另一个数据中？

、、、、

我刚在pyspark工作，我试图对我的数据进行一些标记化。我有我的第一个数据：reviewID|text|starstokenizer = Tokenizer(inputCol="text", outputColwords), IntegerType()) tokenized.select("text", &q

浏览 5提问于2019-09-21得票数 0

回答已采纳

1回答

基于其他列更新列的Pyspark行

、

import litnew_df = df.withColumn('new_column', lit(None).castnull|| 3| Jim| null|+---+----+----------+ 现在，我想根据一个条件更新new_column中的值。pyspark<

浏览 1提问于2018-05-02得票数 0

回答已采纳

1回答

如何结合火花放电中的位置和列

、、、

，它将重写原始数据(我只想替换journal = 'NYT‘的值，并保留其他值)。另外，我搜索其他主题，但我找不到解决方案来组合Where和WithColumn语句。我的意思是，如果我在PySpark (而不是使用SQL)中这样做： df.where(col('journal').like("%NYT%")).withColumn('journal', lit('OuiTest')

浏览 0提问于2021-06-04得票数 0

回答已采纳

2回答

从列表中添加列的pySpark

、、、、

我有一个数据文件名，并希望根据列表中的值向它添加列。 new = da

浏览 2提问于2020-05-12得票数 1

回答已采纳

2回答

如何将多个基于列顺序的数据与时间戳相结合

、、、、

我有许多数据文件，它们的列具有相同的顺序(每个dataframe的列名可能不同)。有两个列具有timestamp类型，但问题是，在某些数据格式中，它有一个date类型。我的方法是更改第一个dataframe的类型，然后剩下的dataframe将遵循第一个dataframe的类型，但是它不能工作。from pyspark.sql

浏览 12提问于2022-06-10得票数 1

回答已采纳

1回答

PySpark转换为数组类型

、

我目前正在处理以下错误，同时试图在pyspark.sql.functions.explode中的DataFrame中的数组列上运行PySpark。我尝试创建一个UDF来将列转换为python列表，如果它不是list实例的话。但是，这仍然会引发相同的错误。在Pandas中，我通常会抽出一行，然后决定从那里做什么。我不知道如何访问这一行来查看数据，以了解我需要考虑哪些条件。我更多<e

浏览 2提问于2017-11-20得票数 1

回答已采纳

1回答

如何将我的single_space函数应用于大量的数据格式列？

、、、、

我正在使用一个函数来将pyspark中的所有空白空间转换为单一的空白空间。我能够单独应用这个函数来使用.withcolumn分隔列。现在，我有大约120个混合类型的列，我只想将这个函数应用于字符串列。为此，我创建了一个仅包含字符串类型列名的列表。如何喂食(应用，地图?)这个数组到我的函数使用using列？banana", "cherry"], 'veg

浏览 1提问于2020-01-27得票数 0

回答已采纳

1回答

Pyspark-处理异常并在pyspark数据帧中引发RuntimeError

、、、、

我有一个dataframe，我正在尝试基于现有列的值创建一个新列： F.when(dfg['list'].isin(["A","isin(["A","B","C","D",'E','F'])==False,lit('unknown category'))

浏览 14提问于2018-02-01得票数 0

1回答

如何使用SparkSQL函数在DataFrame中的哪里/过滤条件？

、、、、

我在用PySpark。在SQL中，它很简单：结果 xydf.where的属性，当我读到文档剪裁函数在Function中，而不是DataFrame页面时。我不想使用withColumn，因为我仍然希望保留旧专栏的格式。此外，转换为SQL语句查询也不是很好

浏览 5提问于2022-10-06得票数 0

回答已采纳

3回答

Spark/Scala在多个列上使用相同的函数重复调用withColumn()

、、、、

我目前的代码中，我通过多个.withColumn链将相同的过程重复应用于多个DataFrame列，并且希望创建一个函数来简化该过程。在我的例子中，我查找的是按键聚合的列的累积和： .withColumn("cumA", sum("A").over(Window.partitionBy("ID").or

浏览 9提问于2016-12-31得票数 21

回答已采纳

1回答

将向量列添加到吡咯DataFrame中

、、、

如何将Vectors.dense列添加到pyspark中？sc = SparkContext(master="local")sdf = sqlCtx.createDataFrame(py_df)给出anaconda3/lib/python3.6/site-packages/pyspa

浏览 1提问于2018-04-14得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何根据pyspark dataframe中的一些条件将列名作为withColumn语句的一部分？

相关·内容

如何根据pyspark dataframe中的一些条件将列名作为withColumn语句的一部分？

在PySpark中计算两个日期之间的差异

如何修改pyspark使用的一行中的一个列值

PySpark动态时语句

在PySpark中按一列中的不同值筛选行

PySpark在pyspark.sql.functions.col和pyspark.sql.functions.lit中的差异

动态创建spark中的多列

string for Python -不能将字符串列强制转换为十进制/双进制

Spark DataFrame:根据列值按行排序列名

如何将一列从另一数据中添加到另一个数据中？

基于其他列更新列的Pyspark行

如何结合火花放电中的位置和列

从列表中添加列的pySpark

如何将多个基于列顺序的数据与时间戳相结合

PySpark转换为数组类型

如何将我的single_space函数应用于大量的数据格式列？

Pyspark-处理异常并在pyspark数据帧中引发RuntimeError

如何使用SparkSQL函数在DataFrame中的哪里/过滤条件？

Spark/Scala在多个列上使用相同的函数重复调用withColumn()

将向量列添加到吡咯DataFrame中

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐