在Pyspark中的多个列上使用相同的函数重复调用withColumn()

在Pyspark中，使用withColumn()函数可以在DataFrame中添加、替换或重命名列。如果我们想在多个列上使用相同的函数进行重复调用，可以使用循环结构来实现。

下面是一个示例代码，演示了如何在Pyspark中的多个列上使用相同的函数重复调用withColumn()：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, lit

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例DataFrame
data = [("Alice", 25, 160),
        ("Bob", 30, 175),
        ("Charlie", 35, 180)]

df = spark.createDataFrame(data, ["name", "age", "height"])

# 定义要重复调用的函数
def add_suffix(col_name):
    return col(col_name).cast("string").concat(lit("_suffix"))

# 定义要重复调用的列名列表
columns = ["name", "age", "height"]

# 使用循环在多个列上重复调用withColumn()
for column in columns:
    df = df.withColumn(column, add_suffix(column))

# 显示结果
df.show()

上述代码中，我们首先创建了一个示例的DataFrame，包含了"name"、"age"和"height"三列。然后，我们定义了一个名为add_suffix()的函数，该函数接受一个列名作为参数，并在该列的值后面添加"_suffix"后缀。接下来，我们定义了一个包含要重复调用的列名的列表。最后，我们使用循环遍历该列表，在每个列上调用withColumn()函数，并传递add_suffix()函数作为参数，实现了在多个列上使用相同的函数重复调用withColumn()。最后，我们显示了结果DataFrame。

这个方法适用于在Pyspark中的多个列上使用相同的函数重复调用withColumn()。在实际应用中，可以根据具体需求定义不同的函数，并根据需要选择要重复调用的列。