有没有办法在pyspark数组函数中放入多列？(FP Growt prep)

在pyspark中，我们可以通过使用array()函数将多个列合并成一个数组。该函数接受多个列作为输入参数，并返回一个包含这些列值的数组。以下是使用array()函数的示例代码：

from pyspark.sql import SparkSession
from pyspark.sql.functions import array

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例数据集
data = [("Alice", 25, 160),
        ("Bob", 30, 175),
        ("Charlie", 35, 180)]

df = spark.createDataFrame(data, ["name", "age", "height"])

# 将name、age和height列合并为一个数组
df_with_array = df.withColumn("info", array("name", "age", "height"))

df_with_array.show(truncate=False)

这将输出以下结果：

+-------+---+------+----------------+
|name   |age|height|info            |
+-------+---+------+----------------+
|Alice  |25 |160   |[Alice, 25, 160]|
|Bob    |30 |175   |[Bob, 30, 175]  |
|Charlie|35 |180   |[Charlie, 35, 180]|
+-------+---+------+----------------+

在这个例子中，我们使用array()函数将"name"、"age"和"height"列合并为一个名为"info"的新列。

此外，如果你需要使用更高级的数组操作，可以使用pyspark.sql.functions模块中提供的其他函数，如explode()、concat()、slice()等。这些函数可以帮助你处理数组中的元素或组合多个数组。

关于pyspark中的数组函数的更多信息，你可以参考腾讯云的Spark文档：pyspark.sql.functions