Pyspark如何合并和分解2个数据帧

Apache Spark 是一个用于大规模数据处理的分布式计算框架，而 PySpark 是 Spark 的 Python API。在 PySpark 中，数据帧（DataFrame）是一种结构化的数据集，类似于传统数据库中的表或 R/Python 中的数据框。以下是如何在 PySpark 中合并和分解两个数据帧的基础概念及相关操作。

合并数据帧

合并数据帧通常涉及将两个数据帧根据某些键（key）进行连接（join）。PySpark 提供了多种类型的连接方式，包括内连接（inner join）、左连接（left join）、右连接（right join）和全外连接（full outer join）。

示例代码：合并数据帧

from pyspark.sql import SparkSession

# 初始化 Spark 会话
spark = SparkSession.builder.appName("MergeDataFrames").getOrCreate()

# 假设我们有两个数据帧 df1 和 df2
df1 = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
df2 = spark.createDataFrame([(1, 30), (2, 25)], ["id", "age"])

# 内连接两个数据帧
merged_df = df1.join(df2, on="id", how="inner")

# 显示合并后的数据帧
merged_df.show()

分解数据帧

分解数据帧通常是指将一个数据帧拆分成多个数据帧，这可以通过选择特定的列或根据某些条件过滤数据来实现。

示例代码：分解数据帧

# 选择特定列创建新的数据帧
name_df = df1.select("name")
age_df = df2.select("age")

# 根据条件过滤数据创建新的数据帧
filtered_df = df1.filter(df1["id"] > 1)

# 显示分解后的数据帧
name_df.show()
age_df.show()
filtered_df.show()