在Pyspark中执行类似Excel的"vlookup"方法,可以通过DataFrame的join
操作来实现。以下是具体的步骤和示例代码:
假设有两个DataFrame df1
和 df2
,我们希望根据列 key
进行左连接(类似于Excel中的vlookup)。
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.appName("example").getOrCreate()
# 创建示例DataFrame df1
data1 = [("A", 1), ("B", 2), ("C", 3)]
columns1 = ["key", "value1"]
df1 = spark.createDataFrame(data1, columns1)
# 创建示例DataFrame df2
data2 = [("A", "X"), ("B", "Y"), ("D", "Z")]
columns2 = ["key", "value2"]
df2 = spark.createDataFrame(data2, columns2)
# 执行左连接
result = df1.join(df2, on="key", how="left")
# 显示结果
result.show()
join(df2, on="key", how="left")
: 这行代码将 df1
和 df2
根据 key
列进行左连接。how="left"
: 表示左连接,即返回 df1
的所有行,以及 df2
中匹配的行。通过这种方式,你可以在Pyspark中实现类似Excel的"vlookup"功能。
领取专属 10元无门槛券
手把手带您无忧上云