从嵌套列表创建 PySpark DataFrame 可以通过以下步骤实现:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
spark = SparkSession.builder.appName("NestedListToDataFrame").getOrCreate()
schema = StructType([
StructField("name", StringType(), True),
StructField("age", IntegerType(), True),
StructField("address", StructType([
StructField("street", StringType(), True),
StructField("city", StringType(), True),
StructField("state", StringType(), True)
]), True)
])
data = [
("John", 25, ("123 Main St", "New York", "NY")),
("Jane", 30, ("456 Elm St", "San Francisco", "CA")),
("Bob", 35, ("789 Oak St", "Seattle", "WA"))
]
rdd = spark.sparkContext.parallelize(data)
df = spark.createDataFrame(rdd, schema)
现在,你已经成功地从嵌套列表创建了一个 PySpark DataFrame。你可以使用 DataFrame 的各种方法和操作来处理和分析数据。
腾讯云相关产品和产品介绍链接地址:
领取专属 10元无门槛券
手把手带您无忧上云