在pyspark中读取具有不同模式的多个CSV文件,可以使用Spark的DataFrame API来实现。DataFrame是一种分布式数据集,可以以结构化的方式处理数据。
以下是一种实现方法:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType
spark = SparkSession.builder.getOrCreate()
schema1 = StructType().add("col1", "string").add("col2", "integer")
schema2 = StructType().add("col3", "string").add("col4", "double")
df1 = spark.read.csv("file1.csv", header=True, schema=schema1)
df2 = spark.read.csv("file2.csv", header=True, schema=schema2)
在上述代码中,"file1.csv"和"file2.csv"是要读取的CSV文件的路径,header=True表示第一行是列名。
df1.show()
df2.show()
merged_df = df1.union(df2)
这是一个基本的示例,你可以根据实际情况进行调整和扩展。关于pyspark的更多信息和用法,请参考腾讯云的Spark文档:Spark - 腾讯云
领取专属 10元无门槛券
手把手带您无忧上云