在集群模式下使用Spark将Pandas数据帧(.csv)写入本地系统或HDFS,可以通过以下步骤完成:
from pyspark.sql import SparkSession
import pandas as pd
spark = SparkSession.builder.appName("WriteDataFrame").getOrCreate()
csv_file = "path/to/input.csv"
pandas_df = pd.read_csv(csv_file)
spark_df = spark.createDataFrame(pandas_df)
output_path = "path/to/output"
output_file = "output.csv"
spark_df.write.csv(output_path + "/" + output_file, header=True)
spark_df.write.format("csv").mode("overwrite").option("header", "true").save(output_path)
在上述代码中,output_path
是输出路径,output_file
是输出文件名。header=True
表示写入CSV文件时包含列名。
推荐的腾讯云相关产品和产品介绍链接地址:
请注意,以上答案仅供参考,实际操作可能会因环境和需求而有所不同。
领取专属 10元无门槛券
手把手带您无忧上云