使用Spark,可以通过以下步骤将所有内容加载到数据帧中并拾取文件名:
from pyspark.sql import SparkSession
from pyspark.sql.functions import input_file_name
spark = SparkSession.builder.getOrCreate()
df = spark.read.text("文件路径")
input_file_name()
函数将文件名添加为数据帧的一列:df_with_filename = df.withColumn("文件名", input_file_name())
现在,数据帧df_with_filename
中的每一行都包含文件内容和对应的文件名。
关于Spark的更多信息和使用场景,你可以参考腾讯云的产品介绍页面:腾讯云Spark产品介绍
领取专属 10元无门槛券
手把手带您无忧上云