我在Azure Synapse笔记本中工作,从格式良好的文件夹路径读取文件到Dataframe,如下所示:

考虑到通配符中有许多文件夹引用,我如何将"State“值作为列捕获到生成的Dataframe中?
发布于 2021-11-08 16:53:42
不需要使用通配符*。
尝试:df = spark.read.load("abfss://....dfs.core.windows.net/")
Spark可以直接读取分区文件夹,然后df应该包含具有不同值的列state。
发布于 2021-11-08 16:20:38
使用input_file_name函数获取完整的输入路径,然后应用regexp_extract提取所需的部分。
示例:
df.withColumn("filepath", F.input_file_name())
df.withColum("filepath", F.regexp_extract("filepath", "State=(.+)\.snappy\.parquet", 1)https://stackoverflow.com/questions/69885685
复制相似问题