首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >pyspark将前n个文件读入df

pyspark将前n个文件读入df
EN

Stack Overflow用户
提问于 2021-05-03 11:13:48
回答 1查看 37关注 0票数 1

我正在试用databricks平台,我有兴趣将前6个文件加载到数据框架中。

数据存储在dbfs:/mystore中,并以文本/csv文件的形式存在。

代码语言:javascript
复制
part-00000
part-00001
part-00002
part-00003
part-00004
part-00005
part-00006
part-00007
part-00008
part-00009
part-00010

我所做的是创建一个spark会话:

spark = SparkSession.builder.appName("tester").master("local[*]").getOrCreate()

df = spark.read.csv("dbfs:/mystore/*", header='true', inferSchema='true')

但这会将所有内容读取到数据帧中。如何只读取前5个文件00000 - 00004到数据帧中?-每个文件都非常大,所以我只想播放前5个文件。

另外,由于标头是part-00000格式的,我还能将header="true"用于read.csv吗?因为如果我没记错的话,spark在创建数据帧时会分配负载,所以顺序不会被保留。

EN

回答 1

Stack Overflow用户

发布于 2021-05-03 11:56:47

我想出了一个快速而肮脏的解决方案。

基本上,使用python生成一个合格文件位置的列表,然后将该列表加载到spark.read.csv(list_of_file_locations)中,然后它就可以工作了。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67363102

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档