在pyspark中一次读取多个拼图文件

、、

我有多个按id分类的拼图文件，如下所示： /user/desktop/id=1x/year=2020/month=8/day=12/file1.parquet /user/desktop/id=2x=4x/year=2020/month=8/day=22/file4.parquet 我有一个包含所有id值的python列表，如下所示： id_list = ['1x','2

浏览 28提问于2020-09-24得票数 1

回答已采纳

1回答

如何从多个目录中读取多个.parquet文件到单个pandas数据帧中？

、

我需要从多个目录中读取拼图文件。.parquet .parquet 有没有办法将这些文件读取到单个注意:所有的拼图文件都是使用pyspark生成的。

浏览 87提问于2020-01-15得票数 3

回答已采纳

2回答

对于1-2列，多个镶嵌块文件具有不同的数据类型

、、、

我尝试使用Pyspark将不同的拼图文件读取到一个数据帧中，但它给了我错误，因为多个拼图文件中的一些列具有不同数据类型的列。例如:列"geo“在某些文件中的数据类型为"Double”，在另一些文件中为"String“。我应该如何处理这个问题？我必须在多个拼图文件中手动转换具有不同数据类型的每一列吗？

浏览 12提问于2021-11-22得票数 0

1回答

为什么我不能使用"cat file1.parket file2. parquet > result.parquet“来合并多个拼图文件？

、、

我已经使用pyspark创建了多个拼图文件，现在我正在尝试将所有的拼图文件合并为1。我可以合并这些文件，但在读取结果文件时，我得到了一个错误。以前有没有人遇到过这个问题？

浏览 35提问于2020-11-08得票数 2

回答已采纳

1回答

在一个列表中存储多个pysparks数据帧？

、、

如何在一个列表中存储多个数据帧？我有一个函数可以读取文件夹中的多个拼图文件。但是，我需要创建一个列表，其中包含正在读取以执行其他进程的数据帧。预期的结果如下所示： dfs = df1、df2、df3、df4、dfn 注意:我正在使用pyspark数据帧谢谢!

浏览 8提问于2021-07-15得票数 0

2回答

读取PySpark中的所有分区拼图文件

、、、

我想要加载存储在S3 AWS文件夹结构中的所有拼图文件。文件夹结构如下：<code>D0</code>这在PySpa

浏览 70提问于2019-12-04得票数 0

1回答

在pyspark中，Inferschema将列检测为字符串，而不是parquet中的双精度

、

问题-我正在使用azure databricks在pyspark中读取拼图文件。有一些列有很多空值并且有十进制值，这些列被读取为字符串而不是双精度。有没有办法推断出pyspark中正确的数据类型？代码- 要读取拼花面板文件- df_raw_data = sqlContext.read.parquet(data_filename[5:]) 它的输出是一个包含100多列的数据帧，其中大多数列都是doubleP.S -我有一个可以有动态列的

浏览 16提问于2020-06-23得票数 0

2回答

有没有可能从python/pandas并行写入到Parquet中？

、、

Parquet文件格式允许数据分区。还有一个非常新的项目fastparquet，它提供了python实现。问题是，如果我在两个单独的python进程中有两个具有相同模式的数据帧，是否有可能将它们并行存储在parquet文件的两个单独的分区中？

浏览 0提问于2017-03-04得票数 1

1回答

雪花不扣除拼花中的按列分区

、

推断模式函数在拼图文件上执行得非常好，并返回正确的数据类型。但是，当对拼图文件进行分区并将其存储在S3中时，推断模式的功能与pyspark数据帧不同。在DataFrames中，分区文件夹名和值被读取为最后一列；在Snowflake推断模式中，有没有办法实现同样的结果？ @GregPavlik -输入为结构化拼图格式。然而，如果拼图文件</

浏览 0提问于2021-10-21得票数 5

1回答

PySpark拼花数据类型

、

我使用PySpark读取一个相对较大的csv文件(~10 to )：所有列都有数据类型string。例如，在更改column_a的数据类型后，我可以看到数据类型已更改为integer。如果我将ddf写到一个拼图文件中，并读取这个拼图文件，我会注意到所有的列都有数据类型string。问题：如何确保拼花文件<

浏览 4提问于2018-06-01得票数 0

1回答

dask读取拼图并指定模式

、、、、

在读入拼图文件时，有没有dask等同于spark指定模式的能力？可能使用传递给pyarrow的kwargs？import dask.dataframe

浏览 0提问于2021-04-01得票数 4

1回答

使用本地Pyspark从GCS打开镶木

、、

我在谷歌云存储上有一个文件夹，里面有几个拼图文件。我安装在我的VM pyspark中，现在我想读取拼图文件。下面是我的代码： from pyspark.sql import SparkSession .builder\ .getOrCreate() sc = spark.sparkConte

浏览 26提问于2019-12-11得票数 0

1回答

使用pyspark并发编写拼图文件

、、、

在Azure Databricks中，我想使用python / pyspark从多个笔记本同时写入相同的拼图文件集。我对目标文件进行了分区，因此分区是分离的/独立写入的，这在databricks docs中是受支持的。然而，我一直在集群日志中得到一个错误，并且其中一个并发写操作失败： Py4JJavaError: An error occurred while calling o1033.save. : org.apache.spa

浏览 47提问于2021-07-26得票数 1

1回答

使用AWS Glue ETL python spark (pyspark)将多个拼图文件合并到单个拼图文件中的亚马逊S3

、、、

我每15分钟运行一次AWS Glue ETL Job，每次在S3中生成1个拼图文件。我需要创建另一个作业来运行每小时结束，以合并所有4个拼图文件在S3到一个单一的拼图文件使用AWS胶水ETL pyspark代码。有人试过吗？建议和最佳实践？提前感谢！

浏览 12提问于2020-03-24得票数 1

1回答

快速拼接:如何禁用rle编码

、、、

我正在使用files parquet将pandas数据帧转换为parquet文件。这比我之前使用pyspark的方法要快得多。Unsupported encoding: RLE 有没有办法在使用快速拼接write方法时禁用RLE？

浏览 4提问于2017-05-11得票数 1

1回答

追加到拼图文件的EMR Spark步骤正在覆盖拼图文件

、、、

在使用Python 3.6的Amazon EMR集群(1个主服务器，2个节点)上运行Spark 2.4.2 我正在读取亚马逊s3中的对象，以拼图格式压缩它们，并将它们添加(附加)到现有的拼图数据存储中。当我在pyspark shell中运行我的代码时，我能够读取/压缩对象并将新的拼图文件添加到现有的拼图文件中，并且，当我对拼图数据运行查询时，它显示所有数据都在拼图

浏览 17提问于2019-07-10得票数 1

回答已采纳

2回答

如何阅读由Spark编写的PySpark拼花？

、、、、

我正在使用两个Jupyter笔记本在分析中做不同的事情。在我的Scala笔记本中，我将一些清理过的数据写到了parquet中：然后，我转到我的Python笔记本中读取数据： df = sp

浏览 0提问于2017-03-24得票数 32

1回答

在s3 pyspark作业中创建单个地块文件

、、

我已经写了一个pyspark程序，它从cassandra读取数据，并将数据写入aws s3。在写入拼图之前，我必须重新划分(1)或合并(1)，因为这会创建一个单独的文件，否则它会在s3中创建多个s3文件。有什么方法可以在不影响性能的情况下在s3中创建单个文件？

浏览 0提问于2020-12-09得票数 0

1回答

无法读取拼图文件，出现Gzip代码失败错误

、、、、

我正在尝试转换拼花到csv文件与pyarrow。上面的代码可以很好地处理从github下载的示例拼图文件。pyarrow.lib.ArrowIOError: Arrow error: IOError: GZipCodec failed: incorrect header check 我也尝试过使用have parquet和pyspark来读取拼图文件。我知道这是压缩或未压缩的

浏览 17提问于2018-08-14得票数 0

1回答

如何在读取之前根据定义的模式读取pyspark中的拼图文件？

、

我正在从pyspark中的s3存储桶中读取镶木地板文件。有一些地块文件具有不同的模式，这会导致作业错误。我想通过预定义的模式和火花作业应该只读取与预定义的scehma匹配的文件。data = spark.read.parquet(*path_list) 上面的parquet spark read命令是批量读取文件。如何能够只读取传递预定义模式的拼图文件，并且只读取那些与所传递的模式

浏览 21提问于2021-01-12得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何从多个目录中读取多个.parquet文件到单个pandas数据帧中？

对于1-2列，多个镶嵌块文件具有不同的数据类型

为什么我不能使用"cat file1.parket file2. parquet > result.parquet“来合并多个拼图文件？

在一个列表中存储多个pysparks数据帧？

读取PySpark中的所有分区拼图文件

在pyspark中，Inferschema将列检测为字符串，而不是parquet中的双精度

有没有可能从python/pandas并行写入到Parquet中？

雪花不扣除拼花中的按列分区

PySpark拼花数据类型

dask读取拼图并指定模式

使用本地Pyspark从GCS打开镶木

使用pyspark并发编写拼图文件

使用AWS Glue ETL python spark (pyspark)将多个拼图文件合并到单个拼图文件中的亚马逊S3

快速拼接:如何禁用rle编码

追加到拼图文件的EMR Spark步骤正在覆盖拼图文件

如何阅读由Spark编写的PySpark拼花？

在s3 pyspark作业中创建单个地块文件

无法读取拼图文件，出现Gzip代码失败错误

如何在读取之前根据定义的模式读取pyspark中的拼图文件？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐