Dask无法使用连接的数据写入拼图

文章/答案/技术大牛

发布

1回答

pandas、dask、parquet

我正在尝试做以下几件事：使用pandas读取.dat文件，将其转换为dask数据帧，并将其连接到我从拼图文件中读取的另一个dask数据帧，然后输出到新的拼图文件。在某些情况下，这是一个ETL进程，随着每天增加的数据量，我很快就会耗尽历史数据集和组合数据集上的内存，所以我尝试将进程从pandas迁移到Dask，

浏览 26提问于2020-06-13得票数 1

1回答

dask.read_parquet导致OOM错误

python、parquet、dask

我一直在使用dask对多个csv文件执行数据清理。在使用pandas的to_parquet()方法将csv文件转换为.parquet之后，我尝试了以下操作： cols_to_keep = ["barcode", "salesdate", "storecode我的.parquet文件不是问题所在，我可以使用pandas的read_parquet()方法加载这些文件。从dask实用程序中，

浏览 7提问于2018-08-08得票数 1

回答已采纳

2回答

使用dask合并csv文件

python、dask

我是python的新手。我正在使用dask读取5个大的(>1 GB) csv文件，并将它们合并(类似SQL)到一个dask数据帧中。现在，我正在尝试将合并后的结果写入单个csv。我在dask dataframe上使用compute()将数据收集到单个df中，然后调用to_csv。但是，compute()在读取所有分区的数据时速度很慢。我尝试在dask

浏览 5提问于2017-03-23得票数 4

1回答

concat在dask* dataframe中是懒惰操作吗？*

python、pandas、dask、dask-delayed、dask-dataframe

我正在使用dask read_parquet读取一个文件列表，并将这些数据帧连接在一起，然后写入某个文件。在连接过程中，dask read是在连接时将所有数据写入内存，还是只加载schema的连接(我正在使用轴0进行连接) ?？提前感谢

浏览 0提问于2020-05-20得票数 3

1回答

如何使用dask/dask-cudf将单个大型拼图文件读入多个分区？

dask、cudf

我正在尝试使用dask_cudf/dask读取单个大的parquet文件(size > gpu_size)，但它当前正在将其读取到单个分区中，我猜测这是从文档字符串推断出的预期行为： dask.dataframe.read_parquetstorage_options=None, engine='auto', gather_statistics=None, **kwargs): Read a Parquet file into a D

浏览 18提问于2019-10-18得票数 3

回答已采纳

1回答

当数据不能放入内存时，将dask数据帧存储到拼图

dask、parquet

我正在尝试将dask数据帧的内容存储到拼图。使用read_sql_table从数据库中读取内容 import dask.dataframe as dddf.to_parquet(path) 当我这样做的时候，首先将所有数据读取到内存中。但是，由于整个数据集无法装入内存，内核最终会崩溃。如何将数据</

浏览 23提问于2020-07-02得票数 0

2回答

python dask* to_parquet占用大量内存*

python、dataframe、dask、parquet、fastparquet

我正在使用python 3和dask来读取拼图文件的列表，做一些处理，然后将它们全部放入一个新的联合拼图文件中供以后使用。该过程使用了如此多的内存，以至于它似乎试图在将所有拼图文件写入新的拼图文件之前将它们读取到内存中。我正在使用下面的代码 import dask.dataframe as dd

浏览 107提问于2019-08-04得票数 2

1回答

如何使用pyarrow存储自定义拼图数据集元数据？

python、parquet、pyarrow

如何使用pyarrow将自定义元数据存储到ParquetDataset？例如，如果我使用Dask创建了一个地块数据集 import daskdataset = pq.ParquetDataset('temp.parq'

浏览 48提问于2021-09-10得票数 7

1回答

选择子集后将其转换为pandas时，Dask* dataframe内存不足*

python、python-3.x、pandas、dataframe、dask

所以我有一个包含160M记录和240列的拼图文件。因此，我使用dask在python中使用EMR CLuster m5.12xlarge加载它。Dask Name: concat, 489 tasks现在我正试着把它转换成pandas df。这只需要几秒的时间来执行，并使用大约1.5 GB的内存。现在，我试图通过计算将其转换为pandas数

浏览 1提问于2021-09-23得票数 0

2回答

如何在dask* dataframe中设置(计算)分区？*

python、dask

从拼图或csv文件加载数据时，具有无分区。DASK文档没有关于如何设置和计算此...的信息。如何正确设置和计算DASK数据帧的划分？

浏览 14提问于2019-06-05得票数 2

1回答

PyArrow / Dask* to_parquet分区所有空列*

python、dask、parquet、pyarrow

在将Dask dataframe分区写入parquet时，我注意到reading_parquet在冲突的元数据/模式上失败。这是因为在一些分区中，列完全为空/ np.nan，而在另一些分区中，它们是用值填充的。在此之前，我已经转换了我的分区的数据类型： df = df.astype(dtypes) PyArrow无法读取我的分区拼图文件，因为只有null的列被重

浏览 19提问于2019-09-17得票数 0

回答已采纳

1回答

保存到SQL或从SQL加载的大型稀疏矩阵数据与Numpy文件数据

python、sql-server、pandas、dask、pyodbc

保存到SQL或从SQL加载的大型稀疏矩阵数据与Numpy文件数据我想找到最快的方法来保存和加载我的矩阵分别当我的应用程序关闭和打开。我原本计划使用nu

浏览 1提问于2020-10-10得票数 1

2回答

从dask* dataframe保存多个地块文件*

python、dask、parquet

我想从Dask dataframe中保存多个拼图文件，一个拼图文件用于特定列中的所有唯一值。因此，拼图文件的数量应该等于该列中唯一值的数量。例如，给定以下数据帧，我想保存四个拼图文件，因为在列"A“中有四个唯一的值。import pandas as pd { &

浏览 5提问于2021-04-09得票数 1

2回答

有没有可能从python/pandas并行写入到Parquet中？

python、pandas、parquet

Parquet文件格式允许数据分区。还有一个非常新的项目fastparquet，它提供了python实现。问题是，如果我在两个单独的python进程中有两个具有相同模式的数据帧，是否有可能将它们并行存储在parquet文件的两个单独的分区中？

浏览 0提问于2017-03-04得票数 1

3回答

如何在Dask* read_parquet函数中过滤不同分区*

python、pandas、dask、parquet

我在从parquet文件加载dask数据帧时遇到了问题。基本上，我将拼图文件存储到类别中:飞机名称(AIRCRAFT=name_aircraft)、序号(一个数字，用于标识飞机的每个任务: PROGRESSIVE=number)、年、月和日。当我尝试将拼接文件读取到dask数据框中时，我成功地过滤了年份窗口和逐行窗口，但仅选择了一些飞机失败。，或者，例如，不在同一范围窗口中的不同累进数字(假设只有753,800和883 )，我无法正确加载数据<

浏览 47提问于2021-06-22得票数 0

1回答

Dask在保存到镶木地板时使用所有内存

dask、dask-dataframe

我在使用dask时遇到了问题。与熊猫相比，它非常慢，特别是在读取高达40G的大型数据集时。经过一些额外的处理后，数据集增长到大约计算列，其中主要是计算(这是相当慢的，特别是当我像这样调用float64：output = df[["date", "permno"]].compute(scheduler='threading')时) 我认为我可以忍受延迟，即使我很沮丧，但是，当我尝试将数据保存到p

浏览 3提问于2021-09-21得票数 0

1回答

哪种方法最适合读取要处理为dask* dataframe的拼图文件*

python、dask、parquet、pyarrow、dask-dataframe

我有一个目录与小镶木地板文件(600)，我想做ETL的这些镶木地板和合并这些镶木地板到128mb的每个文件。处理数据的最佳方式是什么？我是否应该读取拼图目录中的每个文件，并将其作为单个数据帧进行合并，然后执行groupBY？或者向dd.read_parquet提供拼图目录名称并对其进行处理？我感觉，当我逐个文件地阅读时，它创建了一个非常大的dask图，不能作为一个图像。我猜它也能处理这么多数量的线程

浏览 9提问于2020-05-19得票数 0

2回答

如何从Dask* dataframe中选择n个等间距的行？*

python、bigdata、dask

我有许多拼图文件，其中所有的块都太大了，无法放入内存。我想将它们加载到dask数据框架中，计算一些结果( cumsum )，然后将cumsum显示为图。由于这个原因，我想从cumsum行中选择等间距的数据子集(一些k行)，然后绘制这个子集。我该怎么做呢？

浏览 9提问于2020-02-25得票数 0

1回答

dask.dataframe.read_parquet耗时太长

python-3.x、dask

我试着这样读s3上的拼图：times = dd.read_parquet"profile_name": bucket_profile, engine='pyarrow',仅创建dask数据帧就需要很长时间

浏览 2提问于2019-05-14得票数 3

1回答

使用dask合并数据集证明是不成功的

python、merge、concatenation、dask、dask-delayed

我正在尝试使用Python中的Dask合并许多大型数据集，以避免加载问题。我想将合并后的文件另存为.csv。事实证明，这个任务比想象的要难：import dask.dataframe as ddimport os os.chdirdd_all.to_csv('*.csv')，我只需打印出两个原始数据

浏览 1提问于2018-11-15得票数 0

点击加载更多