以块为单位从dask区域并行加载数据

、、、

我在dask dataframe中加载了一个大型xarray数据集，其中包含相当大的空间和时间范围的数据。我正在尝试做的是使用dask将这些数据拆分成更小的块并并行加载到内存中。len(y_vals)-1): chunk(data,[x_vals[i],x_vals[i+1]],[y_vals[j],y_vals[j+1]]) 这做了我想让它做的事情，但显然不是并行的这将插入到一个更大的函数中，其中<

浏览 23提问于2019-03-06得票数 0

回答已采纳

1回答

如何在线程调度程序中利用多线程？

、、

我对Dask的本地线程调度程序感兴趣。此调度程序可以使用多个线程从多维数组中“并行”加载数据块。我对I/O界问题感兴趣，所以暂时不考虑计算密集型应用。使用Dask的存储方法从随机数组加载和保存数据的一些速度测试似乎证实了这一事实:随着块大小的增加，性能下降(据说是因为最小块增加了并行性)。在这个实验中，我使用没有物理块的hdf5文件:1包含数组中所有<e

浏览 4提问于2019-11-02得票数 2

回答已采纳

1回答

Dask在同步计算中使用的极限内存

、

我试图使用Dask来处理比内存更大的数据集，这些数据集存储在存储为NumPy文件的块中。我懒洋洋地加载数据： da.from_delayed(当我运行这个程序时，我的进程会被终止，大概是因为内存使用率高(不仅数据<

浏览 1提问于2022-07-24得票数 0

2回答

使用不同格式将数据加载到pd.DataFrame的最快方法(csv、json、avro)

、、、

我们正在将大量数据从google bigquery加载到pandas dataframe (直接作为pandas使用，也作为xgbMatrix使用)。BQ导出格式有CSV、JSON和AVRO，我们的数据有日期、整数、浮点数和字符串，并且通常是“宽”的(许多列)。我们的第一种方法是将数据导入为CSV，但是解析时间很长：解析代码： def load_table_files_to_pandas(all_files附加--我

浏览 3提问于2018-07-25得票数 1

2回答

python还是dask并行生成器？

、、、

在python中(可能使用dask，可能使用多进程)可以将生成器'emplace‘on core，然后并行地遍历生成器并处理结果？每次我从迭代器中读取下一个块时，我还会对其执行一些昂贵的计算。 result = expensive_process(next(iterator)) 在每个核心上，并行，然后组合并返回结果我不知道如何在dask或多进程中做到这一点。有

浏览 0提问于2018-11-16得票数 2

1回答

用不同的列选择加载多个拼花文件

、、、

我想使用Dask从存储在不同目录中的许多拼板文件中加载特定的列，并且每个分区需要加载不同的列。我想使用Dask，这样我就可以在一台机器上使用多个核心。我了解了如何将文件或通配符的列表传递给dd.read_parquet，以指示多个文件(例如*.parquet)，但我没有看到传递要为每个文件读取的不同列集的方法。我想知道是否可以使用dask.delayed完成这一任务。我将大型单细胞基因表达数据集(大约10,000列/单元格

浏览 0提问于2019-05-24得票数 1

回答已采纳

1回答

如何处理格式化为GiB文件的大型>30个SAS7DBAT数据集？

、、、、

我有这30个GiB SAS7BDAT文件，它们对应着一年的数据。当我尝试使用pd.read_sas()导入文件时，我会得到一个与内存相关的错误。在研究中，我听说有人提到使用Dask，将文件分割成更小的块或SQL。这些答案听起来相当宽泛，而且由于我是新来的，我真的不知道从哪里开始。如果有人能和我分享一些细节，我会很感激的。谢谢。

浏览 6提问于2021-12-05得票数 1

1回答

将分块的dask* xarray乘以掩码*

、、

我有一个大型的(>100 GB) xarray数据集，其中包含天气预报数据(维度时间、预报步骤、纬度、经度，以及时间、纬度和经度上的dask块)，并希望计算出不规则形状区域(由维度为纬度和经度的二进制掩模数组定义这样做的天真方法是：但是，对于大多数(纬度、经度)块，该区

浏览 10提问于2019-07-29得票数 4

1回答

I/O是如何在达斯克进行的？

、、

我是使用#dask进行数据分析的新手。我有一些关于#dask内部如何工作的问题。例如，它如何执行I/O？就像在HDF5中一样，它是在工人中还是在其他地方并行地完成HDF5？

浏览 0提问于2020-08-06得票数 0

回答已采纳

1回答

为什么达斯克的"to_sql“比熊猫花了更多的时间？

、、、、

我在ETL中使用dask而不是pandas，即从S3存储桶中读取CSV，然后进行一些所需的转换。Until here - dask读取和应用转换的速度比pandas快！最后，我使用to_sql将转换后的数据转储到Redshift。在dask中这个to_sql转储比在pandas中花费更多的时间。有没有可能缩短这段时间？如果不是，为什么在这种情况下dask比熊猫慢？

浏览 2提问于2021-09-27得票数 1

1回答

如何使用Dask从google云存储中读取多个大CSV文件块而不同时重载内存

、、、、

我试图从google存储中读取大量的csv文件(多个文件)。我使用Dask分发库进行并行计算，但我面临的问题是，虽然我提到了块大小(100 my )，但我不知道如何按分区读取分区并将其保存到postgres数据库中，这样我就不想让内存超载。from dask.distributed import Client client = Client(print(e)

浏览 0提问于2019-06-30得票数 2

回答已采纳

1回答

在什么情况下，我可以使用Dask而不是Apache？

、、、

我目前正在使用Pandas和星火进行数据分析。我发现Dask提供并行化的NumPy数组和Pandas DataFrame。 Dask提供并行数组、数据帧、机器学习和自定义算法。Dask对Python用户来说有一个优势，因为它本身就是一个Python库，所以当事情出错时，序列

浏览 4提问于2016-08-10得票数 101

1回答

使用Dask读取块结构ASCII文件

我有一个以块为单位的ASCII文件，结构如下(简化版)：OBJTYPE "mesh2d"ND 4NAME "Depth"1.1 2.1 3.1 4.11.2 2.2 3.2 4.21.3 2.3 3.3 4.3 我们可以忽略标题行，每个块都是由定义时间步长的TS行开始的，后面跟着一个'ND‘值

浏览 1提问于2018-08-07得票数 1

1回答

使用导致ArrowInvalid的dask并行保存到同一个拼花文件

、、、、

data[str(j)]= compute_some_other_stuff() 一旦我的dict data包含了我的模拟结果(在numpy数组下)，我就把它转换成dask.DataFramedatafolder + i + "/", engine="pyarrow", append=True, ignore_divisions = True) 当只使用此代码一次，它就完美地工作了，当我试图并行地实现它时

浏览 6提问于2022-03-16得票数 0

回答已采纳

2回答

如何用Dask编程模具

、

[2:,1:-1] + grid[1:-1,0:-2] + grid[1:-1,2:] ) / 5 但是，如果你的网格真的很大，它不会在你的记忆中修复，或者如果卷积运算真的很复杂，它将需要很长的时间，并行编程技术被用来克服这个问题像这样的工具使科学家能够以一种几乎透明的并行方式自行编写模拟程序。目前，达斯克不支持项目分配，所以，我如何编程一个模具与达克。

浏览 2提问于2016-10-18得票数 4

回答已采纳

5回答

将大量数据从BigQuery加载到python/大熊猫/dask

、、、、

我阅读了其他类似的帖子，并搜索谷歌，以找到更好的方法，但没有找到任何可行的解决方案。我在BigQuery中有一个大表(假设每天插入2000万行)。我希望有大约2000万行数据，在python/大熊猫/dask中有大约50列的数据来做一些分析。

浏览 2提问于2019-03-06得票数 6

回答已采纳

1回答

在需要计算数据列时使用dask进行并行计算

、、、

我有3.6亿记录的鸟群观测数据 def yearday(r):import dask.datafr

浏览 0提问于2018-09-12得票数 1

回答已采纳

1回答

Dask阵列+ hdf5读取性能

我发现将这些数据表示为dask数组(相对于h5py.File对象列表)是方便的数据索引，但是从磁盘加载数据片非常缓慢。下面是一个示例，其中dsets是h5py.File对象的列表，x是由这些h5py.File对象构造的dask.array。dask数组的分块与h5py.File对象的块匹配。,0,0,0].compute()CPU times: user 2.72 s, sys: 187 ms,

浏览 4提问于2017-09-09得票数 2

1回答

dask read_parquet内存不足

我正在尝试读取一个很大的(内存不能容纳)镶木地板数据集，然后从中提取样本。数据集的每个分区都可以完美地存储在内存中。数据集在磁盘上大约有20 in的数据，分为104个分区，每个分区大约200Mb。我的假设是，Dask将加载它能处理的尽可能多的分区，从它们中采样，从内存中删除它们，然后继续加载下一个。或者类似的东西。相反，从执行图(104个并行加载操作，在每个样本之后)来看，它似乎

浏览 66提问于2019-09-25得票数 0

2回答

如何为tensorflow/pytorch加载大型多文件拼图文件

、、、、

我正在尝试从一个目录中为tensorflow/pytorch将几个拼图文件加载到Python中。文件太大，无法通过pyarrow.parquet函数加载这就给了<code>D1</code>。我不确定如何将文件加载到Python中进行ML训练。如果能得到一些快速帮助，我们将非常感激。谢谢Zash

浏览 12提问于2020-03-15得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在线程调度程序中利用多线程？

Dask在同步计算中使用的极限内存

使用不同格式将数据加载到pd.DataFrame的最快方法(csv、json、avro)

python还是dask并行生成器？

用不同的列选择加载多个拼花文件

如何处理格式化为GiB文件的大型>30个SAS7DBAT数据集？

将分块的dask* xarray乘以掩码*

I/O是如何在达斯克进行的？

为什么达斯克的"to_sql“比熊猫花了更多的时间？

如何使用Dask从google云存储中读取多个大CSV文件块而不同时重载内存

在什么情况下，我可以使用Dask而不是Apache？

使用Dask读取块结构ASCII文件

使用导致ArrowInvalid的dask并行保存到同一个拼花文件

如何用Dask编程模具

将大量数据从BigQuery加载到python/大熊猫/dask

在需要计算数据列时使用dask进行并行计算

Dask阵列+ hdf5读取性能

dask read_parquet内存不足

如何为tensorflow/pytorch加载大型多文件拼图文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐