在dask上按组应用函数的最佳实践

文章/答案/技术大牛

发布

1回答

、、

我有一个很大的数据集存储在hdf5文件中，我需要执行一些操作。103896 1 2.02 103896 1 5.04 103896 1 7.0如果我想象一下DAG，一切似乎都组织得很好：但是，如果我尝试应用</em

浏览 12提问于2019-11-15得票数 2

回答已采纳

1回答

Dask延迟最佳实践的批次说明是如何工作的？

、、

我想我遗漏了一些东西(仍然是Dask Noob)，但我正在尝试分批处理的建议，以避免在这里执行太多的Dask任务： import dask return x*x sub_results = [] Delayed(range(1000000, 2000000)), Delayed(range(2000000, 300

浏览 0提问于2019-06-05得票数 0

2回答

使用Dask* DataFrames对组执行任意操作的最佳方法*

、、、

Dask 状态(以及其他几个StackOverflow答案引用)表明，groupby-apply不适合聚合：熊猫的群-应用可以用来应用任意函数，包括每组产生一行的聚合。Dask的将对每个分区组对应用func一次，所以当func是一个约简时，每个分区组对将得到一行。若要使用Dask应用自定义聚合，请使用dask.dataframe.groupb

浏览 40提问于2021-12-07得票数 1

回答已采纳

1回答

Parquet文件中groupby的最佳实践

、、、

我们有一个1.5BM记录分散在几个csv文件。为了生成一个count聚合，我们需要对几个列进行分组。我们目前的战略是： <

浏览 2提问于2017-07-09得票数 3

1回答

你能用DataFrame作为dask.delayed中的查找表吗？

、、、

我拥有的数据规模不太可能使DataFrame合并成功--以前的尝试已经导致过多的数据洗牌、调度程序上的内存错误和工作人员中的通信超时，甚至包括索引、分区、工作人员的重要计数、总内存等等。我们目前正在dask.delayed函数中这样做。这显然需要大量磁盘I/O。 Dask延迟最佳实践()警告不要发送DataFrame延迟，不要调用延迟形式延迟，并告诉我们在分布式场景中避免

浏览 2提问于2021-09-20得票数 1

回答已采纳

1回答

将数据存储在blob存储库中也是很自然的，以便在云中运行大规模的工作负载。然而，一旦一个拼花文件被存储为一个blob，大多数库(dask、fastparquet、py箭头)都不能真正利用这一点，因为底层的fseek实际上不可能直接放在blob上--这意味着无论选择哪一列，在读取它之前都必须将整个文件下载到本地文件系统中因此，如果我的用例要求不同的应用程序需要不同的列，并且仅为几个列下载整个文件<em

浏览 0提问于2019-12-01得票数 2

回答已采纳

1回答

按group语法的Dask滚动函数

、

我花了一段时间努力学习语法，以便按组计算dask数据帧的滚动函数。文档非常优秀，但在本例中没有示例。我的工作版本如下所示，来自csv，其中包含一个文本字段，其中包含用户is和x，y，z列：ddf.groupby(ddf.User).x.apply(lambda x: x.rolling(5).mean(), meta=('x', 'f8')).compute() 这

浏览 0提问于2017-02-11得票数 2

1回答

在Docker容器上实现Dask调度器和工作者

、、、、

我需要在多个进程并行的情况下运行一个scikit learn RandomForestClassifier。为此，我正在考虑实现一个具有N个工作者的Dask调度器，其中调度器和每个工作者在单独的Docker容器中运行。客户端应用程序也在单独的Docker容器中运行，它将首先连接到调度器，并使用with joblib.parallel_backend('dask'):启动scikit learn进程。用于训练机器学习

浏览 37提问于2021-04-07得票数 2

回答已采纳

2回答

如何使用Dask并行化集群上的海量图像上的目标检测

、、、

我正在尝试是否可以使用Dask在集群上对海量2D图像(约20-50 GB)中的对象进行按块并行检测和分割。但是，我看到我可以传递给map_blocks

浏览 3提问于2016-11-23得票数 0

1回答

合并两个大型数据帧

、、、

_libs.join.inner_join() MemoryError: 有没有其他有效的方法。我在这里的一些讨论中看到Dask可以提供帮助，但我不知道如何在这种情况下使用它。有什么需要帮忙的吗？谢谢

浏览 16提问于2019-01-31得票数 0

1回答

多处理组应用python

、、、

我有两个组，一个是要作为组处理的行，另一个是要查看的组。','Y'] , 'ID' : ['1','3','4','8']}) gr2 = test2.groupby('city') 目前，我正在将我的函数应用于组</em

浏览 16提问于2017-06-22得票数 1

回答已采纳

2回答

在大于RAM的大型数据文件上应用一个函数

、、、、

据信，Dask框架能够处理比RAM更大的数据集。然而，我未能成功地将它应用于我的问题，听起来如下所示：在迭代了所有分区之后，我期望Dask将所有预处理分区连接起来，并返回一个完整的预处理数据。这种行为在我看来是合乎逻辑的</e

浏览 5提问于2020-05-20得票数 1

回答已采纳

1回答

为什么有时我必须在dask延迟函数上调用compute()两次？

、、

我正在使用dask延迟函数，在函数上使用@dask.delayed装饰器时，我熟悉dask的do's和don。我意识到，有时我需要调用compute()两次才能得到结果，尽管我认为自己遵循了最佳实践。也就是说，不要在另一个dask延迟函数中调用dask延迟函数。我在两个场景中遇到了这个问题:当有嵌套函数时，以及<em

浏览 2提问于2019-07-09得票数 1

回答已采纳

1回答

延迟评估Dask数组以避免临时性

我来自C++，习惯于使用表达式模板的库，其中的矩阵操作如下：不要创建临时文件和元素操作是在循环中完成的，而不会为右侧的操作创建临时矩阵对于Dask数组，这是可能的吗？Dask的“惰性评估”是否也是这样做的，或者这个术语只是指操作图的按需计算。谢谢。

浏览 2提问于2018-11-10得票数 1

1回答

如何使用dask.distributed并行嵌套循环？

、、、、

我试图使用这样的方式来使用dask分发来并行一个嵌套循环：def delayed_a(e): return首先，我使用一个惰性的computations函数创建了一个delayed_b列表，该函数将list的一个元素作为参数。然后，delayed_b创建一组调用delayed_a函数的新computations，并以分布式

浏览 1提问于2019-03-10得票数 0

回答已采纳

1回答

如何使用Numba + Dask正确并行化泛型代码

、、、

我刚开始使用Dask和Numba来加速代码，我希望这可能是一个有价值的问题，让用户获得如何并行化代码的最佳实践的答案。我已经用3列对pandas数据进行了一个通用的测试。将在框架中的3个向量上实现一个泛型函数，用于表示数据分析中可能进行的转换:前两列被平方、加法，然后取平方根，然后计算一个布尔值，将结果与第三列进行比较。我实现了4个测试用例：(a) pandas应用，(b) <em

浏览 0提问于2020-02-11得票数 2

回答已采纳

2回答

迭代Dask数据帧

、、、、

我正在尝试从成百上千个大型CSV文件的单个列中创建一个Keras Tokenizer。Dask似乎是一个很好的工具。我目前的方法最终会导致内存问题： df = dd.read_csv('data/*.csv', usecol=['MyCol']) tokeni

浏览 18提问于2020-10-30得票数 1

1回答

Neo4j 2.1.x ExecutionEngine实例数

、

ExecutionEngine实例的最佳实践是什么？我记得我在Neo4j新闻组上看到一篇文章说，应该在应用程序之间共享一个实例，但是我能找到的所有例子都表明情况并非如此。什么是总体最佳实践？

浏览 3提问于2015-03-21得票数 1

回答已采纳

1回答

包装在xarray数据集中的dask数组的子集上的并行任务

、

我有一个很大的xarray.Dataset存储为zarr。我想对它执行一些自定义操作，这些操作不能仅使用Dask集群将自动处理的类似numpy的函数来完成。因此，我将数据集划分为较小的子集，并为每个子集向我的Dask集群提交以下形式的任务 def my_task(zarr_path, subset_index): ds = xarray.open_zarr(zarr_path) # this returns an xarra

浏览 17提问于2020-07-13得票数 2

1回答

Dask apply_along_axis误差与Numpy的比较

、、、

我试图将一个函数应用到一个Dask数组，，虽然相同的函数在numpy数组上工作，但它不工作在一个Dask数组上。下面是一个示例：q = numpy.array([[1,2,3],[4,5,6]])def func(arr): t, y =

浏览 0提问于2020-05-21得票数 2

回答已采纳

点击加载更多