如何使用dask或parallel python跨多列使用函数

文章/答案/技术大牛

发布

1回答

、、

假设我有一个要应用于多个列的函数。但我们不是按顺序执行，而是并行执行。在进入兔子洞之后，我最终了解了Dask，这是一个用于pandas的并行化软件包。我做了一个性能基准测试，但下面的代码不像按顺序执行那样快，即下面是我的代码，它处理日期时间列并提取诸如day之类的属性 @dask.delayed

浏览 7提问于2019-11-19得票数 0

1回答

使用Joblib+Dask将许多子进程派生到HPC上的许多不同节点。

、、、、

我正在尝试运行一个python程序，该程序在某一时刻执行许多(数千)令人尴尬的并行进程，这些进程是以对其他软件的子进程调用的形式出现的。我使用过mpi4py，但代码中的延迟导致我转向使用joblib。Joblib似乎是并行化这些子进程调用的一种简单方法。为了在多个CPU (每个CPU都有多个内核)上运行这些程序，我也使用了dask。('dask'): res = joblib.Parallel(n_jobs=-2,verbose=1)(map

浏览 17提问于2019-04-03得票数 2

1回答

任务客户端在会话过程中更改工作进程数

、、

我有一个跨不同文件的相当大的数据集，我使用dask读取这些文件，然后是一个机器学习任务，我想使用dask作为并行后端。我注意到，使用具有更多工作线程的客户端而不是具有多个线程的一个工作线程的客户端，读入文件的速度要快得多。但是，它们各自的内存份额太小，无法处理ML任务。因此，我希望将我的工作线程数更改为1，并尽可能多地将线程数分配给新的唯一工作线程。有没有办法做到这一点，而不完全杀死和重启我的客户？我查看了docs，但找不到任何有用的东西。import Logisti

浏览 13提问于2020-08-21得票数 2

1回答

如何在分布式分布式环境下组合任务

、、、

""" from joblib import Parallel, delayed, parallel_backend在这里可以看到一个完整的笔记本：尝试这种方法的原因是必须解决>10k任务，在大约50个节点上使用32个cpus锁定GIL。使用50个工作线程*32个线程，而不是1600个工作线程，很容易构建一个达克作业队列集群。不幸的是，由于GIL被锁定，使用这个示例，没有给出超过50名工作

浏览 0提问于2018-10-21得票数 0

1回答

处理Xarray/Dask内存

、、

我正在尝试使用Xarray和Dask打开一个多文件数据集。然而，我遇到了内存错误。Attributes: 我还可以设置一个dask.distributed原则上，我可以只打开第一个文件(它们总是具有相同的形状)，以弄清楚如何理想地重新分块这些文件。谢谢!保罗

浏览 9提问于2020-02-17得票数 0

1回答

使用dask as进行任务调度以并行运行机器学习模型

、、、、

我一直在使用scikit learn，我决定使用DaskGridSearchCV。train_data, train_target)如果我有N个不同的GridSearch对象，我希望尽可能多地利用所有可用的资源因此，我开始尝试基于dask的文档的一些东西。首先，我尝试了dask.threaded和dask.multiprocessing，但它最终变得更慢，我不断得到： /Libra

浏览 0提问于2017-05-08得票数 5

1回答

如何并行化此嵌套循环

、、、

我正在使用joblib和Dask并行化我的代码，它具有以下循环结构： def main(): test = get_valid_systemsexpressions = get_ensemble_pairs(test) for c in expressions: job

浏览 15提问于2021-01-25得票数 0

回答已采纳

1回答

任务作业队列无法创建客户端计划程序和工作程序

、、、

我使用dask jobqueue以以下格式创建了一个作业脚本：from dask.distributed import Client cores=24, processes=2,--name name --nanny -

浏览 0提问于2019-11-06得票数 1

2回答

使用多个参数并行化groupby

、

index = [name for name, group in dfGrouped]谁会使用

浏览 9提问于2016-09-25得票数 3

1回答

从dask dataframe提供程序收集属性

、、

TL;DR：我如何从分布式读取中收集元数据(解析期间的错误)到dataframe集合中。目前，我有一种专用的文件格式，用于输入dask.DataFrame。我有一个函数，它接受一个文件路径并返回一个pandas.DataFrame，dask.DataFrame成功地在内部使用该函数将多个文件加载到同一个dask.DataFrame。需要注意的是，在合理的情况下，我使用的MultiImdices相当多(13个索引级别，3个列<

浏览 7提问于2016-01-26得票数 2

回答已采纳

1回答

Dask dataframe:如何将列dtype从对象转换为数字

、、

在Python中工作，我使用dask作为一个~20 in的数据集。其中一列包含整数，但出于某种原因，dask在该列中读取为具有"object“的dtype。如何将其转换为数字、float64或整数？我尝试过使用dd.to_numeric，但是得到了以下错误“模块'dask.dataframe‘没有属性'to_numeric'” 编辑:我认为这是一个复杂的事实，因为数据中有数千个

浏览 0提问于2019-10-01得票数 1

回答已采纳

1回答

是否有dask* api来获取dask集群中的当前任务数*

、

我遇到了一个问题，如果在短时间内提交了大量任务，dask调度程序会因内存错误而被终止(尽管工作程序仍在运行)。如果可以获得集群上的当前任务数，那么很容易控制提交到集群的并发任务的数量。

浏览 3提问于2017-09-17得票数 1

1回答

了解dask* cudf对象生命周期*

、、、

我想了解Dask对象的有效内存管理过程。我已经设置了一个Dask GPU集群，并且我能够执行跨该集群运行的任务。然而，使用dask对象，特别是当我运行计算函数时，在GPU上运行的进程会随着使用越来越多的内存而快速增长，很快我就会收到“内存不足错误”。我想知道如何在使用完dask对象后释放它们。在下面的示例中，在计算函数之后，我如何释放该对象。我运行了几次以下代码。内存在它运行的进

浏览 16提问于2021-05-06得票数 1

3回答

不断收到"distributed.utils_perf - WARNING - full垃圾回收占用了19%的CPU时间...“

在我完成DASK代码之后，我一直收到"distributed.utils_perf - WARNING - full垃圾回收最近占用了19%CPU时间“的警告消息。我正在使用DASK做一个大型的地震数据计算。计算完成后，我会将计算出的数据写入磁盘。写入磁盘部分所需的时间比计算要长得多。在我将数据写入磁盘之前，我调用了client.close()，我假设我已经完成了DASK。

浏览 185提问于2019-10-19得票数 7

1回答

大数据混洗导致超时

用Dask做这件事的好方法是什么？我尝试使用100个worker创建50个队列和提交50个读取器/写入器函数(都在不同的机器上，使用Kubernetes)。我首先增加作者，然后逐渐增加读者。

浏览 2提问于2018-02-17得票数 1

1回答

并行化Dask聚合

、、、、

在this post的基础上，我实现了自定义模式公式，但在此函数上发现了性能问题。基本上，当我进入这个聚合时，我的集群只使用我的一个线程，这对性能不是很好。注意，这个聚合必须在两个列上，所以我可能会因为不能使用单个列作为索引而获得更差的性能。有没有办法将dask期货或并行处理合并到聚合计算中？import dask.dataframe as ddfrom pandas import DataFr

浏览 29提问于2020-06-13得票数 2

回答已采纳

2回答

sklearn LogisticRegression:它是否使用了多个后台线程？

、、、

我有使用和的代码。在代码中保持其他一切不变，使用多进程池运行代码会在逻辑回归路径中启动数百个线程，因此完全阻碍了36个处理器的性能- htop屏幕截图：森林(如预期的那样，一个处理器保持空闲)：Python 3.6.7 (default, Oct 22 2018, 11:32:17) >>> sklearn.

浏览 1提问于2018-12-13得票数 2

3回答

使用bash命令执行100次

、

/bin/shdodone /path/*.html包含超过6000个文件，现在我想要做的是同时对前100个文件执行Python函数，当它完成后，运行其他100个文件，依此类推。

浏览 41提问于2021-06-11得票数 1

回答已采纳

1回答

为什么dask.delayed在使用networkx时比串行代码花费的时间更长？

、、、、

我想使用并行计算和my_func()一起加速函数dask.delayed的执行。在超过3维的循环中，my_func()从iris.cube.Cube (本质上是从循环外的文件加载的dask.array )中提取一个值，并根据该值使用networkx创建一个随机网络，并找到从节点0到节点是否有更好的方法来加速使用dask或multiprocessing之类的东西？dask client = Client(processes=True,

浏览 3提问于2021-03-04得票数 2

回答已采纳

1回答

在达斯克并行运行两次机器学习培训

、、

：X1 = data1[features1] X2 = data2[features2] try: model2.fit(X2, y2) except Exception我可以用工人1到5训练1，工人6到10训练2，但如何告诉达斯克分布使

浏览 3提问于2021-07-22得票数 0

回答已采纳

点击加载更多