joblib并行返回重复数组

文章/答案/技术大牛

发布

1回答

、、

import multiprocessingimport numpy as np l2为什么我得到的是四个相同的数组，而不是一个？

浏览 29提问于2020-09-11得票数 0

回答已采纳

2回答

Python:并行修改数组的简单方法

、、

这个问题听起来可能很简单，但对于Python中的并行化来说，我肯定是在挣扎。我在OpenMP中处理了C++的并行化问题，这要容易得多。我需要做的是并行修改矩阵的条目。就这样。问题是，我不能使用简单的joblib库来完成它： def fooParallel(n_jobs=2, verbose = 0)(delayed(foo)(array,i) for i in in

浏览 0提问于2016-08-13得票数 4

回答已采纳

2回答

我有一个求和，我试图计算，我有困难并行的代码。我试图并行化的计算有点复杂(它使用numpy数组和枕稀疏矩阵)。它产生一个numpy数组，我想从大约1000次计算中将输出数组相加。到目前为止，我已经尝试在python的多处理包中使用joblib的并行函数和pool.map函数。对于这两种情况，我使用一个返回numpy数组的内部函数。这些函数返回一个列表，我将其转换为numpy数组，然后进行求和。但是

浏览 10提问于2012-01-30得票数 4

回答已采纳

2回答

如何并行迭代SimPy模拟？

、、

我有一个SimPy模型，它返回一个随机结果，我想重复多次。每个复制都是独立的，因此为了使其更快，我想并行地运行它们。我已经尝试过Python的、和joblib ，但是每种方法都会得到相同的错误：TypeError: can't pickle generator objects。有没有办法避免这一错误，并并行运行仿真？ SimPy依赖于解释为的生成器，因此避免它们是不可能的。

浏览 2提问于2019-10-02得票数 2

回答已采纳

2回答

矢量串距

、、、

我正在寻找一种方法，以一种矢量化的方式计算两个Pandas数据栏之间的字符串距离。我尝试了距离和文本距离库，但是它们需要使用df.apply，这是非常慢的。您知道只使用列操作有字符串距离的方法吗？谢谢

浏览 0提问于2022-02-22得票数 -1

回答已采纳

1回答

使用Joblib+Dask将许多子进程派生到HPC上的许多不同节点。

、、、、

我正在尝试运行一个python程序，该程序在某一时刻执行许多(数千)令人尴尬的并行进程，这些进程是以对其他软件的子进程调用的形式出现的。我使用过mpi4py，但代码中的延迟导致我转向使用joblib。Joblib似乎是并行化这些子进程调用的一种简单方法。为了在多个CPU (每个CPU都有多个内核)上运行这些程序，我也使用了dask。cluster = LocalCluster()client = Client(cluster) from sklearn

浏览 17提问于2019-04-03得票数 2

1回答

在找到想要的值后，如何打破joblib中的并行化？

、、

假设我有这样一个函数： if angle % 5==0:然后，我以以下方式使用joblib.Parallel和joblib.delayed：results = Parallel(n_jobs=4)(delayed(f)(angle)for x in results: return x 有了这个

浏览 3提问于2020-03-25得票数 3

1回答

稀疏CSR阵列的核外处理

、、、、

如何在使用Python保存在磁盘上的稀疏CSR数组的块上并行应用一些函数？按照顺序，这可以通过使用joblib.dump保存CSR数组、用joblib.load(.., mmap_mode="r")打开它并逐一处理行块来实现。用能更有效地做到这一点吗？特别是，假设不需要对稀疏数组进行所有可能的核心操作，而只需要并行加载行块(每个块是一个CSR数组)并将某些函数应用到它们(在我的例子中，这将是来自scikit-learn的estima

浏览 3提问于2017-07-17得票数 43

2回答

如何将dask数组逐片保存为.png文件？

我想将结果(dask数组)存储为.png文件，每个文件对应于dask数组的一个片段。你对如何实现这一点有什么建议吗？我一直在尝试通过使用joblib dask并行后端构建一个并行for循环来保存结果，然后逐个切片地循环结果。已使用client.persist()将array_to_save持久化到内存中 joblib.Parallel(verbose=100)(<em

浏览 0提问于2019-02-10得票数 1

1回答

joblib.parallel中的共享内存熊猫数据帧对象

、、、、

我使用joblib中的并行函数来并行一个任务。所有进程都以熊猫数据为输入。为了减少所使用的运行时内存，可以共享此数据吗？所有进程都是只读的。我找到了类似的解决方案，但对于numpy数组，并在这里使用了多处理：from joblib import Parallel, delayed def fun(df, cat):

浏览 6提问于2022-09-20得票数 0

回答已采纳

1回答

Python并行追加到代理列表返回“function”对象不可迭代或“NoneType”对象不可迭代

、

我想追加一个Python并行处理列表。multiprocessing.cpu_count()def process(word) :results= Parallel(n_jobs=num_

浏览 8提问于2019-04-09得票数 0

回答已采纳

1回答

在joblib中打印函数的输出

、、

我试图使用joblib来并行运行在函数上的循环。我希望显示函数的中间print命令，而不仅仅是函数的return值。from joblib import Parallel, delayed print("the value passed is",i) Parallel(n_jobs

浏览 0提问于2019-07-02得票数 3

1回答

如何使用joblib Python返回矩阵？

、、

我有一个返回列表的函数。我正在使用joblib进行并行处理。from joblib import Parallel, delayed # somethinginputs =如果没有并行，我会这样做： # somethinginputs = range(500)for

浏览 2提问于2016-02-27得票数 2

1回答

用joblib并行填充数组

、、

from joblib import Parallel, delayedl = np.random.randn(n,50) a = np.zeros为什么数组a没有被填充？

浏览 17提问于2020-09-12得票数 0

2回答

如何使用Python填充全局变量？

、、、

我想并行运行一些代码，并用Python中的结果填充一个全局变量。我编写了一个示例代码来检查 know 的行为，但我不知道如何返回结果。示例代码是：import multiprocessing如果我在运行其他任何东西之前检查global_var，它是

浏览 0提问于2018-04-27得票数 6

1回答

我能比按顺序处理大量的文本文件更快吗？

、、、

我正在处理一个包含数千个文本文件的数据集，每个文件大约700kb。文件名包含产生数据的输入参数(列分隔时间、频率、振幅)。我创建了一个字典，将文件名作为键，将参数作为元组中的值(以便能够将文件与参数相关联)。考虑到大量的文件，我希望由于I/O的原因需要一些时间，但我想知道是否有更有效的方法来做到这一点？到目前为止，我只是简单地在文件名字典上循环pandas，并在循环中执行分析。 for f in dict_of_filenames.items():

浏览 8提问于2021-06-23得票数 0

1回答

如何并行运行生成器代码？

、、、、

只是不清楚如何使用它来并行化生成器。稍有不同:生成器返回的每个值都是一个很大的numpy数组(大约10兆字节)。如何在不进行酸洗和非酸洗的情况下进行传输？我看过multiprocessing.Array的文档，但如何使用它来传递一个numpy数组并不是很明显。

浏览 0提问于2017-03-26得票数 4

1回答

python并行化数据库查询执行

、、

我有以下查询，它返回日期范围内的数据。pd.read_sql(sql=formated_query,con=db_connect)) 为了查询，我在index和index + 1传递日期(索引中的日期大于日期) 这些查询需要很长的时间，我希望以并行的方式执行我查看了joblib，但不确定这是multi-threading还是multi-processing。看起来像是前者。同样是joblib新手，我如何使用joblib或其他包来并行化上面的代码？

浏览 27提问于2019-04-10得票数 0

2回答

多返回值函数的joblib并行处理

、、、、

我使用joblib来并行化一个函数(使用多进程)。但是，这个函数返回4个值，但当我从Parallel获得结果时，它只返回3个值import numpy as np from

浏览 0提问于2018-07-31得票数 6

1回答

sk-learn将模型保存到磁盘，但仅获取数组

、、、、

当存储fitted_clf sk-learn分类器时：大多数情况下，将其重新加载到内存中时，如下所示：只返回一个array(['col1', 'col2], dtype=object)数组，而不是加载拟合的管道。编辑我认为这与不同的joblib版本有关，例如来自sklearn.externals import joblib works的版

浏览 1提问于2017-07-28得票数 2

点击加载更多