腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
dask
或
parallel
python
跨
多
列
使用
函数
、
、
假设我有一个要应用于多个
列
的
函数
。但我们不是按顺序执行,而是并行执行。在进入兔子洞之后,我最终了解了
Dask
,这是一个用于pandas的并行化软件包。我做了一个性能基准测试,但下面的代码不像按顺序执行那样快,即下面是我的代码,它处理日期时间
列
并提取诸如day之类的属性 @
dask
.delayed
浏览 7
提问于2019-11-19
得票数 0
1
回答
使用
Joblib+
Dask
将许多子进程派生到HPC上的许多不同节点。
、
、
、
、
我正在尝试运行一个
python
程序,该程序在某一时刻执行许多(数千)令人尴尬的并行进程,这些进程是以对其他软件的子进程调用的形式出现的。我
使用
过mpi4py,但代码中的延迟导致我转向
使用
joblib。Joblib似乎是并行化这些子进程调用的一种简单方法。为了在多个CPU (每个CPU都有多个内核)上运行这些程序,我也
使用
了
dask
。('
dask
'): res = joblib.
Parallel
(n_jobs=-2,verbose=1)(map
浏览 17
提问于2019-04-03
得票数 2
1
回答
任务客户端在会话过程中更改工作进程数
、
、
我有一个
跨
不同文件的相当大的数据集,我
使用
dask
读取这些文件,然后是一个机器学习任务,我想
使用
dask
作为并行后端。我注意到,
使用
具有更多工作线程的客户端而不是具有多个线程的一个工作线程的客户端,读入文件的速度要快得多。但是,它们各自的内存份额太小,无法处理ML任务。因此,我希望将我的工作线程数更改为1,并尽可能
多
地将线程数分配给新的唯一工作线程。有没有办法做到这一点,而不完全杀死和重启我的客户? 我查看了docs,但找不到任何有用的东西。import Logisti
浏览 13
提问于2020-08-21
得票数 2
1
回答
如何
在分布式分布式环境下组合任务
、
、
、
""" from joblib import
Parallel
, delayed,
parallel
_backend在这里可以看到一个完整的笔记本: 尝试这种方法的原因是必须解决>10k任务,在大约50个节点上
使用
32个cpus锁定GIL。
使用
50个工作线程*32个线程,而不是1600个工作线程,很容易构建一个达克作业队列集群。不幸的是,由于GIL被锁定,
使用
这个示例,没有给出超过50名工作
浏览 0
提问于2018-10-21
得票数 0
1
回答
处理Xarray/
Dask
内存
、
、
我正在尝试
使用
Xarray和
Dask
打开一个
多
文件数据集。然而,我遇到了内存错误。Attributes: 我还可以设置一个
dask
.distributed原则上,我可以只打开第一个文件(它们总是具有相同的形状),以弄清楚
如何
理想地重新分块这些文件。 谢谢!保罗
浏览 9
提问于2020-02-17
得票数 0
1
回答
使用
dask
as进行任务调度以并行运行机器学习模型
、
、
、
、
我一直在
使用
scikit learn,我决定
使用
DaskGridSearchCV。train_data, train_target)如果我有N个不同的GridSearch对象,我希望尽可能
多
地利用所有可用的资源因此,我开始尝试基于
dask
的文档的一些东西。首先,我尝试了
dask
.threaded和
dask
.multiprocessing,但它最终变得更慢,我不断得到: /Libra
浏览 0
提问于2017-05-08
得票数 5
1
回答
如何
并行化此嵌套循环
、
、
、
我正在
使用
joblib和
Dask
并行化我的代码,它具有以下循环结构: def main(): test = get_valid_systemsexpressions = get_ensemble_pairs(test) for c in expressions: job
浏览 15
提问于2021-01-25
得票数 0
回答已采纳
1
回答
任务作业队列无法创建客户端计划程序和工作程序
、
、
、
我
使用
dask
jobqueue以以下格式创建了一个作业脚本:from
dask
.distributed import Client cores=24, processes=2,--name name --nanny -
浏览 0
提问于2019-11-06
得票数 1
2
回答
使用
多个参数并行化groupby
、
index = [name for name, group in dfGrouped]谁会
使用
浏览 9
提问于2016-09-25
得票数 3
1
回答
从
dask
dataframe提供程序收集属性
、
、
TL;DR:我
如何
从分布式读取中收集元数据(解析期间的错误)到dataframe集合中。 目前,我有一种专用的文件格式,用于输入
dask
.DataFrame。我有一个
函数
,它接受一个文件路径并返回一个pandas.DataFrame,
dask
.DataFrame成功地在内部
使用
该
函数
将多个文件加载到同一个
dask
.DataFrame。需要注意的是,在合理的情况下,我
使用
的MultiImdices相当
多
(13个索引级别,3个
列<
浏览 7
提问于2016-01-26
得票数 2
回答已采纳
1
回答
Dask
dataframe:
如何
将
列
dtype从对象转换为数字
、
、
在
Python
中工作,我
使用
dask
作为一个~20 in的数据集。其中一
列
包含整数,但出于某种原因,
dask
在该
列
中读取为具有"object“的dtype。
如何
将其转换为数字、float64
或
整数?我尝试过
使用
dd.to_numeric,但是得到了以下错误“模块'
dask
.dataframe‘没有属性'to_numeric'” 编辑:我认为这是一个复杂的事实,因为数据中有数千个
浏览 0
提问于2019-10-01
得票数 1
回答已采纳
1
回答
是否有
dask
api来获取
dask
集群中的当前任务数
、
我遇到了一个问题,如果在短时间内提交了大量任务,
dask
调度程序会因内存错误而被终止(尽管工作程序仍在运行)。 如果可以获得集群上的当前任务数,那么很容易控制提交到集群的并发任务的数量。
浏览 3
提问于2017-09-17
得票数 1
1
回答
了解
dask
cudf对象生命周期
、
、
、
我想了解
Dask
对象的有效内存管理过程。我已经设置了一个
Dask
GPU集群,并且我能够执行
跨
该集群运行的任务。然而,
使用
dask
对象,特别是当我运行计算
函数
时,在GPU上运行的进程会随着
使用
越来越多的内存而快速增长,很快我就会收到“内存不足错误”。 我想知道
如何
在
使用
完
dask
对象后释放它们。在下面的示例中,在计算
函数
之后,我
如何
释放该对象。我运行了几次以下代码。内存在它运行的进
浏览 16
提问于2021-05-06
得票数 1
3
回答
不断收到"distributed.utils_perf - WARNING - full垃圾回收占用了19%的CPU时间...“
在我完成
DASK
代码之后,我一直收到"distributed.utils_perf - WARNING - full垃圾回收最近占用了19%CPU时间“的警告消息。我正在
使用
DASK
做一个大型的地震数据计算。计算完成后,我会将计算出的数据写入磁盘。写入磁盘部分所需的时间比计算要长得多。在我将数据写入磁盘之前,我调用了client.close(),我假设我已经完成了
DASK
。
浏览 185
提问于2019-10-19
得票数 7
1
回答
大数据混洗导致超时
用
Dask
做这件事的好方法是什么? 我尝试
使用
100个worker创建50个队列和提交50个读取器/写入器
函数
(都在不同的机器上,
使用
Kubernetes)。我首先增加作者,然后逐渐增加读者。
浏览 2
提问于2018-02-17
得票数 1
1
回答
并行化
Dask
聚合
、
、
、
、
在this post的基础上,我实现了自定义模式公式,但在此
函数
上发现了性能问题。基本上,当我进入这个聚合时,我的集群只
使用
我的一个线程,这对性能不是很好。注意,这个聚合必须在两个列上,所以我可能会因为不能
使用
单个列作为索引而获得更差的性能。 有没有办法将
dask
期货
或
并行处理合并到聚合计算中?import
dask
.dataframe as ddfrom pandas import DataFr
浏览 29
提问于2020-06-13
得票数 2
回答已采纳
2
回答
sklearn LogisticRegression:它是否
使用
了多个后台线程?
、
、
、
我有
使用
和的代码。在代码中保持其他一切不变,
使用
多进程池运行代码会在逻辑回归路径中启动数百个线程,因此完全阻碍了36个处理器的性能- htop屏幕截图: 森林(如预期的那样,一个处理器保持空闲):
Python
3.6.7 (default, Oct 22 2018, 11:32:17) >>> sklearn.
浏览 1
提问于2018-12-13
得票数 2
3
回答
使用
bash命令执行100次
、
/bin/shdodone /path/*.html包含超过6000个文件,现在我想要做的是同时对前100个文件执行
Python
函数
,当它完成后,运行其他100个文件,依此类推。
浏览 41
提问于2021-06-11
得票数 1
回答已采纳
1
回答
为什么
dask
.delayed在
使用
networkx时比串行代码花费的时间更长?
、
、
、
、
我想
使用
并行计算和my_func()一起加速
函数
dask
.delayed的执行。在超过3维的循环中,my_func()从iris.cube.Cube (本质上是从循环外的文件加载的
dask
.array )中提取一个值,并根据该值
使用
networkx创建一个随机网络,并找到从节点0到节点是否有更好的方法来加速
使用
dask
或
multiprocessing之类的东西?
dask
client = Client(processes=True,
浏览 3
提问于2021-03-04
得票数 2
回答已采纳
1
回答
在达斯克并行运行两次机器学习培训
、
、
:X1 = data1[features1] X2 = data2[features2] try: model2.fit(X2, y2) except Exception我可以用工人1到5训练1,工人6到10训练2,但
如何
告诉达斯克分布
使
浏览 3
提问于2021-07-22
得票数 0
回答已采纳
点击加载更多
相关
资讯
如何使用python 的偏函数
如何使用Python装饰器来修改函数
使用sum函数如何使列A不变,列C跟着姓名排序后面的数据不变
【Python】如何使用一行代码编写函数?
如何使用python的csv模块提取一列数据
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券