Dask distributed -创建工作者的指南

、

我刚接触dask，在设置dask分布式集群时，我不确定这样做的最佳实践是什么。在设置工作进程时，让两个工作进程都有4 1GB的内存，还是让8个工作进程都有1 1GB的内存更有效率？它会根据要处理的数据而变化吗？我们有大约5-10 be的拼图格式的数据需要处理。你能建议一种常见的设置开始吗？另外，当工作线程的数量增加时，我们还需要增加调度器的内存吗？

浏览 12提问于2019-08-14得票数 1

2回答

如何将安全性(TLS/SSL)添加到Dask集群中？

、、、、

我试图弄清楚如何在GCP上的GKE上使用helm为我的Dask集群添加一个安全层，这将迫使用户将证书和密钥文件输入到security对象中，正如本文档1所解释的那样。value: "true" value: "myca.pem"

浏览 5提问于2020-07-27得票数 5

回答已采纳

1回答

使用负载均衡器在AWS上尝试dask.distributed集群时的连接错误

、、、

我们试图在AWS上使用ECS启动一个dask集群。我们目前的设置：一个经典的负载均衡器位于dask调度器前面，并监听TCP上的这三个端口。尽管我们只有一个dask</

浏览 1提问于2016-10-05得票数 2

2回答

嵌套的dask.compute不阻塞

、、、

然而，当我嵌套了dask.compute，并且内部的dask.compute执行I/O (如dask.dataframe.read_parquet)时，内部的and不是阻塞的。下面是一个伪代码示例： files = find_files_for_name(name)(f) for f in files ] tasks = d

浏览 11提问于2017-08-10得票数 0

1回答

如何将任务分配给dask* yarn集群中的特定工人*

、、

这个问题与dask.distributed类似，可以在这里找到：但同样的技术似乎不适用于dask的纱线簇。有没有办法在纱线簇dask的情况下做到这一点？例如，将任务分配给具有特定ip地址的特定节点中的特定工作者？

浏览 11提问于2020-05-26得票数 0

2回答

dask工作人员存储结果或文件的默认目录是什么？

、、

[mapr@impetus-i0057 latest_code_deepak]$ dask-worker 172.26.32.37:8786distributed.workerINFO - Local Directory: &

浏览 0提问于2018-02-07得票数 6

回答已采纳

2回答

VersionMismatchWarning:发现不匹配的版本- blosc

、

我在windows上开发，并使用dask-docker让我的工作人员和计划在vm上运行。有谁有什么想法吗？看起来dask真的一直想要所有的linux。+-+|客户端|无||调度程序| 1.9.1 || tcp://127.0.0.1:38323 | 1.9.1 |+-+-+ (venv) D:\dev\code\datacrunch>pip使用缓存的-U安装blosc收集blosc-1.9.1.tar.gz (809 kB)安装构建依赖...已完成生成轮子的要求...轮子元数据准

浏览 0提问于2020-05-15得票数 0

2回答

如何在每个Dask子进程中创建数据库连接引擎，以并行数千个sql查询，而无需在每个查询中重新创建引擎

、、、

然后我试着用dask像这样并行它。dbdata=dbdata.map(lambda x:jobWithEngine(x))###Wall time:1min8simport dask dask.config.set(sched

浏览 6提问于2020-03-17得票数 2

回答已采纳

1回答

如何有效地将npy转换为xarray / zarr

、、、

我有一个37 GB的.npy文件，我想要转换到扎尔商店，以便我可以包括坐标标签。在理论上，我有这样做的代码，但我一直没有内存。我想在中间使用Dask来方便，但是我仍然内存不足。fem_dask = dask.array.from_array(np.load('/Volumes/T7/cartilagenpy20220602/femoral.npy', mmap_mode='r'),

浏览 10提问于2022-06-17得票数 4

回答已采纳

4回答

TypeError：__dask_distributed_pack__()接受3个位置参数，但给出了4个

、、

我有一些代码，其中我将pandas数据帧转换为dask数据帧，并在行上应用一些操作。代码过去工作得很好，但现在似乎由于dask导致的一些内部错误而崩溃。有人知道问题出在哪里吗？in zip(results, postcomputes)]) ~

浏览 26提问于2021-05-20得票数 3

1回答

分布式任务调度程序节点是否需要与工作节点相同的环境？

、

使用基本CLI方法(即dask-scheduler、dask- worker )设置分布式dask集群时，dask调度器节点是否也需要与worker节点相同的环境(例如包)？我有一个docker集群，使用NVIDIA Jetson AGX (Arm64v8 + GPU)单元作为工作程序，使用Intelx86-64服务器作为调度器(没有GPU)，因此不容易(如果不可能)拥有相同的环境请求将主要来自Jetson单位提供的Jupyter笔记本电脑。因此，请求和计算环境是相同<

浏览 0提问于2020-11-16得票数 0

1回答

如何在Dask任务的执行之间保留一些Python对象状态？

、、

我有一个Dask worker集群，我想用它们通过一个复杂的模型并行化预测操作。模型文件很大，需要很长时间才能加载，所以我使用client.run让所有的工作人员运行一个初始化函数来加载这个模型。如何从client.run函数中保留Python变量状态，以便在将来的任务操作中引用和使用它？我找到了dask.distributed.get_worker和字典，并使用它来设置任意值，然后我就可以在map_partition函数中访问它们，但我不确定这是最好的还是最安全的选择

浏览 0提问于2019-09-27得票数 1

1回答

连接到dask.distributed群集时出错

、、、

运行我的第一个程序是我的简单code.Trying。from dask.distributed import Client return x+ 1 print(x.result())$python3 filename.py/usr/local&

浏览 8提问于2016-12-04得票数 3

回答已采纳

1回答

使用CPU工作器进行数据争论，并使用GPU工作器和dask培训xgboost

、、、

我阅读了文档here，了解如何启动不同资源的工作人员并将其分配给不同的任务。我也看过this的问题，但我有点困惑。，这是很好的。在此之后，我需要创建我的训练数据和标签。假设我有X_train、y_train和params。(y_train) 下面是我只需要使用GPU工作者的部分： Xy = dxgb.DaskDMatrix(client, X_train, y_train) 为了遵循文档，我应该将其转换为： Xy = client.submitself

浏览 20提问于2021-09-16得票数 1

1回答

理解Dask的任务流

、

我在8核的机器上使用分布式调度器在本地运行dask。在初始化时，我看到：这看起来是正确的，但我被诊断中的任务流搞糊涂了(如下所示)：我期望8行对应于8个工作者/核心，是不是不正确？谢谢我添加了我正在运行的代码：from dask.distributed import Client, progress client

浏览 0提问于2018-11-14得票数 1

2回答

Dask + pyinstaller失败

、、、

我正在尝试使用pyinstaller将dask数据帧转换为打包的可执行文件。我刚拿到在我的可执行文件中，我将其打包为当我运行它时，我发现找不到/some/path/dask.yaml。有没有人知道我是否应该添加隐藏的导入，或者如何解决这个问题？

浏览 43提问于2019-07-16得票数 6

回答已采纳

1回答

是否可以修改现有分布式客户端中的工作进程/线程数量？

、、

我正在我的本地机器上用dask优化一个TPOT管道。我预计这将持续48小时甚至更长时间。client = Client(n_workers=1, threads_per_worker=6, memory_limit="14GB") 我想知道我是否可以向客户端添加工作者/线程，以便在我睡眠或不使

浏览 11提问于2020-05-21得票数 1

回答已采纳

1回答

为什么达斯克的map_partitions函数比循环在分区上使用更多的内存？

、、、、

我有一个拼花文件的位置数据的车辆，是索引的车辆ID和排序的时间戳。我想读取拼花文件，对每个分区(不是聚合)做一些计算，然后将输出直接写入一个类似大小的新的拼花文件中。我组织了我的数据并编写了我的代码(如下所示)来使用Dask的map_partitions，因为我知道这将一次执行一个分区的操作，将每个结果依次保存到磁盘，从而最小化内存的使用。我惊讶地发现，这超出了我的</em

浏览 1提问于2022-06-20得票数 2

回答已采纳

1回答

无法从本地计算机访问文件时使用dask.dataframe读取

、

我有一台功能强大的机器(远程机器)，可以通过SSH访问。我的数据存储在远程机器上。我想运行并访问远程机器上的数据。为此，我在远程机器上运行了一个dask-scheduler &一个dask-worker。然后，我在我的笔记本电脑(本地机器)上运行了一个jupyter笔记本电脑，使用的是client=Client(‘schedular ip:8786’)，但它仍然引用本地机器上的数据，而不是远程机器上的数据如何从运行在本地计算

浏览 31提问于2021-09-26得票数 2

1回答

如何将任务分配给GPU和CPU Dask工作者？

我正在设置一个Dask脚本，以便在PSC Bridge P100图形处理器节点上执行。这些节点提供2个CPU和32个CPU核心。我想启动基于CPU和GPU的dask-workers。CPU工作进程将启动：而GPU工作者则表现为：我的工作流由一组仅CPU任务和一组GPU任务组成，它们取

浏览 0提问于2019-08-20得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将安全性(TLS/SSL)添加到Dask集群中？

使用负载均衡器在AWS上尝试dask.distributed集群时的连接错误

嵌套的dask.compute不阻塞

如何将任务分配给dask* yarn集群中的特定工人*

dask工作人员存储结果或文件的默认目录是什么？

VersionMismatchWarning:发现不匹配的版本- blosc

如何在每个Dask子进程中创建数据库连接引擎，以并行数千个sql查询，而无需在每个查询中重新创建引擎

如何有效地将npy转换为xarray / zarr

TypeError：__dask_distributed_pack__()接受3个位置参数，但给出了4个

分布式任务调度程序节点是否需要与工作节点相同的环境？

如何在Dask任务的执行之间保留一些Python对象状态？

连接到dask.distributed群集时出错

使用CPU工作器进行数据争论，并使用GPU工作器和dask培训xgboost

理解Dask的任务流

Dask + pyinstaller失败

是否可以修改现有分布式客户端中的工作进程/线程数量？

为什么达斯克的map_partitions函数比循环在分区上使用更多的内存？

无法从本地计算机访问文件时使用dask.dataframe读取

如何将任务分配给GPU和CPU Dask工作者？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐