腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Dask
distributed
-
创建
工作者
的
指南
、
我刚接触
dask
,在设置
dask
分布式集群时,我不确定这样做
的
最佳实践是什么。在设置工作进程时,让两个工作进程都有4 1GB
的
内存,还是让8个工作进程都有1 1GB
的
内存更有效率?它会根据要处理
的
数据而变化吗?我们有大约5-10 be
的
拼图格式
的
数据需要处理。你能建议一种常见
的
设置开始吗?另外,当工作线程
的
数量增加时,我们还需要增加调度器
的
内存吗?
浏览 12
提问于2019-08-14
得票数 1
2
回答
如何将安全性(TLS/SSL)添加到
Dask
集群中?
、
、
、
、
我试图弄清楚如何在GCP上
的
GKE上使用helm为我
的
Dask
集群添加一个安全层,这将迫使用户将证书和密钥文件输入到security对象中,正如本文档1所解释
的
那样。value: "true" value: "myca.pem"
浏览 5
提问于2020-07-27
得票数 5
回答已采纳
1
回答
使用负载均衡器在AWS上尝试
dask
.
distributed
集群时
的
连接错误
、
、
、
我们试图在AWS上使用ECS启动一个
dask
集群。我们目前
的
设置: 一个经典
的
负载均衡器位于
dask
调度器前面,并监听TCP上
的
这三个端口。尽管我们只有一个
dask</
浏览 1
提问于2016-10-05
得票数 2
2
回答
嵌套
的
dask
.compute不阻塞
、
、
、
然而,当我嵌套了
dask
.compute,并且内部
的
dask
.compute执行I/O (如
dask
.dataframe.read_parquet)时,内部
的
and不是阻塞
的
。下面是一个伪代码示例: files = find_files_for_name(name)(f) for f in files ] tasks =
d
浏览 11
提问于2017-08-10
得票数 0
1
回答
如何将任务分配给
dask
yarn集群中
的
特定工人
、
、
这个问题与
dask
.
distributed
类似,可以在这里找到: 但同样
的
技术似乎不适用于
dask
的
纱线簇。有没有办法在纱线簇
dask
的
情况下做到这一点?例如,将任务分配给具有特定ip地址
的
特定节点中
的
特定
工作者
?
浏览 11
提问于2020-05-26
得票数 0
2
回答
dask
工作人员存储结果或文件
的
默认目录是什么?
、
、
[mapr@impetus-i0057 latest_code_deepak]$
dask
-worker 172.26.32.37:8786
distributed
.workerINFO - Local Directory: &
浏览 0
提问于2018-02-07
得票数 6
回答已采纳
2
回答
VersionMismatchWarning:发现不匹配
的
版本- blosc
、
我在windows上开发,并使用
dask
-docker让我
的
工作人员和计划在vm上运行。有谁有什么想法吗?看起来
dask
真的一直想要所有的linux。+-+|客户端|无||调度程序| 1.9.1 || tcp://127.0.0.1:38323 | 1.9.1 |+-+-+ (venv) D:\dev\code\datacrunch>pip使用缓存
的
-U安装blosc收集blosc-1.9.1.tar.gz (809 kB)安装构建依赖...已完成生成轮子
的
要求...轮子元数据准
浏览 0
提问于2020-05-15
得票数 0
2
回答
如何在每个
Dask
子进程中
创建
数据库连接引擎,以并行数千个sql查询,而无需在每个查询中重新
创建
引擎
、
、
、
然后我试着用
dask
像这样并行它。dbdata=dbdata.map(lambda x:jobWithEngine(x))###Wall time:1min8simport
dask
dask
.config.set(sched
浏览 6
提问于2020-03-17
得票数 2
回答已采纳
1
回答
如何有效地将npy转换为xarray / zarr
、
、
、
我有一个37 GB
的
.npy文件,我想要转换到扎尔商店,以便我可以包括坐标标签。在理论上,我有这样做
的
代码,但我一直没有内存。我想在中间使用
Dask
来方便,但是我仍然内存不足。fem_
dask
=
dask
.array.from_array(np.load('/Volumes/T7/cartilagenpy20220602/femoral.npy', mmap_mode='r'),
浏览 10
提问于2022-06-17
得票数 4
回答已采纳
4
回答
TypeError:__
dask
_
distributed
_pack__()接受3个位置参数,但给出了4个
、
、
我有一些代码,其中我将pandas数据帧转换为
dask
数据帧,并在行上应用一些操作。代码过去工作得很好,但现在似乎由于
dask
导致
的
一些内部错误而崩溃。有人知道问题出在哪里吗?in zip(results, postcomputes)]) ~
浏览 26
提问于2021-05-20
得票数 3
1
回答
分布式任务调度程序节点是否需要与工作节点相同
的
环境?
、
使用基本CLI方法(即
dask
-scheduler、
dask
- worker )设置分布式
dask
集群时,
dask
调度器节点是否也需要与worker节点相同
的
环境(例如包)?我有一个docker集群,使用NVIDIA Jetson AGX (Arm64v8 + GPU)单元作为工作程序,使用Intelx86-64服务器作为调度器(没有GPU),因此不容易(如果不可能)拥有相同
的
环境请求将主要来自Jetson单位提供
的
Jupyter笔记本电脑。因此,请求和计算环境是相同<
浏览 0
提问于2020-11-16
得票数 0
1
回答
如何在
Dask
任务
的
执行之间保留一些Python对象状态?
、
、
我有一个
Dask
worker集群,我想用它们通过一个复杂
的
模型并行化预测操作。模型文件很大,需要很长时间才能加载,所以我使用client.run让所有的工作人员运行一个初始化函数来加载这个模型。如何从client.run函数中保留Python变量状态,以便在将来
的
任务操作中引用和使用它?我找到了
dask
.
distributed
.get_worker和字典,并使用它来设置任意值,然后我就可以在map_partition函数中访问它们,但我不确定这是最好
的
还是最安全
的
选择
浏览 0
提问于2019-09-27
得票数 1
1
回答
连接到
dask
.
distributed
群集时出错
、
、
、
运行我
的
第一个程序是我
的
简单code.Trying。from
dask
.
distributed
import Client return x+ 1 print(x.result())$python3 filename.py/usr/local&
浏览 8
提问于2016-12-04
得票数 3
回答已采纳
1
回答
使用CPU工作器进行数据争论,并使用GPU工作器和
dask
培训xgboost
、
、
、
我阅读了文档here,了解如何启动不同资源
的
工作人员并将其分配给不同
的
任务。我也看过this
的
问题,但我有点困惑。,这是很好
的
。在此之后,我需要
创建
我
的
训练数据和标签。假设我有X_train、y_train和params。(y_train) 下面是我只需要使用GPU
工作者
的
部分: Xy = dxgb.DaskDMatrix(client, X_train, y_train) 为了遵循文档,我应该将其转换为: Xy = client.submitself
浏览 20
提问于2021-09-16
得票数 1
1
回答
理解
Dask
的
任务流
、
我在8核
的
机器上使用分布式调度器在本地运行
dask
。在初始化时,我看到:这看起来是正确
的
,但我被诊断中
的
任务流搞糊涂了(如下所示): 我期望8行对应于8个
工作者
/核心,是不是不正确?谢谢我添加了我正在运行
的
代码:from
dask
.
distributed
import Client, progress client
浏览 0
提问于2018-11-14
得票数 1
2
回答
Dask
+ pyinstaller失败
、
、
、
我正在尝试使用pyinstaller将
dask
数据帧转换为打包
的
可执行文件。我刚拿到在我
的
可执行文件中,我将其打包为当我运行它时,我发现找不到/some/path/
dask
.yaml。有没有人知道我是否应该添加隐藏
的
导入,或者如何解决这个问题?
浏览 43
提问于2019-07-16
得票数 6
回答已采纳
1
回答
是否可以修改现有分布式客户端中
的
工作进程/线程数量?
、
、
我正在我
的
本地机器上用
dask
优化一个TPOT管道。我预计这将持续48小时甚至更长时间。client = Client(n_workers=1, threads_per_worker=6, memory_limit="14GB") 我想知道我是否可以向客户端添加
工作者
/线程,以便在我睡眠或不使
浏览 11
提问于2020-05-21
得票数 1
回答已采纳
1
回答
为什么达斯克
的
map_partitions函数比循环在分区上使用更多
的
内存?
、
、
、
、
我有一个拼花文件
的
位置数据
的
车辆,是索引
的
车辆ID和排序
的
时间戳。我想读取拼花文件,对每个分区(不是聚合)做一些计算,然后将输出直接写入一个类似大小
的
新
的
拼花文件中。我组织了我
的
数据并编写了我
的
代码(如下所示)来使用
Dask
的
map_partitions,因为我知道这将一次执行一个分区
的
操作,将每个结果依次保存到磁盘,从而最小化内存
的
使用。我惊讶地发现,这超出了我
的</em
浏览 1
提问于2022-06-20
得票数 2
回答已采纳
1
回答
无法从本地计算机访问文件时使用
dask
.dataframe读取
、
我有一台功能强大
的
机器(远程机器),可以通过SSH访问。我
的
数据存储在远程机器上。 我想运行并访问远程机器上
的
数据。为此,我在远程机器上运行了一个
dask
-scheduler &一个
dask
-worker。然后,我在我
的
笔记本电脑(本地机器)上运行了一个jupyter笔记本电脑,使用
的
是client=Client(‘schedular ip:8786’),但它仍然引用本地机器上
的
数据,而不是远程机器上
的
数据如何从运行在本地计算
浏览 31
提问于2021-09-26
得票数 2
1
回答
如何将任务分配给GPU和CPU
Dask
工作者
?
我正在设置一个
Dask
脚本,以便在PSC Bridge P100图形处理器节点上执行。这些节点提供2个CPU和32个CPU核心。我想启动基于CPU和GPU
的
dask
-workers。CPU工作进程将启动:而GPU
工作者
则表现为:我
的
工作流由一组仅CPU任务和一组GPU任务组成,它们取
浏览 0
提问于2019-08-20
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何创建自己的小程序?零编程一键创建实战指南
创建和发布 Android 开发库的终极指南
TikTok为品牌提供了创建广告的分步指南!
“MATLAB 仿真秘籍:创建与管理模型的深度指南”
Dask:并行计算的灵活解决方案,用完都说好神奇!
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券