腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Dask
:
有没有
办法
从
任务
中
获取
每个
分区
的
ID
,
这样
我
就可以
在
任务
f
中
做
一些
不同
的
事情
、
我
正在尝试对
我
拥有的一组文本数据使用
dask
。文本数据将被分成4个部分。
我
想从
任务
中
获取
分区
ID
,以便根据
分区
执行
一些
稍微
不同
的
操作。
我
想知道是否有方法可以做到这一点(如下面的伪代码所示)。def task(df, partition_
id
):
浏览 10
提问于2019-09-10
得票数 0
1
回答
用
不同
的
列选择加载多个拼花文件
、
、
、
我
想使用
Dask
从
存储
在
不同
目录
中
的
许多拼板文件中加载特定
的
列,并且
每个
分区
需要加载
不同
的
列。
我
想使用
Dask
,
这样
我
就可以
在
一台机器上使用多个核心。
我
了解了如何将文件或通配符
的
列表传递给dd.read_parquet,以指示多个文件(例如
浏览 0
提问于2019-05-24
得票数 1
回答已采纳
2
回答
在
dataframes
中
,“计算()”背后
的
逻辑是什么?
、
、
、
我
很难理解何时什么时候不要在
Dask
数据仓库中使用compute()。
我
通常通过添加/删除compute()来编写代码,直到代码生效,但这是非常容易出错
的
。
我
应该如何在达斯克中使用compute()?
浏览 2
提问于2021-05-23
得票数 1
回答已采纳
2
回答
Spark/EMR能否
从
s3多线程读取数据
、
、
、
由于
一些
不幸
的
事件序列,我们最终得到了一个存储
在
s3上
的
非常零散
的
数据集。表元数据存储
在
Glue上,数据写入bucketBy,并以拼图格式存储。因此,文件
的
发现不是问题,spark
分区
的
数量等于存储桶
的
数量,这提供了很好
的
并行性。 当我们
在
Spark/EMR上加载这个数据集时,我们最终让
每个
spark
分区
从
s3加载了大
浏览 2
提问于2020-01-20
得票数 2
1
回答
如何向
dask
提交一组长时间运行
的
并行
任务
?
、
、
我
有一个最初使用concurrent.futures.ProcessPoolExecutor运行
的
计算工作量,
我
将其转换为使用
dask
,
这样
我
就可以
利用
dask
与分布式计算系统
的
集成来扩展到一台机器之外
任务
B:
从
任务
A
获取
矩阵,并使用它和其他
一些
小输入来求解一个常微分方程。解决方案被写入磁盘(因此没有返回值)。
任务
持续时间最长可
浏览 2
提问于2021-07-19
得票数 1
回答已采纳
1
回答
如何在所有
任务
提交完成之前阻止
任务
的
执行?
、
、
我
正在构建一个框架,其中
每个
任务
都使用submit提交给用户提供
的
dask
客户端,如下所示: future = client.submit(my_func,*args)
一些
函数对以前
的
未来有多个依赖关系,最深
的
深度约为10-15个
任务
深度。然而,
我
发现对于大量
的
任务
,比如说几千个以上
的
任务
,这种方法往往会挂起调度器,因为计算和
任务</e
浏览 10
提问于2019-12-04
得票数 1
回答已采纳
1
回答
我
可以加速这个简单
的
Dask
脚本,以获得多个羽化数据帧
的
总行计数吗?
、
我
在
C:\script\data\YYYY\MM\data.feather中有数据 为了更好地理解
Dask
,
我
正在尝试优化一个简单
的
脚本,该脚本
从
每个
文件
中
获取
行数并对其求和。colA和colB,因为
我
希望最终能够计算
不同
时间跨度
中
的
不同
值。
我
在
任务
流中看到
的
是read_feather分别在大
浏览 14
提问于2021-01-06
得票数 0
回答已采纳
2
回答
dask
计算结果存储吗?
、
、
、
、
考虑以下代码import
dask
.dataframe as dddf_pd = pd.DataFrame(data_dict) df_
dask
['data1x2'] = df_
dask
['d
浏览 8
提问于2022-04-03
得票数 2
回答已采纳
1
回答
将大于内存
的
SQL查询读入
dask
数据帧
、
、
我
需要将SQL表
中
的
条目读取到
dask
数据帧
中
,以处理我需要读取
的
条目数量可能会超过内存
中
可以容纳
的
条目数量如何使用
dask
完成此操作?
我
正在做这件事 frames = [] # TODO askframes.append(dd.from_pandas(pd_frame, npa
浏览 13
提问于2020-03-04
得票数 1
回答已采纳
1
回答
Dask
Dataframe n唯一操作:内存不足
的
工作人员(MRE)
、
、
、
、
Restarting
我
有一个数据集 和一台只有大约200 and内存
的
机器。
我
正在尝试使用
dask
的
LocalCluster来处理数据,但是
我
的
工作人员很快就超出了他们
的
内存预算,即使
我
使用了一个相当小
的
子集,并且尝试使用基本操作,
我
也会被杀死。包含所有I
的
单个系列(这是
我</em
浏览 0
提问于2021-03-18
得票数 2
回答已采纳
1
回答
报告
Dask
任务
的
进度
、
、
、
、
我
正在
Dask
调度程序上运行
一些
缓慢
的
任务
,
我
需要
每个
任务
的
进度报告。这些
任务
将从处理进度报告
的
同一台机器上提交,因此可以保持
在
同一个过程
中
,但现在让我们假设
任务
是
在
不同
的
过程中提交
的
,进度报告是
在
不同
的
过程
中</
浏览 2
提问于2019-12-24
得票数 1
1
回答
任务
: client.persist和client.compute之间
的
区别
、
我
对client.persist()和client.compute()之间
的
区别感到困惑,它们似乎(
在
某些情况下)都开始了
我
的
计算,并且都返回异步对象,但在
我
的
简单示例
中
并非如此:from
dask
.distributed import Clientclient = Client() def
f
(*a
浏览 3
提问于2017-01-23
得票数 22
回答已采纳
1
回答
用
Dask
逐帧读取视频文件?
、
我
想知道
Dask
是不是一个处理视频文件
的
好工具。
在
本地,
我
使用OpenCV一次读取每一帧并对其进行处理。
我
认为如果视频
的
每一帧都由单独
的
Dask
任务
处理,那将是最理想
的
。此外,对于多个时间同步
的
视频文件,
我
想知道如何
从
每个
摄像头一次读取一帧,并在一个
任务
中
处理两个摄像头
的
帧。
浏览 12
提问于2020-09-18
得票数 0
1
回答
Dask
分布式:介绍
每个
工作人员初始化
任务
的
图树状结构
、
在
分布式
dask
中
,
任务
通过调度器分布
在
集群节点上。
我
希望介绍
每个
节点对提交给节点
的
任务
的
依赖关系。简单地说,
我
要执行
的
计算操作需要:
我</e
浏览 1
提问于2017-06-15
得票数 3
回答已采纳
3
回答
Dask
DataFrame.to_parquet在读重
分区
写入操作
中
失败
、
、
、
、
freeze and no files get written 选择新
的
分区
,以便
每个
分区
中文件
的
总内存不超过1000 MB。但是,最后
的
to_parquet调用将永远挂起。
在
dask
仪表板上,没有任何活动。所有工作人员消耗
的
内存仍然非常小(55 it ),至少
在
仪表板
中
是
这样
;但是
我
怀疑它可能只是没有更新,因为一切都变得非常慢。运行代码
的
pyt
浏览 12
提问于2022-03-15
得票数 2
回答已采纳
1
回答
是否可以
在
火花阶段重新排序
任务
?
、
、
、
我
的
问题是关于
在
星火
的
一个阶段
的
任务
顺序。
我
有一个星火数据分割成3000个
分区
。
分区
是
在
一个特定键上完成
的
。
我
使用mapPartitionsWithIndex
获取
分区
的
id
及其包含
的
元素数。) 当Spark
在
我
的
datafram
浏览 2
提问于2019-07-26
得票数 1
1
回答
多幅图像意味着
dask
.delayed和
dask
.array
、
、
、
背景案例研究,,
我
想计算所有图像
的
平均值,为了加快分析速度,
我
想并行处理。使用
dask
.delayed
的
方法flist_img_to_filter stack = da.stack(ar
浏览 0
提问于2017-10-26
得票数 4
回答已采纳
2
回答
Kafka流-指向同一主题
的
所有实例本地存储
、
我们有以下问题:
我
在想它和卡夫卡溪流图书馆有什么关系。
我
担心
的
是,如果我们决定扩展
这样
的
应用程序,
每个
运行<e
浏览 4
提问于2017-01-30
得票数 3
回答已采纳
1
回答
Dask
+ PostgreSQL read_sql_table:错误
的
数据类型index_col
、
、
我
正在尝试对一个非常大
的
PostgreSQL表
中
的
列运行mean()函数。因为
我
不能在内存中加载列,所以我选择了并行和
Dask
分布式
分区
。系统配置: 12 cores / 24 threadsSSD
我
已经尝试(1)
在
1个进程中最大化线程计数(24),(2)
在
每个
进程中都尝试最大化线程计数(24)。
从
延迟
的
任务
<e
浏览 26
提问于2019-08-28
得票数 2
回答已采纳
2
回答
将
Dask
分区
写入单个文件
、
对于
dask
来说,
我
有一个1GB CSV文件,当我
在
dask
dataframe
中
读取它时,它创建了大约50个
分区
,
在
我
编写文件时,它创建
的
文件和
分区
一样多。是否有将所有
分区
写入单个CSV文件
的
方法,以及是否有方法访问
分区
? 谢谢。
浏览 3
提问于2016-09-19
得票数 34
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python数据预处理:使用Dask和Numba并行化加速
折腾了一周的任务 带你了解大数据计算原理
系统解读Kafka的流和表(三):处理层
Ray 分布式计算框架详解
hive拉链表优化·百亿量级数据支持准实时更新
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券