Dask:有没有办法从任务中获取每个分区的ID，这样我就可以在任务f中做一些不同的事情

、

我正在尝试对我拥有的一组文本数据使用dask。文本数据将被分成4个部分。我想从任务中获取分区ID，以便根据分区执行一些稍微不同的操作。我想知道是否有方法可以做到这一点(如下面的伪代码所示)。def task(df, partition_id):

浏览 10提问于2019-09-10得票数 0

1回答

用不同的列选择加载多个拼花文件

、、、

我想使用Dask从存储在不同目录中的许多拼板文件中加载特定的列，并且每个分区需要加载不同的列。我想使用Dask，这样我就可以在一台机器上使用多个核心。我了解了如何将文件或通配符的列表传递给dd.read_parquet，以指示多个文件(例如

浏览 0提问于2019-05-24得票数 1

回答已采纳

2回答

在dataframes中，“计算()”背后的逻辑是什么？

、、、

我很难理解何时什么时候不要在Dask数据仓库中使用compute()。我通常通过添加/删除compute()来编写代码，直到代码生效，但这是非常容易出错的。我应该如何在达斯克中使用compute()？

浏览 2提问于2021-05-23得票数 1

回答已采纳

2回答

Spark/EMR能否从s3多线程读取数据

、、、

由于一些不幸的事件序列，我们最终得到了一个存储在s3上的非常零散的数据集。表元数据存储在Glue上，数据写入bucketBy，并以拼图格式存储。因此，文件的发现不是问题，spark分区的数量等于存储桶的数量，这提供了很好的并行性。当我们在Spark/EMR上加载这个数据集时，我们最终让每个spark分区从s3加载了大

浏览 2提问于2020-01-20得票数 2

1回答

如何向dask提交一组长时间运行的并行任务？

、、

我有一个最初使用concurrent.futures.ProcessPoolExecutor运行的计算工作量，我将其转换为使用dask，这样我就可以利用dask与分布式计算系统的集成来扩展到一台机器之外任务B:从任务A获取矩阵，并使用它和其他一些小输入来求解一个常微分方程。解决方案被写入磁盘(因此没有返回值)。任务持续时间最长可

浏览 2提问于2021-07-19得票数 1

回答已采纳

1回答

如何在所有任务提交完成之前阻止任务的执行？

、、

我正在构建一个框架，其中每个任务都使用submit提交给用户提供的dask客户端，如下所示： future = client.submit(my_func,*args) 一些函数对以前的未来有多个依赖关系，最深的深度约为10-15个任务深度。然而，我发现对于大量的任务，比如说几千个以上的任务，这种方法往往会挂起调度器，因为计算和任务</e

浏览 10提问于2019-12-04得票数 1

回答已采纳

1回答

我可以加速这个简单的Dask脚本，以获得多个羽化数据帧的总行计数吗？

、

我在C:\script\data\YYYY\MM\data.feather中有数据为了更好地理解Dask，我正在尝试优化一个简单的脚本，该脚本从每个文件中获取行数并对其求和。colA和colB，因为我希望最终能够计算不同时间跨度中的不同值。我在任务流中看到的是read_feather分别在大

浏览 14提问于2021-01-06得票数 0

回答已采纳

2回答

dask计算结果存储吗？

、、、、

考虑以下代码import dask.dataframe as dddf_pd = pd.DataFrame(data_dict) df_dask['data1x2'] = df_dask['d

浏览 8提问于2022-04-03得票数 2

回答已采纳

1回答

将大于内存的SQL查询读入dask数据帧

、、

我需要将SQL表中的条目读取到dask数据帧中，以处理我需要读取的条目数量可能会超过内存中可以容纳的条目数量如何使用dask完成此操作？我正在做这件事 frames = [] # TODO askframes.append(dd.from_pandas(pd_frame, npa

浏览 13提问于2020-03-04得票数 1

回答已采纳

1回答

Dask Dataframe n唯一操作:内存不足的工作人员(MRE)

、、、、

Restarting我有一个数据集和一台只有大约200 and内存的机器。我正在尝试使用dask的LocalCluster来处理数据，但是我的工作人员很快就超出了他们的内存预算，即使我使用了一个相当小的子集，并且尝试使用基本操作，我也会被杀死。包含所有I的单个系列(这是我</em

浏览 0提问于2021-03-18得票数 2

回答已采纳

1回答

报告Dask任务的进度

、、、、

我正在Dask调度程序上运行一些缓慢的任务，我需要每个任务的进度报告。这些任务将从处理进度报告的同一台机器上提交，因此可以保持在同一个过程中，但现在让我们假设任务是在不同的过程中提交的，进度报告是在不同的过程中</

浏览 2提问于2019-12-24得票数 1

1回答

任务: client.persist和client.compute之间的区别

、

我对client.persist()和client.compute()之间的区别感到困惑，它们似乎(在某些情况下)都开始了我的计算，并且都返回异步对象，但在我的简单示例中并非如此：fromdask.distributed import Clientclient = Client() def f(*a

浏览 3提问于2017-01-23得票数 22

回答已采纳

1回答

用Dask逐帧读取视频文件？

、

我想知道Dask是不是一个处理视频文件的好工具。在本地，我使用OpenCV一次读取每一帧并对其进行处理。我认为如果视频的每一帧都由单独的Dask任务处理，那将是最理想的。此外，对于多个时间同步的视频文件，我想知道如何从每个摄像头一次读取一帧，并在一个任务中处理两个摄像头的帧。

浏览 12提问于2020-09-18得票数 0

1回答

Dask分布式:介绍每个工作人员初始化任务的图树状结构

、

在分布式dask中，任务通过调度器分布在集群节点上。我希望介绍每个节点对提交给节点的任务的依赖关系。简单地说，我要执行的计算操作需要： 我</e

浏览 1提问于2017-06-15得票数 3

回答已采纳

3回答

Dask DataFrame.to_parquet在读重分区写入操作中失败

、、、、

freeze and no files get written 选择新的分区，以便每个分区中文件的总内存不超过1000 MB。但是，最后的to_parquet调用将永远挂起。在dask仪表板上，没有任何活动。所有工作人员消耗的内存仍然非常小(55 it )，至少在仪表板中是这样；但是我怀疑它可能只是没有更新，因为一切都变得非常慢。运行代码的pyt

浏览 12提问于2022-03-15得票数 2

回答已采纳

1回答

是否可以在火花阶段重新排序任务？

、、、

我的问题是关于在星火的一个阶段的任务顺序。我有一个星火数据分割成3000个分区。分区是在一个特定键上完成的。我使用mapPartitionsWithIndex获取分区的id及其包含的元素数。) 当Spark在我的datafram

浏览 2提问于2019-07-26得票数 1

1回答

多幅图像意味着dask.delayed和dask.array

、、、

背景案例研究，，我想计算所有图像的平均值，为了加快分析速度，我想并行处理。使用dask.delayed的方法flist_img_to_filter stack = da.stack(ar

浏览 0提问于2017-10-26得票数 4

回答已采纳

2回答

Kafka流-指向同一主题的所有实例本地存储

、

我们有以下问题：我在想它和卡夫卡溪流图书馆有什么关系。我担心的是，如果我们决定扩展这样的应用程序，每个运行<e

浏览 4提问于2017-01-30得票数 3

回答已采纳

1回答

Dask + PostgreSQL read_sql_table:错误的数据类型index_col

、、

我正在尝试对一个非常大的PostgreSQL表中的列运行mean()函数。因为我不能在内存中加载列，所以我选择了并行和Dask分布式分区。系统配置： 12 cores / 24 threadsSSD 我已经尝试(1)在1个进程中最大化线程计数(24)，(2)在每个进程中都尝试最大化线程计数(24)。从延迟的任务<e

浏览 26提问于2019-08-28得票数 2

回答已采纳

2回答

将Dask分区写入单个文件

、

对于dask来说，我有一个1GB CSV文件，当我在dask dataframe中读取它时，它创建了大约50个分区，在我编写文件时，它创建的文件和分区一样多。是否有将所有分区写入单个CSV文件的方法，以及是否有方法访问分区？谢谢。

浏览 3提问于2016-09-19得票数 34

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

用不同的列选择加载多个拼花文件

在dataframes中，“计算()”背后的逻辑是什么？

Spark/EMR能否从s3多线程读取数据

如何向dask提交一组长时间运行的并行任务？

如何在所有任务提交完成之前阻止任务的执行？

我可以加速这个简单的Dask脚本，以获得多个羽化数据帧的总行计数吗？

dask计算结果存储吗？

将大于内存的SQL查询读入dask数据帧

Dask Dataframe n唯一操作:内存不足的工作人员(MRE)

报告Dask任务的进度

任务: client.persist和client.compute之间的区别

用Dask逐帧读取视频文件？

Dask分布式:介绍每个工作人员初始化任务的图树状结构

Dask DataFrame.to_parquet在读重分区写入操作中失败

是否可以在火花阶段重新排序任务？

多幅图像意味着dask.delayed和dask.array

Kafka流-指向同一主题的所有实例本地存储

Dask + PostgreSQL read_sql_table:错误的数据类型index_col

将Dask分区写入单个文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐