如何在Dask中对字符串使用函数？

在Dask中，可以使用.map()函数对字符串进行操作。首先，将字符串数据加载到Dask集合中，例如dask.bag.from_sequence()或dask.dataframe.from_pandas()。然后，使用.map()函数将需要的字符串处理函数应用于每个字符串。

以下是一个示例代码，展示了如何在Dask中对字符串使用函数：

import dask.bag as db

# 创建一个包含字符串的Dask集合
strings = db.from_sequence(['Hello', 'World', 'Dask', 'Cloud', 'Computing'])

# 定义一个字符串处理函数
def to_uppercase(string):
    return string.upper()

# 使用.map()函数将函数应用于每个字符串
result = strings.map(to_uppercase)

# 执行并打印结果
print(result.compute())

上述代码中，首先通过db.from_sequence()创建了一个包含字符串的Dask集合。然后，定义了一个名为to_uppercase()的函数，该函数将输入字符串转换为大写。最后，使用.map()函数将to_uppercase()函数应用于每个字符串，并将结果存储在result变量中。最后，使用.compute()方法执行计算并打印结果。

在Dask中使用函数处理字符串的优势是可以高效地处理大规模的字符串数据，因为Dask将其自动分割成更小的任务，并并行执行这些任务。这样可以充分利用多核处理器和分布式计算环境的优势。

应用场景包括但不限于：

数据清洗和处理：对大规模的文本数据进行清洗、分词、转换大小写等操作。
文本分析和挖掘：对大规模的文本数据进行情感分析、关键词提取、实体识别等处理。
自然语言处理（NLP）：对大规模的文本数据进行自然语言处理任务，如机器翻译、文本生成等。
数据预处理：在机器学习和数据分析任务中，对字符串数据进行预处理、特征工程等操作。

腾讯云的相关产品中，可以使用Dask的技术来处理字符串数据的产品包括腾讯云的"大数据计算"服务，具体的产品介绍和相关链接地址请参考腾讯云的官方文档：

大数据计算 - 腾讯云

dask=parallelized和dask=allowed在xarray的apply_ufunc中有什么区别？

、、、、

在函数的apply_ufunc中，它说： dask: ‘forbidden’, ‘allowed’ or ‘parallelized’, optional How to handle applying to objects containing lazy data in the form of dask arrays: ‘forbidden’ (default): raise an error if a dask array is encountered. ‘allowed’: pass dask arrays directly on to func. ‘p

浏览 0提问于2018-08-07得票数 5

回答已采纳

1回答

如何在Dask.array中指定工作进程数

、

假设您想要指定Dask.array中的工作进程数，如所示，您可以设置： dask.set_options(pool=ThreadPool(num_workers)) 这对于我已经运行过的一些模拟非常有效，例如，montecarlo，但是对于一些线性代数操作，Dask似乎覆盖了用户指定的配置，例如： import dask.array as da import dask from multiprocessing.pool import ThreadPool dask.set_options(pool=ThreadPool(num_workers)) mat1 = da.random.rand

浏览 4提问于2017-02-24得票数 2

1回答

在Dask中使用尚未实现的Pandas函数

、、、、

我相信在使用Dask数据帧时，我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的Pandas函数的建议，但我似乎看错了地方。例如，我想使用Pandas函数'ewm‘。作为一种变通方法，我将Dask数据帧转换为Pandas数据帧，在Pandas数据帧上运行ewm，然后将它们转换回Dask，以便以后进行更多内存密集型操作。效率不是最高的。有没有更好的策略呢？

浏览 10提问于2019-06-02得票数 1

回答已采纳

1回答

dask_cudf数据格式中的标签编码

、、、、

我正试图使用dask_cudf对一个非常大的数据集(150,000,000+记录)进行预处理，以便进行多类xgboost培训，并且无法对类列(dtype is string)进行编码。我试着使用“替换”函数，但是错误消息说这两个dtype必须匹配。我试过使用dask_ml.LabelEncoder，但它说cudf中不支持字符串数组。我尝试过以各种方式使用compute()，但是我一直遇到内存不足的错误(我假设是因为cudf dataframe上的操作需要一个更小的数据集)。我还尝试取出类列，对其进行编码，然后将其与dataframe合并，但分区不对齐。我尝试手动排列它们，但是dask_cudf

浏览 14提问于2022-07-01得票数 0

1回答

KeyError:当尝试选择dask数据框上的列时：“没有[索引([‘’，'']，dtype='object')]在[列]中”

、

我正在使用from_pandas()函数从熊猫数据帧创建一个dask数据帧。当我尝试使用方括号[ ]从dask dataframe中选择两列时，我得到了一个KeyError。根据dask文档，dask dataframe支持像pandas dataframe一样的方括号列选择。 # data is a pandas dataframe dask_df = ddf.from_pandas(data, 30) data = data[dask_df[['length', 'country']].apply( lambda x: myfun

浏览 67提问于2019-10-04得票数 1

2回答

为什么dask中的点乘积比numpy慢

、、、

dask中的点产品似乎比在numpy中运行得慢得多： import numpy as np x_np = np.random.normal(10, 0.1, size=(1000,100)) y_np = x_np.transpose() %timeit x_np.dot(y_np) # 100 loops, best of 3: 7.17 ms per loop import dask.array as da x_dask = da.random.normal(10, 0.1, size=(1000,100), chunks=(5,5)) y_dask = x_dask.transpose

浏览 7提问于2015-12-23得票数 4

回答已采纳

1回答

如何在分布式Dask上运行SQLAlchemy查询？

、、、、

我正在尝试使用我设置的dask集群来运行和并行化这个sqlalchemy查询，因为我没有足够的内存从本地计算机执行它。我的代码如下-我不确定这是否是实现这一目标的最佳方法： from dask.distributed import Client import dask.dataframe as dd from dask.delayed import delayed client = Client(<IP Address>) recent_dates = ['2020-04-24', '2020-04-23', 2020-04-22']

浏览 43提问于2020-04-26得票数 0

回答已采纳

1回答

避免同时读取dask数组的多个文件

、

从一个库中，我得到一个函数，它读取一个文件并返回一个numpy数组。我想用多个文件中的多个块构建一个Dask数组。每个块都是在文件上调用函数的结果。当我要求Dask计算时，Dask会要求函数同时从硬盘读取多个文件吗？如果是这样的话，如何避免呢？我的电脑没有并行文件系统。示例： import numpy as np import dask.array as da import dask # Make test data n = 2 m = 3 x = np.arange(n * m, dtype=np.int).reshape(n, m) np.save('0.npy'

浏览 0提问于2018-08-06得票数 1

1回答

如何在python中读取dask中的表

、

我曾经使用以下代码来创建数据帧 conn = pyodbc.connect('Driver={SQL Server};' 'Server=DELL;' 'Database=DB;' 'Trusted_Connection=yes;') df_features = pd.read_sql("SELECT ID, filename, code, frequency from Features&

浏览 7提问于2020-04-10得票数 0

回答已采纳

1回答

从dask对象中查看dask图

、

在Matthew的 on Dask (2015)中，他展示了一个查看dask.array底层的的例子从以下几个方面看，该属性的表示方式似乎发生了一些变化： import dask.array as da x = da.arange(15, chunks=(5,)) print(x.dask) # <dask.sharedict.ShareDict object at 0x000001FD8869C2E8> for k, v in x.dask.items(): print(k) print(v) print() # ('arange-3

浏览 1提问于2017-11-20得票数 1

回答已采纳

1回答

如何在分布式分布式环境下组合任务

、、、

我正在尝试在线程化的dask分布式集群中运行一个lock并行循环(见下面的原因)，但是由于GIL-lock，我无法获得任何加速。下面是一个例子： def task(x): """ Sample single-process task that takes between 2 and 5 seconds """ import time import random dt = random.uniform(2,5) time.sleep(dt) return x+dt def composite_tas

浏览 0提问于2018-10-21得票数 0

1回答

如何在dask数组维度上迭代da.linalg.inv

在多维dask数组上迭代da.linalg.inv的最佳方法是什么？我有一个形状为(4, 4, 8, 8)的dask数组，需要计算最后两个维度的逆。使用np.linalg.inv(A)，numpy循环遍历除最后两个维度之外的所有维度，因此在下面的示例中，我可以只调用numpy。我选择使用for loop，但我读过有关的文章(文档似乎有点过时)。但是，我不确定如何实现它，特别是"signature"位。 import dask.array as da import numpy as np A = da.random.random((4,4,8,8)) A2 = A.resh

浏览 0提问于2020-06-25得票数 0

1回答

如何在Dask中对字符串使用函数？

、、、

我有一个大数据集，最近被介绍给Dask。我正在尝试对每一行中的文本进行标记。这在pandas中很容易做到，如下所示，但我有一个错误，说 AttributeError:当我尝试使用Dask时，'DataFrame‘对象没有'lower’属性(请参阅下面的第二组代码) import pandas as pd import dask import dask.dataframe as dd def to_lower(text): return text.lower() df_2016 = pd.read_csv("2016_Cleaned_Droppe

浏览 23提问于2020-10-20得票数 0

回答已采纳

1回答

Dask:连续提交，处理所有提交的数据

、、、

有了500个连续增长的DataFrames，我想向dask提交(对于每个DataFrame独立的)数据的操作。我的主要问题是：dask 保存连续提交的数据，因此我可以对所有提交的数据(而不仅仅是新提交的？)执行 submit 函数。但让我们在一个例子中解释一下：创建dask_server.py from dask.distributed import Client, LocalCluster HOST = '127.0.0.1' SCHEDULER_PORT = 8711 DASHBOARD_PORT = ':8710' def run_cluster()

浏览 5提问于2020-05-13得票数 5

1回答

如何在dask中编写unstack和reindex？

、、、

我用pandas编写脚本，但为了提高效率，我需要切换到dask，但我不确定如何在dask中实现unstack和reindex？这是我的pandas脚本的样子： df_new = df.groupby(['Cars', 'Date'])['Durations'].mean().unstack(fill_value=0).reindex(columns=list_days,index=list_cars,fill_value=0).\ round().reset_index().fillna(0).round()

浏览 11提问于2020-06-18得票数 0

回答已采纳

1回答

Dask延迟最佳实践的批次说明是如何工作的？

、、

我想我遗漏了一些东西(仍然是Dask Noob)，但我正在尝试分批处理的建议，以避免在这里执行太多的Dask任务：也不能让他们发挥作用。这就是我试过的： import dask def f(x): return x*x def batch(seq): sub_results = [] for x in seq: sub_results.append(f(x)) return sub_results batches = [] for i in range(0, 1000000000, 1000000): result_batch = d

浏览 0提问于2019-06-05得票数 0

1回答

dask.delayed对象的分布与计算

、、

dask.delayed对象是否通过dask在集群上分发？另外，它的任务图的执行也分布在集群上吗？

浏览 1提问于2018-06-30得票数 1

2回答

从列表的dask.Series高效地创建dask.array

、、、

从列表的dask.Series创建dask.array的最有效方法是什么？该系列由500万个元素列表300组成。它当前被划分为500个分区。目前我正在尝试： pt = [delayed(np.array)(y) for y in [delayed(list)(x) for x in series.to_delayed()]] da = delayed(dask.array.concatenate)(pt, axis=1) da = dask.array.from_delayed(da, (vec.size.compute(), 300), dtype=fl

浏览 18提问于2017-12-26得票数 1

回答已采纳

2回答

如何在dask dataframe中设置(计算)分区？

、

从拼图或csv文件加载数据时，具有无分区。DASK文档没有关于如何设置和计算此...的信息。如何正确设置和计算DASK数据帧的划分？

浏览 14提问于2019-06-05得票数 2

1回答

为什么有时我必须在dask延迟函数上调用compute()两次？

、、

我正在使用dask延迟函数，在函数上使用@dask.delayed装饰器时，我熟悉dask的do's和don。我意识到，有时我需要调用compute()两次才能得到结果，尽管我认为自己遵循了最佳实践。也就是说，不要在另一个dask延迟函数中调用dask延迟函数。我在两个场景中遇到了这个问题:当有嵌套函数时，以及在类中调用成员函数时，类成员是延迟对象。 @dask.delayed def add(a, b): return a + b def inc(a): return add(a, 1) @dask.delayed def foo(x): return

浏览 2提问于2019-07-09得票数 1

回答已采纳

1回答

BlazingSQL和dask之间的关系是什么？

、、、

我正在努力理解BlazingSQL是一个竞争对手还是dask的补充。我有一些中等大小的数据(10-50GB)保存在Azure blob的存储空间中。 IIUC我可以使用BlazingSQL语法查询、连接、聚合和使用CuDF，但我也可以使用dask_cudf将数据读入CuDF，并使用python/dataframe语法执行所有相同的操作。在我看来，他们是直接的竞争对手？使用dask的好处之一是它可以对分区进行操作，这样就可以对大于GPU内存的数据集进行操作，而BlazingSQL仅限于适用于GPU的数据集，这是正确的吗？为什么要选择使用BlazingSQL而不是dask呢？编辑：谈到

浏览 1提问于2020-01-18得票数 3

回答已采纳

1回答

dask是如何在集群中分配工作的？

dask分布式处理不均匀的工作节点可以吗？例如，如果在4核心计算机上有一个dask工作人员，在一台2核计算机上有第二个dask工作人员，那么所有6个核心是否都会被利用？另外，在所有的计算机之间分配工作是对达斯克的严格要求吗？也就是说，dask能否选择将所有的工作发送到一台计算机，因为它确定如果分发将有太多的通信开销？

浏览 2提问于2016-12-09得票数 2

回答已采纳

1回答

Python Dask .visualize()没有显示完整的图形

、

我的Dask .visualize()不能正确显示图形。代码取自http://github.com/dask/dask-tutorial/ 01_dask.delayed.ipynb notebook。我使用pip和apt安装了graphviz。即使显示了图形，它也不会完全显示。我正在jupyter Lab上运行代码 def inc(x): return x + 1 def double(x): return x + 2 def add(x, y): return x + y data = [1, 2, 3, 4, 5] output = [] for x

浏览 45提问于2018-12-27得票数 3

回答已采纳

1回答

在这种情况下，如何在dask中添加元信息？

、、、

我正在尝试使用dask来解决pandas的df内存问题，api看起来非常简单，如下所示： import dask.dataframe as dd df = dd.read_csv(input_file, encoding='utf8', dtype=str, error_bad_lines=False, sep='\t', keep_default_na=False) # ... date_column = [get_today()] * row_count headers = list(df) if 'entry_date

浏览 15提问于2021-10-02得票数 1

回答已采纳

1回答

DASK dataframe.to_csv将文件存储在worker上，而不是本地

、

我是DASK的新手，我正在尝试在私有云上建立一个分布式集群。现在，我在同一台机器上运行了调度器和一个工作程序，它们都运行在同一Docker容器中。它们分别从dask-scheduler和dask-worker tcp://localhost:8786开始。我正在从本地计算机连接到调度程序。为简单起见，假设我在本地/home/my_user/local_directory目录中运行一个IPython控制台。我在运行： from dask.distributed import Client client = Client('scheduler_host:scheduler_port&#

浏览 25提问于2020-03-27得票数 1

回答已采纳

1回答

dask广播变量在计算熊猫数据的子集时失败并有关键错误

、、、、

我有一个熊猫数据框架，并希望对每一组进行一次昂贵的操作。因此，我想使用dask并行化这个任务。初始数据帧应广播。但是，计算只有在以下情况下才会失败： <Future: error, key: iterated_costly_function-4aff5e66b6af1c073dc2cfd0d2dbb6f3> <Future: error, key: iterated_costly_function-74d26e42c758a8cc177047d7a0f49ff4> 以下是代码： import pandas as pd df = pd.DataFrame({'fo

浏览 1提问于2020-12-13得票数 0

回答已采纳

1回答

从延迟集合创建大型dask.dataframe时杀死/内存错误

、、

我正在尝试从一大串CSV文件(目前的12个文件，8-10百万行和50列)创建一个。他们中的几个可能会融入我的系统记忆，但他们都肯定不会，因此使用达克而不是普通的熊猫。因为读取每个csv文件需要一些额外的工作(从文件路径中添加带有数据的列)，所以我尝试从一个延迟对象列表(类似的dask.dataframe )创建。这是我的密码： import dask.dataframe as dd from dask.delayed import delayed import os import pandas as pd def read_file_to_dataframe(file_path):

浏览 4提问于2016-12-21得票数 8

回答已采纳

1回答

如何在Dask中导入许多二进制文件？

、

我有许多二进制文件(.tdms格式，类似于.wav)存储在S3中，我想用nptdms读取它们，然后在集群上用Dask以分布式方式处理它们。在PySpark中，有一个pyspark.SparkContext.binaryFiles()，它为每个输入文件生成一个带有字节数组的RDD，这是一个解决这个问题的简单解决方案。我还没有在达斯克找到一个等价的函数--有吗？如果没有，如何才能在Dask中实现同等的功能？我注意到如果有必要使用dask.bytes.read_bytes()，但是nptdms不能读取一个文件的一块-它需要整个文件是可用的，我不知道如何做到这一点。

浏览 5提问于2021-01-06得票数 0

回答已采纳

2回答

dask.distributed不使用集群

、、

我无法使用分布式集群处理这个块。 import pandas as pd from dask import dataframe as dd import dask df = pd.DataFrame({'reid_encod': [[1,2,3,4,5,6,7,8,9,10],[1,2,3,4,5,6,7,8,9,10],[1,2,3,4,5,6,7,8,9,10],[1,2,3,4,5,6,7,8,9,10],[1,2,3,4,5,6,7,8,9,10],[1,2,3,4,5,6,7,8,9,10]]}) dask_df = dd.from_pandas(df, npar

浏览 4提问于2019-11-30得票数 1

回答已采纳

1回答

如何在Dask.Distributed中将任务分配给特定工作人员

我对使用Dask分布式作为任务执行器很感兴趣。在芹菜中，可以将任务分配给特定的工人。如何使用分布式Dask？

浏览 2提问于2018-07-23得票数 4

1回答

为什么Dask要更改csv文件的内容？

、、、

结论在read_csv中添加参数很好。 ...But双引号仍然没有用。变得有用的那一页我通过dask读取CSV文件，不做任何事情，用Dask编写CSV文件。但是Dask改变了csv文件的内容。 import os import dask.dataframe as dd user_name = os.environ['USERPROFILE'].replace('\\', '/') dir = user_name + '/Desktop/' types_dict = { 'Region':

浏览 0提问于2019-07-01得票数 0

1回答

如何修改dask工人使用的docker映像中的库版本？

、、

我试图在AWS集群(使用dask.cloudprovider API)上使用Dask运行分布式计算，并且遇到了与完全相同的问题。基于对相关问题的部分回答，以及之类的问题，我强烈怀疑这是由于我的工作人员中的熊猫版本过时了；事实上，指定了一种旧版本的熊猫。相反，当我在本地运行我的计算(使用distributed.LocalCluster)和熊猫版本在1.2.2时，它工作得很好。顺便说一句，它是对Dask DataFrame上的DataFrame方法的调用，它在Fargate集群情况下触发错误。作为一种解决方法，我想做的是在部署给工人的图像中指定自己的熊猫版本，或者自己构建一个自定义的图像，+把

浏览 0提问于2021-06-07得票数 1

回答已采纳

1回答

Dask的性能与数据处理

我已经进口了一份大约的拼花文件。800 50~5000万行进入dask数据帧。有5列：DATE, TICKER, COUNTRY, RETURN, GICS 问题：如何在read_parquet中指定数据类型，或者必须使用astype来实现？我可以在read_parquet中解析日期吗？我只想做以下几点：将dask.dataframe导入为dd dd.read_parquet('.\abc.gzip') df‘’INDUSTRY‘= df.GICS.str0:4 n= df.INDUSTRY.unique().compute() 它需要永远的回归。我在这里做

浏览 0提问于2018-12-12得票数 1

1回答

使用Dask数组进行并行处理

、

我是Dask和并行处理的新手。我有几个hdf5文件，我希望通过一个生成数值输出的函数来运行每个文件。在该函数中，hdf5被转换为dask数组。我想知道并行代码的最快方法是什么，这样每个hdf5文件都可以同时运行该函数。我应该在函数外部将hdf5文件转换为dask数组吗？

浏览 0提问于2018-07-10得票数 0

1回答

Python Dask模块：“AttributeError”对象没有属性“”broadcast_to“”

、、

我已经编写了一段代码来尝试在我的Unix服务器上使用多个处理器的Dask，如下所示： import pandas as pd import sys import dask.dataframe as dd from dask.multiprocessing import get numbers = pd.read_csv("head_5_22SNPs_CMI.txt", sep="\t", header=None) combinations = pd.read_csv("all_combinations_5snps.txt", sep=

浏览 0提问于2018-11-01得票数 0

1回答

如何在并行化任务中使用dask填充DataFrame？

、、、、

我想使用dask并行化一个编号任务。此任务仅使用我计算机中的一个核心。作为该任务的结果，我想通过DataFrame通过shared_df.loc[len(shared_df)] = [x, 'y']向一个条目添加一个条目。这个DataFrame应该由我的计算机中的所有(四个)并行工作人员/线程打开。我要如何设置达克才能执行此操作？

浏览 0提问于2018-11-16得票数 0

回答已采纳

1回答

不能用达斯克训练Keras模型吗？

、

我希望从使用Dask延迟的简单示例中可以看到，我基本上可以从scikit复制gridsearchcv --使用以下几个函数调用来学习。该模型似乎永远不适合(model.fit(.))因为循环的其余部分还在继续(pred(.))？我如何嵌套函数有问题吗？我知道有一个用于dask的gridsearchcv，但问题是我的真实模型是一个多输入的Keras，而且您不能以'X‘的形式传递一个3d数组。在没有Dask的情况下，代码的串行工作很好。下面是一个可复制的小例子： import dask import pandas as pd import numpy as np from sklear

浏览 1提问于2018-07-07得票数 0

1回答

如何在dask计算中找到触发异常的任务提交？

、、、

我正在尝试调试使用dask进行计算的代码。异常跟踪以下列结尾结束： File "/media/nas/x21324/miniconda3/envs/py37d/lib/python3.7/site-packages/dask/core.py", line 118, in _execute_task args2 = [_execute_task(a, cache) for a in args] File "/media/nas/x21324/miniconda3/envs/py37d/lib/python3.7/site-packages/dask/cor

浏览 0提问于2019-05-06得票数 0

2回答

任务加载JSON (用于实时绘图)

、、、、

我尝试使用dask从http地址加载一个JSON，然后将其放入一个dataframe中，以便使用dash绘制一些实验数据。目标是实时获取数据并显示机器的实时图(示例数据可以在这里找到：) 这是我尝试过的： import json import dask.bag as db mybag = db.read_text("http://aav.rz-berlin.mpg.de:17668/retrieval/data/getData.json?pv=FHIMP%3AHeDrop%3AForepressure_Droplet_Src").map(json.loads) mybag.to

浏览 5提问于2021-12-02得票数 2

3回答

如何在Airflow中配置DaskExecuter

、、

我想为Airflow中的分布式DAG配置Dask。我读过和，但我不明白它是如何工作的。我有两个Apache Aiflow服务器，在哪里运行dask-shedulers和dask-workers，在第一个服务器崩溃时，第二个服务器上的所有东西都自动工作？据我所知，Airflow将任务放在任务调度程序中。我不明白如何在两台服务器上成为dask-shedulers的朋友。我不明白为什么需要dask-worker和它做什么，我认为这是某种不必要的组件。我不想使用CeleryExecutor并为芹菜配置RabbitMQ或Redis

浏览 0提问于2018-10-11得票数 2

1回答

如何在dask计算后将结果保存到磁盘？

、

我有一个dask延迟计算的结果，它可以是一个浮点数字、一个数字列表或一个numpy数组。是否有一种标准的dask方法将这些结果保存到本地磁盘或HDFS？

浏览 1提问于2019-05-21得票数 0

回答已采纳

1回答

Python = dask Vs pandas，read_csv错误

、

我在使用dask读取文件时出错，它与pandas一起工作： import dask.dataframe as dd import pandas as pd pdf = pd.read_csv("./tous_les_docs.csv") pdf.shape (20140796, 7) 而dask给了我一个错误： df = dd.read_csv("./tous_les_docs.csv") df.describe().compute() ParserError: Error tokenizing data. C error: EOF inside string

浏览 0提问于2019-04-29得票数 0

1回答

如何在Dask中使用sort_index、groupby和应用函数？

、、、

我有一个应用于熊猫数据文件的功能，我正在考虑使用dask来提高性能。这是我现有的代码： df.reset_index( level=0, inplace=True, ) df = df.sort_index().groupby( ['col1', 'col2', 'col3'], as_index=False).apply( myfunction ) 我正在尝试将其转换为dask语法，并设法实现： from dask import

浏览 1提问于2018-12-13得票数 1

回答已采纳

1回答

Dask并行工作不会比没有dask更好

、、、

我试着像这样做并行工作： from dask.distributed import Client import joblib from sklearn.feature_extraction.text import TfidfVectorizer client = Client(processes=False) # create local cluster with joblib.parallel_backend('dask'): tfidf.fit(corpus) 但CPU使用率是100% - 400%，与不使用Dask时相同。我是不是遗漏了

浏览 18提问于2021-03-06得票数 0

1回答

具有分布式调度程序的dask.delayed KeyError

、、、、

我有一个用c编写并用ctypes包装的函数interpolate_to_particles。我想使用dask.delayed对此函数进行一系列调用。代码在没有dask的情况下成功运行 # Interpolate w/o dask result = interpolate_to_particles(arg1, arg2, arg3) 并使用single-threaded模式的分布式调度 # Interpolate w/ dask from dask.distributed import Client client = Client() result = dask.delayed(interp

浏览 19提问于2020-04-07得票数 2

1回答

如何在dask分布式集群中使用dask_ml预处理

、、、、

如何在dask分布式集群中进行dask_ml预处理？我的数据集大约是200‘s，每次我对准备用于OneHotEncoding的数据集进行分类时，似乎dask忽略了客户端，并尝试将数据集加载到本地计算机的内存中。也许我错过了一些东西： from dask_ml.preprocessing import Categorizer, DummyEncoder from sklearn.linear_model import LogisticRegression from sklearn.pipeline import make_pipeline import pandas as pd impo

浏览 10提问于2021-07-09得票数 0

1回答

如何在Dask中进行groupby过滤

我正在尝试获取一个dask数据帧，按列'A‘分组，并删除行数少于MIN_SAMPLE_COUNT的组。例如，下面的代码可以在pandas中运行： import pandas as pd import dask as da MIN_SAMPLE_COUNT = 1 x = pd.DataFrame([[1,2,3], [1,5,6], [2,8,9], [1,3,5]]) x.columns = ['A', 'B', 'C'] grouped = x.groupby('A') x = grouped.filter(

浏览 15提问于2019-03-22得票数 2

回答已采纳

1回答

如何在分块操作中得到原始的i，j，k位置？

、、、

如果我有一个类似于dask_array_object.blocks.ravel()的操作，并对由此产生的块进行迭代： dask.array<blocks, shape=(156, 156, 2126), dtype=float32, chunksize=(156, 156, 2126), chunktype=numpy.ndarray>, dask.array<blocks, shape=(156, 156, 2126), dtype=float32, chunksize=(156, 156, 2126), chunktype=numpy.ndarray>, da

浏览 5提问于2022-02-18得票数 0

回答已采纳

1回答

哪些压缩类型支持dask中的分块？

在处理大型单个文件时，可以将其分解为： import dask.bag as db my_file = db.read_text('filename', blocksize=int(1e7)) 这很有效，但我正在处理的文件具有很高的冗余度，因此我们对它们进行压缩。传递压缩的gzip文件会给出一个错误，即不支持在gzip中查找，因此它不能以块的形式读取。这里的文档建议某些格式支持随机访问。我认为相关的内部代码如下：看起来lzma可能会支持它，但它已经被注释掉了。将lzma添加到seekable_files字典中，如注释掉的代码所示： from dask.bytes.c

浏览 11提问于2017-02-10得票数 1

回答已采纳

1回答

用dask读取蜂巢数据

、、

我正在使用as_pandas实用程序从impala.util读取从hive获取的dataframe格式的数据。但是，使用熊猫，我想我将无法处理大量的数据，而且速度也会变慢。我一直在阅读dask，它为读取大数据文件提供了极好的功能。我如何使用它有效地从蜂巢中获取数据。 def as_dask(cursor): """Return a DataFrame out of an impyla cursor. This will pull the entire result set into memory. For richer pandas- like functional

浏览 2提问于2018-10-18得票数 2

回答已采纳