Dask DataFrames vs numpy.memmap性能

文章/答案/技术大牛

发布

1回答

、、

到目前为止，我找到的进行这些调用的最好工具是numpy.memmap，它允许将最少的数据保存在内存中，并允许干净的索引和非常快速的直接在硬盘上调用数据。numpy.memmmap的缺点似乎是性能参差不齐--读取数组片段的时间在两次调用之间可能会有两个数量级的差异。此外，我使用Dask来并行化脚本中的许多模型函数。Dask DataFrames在对大型数据集进行数百万次调用时的性能如何？将memmap替换为DataFrames会显著增加处理时间吗？

浏览 29提问于2020-10-14得票数 0

回答已采纳

2回答

Python Dask -2个DataFrames的垂直连接

、、、

我正在尝试垂直连接两个Dask DataFramesd = [ [1, 4, 8, 1,0 1 7 10 9 4这是DaskDataFram

浏览 2提问于2017-05-06得票数 8

回答已采纳

3回答

将Pandas DataFrames中的Dask包转换为单个Dask DataFrame

、、、

问题综述我怎样才能从一袋潘达斯DataFrames变成一只达克DataFrame？长版import dask.dataframe as dd # Create a Dask bag of pandas dataframe

浏览 10提问于2019-12-13得票数 3

回答已采纳

1回答

用dask等价物加快“中间”函数的速度

、、、

我想知道是否有一种与dask相对应的方法，或者是否可以更好地构造numpy查询以提高性能。import dask.dataframe as ddimport dask.threadedimportnumpy as np #I'd like to not use this if possible impo

浏览 2提问于2019-10-06得票数 0

1回答

是否可以使用dask将df拆分为两个dfs？

、、、

我有一个庞大的数据集。它几乎有300 K行。我想把它分成两半。每一列都有150 K行。用达斯克能做到这一点吗？

浏览 3提问于2021-03-23得票数 0

回答已采纳

1回答

在Dask* DataFrame中的分区间分配行*

、、

from dask.distributed import Clientimport pandas as pd client = Client(

浏览 1提问于2017-06-16得票数 5

回答已采纳

2回答

达斯克大战急流。急流提供了达斯克没有的东西？

、、、、

急流内部是否使用dask代码？如果是这样的话，那为什么我们有达斯克，因为即使是达斯克也可以与GPU进行交互。

浏览 3提问于2020-03-18得票数 8

回答已采纳

3回答

将一个大型Dask* dataframe与一个小型Pandas dataframe合并*

、、

下面的示例是：，我试图将一个~70 as的Dask数据帧与我作为Pandas数据frame加载的~24 as数据帧合并。合并位于两个列A和B上，我没有设置任何索引：from dask.diagnostics import ProgressBar large_df = dd.read_csv(dataframe2) #as dask.dataframe df2 = larg

浏览 16提问于2016-09-13得票数 26

1回答

如何在保存pd.DataFrame时强制使用拼花类型？

、、、、

parquet在其模式中自动分配"null“这一事实阻止了我将许多文件加载到单个dask.dataframe中。为什么我要问这个id: int64[...] id:

浏览 1提问于2018-05-01得票数 16

回答已采纳

2回答

python dask* DataFrame，支持(微不足道的并行)行应用？*

、、、

我找不到一种方法来完成这个微不足道的并行化任务：df.apply(func, axis = 1) # for pandas DF row applyddf.assign(A=lambda df: df.apply(func, axis=1)).compute() # dask DataFrames = pd.Series([100

浏览 1提问于2015-07-12得票数 48

回答已采纳

1回答

使用dask* DataFrame高效加载和操作csv*

、、、、

我正在尝试使用使用dask.dataframe来操作csv文件。原始数据格式有'date'，'ticker'，'open'，'close'，等列.import dask.dataframe as dd df = reduce(lambda x, y: dd.merge(x, y, how=

浏览 2提问于2020-07-08得票数 0

2回答

在Scala中编辑csv文件

、、

我想编辑csv (超过500 to )文件。如果我有这样的数据A, 1C, 4我想增加一些额外的列，比如A, 1, 0C, 4, 1该数据还可以在ScSla数据类型中使用。Q1。处理数据的最佳方法是哪一种？ Q2。为此我需要使用“da

浏览 0提问于2016-03-08得票数 2

回答已采纳

2回答

如何在12k文件/50 up上加速这些数据文件操作？

、、、、

和哪些方法/逻辑在提取和保存回(覆盖/更新)谷歌桶时性能最好？- a small dir of 8 files/ 1.12 GB ( 0.1263 sec using `pandas` VS0.1357 sec using `dask`) - a medium dir of 474 files/ 2.03 GB ( 3.2991 sec usi

浏览 1提问于2021-06-06得票数 1

1回答

Python中的MemoryError

、、、、

我想在一个大数组M[159459,159459]上执行一个SVD。我试着用： import numpy

浏览 8提问于2019-07-06得票数 3

回答已采纳

2回答

dask数据帧中的df.groupby(...).apply(...).reset_index()

、、、

我想使用两个Dask DataFrame来处理大型csv文件，并且我需要在一个DataFrame上执行groupby(...).apply(...).reset_index()，然后才能将其加入到另一个DataFrame中： import pandas as pd dfA = pd.DataFrame({'x': ["x1", "x2", "x2

浏览 36提问于2021-10-07得票数 1

回答已采纳

1回答

减少Pandas / Dask* DataFrame内存的使用以扩大模拟规模*

、、、、

为了达到这个目的，我将两个DataFrames合并以获得单独的结果(在复合上进行内部合并)。这两种DataFrames目前都相对较小(患者为50,000行，为15,000行)，但我试图增加模拟的大小(10倍于实验数量)，从而使模拟崩溃。2-减少DataFrame内存使用量然后我把我的熊猫合并换成了一只Dask。下一步该做些什么来提高仿真性能/规模？我需要对同样50,000名病人

浏览 1提问于2022-07-07得票数 0

1回答

星火scala编码标准

、、

在Spark中存在着分布式数据结构，如RDDs和DataFrames。我们不应该是collect_ing，并且在它们上使用_for循环，因为计算将只发生在驱动节点上。2.使用 var vs val不抛出异常或不使用if-否则是违反标准实践的吗？4.使用单元上下文与sql上下文在Hive表下面使用SQLContext和HiveContext (我知道HiveContext扩展了SQLContext)对性能有什么影响吗？这

浏览 2提问于2016-12-07得票数 0

回答已采纳

15回答

如何使用pandas读取大型csv文件？

、、、、

我正在尝试读取一个大的csv文件(aprox。6 GB)，我得到一个内存错误：<ipython-input-58-67a72687871b> in <module>()对此有什么帮助吗？

浏览 1提问于2014-09-22得票数 258

15回答

将多个csv文件导入到DataFrame中，并将其连接到一个pandas中

、、、、

我想从一个目录中读取几个csv文件到pandas中，并将它们连接到一个大的DataFrame中。不过，我还没能弄明白这一点。这是我到目前为止所知道的： import globpath =r'C:\DRO\DCL_rawdata_files'for filename in filenames: # C

浏览 299提问于2014-01-03得票数 597

回答已采纳

1回答

对Numpy nd阵列的直观理解

、、、

所以我已经看过手册了--但结构还是让我很困惑。具体而言，以下几个方面之间的关系如何： “n维”从何而来？因为它看起来就像一个矩阵，它只是二维的。

浏览 0提问于2017-09-28得票数 1

回答已采纳

点击加载更多