对Dask dataframe中的现有索引设置分区

如果我有一个已经被索引的Dask dataframe(None, None)1A.reset_index.set_index("index", divisions=sorted(divisions)) 因为A.repartition(divisions=sorted(divisions))抱怨“新旧部门的左

浏览 2提问于2017-12-17得票数 3

回答已采纳

1回答

带有无序索引的dataframe会导致无声的错误吗？

、

dask.DataFrame周围的方法似乎都确保索引列是排序的。但是，通过使用from_delayed，可以构造具有索引列的dataframe，该列没有排序：组合索引是<e

浏览 1提问于2016-12-21得票数 3

回答已采纳

1回答

达克:写/读后的不同意指标

、、、

我有一只熊猫DataFrame，df，我把它变成了DataFrame，dask_dfimport dask.dataframe as dddask_df = dd.from_pandas(df, npartitions=1) 当我把dask_df<

浏览 1提问于2019-09-16得票数 1

1回答

Dask读取CSV，将分区设置为CSV长度

、、、

我正在编写代码，这些代码将从一组名为my_file_*.csv的CSV读取到dataframe中。我尝试重置索引，然后根据每个CSV的长度来设置分区，但看起来Dask dataframe的索引并不

浏览 5提问于2017-03-31得票数 6

回答已采纳

3回答

`set_index`可以将一个索引放入多个分区吗？

、、、

从经验上看，每当您在dataframe上使用set_index时，Dask总是会将具有相同索引的行放入单个分区中，即使它会导致严重不平衡的分区。下面是一个演示：import dask.dataframe as dd df= pd.DataFrame({'user&#x

浏览 1提问于2021-10-14得票数 6

回答已采纳

2回答

如何在DataFrame中创建唯一的索引？

、、、、

想象一下，我有一个来自Dask DataFrame的read_csv，或者创建了另一种方式。reset_index在每个分区中构建一个单调上升的索引。这意味着(0,1,2,3,4,5，.)对于分区1，(0,1,2,3,4,5，.)对于分区2，(0,1,2,3,4,5，.)用于分区3等等。我希望为dataf

浏览 0提问于2019-06-06得票数 6

回答已采纳

1回答

在加载多个拼花文件时保留dask数据分区

、、、

我有一些以时间为索引的数据帧中的时间序列数据。索引被排序，数据存储在多个拼花文件中，每个文件中有一天的数据。我使用dask 2.9.1在我的实际数据中，我有一个拼花文件公关日。文件是通过从使用时间戳作为索引

浏览 1提问于2020-01-02得票数 1

回答已采纳

2回答

索引到Dask系列可以返回Dask系列

、、

我有Dask系列的Dask数据帧。但是，使用loc[0]会导致另一个dask系列。使用to_frame也不起作用，因为结果是"Dask系列Dask数据帧的Dask数据帧“。下面是一个使用Dask系列Pandas数据帧的最小示例(不完全相同，但说明了问题)： import pandas as

浏览 3提问于2020-02-03得票数 1

1回答

如何在Dask中获取从拼图文件读取数据帧的单行值？

、

问题: DASK数据帧返回多行的pandas数据帧，每行都有相同的索引：我正在阅读许多拼图文件：拼图文件中的每一行都有一个数组似乎在调用具体行时，

浏览 48提问于2019-06-05得票数 0

1回答

为什么默认情况下dask* ()只检查第一个分区？*

、、、

dask版本1.1.4过滤后的dask.dataframe似乎将行保留在原始分区中。如果一个分区的所有行都被过滤掉，那么分区将保持为空，但仍保留在生成的dask.dataframe中。如果len(第一个分区)<

浏览 0提问于2019-07-03得票数 1

回答已采纳

1回答

为什么只使用工人？

、、

我正在通过运行一个本地集群，在我的笔记本电脑上运行一个有四个工作人员的本地集群来尝试Dask。我在工人之间分发Pandas数据，但是当我在他们上运行一个函数时，我从仪表板上看到，实际上只使用了其中的一个。from distributed import Clientdd = client.scatter(df, broadcast=True) # df is a pandas Da

浏览 0提问于2019-05-03得票数 0

回答已采纳

1回答

使用从拼花文件创建的dataframe时内存使用量过高

、

1)因此，我的问题是，为什么这些简单的操作会使用Dask Dataframe来破坏内存的使用，但是当我使用Pandas Dataframe将所有内容加载到内存中时却能很好地工作？我注意到了npartitions=1，我在文档中看到read_parquet“将Parquet数据目录读取到Dask.dataframe中，每个分区只有一个文件”。在我的例子中，听起来我正

浏览 0提问于2018-12-24得票数 6

回答已采纳

3回答

AttributeError：'DataFrame‘对象没有属性'sort_values’

、、、、

我只是想通过一个特定的列来订购dataframe。my_ddfnpartitions=1 headers .....这是df.sort_values(columns, ascending=False).head(n)pandas官方dask文档中的一个例子--只有pandas -- DASK答案-- --我不想把它设置为索引，因为我只想拥有当前的索引</em

浏览 5提问于2021-01-27得票数 2

回答已采纳

2回答

提取具有非唯一索引列日期的Dask数据帧中的最新值。

、、

我非常熟悉熊猫的数据格式，但是我对Dask非常陌生，所以我仍然试图把我的代码并行化。我已经用熊猫和熊猫获得了我想要的结果，所以我想弄清楚的是，我是否可以扩大任务的规模，或者用达斯克来加速它。假设我的dataframe有日期时间作为非唯一索引、值列和id列。在我的例子中，有时索引值并不是唯一的，所以作为一个平手，我想使用id列。具有最大id数<em

浏览 2提问于2021-12-16得票数 3

回答已采纳

2回答

将list或numpy数组作为列添加到dask dataframe

、

如何将列表或numpy数组作为列添加到dataframe中？当我尝试使用常规的熊猫语法df['x']=x时，它会给我一个TypeError: Column assignment doesn't support type list错误。

浏览 14提问于2022-08-20得票数 0

1回答

使用dask模块读取大型txt文件

、、

我正在尝试使用dask读取大量数据，如下所示虽然这很好用，并且我得到了一组分区，但由于某些原因，每当我尝试设置和索引时，如下所示： df = dd.read_csv('some_file.txt', sep = '|', header

浏览 3提问于2016-03-18得票数 0

1回答

dask索引的行为不像列(也不像pandas中的那样)

、

在这个bug报告中：https://github.com/dask/dask/issues/8319我有一个解决以下问题的方法。由于这似乎超出了该bug报告的范围，因此我将在这里询问最初的问题： import pandas as pddf = pd.DataFrameversion ddf = <e

浏览 25提问于2021-11-02得票数 0

回答已采纳

3回答

将Pandas DataFrames中的Dask包转换为单个Dask DataFrame

、、、

问题综述我怎样才能从一袋潘达斯DataFrames变成一只达克DataFrame？长版最小工作示例impo

浏览 10提问于2019-12-13得票数 3

回答已采纳

1回答

如何在Dask中对级联数据进行复位索引

、、、、

我对达斯克并不熟悉，我认为这将是一个简单的任务。我希望从多个csv文件中加载数据，并将其合并到一个Dask数据框架中。在本例中，有5个csv文件，每个文件包含10,000行数据。显然，我想给合并的dataframe一个唯一的索引。所以我做了这个：dataframes =

浏览 1提问于2020-04-23得票数 3

回答已采纳

1回答

dask.read_parquet导致OOM错误

、、

我一直在使用dask对多个csv文件执行数据清理。import Client cols_to_keep = ["barcode", "salesdate", "storecode", "quantity我的.parquet文件不是问题所在，我可以使用pandas的read_parquet()方法加载这些文件。从dask实用程序中</em

浏览 7提问于2018-08-08得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

带有无序索引的dataframe会导致无声的错误吗？

达克:写/读后的不同意指标

Dask读取CSV，将分区设置为CSV长度

`set_index`可以将一个索引放入多个分区吗？

如何在DataFrame中创建唯一的索引？

在加载多个拼花文件时保留dask数据分区

索引到Dask系列可以返回Dask系列

如何在Dask中获取从拼图文件读取数据帧的单行值？

为什么默认情况下dask* ()只检查第一个分区？*

为什么只使用工人？

使用从拼花文件创建的dataframe时内存使用量过高

AttributeError：'DataFrame‘对象没有属性'sort_values’

提取具有非唯一索引列日期的Dask数据帧中的最新值。

将list或numpy数组作为列添加到dask dataframe

使用dask模块读取大型txt文件

dask索引的行为不像列(也不像pandas中的那样)

将Pandas DataFrames中的Dask包转换为单个Dask DataFrame

如何在Dask中对级联数据进行复位索引

dask.read_parquet导致OOM错误

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐