Dask: n数据帧groupBy上的唯一方法

、、

我想知道在使用Dask进行groupBy聚合之后，是否可以获得给定列中唯一项的数量。我在文档中没有看到任何类似的东西。它在pandas dataframe上可用，并且非常有用。我已经看到了一些与此相关的问题，但我不确定它是否已经实现。有人能给我一些提示吗？

浏览 10提问于2017-08-28得票数 8

1回答

计算过去n天的滚动平均值，单位为Dask

、、、

我试图在一个大型数据集上计算过去n天(n= 30)的滚动平均值。]) 基本上，该函数按"id code“分组，并在"entry_time_flat”(一个datetime对象)上的最后n天计算特征"duration“的平均值。但是，为了保持代码的效率，最好在Dask数据帧上重现此函数，而无需将其转换为Pandas D

浏览 11提问于2020-05-04得票数 1

2回答

Dask Dataframe groupby在pandas序列中的结果，我如何返回dask dataframe？

、、、

我正尝试在Dask中执行groupby函数来创建一个新的Dask数据帧。然而，当我做groupby时，结果是一个熊猫系列。当我在Pandas中执行相同的操作时，我确实返回了一个新的数据帧。如何返回新的dask数据帧？代码如下： g1 = df1.groupby(['SFDC_Refresh_Date

浏览 4提问于2019-10-09得票数 0

0回答

Dask groupby date性能

、、

给定以下dask数据帧：import pandas as pddf = pd.DataFrame')].items(): x += v我很惊讶pandas在groupby+ aggregate操作上

浏览 2提问于2018-07-17得票数 1

1回答

Groupby和shift a dask数据帧

、

我想使用dask 2.14扩展我在熊猫数据帧上所做的一些操作。例如，我想对数据帧的一列应用移位：data = dd.read_csv('some_file.csv')data['column_B'] = data.groupby(['c

浏览 7提问于2020-05-05得票数 5

回答已采纳

2回答

在dask中遍历GroupBy对象

、、

是否可以遍历dask GroupBy对象来访问底层数据帧？我试过了：import pandas as pdddf = dd.from_pandas(pdf, npartitions

浏览 21提问于2016-09-28得票数 10

回答已采纳

1回答

如何对Dask dataframe组中的值进行排序？

、、、、

我有这个代码，它在每个唯一的变量组合'grouping A‘和'grouping B’中生成自回归项。: .groupby['target'].sum().shift(i).ffill().bfill().values 是否可以对值进行排序、分组、移位，然后分配给一个新变

浏览 10提问于2017-03-15得票数 4

1回答

nunique的Dask Grouby性能太慢。如何提高性能？

、

我有超过5 5GB的大文件。我已经将它们存储在镶木地板格式中。当我对小样本600k+记录进行如下代码所示的groupby操作时，Dask需要6分钟以上，而pandas只需要0.4秒。虽然我知道如果数据集可以放在内存中，pandas会更快，但我的问题是，如果我将整个拼图文件传递给Dask dataframe，性能会提高吗？示例:使用Dask Dataframe StartTime = datetime.datetime.now() df = dd.rea

浏览 21提问于2019-09-19得票数 0

1回答

存储在dataframe中的计算dask延迟对象

、、、

我正在寻找最好的方法来计算存储在数据帧中的许多dask delayed指令。我不确定是否应该将pandas数据帧转换为包含delayed对象的dask数据帧，或者是否应该对pandas数据帧的所有值调用compute调用。我非常感谢大家的建议，因为我在通过嵌套的for循环传递delayed对象

浏览 10提问于2019-08-10得票数 0

1回答

在Numpy数组上执行Pandas函数

、、、、

我有一个大约8700万行的Pandas数据帧。为了对其进行一些处理，我将其设置为Dask数据帧。问题是我需要做Dask不支持的unstack和plot。我已经将Dask数据帧写入h5文件，但在尝试将其作为Pandas数据帧读取时遇到内存问题。我在将Dask DF转换为Pandas时也遇到了内存错误。从本质上讲，我尝试做的

浏览 2提问于2020-04-22得票数 2

1回答

如何将MultiIndex熊猫数据帧转换为Dask数据帧

、、、、

我试图将两个变量(一个ID和一个DateTime变量)为MultiIndexed的熊猫数据帧转换为dask数据帧，但是我得到了以下错误； "NotImplementedError: Dask doesnot support MultiIndex Dataframes" 我正在使用下面的代码 import pandas as pd dask_df= dd.f

浏览 18提问于2019-07-02得票数 2

回答已采纳

3回答

创建指示一组列中的值的唯一组合的列的内存高效方式

、、、、

我希望找到一种更有效的方法(在内存使用峰值和可能的时间方面)来完成panda的groupby.ngroup工作，这样我在处理大型数据集时就不会遇到内存问题(我在下面提供了本专栏对我有用的原因)。以一个小数据集为例。我可以使用groupby.ngroup轻松地完成这项任务。，内存使用量和计算时间呈爆炸式增长，与N=100,000相比，groupby中的内存使用量与数据</em

浏览 18提问于2019-12-14得票数 4

回答已采纳

1回答

任务合并失败，返回keyerror

、、

我有一个dask数据帧，如下所示：0 31110671 42 <my_xml> ... 1 34470834 6 <my_xml>..我想在id上运行group by，以便将相同的id分组在一起，并联接refseqno的值。基本上，每个id将具有多个refseqno。然后，将分组的输出与原始数据帧合并，以获得联接的</

浏览 1提问于2020-09-23得票数 0

1回答

Dask Dataframe groupby没有len()

、、

如果你有一个基于dask数据帧的groupby对象，为什么len(<groupby object>)会返回一个错误？(错误或功能)

浏览 13提问于2018-02-11得票数 5

回答已采纳

1回答

Dask - groupby期间行之间时间戳差异的平均值

、、、

在聚合期间，我尝试使用Dask计算组行之间的时间戳差异的平均值(两个乘以两个)。数据帧的一个例子是： Timestamp IP Packets1 2021-073 2021-07-12 09:54:46 10.41.0.1 30 4 2021-07-12 09:54:52 10.42.0.1 2 根据这个documentation，我尝试了这样的

浏览 97提问于2021-07-13得票数 0

1回答

Dask dataframe groupby因类型错误而失败，但相同的pandas groupby成功

、、、

我已经从地理熊猫期货创建了一个dask数据帧，每个数据帧产生一个熊猫数据帧，如下所示：所有数据类型似乎都是合理的left float64 bottom float64data = np.ar

浏览 3提问于2020-03-16得票数 0

1回答

使用xarray + dask* -使用groupby还是apply_ufunc的内存错误？*

、、、、

我使用xarray作为我分析流体湍流数据的工作流程的基础，但是我很难正确地利用dask来限制我的笔记本电脑上的内存使用。我有一个带有维度n的数据数组('t', 'x', 'z')，我沿着z维度将其分割成5块：<e

浏览 0提问于2018-08-02得票数 8

1回答

dask是如何在多个系统上实现的？

、、、

我是Dask库的新手，我想知道如果我们在两个系统上使用dask实现并行计算，那么我们应用计算的数据框架是否存储在这两个系统上？并行计算究竟是如何进行的，文档中并不清楚。

浏览 0提问于2018-07-03得票数 0

1回答

dask dataframe群导致一个分区内存问题。

、、

我正在将64个压缩的csv文件(可能是70-80GB)读入一个dask数据框架中，然后使用聚合运行groupby。我试着用重新划分的方法解决问题，但工作仍未完成。我做错了什么，我要使用map_partition吗？这是非常令人困惑

浏览 1提问于2019-04-24得票数 2

回答已采纳

1回答

Dask groupby-在索引上应用，然后连接，而不会进行昂贵的重新索引

、、

我在Dask的情况下，我想摆脱，而不是使用很多昂贵的reset_index操作。我有一个任务，它执行groupby-apply (其中apply返回一个数据帧，它的大小与输入数据帧不同，在本例中，这是由.head()和.tail()用reset_index()模拟的)。一个操作是在不同的数据帧上执行的，这两个数据</em

浏览 0提问于2021-04-08得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

计算过去n天的滚动平均值，单位为Dask

Dask Dataframe groupby在pandas序列中的结果，我如何返回dask dataframe？

Dask groupby date性能

Groupby和shift a dask数据帧

在dask中遍历GroupBy对象

如何对Dask dataframe组中的值进行排序？

nunique的Dask Grouby性能太慢。如何提高性能？

存储在dataframe中的计算dask延迟对象

在Numpy数组上执行Pandas函数

如何将MultiIndex熊猫数据帧转换为Dask数据帧

创建指示一组列中的值的唯一组合的列的内存高效方式

任务合并失败，返回keyerror

Dask Dataframe groupby没有len()

Dask - groupby期间行之间时间戳差异的平均值

Dask dataframe groupby因类型错误而失败，但相同的pandas groupby成功

使用xarray + dask* -使用groupby还是apply_ufunc的内存错误？*

dask是如何在多个系统上实现的？

dask dataframe群导致一个分区内存问题。

Dask groupby-在索引上应用，然后连接，而不会进行昂贵的重新索引

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐