腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
Dask
:
n
数据
帧
groupBy
上
的
唯一
方法
、
、
我想知道在使用
Dask
进行
groupBy
聚合之后,是否可以获得给定列中
唯一
项
的
数量。我在文档中没有看到任何类似的东西。它在pandas dataframe
上
可用,并且非常有用。我已经看到了一些与此相关
的
问题,但我不确定它是否已经实现。 有人能给我一些提示吗?
浏览 10
提问于2017-08-28
得票数 8
1
回答
计算过去
n
天
的
滚动平均值,单位为
Dask
、
、
、
我试图在一个大型
数据
集上计算过去
n
天(
n
= 30)
的
滚动平均值。]) 基本
上
,该函数按"id code“分组,并在"entry_time_flat”(一个datetime对象)
上
的
最后
n
天计算特征"duration“
的
平均值。但是,为了保持代码
的
效率,最好在
Dask
数据
帧
上
重现此函数,而无需将其转换为Pandas D
浏览 11
提问于2020-05-04
得票数 1
2
回答
Dask
Dataframe
groupby
在pandas序列中
的
结果,我如何返回
dask
dataframe?
、
、
、
我正尝试在
Dask
中执行
groupby
函数来创建一个新
的
Dask
数据
帧
。然而,当我做
groupby
时,结果是一个熊猫系列。当我在Pandas中执行相同
的
操作时,我确实返回了一个新
的
数据
帧
。如何返回新
的
dask
数据
帧
?代码如下: g1 = df1.
groupby
(['SFDC_Refresh_Date
浏览 4
提问于2019-10-09
得票数 0
0
回答
Dask
groupby
date性能
、
、
给定以下
dask
数据
帧
:import pandas as pddf = pd.DataFrame')].items(): x += v我很惊讶pandas在
groupby
+ aggregate操作
上
浏览 2
提问于2018-07-17
得票数 1
1
回答
Groupby
和shift a
dask
数据
帧
、
我想使用
dask
2.14扩展我在熊猫
数据
帧
上
所做
的
一些操作。例如,我想对
数据
帧
的
一列应用移位:data = dd.read_csv('some_file.csv')data['column_B'] = data.
groupby
(['c
浏览 7
提问于2020-05-05
得票数 5
回答已采纳
2
回答
在
dask
中遍历
GroupBy
对象
、
、
是否可以遍历
dask
GroupBy
对象来访问底层
数据
帧
?我试过了:import pandas as pdddf = dd.from_pandas(pdf, npartitions
浏览 21
提问于2016-09-28
得票数 10
回答已采纳
1
回答
如何对
Dask
dataframe组中
的
值进行排序?
、
、
、
、
我有这个代码,它在每个
唯一
的
变量组合'grouping A‘和'grouping B’中生成自回归项。: .
groupby
['target'].sum().shift(i).ffill().bfill().values 是否可以对值进行排序、分组、移位,然后分配给一个新变
浏览 10
提问于2017-03-15
得票数 4
1
回答
nunique
的
Dask
Grouby性能太慢。如何提高性能?
、
我有超过5 5GB
的
大文件。我已经将它们存储在镶木地板格式中。当我对小样本600k+记录进行如下代码所示
的
groupby
操作时,
Dask
需要6分钟以上,而pandas只需要0.4秒。虽然我知道如果
数据
集可以放在内存中,pandas会更快,但我
的
问题是,如果我将整个拼图文件传递给
Dask
dataframe,性能会提高吗?示例:使用
Dask
Dataframe StartTime = datetime.datetime.now() df = dd.rea
浏览 21
提问于2019-09-19
得票数 0
1
回答
存储在dataframe中
的
计算
dask
延迟对象
、
、
、
我正在寻找最好
的
方法
来计算存储在
数据
帧
中
的
许多
dask
delayed指令。我不确定是否应该将pandas
数据
帧
转换为包含delayed对象
的
dask
数据
帧
,或者是否应该对pandas
数据
帧
的
所有值调用compute调用。我非常感谢大家
的
建议,因为我在通过嵌套
的
for循环传递delayed对象
浏览 10
提问于2019-08-10
得票数 0
1
回答
在Numpy数组
上
执行Pandas函数
、
、
、
、
我有一个大约8700万行
的
Pandas
数据
帧
。为了对其进行一些处理,我将其设置为
Dask
数据
帧
。问题是我需要做
Dask
不支持
的
unstack和plot。我已经将
Dask
数据
帧
写入h5文件,但在尝试将其作为Pandas
数据
帧
读取时遇到内存问题。我在将
Dask
DF转换为Pandas时也遇到了内存错误。从本质
上
讲,我尝试做
的
浏览 2
提问于2020-04-22
得票数 2
1
回答
如何将MultiIndex熊猫
数据
帧
转换为
Dask
数据
帧
、
、
、
、
我试图将两个变量(一个ID和一个DateTime变量)为MultiIndexed
的
熊猫
数据
帧
转换为
dask
数据
帧
,但是我得到了以下错误; "NotImplementedError:
Dask
doesnot support MultiIndex Dataframes" 我正在使用下面的代码 import pandas as pd
dask
_df= dd.f
浏览 18
提问于2019-07-02
得票数 2
回答已采纳
3
回答
创建指示一组列中
的
值
的
唯一
组合
的
列
的
内存高效方式
、
、
、
、
我希望找到一种更有效
的
方法
(在内存使用峰值和可能
的
时间方面)来完成panda
的
groupby
.ngroup工作,这样我在处理大型
数据
集时就不会遇到内存问题(我在下面提供了本专栏对我有用
的
原因)。以一个小
数据
集为例。我可以使用
groupby
.ngroup轻松地完成这项任务。,内存使用量和计算时间呈爆炸式增长,与
N
=100,000相比,
groupby
中
的
内存使用量与
数据</em
浏览 18
提问于2019-12-14
得票数 4
回答已采纳
1
回答
任务合并失败,返回keyerror
、
、
我有一个
dask
数据
帧
,如下所示:0 31110671 42 <my_xml> ... 1 34470834 6 <my_xml>..我想在id
上
运行group by,以便将相同
的
id分组在一起,并联接refseqno
的
值。基本
上
,每个id将具有多个refseqno。然后,将分组
的
输出与原始
数据
帧
合并,以获得联接
的</
浏览 1
提问于2020-09-23
得票数 0
1
回答
Dask
Dataframe
groupby
没有len()
、
、
如果你有一个基于
dask
数据
帧
的
groupby
对象,为什么len(<
groupby
object>)会返回一个错误?(错误或功能)
浏览 13
提问于2018-02-11
得票数 5
回答已采纳
1
回答
Dask
-
groupby
期间行之间时间戳差异
的
平均值
、
、
、
在聚合期间,我尝试使用
Dask
计算组行之间
的
时间戳差异
的
平均值(两个乘以两个)。
数据
帧
的
一个例子是: Timestamp IP Packets1 2021-073 2021-07-12 09:54:46 10.41.0.1 30 4 2021-07-12 09:54:52 10.42.0.1 2 根据这个documentation,我尝试了这样
的
浏览 97
提问于2021-07-13
得票数 0
1
回答
Dask
dataframe
groupby
因类型错误而失败,但相同
的
pandas
groupby
成功
、
、
、
我已经从地理熊猫期货创建了一个
dask
数据
帧
,每个
数据
帧
产生一个熊猫
数据
帧
,如下所示:所有
数据
类型似乎都是合理
的
left float64 bottom float64data = np.ar
浏览 3
提问于2020-03-16
得票数 0
1
回答
使用xarray +
dask
-使用
groupby
还是apply_ufunc
的
内存错误?
、
、
、
、
我使用xarray作为我分析流体湍流
数据
的
工作流程
的
基础,但是我很难正确地利用
dask
来限制我
的
笔记本电脑
上
的
内存使用。我有一个带有维度
n
的
数据
数组('t', 'x', 'z'),我沿着z维度将其分割成5块:<e
浏览 0
提问于2018-08-02
得票数 8
1
回答
dask
是如何在多个系统
上
实现
的
?
、
、
、
我是
Dask
库
的
新手,我想知道如果我们在两个系统
上
使用
dask
实现并行计算,那么我们应用计算
的
数据
框架是否存储在这两个系统
上
?并行计算究竟是如何进行
的
,文档中并不清楚。
浏览 0
提问于2018-07-03
得票数 0
1
回答
dask
dataframe群导致一个分区内存问题。
、
、
我正在将64个压缩
的
csv文件(可能是70-80GB)读入一个
dask
数据
框架中,然后使用聚合运行
groupby
。我试着用重新划分
的
方法
解决问题,但工作仍未完成。 我做错了什么,我要使用map_partition吗?这是非常令人困惑
浏览 1
提问于2019-04-24
得票数 2
回答已采纳
1
回答
Dask
groupby
-在索引上应用,然后连接,而不会进行昂贵
的
重新索引
、
、
我在
Dask
的
情况下,我想摆脱,而不是使用很多昂贵
的
reset_index操作。我有一个任务,它执行
groupby
-apply (其中apply返回一个
数据
帧
,它
的
大小与输入
数据
帧
不同,在本例中,这是由.head()和.tail()用reset_index()模拟
的
)。一个操作是在不同
的
数据
帧
上
执行
的
,这两个
数据</em
浏览 0
提问于2021-04-08
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
让客户“爱”上你珠宝店的N种方法
Dask:并行计算的灵活解决方案,用完都说好神奇!
Python数据预处理:使用Dask和Numba并行化加速
怎么恢复电脑上的数据?这些方法可以帮您
Python之数据聚合与分组运算
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券