腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
dask
中
并行
化
groupby
()?
、
、
、
我试过了: df.
groupby
('name').agg('count').compute(num_workers=1) df.
groupby
('name').agg('count').compute
浏览 25
提问于2019-04-10
得票数 7
1
回答
将使用大型np.ndarray的短任务
并行
化
、
、
多行矩阵M上的一个M循环 f(x) pool.map(f, M) 我曾经尝试过与
dask
并行
化
,但是它甚至在顺序执行
中
失败了我尝试过很多事情,
如
使用数据的分区(
如
所说的)或使用
dask
.bag。我在本地机器上运行
Dask
浏览 7
提问于2022-03-07
得票数 0
0
回答
Dask
groupby
date性能
、
、
给定以下
dask
数据帧:import pandas as pddf = pd.DataFrame')].items(): x += v我很惊讶pandas在
groupby
+ aggregate操作上比
dask
快,例如:res = d
浏览 2
提问于2018-07-17
得票数 1
1
回答
在需要计算数据列时使用
dask
进行
并行
计算
、
、
、
我有3.6亿记录的鸟群观测数据 注意:虽然我把这个dataset称为EOD_CLO_2016.parq.gz,但是它被块在S3桶
中
的许多对象上,以便于
并行
化
。在使用
groupby
执行可伸缩部分之前,是否有任何方法可以动态地执行这种计算?或者,在使用<e
浏览 0
提问于2018-09-12
得票数 1
回答已采纳
1
回答
Dask
可以
并行
化
函数
中
的内容吗?
、
、
我想知道该函数
中
的代码是否可
并行
化
,我能否以某种方式
并行
化
该函数
中
的代码,而无需在该函数中进行
dask
API调用? 我在想
dask
.delayed是否能在这方面帮到我。但我认为它使函数的多次执行
并行
化
,但我想
并行
化
函数的内部内容。有没有可能使用
dask
?
浏览 2
提问于2018-06-20
得票数 1
1
回答
将一个数据帧拆分为多个数据帧,并对这些数据帧
并行
执行过程
、
、
问题是,这段代码需要3天的时间才能运行,所以我想知道如何使用多进程
并行
来实现这一点。
浏览 1
提问于2018-01-31
得票数 0
3
回答
避免
GroupBy
在大型Pandas DataFrame上的内存问题
、
、
、
、
df是这样创建的:encoded = pd.get_dummies(df, columns=['account'])df = dd.from_pandas(encoded, 50)result = df.
groupby
('journal_entry我试图在df上执行此操作: result = df.
groupb
浏览 1
提问于2018-04-26
得票数 12
回答已采纳
1
回答
如
何在
dask
中有效地使用pandas.cut() (或等效)?
、
、
在
Dask
中
是否存在与pandas.cut()等价的内容?
groupby
方法工作得很好,但不幸的是,当我试图将数据存储在能量
中
时,我遇到了困难。我找到了一个使用pandas.cut()的解决方案,但它需要调用原始数据集上的compute() (将其本质上转换为非
并行
代码)。在
浏览 4
提问于2017-02-24
得票数 13
回答已采纳
2
回答
Modin |
Dask
| Data.table | Pandas
并行
处理与内存不足csv文件的比较
、
、
、
Dask
| Modin | Data.table的基本区别和主要用例是什么 我查看了每个库的文档,所有这些库似乎都为pandas的局限性提供了一个“类似”的解决方案
浏览 5
提问于2019-06-07
得票数 13
1
回答
为什么大熊猫成群的速度不同?
、
、
为什么在pandas
中
,从32m行数据帧
中
获取组的这三种方法的性能存在差异。df = df.
groupby
(["a", "b", "c"]).groups df = df.index df =df.
groupby
(["a", "b", "c"]
浏览 0
提问于2016-07-18
得票数 0
1
回答
在什么情况下,我可以使用
Dask
而不是Apache?
、
、
、
我发现
Dask
提供
并行
化
的NumPy数组和Pandas DataFrame。
Dask
提供
并行
数组、数据帧、机器学习和自定义算法。
Dask
对Python用户来说有一个优势,因为它本身就是一个Python库,所以当事情出错时,序列<em
浏览 4
提问于2016-08-10
得票数 101
1
回答
如何对
Dask
dataframe组
中
的值进行排序?
、
、
、
、
: .
groupby
['target'].sum().shift(i).ffill().bfill().values 是否可以对值进行排序、分组、移位,然后分配给一个新变量,而不需要在
Dask
浏览 10
提问于2017-03-15
得票数 4
1
回答
使用
Dask
和机器学习模型的嵌套进程
、
、
、
、
由于经过训练的模型是独立的,因此很容易将这部分
并行
化
,例如from sklearn.linear_model import Lassoresults.append(delayed(model.fit)(X, y))results = compute(results) 但是,假设模型本身需要生成流程,例如,如果模型是一个包含交叉验证的管道,
如
GridSearchCV我应该如何
并行
化
这段代码?我不清楚如何让它工
浏览 4
提问于2020-10-04
得票数 0
1
回答
如
何在
包含5,000个样本和500,000个特征的数据集上加载和运行特征选择?
、
我想解决两个问题: 加载数据集--尽管使用了计算集群,我还是无法将其加载到内存
中
,所以我假设我应该使用一个
并行
化
库,比如
Dask
、Spark或Vaex。这是最好的主意吗?特性选择-如
何在
并行
化
库
中
运行特性选择?这能用达斯克,火花,瓦克斯完成吗?
浏览 0
提问于2021-05-20
得票数 1
1
回答
达斯克的“内存区域太多”错误
、
当使用
Dask
与
Dask
数组时,我突然得到以下错误,并且我的内核死了/重新启动。BLAS : Program is Terminated.
浏览 15
提问于2017-07-13
得票数 4
回答已采纳
1
回答
在PythonScriptStep中使用
Dask
群集
、
有没有可能让一个多节点的
Dask
集群作为一个带有AML Pipeline的PythonScriptStep的计算?ft.dfs()有一个允许
并行
化
的参数n_jobs。当我们在一台机器上运行时,作业需要三个小时,并且在
Dask
上运行得更快。我如
何在
Azure ML流水线
中
操作它?
浏览 12
提问于2020-08-08
得票数 4
回答已采纳
1
回答
使用
dask
计算移动平均值
、
、
pd.DataFrame({'cust_id':['a', 'a', 'a', 'b', 'b'], 'sales': [100, 200, 300, 400, 500]}) df['mov_avg'] = df.
groupby
有没有办法在这里利用
DASK
?
浏览 14
提问于2020-01-16
得票数 0
1
回答
dask
.delayed对象的分布与计算
、
、
dask
.delayed对象是否通过
dask
在集群上分发? 另外,它的任务图的执行也分布在集群上吗?
浏览 1
提问于2018-06-30
得票数 1
1
回答
使用共享内存对内存
中
的任务进行
并行
化
(不发送到其他进程)?
我有一个内存
中
可
并行
的小问题,但由于需要在进程之间来回发送大量数据,所以在常规的Python多处理(只有2xish)
中
不能提供很好的加速。希望达斯克能帮上忙。我的代码基本上如下所示:for key, kdf in natsorted(scdf.
groupby
(grpby_key)): d1 = dd.from_pandasdelayed(function)(scdf, other_dfs[key], key=key, n_jobs=n_jobs, **kwargs) fo
浏览 0
提问于2018-07-04
得票数 0
回答已采纳
2
回答
使用多个参数
并行
化
groupby
、
我在
并行
化
groupby
上找到了这个。然而,它不能一对一地转换成有多个参数的情况-除非我弄错了。 return pd.Series(index=index, data=ret_list) 谁会使用applyParallel(df.
groupby
浏览 9
提问于2016-09-25
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python数据预处理:使用Dask和Numba并行化加速
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
Dask:并行计算的灵活解决方案,用完都说好神奇!
Starknet将在下次升级中引入并行化功能
使用 Dask在Python 中进行并行计算
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券