腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
dask
上
按
组
应用
函数
的
最佳
实践
、
、
我有一个很大
的
数据集存储
在
hdf5文件中,我需要执行一些操作。103896 1 2.02 103896 1 5.04 103896 1 7.0如果我想象一下DAG,一切似乎都组织得很好:但是,如果我尝试
应用</em
浏览 12
提问于2019-11-15
得票数 2
回答已采纳
1
回答
Dask
延迟
最佳
实践
的
批次说明是如何工作
的
?
、
、
我想我遗漏了一些东西(仍然是
Dask
Noob),但我正在尝试分批处理
的
建议,以避免在这里执行太多
的
Dask
任务: import
dask
return x*x sub_results = [] Delayed(range(1000000, 2000000)), Delayed(range(2000000, 300
浏览 0
提问于2019-06-05
得票数 0
2
回答
使用
Dask
DataFrames对
组
执行任意操作
的
最佳
方法
、
、
、
Dask
状态(以及其他几个StackOverflow答案引用)表明,groupby-apply不适合聚合: 熊猫
的
群-
应用
可以用来
应用
任意
函数
,包括每组产生一行
的
聚合。
Dask
的
将对每个分区
组
对
应用
func一次,所以当func是一个约简时,每个分区
组
对将得到一行。若要使用
Dask
应用
自定义聚合,请使用
dask
.dataframe.groupb
浏览 40
提问于2021-12-07
得票数 1
回答已采纳
1
回答
Parquet文件中groupby
的
最佳
实践
、
、
、
我们有一个1.5BM记录分散
在
几个csv文件。为了生成一个count聚合,我们需要对几个列进行分组。我们目前
的
战略是: <
浏览 2
提问于2017-07-09
得票数 3
1
回答
你能用DataFrame作为
dask
.delayed中
的
查找表吗?
、
、
、
我拥有的数据规模不太可能使DataFrame合并成功--以前
的
尝试已经导致过多
的
数据洗牌、调度程序
上
的
内存错误和工作人员中
的
通信超时,甚至包括索引、分区、工作人员
的
重要计数、总内存等等。我们目前正在
dask
.delayed
函数
中这样做。这显然需要大量磁盘I/O。
Dask
延迟
最佳
实践
()警告不要发送DataFrame延迟,不要调用延迟形式延迟,并告诉我们
在
分布式场景中避免
浏览 2
提问于2021-09-20
得票数 1
回答已采纳
1
回答
使用
dask
有效地读取blob存储中
的
部分列
、
、
、
将数据存储
在
blob存储库中也是很自然
的
,以便在云中运行大规模
的
工作负载。然而,一旦一个拼花文件被存储为一个blob,大多数库(
dask
、fastparquet、py箭头)都不能真正利用这一点,因为底层
的
fseek实际
上
不可能直接放在blob
上
--这意味着无论选择哪一列,在读取它之前都必须将整个文件下载到本地文件系统中因此,如果我
的
用例要求不同
的
应用
程序需要不同
的
列,并且仅为几个列下载整个文件<em
浏览 0
提问于2019-12-01
得票数 2
回答已采纳
1
回答
按
group语法
的
Dask
滚动
函数
、
我花了一段时间努力学习语法,以便
按
组
计算
dask
数据帧
的
滚动
函数
。文档非常优秀,但在本例中没有示例。我
的
工作版本如下所示,来自csv,其中包含一个文本字段,其中包含用户is和x,y,z列:ddf.groupby(ddf.User).x.apply(lambda x: x.rolling(5).mean(), meta=('x', 'f8')).compute() 这
浏览 0
提问于2017-02-11
得票数 2
1
回答
在
Docker容器
上
实现
Dask
调度器和工作者
、
、
、
、
我需要在多个进程并行
的
情况下运行一个scikit learn RandomForestClassifier。为此,我正在考虑实现一个具有N个工作者
的
Dask
调度器,其中调度器和每个工作者
在
单独
的
Docker容器中运行。客户端
应用
程序也
在
单独
的
Docker容器中运行,它将首先连接到调度器,并使用with joblib.parallel_backend('
dask
'):启动scikit learn进程。用于训练机器学习
浏览 37
提问于2021-04-07
得票数 2
回答已采纳
2
回答
如何使用
Dask
并行化集群
上
的
海量图像
上
的
目标检测
、
、
、
我正在尝试是否可以使用
Dask
在
集群
上
对海量2D图像(约20-50 GB)中
的
对象进行
按
块并行检测和分割。但是,我看到我可以传递给map_blocks
浏览 3
提问于2016-11-23
得票数 0
1
回答
合并两个大型数据帧
、
、
、
_libs.join.inner_join() MemoryError: 有没有其他有效
的
方法。我在这里
的
一些讨论中看到
Dask
可以提供帮助,但我不知道如何在这种情况下使用它。有什么需要帮忙
的
吗?谢谢
浏览 16
提问于2019-01-31
得票数 0
1
回答
多处理
组
应用
python
、
、
、
我有两个
组
,一个是要作为
组
处理
的
行,另一个是要查看
的
组
。','Y'] , 'ID' : ['1','3','4','8']}) gr2 = test2.groupby('city') 目前,我正在将我
的
函数
应用
于
组</em
浏览 16
提问于2017-06-22
得票数 1
回答已采纳
2
回答
在
大于RAM
的
大型数据文件
上
应用
一个
函数
、
、
、
、
据信,
Dask
框架能够处理比RAM更大
的
数据集。然而,我未能成功地将它
应用
于我
的
问题,听起来如下所示:
在
迭代了所有分区之后,我期望
Dask
将所有预处理分区连接起来,并返回一个完整
的
预处理数据。这种行为在我看来是合乎逻辑
的</e
浏览 5
提问于2020-05-20
得票数 1
回答已采纳
1
回答
为什么有时我必须在
dask
延迟
函数
上调用compute()两次?
、
、
我正在使用
dask
延迟
函数
,
在
函数
上使用@
dask
.delayed装饰器时,我熟悉
dask
的
do's和don。我意识到,有时我需要调用compute()两次才能得到结果,尽管我认为自己遵循了
最佳
实践
。也就是说,不要在另一个
dask
延迟
函数
中调用
dask
延迟
函数
。 我
在
两个场景中遇到了这个问题:当有嵌套
函数
时,以及<em
浏览 2
提问于2019-07-09
得票数 1
回答已采纳
1
回答
延迟评估
Dask
数组以避免临时性
我来自C++,习惯于使用表达式模板
的
库,其中
的
矩阵操作如下:不要创建临时文件和元素操作是
在
循环中完成
的
,而不会为右侧
的
操作创建临时矩阵对于
Dask
数组,这是可能
的
吗?
Dask
的
“惰性评估”是否也是这样做
的
,或者这个术语只是指操作图
的
按需计算。 谢谢。
浏览 2
提问于2018-11-10
得票数 1
1
回答
如何使用
dask
.distributed并行嵌套循环?
、
、
、
、
我试图使用这样
的
方式来使用
dask
分发来并行一个嵌套循环:def delayed_a(e): return首先,我使用一个惰性
的
computations
函数
创建了一个delayed_b列表,该
函数
将list
的
一个元素作为参数。然后,delayed_b创建一
组
调用delayed_a
函数
的
新computations,并以分布式
浏览 1
提问于2019-03-10
得票数 0
回答已采纳
1
回答
如何使用Numba +
Dask
正确并行化泛型代码
、
、
、
我刚开始使用
Dask
和Numba来加速代码,我希望这可能是一个有价值
的
问题,让用户获得如何并行化代码
的
最佳
实践
的
答案。我已经用3列对pandas数据进行了一个通用
的
测试。将在框架中
的
3个向量
上
实现一个泛型
函数
,用于表示数据分析中可能进行
的
转换:前两列被平方、加法,然后取平方根,然后计算一个布尔值,将结果与第三列进行比较。我实现了4个测试用例:(a) pandas
应用
,(b) <em
浏览 0
提问于2020-02-11
得票数 2
回答已采纳
2
回答
迭代
Dask
数据帧
、
、
、
、
我正在尝试从成百上千个大型CSV文件
的
单个列中创建一个Keras Tokenizer。
Dask
似乎是一个很好
的
工具。我目前
的
方法最终会导致内存问题: df = dd.read_csv('data/*.csv', usecol=['MyCol']) tokeni
浏览 18
提问于2020-10-30
得票数 1
1
回答
Neo4j 2.1.x ExecutionEngine实例数
、
ExecutionEngine实例
的
最佳
实践
是什么?我记得我
在
Neo4j新闻
组
上
看到一篇文章说,应该在
应用
程序之间共享一个实例,但是我能找到
的
所有例子都表明情况并非如此。什么是总体
最佳
实践
?
浏览 3
提问于2015-03-21
得票数 1
回答已采纳
1
回答
包装在xarray数据集中
的
dask
数组
的
子集
上
的
并行任务
、
我有一个很大
的
xarray.Dataset存储为zarr。我想对它执行一些自定义操作,这些操作不能仅使用
Dask
集群将自动处理
的
类似numpy
的
函数
来完成。因此,我将数据集划分为较小
的
子集,并为每个子集向我
的
Dask
集群提交以下形式
的
任务 def my_task(zarr_path, subset_index): ds = xarray.open_zarr(zarr_path) # this returns an xarra
浏览 17
提问于2020-07-13
得票数 2
1
回答
Dask
apply_along_axis误差与Numpy
的
比较
、
、
、
我试图将一个
函数
应用
到一个
Dask
数组,,虽然相同
的
函数
在
numpy数组上工作,但它不工作
在
一个
Dask
数组
上
。下面是一个示例:q = numpy.array([[1,2,3],[4,5,6]])def func(arr): t, y =
浏览 0
提问于2020-05-21
得票数 2
回答已采纳
点击加载更多
相关
资讯
在 Python 中使用函数式编程的最佳实践!
SpringCloud 应用在 Kubernetes 上的最佳实践 — 线上发布(可灰度)
HBase在滴滴出行的应用场景和最佳实践
数据挖掘技术在轨迹数据上的应用实践
泰克示波器在振子测试中的应用及最佳实践
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券