腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
以
块
为
单位
从
dask
区域
并行
加载
数据
、
、
、
我在
dask
dataframe中
加载
了一个大型xarray
数据
集,其中包含相当大的空间和时间范围的
数据
。我正在尝试做的是使用
dask
将这些
数据
拆分成更小的
块
并
并行
加载
到内存中。len(y_vals)-1): chunk(data,[x_vals[i],x_vals[i+1]],[y_vals[j],y_vals[j+1]]) 这做了我想让它做的事情,但显然不是
并行
的这将插入到一个更大的函数中,其中<
浏览 23
提问于2019-03-06
得票数 0
回答已采纳
1
回答
如何在线程调度程序中利用多线程?
、
、
我对
Dask
的本地线程调度程序感兴趣。此调度程序可以使用多个线程
从
多维数组中“
并行
”
加载
数据
块
。我对I/O界问题感兴趣,所以暂时不考虑计算密集型应用。使用
Dask
的存储方法
从
随机数组
加载
和保存
数据
的一些速度测试似乎证实了这一事实:随着
块
大小的增加,性能下降(据说是因为最小块增加了
并行
性)。在这个实验中,我使用没有物理
块
的hdf5文件:1包含数组中所有<e
浏览 4
提问于2019-11-02
得票数 2
回答已采纳
1
回答
Dask
在同步计算中使用的极限内存
、
我试图使用
Dask
来处理比内存更大的
数据
集,这些
数据
集存储在存储
为
NumPy文件的
块
中。我懒洋洋地
加载
数据
: da.from_delayed(当我运行这个程序时,我的进程会被终止,大概是因为内存使用率高(不仅
数据<
浏览 1
提问于2022-07-24
得票数 0
2
回答
使用不同格式将
数据
加载
到pd.DataFrame的最快方法(csv、json、avro)
、
、
、
我们正在将大量
数据
从
google bigquery
加载
到pandas dataframe (直接作为pandas使用,也作为xgbMatrix使用)。BQ导出格式有CSV、JSON和AVRO,我们的
数据
有日期、整数、浮点数和字符串,并且通常是“宽”的(许多列)。我们的第一种方法是将
数据
导入
为
CSV,但是解析时间很长:解析代码: def load_table_files_to_pandas(all_files附加--我
浏览 3
提问于2018-07-25
得票数 1
2
回答
python还是
dask
并行
生成器?
、
、
、
在python中(可能使用
dask
,可能使用多进程)可以将生成器'emplace‘on core,然后
并行
地遍历生成器并处理结果?每次我
从
迭代器中读取下一个
块
时,我还会对其执行一些昂贵的计算。 result = expensive_process(next(iterator)) 在每个核心上,
并行
,然后组合并返回结果我不知道如何在
dask
或多进程中做到这一点。有
浏览 0
提问于2018-11-16
得票数 2
1
回答
用不同的列选择
加载
多个拼花文件
、
、
、
我想使用
Dask
从
存储在不同目录中的许多拼板文件中
加载
特定的列,并且每个分区需要
加载
不同的列。我想使用
Dask
,这样我就可以在一台机器上使用多个核心。我了解了如何将文件或通配符的列表传递给dd.read_parquet,
以
指示多个文件(例如*.parquet),但我没有看到传递要为每个文件读取的不同列集的方法。我想知道是否可以使用
dask
.delayed完成这一任务。我将大型单细胞基因表达
数据
集(大约10,000列/单元格
浏览 0
提问于2019-05-24
得票数 1
回答已采纳
1
回答
如何处理格式化为GiB文件的大型>30个SAS7DBAT
数据
集?
、
、
、
、
我有这30个GiB SAS7BDAT文件,它们对应着一年的
数据
。当我尝试使用pd.read_sas()导入文件时,我会得到一个与内存相关的错误。在研究中,我听说有人提到使用
Dask
,将文件分割成更小的
块
或SQL。这些答案听起来相当宽泛,而且由于我是新来的,我真的不知道
从
哪里开始。如果有人能和我分享一些细节,我会很感激的。谢谢。
浏览 6
提问于2021-12-05
得票数 1
1
回答
将分块的
dask
xarray乘以掩码
、
、
我有一个大型的(>100 GB) xarray
数据
集,其中包含天气预报
数据
(维度时间、预报步骤、纬度、经度,以及时间、纬度和经度上的
dask
块
),并希望计算出不规则形状
区域
(由维度
为
纬度和经度的二进制掩模数组定义这样做的天真方法是:但是,对于大多数(纬度、经度)
块
,该
区
浏览 10
提问于2019-07-29
得票数 4
1
回答
I/O是如何在达斯克进行的?
、
、
我是使用#
dask
进行
数据
分析的新手。我有一些关于#
dask
内部如何工作的问题。例如,它如何执行I/O?就像在HDF5中一样,它是在工人中还是在其他地方
并行
地完成HDF5?
浏览 0
提问于2020-08-06
得票数 0
回答已采纳
1
回答
为什么达斯克的"to_sql“比熊猫花了更多的时间?
、
、
、
、
我在ETL中使用
dask
而不是pandas,即从S3存储桶中读取CSV,然后进行一些所需的转换。Until here -
dask
读取和应用转换的速度比pandas快!最后,我使用to_sql将转换后的
数据
转储到Redshift。在
dask
中这个to_sql转储比在pandas中花费更多的时间。 有没有可能缩短这段时间?如果不是,为什么在这种情况下
dask
比熊猫慢?
浏览 2
提问于2021-09-27
得票数 1
1
回答
如何使用
Dask
从
google云存储中读取多个大CSV文件
块
而不同时重载内存
、
、
、
、
我试图
从
google存储中读取大量的csv文件(多个文件)。我使用
Dask
分发库进行
并行
计算,但我面临的问题是,虽然我提到了
块
大小(100 my ),但我不知道如何按分区读取分区并将其保存到postgres
数据
库中,这样我就不想让内存超载。from
dask
.distributed import Client client = Client(print(e)
浏览 0
提问于2019-06-30
得票数 2
回答已采纳
1
回答
在什么情况下,我可以使用
Dask
而不是Apache?
、
、
、
我目前正在使用Pandas和星火进行
数据
分析。我发现
Dask
提供
并行
化的NumPy数组和Pandas DataFrame。
Dask
提供
并行
数组、
数据
帧、机器学习和自定义算法。
Dask
对Python用户来说有一个优势,因为它本身就是一个Python库,所以当事情出错时,序列
浏览 4
提问于2016-08-10
得票数 101
1
回答
使用
Dask
读取
块
结构ASCII文件
我有一个
以
块
为
单位
的ASCII文件,结构如下(简化版):OBJTYPE "mesh2d"ND 4NAME "Depth"1.1 2.1 3.1 4.11.2 2.2 3.2 4.21.3 2.3 3.3 4.3 我们可以忽略标题行,每个
块
都是由定义时间步长的TS行开始的,后面跟着一个'ND‘值
浏览 1
提问于2018-08-07
得票数 1
1
回答
使用导致ArrowInvalid的
dask
并行
保存到同一个拼花文件
、
、
、
、
data[str(j)]= compute_some_other_stuff() 一旦我的dict data包含了我的模拟结果(在numpy数组下),我就把它转换成
dask
.DataFramedatafolder + i + "/", engine="pyarrow", append=True, ignore_divisions = True) 当只使用此代码一次,它就完美地工作了,当我试图
并行
地实现它时
浏览 6
提问于2022-03-16
得票数 0
回答已采纳
2
回答
如何用
Dask
编程模具
、
[2:,1:-1] + grid[1:-1,0:-2] + grid[1:-1,2:] ) / 5 但是,如果你的网格真的很大,它不会在你的记忆中修复,或者如果卷积运算真的很复杂,它将需要很长的时间,
并行
编程技术被用来克服这个问题像这样的工具使科学家能够
以
一种几乎透明的
并行
方式自行编写模拟程序。目前,达斯克不支持项目分配,所以,我如何编程一个模具与达克。
浏览 2
提问于2016-10-18
得票数 4
回答已采纳
5
回答
将大量
数据
从
BigQuery
加载
到python/大熊猫/
dask
、
、
、
、
我阅读了其他类似的帖子,并搜索谷歌,
以
找到更好的方法,但没有找到任何可行的解决方案。 我在BigQuery中有一个大表(假设每天插入2000万行)。我希望有大约2000万行
数据
,在python/大熊猫/
dask
中有大约50列的
数据
来做一些分析。
浏览 2
提问于2019-03-06
得票数 6
回答已采纳
1
回答
在需要计算
数据
列时使用
dask
进行
并行
计算
、
、
、
我有3.6亿记录的鸟群观测
数据
def yearday(r):import
dask
.datafr
浏览 0
提问于2018-09-12
得票数 1
回答已采纳
1
回答
Dask
阵列+ hdf5读取性能
我发现将这些
数据
表示
为
dask
数组(相对于h5py.File对象列表)是方便的
数据
索引,但是
从
磁盘
加载
数据
片非常缓慢。下面是一个示例,其中dsets是h5py.File对象的列表,x是由这些h5py.File对象构造的
dask
.array。
dask
数组的分块与h5py.File对象的
块
匹配。,0,0,0].compute()CPU times: user 2.72 s, sys: 187 ms,
浏览 4
提问于2017-09-09
得票数 2
1
回答
dask
read_parquet内存不足
我正在尝试读取一个很大的(内存不能容纳)镶木地板
数据
集,然后从中提取样本。
数据
集的每个分区都可以完美地存储在内存中。
数据
集在磁盘上大约有20 in的
数据
,分为104个分区,每个分区大约200Mb。我的假设是,
Dask
将
加载
它能处理的尽可能多的分区,
从
它们中采样,
从
内存中删除它们,然后继续
加载
下一个。或者类似的东西。相反,
从
执行图(104个
并行
加载
操作,在每个样本之后)来看,它似乎
浏览 66
提问于2019-09-25
得票数 0
2
回答
如何为tensorflow/pytorch
加载
大型多文件拼图文件
、
、
、
、
我正在尝试从一个目录中
为
tensorflow/pytorch将几个拼图文件
加载
到Python中。文件太大,无法通过pyarrow.parquet函数
加载
这就给了<code>D1</code>。我不确定如何将文件
加载
到Python中进行ML训练。如果能得到一些快速帮助,我们将非常感激。 谢谢Zash
浏览 12
提问于2020-03-15
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python数据预处理:使用Dask和Numba并行化加速
处理数据,大数据甚至更大数据的 17 种策略
(新版完结无密)Python 分布式爬虫与 JS 逆向进阶实战
几个方法帮你加快Python运行速度
为Python正名:语言本身不是瓶颈,可能是外部资源出了问题
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券