腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Dask
无法
使用
连接
的
数据
写入
拼图
pandas
、
dask
、
parquet
我正在尝试做以下几件事:
使用
pandas读取.dat文件,将其转换为
dask
数据
帧,并将其
连接
到我从
拼图
文件中读取
的
另一个
dask
数据
帧,然后输出到新
的
拼图
文件。在某些情况下,这是一个ETL进程,随着每天增加
的
数据
量,我很快就会耗尽历史
数据
集和组合
数据
集上
的
内存,所以我尝试将进程从pandas迁移到
Dask
,
浏览 26
提问于2020-06-13
得票数 1
1
回答
dask
.read_parquet导致OOM错误
python
、
parquet
、
dask
我一直在
使用
dask
对多个csv文件执行
数据
清理。在
使用
pandas
的
to_parquet()方法将csv文件转换为.parquet之后,我尝试了以下操作: cols_to_keep = ["barcode", "salesdate", "storecode我
的
.parquet文件不是问题所在,我可以
使用
pandas
的
read_parquet()方法加载这些文件。从
dask
实用程序中,
浏览 7
提问于2018-08-08
得票数 1
回答已采纳
2
回答
使用
dask
合并csv文件
python
、
dask
我是python
的
新手。我正在
使用
dask
读取5个大
的
(>1 GB) csv文件,并将它们合并(类似SQL)到一个
dask
数据
帧中。现在,我正在尝试将合并后
的
结果
写入
单个csv。我在
dask
dataframe上
使用
compute()将
数据
收集到单个df中,然后调用to_csv。但是,compute()在读取所有分区
的
数据
时速度很慢。我尝试在
dask
浏览 5
提问于2017-03-23
得票数 4
1
回答
concat在
dask
dataframe中是懒惰操作吗?
python
、
pandas
、
dask
、
dask-delayed
、
dask-dataframe
我正在
使用
dask
read_parquet读取一个文件列表,并将这些
数据
帧
连接
在一起,然后
写入
某个文件。在
连接
过程中,
dask
read是在
连接
时将所有
数据
写入
内存,还是只加载schema
的
连接
(我正在
使用
轴0进行
连接
) ?? 提前感谢
浏览 0
提问于2020-05-20
得票数 3
1
回答
如何
使用
dask
/
dask
-cudf将单个大型
拼图
文件读入多个分区?
dask
、
cudf
我正在尝试
使用
dask
_cudf/
dask
读取单个大
的
parquet文件(size > gpu_size),但它当前正在将其读取到单个分区中,我猜测这是从文档字符串推断出
的
预期行为:
dask
.dataframe.read_parquetstorage_options=None, engine='auto', gather_statistics=None, **kwargs): Read a Parquet file into a
D
浏览 18
提问于2019-10-18
得票数 3
回答已采纳
1
回答
当
数据
不能放入内存时,将
dask
数据
帧存储到
拼图
dask
、
parquet
我正在尝试将
dask
数据
帧
的
内容存储到
拼图
。
使用
read_sql_table从
数据
库中读取内容 import
dask
.dataframe as dddf.to_parquet(path) 当我这样做
的
时候,首先将所有
数据
读取到内存中。但是,由于整个
数据
集
无法
装入内存,内核最终会崩溃。如何将
数据</
浏览 23
提问于2020-07-02
得票数 0
2
回答
python
dask
to_parquet占用大量内存
python
、
dataframe
、
dask
、
parquet
、
fastparquet
我正在
使用
python 3和
dask
来读取
拼图
文件
的
列表,做一些处理,然后将它们全部放入一个新
的
联合
拼图
文件中供以后
使用
。该过程
使用
了如此多
的
内存,以至于它似乎试图在将所有
拼图
文件
写入
新
的
拼图
文件之前将它们读取到内存中。我正在
使用
下面的代码 import
dask
.dataframe as dd
浏览 107
提问于2019-08-04
得票数 2
1
回答
如何
使用
pyarrow存储自定义
拼图
数据
集元
数据
?
python
、
parquet
、
pyarrow
如何
使用
pyarrow将自定义元
数据
存储到ParquetDataset?例如,如果我
使用
Dask
创建了一个地块
数据
集 import
dask
dataset = pq.ParquetDataset('temp.parq'
浏览 48
提问于2021-09-10
得票数 7
1
回答
选择子集后将其转换为pandas时,
Dask
dataframe内存不足
python
、
python-3.x
、
pandas
、
dataframe
、
dask
所以我有一个包含160M记录和240列
的
拼图
文件。因此,我
使用
dask
在python中
使用
EMR CLuster m5.12xlarge加载它。
Dask
Name: concat, 489 tasks现在我正试着把它转换成pandas df。这只需要几秒
的
时间来执行,并
使用
大约1.5 GB
的
内存。现在,我试图通过计算将其转换为pandas
数
浏览 1
提问于2021-09-23
得票数 0
2
回答
如何在
dask
dataframe中设置(计算)分区?
python
、
dask
从
拼图
或csv文件加载
数据
时,具有无分区。
DASK
文档没有关于如何设置和计算此...
的
信息。 如何正确设置和计算
DASK
数据
帧
的
划分?
浏览 14
提问于2019-06-05
得票数 2
1
回答
PyArrow /
Dask
to_parquet分区所有空列
python
、
dask
、
parquet
、
pyarrow
在将
Dask
dataframe分区
写入
parquet时,我注意到reading_parquet在冲突
的
元
数据
/模式上失败。这是因为在一些分区中,列完全为空/ np.nan,而在另一些分区中,它们是用值填充
的
。在此之前,我已经转换了我
的
分区
的
数据
类型: df = df.astype(dtypes) PyArrow
无法
读取我
的
分区
拼图
文件,因为只有null
的
列被重
浏览 19
提问于2019-09-17
得票数 0
回答已采纳
1
回答
保存到SQL或从SQL加载
的
大型稀疏矩阵
数据
与Numpy文件
数据
python
、
sql-server
、
pandas
、
dask
、
pyodbc
保存到SQL或从SQL加载
的
大型稀疏矩阵
数据
与Numpy文件
数据
我想找到最快
的
方法来保存和加载我
的
矩阵分别当我
的
应用程序关闭和打开。我原本计划
使用
nu
浏览 1
提问于2020-10-10
得票数 1
2
回答
从
dask
dataframe保存多个地块文件
python
、
dask
、
parquet
我想从
Dask
dataframe中保存多个
拼图
文件,一个
拼图
文件用于特定列中
的
所有唯一值。因此,
拼图
文件
的
数量应该等于该列中唯一值
的
数量。例如,给定以下
数据
帧,我想保存四个
拼图
文件,因为在列"A“中有四个唯一
的
值。import pandas as pd { &
浏览 5
提问于2021-04-09
得票数 1
2
回答
有没有可能从python/pandas并行
写入
到Parquet中?
python
、
pandas
、
parquet
Parquet文件格式允许
数据
分区。还有一个非常新
的
项目fastparquet,它提供了python实现。问题是,如果我在两个单独
的
python进程中有两个具有相同模式
的
数据
帧,是否有可能将它们并行存储在parquet文件
的
两个单独
的
分区中?
浏览 0
提问于2017-03-04
得票数 1
3
回答
如何在
Dask
read_parquet函数中过滤不同分区
python
、
pandas
、
dask
、
parquet
我在从parquet文件加载
dask
数据
帧时遇到了问题。基本上,我将
拼图
文件存储到类别中:飞机名称(AIRCRAFT=name_aircraft)、序号(一个数字,用于标识飞机
的
每个任务: PROGRESSIVE=number)、年、月和日。当我尝试将拼接文件读取到
dask
数据
框中时,我成功地过滤了年份窗口和逐行窗口,但仅选择了一些飞机失败。,或者,例如,不在同一范围窗口中
的
不同累进数字(假设只有753,800和883 ),我
无法
正确加载
数据<
浏览 47
提问于2021-06-22
得票数 0
1
回答
Dask
在保存到镶木地板时
使用
所有内存
dask
、
dask-dataframe
我在
使用
dask
时遇到了问题。与熊猫相比,它非常慢,特别是在读取高达40G
的
大型
数据
集时。经过一些额外
的
处理后,
数据
集增长到大约计算列,其中主要是计算(这是相当慢
的
,特别是当我像这样调用float64:output = df[["date", "permno"]].compute(scheduler='threading')时) 我认为我可以忍受延迟,即使我很沮丧,但是,当我尝试将
数据
保存到p
浏览 3
提问于2021-09-21
得票数 0
1
回答
哪种方法最适合读取要处理为
dask
dataframe
的
拼图
文件
python
、
dask
、
parquet
、
pyarrow
、
dask-dataframe
我有一个目录与小镶木地板文件(600),我想做ETL
的
这些镶木地板和合并这些镶木地板到128mb
的
每个文件。处理
数据
的
最佳方式是什么?我是否应该读取
拼图
目录中
的
每个文件,并将其作为单个
数据
帧进行合并,然后执行groupBY?或者向dd.read_parquet提供
拼图
目录名称并对其进行处理?我感觉,当我逐个文件地阅读时,它创建了一个非常大
的
dask
图,不能作为一个图像。我猜它也能处理这么多数量
的
线程
浏览 9
提问于2020-05-19
得票数 0
2
回答
如何从
Dask
dataframe中选择n个等间距
的
行?
python
、
bigdata
、
dask
我有许多
拼图
文件,其中所有的块都太大了,
无法
放入内存。我想将它们加载到
dask
数据
框架中,计算一些结果( cumsum ),然后将cumsum显示为图。由于这个原因,我想从cumsum行中选择等间距
的
数据
子集(一些k行),然后绘制这个子集。我该怎么做呢?
浏览 9
提问于2020-02-25
得票数 0
1
回答
dask
.dataframe.read_parquet耗时太长
python-3.x
、
dask
我试着这样读s3上
的
拼图
:times = dd.read_parquet"profile_name": bucket_profile, engine='pyarrow',仅创建
dask
数据
帧就需要很长时间
浏览 2
提问于2019-05-14
得票数 3
1
回答
使用
dask
合并
数据
集证明是不成功
的
python
、
merge
、
concatenation
、
dask
、
dask-delayed
我正在尝试
使用
Python中
的
Dask
合并许多大型
数据
集,以避免加载问题。我想将合并后
的
文件另存为.csv。事实证明,这个任务比想象
的
要难:import
dask
.dataframe as ddimport os os.chdirdd_all.to_csv('*.csv'),我只需打印出两个原始
数据
浏览 1
提问于2018-11-15
得票数 0
点击加载更多
相关
资讯
使用JDBC时,无法连接远程MySQL数据库
数据库连接池DBCP的使用
AspenV8.4/8.6无法连接企业数据库的解决方法
数据库连接池c3p0的使用
使用VBA,如何建立一个MDB数据库的连接
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券