腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
对
Dask
dataframe
中
的
现有
索引
设置
分区
如果我有一个已经被
索引
的
Dask
dataframe
(None, None)1A.reset_index.set_index("index", divisions=sorted(divisions)) 因为A.repartition(divisions=sorted(divisions))抱怨“新旧部门
的
左
浏览 2
提问于2017-12-17
得票数 3
回答已采纳
1
回答
带有无序
索引
的
dataframe
会导致无声
的
错误吗?
、
dask
.
DataFrame
周围
的
方法似乎都确保
索引
列是排序
的
。但是,通过使用from_delayed,可以构造具有
索引
列
的
dataframe
,该列没有排序:组合
索引
是<e
浏览 1
提问于2016-12-21
得票数 3
回答已采纳
1
回答
达克:写/读后
的
不同意指标
、
、
、
我有一只熊猫
DataFrame
,df,我把它变成了
DataFrame
,
dask
_dfimport
dask
.
dataframe
as dd
dask
_df = dd.from_pandas(df, npartitions=1) 当我把
dask
_df<
浏览 1
提问于2019-09-16
得票数 1
1
回答
Dask
读取CSV,将
分区
设置
为CSV长度
、
、
、
我正在编写代码,这些代码将从一组名为my_file_*.csv
的
CSV读取到
dataframe
中
。我尝试重置
索引
,然后根据每个CSV
的
长度来
设置
分区
,但看起来
Dask
dataframe
的
索引
并不
浏览 5
提问于2017-03-31
得票数 6
回答已采纳
3
回答
`set_index`可以将一个
索引
放入多个
分区
吗?
、
、
、
从经验上看,每当您在
dataframe
上使用set_index时,
Dask
总是会将具有相同
索引
的
行放入单个
分区
中
,即使它会导致严重不平衡
的
分区
。下面是一个演示:import
dask
.
dataframe
as dd df= pd.
DataFrame
({'user
浏览 1
提问于2021-10-14
得票数 6
回答已采纳
2
回答
如何在
DataFrame
中
创建唯一
的
索引
?
、
、
、
、
想象一下,我有一个来自
Dask
DataFrame
的
read_csv,或者创建了另一种方式。reset_index在每个
分区
中
构建一个单调上升
的
索引
。这意味着(0,1,2,3,4,5,.)对于
分区
1,(0,1,2,3,4,5,.)对于
分区
2,(0,1,2,3,4,5,.)用于
分区
3等等。我希望为
dataf
浏览 0
提问于2019-06-06
得票数 6
回答已采纳
1
回答
在加载多个拼花文件时保留
dask
数据
分区
、
、
、
我有一些以时间为
索引
的
数据帧
中
的
时间序列数据。
索引
被排序,数据存储在多个拼花文件
中
,每个文件中有一天
的
数据。我使用
dask
2.9.1在我
的
实际数据
中
,我有一个拼花文件公关日。 文件是通过从使用时间戳作为
索引
浏览 1
提问于2020-01-02
得票数 1
回答已采纳
2
回答
索引
到
Dask
系列可以返回
Dask
系列
、
、
我有
Dask
系列
的
Dask
数据帧。但是,使用loc[0]会导致另一个
dask
系列。使用to_frame也不起作用,因为结果是"
Dask
系列
Dask
数据帧
的
Dask
数据帧“。下面是一个使用
Dask
系列Pandas数据帧
的
最小示例(不完全相同,但说明了问题): import pandas as
浏览 3
提问于2020-02-03
得票数 1
1
回答
如何在
Dask
中
获取从拼图文件读取数据帧
的
单行值?
、
问题:
DASK
数据帧返回多行
的
pandas数据帧,每行都有相同
的
索引
:我正在阅读许多拼图文件:拼图文件
中
的
每一行都有一个数组似乎在调用具体行时,
浏览 48
提问于2019-06-05
得票数 0
1
回答
为什么默认情况下
dask
()只检查第一个
分区
?
、
、
、
dask
版本1.1.4过滤后
的
dask
.
dataframe
似乎将行保留在原始
分区
中
。如果一个
分区
的
所有行都被过滤掉,那么
分区
将保持为空,但仍保留在生成
的
dask
.
dataframe
中
。如果len(第一个
分区
)<
浏览 0
提问于2019-07-03
得票数 1
回答已采纳
1
回答
为什么只使用工人?
、
、
我正在通过运行一个本地集群,在我
的
笔记本电脑上运行一个有四个工作人员
的
本地集群来尝试
Dask
。我在工人之间分发Pandas数据,但是当我在他们上运行一个函数时,我从仪表板上看到,实际上只使用了其中
的
一个。from distributed import Clientdd = client.scatter(df, broadcast=True) # df is a pandas
Da
浏览 0
提问于2019-05-03
得票数 0
回答已采纳
1
回答
使用从拼花文件创建
的
dataframe
时内存使用量过高
、
1)因此,我
的
问题是,为什么这些简单
的
操作会使用
Dask
Dataframe
来破坏内存
的
使用,但是当我使用Pandas
Dataframe
将所有内容加载到内存
中
时却能很好地工作?我注意到了npartitions=1,我在文档中看到read_parquet“将Parquet数据目录读取到
Dask
.
dataframe
中
,每个
分区
只有一个文件”。在我
的
例子
中
,听起来我正
浏览 0
提问于2018-12-24
得票数 6
回答已采纳
3
回答
AttributeError:'
DataFrame
‘对象没有属性'sort_values’
、
、
、
、
我只是想通过一个特定
的
列来订购
dataframe
。my_ddfnpartitions=1 headers .....这是df.sort_values(columns, ascending=False).head(n)pandas官方
dask
文档
中
的
一个例子--只有pandas --
DASK
答案-- --我不想把它
设置
为
索引
,因为我只想拥有当前
的
索引</em
浏览 5
提问于2021-01-27
得票数 2
回答已采纳
2
回答
提取具有非唯一
索引
列日期
的
Dask
数据帧
中
的
最新值。
、
、
我非常熟悉熊猫
的
数据格式,但是我
对
Dask
非常陌生,所以我仍然试图把我
的
代码并行化。我已经用熊猫和熊猫获得了我想要
的
结果,所以我想弄清楚
的
是,我是否可以扩大任务
的
规模,或者用达斯克来加速它。假设我
的
dataframe
有日期时间作为非唯一
索引
、值列和id列。在我
的
例子
中
,有时
索引
值并不是唯一
的
,所以作为一个平手,我想使用id列。具有最大id数<em
浏览 2
提问于2021-12-16
得票数 3
回答已采纳
2
回答
将list或numpy数组作为列添加到
dask
dataframe
、
如何将列表或numpy数组作为列添加到
dataframe
中
?当我尝试使用常规
的
熊猫语法df['x']=x时,它会给我一个TypeError: Column assignment doesn't support type list错误。
浏览 14
提问于2022-08-20
得票数 0
1
回答
使用
dask
模块读取大型txt文件
、
、
我正在尝试使用
dask
读取大量数据,如下所示虽然这很好用,并且我得到了一组
分区
,但由于某些原因,每当我尝试
设置
和
索引
时,如下所示: df = dd.read_csv('some_file.txt', sep = '|', header
浏览 3
提问于2016-03-18
得票数 0
1
回答
dask
索引
的
行为不像列(也不像pandas
中
的
那样)
、
在这个bug报告
中
:https://github.com/
dask
/
dask
/issues/8319我有一个解决以下问题
的
方法。由于这似乎超出了该bug报告
的
范围,因此我将在这里询问最初
的
问题: import pandas as pddf = pd.
DataFrame
version ddf = <e
浏览 25
提问于2021-11-02
得票数 0
回答已采纳
3
回答
将Pandas DataFrames
中
的
Dask
包转换为单个
Dask
DataFrame
、
、
、
问题综述我怎样才能从一袋潘达斯DataFrames变成一只达克
DataFrame
?长版最小工作示例impo
浏览 10
提问于2019-12-13
得票数 3
回答已采纳
1
回答
如何在
Dask
中
对
级联数据进行复位
索引
、
、
、
、
我
对
达斯克并不熟悉,我认为这将是一个简单
的
任务。我希望从多个csv文件中加载数据,并将其合并到一个
Dask
数据框架
中
。在本例
中
,有5个csv文件,每个文件包含10,000行数据。显然,我想给合并
的
dataframe
一个唯一
的
索引
。所以我做了这个:dataframes =
浏览 1
提问于2020-04-23
得票数 3
回答已采纳
1
回答
dask
.read_parquet导致OOM错误
、
、
我一直在使用
dask
对
多个csv文件执行数据清理。import Client cols_to_keep = ["barcode", "salesdate", "storecode", "quantity我
的
.parquet文件不是问题所在,我可以使用pandas
的
read_parquet()方法加载这些文件。从
dask
实用程序
中</em
浏览 7
提问于2018-08-08
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何对 dataframe中的某一列数据 开根号呢?
有什么方法才能让搜索引擎对网站的图片更加青睐!中
如何管理Spark的分区
24招加速你的Python,超级实用!
肝了3天,整理了90个Pandas案例
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券