腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
使用
Python
将
Dask
Dataframe
转
换为
Spark
dataframe
、
、
、
、
我想将
Dask
Dataframe
转
换为
Spark
Dataframe
。让我们考虑这个例子:
dask
_df = dd.read_csv("file_name.csv")
spark
_df =
spark
_session.createDataFra
浏览 18
提问于2021-02-25
得票数 0
2
回答
保存文本数据的大型Pandas df到磁盘崩溃Colab,因为耗尽了所有的RAM。有解决办法吗?
、
我有一个非常大的Pandas数据帧,我想把它保存到磁盘上,以便以后
使用
。数据帧仅包含字符串数据。然而,无论我
使用
哪种格式,保存过程都会导致我的Google Colab环境崩溃,因为除了CSV之外,所有可用的RAM都会用完,CSV甚至在5小时后都不会完成。from sqlalchemy import create_engine engine = sqlalchemy.create_engine("sqlite:///database.db&qu
浏览 2
提问于2019-05-29
得票数 2
1
回答
如何
将
dask
数据交换(
将
列转
换为
行)以接近整洁的数据原则
、
、
、
、
TLDR:我从一个
dask
包创建了一个
dataframe
。
dask
dataframe
将
每个观察(事件)作为一列对待。因此,我没有为每个事件设置行数据,而是为每个事件设置了一列。其目标是
将
列转
换为
行,就像熊猫可以
使用
df.T转换数据格式一样。 Details:我有。为了达到我的起点,下面是
将
json从磁盘读入
dask
.bag并将其转
换为
dask
.
dataframe
浏览 7
提问于2016-08-04
得票数 4
回答已采纳
1
回答
使用
python
不可靠行为从read_csv中提取数据
、
、
我知道,
使用
engine='c',我不能
使用
多哈尔分隔符,但是切换到engine='
python
'会导致不可预测的结果。因此,在上面的函数中,我改变了:engine="
python
"和sep=" \]\[ "。这适用于我测试的一个小样本数据。sep=" \]\[ ", na_filter=False,
浏览 1
提问于2020-05-28
得票数 1
2
回答
无法在google上安装
dask
、
、
、
我
使用
pip方法在google实验室安装。但我不知道它为什么不起作用。;
python
_version < "3.8" in /usr/local/lib/
python
3.7/dist-packages (from fsspec>=0.6.0->
dask
[
dataframe
python
3.7/dist-packages (from pandas>=0.25.0; extra == &q
浏览 4
提问于2021-03-27
得票数 1
1
回答
从元组的
python
列表中提取
dask
dataframe
、
、
、
我想从一个元组的
python
列表中创建一个
dataframe
。在熊猫中,您可以
使用
DataFrame
.from_records
将
元组列表转
换为
数据格式。什么功能可以给我同样的功能在达克。我的数据有点像这样 import
dask
import
da
浏览 0
提问于2018-10-16
得票数 3
回答已采纳
2
回答
在熊猫(
python
)中,能不能将星星之火(scala)转换成数据(
Python
)
、
、
、
Dataframe
是
使用
scala创建的。val someDF =
spark
.createDataFrame(
spark
.sparkContext.parallelize(someData), StructType(someSchema) )PySpark提供了.toPandas()来
将
火花数据转换成熊猫,但是scala(我可以找到)并没有对应的数据。
浏览 1
提问于2020-04-05
得票数 0
回答已采纳
3
回答
将
Pandas DataFrames中的
Dask
包转
换为
单个
Dask
DataFrame
、
、
、
长版最小工作示例"gender","race/ethnicity",&q
浏览 10
提问于2019-12-13
得票数 3
回答已采纳
1
回答
使用
dask
.bag和pandas.
DataFrame
将
字典的
dask
.delayed转
换为
dask
.
dataframe
、
我正在努力
将
字典的
dask
.bag转
换为
dask
.delayed pandas.DataFrames,使之成为最终的
dask
.
dataframe
我有一个函数(make_dict)
将
文件读入相当复杂的嵌套字典结构,另一个函数(make_df)
将
这些字典转
换为
pandas.
DataFrame
(由此产生的数据为每个文件大约100 mb )。但是,对于以后的工作,我想
使用
dask
.ba
浏览 3
提问于2019-03-22
得票数 5
回答已采纳
3
回答
将
一个大型
Dask
dataframe
与一个小型Pandas
dataframe
合并
、
、
下面的示例是:,我试图
将
一个~70 as的
Dask
数据帧与我作为Pandas数据frame加载的~24 as数据帧合并。合并位于两个列A和B上,我没有设置任何索引:from
dask
.diagnostics import ProgressBar large_df = dd.read_csv(
dataframe
2) #as
浏览 16
提问于2016-09-13
得票数 26
1
回答
将
dask
系列转
换为
dask
数据帧
、
我想知道如何
将
dask
.
dataframe
.core.Series转
换为
dask
数据帧。我有: type(card_id_pur_freq) 输出:
dask
.
dataframe
.core.Series 我试过了: card_id_pur_freq = dd.
DataFrame
(card_id_pur_freqTraceback (most recent call last) <ipython-input-36-bd6cdab52455>
浏览 19
提问于2019-01-27
得票数 2
回答已采纳
1
回答
从
dask
dataframe
提供程序收集属性
、
、
TL;DR:我如何从分布式读取中收集元数据(解析期间的错误)到
dataframe
集合中。 目前,我有一种专用的文件格式,用于输入
dask
.
DataFrame
。我有一个函数,它接受一个文件路径并返回一个pandas.
DataFrame
,
dask
.
DataFrame
成功地在内部
使用
该函数
将
多个文件加载到同一个
dask
.
DataFrame
。直到最近,我还在
使用
自己的代码
将
几个pandas
浏览 7
提问于2016-01-26
得票数 2
回答已采纳
1
回答
.join在dataframes中的结果似乎取决于该方法,生成了
dataframe
、
、
在
将
join应用于.from_delayed方法生成的
dask
数据文件时,我得到了意想不到的结果。我想通过下面的示例演示这一点,该示例由三个部分组成。通过from_delayed方法生成
dataframe
,并将其与通过from_pandas生成的
dataframe
连接
将
通过from_delayed方法生成的
dask
数据转
换为
使用</
浏览 0
提问于2016-07-17
得票数 2
回答已采纳
1
回答
与丹克/潘达斯和火花公子的地板兼容性
、
、
、
、
尝试:我尝试
将
一个
dataframe
保存为拼花格式,然后用火花读取它。问题:时间戳列不能由pyspark解释我尝试
将
hfds中的
dataframe
保存为dd.to_parquet(ddf_param_logs, 'hdfs:///user/<myuser>/<filename>', engine='pyarrow
浏览 4
提问于2020-01-28
得票数 2
回答已采纳
1
回答
Zeppelin: Scala
Dataframe
to
python
、
、
、
如果我有一个带有
DataFrame
的Scala段落,我可以在
python
中分享和
使用
它吗?(据我所知,pyspark
使用
)Scala段落:z.put("xtable", x )%pyspark eval(compiledCode) File "<string>", line 15, in <modu
浏览 8
提问于2016-03-01
得票数 14
回答已采纳
1
回答
不
使用
dask
dataframe
获取
dask
数组的唯一行
、
、
是否有一种方法可以获得比可用内存更大的
dask
数组的唯一行?理想情况下,无需将其转
换为
dask
DataFrame
?。我目前
使用
这种方法import
dask
.
dataframe
as dd ddf = dd.from_
dask
_array(dx) ddf = ddf.
浏览 0
提问于2018-11-20
得票数 5
回答已采纳
1
回答
火花df、拼花物体和熊猫df之间的转换
、
、
在创建火花会话之后,我运行了以下代码
spark
_df.select('*').toPandas(我需要火花df和熊猫df的原因是,对于一些较小的
DataFrame
,我想很容易地
使用
各种熊猫EDA函数,但对于一些较大的,我需要
使用
火花sql。首先,把地板转向熊猫,然后再点燃df,这似乎有点迂回。
浏览 3
提问于2019-10-20
得票数 0
1
回答
从字典创建
dask
数据帧
、
, 'Term': 'unique_tokens', 'LocalFreq': 'local_freq_list','CorpusFreq': 'corpus_freq_list'} 我想从它创建一个
dask
通常,在Pandas中,可以通过以下方式轻松地
将
is导入Pandas df: df = pd.
DataFrame
({'Caps': cap_list, 'Term': uniqu
浏览 28
提问于2019-12-17
得票数 3
1
回答
如何在pyspark中将DenseMatrix转
换为
spark
DataFrame
?
、
、
除了下面
使用
Scala的示例之外,我没有找到任何用于
将
矩阵转
换为
spark
dataframe
的pyspark代码。有人知道如何
使用
python
吗?How to convert a mllib matrix to a
spark
dataframe
?
浏览 61
提问于2019-01-09
得票数 1
回答已采纳
1
回答
如何从
dataframe
、pyspark或sql中删除停止词?
、
、
、
例如,我有这个数据。df = data.toDF(&
浏览 4
提问于2022-02-02
得票数 0
点击加载更多
相关
资讯
使用Python逐行处理DataFrame
使用Spark将本地文件读取并封装为DataFrame的完整指南
Python使用DataFrame打印指定列的方法
Python中使用DataFrame生成相关系数矩阵的方法
将dataframe数据中的月份的英文名转换为数字月份,比如 ‘July’ 转换为'07?
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
云直播
活动推荐
运营活动
广告
关闭
领券