腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1209)
视频
沙龙
2
回答
保存文本
数据
的
大型
Pandas
df到磁盘崩溃Colab,因为耗尽了所有的RAM。有解决办法吗?
、
我有一个非常大
的
Pandas
数据
帧
,我想把它保存到磁盘上,以便以后
使用
。
数据
帧
仅包含字符串
数据
。然而,无论我
使用
哪种格式,保存过程都会导致我
的
Google Colab环境崩溃,因为除了
CSV
之外,所有可用
的
RAM都会用完,
CSV
甚至在5小时后都不会完成。 但这也破坏了环境。有没有办法把一个大
的
文本熊猫
数据
帧
保存
浏览 2
提问于2019-05-29
得票数 2
1
回答
如
何在
不
使用
csv
/
feather
/
parquet
文件
的
情况下
将
pandas
数据
帧
传
递给
R
?
、
、
我正在
使用
pandas
v1。说 from siuba.data import mtcars df = mtcars.copy(deep=True) 而且我有 如
何在
不经过
csv
/ rpy2 / df等外部
文件
的
情况下
将
羽毛传递到
R
这些解决方案不再有效,Rpy2:
pandas
dataframe can't fit in
R
浏览 6
提问于2020-03-25
得票数 1
7
回答
Python:
将
pandas
数据
帧
保存到拼图
文件
、
、
可以
将
pandas
数据
框直接保存到拼图
文件
中吗?如果没有,建议
的
流程是什么? 目标是能够
将
拼图
文件
发送给另一个团队,他们可以
使用
scala代码读取/打开该
文件
。谢谢!
浏览 0
提问于2016-12-10
得票数 27
2
回答
羽毛和地板有什么区别?
、
、
、
、
这两种格式都是用于
数据
分析系统
的
柱状(磁盘)存储格式。两者都集成在 (用于python
的
包)中,并被设计成与对应,作为一个在内存中
的
柱状分析层。import pyarrow as paimport pyarrow.
parquet
as pqprint('example_
浏览 3
提问于2018-01-03
得票数 171
回答已采纳
2
回答
Pandas
read_
csv
大
文件
性能改进
、
、
、
我想知道是否有一种方法可以提高
将
大型
csv
文件
读取到
pandas
数据
帧
中
的
性能。我有3个大
的
(每个3.5 it
的
记录)管道分隔
的
文件
,我想要加载到dataframe中,并在其上执行一些任务。目前,我
使用
pandas
.read_
csv
()在参数中定义cols和它们
的
数据
类型,如下所示。通过定义列
的</em
浏览 1
提问于2018-03-09
得票数 0
1
回答
在用于
数据
科学
的
Python中
使用
的
标准、稳定
的
文件
格式是什么?
、
、
我通常希望快速保存一些Python
数据
,但我也希望将其保存为稳定
的
文件
格式,以防日期久留。所以我有一个问题,我如何保存我
的
数据
?在
数据
科学中,我想存储三种
数据
--任意Python对象、numpy数组和
Pandas
数据
格式。--储存这些东西
的
稳定方法是什么?
浏览 4
提问于2020-08-25
得票数 0
回答已采纳
1
回答
我可以在不
使用
R
的
情况下
在python中将.rda
文件
转换为
pandas
数据
帧
吗?
、
、
、
、
我正在练习我
的
Python,特别是我
的
numpy和
pandas
。我有一些.rda格式
的
数据
(不是我
的
),我想将它们作为
数据
帧
导入到python中。然而,我不
使用
R
,所以我想知道我是否可以在
不
摆弄基本
文件
的
情况下
做到这一点。根据我在网站上看到
的
,
feather
已经被推荐,所以我尝试了以下方法: import <e
浏览 25
提问于2020-04-19
得票数 1
回答已采纳
5
回答
如何
将
数据
帧
列表从
R
导出到Python?
、
、
我目前正在处理
R
中
的
functional MRI
数据
,但我需要将其导入Python以进行更快
的
分析。我怎样才能有效地做到这一点呢? 我目前在
R
中有一个包含198135个
数据
帧
的
列表。它们都有5个变量和84个关于大脑区域之间连通性
的
观察。我需要在Python中显示相同
的
198135个
数据
帧
,以便在那里运行一些特定
的
分析(具有与
R
中相同
的</
浏览 2
提问于2019-04-17
得票数 2
7
回答
如何
将
Parquet
文件
读入
Pandas
DataFrame?
、
、
、
、
如
何在
不
设置集群计算基础设施(
如
Hadoop或Spark )
的
情况下
,
将
适度大小
的
Parquet
数据
集读入内存中
的
Pandas
DataFrame?这只是我想在内存中阅读
的
少量
数据
--在笔记本电脑上
使用
一个简单
的
Python脚本。
数据
不
驻留在HDFS上。它要么在本地
文件
系统上
浏览 22
提问于2015-11-19
得票数 146
回答已采纳
5
回答
如
何在
hdf5中有效地保存蟒蛇熊猫
的
数据
,并在
R
中将其作为
数据
打开?
、
、
、
、
我认为标题涵盖了这个问题,但我想澄清:[1] "frame" 这就引出了我
的
问题:理想
情况下
,我可以从
R<
浏览 6
提问于2012-09-05
得票数 14
2
回答
使用
Dask导入大型
CSV
文件
、
、
、
、
我正在
使用
Dask导入一个非常大
的
csv
文件
,大约680 am,然而,输出并不是我所期望
的
。我
的
目标是只选择一些列(6/50),并可能过滤它们(这一点我不确定,因为似乎没有
数据
?)dask.dataframe as dd file_path = "/Volumes/Seagate/Work/Tickets/Third ticket/Extinction/species_all.<
浏览 6
提问于2021-07-03
得票数 3
1
回答
Pandas
:跨多行
的
加载记录
、
、
我正在寻找一种标准
的
pythonic方法来
将
日志
文件
中
的
两种常见模式加载到
pandas
数据
帧
中。跨多行
的
记录: column_1: some data
浏览 1
提问于2018-07-06
得票数 1
1
回答
如何
使用
gzip模块打开
csv
文件
、
、
我希望读入一个与我
的
python脚本位于同一目录中
的
.
csv
.gz
文件
,只
使用
gzip和
pandas
模块。到目前为止,import
pandas
as pd如
何在
不
使用
csv
模块
的
情况下
将此
文件
转换/
浏览 1
提问于2021-03-16
得票数 2
2
回答
从
Pandas
Dataframe编写格式化
的
二进制
文件
、
、
、
我已经看到了一些在Python to
Pandas
中读取格式化二进制
文件
的
方法,也就是说,我正在
使用
下面的代码,这些代码
使用
NumPy从
使用
dtype给定
的
结构格式化
的
文件
中读取。import numpy as np input_file = open(input_file_namedo some
浏览 2
提问于2014-10-14
得票数 6
6
回答
读取
文件
夹中
的
多个拼板
文件
,并
使用
python写入单个
csv
文件
、
、
我是python
的
新手,我有一个场景,其中有多个按顺序排列
的
带有
文件
名
的
parquet
文件
。示例:
文件
夹中
的
par_file1、par_file2、par_file3等多达100个
文件
。我需要读取从file1开始
的
这些拼板
文件
,并将其写入单个
csv
文件
。在编写file1内容之后,file2内容应该附加到相同
的
csv
中,而不需要标
浏览 10
提问于2018-08-05
得票数 21
回答已采纳
13
回答
如何可逆地
将
Pandas
数据
帧
存储到磁盘或从磁盘加载
、
、
现在,我每次运行脚本时都会导入一个相当大
的
CSV
作为
数据
帧
。有没有一个好
的
解决方案可以让
数据
帧
在两次运行之间持续可用,这样我就不必花费所有的时间来等待脚本运行?
浏览 1
提问于2013-06-14
得票数 397
回答已采纳
1
回答
在python中读入
csv
时,你可以设置子集吗?
、
、
自1980年以来,我有
csv
格式
的
每日天气
数据
,大小超过10 in。我对date感兴趣
的
列,我希望能够让用户选择一个日期,以便只返回该日期
的
结果。我想知道是否可以同时读入和子集,以节省内存和计算d=pd.read_
csv
('weather.
csv
',sep='\t')['Date' == 'yyyymmdd'是否有可能读取仅在一天内存在
浏览 2
提问于2018-02-28
得票数 0
1
回答
在python中,从
R
data.table访问
数据
的
推荐方法是什么?我能避免
将
数据
写入光盘吗?
、
、
有什么推荐
的
方法可以
将
数据
从
R
(以data.table
的
形式)传递到Python,而不必将
数据
保存到磁盘中?我知道我可以
使用
使用
reticulate
的
R
中
的
python模块(我认为可以在另一边
使用
rpy2完成相同
的
事情),但是从我所读到
的
内容来看,损害了库
的
整体性能,因此很有可能存储到磁盘上
使用
python和运
浏览 0
提问于2020-08-18
得票数 11
回答已采纳
1
回答
并行化GZip
文件
处理火花
、
、
、
、
我假设我不能
使用
RDD基础结构来编写
Parquet
文件
,因为这都是在驱动程序上完成
的
,而不是节点本身。 我可以并行化
文件
名列表,编写一个处理本地Parquets并将它们保存回HDFS
的
函数。我完全意识到Spark可以将它们作为RDD读入,而不必担心压缩,我
的
问题是如何并行地
将
这些
文件
转换为结构化
Parquet
文件
。如果我知道如
何在
没有Spark本身
的
情况下
浏览 0
提问于2016-02-15
得票数 3
1
回答
pandas
在
csv
上提高OutOfBoundsDatetime,而不是在sql上
、
、
、
、
此服务从
数据
库读取
数据
并将快照存储为
csv
查询
的
结果是一个包含一些非常大
的
日期时间值
的
数据
帧
。(
如
3000-01-02 00:00:00)之后,我
使用
df.to_
csv
(index=False)创建
csv
快照并将其写入
文件
在安装了
pandas
0.25.3
浏览 18
提问于2019-11-08
得票数 1
回答已采纳
点击加载更多
相关
资讯
Pandas 2.0正式版发布:Pandas 1.5,Polars,Pandas 2.0 速度对比测试
10个Pandas的另类数据处理技巧
Pandas 2.0 简单介绍和速度评测
如何只用一行代码让Pandas加速四倍?
pandas 入门 1:数据集的创建和绘制
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券