如何在不使用csv/feather/parquet文件的情况下将pandas数据帧传递给R？

文章/答案/技术大牛

发布

2回答

保存文本数据的大型Pandas df到磁盘崩溃Colab，因为耗尽了所有的RAM。有解决办法吗？

、

我有一个非常大的Pandas数据帧，我想把它保存到磁盘上，以便以后使用。数据帧仅包含字符串数据。然而，无论我使用哪种格式，保存过程都会导致我的Google Colab环境崩溃，因为除了CSV之外，所有可用的RAM都会用完，CSV甚至在5小时后都不会完成。但这也破坏了环境。有没有办法把一个大的文本熊猫数据帧保存

浏览 2提问于2019-05-29得票数 2

1回答

、、

我正在使用pandas v1。说 from siuba.data import mtcars df = mtcars.copy(deep=True) 而且我有如何在不经过csv/ rpy2 / df等外部文件的情况下将羽毛传递到R这些解决方案不再有效，Rpy2: pandas dataframe can't fit in R

浏览 6提问于2020-03-25得票数 1

7回答

Python:将pandas数据帧保存到拼图文件

、、

可以将pandas数据框直接保存到拼图文件中吗？如果没有，建议的流程是什么？目标是能够将拼图文件发送给另一个团队，他们可以使用scala代码读取/打开该文件。谢谢!

浏览 0提问于2016-12-10得票数 27

2回答

羽毛和地板有什么区别？

、、、、

这两种格式都是用于数据分析系统的柱状(磁盘)存储格式。两者都集成在 (用于python的包)中，并被设计成与对应，作为一个在内存中的柱状分析层。import pyarrow as paimport pyarrow.parquet as pqprint('example_

浏览 3提问于2018-01-03得票数 171

回答已采纳

2回答

Pandas read_csv大文件性能改进

、、、

我想知道是否有一种方法可以提高将大型csv文件读取到pandas数据帧中的性能。我有3个大的(每个3.5 it的记录)管道分隔的文件，我想要加载到dataframe中，并在其上执行一些任务。目前，我使用pandas.read_csv()在参数中定义cols和它们的数据类型，如下所示。通过定义列的</em

浏览 1提问于2018-03-09得票数 0

1回答

在用于数据科学的Python中使用的标准、稳定的文件格式是什么？

、、

我通常希望快速保存一些Python数据，但我也希望将其保存为稳定的文件格式，以防日期久留。所以我有一个问题，我如何保存我的数据？在数据科学中，我想存储三种数据--任意Python对象、numpy数组和Pandas数据格式。--储存这些东西的稳定方法是什么？

浏览 4提问于2020-08-25得票数 0

回答已采纳

1回答

我可以在不使用R的情况下在python中将.rda文件转换为pandas数据帧吗？

、、、、

我正在练习我的Python，特别是我的numpy和pandas。我有一些.rda格式的数据(不是我的)，我想将它们作为数据帧导入到python中。然而，我不使用R，所以我想知道我是否可以在不摆弄基本文件的情况下做到这一点。根据我在网站上看到的，feather已经被推荐，所以我尝试了以下方法： import <e

浏览 25提问于2020-04-19得票数 1

回答已采纳

5回答

如何将数据帧列表从R导出到Python？

、、

我目前正在处理R中的functional MRI数据，但我需要将其导入Python以进行更快的分析。我怎样才能有效地做到这一点呢？我目前在R中有一个包含198135个数据帧的列表。它们都有5个变量和84个关于大脑区域之间连通性的观察。我需要在Python中显示相同的198135个数据帧，以便在那里运行一些特定的分析(具有与R中相同的</

浏览 2提问于2019-04-17得票数 2

7回答

如何将Parquet文件读入Pandas* DataFrame？*

、、、、

如何在不设置集群计算基础设施(如Hadoop或Spark )的情况下，将适度大小的Parquet数据集读入内存中的Pandas DataFrame？这只是我想在内存中阅读的少量数据--在笔记本电脑上使用一个简单的Python脚本。数据不驻留在HDFS上。它要么在本地文件系统上

浏览 22提问于2015-11-19得票数 146

回答已采纳

5回答

如何在hdf5中有效地保存蟒蛇熊猫的数据，并在R中将其作为数据打开？

、、、、

我认为标题涵盖了这个问题，但我想澄清：[1] "frame" 这就引出了我的问题:理想情况下，我可以从R<

浏览 6提问于2012-09-05得票数 14

2回答

使用Dask导入大型CSV文件

、、、、

我正在使用Dask导入一个非常大的csv文件，大约680 am，然而，输出并不是我所期望的。我的目标是只选择一些列(6/50)，并可能过滤它们(这一点我不确定，因为似乎没有数据？)dask.dataframe as dd file_path = "/Volumes/Seagate/Work/Tickets/Third ticket/Extinction/species_all.<

浏览 6提问于2021-07-03得票数 3

1回答

Pandas:跨多行的加载记录

、、

我正在寻找一种标准的pythonic方法来将日志文件中的两种常见模式加载到pandas数据帧中。跨多行的记录： column_1: some data

浏览 1提问于2018-07-06得票数 1

1回答

如何使用gzip模块打开csv文件

、、

我希望读入一个与我的python脚本位于同一目录中的.csv.gz文件，只使用gzip和pandas模块。到目前为止，import pandas as pd如何在不使用csv模块的情况下将此文件转换/

浏览 1提问于2021-03-16得票数 2

2回答

从Pandas* Dataframe编写格式化的二进制文件*

、、、

我已经看到了一些在Python to Pandas中读取格式化二进制文件的方法，也就是说，我正在使用下面的代码，这些代码使用NumPy从使用dtype给定的结构格式化的文件中读取。import numpy as np input_file = open(input_file_namedo some

浏览 2提问于2014-10-14得票数 6

6回答

读取文件夹中的多个拼板文件，并使用python写入单个csv文件

、、

我是python的新手，我有一个场景，其中有多个按顺序排列的带有文件名的parquet文件。示例:文件夹中的par_file1、par_file2、par_file3等多达100个文件。我需要读取从file1开始的这些拼板文件，并将其写入单个csv文件。在编写file1内容之后，file2内容应该附加到相同的csv中，而不需要标

浏览 10提问于2018-08-05得票数 21

回答已采纳

13回答

如何可逆地将Pandas数据帧存储到磁盘或从磁盘加载

、、

现在，我每次运行脚本时都会导入一个相当大的CSV作为数据帧。有没有一个好的解决方案可以让数据帧在两次运行之间持续可用，这样我就不必花费所有的时间来等待脚本运行？

浏览 1提问于2013-06-14得票数 397

回答已采纳

1回答

在python中读入csv时，你可以设置子集吗？

、、

自1980年以来，我有csv格式的每日天气数据，大小超过10 in。我对date感兴趣的列，我希望能够让用户选择一个日期，以便只返回该日期的结果。我想知道是否可以同时读入和子集，以节省内存和计算d=pd.read_csv('weather.csv',sep='\t')['Date' == 'yyyymmdd'是否有可能读取仅在一天内存在

浏览 2提问于2018-02-28得票数 0

1回答

在python中，从R data.table访问数据的推荐方法是什么？我能避免将数据写入光盘吗？

、、

有什么推荐的方法可以将数据从R(以data.table的形式)传递到Python，而不必将数据保存到磁盘中？我知道我可以使用使用reticulate的R中的python模块(我认为可以在另一边使用rpy2完成相同的事情)，但是从我所读到的内容来看，损害了库的整体性能，因此很有可能存储到磁盘上使用python和运

浏览 0提问于2020-08-18得票数 11

回答已采纳

1回答

并行化GZip文件处理火花

、、、、

我假设我不能使用RDD基础结构来编写Parquet文件，因为这都是在驱动程序上完成的，而不是节点本身。我可以并行化文件名列表，编写一个处理本地Parquets并将它们保存回HDFS的函数。我完全意识到Spark可以将它们作为RDD读入，而不必担心压缩，我的问题是如何并行地将这些文件转换为结构化Parquet文件。如果我知道如何在没有Spark本身的情况下

浏览 0提问于2016-02-15得票数 3

1回答

pandas在csv上提高OutOfBoundsDatetime，而不是在sql上

、、、、

此服务从数据库读取数据并将快照存储为csv查询的结果是一个包含一些非常大的日期时间值的数据帧。(如3000-01-02 00:00:00)之后，我使用df.to_csv(index=False)创建csv快照并将其写入文件在安装了pandas 0.25.3

浏览 18提问于2019-11-08得票数 1

回答已采纳

点击加载更多

保存文本数据的大型Pandas df到磁盘崩溃Colab，因为耗尽了所有的RAM。有解决办法吗？