从大数据集创建数据帧，而不将其加载到驱动程序上

、

由于驱动程序内存不足，我需要将大型数据集转换为dataframe。该数据是从HTTP请求/响应接收的。(dataFromHttp不应该加载到驱动上)

浏览 6提问于2019-12-19得票数 1

1回答

使用pd.read_csv忽略仅包含缺少值的列

、、、

我已经创建了一个使用pd.read_csv读入数据的应用程序。我们得到的一些数据集的列只包含缺少的值(空单元格)。有没有办法使用pandas而不将这些列加载到数据帧中？由于数据集可能非常大，因此在预加载阶段忽略它们会更方便。当然，我可以将它们从excel表格中删除，但我的目标是使数据加载尽可能自动化。

浏览 20提问于2020-04-30得票数 0

1回答

Dask DataFrame能和大熊猫DataFrames一起工作吗？

、、

我想使用Dask来处理大型数据帧。然而，当我尝试使用它时，我得到了一个内存错误，如下所示。({'x': my_very_large_array}) ddf = dask.dataframe.from_pandas(df, npartitions=100) 我认为Dask应该处理比内存更大的数据

浏览 7提问于2019-03-06得票数 0

回答已采纳

1回答

将psycopg2查询结果写入pyspark dataframe

、、

有没有一种方法可以使用psycopg2库直接将表的内容从postgresQL数据库中提取到pyspark数据帧中？到目前为止，网上的解决方案只讨论了使用熊猫数据帧。但对于spark中非常大的数据集，这是不可能的，因为它会将所有数据加载到驱动程序节点。conn.cursor() cur.execute("select * from database.table limit

浏览 28提问于2021-09-27得票数 0

回答已采纳

2回答

Spark中的数据帧列表

、

在Spark中创建数据帧列表是否可取？方法读取x个文件以从中创建x个数据帧。这些数据帧被推送到列表中。此方法从驱动程序调用，并返回通过在列表中联接数据集而创建的单个数据框。我搞不懂这个列表将在哪里形成，是在驱动</e

浏览 11提问于2019-07-13得票数 1

2回答

以分布式方式读取Spark中的CSV文件

、、

我正在开发一个Spark处理框架，它读取大型CSV文件，将它们加载到RDD中，执行一些转换，最后保存一些统计数据。当我使用sparkContext.textFile()函数加载文件时，是否需要首先将文件存储在驱动程序的内存中，然后将其分发给工作人员(因此需要在驱动程序上占用相当大的内存)？或者，文件由每个员工“并行”读取，在某种程度上，他们都不需要存储整个文件，而驱

浏览 0提问于2017-02-10得票数 7

回答已采纳

2回答

有没有办法将本地数据集文件夹直接从google drive加载到google colab？

、、

see the image carefully我无法加载自定义数据文件夹从谷歌驱动器到谷歌colab.though我安装谷歌drive.like而不是MNIST数据集，我想加载我自己的图像数据集文件夹假设我在google drive.how中有图像数据集，以便将其加载到google colab？cat /content/gdrive/My\ Drive

浏览 3提问于2018-12-13得票数 0

1回答

Spark RDD到Dataframe

、、

下面是文件中的数据1|C1|IDD|NA20|C3|IDDD|NA| 20|C3|IDDD|NA|| 30|C5|IDDD|NA|我无法将其转换为具有确切表格形式的数据

浏览 0提问于2019-04-03得票数 0

1回答

将存储为Azure Blob的CSV直接加载到Pandas数据帧中，而不首先保存到磁盘

、、

探索了与熊猫 ()一起存储的Azure存储中的数据，展示了如何将数据从Azure blob商店加载到Pandas数据框架中。他们首先下载blob并将其本地存储为CSV文件，然后将该CSV文件加载到数据帧中。CONTAINERNAME, BLOBNAME, LOCALFILENAME)是否有一种方法可以直接将blob拉到数据<em

浏览 0提问于2019-11-22得票数 1

3回答

在同一个df中扩展

、、、、

我正在寻找基于任何数字的扩展数据集，例如，(5)import pandas as pdprint (df)df = pd.DataFrame({"X": ["A", "A&qu

浏览 4提问于2022-08-11得票数 0

回答已采纳

2回答

、、、、

我有一个从数据仓库中提取的非常大的数据集。要将数据集下载到我想要运行lme4的机器上，需要很长时间。我想知道是否可以将数据处理成协方差矩阵，下载该数据(小得多)，并将其用作lme4的数据输入。我已经使用SAS为多个回归模型做了类似的事情，我希望我可以为lme4创建这种类型的输入。谢谢。

浏览 9提问于2013-02-06得票数 0

2回答

加载tensorflow图像并创建补丁

、、、

我使用将一个非常大的RGB图像数据集从磁盘加载到一个中。<directory>, seed=1, validation_split=0.1) 例如，该数据集有因此，我想要创建一个新的数据集，该数据集的400000个补丁仍在32的批处理中，其中包含一

浏览 5提问于2020-10-12得票数 2

回答已采纳

1回答

尽量避免收集

、、、

我发现，对于任何使用spark的人(在我使用Scala的例子中)，一个普遍的建议是避免任何将所有数据从执行程序获取到驱动程序的操作(收集、计数、求和等)。然而，当我尝试使用星火统计库时，我发现关联矩阵和ChiSquareTest方法期望数组或矩阵作为它们的参数，因此，如果我想使用这个函数，我就无法避免对数据进行收集(以及一些更多的操作，以使向量不属于行类型

浏览 3提问于2020-07-13得票数 2

回答已采纳

1回答

如何处理pandas中的聚合数据？

、

我有一个数据集，如下所示： 1 3 6 9我无法将其加载到熊猫数据帧中，因为它太大了。因此，我使用Spark聚合数据以形成： 1 2 4 1 9 1 ..并将其加载到熊猫数据帧中。&q

浏览 0提问于2018-09-18得票数 1

3回答

从pandas.HDFStore表中选择列

、、

如何从pandas HDFStore中检索特定列？我经常处理非常大的数据集，这些数据集太大，无法在内存中操作。我想迭代地读入csv文件，将每个块附加到HDFStore对象中，然后处理数据的子集。我读入了一个简单的csv文件，并使用以下代码将其加载到HDFStore中：chunker = pd.read_csv('cars.csv',所提

浏览 1提问于2012-12-18得票数 18

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用pd.read_csv忽略仅包含缺少值的列

Dask DataFrame能和大熊猫DataFrames一起工作吗？

将psycopg2查询结果写入pyspark dataframe

Spark中的数据帧列表

以分布式方式读取Spark中的CSV文件

有没有办法将本地数据集文件夹直接从google drive加载到google colab？

Spark RDD到Dataframe

将存储为Azure Blob的CSV直接加载到Pandas数据帧中，而不首先保存到磁盘

在同一个df中扩展

PySpark:拉取数据到驱动，然后上传到dataframe

根据R数据框中的条件使用R查询MS SQL

在AWS Lambda中使用EFS (内存问题)

大型xdf文件上的随机森林，无需读取数据帧

星火DataFrame如何处理比内存更大的潘达斯DataFrame

有没有办法把协方差矩阵(或类似的东西)输入到R中的lme4中？

加载tensorflow图像并创建补丁

尽量避免收集

如何处理pandas中的聚合数据？

从pandas.HDFStore表中选择列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐