如何使用循环或并行计算将大数据输入python pandas？

、、、、

/data.csv"我想用python把文件分成8个小文件(“按id排序”)。最后，使用一个循环，这样输出文件将包含所有8个文件的输出。或者我想尝试并行计算。主要目标是在python pandas中处理8 8gb数据。谢谢。我的csv文件包含大量以'/‘作为逗号分隔符的<em

浏览 14提问于2017-07-06得票数 12

2回答

如何修复过滤数据帧时出现的内存错误？

、

在对数据帧进行简单过滤时，我得到了一个内存错误。在我的笔记本电脑重新安装windows10之前，我从来没有遇到过这个问题。我的csv文件不是很大，大约600 MB，我的RAM是16 GB。如何解决它？

浏览 0提问于2020-06-22得票数 0

1回答

如何将python并行计算(ipython-并行或多处理)的结果输出给熊猫数据？

、、、、

简单问题:我读过的所有教程都向您展示了如何使用ipython.parallel或多重处理将并行计算的结果输出到列表(或至多是字典)。你能给我举一个简单的例子，用两个库将计算结果输出给共享的熊猫数据吗？ --本教程向您展示了如何读取输入数据(下面的代码)，但是我将如何将4次并行计算的结果输出到一个数据中呢？import pandas</e

浏览 3提问于2015-05-21得票数 2

2回答

Julia Dataframes vs Python pandas

、、、

我目前正在使用python pandas，我想知道是否有一种方法可以将熊猫的数据输出到julia Dataframes中，反之亦然。(我想你可以用Pycall从Julia调用python，但我不确定它是否能处理数据帧)有没有办法从python调用Julia并让它接收panda的数据帧？(不保存为其他文件格式，如csv) 什么时候使用Julia Dataframes比使用Pandas

浏览 0提问于2014-04-27得票数 16

回答已采纳

1回答

使用Pandas处理Python中的大型SQL查询？

、、、、

我想对一些数据进行备份测试，这些数据将使用Python、psycopg2和Pandas从Postgres数据库中提取。将从Postgres提取的数据非常大(超过10 of )--即使Pandas数据帧能够存储这么多数据，我的系统也无法以RAM的形式保存这些数据。综上所述，我希望我的Python程序需要执行以下操作： 1:连接到远程(基于局域网) Postgres<

浏览 27提问于2017-11-02得票数 3

回答已采纳

1回答

如何使用R将大栅格写入到表或数据库中？

、、、、

我有几个GeoTIFF格式的大栅格。我将非常感谢您的帮助！

浏览 3提问于2016-02-25得票数 1

4回答

更快地读取csv文件

、

我目前正在读入一个很大的csv文件(大约100万行)，使用中描述的命令，例如：with open('eggs.csv', 'rb') as csvfile: spamreader

浏览 1提问于2016-10-07得票数 0

2回答

为什么要将TensorFlow用于卷积神经网络

、、

在那之后，我转向Python，使用Pandas，Numpy，Sklearn来实现ML算法。现在，当我在网上冲浪的时候，我遇到了tensorFLow，我发现它非常神奇，并实现了这个，它将MNIST数据作为输入。但是我不确定为什么要使用诸如库(TensorFlow)之类的库？我们没有做任何并行计算，因为在前一个时期更新的权重将在下一个时期使用？我发现很难找到使用这样的库的理由？

浏览 1提问于2017-01-05得票数 1

1回答

从表示多级字典的字符串创建Dask Dataframes

、、、

我有一个庞大的数据集，我正在尝试从字符串列表中创建dask数据帧A | B | Cimport ast df_.at[i,'B'] = ast.literal_eval(df_.number#Concat with master DF dat=pd.conca

浏览 1提问于2019-03-08得票数 0

2回答

python中大型数据集的高效条件验证

、、

我有一个简单/扁平的数据集，看起来像.value1a value1b value1c... valueNa首先，我认为验证这些数据的最有效方法是将lambda函数应用到我的dataframe中。

浏览 5提问于2021-03-30得票数 2

回答已采纳

1回答

从pandas数据框列中查找相交或最近的地理坐标

、、

我有一个熊猫数据帧中的经纬度，经度和地址。用户输入一个地址，我想根据最后的long从pandas数据帧中查找相关的详细信息。下面是我的代码： 'L

浏览 32提问于2021-11-22得票数 0

1回答

如何将python生成器转换为pandas* dataframe*

、、

我是python和pandas数据帧的新手，我正在努力地思考如何将python生成器转换为pandas数据帧。我想要做的是用这个函数将一个大表分成块，生成一个生成器： while True:if not results: for result in re

浏览 35提问于2018-07-19得票数 0

回答已采纳

2回答

以往和现在的平均行-潘达

其中avg_tot_assets =(上一年资产+当年资产)/2 df = data[['per_fisc_year',curr_portion_debt',

浏览 2提问于2017-04-24得票数 4

回答已采纳

1回答

Spark中的用户定义函数(UDF)是否在集群工作节点上并行运行？

、

假设我在python中创建了一个函数，所以将一个数字求幂为2： def squared(s):%sql select id, squaredWithPython(id) as id_squared from test 那么，如果数据分布在工作节点的内存上同样，在DataFrames中使用UDF也是如此。请注意

浏览 33提问于2019-10-10得票数 0

回答已采纳

2回答

对于这个操作，多处理是一个很好的解决方案吗？

、、

while True: OtherList[i] = (Numpy Array Calculation only using i_th element of arrays, Array_1, Array_2, and Array_3.) 可以分别计算OtherList和其他数组中元素的' number‘个数。然而，由于程序是时间相关的，我们不能继续进行进一步的工作，直到每‘数量’的

浏览 0提问于2011-10-29得票数 1

回答已采纳

1回答

在什么情况下，我可以使用Dask而不是Apache？

、、、

我目前正在使用Pandas和星火进行数据分析。我发现Dask提供并行化的NumPy数组和Pandas DataFrame。如果在使用Pandas、NumPy或其他使用Python的计算时，您在一台机器上遇到内存问题、存储限制或CPU边界，则Dask可以帮助您在一台机器上的所有核心上进行扩展Da

浏览 4提问于2016-08-10得票数 101

1回答

使用Pandas创建具有分支数据的数据集的ForLoop

、、

我想要创建一个具有此结构的数据集。这就像创建层次结构数据集一样。最后的数据集将有100x2x3x25= 15,000行数据。我在Pandas中使用Python (变量1有100个值)。在变量2的每个值中，变量3有3个变量，依此类推) dataset.iloc[i,4] = var

浏览 4提问于2017-09-20得票数 1

回答已采纳

2回答

将spark的MLLib例程与pandas数据帧一起使用

、、、

我有一个非常大的数据集(大约20 it )存储在磁盘上，名为Pandas/PyTables，我想在它上面运行随机森林和增强树。尝试在我的本地系统上做这件事需要很长时间，所以我想把它租给一个我可以访问的spark集群，而不是使用MLLib例程。虽然我已经设法将pandas数据帧加载为spark数据帧，但我对如何在MLLib例程中使用它感到有点困惑。我不太熟悉MLLib，它似乎只接受LabeledPoint<e

浏览 1提问于2015-05-06得票数 0

1回答

Python:从调用线程控制子进程

、、、、

我正在使用MongoDB作为API来处理Python夏娃的数据库接口。数据库存储几个文档，其中包含某些计算所需的参数和值。我编写了一个Python模块，它包含所有需要访问所需数据的计算例程。由于计算需要一段时间才能完成，所以我更倾向于多处理而不是多线程，以便使用多个核进行并发模拟(并行计算，每个核计算一个，但输入参数不同，而不是将一个计算拆分到多个核)。为了将这些并行计算作为自己

浏览 0提问于2015-12-17得票数 6

3回答

如何使MapReduce与HDFS协同工作

、、

我可能会编写一个MR代码，它可以将输入和输出作为HDFS的位置，然后我真的不需要担心hadoop/先生的并行计算能力(如果我错了，请纠正我)。但是，如果我的输入不是HDFS位置，比如我将一个mongodb://localhost:27017/mongo_hadoop.messages数据作为输入--运行映射器和减法器，并将数据存储回mongodb，那么HDFS将如何进入画面。我的意思是，

浏览 1提问于2014-10-23得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何修复过滤数据帧时出现的内存错误？

如何将python并行计算(ipython-并行或多处理)的结果输出给熊猫数据？

Julia Dataframes vs Python pandas

使用Pandas处理Python中的大型SQL查询？

如何使用R将大栅格写入到表或数据库中？

更快地读取csv文件

为什么要将TensorFlow用于卷积神经网络

从表示多级字典的字符串创建Dask Dataframes

python中大型数据集的高效条件验证

从pandas数据框列中查找相交或最近的地理坐标

如何将python生成器转换为pandas* dataframe*

以往和现在的平均行-潘达

Spark中的用户定义函数(UDF)是否在集群工作节点上并行运行？

对于这个操作，多处理是一个很好的解决方案吗？

在什么情况下，我可以使用Dask而不是Apache？

使用Pandas创建具有分支数据的数据集的ForLoop

将spark的MLLib例程与pandas数据帧一起使用

Python:从调用线程控制子进程

如何使MapReduce与HDFS协同工作

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐