Python:以块为单位读取大型CSV

文章/答案/技术大牛

发布

1回答

要求:以块为单位读取大型CSV文件(>100万行) 问题:有时，即使文件具有唯一的行，生成器也会生成两次相同的行集。self.s3_bucket, self.s3_key, f_source.name) csv_reader= csv.reader(f, delimiter='|'

浏览 13提问于2020-09-30得票数 0

1回答

如何将Oracle Table按块方式导出为CSV？

、、

我有一个包含1000多万条记录的大型Oracle表。由于下载限制，我需要将oracle表通过set by set导出到CSV。有没有办法以块为单位下载表格？

浏览 27提问于2021-11-27得票数 0

2回答

Pandas:如何从大型csv文件中获取每个块的大小？

、

我有一个很大的csv文件，有几百万行。我想以块为单位读取csv，并将每个块的行数保存在dataframe中以供参考。chunk_size=50000 print(chunk.shape) 我想将每个块形状保存在

浏览 37提问于2021-08-06得票数 0

1回答

我有一个包含100000条记录的.csv文件，其中有5列。我逐行读取它，并将其存储在远程数据库中。以前，我遵循的是一种面向性能的方法。我逐行读取.csv文件，在同一事务中，我打开数据库连接并将其关闭。这会带来严重的性能开销。仅仅写10000行代码，就花了一个小时。出于测试目的，我采用了一个10000行的.csv文件，在读取所有10000行之后，我建立了一个到数据库的连接，并将其写入其中。现在，唯一的问题是:我想读取前10000行并写入它，类似地读取接

浏览 1提问于2015-07-24得票数 2

1回答

以块为单位读取大型文本文件

如果我能够一次读取文件，例如10K行，然后将每个块保存为RDS文件，我将能够循环结果并获得我需要的结果，尽管只是稍微慢一点，比在内存中保存整个内容更不方便。也许通过将其分成多个片段并读取每个片段，将其保存为数据帧，然后将其保存到rds？或者其他选择？GoogleNews-vectors-negative300-SLIM.bin" # from https://privefl.github.io/bigread

浏览 5提问于2018-10-08得票数 0

6回答

Python:以块为单位读取大文件

嘿，我有一个相当大的文件，我想使用Python来处理它，但是我有点卡住了，不知道该怎么做。我的文件格式如下：1个xxx xxxx xxxxx 所以我基本上想从0到1读入块，对其进行处理，然后转移到1到2之间的块。

浏览 0提问于2011-05-11得票数 4

2回答

使用PyArrow读取CSV

、

我有很大的CSV文件，我最终想要转换成拼图。由于内存限制和处理空值(在我的数据中很常见)的困难，Pandas不会提供帮助。我检查了PyArrow文档，有读取拼图文件的工具，但我没有看到任何有关读取CSV的内容。我是不是错过了什么，或者这个特性是否与PyArrow不兼容？

浏览 2提问于2018-09-20得票数 4

1回答

UnicodeDecodeError：'utf-8‘编解码器无法解码位置5中的字节0xf1 :无效的连续字节(在Python3上)

、、

我尝试使用Python导入csv文件，但得到以下错误： UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf1 in position 5:call last) 1 # Read in the data ----> 2 df = pd.read_csv('movies.csv') 这是我的代

浏览 23提问于2021-07-05得票数 0

1回答

异步等待循环在370次迭代后停止

、、、

我试图以块的形式加载一个大型csv文件(以GB为单位)。reader.nextLine(function(err, line) { console.log(line); dataArr.push(csv_parse

浏览 1提问于2017-09-18得票数 0

回答已采纳

7回答

有效地将CSV的最后n行读入DataFrame

、、、

有几种方法可以做到这一点：能用更简单的方法做吗？

浏览 26提问于2013-06-14得票数 27

回答已采纳

1回答

以块为单位读取文件

、、、

bzero(x, sizeof(x));如果文件字节大小不是5的倍数，则程序无法读取最后一个块。我如何确保也能读到它呢？

浏览 0提问于2016-03-10得票数 0

1回答

如何在没有REPL崩溃的情况下，高效、快速地将大型(6GB) .csv文件导入R中？

、

我有一个大型的.csv文件，需要导入到R中，以便对其进行一些数据操作。我使用的是read.csv(file.csv)方法，其中我将方法的结果分配给一些变量MyData。有没有一种方法可以高效、快速地处理/读取R中的.csv文件，而不会使终端崩溃？如果没有，我不是应该使用Python吗？

浏览 2提问于2017-08-09得票数 3

回答已采纳

1回答

以块为单位呈现大型HTML表

、

我正在编写一个基于Javascript的表格小部件，我希望它能够处理基本上无限数量的数据。为此，该表将仅在需要数据时(滚动到视图中时)发出Ajax请求。我的基本想法是可行的，但我正在努力解决的一个问题是调整表列的大小。我考虑在每次呈现表格时迭代表格单元格，并记住每列的“最大宽度”。仍然会有一些回流，但一旦你看到了最宽的td，它应该会停止。问题是，这似乎是一种笨拙的解决方案，我发现自己编写的代码比我想要处理的要多。

浏览 1提问于2012-09-14得票数 1

回答已采纳

1回答

从大型request_body中以块为单位读取数据

、、、

如何以块的形式阅读这个“img_data”？

浏览 34提问于2020-06-09得票数 0

回答已采纳

3回答

处理大型SQL select查询/以块为单位读取sql数据

、、、

我正在运行一个大型SQL select查询，它返回数百万个结果，并且需要很长时间才能完全运行。有人知道如何在不等待整个查询完成的情况下只读取查询返回的部分结果吗？换句话说，我希望在查询仍在运行并获得下一个结果的同时，通过10,000个记录块读取第一个记录。

浏览 1提问于2011-04-20得票数 9

回答已采纳

1回答

用Python读取位于亚马逊( S3 )上的大型CSV文件( 10条M+记录)，最有效的方法是什么？

、、、、

我一直在努力寻找从S3中读取大型csv文件( 10+，百万条记录)并对其中一列(总行数和平均值)执行几个简单操作的最快方法。Pandas读取csv: 92.36531567573547秒s3 = boto3.client('s3')use_column=['tip_amount']p

浏览 6提问于2021-02-14得票数 0

2回答

以区块为单位修改大型csv？

、、

当我尝试在块中添加列和修改标题名称等时，我得到一个错误'TypeError：'TextFileReader‘object’not support item assignment‘。我想添加一些简单的列(1或0值)，连接两个列以创建一个唯一的ID，更改其他列的数据类型，并重命名一些标题，以便它们与稍后将.merge的其他文件相匹配。我可能会拆分这个csv (也许选择日期范围并创建单独的文件)，但我想学习如何使用分块大小或处理大文件，而不会遇到内存问题。有没有可能以块的形式修改文件，然后将它们连接在一起？示

浏览 0提问于2014-10-08得票数 0

1回答