Pandas有很好的.read_table()功能,但是文件太大会导致MemoryError。
因为我只需要加载满足特定条件的行,所以我正在寻找一种只加载这些行的方法。
这可以使用临时文件来完成:
with open(hugeTdaFile) as huge:
    with open(hugeTdaFile + ".partial.tmp", "w") as tmp:
        tmp.write(huge.readline())  # the header line
        for line in huge:
            if SomeCondition(line):
                tmp.write(line)
t = pandas.read_table(tmp.name)有没有办法避免这种使用临时文件的情况?
发布于 2013-02-27 00:18:51
可以使用chunksize参数返回迭代器
看看这个:http://pandas.pydata.org/pandas-docs/stable/io.html#iterating-through-files-chunk-by-chunk
(或者,您可以将它们写到新的csvs或HDFStores或其他任何位置)
https://stackoverflow.com/questions/15088190
复制相似问题