我有多个csv,所以我使用了glob和read_csv,将每个csv追加到一个列表中,然后将它们连接起来。 allfiles = glob.glob("*.csv", ) for file in allfiles :
dataframes.append(pd.read_csv(file, sep=";", deci
我知道有一些关于这个主题的问题,但我似乎不能有效地进行。我的机器上运行着包含8GB of memory的大型输入数据集(2-3 GB)。我使用的是安装了pandas 0.24.0的spyder版本。本质上,我将输入文件chunk成较小的片段,通过一些代码运行它,然后导出较小的输出。然后我删除分块的信息以释放内存。但在整个操作过程中,内存仍然会不断积累,最终会花费类似的时间。但是每个文件的标头是不同<