我知道我可以加载一个包含数据块的文件:for chunk in pandas.read_csv("path_to_my_csv.csv", chunksize=1e9):# Process
其中,chunksize的值对应于每个“块”包含的行数。我想这样做的原因是能够在不同的机器上处理数据(有不同数量的可用内存),
一个常见的SQLism是"Select A,mean(X) from table group by A“,我想在pandas中复制这一点。假设数据存储在CSV文件中,并且太大而无法加载到内存中。如果CSV可以放在内存中,那么一个简单的两行代码就足够了:mean=data.groupby(data.A).mean()
当无法将(data.A).mean(