我正在寻找一种大规模(数千万或数亿条数据记录)的resample time series数据的解决方案。Pandas resample()运行良好,直到达到大约10MIO数据记录,之后它实际上停止了工作,因为硬件没有足够的内存。我在大数据集上使用Pandas时遇到过几次这个问题。但是如果我只是在巨大的数据集上使用for循环,我就可以读取数据并使用它,即使它要慢得多。有没有人知道没有pandas的re
我一直想做以下工作,以便有一个简单的故事来在pandas.DataFrame中的每一列上执行pandas.DataFrame.someColumnName.unique()函数。df.apply(func=unique, axis=0) # error NameError: name 'unique' is not defined
有没有什么我忽略的技巧来让它工作,或者给出一个替代的解决