传统的方法是使用Pandas作为中介来保存一个矮小的对象到地板上。然而,我正在处理大量的数据,这些数据不适合Pandas而不会破坏我的环境,因为在Pandas中,数据占用了大量的RAM。下面的代码是一个很小的例子,它下载了我的一小块数据,并在熊猫对象和numpy对象之间进行转换,以测量它们消耗了多少RAM,并保存到npy和parquet文件中,查看它们占用了多少磁盘空间。
from sys
result = pa.array(col, type=type_, from_pandas=True, safe=safe) File "pyarrow\array.pxi", line 80, in pyarrow.lib._ndarray_to_array
File "pyarrow\error.pxi", line
/lib/python3.6/site-packages/pyarrow/_dataset.pyx in pyarrow./lib/python3.6/site-packages/pyarrow/_dataset.pyx in pyarrow./lib/python3.6/site-packages/pyarrow/_dataset.pyx in p