Python/R/Julia中的数据处理工具多如牛毛「如pandas、spark、DataFrames.jl、polars、dask、dplyr、data.table、datatable等等」,如何根据项目需求挑选趁手的武器...,H2O.ai机器学习平台维护的一个项目给出答案。...,
数据量
0.5GB 数据 10,000,000,000行、9列
5GB 数据 100,000,000,000行、9列
50GB 数据1,000,000,000,000行、9列
groupby性能
比较以下各种需求的效率...、Julia中的DataFrame.jl等在groupby时是一个不错的选择,性能超越常用的pandas,详细,
0.5GB数据 groupby
5GB数据 groupby
50GB数据 groupby...、Python中的Polars、Julia中的DataFrame.jl表现连续出色,后续可以用起来,常用的pandas并无亮点~
REF:https://h2oai.github.io/db-benchmark