Python/R/Julia中的数据处理工具多如牛毛「如pandas、spark、DataFrames.jl、polars、dask、dplyr、data.table、datatable等等」,如何根据项目需求挑选趁手的武器...DataFrames.jl
3种其它工具
spark
ClickHouse
duckdb
评估方法
分别测试以上工具在在0.5GB、5GB、50GB数据量下执行groupby、join的效率...,
数据量
0.5GB 数据 10,000,000,000行、9列
5GB 数据 100,000,000,000行、9列
50GB 数据1,000,000,000,000行、9列
groupby性能
比较以下各种需求的效率...、Julia中的DataFrame.jl等在groupby时是一个不错的选择,性能超越常用的pandas,详细,
0.5GB数据 groupby
5GB数据 groupby
50GB数据 groupby...join
同样可以看到Python中的Polars、R中的data.table在join时表现不俗,详细,
0.5GB数据 join
5GB数据 join
50GB数据 join
小结
R中的data.table