Python/R/Julia中的数据处理工具多如牛毛「如pandas、spark、DataFrames.jl、polars、dask、dplyr、data.table、datatable等等」,如何根据项目需求挑选趁手的武器...----
待评估软件
项目目前已收录Python/R/Julia中13种的工具,随着工具版本迭代、新工具的出现,该项目也在持续更新,其它工具如AWK、Vaex、disk也在陆续加入到项目中。...,
数据量
0.5GB 数据 10,000,000,000行、9列
5GB 数据 100,000,000,000行、9列
50GB 数据1,000,000,000,000行、9列
groupby性能
比较以下各种需求的效率...、Julia中的DataFrame.jl等在groupby时是一个不错的选择,性能超越常用的pandas,详细,
0.5GB数据 groupby
5GB数据 groupby
50GB数据 groupby...join
同样可以看到Python中的Polars、R中的data.table在join时表现不俗,详细,
0.5GB数据 join
5GB数据 join
50GB数据 join
小结
R中的data.table