Dask：并行计算的灵活解决方案，用完都说好神奇！

文章来源：企鹅号 - 秋叶剪辑师

哈喽啊，我是二维。前几天有个老朋友问我：“二维哥，我有一堆超大的数据要处理，用Pandas跑得巨慢，电脑都快冒烟了，咋整啊？”

我就给他推荐了个好东西：Dask。今天就带大家一起来瞧瞧这个神奇的Python库。

说白了，Dask就是个能让你处理大数据不费劲的工具。它最牛的地方在于，你之前用Pandas和NumPy写的代码，基本上不用改，就能用Dask做并行计算。

就像是给你的笔记本电脑加了个“外挂”，让它变身成了一台小型超算。

import dask.dataframe as dd

# 读取一个超大的CSV文件

df = dd.read_csv('huge_file.csv')

# 计算平均值

result = df['column'].mean().compute()

温馨提示：别忘了在操作最后加.compute()，不然Dask只会给你一个计算计划，不会真的执行。

Dask玩的是“懒计算”的套路。啥意思呢？就是你告诉它要干啥，它先记着，等到真需要结果的时候才动手干。

这就跟咱们平时睡懒觉一样，闹钟响了也不起，等到真要迟到了才猛地往外冲。

# 创建一个延迟计算的数组

import dask.array as da

x = da.ones((1000， 1000))

y = x + 1

# 这时候啥都没计算呢

print(y) # 只会显示计算图

# 真要结果的时候才计算

result = y.compute()

Dask最拿手的就是把大任务分成小块并行处理。就像是你妈让你包饺子，你肯定不会傻乎乎一个人包，而是喊上全家人一起包。

# 创建一个client来管理并行计算

from dask.distributed import Client

client = Client()

# 把大数据分块处理

df = dd.read_csv('big_data.csv')

df_grouped = df.groupby('category').agg({

'value'：'mean'，

'count'：'sum'

}).compute()

温馨提示：在本地跑的时候，Dask会自动根据你的CPU核心数来分配任务，贼省心。

要是数据实在太大，内存放不下，Dask也有招。它可以把数据分成小块，需要啥算啥，用完就扔，就像是在吃自助餐，盘子小，就多跑几趟呗。

# 设置分块大小

df = dd.read_csv('massive_file.csv'， blocksize='64MB')

# 一点点处理

result = (df.column

.map_partitions(lambda x：x + 1)

.rolling(window=3)

.mean()

.compute())

搞并行计算的时候，有些坑我已经替大家趟过了：

1.分块要有度，太小了反而慢，一般64MB到128MB最合适

2.要是处理CSV，最好用fastparquet格式存储，读起来贼快

3.别老是.compute()，能放到最后一起算的就一起算

本文和大伙唠的这些，够你入门Dask了。记住一点，Dask就是来帮你处理那些让普通Python库跑不动的大数据的。

它上手简单，接口熟悉，还能自动帮你并行处理，属实是居家旅行、数据处理必备良品。用准了，你的数据处理效率蹭蹭往上涨，老板见了都说好！

发表于: 2024-11-242024-11-24 17:38:45
原文链接：https://page.om.qq.com/page/O9JPT9_uP9h0zYcHKLl7rv2g0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Dask：并行计算的灵活解决方案，用完都说好神奇！

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐