Python有许多很好的库(libraries),实现这些功能只需要几行代码。今天介绍一个库:collections. 这个模块提供容器相关的更高性能的数据类型,它们提供比通用容器dict,list,set和tuple更强大的功能。
今天介绍其中三种数据类型,最后你可能会惊讶它们怎么这么好用。
NamedTuple
对于数据分析或机器学习领域,用好namedtuples 会写出可读性强、易于维护的代码。大家回忆这种熟悉的场景,你正在做特征工程,因为你尤其喜爱list, 所以把一堆特征放到一个list 中,然后喂到机器学习模型中。很快,你将会意识到数百个特征位于此list 中,这就是事情变得糟糕的开始。
某天,你想使用某个特征,这时比较棘手,你不知道它的index!更糟糕的是,当你准备离职要交接工作时,他们看到一个一个的数字型索引,完全对不上哪个和哪个,他们懵逼,你也尴尬。
如果我们使用NamedTuples去处理以上数据,乱为一团的事情将会迅速变得井然有序:
仅仅几行代码,我们将会很容易索引到第0行数据的age属性取值,这在实际中真是太好用。你告别indexes访问你的数据集中的特征值,而是使用更加人性化,可读性强的names索引。
NamedTuples会使得代码易读、更易维护。
Counter
Counter正如名字那样,它的主要功能就是计数。这听起来简单,但是我们在分析数据时,基本都会涉及计数,真的家常便饭。
习惯使用list 的看过来,有一些数值已经放在一个list中:
如果使用Counter,我们可以写出更简化的代码:
仅仅一行代码,我们便输出统计计数结果,并且是一个按照次数统计出来的由大到小排序好的tuples列表,因此我们很快就会看到,购买3次是出现最多的,一共5次。
购买为1次的占多数,属于长尾。
DefaultDict
DefaultDict是一个被初始化的字典,也就是每个键都已经被访问一次:
一般地,当你尝试访问一个不在字典中的值时,将会抛出一个异常。但是defaultdict可以帮助我们初始化,它的参数作为default_factory. 在上面例子中,将生成 对象,意思是默认值为int 型,并,所以我们可以很容易地统计每个字符出现的次数。
Simple and clean!
更有用的一个使用场景,我们有很多种商品,在每秒内下单次数的统计数据如下:
上面例子default_dict取值为list, 因此,我们可以立即append一个元素到list中,更简洁。
总结
至此,你已经了解collections库中的三个类型,它们确实太好用,大家可以操练起来!
领取专属 10元无门槛券
私享最新 技术干货