文章/答案/技术大牛

发布

前置机器学习（四）：轻松掌握Pandas用法（2/2）

文章来源：企鹅号 - caiyongji

Pandas提供快速，灵活和富于表现力的数据结构，是强大的数据分析Python库。

本文收录于机器学习前置教程系列。

2. 选择数据

2.1 根据标签选择

我们输入df['A']命令选取A列。

输出A列数据，同时也是一个Series对象：

df[0:3]该代码与df.head(3)同理。但df[0:3]是NumPy的数组选择方式，这说明了Pandas对于NumPy具有良好的支持。

通过loc方法指定行列标签。

2.2 根据位置选择

iloc 与loc不同。loc指定具体的标签，而iloc指定标签的索引位置。df.iloc[3:5, 0:3]表示选取索引为3、4的行，索引为0、1、2的列。即，第4、5行，第1、2、3列。

注意，索引序号从0开始。冒号表示区间，左右两侧分别表示开始和结束。如3:5表示左开右闭区间[3,5)，即不包含5自身。

2.3 布尔索引

DataFrame可根据条件进行筛选，当条件判断True时，返回。当条件判断为False时，过滤掉。

我们设置一个过滤器用来判断A列是否大于0。

3. 处理缺失值

准备数据。

展示表格如下：

3.1 dropna()

使用dropna方法清空NaN值。注意：dropa方法返回新的DataFrame，并不会改变原有的DataFrame。

3.2 fillna()

使用filna命令填补NaN值。

以上代码表示，使用每一列的平均值来填补空缺。同样地，fillna并不会更新原有的DataFrame，如需更新原有DataFrame使用代码df2 = df2.fillna(df2.mean())。

展示表格如下：

4. 操作方法

4.1 agg()

agg是Aggregate的缩写，意为聚合。

常用聚合方法如下：

mean(): Compute mean of groups

sum(): Compute sum of group values

size(): Compute group sizes

count(): Compute count of group

std(): Standard deviation of groups

var(): Compute variance of groups

sem(): Standard error of the mean of groups

describe(): Generates descriptive statistics

first(): Compute first of group values

last(): Compute last of group values

nth() : Take nth value, or a subset if n is a list

min(): Compute min of group values

max(): Compute max of group values

4.2 apply()

apply()是对方法的调用。

如df.apply(np.sum)表示每一列调用np.sum方法，返回每一列的数值和。

df.apply(np.sum)

输出结果为：

A 0.495241

B 0.298531

C -1.087857

D 1.373762

dtype: float64

apply方法支持lambda表达式。

4.3 value_counts()

value_counts方法查看各行、列的数值重复统计。

我们重新生成一些整数数据，来保证有一定的数据重复。

发表于: 2021-03-022021-03-02 16:39:18
原文链接：https://kuaibao.qq.com/s/20210302A08RO200?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

前置机器学习（四）：轻松掌握Pandas用法（2/2）

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐