首先我们先介绍一些简单的概念
Read_csv 方法有很多参数,有效的利用这些参数可以减轻数据预处理的工作。谁都不愿意做数据清洗,那么我们就在加载数据的时候做一些简单的数据处理
有时我们可能需要加载的 csv 太大,可能会导致内存爆掉,这时候,我们就需要分批加载数据进行分析、处理
在 DataFrame 中添加新列的操作很简单,下面介绍几种方式
直接增加新列并赋值
df['new_column'] = 1
df['temp_diff'] = df['atemp'] - df['temp']
我们仅仅根据风速,简单判断一下人体舒适度,体感比较舒服的温度是 0.3 米/秒
我们将 season 转换为具体季节的名称
类似于 Excel 单元格的选择,Pandas 提供了这样的功能,操作很简单,但是我本人理解起来确实没有操作看上去那么简单。Pandas 提供了三个方法做类似的操作,loc,iloc,ix,ix 官方已经不建议使用,所以我们下面介绍 loc 和 iloc
df.loc[行索引开始位置:行索引结束位置,[列名数组]]
df.iloc[行索引开始位置:行索引结束位置,列索开始位置:列索引结束位置]
注意: