介绍
Pandas 和 Spark 中都存在 DataFrame 这种常用的数据结构,它就是一个二维表格,由 行 和 列 组成,每行代表一个元素,每列代表元素的属性。
这篇文章总结了最近在一个项目中用到的 Pandas DataFrame 操作,非常基础也非常常用。
1
首先导入包:
2
定义示例 DataFrame:
3
选择特定的列:
4
选择某列属性以 a 开头的行:
5
选择某列属性不包括 A 的行:
6
删除重复行:
7
删除某列元素是 NaN 的行:
8
某列按相同属性分组后删除属性计数小于 2 的行:
9
对行元素应用函数:
10
合并两个具有完全相同列的 DataFrame (扩展行):
11
合并两个具有部分相同列属性的 DataFrame (扩展列):
领取专属 10元无门槛券
私享最新 技术干货