pandas库的简单介绍（2）

python数据可视化之路

发布于 2023-02-23 21:23:23

3.5K0

文章被收录于专栏：python数据分析实践python数据分析实践

3、 DataFrame数据结构

DataFrame表示的是矩阵数据表，每一列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既包含行索引，也包含列索引，可以视为多个Series集合而成，是一个非常常用的数据结构。

3.1 DataFrame的构建

DataFrame有多种构建方式，最常见的是利用等长度的列表或字典构建（例如从excel或txt中读取文件就是DataFrame类型）。

另外一个构建的方式是字典嵌套字典构造DataFrame数据；嵌套字典赋给DataFrame，pandas会把字典的键作为列，内部字典的键作为索引。

3.2 DataFarme的基础操作

（*1）输出前n行

输出前n行用到了head()函数，如果不加参数，默认输出前5行，加参数，例如3，输出前3行。输出尾部n行同理，用到了tail()函数。

（*2）指定列顺序和索引列、删除、增加列

指定列的顺序可以在声明DataFrame时就指定，通过添加columns参数指定列顺序，通过添加index参数指定以哪个列作为索引；移除列可以用del frame[列名]进行移除；增加列有两个方法：1，直接frame[列名]=值；2，frame[列名]=Series对象，如果被赋值的列不存在，会生成一个新列。

（3）为列、索引命名和values属性

与Series一样，DataFrame也能为列，索引命名，同时也有values属性。

（*4）索引对象的特征和操作

索引对象的重要特征是不可变的，因此我们无法修改索引对象（初学者常常忽略这一点）。

索引对象类似数组；也像一个固定大小的集合，但是集合不允许有重复元素，索引对象则可以。由于类似数组和集合，索引对象的一些方法和属性如下：

一些索引对象的方法和属性

方法	描述
append	将额外的索引对象粘贴到原对象后，产生一个新的索引
difference	计算两个索引的差集
intersection	计算两个索引的交集
union	计算两个索引的并集
delete	将位置i的元素删除，并产生新的索引
drop	根据传入的参数删除指定索引值，并产生新索引
unique	计算索引的唯一值序列
is_nuique	如果索引序列唯一则返回True
is_monotonic	如果索引序列递增则返回True