Series是一列有序号的数据,DataFrame就是N列有序号的数据。DataFrame含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。长得样子很像我们平时使用的Excel数据(前提你的Excel是规范的表)。
一、创建一个DataFrame
不知各位朋友有没有注意到一个细节,data字典表赋值的时候是name、age、score,但是生成DataFrame后顺序变了!还有重复说明一个概念,字典的数据是无序的!
二、人为定义列的顺序
在生成DataFrame时增加一个参数columns就可以规定生成的数据列的顺序了!
默认的行的序号是0起始的增序,如果想变更或自定义也是可以的。
三、自定义行序号
与Series数据类型一致,增加一个index参数即可!
四、NA数据介绍
当我们多定义了一个列的时候,由于原有data并没有存储class的数据,所以就用了NaN进行存储代替。
NaN是代表缺失数据,后期pandas读取文件的时候,经常会因为编码问题,原数据问题导致部分数据缺失。知道NaN是什么意思即可。