Pandas 给 NumPy 数组带来的两个关键特性是:
异质类型 —— 每一列都允许有自己的类型
索引 —— 提高指定列的查询速度
事实证明,这些功能足以使Pandas成为Excel和数据库的强大竞争者...比如说:
一个社会学调查的结果
泰坦尼克号的数据集
历史气象观测
冠军排名的年表
这也被称为 "Panel data",而Pandas的名字就来源于此。...如果你知道a[3:10:2]==a[slice(3,10,2)],那么你可能也会理解下面的内容:df.loc[:, (slice(None), 'population')],但无论如何,它几乎无法阅读。...例如,要读取一个有三层高的列和四层宽的索引的DataFrame,你需要指定
pd.read_csv('df.csv', header=[0,1,2], index_col=[0,1,2,3])
这意味着前三行包含了列的信息...[0,1,2,3])
Parquet[3]文件格式支持多索引DataFrame,没有任何提示(唯一的限制是所有列的标签必须是字符串),产生的文件更小,而且工作速度更快(见基准):
df.to_parquet