二进制数据格式
pickle序列化
实现二进制存储最简单方法就是使用pickle序列化。
pandas可以用把frame以pickle形式保存到磁盘上的方法。读取使用的是。
使用HDF5格式
HDF指层次型数据格式(hierarchical data format)。HDF5支持多种压缩器的即时压缩,还能高效存储重复模式数据,还可以高效分块读写,所以对非常大的无法直接放入内存的数据集就非常有效。
HDF5库有两个接口分别是PyTables和h5py。处理海量数据(io密集型 重复读写磁盘数据)时,这两个接口非常符合要求。
读取Microsoft Excel文件
读取xls或者xlsx文件得到ExcelFile实例
实例再通过parse读取到DataFrame中:
使用HTML和Web API
访问这些提供了数据的API最简单的方法使用requests包。
很多的Web API返回的都是JSON字符串,我们先要加载到Python对象中:
使用数据库
数据库目前主要有两种,一种是SQL关系数据库(SQL Server,MySQL等),另外就是NoSQL(Not Only SQL)。
存取MongoDB中的数据
首先连接上MongoDb实例:
写入数据:
读取数据:
总结
这章和上一章总结了一般情况下如何加载常用的其他来源的数据,存储,查询等。来源主要有常用的文本,表格,json,数据库等等。既然数据已经加载完毕,那么下一章节就该开始清洗,规整一下这些数据了。
领取专属 10元无门槛券
私享最新 技术干货