在上面的例子中,数据透视表的某些位置是 NaN 空值,因为在原数据里没有对应的条件下的数据。...导入导出数据 采用类似 pd.read_ 这样的方法,你可以用 Pandas 读取各种不同格式的数据文件,包括 Excel 表格、CSV 文件、SQL 数据库,甚至 HTML 文件等。...使用 pd.read_excel() 方法,我们能将 Excel 表格中的数据导入 Pandas 中。请注意,Pandas 只能导入表格文件中的数据,其他对象,例如宏、图形和公式等都不会被导入。...如果文件中存在有此类对象,可能会导致 pd.read_excel() 方法执行失败。 举个例子,假设我们有一个 Excel 表格 'excel_output.xlsx',然后读取它的数据: ?...和前面类似,把数据存到 'excel_output.xlsx' 文件中: ?
9.0 10.0 11.0 结果中的 NaN 指的是两对象中均不存在的项。...(index) #将前面创建的pop的索引重置(reindex)为MultiIndex,就会看到层级索引,结果是单索引的数组 #其中,前两列表示Series的多级索引值,第三列是数据。...跳过了三行(从索引所在行开始算起,超过四行空了,报错。)...判空方式,详见8.2.4 读取处理 CSV文件,excel文件有无性能差异?...') df = pd.read_sql('SELECT * FROM table', conn) 通过前面几个例子,很明显有这么几个默认: ①在读取 CSV文件/excel文件都是默认第一行是索引。
上节都是手敲一些数据来创建「多维数据表」的,现实中做量化分析时,数据量都会很大,一般都是从量化平台中或者下载好的 csv 中直接读取。本节介绍如何从量化平台「万矿」中读取数据来创建「多维数据表」的。...Excel 格式 用 pd.to_excel 函数将 DataFrame 保存为 .xlsx 格式,并保存到 ‘Sheet1’ 中,具体写法如下: pd.to_excel( '文件名','表名' )...) 用 pd.read_excel( '文件名','表名' ) 即可加载该文件并存成 DataFrame 形式 df1 = pd.read_excel('pd_excel.xlsx', sheet_name...情况 1 - df.at['idx_i', 'attr_j'] 情况 2 - df.iat[i, j] Python 里的中括号 [] 会代表很多意思,比如单元素索引,多元素切片,布尔索引等等,因此让...【索引和切片数据表】在索引或切片 DataFrame,有很多种方法。
查看索引文档 索引和选择数据 和 MultiIndex / 高级索引。...查看索引文档索引和选择数据和 MultiIndex /高级索引。...()从 Excel 文件中读取: In [140]: pd.read_excel("foo.xlsx", "Sheet1", index_col=None, na_values=["NA"]) Out[...) 从 csv 文件中读取数据:使用read_csv() In [136]: pd.read_csv("foo.csv") Out[136]: Unnamed: 0 0 1 2 3 4...()从 Excel 文件中读取数据: In [140]: pd.read_excel("foo.xlsx", "Sheet1", index_col=None, na_values=["NA"]) Out
看这里 从文件推断数据类型 处理错误行 GH 2886 写入多行索引 CSV 而不写入重复项 读取多个文件以创建单个 DataFrame 将多个文件合并为单个 DataFrame 的最佳方法是逐个读取各个框架...展示了一个从 csv 文件中获取数据并按块创建存储的函数,同时进行日期解析。...Excel Excel 文档 从类文件句柄读取 修改 XlsxWriter 输出中的格式 仅加载可见工作表 GH 19842#issuecomment-892150745 HTML 从无法处理默认请求头的服务器读取...展示了一个从 csv 文件中接收数据并按块创建存储的函数,同时也进行了日期解析。...点击这里查看 从 csv 文件逐块创建存储 在创建唯一索引的同时向存储追加数据 大数据工作流 读取一系列文件,然后在追加时为存储提供全局唯一索引 在具有低组密度的 HDFStore 上进行分组 在具有高组密度的
如果列标题行中的字段数等于数据文件主体中的字段数,则使用默认索引。如果大于此数,则使用前几列作为索引,以使数据主体中的剩余字段数等于标题中的字段数。 在标题之后的第一行用于确定要放入索引的列数。...,自动强制转换为 dtypes 会有一些怪异之处: + 索引可以以不同的顺序从序列化中重建,即,返回的顺序不能保证与序列化之前相同。... 或 元素用于形成列索引,如果 中包含多行,则会创建一个 MultiIndex);如果指定了,则标题行取自数据减去已解析的标题元素( 元素)。...为了避免向前填充缺失值,请在读取数据后使用 set_index 而不是 index_col。 解析特定列 在 Excel 中,用户经常会插入列进行临时计算,而您可能不想读取这些列。...zip文件格式仅支持读取,且必须只包含一个要读取的数据文件。 压缩类型可以是一个显式参数,也可以从文件扩展名中推断出来。
:Series、DataFrame和MultiIndex(老版本中叫Panel )。...如果没有传入索引参数,则默认会自动创建一个从0-N的整数索引。 columns:列标签。如果没有传入索引参数,则默认会自动创建一个从0-N的整数索引。...1.2.3 MultiIndex与Panel (1)MultiIndex MultiIndex是三维的数据结构; 多级索引(也称层次化索引)是pandas的重要功能,可以在Series、DataFrame...:不替换修改原数据,生成新的对象 pd.isnull(df), pd.notnull(df) 判断数据中是否包含NaN: 存在缺失值nan: (3)如果缺失值没有使用NaN标记,比如使用"?"...数据来源:https://www.kaggle.com/starbucks/store-locations/data 10.3.1 数据获取 从文件中读取星巴克店铺数据 # 导入星巴克店的数据 starbucks
重新排列表格型数据的基础运算称之为重塑reshape或者轴向旋转pivot stack:将数据的列旋转成行,AB由列属性变成行索引 unstack:将数据的行旋转成列,AB由行索引变成列属性 重点知识...层次化索引 MultiIndex 数据分散在不同的文件或者数据库中 层次化索引在⼀个轴上拥有多个(两个以上)索引级别 低维度形式处理高维度数据 import pandas as pd import numpy...,unstack引入缺失值 a b c d e one 0.0 1.0 2.0 3.0 NaN two NaN NaN 4.0 5.0 6.0 data1.unstack...(tuples, names=['first', 'second']) # 错层次索引如何创建 # index = pd.MultiIndex.from_tuples(tuples, names=['...左边的表格类似于是Excel或者MySQL中的存储形式,通过轴向转换变成右边的DataFrame型数据。
Series、DataFrame和MultiIndex(老版本中叫Panel )。...如果没有传入索引参数,则默认会自动创建一个从0-N的整数索引。 columns:列标签。如果没有传入索引参数,则默认会自动创建一个从0-N的整数索引。...1.2.3 MultiIndex与Panel 1、MultiIndex MultiIndex是三维的数据结构; 多级索引(也称层次化索引)是pandas的重要功能,可以在Series、DataFrame...:不替换修改原数据,生成新的对象 pd.isnull(df), pd.notnull(df) 判断数据中是否包含NaN: 存在缺失值nan: (3)如果缺失值没有使用NaN标记,比如使用"?"...数据来源:https://www.kaggle.com/starbucks/store-locations/data 10.3.1 数据获取 从文件中读取星巴克店铺数据 # 导入星巴克店的数据 starbucks
'c','d','e','f'] idx = list(zip(idx1,idx2) 生成多级索引 indx = pd.MultiIndex.from_tuples(idx) >>MultiIndex...文件读写 csv文件 对于大数据的处理,不可能像上面那样手动创建一个DataFrame,往往是通过csv文件导入。...即index列,这是因为在读入文件时,会默认添加index列,序列为0,1,2… 如果数据文件中已经有index,可以自行指定,这样就不会再增加一列了。...sheet_name='Sheet1') 需要注意的是,pandas只能读取excel中的数据,其他对象,比如图片公式等是不能读入的。...上面函数参数sheet_name='Sheet1'表示只读取Sheet1工作表中的内容。 写文件 data.to_excel('new.xlsx', sheet_name='Sheet1')
后面我们会接触到的很多方法,包括DataFrame对象的很多方法都会有这个参数,它们的意义跟这里是一样的。...读取Excel文件创建DataFrame对象。...可以通过pandas 模块的read_excel函数来读取Excel文件,该函数与上面的read_csv非常相近,多了一个sheet_name参数来指定数据表的名称,但是不同于CSV文件,没有sep或delimiter...下面的代码中,read_excel函数的skiprows参数是一个Lambda函数,通过该Lambda函数指定只读取Excel文件的表头和其中10%的数据,跳过其他的数据。...Excel文件,可以通过下面的百度云盘地址进行获取,数据在《从零开始学数据分析》目录中。
使用index更多更强大的数据结构支持 *很多强大的索引数据结构* CategoricalIndex,基于分类数据的Index,提升性能; MultiIndex,多维索引,用于groupby多维聚合后结果等...(file_name, index=False) 二、合并多个小Excel到一个大Excel 遍历文件夹,得到要合并的Excel文件列表 分别读取到dataframe,给每个df添加一列用于标记来源 使用..._subplots.AxesSubplot at 0x123c5502d48> 17、Pandas的分层索引MultiIndex 为什么要学习分层索引MultiIndex?...一、Series的分层索引MultiIndex 二、Series有多层索引怎样筛选数据?...三、DataFrame的多层索引MultiIndex 四、DataFrame有多层索引怎样筛选数据?
,默认是5行) 1.4MultiIndex与Panel MultiIndex是多级或者分层索引对象。...# major_axis - axis 1,它是每个数据帧(DataFrame)的索引(行)。 # minor_axis - axis 2,它是每个数据帧(DataFrame)的列。...']['2019-04-12'] 对象.loc[]-- 先行后列, 通过索引字符串索引。...读取read_hdf: pandas.read_hdf(path_or_buf,key =None,** kwargs) 从h5文件当中读取数据 path_or_buffer:文件路径 key:读取的键..., value=np.nan) 7.高级处理-数据离散化 7.1为什么要离散化? 答:连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。
但是身经百战的你肯定会觉得,前2篇例子中的数据太规范了,如果把数据导入到数据库还是可以方便解决问题的。 因此,本文将使用稍微复杂的数据做演示,充分说明 pandas 是如何灵活处理各种数据。...---- ---- 我们来看看数据: 注意看左上角有3个 nan ,是因为表格的标题行前3列是空的。 由于前2列有合并单元格,出现了很多 nan。 此外注意看第3列,把课时序号显示成小数。...如下是一个 DataFrame 的组成部分: 红框中的是 DataFrame 的值部分(values) 上方深蓝色框中是 DataFrame 的列索引(columns),注意,为什么方框不是一行?...我们平时操作 DataFrame 就是通过这两个玩意去定位里面的数据。 如果你熟悉 excel 中的透视表,那么完全可以把行列索引当作是透视表中的行列区域。...[源码地址](https://github.com/CrystalWindSnake/Creative/tree/master/python/excel_pandas/3) 请关注本号,后续会有更多相关教程
>>> np.save('my_array', a) >>> np.savez('array.npz', a, b) >>> np.load('my_array.npy') 导入与存储文本文件 >>...内部数据一致 在不重叠的索引中引入NA值 >>> s3 = pd.Series([7, -2, 3], index=['a', 'c', 'd']) >>> s + s3 a 10.0 b NaN...>>> pd.read_excel('file.xlsx') >>> pd.to_excel('dir/myDataFrame.xlsx', sheet_name='Sheet1') # 从同一个文件中读取多个工作表...>>> xlsx = pd.ExcelFile('file.xls') >>> df = pd.read_excel(xlsx, 'Sheet1') 读取与写入到SQL 查询或数据库表中 >>> from...col_level : 如果列是MultiIndex,则使用此级别。 宽数据--->>长数据,有点像用excel做透视跟逆透视的过程。
点击这里查看 从文件推断数据类型 处理坏行 GH 2886 在不写入重复数据的情况下编写多行索引 CSV 读取多个文件以创建单个 DataFrame 将多个文件合并为单个 DataFrame 的最佳方法是逐个读取各个框架...9 10 11 1990-01-01 05:00:00 21 11 12 13 ```### SQL SQL 文档 [使用 SQL 从数据库中读取数据...文档 [从类文件句柄中读取](https://stackoverflow.com/questions/15588713/sheets-of-excel-workbook-from-a-url-into-a-pandas-dataframe...展示了一个从 csv 文件中接收数据并按块创建存储的函数,同时还进行了日期解析。...数据框 索引 文档。
如下图: 表中的一行表示 某一天的某课时是哪位教师负责的哪门科目。 这里的名字按照原有数据做了脱敏(teach 列)。...---- 脚本中导入 本文使用 pyecharts 做可视化输出 ---- ---- 加载数据 代码如下: 这次直接从 csv 文件读取即可。....unstack() ,把 apm 从行索引移到列索引。那么就会有 上午列 和 下午列。 注意此时,如果一位教师只有下午的课,那么此列他的值就为 nan。...---- .stack(dropna=False) ,把 apm 从列索引移回去行索引,dropna=False ,让其保留 nan 的值。 此时即可确保所有的教师都有上下午2行数据。...[源码地址](https://github.com/CrystalWindSnake/Creative/tree/master/python/excel_pandas/4) 请关注本号,后续会有更多相关教程
领取专属 10元无门槛券
手把手带您无忧上云