首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

懂Excel就能轻松入门Python数据分析包pandas(十二):多列堆叠

后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 Excel 是奇葩不规范数据的重灾区,这主要是因为他有高度的灵活性,今天来看看一个多列堆叠问题。...现在来看看,在 pandas 中怎么简单转换成规范的2列数据: - 第一句主要是为了最后结果的标题与原数据标题一致而已 - 关键是第二句,这里直接使用 numpy 的 reshape 方法,即可完成需求...- .reshape(-1,2) ,其中的2就是2列,而 -1 是让 numpy 你根据数据来计算最终的行数 - 第三句,只是把结果的数组变为一个 DataFrame - 至于最后的 dropna ,...是把那些空行去掉 案例2:竖向堆叠 你可能已经注意到,上面的结果是"横向的"。...用 pandas 不就是为了既可自动化处理,又可以少写点代码吗 总结 - numpy 的 reshape 方法,可以快速把数组转换成指定行数或列数 - 用 -1 可以让 numpy 自动计算行或列的数量

81720

数据科学 IPython 笔记本 7.8 分层索引

如果我们用这个MultiIndex重新索引我们的序列,我们会看到数据的分层表示: pop = pop.reindex(index) pop ''' California 2000 33871648...请注意,第一列中缺少某些条目:在多重索引表示中,任何空白条目都表示与其上方的行相同的值。...作为额外维度的MultiIndex 你可能会注意到其他内容:我们可以使用带有索引和列标签的简单DataFrame,来轻松存储相同的数据。事实上,Pandas 的构建具有这种等价关系。...正如我们之前简要介绍的那样,可以将数据集从堆叠的多索引转换为简单的二维表示,可选择指定要使用的层次: pop.unstack(level=0) state California New York Texas...我们将不会在本文中进一步介绍这些面板结构,因为我在大多数情况下发现,对于更高维数据来说,多重索引是更有用且概念上更简单的表示。另外,面板数据基本上是密集数据表示,而多索引基本上是稀疏数据表示。

4.3K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    懂Excel就能轻松入门Python数据分析包pandas(十二):多列堆叠

    后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 Excel 是奇葩不规范数据的重灾区,这主要是因为他有高度的灵活性,今天来看看一个多列堆叠问题。...现在来看看,在 pandas 中怎么简单转换成规范的2列数据: - 第一句主要是为了最后结果的标题与原数据标题一致而已 - 关键是第二句,这里直接使用 numpy 的 reshape 方法,即可完成需求...- .reshape(-1,2) ,其中的2就是2列,而 -1 是让 numpy 你根据数据来计算最终的行数 - 第三句,只是把结果的数组变为一个 DataFrame - 至于最后的 dropna ,...是把那些空行去掉 案例2:竖向堆叠 你可能已经注意到,上面的结果是"横向的"。...用 pandas 不就是为了既可自动化处理,又可以少写点代码吗 总结 - numpy 的 reshape 方法,可以快速把数组转换成指定行数或列数 - 用 -1 可以让 numpy 自动计算行或列的数量

    73410

    Python数据分析之数据预处理(数据清洗、数据合并、数据重塑、数据转换)学习笔记

    names:结果分层索引中的层级的名称。  ​ 根据轴方向的不同,可以将堆叠分成横向堆叠与纵向堆叠,默认采用的是纵向堆叠方式。  ​...3.2 轴向旋转  ​ 在 Pandas中pivot()方法提供了这样的功能,它会根据给定的行或列索引重新组织一个 DataFrame对象。 ...columns:用于创建新 DataFrame对象的列索引 values:用于填充新 DataFrame对象中的值。  4....4.1.1 rename()方法  index,columns:表示对行索引名或列索引名的转换。  inplace:默认为False,表示是否返回新的Pandas对象。 ...Categories对象中的区间范围跟数学符号中的“区间”一样,都是用圆括号表示开区间,用方括号则表示闭区间。

    5.6K00

    详解pd.DataFrame中的几种索引变换

    导读 pandas中最常用的数据结构是DataFrame,而DataFrame相较于嵌套list或者二维numpy数组更好用的原因之一在于其提供了行索引和列名。...03 index.map 针对DataFrame中的数据,pandas中提供了一对功能有些相近的接口:map和apply,以及applymap,其中map仅可用于DataFrame中的一列(也即即Series...),可接收字典或函数完成单列数据的变换;apply既可用于一列(即Series)也可用于多列(即DataFrame),但仅可接收函数作为参数,当作用于Series时对每个元素进行变换,作用于DataFrame...所以,对索引执行变换的另一种可选方式是用map函数,其具体操作方式与DataFrame常规map操作一致,接收一个函数作为参数即可: ?...05 stack与unstack 这也是一对互逆的操作,其中stack原义表示堆叠,实现将所有列标签堆叠到行索引中;unstack即解堆,用于将复合行索引中的一个维度索引平铺到列标签中。

    2.5K20

    一文掌握Pandas可视化图表

    今天简单介绍一下Pandas可视化图表的一些操作,Pandas其实提供了一个绘图方法plot(),可以很方便的将Series和Dataframe类型数据直接进行数据可视化。 1....")) df = df.cumsum() df.head() 对于案例数据,直接绘图效果如下(显示全部列) df.plot() 我们可以指定数据源,比如指定列A的数据 df.plot(y='A'...) 我们还可以指定x轴和多列为y,我这里先构建一列X,然后进行数据源选取 df["X"] = list(range(len(df))) df.head() 选择X列为x轴,B、C列为y轴数据 #...默认情况下,面积图是堆叠的 # 默认是堆叠 df.plot.area() 单个面积图 df.a.plot.area() 取消堆叠 # 取消堆叠 df.plot.area(stacked=False...、z的值用于颜色区分 df.plot.scatter(x="a", y="b", c="c", s=50) # 参数s代表散点大小 一组数据,然后分类并用不同颜色(色系下)表示 df.plot.scatter

    8.2K50

    最全面的Pandas的教程!没有之一!

    此外,你还可以制定多行和/或多列,如上所示。 条件筛选 用中括号 [] 的方式,除了直接指定选中某些列外,还能接收一个条件语句,然后筛选出符合条件的行/列。...当你进行堆叠的时候,请务必注意你数据表的索引和列的延伸方向,堆叠的方向要和它一致。 比如,有这样3个 DataFrame: ? 我们用 pd.concat() 将它堆叠成一个大的表: ?...因为我们没有指定堆叠的方向,Pandas 默认按行的方向堆叠,把每个表的索引按顺序叠加。 如果你想要按列的方向堆叠,那你需要传入 axis=1 参数: ? 注意,这里出现了一大堆空值。...因为我们用来堆叠的3个 DataFrame 里,有许多索引是没有对应数据的。因此,当你使用 pd.concat() 的时候,一定要注意堆叠方向的坐标轴(行或列)含有所需的所有数据。...,index 表示按该列进行分组索引,而 columns 则表示最后结果将按该列的数据进行分列。

    26.1K64

    用数字(而不是字母)表示Excel的列的方法

    本文介绍在Excel表格文件中,用数字而非字母来表示列号的方法。   ...在日常生活、工作中,我们不免经常使用各种、各类Excel表格文件;而在Excel表格文件中,微软Office是默认用数字表示行数,用字母表示列数的,如下图所示:   而这样就带来一个问题:当一个Excel...表格文件的列数相对较多时(比如有几十列,甚至上百列时),用字母表示列数较之用数字表示列数,就相对较为不直观、不清晰,无法很好地判断该文件列的具体数量,如下图所示:   这无疑会给我们的表格数据处理工作带来一些麻烦...对此,我们可以将Excel文件中的行与列均用数字来表示,从而获得更直观的列数,进而方便我们的日常学习与办公。具体设置方法如下。   首先,点击选择左上角的“文件”。   ...此时回到我们的表格文件,可以看到,Excel文件的行与列均用数字来表示了,即可以清晰看到具体的行数与列数,非常直观、清晰。   以上,便完成了我们的设置。

    10200

    pandas按行按列遍历Dataframe的几种方式

    遍历数据有以下三种方法: 简单对上面三种方法进行说明: iterrows(): 按行遍历,将DataFrame的每一行迭代为(index, Series)对,可以通过row[name]对元素进行访问。...itertuples(): 按行遍历,将DataFrame的每一行迭代为元祖,可以通过row[name]对元素进行访问,比iterrows()效率高。...iteritems():按列遍历,将DataFrame的每一列迭代为(列名, Series)对,可以通过row[index]对元素进行访问。...示例数据 import pandas as pd inp = [{‘c1’:10, ‘c2’:100}, {‘c1’:11, ‘c2’:110}, {‘c1’:12, ‘c2’:123}] df =...(index) # 输出每行的索引值 1 2 row[‘name’] # 对于每一行,通过列名name访问对应的元素 for row in df.iterrows(): print(row[‘c1

    7.2K20

    Pandas图鉴(三):DataFrames

    read_csv最酷的地方在于它能自动检测到很多东西,包括: 列的名称和类型、 布尔的表示法、 缺失值的表示,等等。...通过MultiIndex进行堆叠 如果行和列的标签都重合,concat可以做一个相当于垂直堆叠的MultiIndex(像NumPy的dstack): 如果行和/或列部分重叠,Pandas将相应地对齐名称...通常情况下,DataFrame中的列比你想在结果中看到的要多。...通常最少的定制功能会产生最好的性能。因此,按照速度递增的顺序: 通过g.apply()实现多列范围的自定义函数 通过g.agg()实现单列范围的自定义函数(支持用Cython或Numba加速)。...我们已经看到很多例子,Pandas函数返回一个多索引的DataFrame。我们仔细看一下。

    50320

    Pandas图鉴(四):MultiIndex

    我们看看文档中对命名规则的描述: "这个函数是通过类比来命名的,即一个集合被重新组织,从水平位置上的并排(DataFrame的列)到垂直方向上的堆叠(DataFrame的索引中)。"...作为一维的,Series在不同情况下可以作为行向量或列向量,但通常被认为是列向量(例如DataFrame的列)。 比如说: 也可以通过名称或位置索引来指定要堆叠/取消堆叠的级别。...src移动到指定的位置dst(在纯Pandas中不能轻易完成): 除了上面提到的参数外,本节的所有函数都有以下参数: axis=None,其中None表示DataFrame的 "列" 和Series的...将多索引DataFrame读入和写入磁盘 Pandas可以以完全自动化的方式将一个带有MultiIndex的DataFrame写入CSV文件:df.to_csv('df.csv')。...官方Pandas文档有一个表格[4],列出了所有~20种支持的格式。 多指标算术 在整体使用多索引DataFrame的操作中,适用与普通DataFrame相同的规则(见第三部分)。

    65720

    直观地解释和可视化每个复杂的DataFrame操作

    Stack 堆叠采用任意大小的DataFrame,并将列“堆叠”为现有索引的子索引。因此,所得的DataFrame仅具有一列和两级索引。 ? 堆叠名为df的表就像df.stack()一样简单 。...Unstack 取消堆叠将获取多索引DataFrame并对其进行堆叠,将指定级别的索引转换为具有相应值的新DataFrame的列。在表上调用堆栈后再调用堆栈不会更改该堆栈(原因是存在“ 0 ”)。...堆叠中的参数是其级别。在列表索引中,索引为-1将返回最后一个元素。这与水平相同。级别-1表示将取消堆叠最后一个索引级别(最右边的一个)。...可以按照与堆叠相同的方式执行堆叠,但是要使用level参数: df.unstack(level = -1)。 Merge 合并两个DataFrame是在共享的“键”之间按列(水平)组合它们。...请注意,concat是pandas函数,而不是DataFrame之一。因此,它接受要连接的DataFrame列表。 如果一个DataFrame的另一列未包含,默认情况下将包含该列,缺失值列为NaN。

    13.4K20

    因Pandas版本较低,这个API实现不了咋办?

    问题描述:一个pandas dataframe数据结构存在一列是集合类型(即包含多个子元素),需要将每个子元素展开为一行。这一场景运用pandas中的explodeAPI将会非常好用,简单高效。...基于这一思路,可将问题拆解为两个子问题: 含有列表元素的单列分为多列 多列转成多行 而这两个子问题在pandas丰富的API中其实都是比较简单的,例如单列分为多列,那么其实就是可直接用pd.Series...在完成展开多列的基础上,下面要做的就是列转行,即将多列信息转换逐行显示,这在SQL中是非常经典的问题,在pandas中自然也有所考虑,所以就需要引出第二个API:stack!...stack原义为堆栈的意思,放到pandas中就是将元素堆叠起来——从宽表向长表转换。...ok,那么可以预见的是在刚才获得的多列DataFrame基础上执行stack,将实现列转行堆叠的效果并得到一个Series。具体来说,结果如下: ?

    1.9K30
    领券