首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

业界使用最多的Python中Dataframe的重塑变形

pivot pivot函数用于从给定的表中创建出新的派生表 pivot有三个参数: 索引 列 值 def pivot_simple(index, columns, values): """...frame's columns values : ndarray Values to use for populating new frame's values pivot函数将创建一个新表...,其行和列索引是相应参数的唯一值 读取数据: from collections import OrderedDict from pandas import DataFrame import pandas...因此,必须确保我们指定的列和行没有重复的数据,才可以用pivot函数 pivot_table方法实现了类似pivot方法的功能 它可以在指定的列和行有重复的情况下使用 我们可以使用均值、中值或其他的聚合函数来计算重复条目中的单个值...堆叠DataFrame意味着移动最里面的列索引成为最里面的行索引,反向操作称之为取消堆叠,意味着将最里面的行索引移动为最里面的列索引。

2K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    30 个小例子帮你快速掌握Pandas

    重设索引,但原始索引保留为新列。我们可以在重置索引时将其删除。...18.插入新列 我们可以向DataFrame添加新列,如下所示: group = np.random.randint(10, size=6) df_new['Group'] = group df_new...但新列将添加在末尾。如果要将新列放在特定位置,则可以使用插入函数。 df_new.insert(0, 'Group', group) df_new ?...低基数意味着与行数相比,一列具有很少的唯一值。例如,Geography列具有3个唯一值和10000行。 我们可以通过将其数据类型更改为category来节省内存。...25.绘制直方图 Pandas不是数据可视化库,但用它创建一些基本图形还是非常简单的。 我发现使用Pandas创建基本图比使用其他数据可视化库更容易。 让我们创建Balance列的直方图。

    10.8K10

    Excel与pandas:使用applymap()创建复杂的计算列

    标签:Python与Excel,pandas 我们之前讨论了如何在pandas中创建计算列,并讲解了一些简单的示例。...通过将表达式赋值给一个新列(例如df['new column']=expression),可以在大多数情况下轻松创建计算列。然而,有时我们需要创建相当复杂的计算列,这就是本文要讲解的内容。...图1 创建一个辅助函数 现在,让我们创建一个取平均值的函数,并将其处理/转换为字母等级。 图2 现在我们要把这个函数应用到每个学生身上。那么,在列中对每个学生进行循环?不!...注意下面的代码,我们只在包含平均值的三列上应用函数。因为我们知道第一列包含字符串,如果我们尝试对字符串数据应用letter_grade()函数,可能会遇到错误。...图3 我们仍然可以使用map()函数来转换分数等级,但是,需要在三列中的每一列上分别使用map(),而applymap()能够覆盖整个数据框架(多列)。

    3.9K10

    整理了10个经典的Pandas数据查询案例

    9999 x 12数据集,是使用Faker创建的,我在最后也会提供本文的所有源代码。...在开始之前,先快速回顾一下Pandas中的查询函数query。查询函数用于根据指定的表达式提取记录,并返回一个新的DataFrame。表达式是用字符串形式表示的条件或条件的组合。...= 95") 文本过滤 对于文本列过滤时,条件是列名与字符串进行比较。 请query()表达式已经是字符串。那么如何在另一个字符串中写一个字符串?将文本值包装在单个引号“”中,就可以了。...与数值的类似可以在同一列或不同列上使用多个条件,并且可以是数值和非数值列上条件的组合。 除此以外, Pandas中的query()方法还可以在查询表达式中使用数学计算。...我们还可以在一个或多个列上包含一些复杂的计算。

    24120

    10个快速入门Query函数使用的Pandas的查询示例

    ) 它是一个简单的9999 x 12数据集,是使用Faker创建的,我在最后也会提供本文的所有源代码。...在开始之前,先快速回顾一下pandas -中的查询函数query。查询函数用于根据指定的表达式提取记录,并返回一个新的DataFrame。表达式是用字符串形式表示的条件或条件的组合。...= 95") 文本列过滤 对于文本列过滤时,条件是列名与字符串进行比较。 请Query()表达式已经是字符串。那么如何在另一个字符串中写一个字符串?将文本值包装在单个引号“”中,就可以了。...与数值的类似可以在同一列或不同列上使用多个条件,并且可以是数值和非数值列上条件的组合。 除此以外, Pandas Query()还可以在查询表达式中使用数学计算。...我们还可以在一个或多个列上包含一些复杂的计算。

    4.4K20

    整理了10个经典的Pandas数据查询案例

    9999 x 12数据集,是使用Faker创建的,我在最后也会提供本文的所有源代码。...在开始之前,先快速回顾一下Pandas中的查询函数query。查询函数用于根据指定的表达式提取记录,并返回一个新的DataFrame。表达式是用字符串形式表示的条件或条件的组合。...= 95") 文本过滤 对于文本列过滤时,条件是列名与字符串进行比较。 请query()表达式已经是字符串。那么如何在另一个字符串中写一个字符串?将文本值包装在单个引号“”中,就可以了。...与数值的类似可以在同一列或不同列上使用多个条件,并且可以是数值和非数值列上条件的组合。 除此以外, Pandas中的query()方法还可以在查询表达式中使用数学计算。...我们还可以在一个或多个列上包含一些复杂的计算。

    3.9K20

    10快速入门Query函数使用的Pandas的查询示例

    () 它是一个简单的9999 x 12数据集,是使用Faker创建的,我在最后也会提供本文的所有源代码。...在开始之前,先快速回顾一下pandas -中的查询函数query。查询函数用于根据指定的表达式提取记录,并返回一个新的DataFrame。表达式是用字符串形式表示的条件或条件的组合。...= 95") 文本列过滤 对于文本列过滤时,条件是列名与字符串进行比较。 请Query()表达式已经是字符串。那么如何在另一个字符串中写一个字符串?...与数值的类似可以在同一列或不同列上使用多个条件,并且可以是数值和非数值列上条件的组合。...我们还可以在一个或多个列上包含一些复杂的计算。

    4.5K10

    如何用Python将时间序列转换为监督学习问题

    t 0 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 通过在观测值的列数据中插入新的一列,我们可以将上面展示的观测值位置下移一格,由于新加的一行并没有数据...(1) print(df) 运行代码,我们在原有数据集的基础上得到了两列数据,第一列为原始的观测值,第二列为下移后得到的新列。...shift操作也可以接受负整数作为输入,这样的效果是在末尾插入新行来提取新的观测结果。...从这一节我们可以看到我们可以通过设定shift函数左移或右移来从原始时间序列上创建用于监督学习的输入和输出模式组成的序列。...该函数返回一个值: return:为监督学习重组得到的Pandas DataFrame序列。 新的数据集将被构造为DataFrame,每一列根据变量的编号以及该列左移或右移的步长来命名。

    24.9K2110

    Pandas之实用手册

    本篇通过总结一些最最常用的Pandas在具体场景的实战。在开始实战之前。一开始我将对初次接触Pandas的同学们,一分钟介绍Pandas的主要内容。...pandas 的核心是名叫DataFrame的对象类型- 本质上是一个值表,每行和每列都有一个标签。...假设数据框有一个缺失值:Pandas 提供了多种方法来处理这个问题。最简单的方法是删除缺少值的行:fillna()另一种方法是使用(例如,使用 0)填充缺失值。...除了 sum(),pandas 还提供了多种聚合函数,包括mean()计算平均值、min()、max()和多个其他函数。1.6 从现有列创建新列通常在数据分析过程中,发现需要从现有列中创建新列。...Pandas轻松做到。通过告诉 Pandas 将一列除以另一列,它识别到我们想要做的就是分别划分各个值(即每行的“Plays”值除以该行的“Listeners”值)。

    22410

    数据处理技巧 | 带你了解Pandas.groupby() 常用数据处理方法

    pandas.groupby()实例演示 首先,我们自己创建用于演示的数据,代码如下: import pandas as pd import numpy as np # 生成测试数据 test_data...同时计算多个结果 可能还有小伙伴问“能不能将聚合计算之后的新的结果列进行重命名呢?”,该操作在实际工作中经常应用的到,如:根据某列进行统计,并将结果重新命名。...在pandas以前的版本中需要自定义聚合操作,如下: # 定义aggregation汇总计算 aggregations = { #在values01列上的操作 'values01': {...列上的操作 'values02': { # Find the max, call the result "max_date" 'max_value':...Filtration Result 以上就是对Pandas.groupby()操作简单的讲解一遍了,当然,还有更详细的使用方法没有介绍到,这里只是说了我自己在使用分组操作时常用的分组使用方法。

    3.8K11

    Extreme DAX-第4章 上下文和筛选

    在以上示例中,以下的筛选器参数将导致在 UnitAmount 列上创建新的筛选器,选择所有大于 25 的值。...在该视觉对象中的大多数行中,查询上下文中存在两个筛选器:一个位于 Group 列上,另一个位于 ProductID 列上。例外情况是小计行(只有 Group 级别的筛选器)和总计行(没有筛选器)。...由于 Sales373 度量值在筛选器参数中使用了 ProductID 列,因此在添加新的筛选器(步骤 3)之前,将删除该列上的任何现有筛选器(步骤 2)。...再次查看产品239,查询上下文包含对 Group 和 ProductID 的筛选器。该度量值不会删除这些筛选器,而是在 Product 列上添加新的筛选器。...与 CALCULATE 一样,CALCULATETABLE 创建了筛选上下文。在计算列中使用时,将在每行中添加新的筛选器以选择该行。

    5.8K21

    数据科学 IPython 笔记本 7.11 聚合和分组

    在本节中,我们将探讨 Pandas 中的聚合,从类似于我们在 NumPy 数组中看到的简单操作,到基于groupby概念的更复杂的操作。...例如,我们在year列中看到,虽然早在 1989 年就发现了系外行星,但是一半的已知系外行星直到 2010 年或之后才发现了。...分组:分割,应用和组合 简单的聚合可以为你提供数据集的风格,但我们通常更愿意在某些标签或索引上有条件地聚合:这是在所谓的groupby操作中实现的。...这种“惰性求值”方式意味着,可以以对用户几乎透明的方式,非常有效地实现常见聚合。...1 B 1 0 2 C 2 3 3 A 3 3 4 B 4 7 5 C 5 9 df.groupby(L).sum(): data1 data2 0 7 17 1 4 3 2 4 7 当然,这意味着还有另一种更冗长的方式来完成之前的

    3.7K20

    Pandas Sort:你的 Python 数据排序指南

    目录 Pandas 排序方法入门 准备数据集 熟悉 .sort_values() 熟悉 .sort_index() 在单列上对 DataFrame 进行排序 按升序按列排序 更改排序顺序 选择排序算法...在多列上对 DataFrame 进行排序 按升序按多列排序 更改列排序顺序 按降序按多列排序 按具有不同排序顺序的多列排序 根据索引对 DataFrame 进行排序 按升序按索引排序 按索引降序排序 探索高级索引排序概念...在单列上对 DataFrame 进行排序 要根据单列中的值对 DataFrame 进行排序,您将使用.sort_values(). 默认情况下,这将返回一个按升序排序的新 DataFrame。...以下代码基于现有mpgData列创建了一个新列,映射True了mpgData等于Y和NaN不等于的位置: >>> >>> df["mpgData_"] = df["mpgData"].map({"Y":...这是因为在熊猫排序不工作到位默认。通常,这是使用 Pandas 分析数据的最常见和首选方法,因为它会创建一个新的 DataFrame 而不是修改原始数据。这允许您保留从文件中读取数据时的数据状态。

    14.3K00

    Pandas图鉴(三):DataFrames

    这意味着改变原始数组中的值会改变DataFrame,反之亦然。此外,它还可以节省内存。 这种模式也可以在第一种情况下启用(NumPy向量的dict),通过设置copy=False。...把这些列当作独立变量来操作,例如,df.population /= 10**6,人口以百万为单位存储,下面的命令创建了一个新的列,称为 "density",由现有列中的值计算得出: 此外,你甚至可以对来自不同...merge 和 join 都有一种方法来解决这种模糊性,但语法略有不同(另外,默认情况下,merge会用'_x'、'_y'来解决,而连接会引发一个异常),你可以在下面的图片中看到: 总结一下: 在非索引列上进行合并连接...例如,插入一列总是在原表进行,而插入一行总是会产生一个新的DataFrame,如下图所示: 删除列也需要注意,除了del df['D']能起作用,而del df.D不能起作用(在Python层面的限制...你可以手动否定这个条件,或者使用pdi库中的(一行长的)自动化: Group by 这个操作已经在 Series 部分做了详细描述:Pandas图鉴(二):Series 和 Index。

    44420

    太赞了!30 个 Python 函数,加速你的数据分析处理速度!

    df_new.set_index('Geography') 18.插入新列 group = np.random.randint(10, size=6) df_new['Group'] = group 19...让我们创建一个列,根据客户的余额对客户进行排名。...低基数意味着列与行数相比几乎没有唯一值。例如,地理列具有 3 个唯一值和 10000 行。 我们可以通过将其数据类型更改为"类别"来节省内存。...df['Geography'].replace({0:'B1',1:'B2'}) 25.绘制直方图 pandas 不是一个数据可视化库,但它使得创建基本绘图变得非常简单。...我发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。 让我们创建平衡列的直方图。 ? 26.减少浮点数小数点 pandas 可能会为浮点数显示过多的小数点。

    9.4K60

    Pandas 2.2 中文官方教程和指南(十七)

    categories参数是可选的,这意味着在创建pandas.Categorical时,实际的类别应该从数据中存在的内容中推断出来。默认情况下,假定类别是无序的。...重新排序意味着排序值的方式在之后会有所不同,但不意味着Series中的个别值已更改。...对象创建 Series 创建 可以通过多种方式创建分类Series或DataFrame中的列: 在构造Series时指定dtype="category": In [1]: s = pd.Series([...categories参数是可选的,这意味着实际的类别应该从创建pandas.Categorical时数据中推断出。默认情况下,假定类别是无序的。...与 R 的factor函数相反,将分类数据作为创建新分类系列的唯一输入将不会删除未使用的类别,而是创建一个等于传入的新分类系列!

    46810
    领券