首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子

Sample Sample方法允许我们从DataFrame中随机选择数据。当我们想从一个分布中选择一个随机样本时,这个函数很有用。...从第一个元素到第二个元素增加了50%,从第二个元素到第三个元素增加了100%。Pct_change函数用于比较元素时间序列中的变化百分比。 df.value_1.pct_change() ? 9....Describe describe函数计算数字列的基本统计信息,这些列包括计数、平均值、标准偏差、最小值和最大值、中值、第一个和第三个四分位数。因此,它提供了dataframe的统计摘要。 ?...df1和df2是基于column_a列中的共同值进行合并的,merge函数的how参数允许以不同的方式组合dataframe,如:“inner”、“outer”、“left”、“right”等。...Replace 顾名思义,它允许替换dataframe中的值。第一个参数是要替换的值,第二个参数是新值。 df.replace('A', 'A_1') ? 我们也可以在同一个字典中多次替换。

5.7K30

30 个小例子帮你快速掌握Pandas

选择特定的列 3.读取DataFrame的一部分行 read_csv函数允许按行读取DataFrame的一部分。有两种选择。第一个是读取前n行。...让我们做另一个使用索引而不是标签的示例。 df.iloc [missing_index,-1] = np.nan "-1"是最后一列Exit的索引。...第一个参数是位置的索引,第二个参数是列的名称,第三个参数是值。 19.where函数 它用于根据条件替换行或列中的值。默认替换值是NaN,但我们也可以指定要替换的值。...Geography列的内存消耗减少了近8倍。 24.替换值 替换函数可用于替换DataFrame中的值。 ? 第一个参数是要替换的值,第二个参数是新值。 我们可以使用字典进行多次替换。 ?...我已经将虚构名称添加到df_new DataFrame中。 ? 让我们选择客户名称以Mi开头的行。 我们将使用str访问器的startswith方法。

10.8K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    直观地解释和可视化每个复杂的DataFrame操作

    每种方法都将包括说明,可视化,代码以及记住它的技巧。 Pivot 透视表将创建一个新的“透视表”,该透视表将数据中的现有列投影为新表的元素,包括索引,列和值。...考虑一个二维矩阵,其一维为“ B ”和“ C ”(列名),另一维为“ a”,“ b ”和“ c ”(行索引)。 我们选择一个ID,一个维度和一个包含值的列/列。...包含值的列将转换为两列:一列用于变量(值列的名称),另一列用于值(变量中包含的数字)。 ? 结果是ID列的值(a,b,c)和值列(B,C)及其对应值的每种组合,以列表格式组织。...作为另一个示例,当级别设置为0(第一个索引级别)时,其中的值将成为列,而随后的索引级别(第二个索引级别)将成为转换后的DataFrame的索引。 ?...默认情况下,合并功能执行内部联接:如果每个DataFrame的键名均未列在另一个键中,则该键不包含在合并的DataFrame中。

    13.3K20

    整理了25个Pandas实用技巧

    从剪贴板中创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet中,你又想要尽快地将他们读取至DataFrame中。 你需要选择这些数据并复制至剪贴板。...一个字符串划分成多列 我们先创建另一个新的示例DataFrame: ? 如果我们需要将“name”这一列划分为三个独立的列,用来表示first, middle, last name呢?...如果我们只想保留第0列作为city name,我们仅需要选择那一列并保存至DataFrame: ? Series扩展成DataFrame 让我们创建一个新的示例DataFrame: ?...这里有两列,第二列包含了Python中的由整数元素组成的列表。...我们可以通过链式调用函数来应用更多的格式化: ? 我们现在隐藏了索引,将Close列中的最小值高亮成红色,将Close列中的最大值高亮成浅绿色。 这里有另一个DataFrame格式化的例子: ?

    2.8K40

    整理了25个Pandas实用技巧(下)

    从剪贴板中创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet中,你又想要尽快地将他们读取至DataFrame中。 你需要选择这些数据并复制至剪贴板。...,以告诉pandas保留那些至少90%的值不是缺失值的列。...一个字符串划分成多列 我们先创建另一个新的示例DataFrame: 如果我们需要将“name”这一列划分为三个独立的列,用来表示first, middle, last name呢?...比如说,让我们以", "来划分location这一列: 如果我们只想保留第0列作为city name,我们仅需要选择那一列并保存至DataFrame: Series扩展成DataFrame 让我们创建一个新的示例...DataFrame: 这里有两列,第二列包含了Python中的由整数元素组成的列表。

    2.4K10

    灰太狼的数据世界(三)

    那么今天我们就来了解Pandas里面的另一个数据结构-----DataFrame。 ? DataFrame拆开的英文意思是数据框架。事实上它就是一个数据框架,一个类似于数据库中表一样的结构。 ?...比如说我们现在有这样一张表,那么把这张表做成dataframe,先把每一列都提取出来,然后将这些在列的数据都放到一个大的集合里,在这里我们使用字典。...读出来的数据就是一个dataframe,可以直接对他进行操作。 如果想获取前几行值可以直接使用head方法,或者切片,都是可以拿到前两行的值的。...在DataFrame中增加一列,我们可以直接给值来增加一列,就和python的字典里面添加元素是一样的: import pandas as pd import numpy as np val = np.arange...df.count()#非空元素计算 df.min()#最小值 df.max()#最大值 df.idxmin()#最小值的位置,类似于R中的which.min函数 df.idxmax()#最大值的位置,类似于

    2.8K30

    利用NumPy和Pandas进行机器学习数据处理与分析

    Numpy的索引从0开始,可以使用整数、切片或布尔数组作为索引,例如print(arr[0]) # 输出第一个元素print(arr[1:3]) # 输出第二个和第三个元素print(arr[arr...)print(data)运行结果如下在这个例子中,我们创建了一个包含整数和NaN值的Series。...每个值都有一个与之关联的索引,它们以0为起始。Series的数据类型由pandas自动推断得出。什么是DataFrame?...)print(df)运行结果如下在这个例子中,我们使用一个字典来创建DataFrame。...例如,要访问DataFrame中的一列数据,可以使用列名:# 访问列print(df['Name'])运行结果如下要访问DataFrame中的一行数据,可以使用iloc和loc方法:# 访问行print

    28620

    numpy与pandas

    ,若一个是矩阵,另一个是数,就是矩阵中的每个元素乘以这个数c_dot = np.dot(d,e) # 线性代数中矩阵乘法,还可以这么写:c_dot = a.dot(b);dot 函数用于矩阵乘法,对于二维数组...(a) # a矩阵所有元素平均值,还可以加权平均np.median(a) # a矩阵中所有元素中位数np.cumsum(a) # a矩阵中累加,新矩阵第一个位置是原来的值,第二个是原来第一个加原来第二个...,新第三个=原第一+原第二+原第三,以此类推np.cumsum(a) # a矩阵相邻元素差,新第一个=原第二个-原第一个,新第二个=原第三个-原第二个,最右边只有一个元素的话就不运算,不放入新矩阵,结果...# 列的名字df.values # df中的值,得到的是ndarray类型的值df.describe() # 默认是描述数字类型的属性,目的在于观察这一系列数据的范围、大小、波动趋势等等(只运算矩阵)...第五列,第一列到第三列(不包括)(从0开始,左闭右开)# 注:ix标签与位置混合选择(现在已经被弃用)df[df.A列中小于8的值对于数据与其他列保留形成新dataframe"""""

    12110

    Python 中类似 tidyverse 的数据处理工具

    Python 中类似 tidyverse 的数据处理工具在 Python 中,有许多类似于 R 的 tidyverse 的数据处理工具包,尽管它们没有完全整合在一个生态系统中,但它们可以组合使用,达到类似...Polars对应 tidyverse 的核心功能:类似于 pandas,但更加高效。功能特点:Polars 是一个快速、并行化的 DataFrame 库,提供类似 pandas 的 API。...示例代码:import polars as pl# 创建数据data = pl.DataFrame({'name': ['A', 'B', 'C'], 'value': [10, 20, 30]})#...Pyjanitor对应 tidyverse 的功能:类似于 tidyr,用于数据整理。功能特点:基于 pandas,提供额外的清洗和操作方法,如列清理、拆分合并等。...如何组合这些工具实现类似 tidyverse 的功能?可以将上述工具组合使用来构建类似于 R 的 tidyverse 工作流。例如:使用 pandas 或 polars 进行数据操作。

    18200

    在Pandas中更改列的数据类型【方法总结】

    例如,上面的例子,如何将列2和3转为浮点数?有没有办法将数据转换为DataFrame格式时指定类型?或者是创建DataFrame,然后通过某种方法更改每列的类型?...理想情况下,希望以动态的方式做到这一点,因为可以有数百个列,明确指定哪些列是哪种类型太麻烦。可以假定每列都包含相同类型的值。...解决方法 可以用的方法简单列举如下: 对于创建DataFrame的情形 如果要创建一个DataFrame,可以直接通过dtype参数指定类型: df = pd.DataFrame(a, dtype='float...对于多列或者整个DataFrame 如果想要将这个操作应用到多个列,依次处理每一列是非常繁琐的,所以可以使用DataFrame.apply处理每一列。...例如,用两列对象类型创建一个DataFrame,其中一个保存整数,另一个保存整数的字符串: >>> df = pd.DataFrame({'a': [7, 1, 5], 'b': ['3','2','1

    20.4K30

    整理了 25 个 Pandas 实用技巧,拿走不谢!

    从剪贴板中创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet中,你又想要尽快地将他们读取至DataFrame中。 你需要选择这些数据并复制至剪贴板。...或者你想要舍弃那么缺失值占比超过10%的列,你可以给dropna()设置一个阈值: ? len(ufo)返回总行数,我们将它乘以0.9,以告诉pandas保留那些至少90%的值不是缺失值的列。...将一个字符串划分成多个列 我们先创建另一个新的示例DataFrame: ? 如果我们需要将“name”这一列划分为三个独立的列,用来表示first, middle, last name呢?...将一个由列表组成的Series扩展成DataFrame 让我们创建一个新的示例DataFrame: ? 这里有两列,第二列包含了Python中的由整数元素组成的列表。...我们现在隐藏了索引,将Close列中的最小值高亮成红色,将Close列中的最大值高亮成浅绿色。 这里有另一个DataFrame格式化的例子: ?

    3.2K10

    上手Pandas,带你玩转数据(1)-- 实例详解pandas数据结构

    Series 创建序列 访问序列 DataFrame 创建DataFrame 访问DataFrame 列处理 行处理 panel 创建Panel 从panel中选择数据 基本方法速查 Series...如果 索引 被传递, 索引 中的标签对应的数据值将被取出。...这只有在没有通过索引的情况下才是正确的。 dtype:每列的数据类型。 copy:如果默认值为False,则使用该命令(或其它)复制数据。...---- 创建DataFrame 创建一个空的DataFrame:df = pd.DataFrame() ---- 从列表中创建一个DataFrame: data = [1,2,3,4,5] df =...---- DataFrame基本方法 属性或方法 描述 Ť 转置行和列。 axes 以行轴标签和列轴标签作为唯一成员返回列表。 dtypes 返回此对象中的dtypes。

    6.7K30

    Python 数据处理:Pandas库的使用

    计算并集 isin 计算一个指示各值是否都包含在参数集合中的布尔型数组 delete 删除索引i处的元素,并得到新的Index drop 删除传入的值,并得到新的Index insert 将元素插入到索引...向[ ]传递单一的元素或列表,就可选择列。...它们可以让你用类似 NumPy 的标记,使用轴标签(loc)或整数索引(iloc),从DataFrame选择行和列的子集。...- df2) ---- 2.7 在算术方法中填充值 在对不同索引的对象进行算术运算时,你可能希望当一个对象中某个轴标签在另一个对象中找不到时填充一个特殊值(比如0): import pandas...: 方法 描述 isin 计算一个表示“Series各值是否包含于传入的值序列中”的布尔型数组 match 计算一个数组中的各值到另一个不同值数组的整数索引;对于数据对齐和连接类型的操作十分有用 unique

    22.8K10

    Python 金融编程第二版(二)

    ② 打开文件以读取二进制数据… ③ …并在b对象中读取五个元素。 ④ 使用类型代码double创建一个新的array对象。 ⑤ 从文件中读取两个元素。 ⑥ 类型代码的差异导致“错误”的数字。...② 选择第一行。 ③ 选择第一行的第三个元素;在括号内,索引由逗号分隔。 ④ 选择第二列。 ⑤ 计算所有值的总和。 ⑥ 沿第一个轴计算总和,即按列计算。 ⑦ 沿第二轴计算总和,即按行计算。...结构化数组的一个优点是,列的单个元素可以是另一个多维对象,不必符合基本的NumPy数据类型。...对象创建另一个新列。...② 检查x列中的值是否为正且y列中的值是否为负。 ③ 检查x列中的值是否为正或y列中的值是否为负。 使用结果布尔Series对象,复杂数据(行)的选择很简单。

    20410

    Python 数据分析(PYDA)第三版(二)

    另一个函数numpy.in1d测试一个数组中的值在另一个数组中的成员资格,返回一个布尔数组: In [229]: values = np.array([6, 0, 0, 3, 2, 5, 6]) In...重新索引 pandas 对象上的一个重要方法是reindex,它意味着创建一个新对象,其值重新排列以与新索引对齐。...正如我们稍后将在使用 loc 和 iloc 在 DataFrame 上进行选择中探讨的,您也可以通过使用loc运算符重新索引,许多用户更喜欢始终以这种方式进行操作。...将单个元素或列表传递给[]运算符将选择列。 另一个用例是使用布尔 DataFrame 进行索引,比如通过标量比较生成的 DataFrame。...在不同索引对象之间的算术操作中,当一个对象中找到一个轴标签而另一个对象中没有时,您可能希望填充一个特殊值,比如 0。

    29400

    pandas入门:Series、DataFrame、Index基本操作都有了!

    表示列标签(列名)。默认为None 创建DataFrame的方法有很多,常见的一种是传入一个由等长list或ndarray组成的dict。...values:以ndarray的格式返回DataFrame对象的所有元素 index:返回DataFrame对象的Index columns:返回DataFrame对象的列标签 dtypes:返回DataFrame...代码清单6-19 访问Index属性 print('series中Index各元素是否大于前一个:', series.index.is_monotonic) #输出:series中Index各元素是否大于前一个...:计算两个Index对象的并集 isin:计算一个Index是否在另一个Index,返回bool数组 delete:删除指定Index的元素,并得到新的Index drop:删除传入的值,并得到新的Index...insert:将元素插入到指定Index处,并得到新的Index unique:计算Index中唯一值的数组 应用Index对象的常用方法如代码清单6-20所示。

    4.6K30

    【Python环境】Python中的结构化数据分析利器-Pandas简介

    -- more --> 创建DataFrame 首先引入Pandas及Numpy: import pandas as pdimport numpy as np 官方推荐的缩写形式为pd,你可以选择其他任意的名称...或者以数据库进行类比,DataFrame中的每一行是一个记录,名称为Index的一个元素,而每一列则为一个字段,是这个记录的一个属性。...创建DataFrame有多种方式: 以字典的字典或Series的字典的结构构建DataFrame,这时候的最外面字典对应的是DataFrame的列,内嵌的字典及Series则是其中每个值。...从列表的字典构建DataFrame,其中嵌套的每个列表(List)代表的是一个列,字典的名字则是列标签。这里要注意的是每个列表中的元素数量应该相同。...只是思路略有不同,一个是以列为单位构建,将所有记录的不同属性转化为多个Series,行标签冗余,另一个是以行为单位构建,将每条记录转化为一个字典,列标签冗余。

    15.1K100

    一个数据集全方位解读pandas

    四、访问DataFrame元素 由于DataFrame由一系列对象组成,所以可以使用相同的上面的方法来访问它的元素。关键的区别是DataFrame还有一些附加维度。...五、查询数据集 现在我们已经了解了如何根据索引访问大型数据集的子集。现在,我们继续基于数据集列中的值选择行以查询数据。例如,我们可以创建一个DataFrame仅包含2010年之后打过的比赛。...仅包含其中列中的值"year_id"大于的行2010。...我们还可以使用其他方法,例如.min()和.mean()。但是需要记住,DataFrame的列实际上是一个Series对象。...九、数据清洗 数据清洗主要是对空值与无效值或者异常值等数据进行处理。我们以缺失值为例。 处理包含缺失值的记录的最简单方法是忽略它们。

    7.4K20
    领券