首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

20个能够有效提高 Pandas数据分析效率的常用函数,附带解释例子

Pandas提供了一个易于使用的函数来计算,即cumsum。 如果我们只是简单使用cumsum函数,(A,B,C)组别将被忽略。...对于这个问题有一个非常简单方便的解决方案,我们可以同时应用groupbycumsum函数。...Infer_objects Pandas支持广泛的数据类型,其中之一就是object。object包含文本或混合(数字非数字)值。但是,如果有其他选项可用,则不建议使用对象数据类型。...Describe describe函数计算数字列的基本统计信息,这些列包括计数、平均值、标准偏差、最小值最大值、中值、第一个第三个四分位数。因此,它提供了dataframe的统计摘要。 ?...inner:仅在on参数指定的列中具有相同值的行(如果未指定其它方式,则默认为 inner 方式) outer:全部列数据 left:左一dataframe的所有列数据 right:右一dataframe

5.7K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    一场pandas与SQL的巅峰大战(五)

    pandas计算累计百分比 在pandas中,提供了专门的函数来计算累计值,分别是cumsum函数,expanding函数,rolling函数。...我们一起来看一下使用三种函数计算分组不分组累计百分比的方法。 ? 1.不分组情况 cumsum函数 cumsumpandas中专门用于计算累计的函数。...直接对amt列使用cumsum函数即可计算累计值,结果用SQL计算得到的一致。 计算累计的百分比也很容易。...参数min_periods表示最小的观测窗口,默认为1,可以设置为其他值,但如果窗口内记录数不足该值,则会显示NA。 有了累计值,计算累计的百分比,可以按照cumsum中的方法进行,此处省略。...2.分组情况 cumsum函数 #添加pandas显示设置,显示所有行 pd.set_option('display.max_rows', None) orderamt = pd.read_excel

    2.6K10

    数据分析中的可视化-常见图形

    工具:matplotlib,pandas import matplotlib.pyplot as plt import pandas as pd from pandas import Series, DataFrame...还可以指定subplots的其他参数,例如使得子图之间具有相同的x轴或者y轴(否则matplotlib会自动缩放各子图的坐标轴界限) (3)调整子图的间距 利用subplots_adjust函数可以调整各个子图之间的间距图像大小...image.png 数据分析中的常用图形: 线型图: 除了matplotlib, pandas的SeriesDataFrame都具有许多根据其自身数据组织特点来创建标准绘图的高级绘图方法。...直方图: 直方图histogram是一种可以对值的频率进行离散化显示的柱状图。可以通过调用Series或者DataFrame的hist函数得到。...密度图: 密度图经常直方图绘制在一起。它是通过计算可能会产生观测数据的连续概率分布的估计产生的。密度图也被称为KDE(kernel density estimate,核密度估计)。

    1.4K20

    《python数据分析与挖掘实战》笔记第3章

    ,指定“日期”列为索引列 data.corr() #相关系数矩阵,即给出了任意两款菜式之间的相关系数 result1=data.corr()[u'百合酱蒸凤爪'] #只显示“百合酱蒸凤爪”与其他菜式的相关系数...代码清单3-5,计算两个列向量的相关系数 # -*- coding:utf-8 -*- # 釆用Spearman方法计算两个列向量的相关系数 import pandas as pd D = pd.DataFrame...np D = pd.DataFrame (np.random.randn(6, 5)) #产生6X5随机矩阵 D.cov() #计算协方差矩阵 result=D[0].cov(D[1]) #计算第一列第二列的协方差...表3-9 Pandas累积统计特征函数 方法名 函数功能 所属库 cumsum() 依次给出前1、2、…、n个数的 Pandas cumprod() 依次给出前1、2、…、n个数的积 Pandas cummax...Series对象的方法而出现的,因此命令格式为 D.cumsum(),而rolling_系列是pandas的函数,不是DataFrame或Series对象的方法,因此,它们的使用格式为pd.rolling_mean

    2.1K20

    Pandas知识点-统计运算函数

    Pandas中,数据的获取逻辑是“先列后行”,所以max()默认返回每一列的最大值,axis参数默认为0,如果将axis参数设置为1,则返回的结果是每一行的最大值,后面介绍的其他统计运算函数同理。...在numpy中,使用argmax()argmin()获取最大值的索引最小值的索引,在Pandas中使用idxmax()idxmin(),实际上idxmax()idxmin()可以理解成对argmax...使用DataFrame数据调用mean()函数,返回结果为DataFrame中每一列的平均值,mean()与max()min()不同的是,不能计算字符串或object的平均值,所以会自动将不能计算的列省略...使用DataFrame数据调用median()函数,返回结果为DataFrame中每一列的中位数,median()也不能计算字符串或object的中位数,会自动将不能计算的列省略。 ?...为了避免数值过大,只取5个数据进行演示,返回结果为所有数据的cumsum(): 对数据累计求和。累计求和是指,对当前数据及其前面的所有数据求和。

    2.1K20

    超硬核的 Python 数据可视化教程!

    Seaborn 是一个基于matplotlib的高级可视化效果库,针对的点主要是数据挖掘机器学习中的变量特征选取,seaborn可以用短小的代码去绘制描述更多维度数据的可视化效果图 其他库还包括 Bokeh...线型图还可以加上一些标记(marker),来突出显示数据点的位置。标记也可以放在格式字符串中,但标记类型线型必须放在颜色后面。...其他参数还有: fname:含有文件路径的字符串,拓展名指定文件类型 dpi:分辨率,默认100 facecolor,edgcolor 图像的背景色,默认‘w’白色 format:显示设置文件格式('png...df = pd.DataFrame(np.random.randn(10,4).cumsum(0),columns=['A','B','C','D']) df.plot() #plot会自动为不同变量改变颜色...subplots:将各个DataFrame列绘制到单独的subplot中 sharex,sharey:共享x,y轴 figsize:控制图像大小 title:图像标题 legend:添加图例,默认显示

    5K51

    Python数据分析笔记——Numpy、Pandas

    还有abs、exp、sin、cos、log、sum、mean(算术平均数)、cumsum(所有元素的累计)、cumprod(所有元素的累计积)、sort(将元素进行排序)等函数。...如果指定了列序列、索引,则DataFrame的列会按指定顺序及索引进行排列。 也可以设置DataFrame的indexcolumns的name属性,则这些信息也会被显示出来。...也可以给某一列赋值一个列表或数组,其长度必须跟DataFrame长度相匹配。如果赋值的是一个Series,则对应的索引位置将被赋值,其他位置的值被赋予空值。...(列从0开始计数) 6、汇总和计算描述统计 就是针对数组进行常用的数学统计运算。大部分都属于约简汇总统计。 其中有求和(sum)运算、累计(cumsum)运算、平均值(mean)等运算。...7、唯一值的获取 此方法可以用于显示去重后的数据。 8、值计数 用于计算一个Series中各值出现的次数。

    6.4K80

    Pandas基本功能详解 | 轻松玩转Pandas(2)

    在  Pandas数据结构详解 | 轻松玩转Pandas(1) 介绍了 Pandas 中常用的两种数据结构 Series 以及 DataFrame,这里来看下这些数据结构都有哪些常用的功能。...# 导入相关库 import numpy as np import pandas as pd 常用的基本功能 当我们构建好了 Series DataFrame 之后,我们会经常使用哪些功能呢?...来介绍个有意思的方法:cumsum,看名字就发现它 sum 方法有关系,事实上确实如此,cumsum 也是用来求和的,不过它是用来累加求和的,也就是说它得到的结果与原始的 Series 或 DataFrame...cumsum 也可以用来操作字符串类型的对象。...Pandas 支持两种排序方式:按轴(索引或列)排序按实际值排序。 先来看下按索引排序:sort_index 方法默认是按照索引进行正序排的。

    1.7K20
    领券