首页
学习
活动
专区
圈层
工具
发布

《Pandas Cookbook》第02章 DataFrame基本操作1. 选取多个DataFrame列2. 对列名进行排序3. 在整个DataFrame上操作4. 串联DataFrame方法5. 在

选取多个DataFrame列 # 用列表选取多个列 In[2]: movie = pd.read_csv('data/movie.csv') movie_actor_director...Series再使用sum,返回整个DataFrame的缺失值的个数,返回值是个标量 In[32]: movie.isnull().sum().sum() Out[32]: 2654 # 判断整个DataFrame...强行返回每列的值,必须填入缺失值。...在DataFrame上使用运算符 # college数据集的值既有数值也有对象,整数5不能与字符串相加 In[37]: college = pd.read_csv('data/college.csv'...# 查看US News前五所最具多样性的大学在diversity_metric中的情况 In[81]: us_news_top = ['Rutgers University-Newark',

5.4K40

高效的10个Pandas函数,你都用过吗?

Query Query是pandas的过滤查询函数,使用布尔表达式来查询DataFrame的列,就是说按照列的规则进行过滤操作。...Insert Insert用于在DataFrame的指定位置中插入新的数据列。默认情况下新列是添加到末尾的,但可以更改位置参数,将新列添加到任何位置。...当然仅用cumsum函数没办法对groups (A, B, C)进行区分,所以需要结合分组函数groupby分别对(A, B, C)进行值的累加。...:间隔区间,即步长 fill_method:处理空值的方法 对df的value_1列进行增长率的计算: df.value_1.pct_change() 9....两人并列第 2 名,下一个人是第 3 名 method=min: 两人并列第 1 名,下一个人是第 3 名 method=dense: 两人并列第1名,下一个人是第 2 名 method=first: 相同值会按照其在序列中的相对位置定值

5.3K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子

    我们有三个不同的城市,在不同的日子进行测量。我们决定将这些日子表示为列中的行。还将有一列显示测量值。...我们也可以使用melt函数的var_name和value_name参数来指定新的列名。 11. Explode 假设数据集在一个观测(行)中包含一个要素的多个条目,但您希望在单独的行中分析它们。...df1和df2是基于column_a列中的共同值进行合并的,merge函数的how参数允许以不同的方式组合dataframe,如:“inner”、“outer”、“left”、“right”等。...inner:仅在on参数指定的列中具有相同值的行(如果未指定其它方式,则默认为 inner 方式) outer:全部列数据 left:左一dataframe的所有列数据 right:右一dataframe...Replace 顾名思义,它允许替换dataframe中的值。第一个参数是要替换的值,第二个参数是新值。 df.replace('A', 'A_1') ? 我们也可以在同一个字典中多次替换。

    6.9K30

    Python数据分析笔记——Numpy、Pandas库

    DataFrame既有行索引也有列索引,其中的数据是以一个或多个二维块存放的,而不是列表、字典或别的一维数据结构。...(3)获取DataFrame的值(行或列) 通过查找columns值获取对应的列。(下面两种方法) 通过索引字段ix查找相应的行。 (4)对列进行赋值处理。 对某一列可以赋一个标量值也可以是一组值。...(索引相同的进行算数运算,索引不同的被赋予空值) 4、排序和排名 根据某种条件对数据集进行排序。...obj.rank() (2)DataFrame数据结构的排序和排名 按索引值进行排列,一列或多列中的值进行排序,通过by将列名传递给sort_index. 5、缺失数据处理 (1)滤出缺失数据 使用data.dropna...8、值计数 用于计算一个Series中各值出现的次数。 9、层次化索引 层次化索引是pandas的一个重要功能,它的作用是使你在一个轴上拥有两个或多个索引级别。

    7.7K80

    Pandas基本功能详解 | 轻松玩转Pandas(2)

    在 Pandas数据结构详解 | 轻松玩转Pandas(1) 介绍了 Pandas 中常用的两种数据结构 Series 以及 DataFrame,这里来看下这些数据结构都有哪些常用的功能。...此外,如果我想要统计下某列中每个值出现的次数,如何快速实现呢?调用 value_counts 方法快速获取 Series 中每个值出现的次数。...cut 是根据每个值的大小来进行离散化的,qcut 是根据每个值出现的次数来进行离散化的。...Pandas 支持两种排序方式:按轴(索引或列)排序和按实际值排序。 先来看下按索引排序:sort_index 方法默认是按照索引进行正序排的。...索引名称 在使用 DataFrame 的过程中,经常会遇到修改列名,索引名等情况。

    2.1K20

    Pandas知识点-统计运算函数

    使用DataFrame数据调用max()函数,返回结果为DataFrame中每一列的最大值,即使数据是字符串或object也可以返回最大值。...在Pandas中,数据的获取逻辑是“先列后行”,所以max()默认返回每一列的最大值,axis参数默认为0,如果将axis参数设置为1,则返回的结果是每一行的最大值,后面介绍的其他统计运算函数同理。...根据DataFrame的数据特点,每一列的数据属性相同,进行统计运算是有意义的,而每一行数据的数据属性不一定相同,进行统计计算一般没有实际意义,极少使用,所以本文也不进行举例。...min(): 返回数据的最小值。使用DataFrame数据调用min()函数,返回结果为DataFrame中每一列的最小值,即使数据是字符串或object也可以返回最小值。...在numpy中,使用argmax()和argmin()获取最大值的索引和最小值的索引,在Pandas中使用idxmax()和idxmin(),实际上idxmax()和idxmin()可以理解成对argmax

    2.5K20

    Pandas绘图之Series和Dataframe

    0x2 修改图像属性 改变图像类型 kind参数默认为line,表示显示折线图,也可以修改这个参数的值以显示其他类型的图像: ?...显示格栅 grid参数默认为False,修改其值为True可以在图像中显示格栅: ? 增加图例和标题 label参数可以指定图像的图例,title参数可以指定图像的标题。...0x3 在一张图中画两个series数据 在一个图像中 s1 = Series(np.random.randn(10)).cumsum() s2 = Series(np.random.randn(10)...二、Dataframe绘图 0x1 生成数据并画图 dataframe本质是多个series组成的,所以对dataframe绘图其实是对多个series同时绘图 import numpy as np import...每一条折线就是一列。 0x2 改变图形属性 改变线条类型 ? 横向显示柱形图 ? 堆叠显示柱形图 ? 填充的线形图 ?

    2.7K10

    超硬核的 Python 数据可视化教程!

    映射:map 填充替换:fillna,replace 重命名轴索引:rename 将分类变量转换‘哑变量矩阵’的get_dummies函数以及在df中对某列数据取限定值等等。...text函数可以将文本绘制在指定的x,y坐标位置,还可以进行自定义格式 plt.plot(np.random.randn(1000).cumsum()) plt.text(600,10,'test ',...:在Y轴上使用对数标尺 DataFrame.plot方法的参数 DataFrame除了Series中的参数外,还有一些独有的选项。...subplots:将各个DataFrame列绘制到单独的subplot中 sharex,sharey:共享x,y轴 figsize:控制图像大小 title:图像标题 legend:添加图例,默认显示...柱状图有一个非常实用的方法: 利用value_counts图形化显示Series或者DF中各值的出现频率。

    5.5K52

    《Pandas Cookbook》第06章 索引对齐1. 检查索引2. 求笛卡尔积3. 索引爆炸4. 用不等索引填充数值5. 从不同的DataFrame追加列6. 高亮每列的最大值7. 用链式方法重现

    # 再从baseball_15中选取一些列,有相同的、也有不同的 In[45]: df_15 = baseball_15[['AB', 'R', 'H', 'HR']] df_15..../employee.csv') dept_sal = employee[['DEPARTMENT', 'BASE_SALARY']] # 在每个部门内,对BASE_SALARY进行排序...# random_salary中是有重复索引的,employee DataFrame的标签要对应random_salary中的多个标签 In[57]: employee['RANDOM_SALARY'...,用eq方法比较DataFrame的每个值和该列的最大值 In[78]: college_n.eq(college_n.max()).head() Out[78]: ?...如果再使用一次cunsum,1在每列中就只出现一次,而且会是最大值首次出现的位置: >>> college_n.eq(college_n.max()).cumsum().cumsum() ?

    3.5K10

    Pandas库常用方法、函数集合

    :合并多个dataframe,类似sql中的union pivot:按照指定的行列重塑表格 pivot_table:数据透视表,类似excel中的透视表 cut:将一组数据分割成离散的区间,适合将数值进行分类...:对每个分组应用自定义的聚合函数 transform:对每个分组应用转换函数,返回与原始数据形状相同的结果 rank:计算元素在每个分组中的排名 filter:根据分组的某些属性筛选数据 sum:计算分组的总和...describe:生成分组的描述性统计摘要 first和 last:获取分组中的第一个和最后一个元素 nunique:计算分组中唯一值的数量 cumsum、cummin、cummax、cumprod:...计算分组的累积和、最小值、最大值、累积乘积 数据清洗 dropna: 丢弃包含缺失值的行或列 fillna: 填充或替换缺失值 interpolate: 对缺失值进行插值 duplicated: 标记重复的行...astype: 将一列的数据类型转换为指定类型 sort_values: 对数据框按照指定列进行排序 rename: 对列或行进行重命名 drop: 删除指定的列或行 数据可视化 pandas.DataFrame.plot.area

    2.4K10

    numpy与pandas

    (a) # a矩阵中所有元素中位数np.cumsum(a) # a矩阵中累加,新矩阵第一个位置是原来的值,第二个是原来第一个加原来第二个,新第三个=原第一+原第二+原第三,以此类推np.cumsum(a...(a,2,axis=1) # 对列进行分割,分成两块(横向分割)(均等分割)np.array_split(a,3,axis=1) # 对a进行不等分割,分为3块np.vsplit(a,3) # 纵向上分成...# 列的名字df.values # df中的值,得到的是ndarray类型的值df.describe() # 默认是描述数字类型的属性,目的在于观察这一系列数据的范围、大小、波动趋势等等(只运算矩阵)...df.T # 与numpy相同,转置df.sort_index(axis=1,ascending=False) # 列按降序排序,相应的值位置变化df.sort_values(by='E') # 按'E...'列的值进行升序排序""""""# pandas选择数据import pandas as pdimport numpy as npdates = pd.date_range('20221111',periods

    71110

    15个基本且常用Pandas代码片段

    Pandas提供了强大的数据操作和分析功能,是数据科学的日常基本工具。在本文中,我们将介绍最常用的15个Pandas代码片段。这些片段将帮助简化数据分析任务,从数据集中提取有价值的见解。...apply() 函数允许在 DataFrame 的行或列上应用自定义函数,以实现更复杂的数据处理和转换操作。...df['Age'] = df['Age'].apply(lambda x: x * 2) 5、连接DataFrames 这里的连接主要是行的连接,也就是说将两个相同列结构的DataFrame进行连接...,也就是说根据一个或若干个相同的列,进行合并 # Merge two DataFrames left = pd.DataFrame({'key': ['A', 'B', 'C'], 'value':...它根据一个或多个列的值对数据进行重新排列和汇总,以便更好地理解数据的结构和关系。

    94210

    【愚公系列】2023年07月 Pandas数据分析(Series 和 Index)

    3 4 dtype: int64 Index 对象是 Pandas 中另一个重要的数据结构,它可以用来表示 Series 或 DataFrame 中的行或列的标签。...2.DataFrame Pandas中的DataFrame是一种二维数组对象,可以存储多种类型的数据,并且可以在每个轴上指定标签。...Pandas有df.insert方法,但它只能将列(而不是行)插入到dataframe中(并且对series不起作用)。...添加和插入的另一种方法是使用iloc对DataFrame进行切片,应用必要的转换,然后使用concat将其放回。...一个函数f,它接受一个组x(一个Series对象),并与g.transform(f)生成一个大小与x相同的Series对象(例如cumsum())。 在上面的例子中,输入数据是有序的。

    43010
    领券