首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

对比Excel,更强大的Python pandas筛选

与Excel中的筛选类似,我们还可以在数据框架上应用筛选,唯一的区别是Python pandas中的筛选功能更强大、效率更高。...如果不需要新数据框架中的所有列,只需将所需的列名传递到.loc[]中即可。例如,仅需要选择最新排名、公司名称和营业收入,我们可以执行以下操作。注意,它只返回我们指定的3列。...上面的代码行翻译为:对于每一行,如果“总部所在国家”是“中国”,则评估为Ture,否则为False。 为了更好地形象化这个思想,让我展示一下在Excel中它是什么样子。...当你将这个布尔索引传递到df.loc[]中时,它将只返回有真值的行(即,从Excel筛选中选择1),值为False的行将被删除。...在现实生活中,我们经常需要根据多个条件进行筛选,接下来,我们将介绍如何在pandas中进行一些高级筛选。

3.9K20

【Python环境】Python中的结构化数据分析利器-Pandas简介

或者以数据库进行类比,DataFrame中的每一行是一个记录,名称为Index的一个元素,而每一列则为一个字段,是这个记录的一个属性。...创建DataFrame有多种方式: 以字典的字典或Series的字典的结构构建DataFrame,这时候的最外面字典对应的是DataFrame的列,内嵌的字典及Series则是其中每个值。...否则会报错: ValueError: arrays must all be same length 从字典的列表构建DataFrame,其中每个字典代表的是每条记录(DataFrame中的一行),字典中每个值对应的是这条记录的相关属性...(可选参数,默认为所有列标签),两个参数既可以是列表也可以是单个字符,如果两个参数都为列表则返回的是DataFrame,否则,则为Series。...关于Panda作图,请查看另一篇博文:用Pandas作图 以上是关于Pandas的简单介绍,其实除了Pandas之外,Python还提供了多个科学计算包,比如Numpy,Scipy,以及数据挖掘的包:Scikit

15.1K100
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python 中的 pandas 快速上手之:概念初识

    有了 Pandas ,我们不用手动一行一行地读取数据,也不用手动将数据装进 Python 可以使用的数据结构中。Pandas 可以自动帮我们完成这些重复的工作,节省了大量时间和精力。...如果只用Python内置的库,你得自己先把整个 csv 文件读进内存,然后一行行遍历所有数据,计算每个时间戳与目标时间的差值,使用二分查找定位找到需要的值, 找出差值最小的那一行。...它包含多个按列排列的 Series 对象,每列可以有不同的数据类型(这里是字符串和浮点数)。行和列都有标签索引(这里行是 0 1 2,列是 Name Age Weight)。...Index: 在这个DataFrame中,有两个Index: 1.行索引(Row Index) 这里的行索引是 0, 1, 2, 它标识了 DataFrame 中的每一行记录 2.列索引(Column...总之, Index 是 Pandas 中的关键概念, DataFrame 有行索引和列索引,允许我们方便地引用数据。

    14410

    使用Python将一个Excel文件拆分成多个Excel文件

    标签:Python,pandas库,openpyxl库 本文展示如何使用Python将Excel文件拆分为多个文件。拆分Excel文件是一项常见的任务,手工操作非常简单。...筛选数据 在pandas数据框架中筛选数据很容易。有几种方法,但我们将使用最简单的一种。 假设我们想通过选择所有空调销售来筛选数据,如下所示。...图2 查找分类 接下来,我们需要从数据中提取类别,它们基本上是产品名称列中的值。可以简单地返回该列中的所有唯一值。...图3 拆分Excel工作表为多个工作表 如上所示,产品名称列中的唯一值位于一个数组内,这意味着我们可以循环它来检索每个值,例如“空调”、“冰箱”等。然后,可以使用这些值作为筛选条件来拆分数据集。...图4 图5 使用Python拆分Excel工作簿为多个Excel工作簿 如果需要将数据拆分为不同的Excel文件(而不是工作表),可以稍微修改上面的代码,只需将每个类别的数据输出到自己的文件中。

    3.7K31

    合并多个Excel文件,Python相当轻松

    标签:Python与Excel,pandas 下面是一个应用场景: 我在保险行业工作,每天处理大量数据。有一次,我受命将多个Excel文件合并到一个“主电子表格”中。...每个Excel文件都有不同的保险单数据字段,如保单编号、年龄、性别、投保金额等。这些文件有一个共同的列,即保单ID。...我可以使用VLOOKUP查找每个“保险ID”的值,并将所有数据字段合并到一个电子表格中!...图5:pandas数据框架,看起来就像Excel电子表格一样 pandas有一个方法.merge()来高效地合并多个数据集。...有两个“保单现金值”列,保单现金值_x(来自df_2)和保单现金值_y(来自df_3)。当有两个相同的列时,默认情况下,pandas将为列名的末尾指定后缀“_x”、“_y”等。

    3.8K20

    Python科学计算之Pandas

    在Pandas中,一个条目等同于一行,所以我们可以通过len方法获取数据的行数,即条目数。 ? 这将给你一个整数告诉你数据的行数。在我的数据集中,我有33行。...好,我们也可以在Pandas中做同样的事。 ? 上述代码将范围一个布尔值的dataframe,其中,如果9、10月的降雨量低于1000毫米,则对应的布尔值为‘True’,反之,则为’False’。...这一语句返回1990年代的所有条目。 ? 索引 前几部分为我们展示了如何通过列操作来获得数据。实际上,Pandas同样有标签化的行操作。这些行标签可以是数字或是其他标签。...在返回的series中,这一行的每一列都是一个独立的元素。 可能在你的数据集里有年份的列,或者年代的列,并且你希望可以用这些年份或年代来索引某些行。这样,我们可以设置一个(或多个)新的索引。 ?...这将会给’water_year’一个新的索引值。注意到列名虽然只有一个元素,却实际上需要包含于一个列表中。如果你想要多个索引,你可以简单地在列表中增加另一个列名。 ?

    2.9K00

    Polars:一个正在崛起的新数据框架

    df.describe()中的特征可以传递给Pandas,以便更好地显示与。...df[:10] #访问前十行。 列可以通过名称直接引用。 df['name'] #找到'name'列 可以通过向数据框架传递索引列表来选择指数。...['name'].unique() #返回列中唯一值的列表 df.dtypes() #返回数据类型 Polars也支持Groupby和排序。...plt.show() ◆ Eager和Lazy的API Polars的Eager和Lazy APIs Polars(引申为Pandas)默认采用了Eager的运行,这意味着函数会实时映射到每个数据。...总的来说,Polars可以为数据科学家和爱好者提供更好的工具,将数据导入到数据框架中。有很多Pandas可以做的功能目前在Polars上是不存在的。在这种情况下,强烈建议将数据框架投向Pandas。

    5.2K30

    Pandas图鉴(二):Series 和 Index

    第二,保留原始标签是一种与过去某个时刻保持联系的方式,就像 "保存游戏" 按钮。如果你有一个有一百列和一百万行的大表,需要找到一些数据。...Pandas没有像关系型数据库那样的 "唯一约束"(该功能[4]仍在试验中),但它有一些函数来检查索引中的值是否唯一,并以各种方式删除重复值。 有时,但一索引不足以唯一地识别某行。...Pandas有df.insert方法,但它只能将列(而不是行)插入到数据框架中(而且对序列根本不起作用)。...由于系列中的每个元素都可以通过标签或位置索引来访问,所以有一个argmin(argmax)的姐妹函数,叫做idxmin(idxmax),如图所示: 下面是Pandas的自描述性统计函数的列表,供参考:...字符串和正则表达式 几乎所有的Python字符串方法在Pandas中都有一个矢量的版本: count, upper, replace 当这样的操作返回多个值时,有几个选项来决定如何使用它们: split

    33720

    Python 数据处理:Pandas库的使用

    通过标签选取行或列 get_value, set_value 通过行和列标签选取单一值 ---- 2.5 整数索引 处理整数索引的 Pandas 对象常常难住新手,因为它与 Python 内置的列表和元组的索引语法不同...时,你可能希望根据一个或多个列中的值进行排序。...,它可以得到Series中的唯一值数组: uniques = obj.unique() print(uniques) 返回的唯一值是未排序的,如果需要的话,可以对结果再次进行排序(uniques.sort...计算Series中的唯一值数组,按发现的顺序返回 value_counts 返回一个Series,其索引为唯一值,其值为频率,按计数值降序排列 有时,你可能希望得到DataFrame中多个相关列的一张柱状图...后面的频率值是每个列中这些值的相应计数。

    22.8K10

    python数据科学系列:pandas入门详细教程

    ,可通过axis参数设置是按行删除还是按列删除 替换,replace,非常强大的功能,对series或dataframe中每个元素执行按条件替换操作,还可开启正则表达式功能 2 数值计算 由于pandas...对象,功能与python中的普通map函数类似,即对给定序列中的每个值执行相同的映射操作,不同的是series中的map接口的映射方式既可以是一个函数,也可以是一个字典 ?...,要求每个df内部列名是唯一的,但两个df间可以重复,毕竟有相同列才有拼接的实际意义) merge,完全类似于SQL中的join语法,仅支持横向拼接,通过设置连接字段,实现对同一记录的不同列信息连接,支持...;sort_values是按值排序,如果是dataframe对象,也可通过axis参数设置排序方向是行还是列,同时根据by参数传入指定的行或者列,可传入多行或多列并分别设置升序降序参数,非常灵活。...相关阅读: python数据科学系列:matplotlib入门详细教程 python数据科学系列:numpy入门详细教程 一句SQL,我有6种写法 分享几道LeetCode中的MySQL题目解法 听说数据分析师挺火

    15K20

    Python代码实操:详解数据清洗

    更有效的是,如果数据中的缺失值太多而无法通过列表形式穷举时,replace 还支持正则表达式的写法。 当列中的数据全部为空值时,任何替换方法都将失效,任何基于中位数、众数和均值的策略都将失效。...在判断逻辑中,对每一列的数据进行使用自定义的方法做Z-Score值标准化得分计算,然后与阈值2.2做比较,如果大于阈值则为异常。...判断方法为 df.duplicated(),该方法中两个主要的参数是 subset 和 keep。 subset:要判断重复值的列,可以指定特定列或多个列。默认使用全部列。...Python自带的内置函数 set 方法也能返回唯一元素的集合。 上述过程中,主要需要考虑的关键点是:如何对重复值进行处理。...在电子商务、零售、银行、保险等多个行业拥有丰富的数据项目工作经验。 本文摘编自《Python数据分析与数据化运营》(第2版),经出版方授权发布。

    5K20

    懂Excel轻松入门Python数据分析包pandas(二十一):透视表

    后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 本系列上一节文章最后我随手使用了 pandas 中的透视表操作,之后有些小伙伴询问我相关的问题。...行标签,survived 字段拖入 列标签 - 还需要统计人数,人名总是有的,因此把 name 字段拖入 数值区域 - 透视表立刻出结果,行标签 放入的字段的唯一值,被显示在透视表左侧。...列标签 放入的字段的唯一值,被显示在透视表的上方 只看数值看不出门路,设置百分比吧: - 点中透视表任意一格,鼠标右键 - 按上图指示完成 - 女性 生还率远高于 男性!!...很简单,pivot_table 中的大部分参数都可以放入多个字段(跟 Excel 透视表操作一样): - index 参数传入多个字段的列表 从结果看到,每个等级的船舱还是"女性比男性更可能生还" "...解决思路就是:把 ticket 列内容相同的归为一组,组内有多于1行记录的,就是有小伙伴一起上船的 相信一直看本系列的小伙伴马上就知道,这在 pandas 中不就是分组操作吗!

    1.7K20

    没错,这篇文章教你妙用Pandas轻松处理大规模数据

    Pandas 中的许多类型包含了多个子类型,因此可以使用较少的字节数来表示每个值。例如,float 类型就包含 float16、float32、float64 等子类型。...当每个指针占用一字节的内存时,每个字符的字符串值占用的内存量与 Python 中单独存储时相同。...你可以看到,每个唯一值都被分配了一个整数,并且该列的底层数据类型现在是 int8。该列没有任何缺失值,如果有的话,这个 category 子类型会将缺省值设置为 -1。...当对象列中少于 50% 的值时唯一对象时,我们应该坚持使用 category 类型。但是如果这一列中所有的值都是唯一的,那么 category 类型最终将占用更多的内存。...我们将编写一个循环程序,遍历每个对象列,检查其唯一值的数量是否小于 50%。如果是,那么我们就将这一列转换为 category 类型。

    3.7K40

    懂Excel轻松入门Python数据分析包pandas(二十一):透视表

    后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 本系列上一节文章最后我随手使用了 pandas 中的透视表操作,之后有些小伙伴询问我相关的问题。...行标签,survived 字段拖入 列标签 - 还需要统计人数,人名总是有的,因此把 name 字段拖入 数值区域 - 透视表立刻出结果,行标签 放入的字段的唯一值,被显示在透视表左侧。...列标签 放入的字段的唯一值,被显示在透视表的上方 只看数值看不出门路,设置百分比吧: - 点中透视表任意一格,鼠标右键 - 按上图指示完成 - 女性 生还率远高于 男性!!...很简单,pivot_table 中的大部分参数都可以放入多个字段(跟 Excel 透视表操作一样): - index 参数传入多个字段的列表 从结果看到,每个等级的船舱还是"女性比男性更可能生还" "...解决思路就是:把 ticket 列内容相同的归为一组,组内有多于1行记录的,就是有小伙伴一起上船的 相信一直看本系列的小伙伴马上就知道,这在 pandas 中不就是分组操作吗!

    1.2K50

    Python库pandas下载、安装、配置、用法、入门教程 —— `read_csv()`用法详解

    安装和配置Pandas 在开始使用Pandas之前,你需要确保环境中已安装了Python和Pandas。 1.1 安装Python 如果尚未安装Python,可以从Python官网下载并安装。...高级用法 3.1 处理缺失值 如果文件中包含缺失值,read_csv()可以自动将其处理为NaN: df = pd.read_csv("example.csv", na_values=["?"])...你还可以指定多个缺失值标志: df = pd.read_csv("example.csv", na_values=["NA", "NULL", "?"])...总结 通过本文的学习,我们从Pandas安装开始,深入了解了read_csv()函数的基本和高级用法。无论是基础参数,还是处理缺失值与分块读取的技巧,都能帮助你在数据分析中快速上手。...如果你对本文内容有任何疑问,或者想了解更多的Python和Pandas知识,欢迎添加我的微信,让我们一起学习和进步! 参考资料 Pandas官方文档 Python官网 Python数据分析从零入门

    33810

    Python pandas十分钟教程

    Pandas是数据处理和数据分析中最流行的Python库。本文将为大家介绍一些有用的Pandas信息,介绍如何使用Pandas的不同函数进行数据探索和操作。...import pandas as pd pandas在默认情况下,如果数据集中有很多列,则并非所有列都会显示在输出显示中。...统计某列数据信息 以下是一些用来查看数据某一列信息的几个函数: df['Contour'].value_counts() : 返回计算列中每个值出现次数。....unique():返回'Depth'列中的唯一值 df.columns:返回所有列的名称 选择数据 列选择:如果只想选择一列,可以使用df['Group']....数据清洗 数据清洗是数据处理一个绕不过去的坎,通常我们收集到的数据都是不完整的,缺失值、异常值等等都是需要我们处理的,Pandas中给我们提供了多个数据清洗的函数。

    9.8K50

    《Python for Excel》读书笔记连载12:使用pandas进行数据分析之理解数据

    默认情况下,它们返回沿轴axis=0的系列,这意味着可以获得列的统计信息: 如果需要每行的统计信息,使用axis参数: 默认情况下,缺失值不包括在描述性统计信息(如sum或mean)中,这与Excel...在数据框架的所有行中获取统计信息有时不够好,你需要更细粒度的信息,例如,每个类别的均值,这是下面的内容。 分组 再次使用我们的示例数据框架df,让我们找出每个大陆的平均分数。...为此,首先按洲对行进行分组,然后应用mean方法,该方法将计算每组的均值,自动排除所有非数字列: 如果包含多个列,则生成的数据框架将具有层次索引,即我们前面遇到的多重索引: 可以使用pandas提供的大多数描述性统计信息...Region)的唯一值,并将其转换为透视表的列标题,从而聚合来自另一列的值。...这使得跨感兴趣的维度读取摘要信息变得容易。在我们的数据透视表中,会立即看到,在北部地区没有苹果销售,而在南部地区,大部分收入来自橙子。如果要反过来将列标题转换为单个列的值,使用melt。

    4.3K30

    删除重复值,不只Excel,Python pandas更行

    第3行和第4行包含相同的用户名,但国家和城市不同。 删除重复值 根据你试图实现的目标,我们可以使用不同的方法删除重复项。最常见的两种情况是:从整个表中删除重复项或从列中查找唯一值。...如果我们指定inplace=True,那么原始的df将替换为新的数据框架,并删除重复项。 图5 在列表或数据表列中查找唯一值 有时,我们希望在数据框架列的列表中查找唯一值。...我的意思是,虽然我们可以这样做,但是有更好的方法找到唯一值。 pandas Series vs pandas数据框架 对于Excel用户来说,很容易记住他们之间的差异。...当我们对pandas Series对象调用.unique()时,它将返回该列中唯一元素的列表。...图7 Python集 获取唯一值的另一种方法是使用Python中的数据结构set,集(set)基本上是一组唯一项的集合。由于集只包含唯一项,如果我们将重复项传递到集中,这些重复项将自动删除。

    6.1K30

    Pandas图鉴(三):DataFrames

    它由许多系列对象组成(有一个共享的索引),每个对象代表一个列,可能有不同的dtypes。...还有两个创建DataFrame的选项(不太有用): 从一个dict的列表中(每个dict代表一个行,它的键是列名,它的值是相应的单元格值)。...注意:要小心,如果第二个表有重复的索引值,你会在结果中出现重复的索引值,即使左表的索引是唯一的 有时,连接的DataFrame有相同名称的列。...用drop删除行的速度出奇的慢,如果原始标签不是唯一的,就会导致错综复杂的bug。...一列范围内的用户函数唯一可以访问的是索引,这在某些情况下是很方便的。例如,那一天,香蕉以50%的折扣出售,这可以从下面看到: 为了从自定义函数中访问group by列的值,它被事先包含在索引中。

    44420

    Pandas速查卡-Python数据科学

    如果你对pandas的学习很感兴趣,你可以参考我们的pandas教程指导博客(http://www.dataquest.io/blog/pandas-python-tutorial/),里面包含两大部分的内容...col2和col3的平均值 df.groupby(col1).agg(np.mean) 查找每个唯一col1组的所有列的平均值 data.apply(np.mean) 在每个列上应用函数 data.apply...1) 将df1中的列添加到df2的末尾(行数应该相同) df1.join(df2,on=col1,how='inner') SQL类型的将df1中的列与df2上的列连接,其中col的行具有相同的值。...df.describe() 数值列的汇总统计信息 df.mean() 返回所有列的平均值 df.corr() 查找数据框中的列之间的相关性 df.count() 计算每个数据框的列中的非空值的数量 df.max...() 查找每个列中的最大值 df.min() 查找每列中的最小值 df.median() 查找每列的中值 df.std() 查找每个列的标准差 点击“阅读原文”下载此速查卡的打印版本 END.

    9.2K80
    领券