首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

Series 序列是表示 DataFrame 的一列的数据结构。使用序列类似于引用电子表格的列。 4. Index 每个 DataFrame 和 Series 都有一个索引,它们是数据行上的标签。...在 Pandas 中,索引可以设置为一个(或多个)唯一值,这就像在工作表中有一列用作行标识符一样。与大多数电子表格不同,这些索引值实际上可用于引用行。...索引值也是持久的,所以如果你对 DataFrame 中的行重新排序,特定行的标签不会改变。 5. 副本与就地操作 大多数 Pandas 操作返回 Series/DataFrame 的副本。...限制输出 Excel电子表格程序一次只显示一屏数据,然后允许您滚动,因此实际上没有必要限制输出。在 Pandas 中,您需要更多地考虑控制 DataFrame 的显示方式。...列的选择 在Excel电子表格中,您可以通过以下方式选择所需的列: 隐藏列; 删除列; 引用从一个工作表到另一个工作表的范围; 由于Excel电子表格列通常在标题行中命名,因此重命名列只需更改第一个单元格中的文本即可

19.6K20

1000+倍!超强Python『向量化』数据处理提速攻略

作者:Cheever 编译:1+1=6 今天公众号给大家好好讲讲基于Pandas和NumPy,如何高速进行数据处理! 1 向量化 1000倍的速度听起来很夸张。Python并不以速度著称。...一些人认为这更快:使用index设置,但事实证明它实际上不是向量化! 代码如下: 4 Multiple conditions 类似这样的多个if/elif/elifs,如何向量化呢?...1、字符串 假设你需要在一系列文本中搜索特定的模式,如果匹配,则创建一个新的series。这是一种.apply方法。...这和最终结果是一样的,只是下面的那个代码更长。 4、使用来自其他行的值 在这个例子中,我们从Excel中重新创建了一个公式: 其中A列表示id,L列表示日期。...Dask是在Pandas API中工作的一个不错的选择。能够跨集群扩展到TB级的数据,或者甚至能够更有效地在一台机器上处理多核数据。 6 总结 向量化可以极大地加快速度!

6.8K41
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    30 个小例子帮你快速掌握Pandas

    这些方法根据索引或标签选择行和列。 loc:带标签选择 iloc:用索引选择 先创建20个随机indices。...df.isna().sum().sum() --- 0 9.根据条件选择行 在某些情况下,我们需要适合某些条件的观察值(即行)。例如,下面的代码将选择居住在法国并且已经流失的客户。...method参数指定如何处理具有相同值的行。first表示根据它们在数组(即列)中的顺序对其进行排名。 21.列中唯一值的数量 使用分类变量时,它很方便。我们可能需要检查唯一类别的数量。...29.根据字符串过滤 我们可能需要根据文本数据(例如客户名称)过滤观察结果(行)。我已经将虚构名称添加到df_new DataFrame中。 ? 让我们选择客户名称以Mi开头的行。...endswith函数根据字符串末尾的字符进行相同的过滤。 Pandas可以对字符串进行很多操作。

    10.8K10

    Pandas 秘籍:1~5

    如果要选择所有整数和浮点数,而不管它们的大小如何,请使用字符串number。 另见 请参阅第 1 章,“Pandas 基础”,“了解数据类型”。 很少使用的select方法还可以根据列名选择它们。...逗号左侧的选择始终根据行索引选择行。 逗号右边的选择始终根据列索引选择列。 不必同时选择行和列。 步骤 2 显示了如何选择所有行和列的子集。 冒号表示一个切片对象,该对象仅返回该维度的所有值。...本章前面的秘籍展示了如何使用.iloc和.loc索引器选择任一维度中的序列和数据帧的子集。....jpeg)] 请注意,前面的数据帧中的第三,第四和第五行中的所有值是如何丢失的。...需要冒号:来指示所有行的选择。 冒号后面的逗号分隔行和列的选择。 实际上,通过select_dtypes方法可以更轻松地选择具有整数数据类型的列。

    37.6K10

    Pandas 2.2 中文官方教程和指南(一)

    如何从DataFrame中选择特定的行和列? 我对 35 岁以上的乘客姓名感兴趣。...当特别关注表中位置的某些行和/或列时,请在选择括号[]前使用iloc运算符。 使用loc或iloc选择特定行和/或列时,可以为所选数据分配新值。...请记住,DataFrame是二维的,具有行和列两个维度。 转到用户指南 有关索引的基本信息,请参阅用户指南中关于索引和选择数据的部分。 如何从DataFrame中筛选特定行?...如何从DataFrame中选择特定的行和列? 我对年龄大于 35 岁的乘客的姓名感兴趣。...使用iloc选择特定行和/或列时,请使用表中的位置。 您可以根据loc/iloc的选择分配新值。 前往用户指南 用户指南页面提供了有关索引和选择数据的完整概述。

    96810

    python数据分析——数据预处理

    ['col1', 'col2'], axis=1, inplace=True) 使用drop函数时要注意,需要指定axis参数来指明删除行还是删除列,同时要根据实际需求选择合适的inplace参数值。...,你可以根据具体的需求选择合适的方法进行类型转换。...通过传递行标签和列标签,我们可以定向获取特定的数据。此外,loc函数还支持切片操作,可以选择特定的行和列范围。...通过传递行标签和列标签,我们可以定向获取特定的数据。此外,loc函数还支持切片操作,可以选择特定的行和列范围。...['col1', 'col2'], axis=1, inplace=True) 使用drop函数时要注意,需要指定axis参数来指明删除行还是删除列,同时要根据实际需求选择合适的inplace参数值。

    7910

    Python代码实操:详解数据清洗

    本文示例中,主要用了几个知识点: 通过 pd.DataFrame 新建数据框。 通过 df.iloc[] 来选择特定的列或对象。 使用Pandas的 isnull() 判断值是否为空。...Imputer 方法创建一个预处理对象,其中 missing_values 为默认缺失值的字符串,默认为 NaN;示例中选择缺失值替换方法是均值(默认),还可以选择使用中位数和众数进行替换,即 strategy...上述过程中,主要需要考虑的关键点是缺失值的替换策略,可指定多种方法替换缺失值,具体根据实际需求而定,但大多数情况下均值、众数和中位数的方法较为常用。如果场景固定,也可以使用特定值(例如0)替换。...异常值的定义带有较强的主观判断色彩,具体需要根据实际情况选择。 03 重复值处理 有关重复值的处理代码分为4个部分。 1....重复值的判断相对简单,而判断之后如何处理往往不是一个技术特征明显的工作,而是侧重于业务和建模需求的工作。

    5K20

    精通 Pandas 探索性分析:1~4 全

    实际上,这是许多用户更喜欢 Excel 而不是 CSV 的主要原因之一。 幸运的是,Pandas 支持从多张纸中读取数据。...二、数据选择 在本章中,我们将学习使用 Pandas 进行数据选择的高级技术,如何选择数据子集,如何从数据集中选择多个行和列,如何对 Pandas 数据帧或一序列数据进行排序,如何过滤 Pandas 数据帧的角色...以下代码行显示我们正在选择County列的值为Queens的行: zillow.loc[zillow.County=="Queens"] 现在,让我们根据不同列的值选择特定列的所有行。...我们还了解了如何将这些方法应用于真实数据集。 我们还了解了从已读入 Pandas 的数据集中选择多个行和列的方法,并将这些方法应用于实际数据集以演示选择数据子集的方法。...我们了解了 Pandas 的filter方法以及如何在实际数据集中使用它。 我们还学习了根据从数据创建的布尔序列过滤数据的方法,并且学习了如何将过滤数据的条件直接传递给数据帧。

    28.2K10

    Pandas 学习手册中文第二版:1~5

    以下显示Missoula列中大于82度的值: 然后可以将表达式的结果应用于数据帧(和序列)的[]运算符,这仅导致返回求值为True的表达式的行: 该技术在 pandas 术语中称为布尔选择,它将构成基于特定列中的值选择行的基础...然后,我们检查了如何按索引查找数据,以及如何根据数据(布尔表达式)执行查询。 然后,我们结束了对如何使用重新索引来更改索引和对齐数据的研究。...创建数据帧期间的行对齐 选择数据帧的特定列和行 将切片应用于数据帧 通过位置和标签选择数据帧的行和列 标量值查找 应用于数据帧的布尔选择 配置 Pandas 我们使用以下导入和配置语句开始本章中的示例...访问数据帧内的数据 数据帧由行和列组成,并具有从特定行和列中选择数据的结构。 这些选择使用与Series相同的运算符,包括[],.loc[]和.iloc[]。...此外,我们看到了如何替换特定行和列中的数据。 在下一章中,我们将更详细地研究索引的使用,以便能够有效地从 pandas 对象内检索数据。

    8.3K10

    pandas入门教程

    pandas提供了快速,灵活和富有表现力的数据结构,目的是使“关系”或“标记”数据的工作既简单又直观。它旨在成为在Python中进行实际数据分析的高级构建块。...关于这一点,请自行在网络上搜索获取方法。 关于如何获取pandas请参阅官网上的说明:pandas Installation。 通常情况下,我们可以通过pip来执行安装: ?...我已经将本文的源码和测试数据放到Github上: pandas_tutorial ,读者可以前往获取。 另外,pandas常常和NumPy一起使用,本文中的源码中也会用到NumPy。...实际上,read_csv支持非常多的参数用来调整读取的参数,如下表所示: ?...更深入的内容,以后有机会我们再来一起学习。 读者也可以根据下面的链接获取更多的知识。

    2.2K20

    python数据科学系列:pandas入门详细教程

    仅支持数字索引,pandas的两种数据结构均支持标签索引,包括bool索引也是支持的 类比SQL的join和groupby功能,pandas可以很容易实现SQL这两个核心功能,实际上,SQL的绝大部分DQL...loc和iloc应该理解为是series和dataframe的属性而非函数,应用loc和iloc进行数据访问就是根据属性值访问的过程 另外,在pandas早些版本中,还存在loc和iloc的兼容结构,即...需注意的是,这里的字符串接口与python中普通字符串的接口形式上很是相近,但二者是不一样的。...两种分组聚合形式 pivot,pivot英文有"支点"或者"旋转"的意思,排序算法中经典的快速排序就是不断根据pivot不断将数据二分,从而加速排序过程。用在这里,实际上就是执行行列重整。...pivot_table,有了pivot就不难理解pivot_table,实际上它是在前者的基础上增加了聚合的过程,类似于Excel中的数据透视表功能。

    15K20

    Python进阶之Pandas入门(三) 最重要的数据流操作

    请注意,在我们的movies数据集中,Revenue和Metascore列中有一些明显的缺失值。我们将在下一讲中处理这个问题。 快速查看数据类型实际上非常有用。...假设您刚刚导入了一些JSON,而这些整数被记录为字符串。你去做一些算术,发现一个“不支持的操作数”异常,因为你不能用字符串做算术。调用.info()会很快指出,您认为所有的整数实际上都是字符串对象。...我们的movies DataFrame中有1000行和11列。 在清理和转换数据时,您将需要经常使用.shape。例如,您可能会根据一些条件过滤一些行,然后想要快速知道删除了多少行。...调用.shape确认我们回到了原始数据集的1000行。 在本例中,将DataFrames分配给相同的变量有点冗长。因此,pandas的许多方法上都有inplace关键参数。...当条件选择显示在下面时,您将看到如何做到这一点。

    2.7K20

    pandas时间序列常用方法简介

    02 转换 实际应用中,与时间格式相互转换最多的应该就是字符串格式了,这也是最为常用也最为经典的时间转换需求,pandas中自然也带有这一功能: pd.to_datetime:字符串转时间格式 dt.astype...3.分别访问索引序列中的时间和B列中的日期,并输出字符串格式 ? 03 筛选 处理时间序列的另一个常用需求是筛选指定范围的数据,例如选取特定时段、特定日期等。...实现这一目的,个人较为常用的有3种方法: 索引模糊匹配,这实际上算是pandas索引访问的一个通用策略,所以自然在时间筛选中也适用 truncate,截断函数,通过接受before和after参数,实现筛选特定范围内的数据...实际上,这是pandas行索引访问的通用策略,即模糊匹配。...05 滑动窗口 理解pandas中时间序列滑动窗口的最好方式是类比SQL中的窗口函数。实际上,其与分组聚合函数的联系和SQL中的窗口函数与分组聚合联系是一致的。

    5.8K10

    -Pandas 清洗“脏”数据(一)

    这个数据集包含了很多信息,演员、导演、预算、总输入,以及 IMDB 评分和上映时间。实际上,可以使用上百万或者更大的数据库,但是,案例数据集对于开始入门还是很好的。.../data/tmdb_5000_credits.csv') 注意,确保已经下载数据集,如果你的代码和数据集的存放结构与我的一样,直接运行就可以 否则,要根据实际的情况,修改 read_csv() 的文件路径...在我们的案例中,我们推断地区并不是很重要,所以,我们可是使用“”空字符串或其他默认值。...]) 上面的 subset 参数允许我们选择想要检查的列。...如果是多个列,可以使用列名的 list 作为参数。 删除不完整的列 我们可以上面的操作应用到列上。我们仅仅需要在代码上使用 axis=1 参数。这个意思就是操作列而不是行。

    3.9K70

    这几个方法颠覆你对Pandas缓慢的观念!

    但实际上pandas和numpy都有一个 dtypes 的概念。...实际上可以通过pandas引入itertuples和iterrows方法可以使效率更快。这些都是一次产生一行的生成器方法,类似scrapy中使用的yield用法。...这个特定的操作就是矢量化操作的一个例子,它是在Pandas中执行的最快方法。 但是如何将条件计算应用为Pandas中的矢量化运算?...一个技巧是根据你的条件选择和分组DataFrame,然后对每个选定的组应用矢量化操作。 在下一个示例中,你将看到如何使用Pandas的.isin()方法选择行,然后在向量化操作中实现上面新特征的添加。...这与我们上面的循环操作相比如何?首先,你可能会注意到不再需要apply_tariff(),因为所有条件逻辑都应用于行的选择。因此,你必须编写的代码行和调用的Python代码会大大减少。

    2.9K20

    还在抱怨pandas运行速度慢?这几个方法会颠覆你的看法

    但实际上pandas和numpy都有一个 dtypes 的概念。...实际上可以通过pandas引入itertuples和iterrows方法可以使效率更快。这些都是一次产生一行的生成器方法,类似scrapy中使用的yield用法。...这个特定的操作就是矢量化操作的一个例子,它是在Pandas中执行的最快方法。 但是如何将条件计算应用为Pandas中的矢量化运算?...一个技巧是根据你的条件选择和分组DataFrame,然后对每个选定的组应用矢量化操作。 在下一个示例中,你将看到如何使用Pandas的.isin()方法选择行,然后在向量化操作中实现上面新特征的添加。...这与我们上面的循环操作相比如何?首先,你可能会注意到不再需要apply_tariff(),因为所有条件逻辑都应用于行的选择。因此,你必须编写的代码行和调用的Python代码会大大减少。

    3.5K10

    Pandas中选择和过滤数据的终极指南

    Python pandas库提供了几种选择和过滤数据的方法,如loc、iloc、[]括号操作符、query、isin、between等等 本文将介绍使用pandas进行数据选择和过滤的基本技术和函数。...无论是需要提取特定的行或列,还是需要应用条件过滤,pandas都可以满足需求。 选择列 loc[]:根据标签选择行和列。...:根据字符串匹配条件筛选行。...提供了很多的函数和技术来选择和过滤DataFrame中的数据。...比如我们常用的 loc和iloc,有很多人还不清楚这两个的区别,其实它们很简单,在Pandas中前面带i的都是使用索引数值来访问的,例如 loc和iloc,at和iat,它们访问的效率是类似的,只不过是方法不一样

    44110

    Pandas高级数据处理:交互式数据探索

    本文将从基础到高级,逐步介绍在 Pandas 中进行交互式数据探索时常见的问题、报错及如何避免或解决这些问题。1....可以通过指定 subset 参数来选择特定列进行去重。去重后索引混乱:删除重复行后,索引可能会变得混乱。可以通过 reset_index(drop=True) 重新设置索引。...代码案例:# 检测并删除重复行df = df.drop_duplicates(subset=['id'], keep='first').reset_index(drop=True)2.2 数据类型转换在实际应用中...例如,日期列可能是字符串类型,数值列可能是对象类型。为了确保数据的一致性和准确性,应该对这些列进行适当的数据类型转换。...聚合结果不符合预期:有时聚合结果可能不符合预期,这可能是由于数据类型不一致或聚合函数选择不当。确保数据类型正确,并根据需求选择合适的聚合函数。

    11310

    数据科学 IPython 笔记本 7.7 处理缺失数据

    在本节中,我们将讨论缺失数据的一些一般注意事项,讨论 Pandas 如何选择来表示它,并演示一些处理 Python 中的缺失数据的 Pandas 内置工具。...我们将要看到,这种选择有一些副作用,但实际上在大多数相关情况下,最终都是很好的妥协。...虽然与 R 等领域特定语言中,更为统一的 NA 值方法相比,这种黑魔法可能会有些笨拙,但 Pandas 标记值方法在实践中运作良好,根据我的经验,很少会产生问题。...空值上的操作 正如我们所看到的,Pandas 将None和NaN视为基本可互换的,用于指示缺失值或空值。为了促进这个惯例,有几种有用的方法可用于检测,删除和替换 Pandas 数据结构中的空值。...检测控制 Pandas 数据结构有两种有用的方法来检测空数据:isnull()和notnull()。任何一个都返回数据上的布尔掩码。

    4.1K20

    整理了10个经典的Pandas数据查询案例

    在开始之前,先快速回顾一下Pandas中的查询函数query。查询函数用于根据指定的表达式提取记录,并返回一个新的DataFrame。表达式是用字符串形式表示的条件或条件的组合。...PANDAS中的DATAFRAME(.loc和.iloc)属性用于根据行和列标签和索引提取数据集的子集。因此,它并不具备查询的灵活性。...在后端Pandas使用eval()函数对该表达式进行解析和求值,并返回表达式被求值为TRUE的数据子集或记录。所以要过滤Pandas中的DataFrame,需要做的就是在查询函数中指定条件即可。...返回的输出将包含该表达式评估为真的所有行。 示例1 提取数量为95的所有行,因此逻辑形式中的条件可以写为 Quantity == 95 需要将条件写成字符串,即将其包装在双引号“”中。...请query()表达式已经是字符串。那么如何在另一个字符串中写一个字符串?将文本值包装在单个引号“”中,就可以了。

    24120
    领券