首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 学习手册中文第二版:1~5

从某种意义上讲,数据帧类似于关系数据库表,因为它包含一个或多个异构类型的数据列(但对于每个相应列中的所有项目而言都是单一类型)。...将列表传递给DataFrame的[]运算符将检索指定的列,而Series将返回行。 如果列名没有空格,则可以使用属性样式进行访问: 数据帧中各列之间的算术运算与多个Series上的算术运算相同。...为了演示,以下代码使用属性表示法计算温度之间的差异: 只需通过使用数组索引器[]表示法将另一Series分配给一列即可将新列添加到DataFrame。...创建数据帧期间的行对齐 选择数据帧的特定列和行 将切片应用于数据帧 通过位置和标签选择数据帧的行和列 标量值查找 应用于数据帧的布尔选择 配置 Pandas 我们使用以下导入和配置语句开始本章中的示例...在创建数据帧时未指定列名称时,pandas 使用从 0 开始的增量整数来命名列。

8.3K10

Pandas 秘籍:6~11

为了帮助弄清它们之间的差异,请查看以下概述: concat: Pandas 函数 垂直或水平组合两个或多个 Pandas 对象 仅在索引上对齐 每当索引中出现重复项时发生错误 默认为外连接,带有内连接选项...join: 数据帧方法 水平组合两个或多个 Pandas 对象 将调用的数据帧的列或索引与其他对象的索引(而不是列)对齐 通过执行笛卡尔积来处理连接列/索引上的重复值 默认为左连接,带有内,外和右选项...如您所见,当在其索引上对齐多个数据帧时,concat通常比合并好得多。 在第 9 步中,我们切换档位以关注merge具有优势的情况。merge方法是唯一能够按列值对齐调用和传递的数据帧的方法。...在第 7 步中,我们使用merge_asof查找上一次每月犯罪计数少于Total_Goal列的时间。 更多 除了时间戳和时间增量数据类型外,pandas 还提供了时间段类型来表示确切的时间段。.../img/00323.jpeg)] 工作原理 第 1 步创建了一个小的样本数据帧,它将帮助我们说明使用 Pandas 进行的两个变量绘制和一变量绘制之间的差异。

34K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Pandas 秘籍:1~5

    请参阅第 2 章,“基本数据帧操作”的“选择多个数据帧的列”秘籍 调用序列方法 利用一维序列是所有 Pandas 数据分析的组成部分。 典型的工作流程将使您在序列和数据帧上的执行语句之间来回切换。...二、数据帧基本操作 在本章中,我们将介绍以下主题: 选择数据帧的多个列 用方法选择列 明智地排序列名称 处理整个数据帧 将数据帧方法链接在一起 将运算符与数据帧一起使用 比较缺失值 转换数据帧操作的方向...许多秘籍将与第 1 章,“Pandas 基础”中的内容类似,这些内容主要涵盖序列操作。 选择数据帧的多个列 选择单个列是通过将所需的列名作为字符串传递给数据帧的索引运算符来完成的。.../img/00028.jpeg)] 此秘籍使用多个运算符和一个数据帧将本科生的列四舍五入到最接近的百分之一。...当两个传递的数据帧相等时,此方法返回None;否则,将引发错误。 更多 让我们比较掩盖和删除丢失的行与布尔索引之间的速度差异。

    37.6K10

    嘀~正则表达式快速上手指南(下篇)

    虽然这个教程让使用正则表达式看起来很简单(Pandas在下面)但是也要求你有一定实际经验。例如,我们知道使用if-else语句来检查数据是否存在。...参照以上示例,我们输出了两种不同的结果,它们之间存在非常大的差异。正如所见, + 可以解析出整个日期而*只解析出一个空格和数字1。 接下来讲解邮件的标题。...使用 pandas 处理数据 如果使用 pandas 库处理列表中的字典 那将非常简单。每个键会变成列名, 而键值变成行的内容。 我们需要做的就是使用如下代码: ?...通过上面这行代码,使用pandas的DataFrame() 函数,我们将字典组成的 emails 转换成数据帧,并赋给变量emails_df. 就这么简单。...我们已经拥有了一个精致的Pandas数据帧,实际上它是一个简洁的表格,包含了从email中提取的所有信息。 请看下数据帧的前几行: ?

    4K10

    python数据分析笔记——数据加载与整理

    2、当文件没有标题行时 可以让pandas为其自动分配默认的列名。 也可以自己定义列名。 3、将某一列作为索引,比如使用message列做索引。通过index_col参数指定’message’。...4、要将多个列做成一个层次化索引,只需传入由列编号或列名组成的列表即可。...5、文本中缺失值处理,缺失数据要么是没有(空字符串),要么是用某个标记值表示的,默认情况下,pandas会用一组经常出现的标记值进行识别,如NA、NULL等。查找出结果以NAN显示。...也可以根据多个键(列)进行合并,用on传入一个由列名组成的列表即可。...利用drop_duplicates方法,可以返回一个移除了重复行的DataFrame. 默认情况下,此方法是对所有的列进行重复项清理操作,也可以用来指定特定的一列或多列进行。

    6.1K80

    Pandas Sort:你的 Python 数据排序指南

    最常见的数据分析是使用电子表格、SQL或pandas 完成的。使用 Pandas 的一大优点是它可以处理大量数据并提供高性能的数据操作能力。...对于文本数据,排序区分大小写,这意味着大写文本将首先按升序出现,最后按降序出现。 按具有不同排序顺序的多列排序 您可能想知道是否可以使用多个列进行排序并让这些列使用不同的ascending参数。...使用.sort_index()and之间的一个区别.sort_values()是它.sort_index()没有by参数,因为它默认在行索引上对 DataFrame 进行排序。...使用排序方法修改你的 DataFrame 在所有的例子你迄今所看到的,都.sort_values()和.sort_index()已经返回数据帧对象时,你叫那些方法。这是因为在熊猫排序不工作到位默认。...虽然这两种方法之间有很多相似之处,但通过查看它们之间的差异,可以清楚地知道使用哪一种方法来执行不同的分析任务。

    14.3K00

    python对100G以上的数据进行排序,都有什么好的方法呢

    学习 Pandas排序方法是开始或练习使用 Python进行基本数据分析的好方法。最常见的数据分析是使用电子表格、SQL或pandas 完成的。...对于文本数据,排序区分大小写,这意味着大写文本将首先按升序出现,最后按降序出现。 按具有不同排序顺序的多列排序 您可能想知道是否可以使用多个列进行排序并让这些列使用不同的ascending参数。...使用.sort_index()and之间的一个区别.sort_values()是它.sort_index()没有by参数,因为它默认在行索引上对 DataFrame 进行排序。...使用排序方法修改你的 DataFrame 在所有的例子你迄今所看到的,都.sort_values()和.sort_index()已经返回数据帧对象时,你叫那些方法。这是因为在熊猫排序不工作到位默认。...虽然这两种方法之间有很多相似之处,但通过查看它们之间的差异,可以清楚地知道使用哪一种方法来执行不同的分析任务。

    10K30

    Pandas 学习手册中文第二版:11~15

    可能需要将来自多个位置的多个客户实体的数据组合到单个 Pandas 对象中。 客户和订单实体通常与查找订单的送货地址有关。...具体而言,在本章中,我们将研究以下概念: 连接多个 Pandas 对象中的数据 合并多个 Pandas 对象中的数据 如何控制合并中使用的连接类型 在值和索引之间转换数据 堆叠和解除堆叠数据 在宽和长格式之间融合数据...合并通过在一个或多个列或行索引中查找匹配值来合并两个 Pandas 对象的数据。 然后,基于应用于这些值的类似关系数据库的连接语义,它返回一个新对象,该对象代表来自两者的数据的组合。...合并来自多个 Pandas 对象的数据 合并的一个实际示例是从订单中查找客户名称。 为了在 Pandas 中证明这一点,我们将使用以下两个DataFrame对象。...可以使用.corr()方法计算DataFrame中数据列之间的确切相关性。 这将生成代表列的变量之间所有可能相关性的矩阵。

    3.4K20

    Python探索性数据分析,这样才容易掌握

    每个州制定的标准化考试预期之间的这种差异,应该被视为州与州之间考试记录存在偏差的一个重要来源,比如参与率和平均成绩。研究可能是重要的,但采取数据驱动的方法来支持基于定性研究的主张(假设)是必要的。...下面的代码显示了必要的 import 语句: ? 使用 Pandas 库,你可以将数据文件加载到容器对象(称为数据帧, dataframe)中。...当基于多个数据集之间比较数据时,标准做法是使用(.shape)属性检查每个数据帧中的行数和列数。如图所示: ? 注意:左边是行数,右边是列数;(行、列)。...为了比较州与州之间 SAT 和 ACT 数据,我们需要确保每个州在每个数据帧中都被平等地表示。这是一次创新的机会来考虑如何在数据帧之间检索 “State” 列值、比较这些值并显示结果。...各个州的值现在在每个数据集是一致的。现在,我们可以解决 ACT 数据集中各个列不一致的问题。让我们使用 .columns 属性比较每个数据帧之间的列名: ?

    5K30

    精通 Pandas 探索性分析:1~4 全

    如我们所见,在跳过最后两行之后,我们创建的上一个数据帧与我们创建的数据帧之间存在差异: df.tail(2) df = pd.read_csv('IMDB.csv', encoding = "ISO-8859...二、数据选择 在本章中,我们将学习使用 Pandas 进行数据选择的高级技术,如何选择数据子集,如何从数据集中选择多个行和列,如何对 Pandas 数据帧或一序列数据进行排序,如何过滤 Pandas 数据帧的角色...Pandas 数据帧是带有标签行和列的多维表格数据结构。 序列是包含单列值的数据结构。 Pandas 的数据帧可以视为一个或多个序列对象的容器。...重命名和删除 Pandas 数据帧中的列 处理和转换日期和时间数据 处理SettingWithCopyWarning 将函数应用于 Pandas 序列或数据帧 将多个数据帧合并并连接成一个 使用 inplace...在本节中,我们探讨了如何使用各种 Pandas 技术来处理数据集中的缺失数据。 我们学习了如何找出丢失的数据量以及从哪几列中查找。 我们看到了如何删除所有或很多记录丢失数据的行或列。

    28.2K10

    pandas 入门2 :读取txt文件以及描述性分析

    要使用上述五个名称随机列出1,000个婴儿名字,我们将执行以下操作:生成0到4之间的随机数,为此,我们将使用函数seed,randint,len,range和zip。...使用zip函数合并名称和出生数据集。 ? 我们基本上完成了创建数据集。我们现在将使用pandas库将此数据集导出到csv文件中。 df将是一个 DataFrame对象。...除非另有说明,否则文件将保存在运行环境下的相同位置。 ? 获取数据 要读取文本文件,我们将使用pandas函数read_csv。 ? 这就把我们带到了练习的第一个问题。...[Names,Births]可以作为列标题,类似于Excel电子表格或sql数据库中的列标题。 ? 准备数据 数据包括1880年的婴儿姓名和出生人数。...可以验证“名称”列仍然只有五个唯一的名称。 可以使用数据帧的unique属性来查找“Names”列的所有唯一记录。 ? 由于每个姓名名称都有多个值,因此需要汇总这些数据,因此只会出现一次宝贝名称。

    2.8K30

    如何通过Maingear的新型Data Science PC将NVIDIA GPU用于机器学习

    cuDF:数据帧操作 cuDF提供了类似Pandas的API,用于数据帧操作,因此,如果知道如何使用Pandas,那么已经知道如何使用cuDF。...数据帧转换为cuDF数据帧(但不建议这样做): import pandas as pd import cudf df = pd.DataFrame({'a': [0, 1, 2, 3],'b': [0.1..., 0.2, None, 0.3]}) gdf = cudf.DataFrame.from_pandas(df) 也可以做相反的事情,将cuDF数据帧转换为pandas数据帧: import cudf...一个来自Maingear公司VYBE PRO PC有两个NVIDIA TITAN RTX卡(这件事是如此美丽我害怕打开它) 在VYBER PRO PC上使用具有4,000,000行和1000列的数据集(...此数据帧使用大约15 GB的内存)训练XGBoost模型在CPU上花费1分钟46s(内存增量为73325 MiB) ,在GPU上仅花费21.2s(内存增量为520 MiB)。

    1.9K40

    Pandas 学习手册中文第二版:6~10

    如果不存在索引,则将需要对我们所有数据进行线性搜索。 索引使用直接查找而不是搜索过程为特定数据项创建优化的快捷方式。...具体来说,我们将检查: 对序列或数据帧创建和使用索引 用索引选择值的方法 在索引之间移动数据 重新索引 Pandas 对象 对序列或数据帧创建和使用索引 索引可以显式创建,也可以让 Pandas 隐式创建...下面的屏幕截图通过创建一个数据帧并将其值转换为category的第二列来说明这一点,该数据帧的一列然后是第二列。.../apachecn/apachecn-ds-zh/-/raw/master/docs/learning-pandas-2e/img/00317.jpeg)] 默认情况下,所有算术运算都将应用于数据帧的所有行和列...两个DataFrame对象之间的算术运算将同时按列标签和索引标签对齐。 以下代码提取了df的一小部分,并将其从完整的数据帧中减去。

    2.3K20

    媲美Pandas?Python的Datatable包怎么用?

    通过本文的介绍,你将学习到如何在大型数据集中使用 datatable 包进行数据处理,特别在数据量特别大的时候你可以发现它可能比 Pandas 更加强大。...数据读取 这里使用的数据集是来自 Kaggle 竞赛中的 Lending Club Loan Data 数据集, 该数据集包含2007-2015期间所有贷款人完整的贷款数据,即当前贷款状态 (当前,延迟...pandas 读取 下面,使用 Pandas 包来读取相同的一批数据,并查看程序所运行的时间。...datatable 和Pandas 来计算每列数据的均值,并比较二者运行时间的差异。...▌选择行/列的子集 下面的代码能够从整个数据集中筛选出所有行及 funded_amnt 列: datatable_df[:,'funded_amnt'] ?

    7.2K10

    媲美Pandas?Python的Datatable包怎么用?

    通过本文的介绍,你将学习到如何在大型数据集中使用 datatable 包进行数据处理,特别在数据量特别大的时候你可以发现它可能比 Pandas 更加强大。...数据读取 这里使用的数据集是来自 Kaggle 竞赛中的 Lending Club Loan Data 数据集, 该数据集包含2007-2015期间所有贷款人完整的贷款数据,即当前贷款状态 (当前,延迟...pandas 读取 下面,使用 Pandas 包来读取相同的一批数据,并查看程序所运行的时间。...datatable 和Pandas 来计算每列数据的均值,并比较二者运行时间的差异。...▌选择行/列的子集 下面的代码能够从整个数据集中筛选出所有行及 funded_amnt 列: datatable_df[:,'funded_amnt'] ?

    6.7K30

    数据分析之Pandas VS SQL!

    对于数据开发工程师或分析师而言,SQL 语言是标准的数据查询工具。本文提供了一系列的示例,说明如何使用pandas执行各种SQL操作。...SQL VS Pandas SELECT(数据选择) 在SQL中,选择是使用逗号分隔的列列表(或*来选择所有列): ? 在Pandas中,选择不但可根据列名称选取,还可以根据列所在的位置选取。...宝器带你画重点: subset,为选定的列做数据去重,默认为所有列; keep,可选择{'first', 'last', False},保留重复元素中的第一个、最后一个,或全部删除; inplace ,...这是因为count()将函数应用于每个列,返回每个列中的非空记录的数量。具体如下: ? 还可以同时应用多个函数。例如,假设我们想要查看每个星期中每天的小费金额有什么不同。 SQL: ?...默认情况下,join()将联接其索引上的DataFrames。 每个方法都有参数,允许指定要执行的连接类型(LEFT, RIGHT, INNER, FULL)或要连接的列(列名或索引) ?

    3.2K20

    Pandas 数据分析技巧与诀窍

    Pandas的一个惊人之处是,它可以很好地处理来自各种来源的数据,比如:Excel表格、CSV文件、SQL文件,甚至是网页。 在本文中,我将向您展示一些关于Pandas中使用的技巧。...它将分为以下几点: 1、在Pandas数据流中生成数据。 2、数据帧内的数据检索/操作。...2 数据帧操作 在本节中,我将展示一些关于Pandas数据帧的常见问题的提示。 注意:有些方法不直接修改数据帧,而是返回所需的数据帧。...获取列的所有唯一属性值: 假设我们有一个整数属性user_id: listOfUniqueUserIDs = data[‘user_id’].unique() 然后你可以迭代这个列表,或者用它做任何你想做的事情...这些数据将为您节省查找自定义数据集的麻烦。 此外,数据可以是任何首选大小,可以覆盖许多数据类型。此外,您还可以使用上述的一些技巧来更加熟悉Pandas,并了解它是多么强大的一种工具。

    11.5K40

    利用Pandas数据过滤减少运算时间

    当处理大型数据集时,使用 Pandas 可以提高数据处理的效率。Pandas 提供了强大的数据结构和功能,包括数据过滤、筛选、分组和聚合等,可以帮助大家快速减少运算时间。...1、问题背景我有一个包含37456153行和3列的Pandas数据帧,其中列包括Timestamp、Span和Elevation。...我创建了一个名为mesh的numpy数组,它保存了我最终想要得到的等间隔Span数据。最后,我决定对数据帧进行迭代,以获取给定的时间戳(代码中为17300),来测试它的运行速度。...代码中for循环计算了在每个增量处+/-0.5delta范围内的平均Elevation值。我的问题是: 过滤数据帧并计算单个迭代的平均Elevation需要603毫秒。...sqlite数据库,并使用SQL进行join操作。

    11510
    领券