首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 秘籍:1~5

列和索引用于特定目的,即为数据帧的列和行提供标签。 这些标签允许直接轻松地访问不同的数据子集。 当多个序列或数据帧组合在一起时,索引将在进行任何计算之前首先对齐。 列和索引统称为轴。...准备 此秘籍将数据帧的索引,列和数据提取到单独的变量中,然后说明如何从同一对象继承列和索引。...当从数据帧调用这些相同的方法时,它们会立即对每一列执行该操作。 准备 在本秘籍中,我们将对电影数据集探索各种最常见的数据帧属性和方法。...这种与偶数技术的联系通常不是学校正式教的。 它不会始终将数字偏向更高端。 这里有必要四舍五入,以使两个数据帧值相等。equals方法确定两个数据帧之间的所有元素和索引是否完全相同,并返回一个布尔值。...同时选择数据帧的行和列 直接使用索引运算符是从数据帧中选择一列或多列的正确方法。 但是,它不允许您同时选择行和列。

37.6K10

Pandas 秘籍:6~11

也完全可以将数据帧一起添加。 将数据帧加在一起将在计算之前对齐索引和列,并产生不匹配索引的缺失值。 首先,从 2014 年棒球数据集中选择一些列。...准备 在本秘籍中,我们使用groupby方法执行聚合,以创建具有行和列多重索引的数据帧,然后对其进行处理,以使索引为单个级别,并且列名具有描述性。...由于两个数据帧的索引相同,因此可以像第 7 步中那样将一个数据帧的值分配给另一列中的新列。 更多 从步骤 2 开始,完成此秘籍的另一种方法是直接从sex_age列中分配新列,而无需使用split方法。...join: 数据帧方法 水平组合两个或多个 Pandas 对象 将调用的数据帧的列或索引与其他对象的索引(而不是列)对齐 通过执行笛卡尔积来处理连接列/索引上的重复值 默认为左连接,带有内,外和右选项...merge: 数据帧方法 准确地水平合并两个数据帧 将调用的数据帧的列/索引与其他数据帧的列/索引对齐 通过执行笛卡尔积来处理连接列/索引上的重复值 默认为内连接,带有左,外和右选项 join

34K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Pandas 学习手册中文第二版:1~5

    一个数据帧代表一个或多个按索引标签对齐的Series对象。 每个序列将是数据帧中的一列,并且每个列都可以具有关联的名称。...这些列是数据帧中包含的新Series对象,具有从原始Series对象复制的值。 可以使用带有列名或列名列表的数组索引器[]访问DataFrame对象中的列。...访问数据帧内的数据 数据帧由行和列组成,并具有从特定行和列中选择数据的结构。 这些选择使用与Series相同的运算符,包括[],.loc[]和.iloc[]。...下面将PER列与随机数据的序列相加。 由于这使用对齐方式,因此有必要使用与目标数据帧相同的索引。...结果数据帧将由两个列的并集组成,缺少的列数据填充有NaN。 以下内容通过使用与df1相同的索引创建第三个数据帧,但只有一个列的名称不在df1中来说明这一点。

    8.3K10

    直观地解释和可视化每个复杂的DataFrame操作

    操作数据帧可能很快会成为一项复杂的任务,因此在Pandas中的八种技术中均提供了说明,可视化,代码和技巧来记住如何做。 ?...每种方法都将包括说明,可视化,代码以及记住它的技巧。 Pivot 透视表将创建一个新的“透视表”,该透视表将数据中的现有列投影为新表的元素,包括索引,列和值。...“inner”:仅包含元件的键是存在于两个数据帧键(交集)。默认合并。 记住:如果您使用过SQL,则单词“ join”应立即与按列添加相联系。...例如,考虑使用pandas.concat([df1,df2])串联的具有相同列名的 两个DataFrame df1 和 df2 : ?...Append是组合两个DataFrame的另一种方法,但它执行的功能与concat相同,效率较低且用途广泛。 ----

    13.3K20

    python数据分析——数据的选择和运算

    数据获取 ①列索引取值 使用单个值或序列,可以从DataFrame中索引出一个或多个列。...True表示按连结主键(on 对应的列名)进行升序排列。 【例】创建两个不同的数据帧,并使用merge()对其执行合并操作。 关键技术:merge()函数 首先创建两个DataFrame对象。...关键技术:使用’ id’键合并两个数据帧,并使用merge()对其执行合并操作。...代码和输出结果如下所示: (2)使用多个键合并两个数据帧: 关键技术:使用’ id’键及’subject_id’键合并两个数据帧,并使用merge()对其执行合并操作。...: 四、数据运算 pandas中具有大量的数据计算函数,比如求计数、求和、求平均值、求最大值、最小值、中位数、众数、方差、标准差等。

    19310

    NumPy 和 Pandas 数据分析实用指南:1~6 全

    可以将数据帧视为具有公共索引的多个序列的公共长度,它们在单个表格对象中绑定在一起。 该对象类似于 NumPy 2D ndarray,但不是同一件事。 并非所有列都必须具有相同的数据类型。...也就是说,如果要基于索引选择行,而要基于整数位置选择列,请首先使用loc方法选择行,然后使用iloc方法选择列。 执行此操作时,如何选择数据帧的元素没有任何歧义。 如果您只想选择一列怎么办?...必须牢记的是,涉及数据帧的算法首先应用于数据帧的列,然后再应用于数据帧的行。 因此,数据帧中的列将与单个标量,具有与该列同名的索引的序列元素或其他涉及的数据帧中的列匹配。...对于分层索引,我们认为数据帧中的行或序列中的元素由两个或多个索引的组合唯一标识。 这些索引具有层次结构,选择一个级别的索引将选择具有该级别索引的所有元素。...自然,我们可以用更具体的切片方法(例如列表或单个元素)替换切片器。 现在,我从未谈论过如果列具有层次结构索引会发生什么情况。 这是因为过程本质上是相同的-因为列只是不同轴上的索引。

    5.4K30

    精通 Pandas:1~5

    与 Numpy ndarrays相比,pandas 数据结构更易于使用且更加用户友好,因为在数据帧和面板的情况下,它们提供行索引和列索引。数据帧对象是 Pandas 中最流行和使用最广泛的对象。...使用where()方法 where()方法用于确保布尔过滤的结果与原始数据具有相同的形状。...如果我们的数据帧具有多重索引,则可以使用groupby按层次结构的不同级别分组并计算一些有趣的统计数据。...由于并非所有列都存在于两个数据帧中,因此对于不属于交集的数据帧中的每一行,来自另一个数据帧的列均为NaN。...有关 SQL 连接如何工作的简单说明,请参考这里。 join函数 DataFrame.join函数用于合并两个具有不同列且没有共同点的数据帧。 本质上,这是两个数据帧的纵向连接。

    19.2K10

    图解pandas模块21个常用操作

    2、从ndarray创建一个系列 如果数据是ndarray,则传递的索引必须具有相同的长度。...5、序列的聚合统计 Series有很多的聚会函数,可以方便的统计最大值、求和、平均值等 ? 6、DataFrame(数据帧) DataFrame是带有标签的二维数据结构,列的类型可能不同。...9、列选择 在刚学Pandas时,行选择和列选择非常容易混淆,在这里进行一下整理常用的列选择。 ? 10、行选择 整理多种行选择的方法,总有一种适合你的。 ? ? ?...14、聚合函数 data.function(axis=0) 按列计算 data.function(axis=1) 按行计算 ? 15、分类汇总 可以按照指定的多列进行指定的多个运算进行汇总。 ?...19、数据合并 两个DataFrame的合并,pandas会自动按照索引对齐,可以指定两个DataFrame的对齐方式,如内连接外连接等,也可以指定对齐的索引列。 ?

    9K22

    精通 Pandas 探索性分析:1~4 全

    /img/80f5fbde-9419-48fe-8538-2d04b5aad7a9.png)] 从 Pandas 数据帧中选择多个行和列 在本节中,我们将学习更多有关从读取到 Pandas 的数据集中选择多个行和列的方法的信息...Pandas 有一种选择行和列的方法,称为loc。 我们将使用loc方法从之前创建的数据集中调用数据帧。...'County']] 我们从具有索引7以及Metro和County列的行中获取值。...让我们创建两个数据帧,其中两个都包含具有相同数据但具有不同记录的相同参数: dataset1 = pd.DataFrame({'Age': ['32', '26', '29'],...然后,我们调用绘图方法来绘制散点图。 我们正在使用 seaborn 的lmplot方法。 然后,我们从数据集中传递两个列名称为x和y,并将 data 参数设置为我们的 Pandas 数据帧。

    28.2K10

    Pandas 学习手册中文第二版:6~10

    对象上执行数值方法 Pandas 提供了丰富的功能和操作集,这些功能和操作有助于执行算术运算和计算数据的各种数值特征。...在本节中,我们将研究其中的许多内容,包括: 在数据帧或序列上执行算术 获取值的计数 确定唯一值(及其计数) 查找最大值和最小值 找到 n 个最小和 n 个最大的值 计算累计值 在数据帧或序列上执行算术...两个DataFrame对象之间的算术运算将同时按列标签和索引标签对齐。 以下代码提取了df的一小部分,并将其从完整的数据帧中减去。...这包括检查许多常用方法,这些方法将用于计算值和执行各种分析。 我们从基本的算术运算以及数据对齐如何影响运算和结果开始。...Pandas 已经意识到,文件的第一行包含列名和从数据中批量读取到数据帧的名称。 读取 CSV 文件时指定索引列 在前面的示例中,索引是数字的,从0开始,而不是按日期。

    2.3K20

    Pandas Sort:你的 Python 数据排序指南

    Pandas 排序方法入门 快速提醒一下,DataFrame是一种数据结构,行和列都带有标记的轴。您可以按行或列值以及行或列索引对 DataFrame 进行排序。...行和列都有索引,它是数据在 DataFrame 中位置的数字表示。您可以使用 DataFrame 的索引位置从特定行或列中检索数据。默认情况下,索引号从零开始。您也可以手动分配自己的索引。...DataFrame的轴指的是索引 ( axis=0) 或列 ( axis=1)。您可以使用这两个轴来索引和选择DataFrame 中的数据以及对数据进行排序。...通常,这是使用 Pandas 分析数据的最常见和首选方法,因为它会创建一个新的 DataFrame 而不是修改原始数据。这允许您保留从文件中读取数据时的数据状态。...结论 您现在知道如何使用 pandas 库的两个核心方法:.sort_values()和.sort_index(). 有了这些知识,您就可以使用 DataFrame 执行基本的数据分析。

    14.3K00

    媲美Pandas?Python的Datatable包怎么用?

    Frame 对象中,datatable 的基本分析单位是 Frame,这与Pandas DataFrame 或 SQL table 的概念是相同的:即数据以行和列的二维数组排列展示。...来计算每列数据的均值,并比较二者运行时间的差异。...可以看到,使用 Pandas 计算时抛出内存错误的异常。 数据操作 和 dataframe 一样,datatable 也是柱状数据结构。...诸如矩阵索引,C/C++,R,Pandas,Numpy 中都使用相同的 DT[i,j] 的数学表示法。下面来看看如何使用 datatable 来进行一些常见的数据处理工作。 ?.../en/latest/using-datatable.html 总结 在数据科学领域,与默认的 Pandas 包相比,datatable 模块具有更快的执行速度,这是其在处理大型数据集时的一大优势所在。

    7.2K10

    媲美Pandas?Python的Datatable包怎么用?

    对象中,datatable 的基本分析单位是 Frame,这与Pandas DataFrame 或 SQL table 的概念是相同的:即数据以行和列的二维数组排列展示。...来计算每列数据的均值,并比较二者运行时间的差异。...可以看到,使用 Pandas 计算时抛出内存错误的异常。 数据操作 和 dataframe 一样,datatable 也是柱状数据结构。...诸如矩阵索引,C/C++,R,Pandas,Numpy 中都使用相同的 DT[i,j] 的数学表示法。下面来看看如何使用 datatable 来进行一些常见的数据处理工作。 ?.../en/latest/using-datatable.html 总结 在数据科学领域,与默认的 Pandas 包相比,datatable 模块具有更快的执行速度,这是其在处理大型数据集时的一大优势所在。

    6.7K30

    panda python_12个很棒的Pandas和NumPy函数,让分析事半功倍

    没有这两个函数,人们将在这个庞大的数据分析和科学世界中迷失方向。  今天,小芯将分享12个很棒的Pandas和NumPy函数,这些函数将会让生活更便捷,让分析事半功倍。  ...这是检查两个数组是否相似的好方法,因为这一点实际很难手动实现。  ...Pandas非常适合许多不同类型的数据:  具有异构类型列的表格数据,例如在SQL表或Excel电子表格中  有序和无序(不一定是固定频率)的时间序列数据。  ...具有行和列标签的任意矩阵数据(同类型或异类)  观察/统计数据集的任何其他形式。实际上,数据根本不需要标记,即可放入Pandas数据结构。  ...以下是Pandas的优势:  轻松处理浮点数据和非浮点数据中的缺失数据(表示为NaN)  大小可变性:可以从DataFrame和更高维的对象中插入和删除列  自动和显式的数据对齐:在计算中,可以将对象显式对齐到一组标签

    5.1K00

    资源 | Pandas on Ray:仅需改动一行代码,即可让Pandas加速四倍

    在我的案例中,我想在 10KB 和 10TB 的数据上使用相同的 Pandas 脚本,并且希望 Pandas 在处理这两种不同量级的数据时速度一样快(如果我有足够的硬件资源的话)。...Dask 中存在两个主要的差别,而 Pandas on Ray 则尝试解决这两个差别: 1. 用户需要一直意识到:数据是分布式的,计算是懒惰的。 2....然而,如果一个 Python 进程需要将一个小的 Pandas 数据帧发送到另一个进程,则该数据帧必须通过 Pickle 进行串行化处理,然后在另一个进程中进行去串行化处理,因为这两个进程没有共享内存。...注:第一个图表明,在像泰坦尼克数据集这样的小数据集上,分发数据会损害性能,因为并行化的开销很大。 MAX 案例研究 为了查看逐行操作和逐列操作时三者的对比结果,我们继续在相同的环境中进行实验。 ?...值得注意的是,Dask 的惰性计算和查询执行规划不能在单个操作中使用。

    3.4K30

    媲美Pandas?一文入门Python的Datatable操作

    对象中,datatable 的基本分析单位是 Frame,这与Pandas DataFrame 或 SQL table 的概念是相同的:即数据以行和列的二维数组排列展示。...来计算每列数据的均值,并比较二者运行时间的差异。...可以看到,使用 Pandas 计算时抛出内存错误的异常。 数据操作 和 dataframe 一样,datatable 也是柱状数据结构。...诸如矩阵索引,C/C++,R,Pandas,Numpy 中都使用相同的 DT[i,j] 的数学表示法。下面来看看如何使用 datatable 来进行一些常见的数据处理工作。 ?.../en/latest/using-datatable.html 总结 在数据科学领域,与默认的 Pandas 包相比,datatable 模块具有更快的执行速度,这是其在处理大型数据集时的一大优势所在。

    7.7K50

    python对100G以上的数据进行排序,都有什么好的方法呢

    Pandas 排序方法入门 快速提醒一下,DataFrame是一种数据结构,行和列都带有标记的轴。您可以按行或列值以及行或列索引对 DataFrame 进行排序。...行和列都有索引,它是数据在 DataFrame 中位置的数字表示。您可以使用 DataFrame 的索引位置从特定行或列中检索数据。默认情况下,索引号从零开始。您也可以手动分配自己的索引。...DataFrame的轴指的是索引 ( axis=0) 或列 ( axis=1)。您可以使用这两个轴来索引和选择DataFrame 中的数据以及对数据进行排序。...通常,这是使用 Pandas 分析数据的最常见和首选方法,因为它会创建一个新的 DataFrame 而不是修改原始数据。这允许您保留从文件中读取数据时的数据状态。...结论 您现在知道如何使用 pandas 库的两个核心方法:.sort_values()和.sort_index(). 有了这些知识,您就可以使用 DataFrame 执行基本的数据分析。

    10K30

    数据科学 IPython 笔记本 7.5 数据索引和选择

    在这里,我们将看看在 Pandas Series和DataFrame对象中,访问和修改值的类似方法。...如果我们记住这两个重叠的类比,它将帮助我们理解这些数组中的数据索引和选择的模式。...数据帧中的数据选择 回想一下,DataFrame在很多方面都类似二维或结构化数组,在其它方面莱斯共享相同索引的Series结构的字典。在我们探索此结构中的数据选择时,记住些类比是有帮助的。...38332521 Florida 170312 19552860 Illinois 149995 12882135 请记住,对于整数索引,ix索引器具有与整数索引的Series对象相同的潜在混淆。...数据操作的流畅性,我建议花一些时间使用简单的DataFrame,并探索各种索引方法所允许的索引,切片,掩码和花式索引。

    1.7K20

    Pandas 学习手册中文第二版:11~15

    以下内容演示了沿着列轴与两个DataFrame对象(具有多个共同的行索引标签)(2和3)以及不相交的行(df1和df3中的4)。...由于两个DataFrame对象都有一个具有相同名称key的列,结果中的这些列将附加_x和_y后缀以标识它们源自的DataFrame对象。 _x用于左侧,_y用于右侧。...库还提供了.join()方法,该方法可用于使用两个DataFrame对象的索引标签(而不是列中的值)执行连接。...聚合的结果将具有与原始数据相同的结构化索引。...转换的一般过程 GroupBy对象的.transform()方法将一个函数应用于数据帧中的每个值,并返回另一个具有以下特征的DataFrame: 它的索引与所有组中索引的连接相同 行数等于所有组中的行数之和

    3.4K20
    领券