首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas教程

作为每个数据科学家都非常熟悉和使用的最受欢迎和使用的工具之一,Pandas库在数据操作、分析和可视化方面非常出色 为了帮助你完成这项任务并对Python编码更加自信,我用Pandas上一些最常用的函数和方法创建了本教程...p) 具体特征概述(下例中为“性别”和“年龄”)。 data[['Sex','Age']].info() ? 基本统计 a) describe方法只给出数据的基本统计信息。...默认情况下,它只计算数值数据的主统计信息。结果用pandas数据帧表示。 data.describe() ? b) 添加其他非标准值,例如“方差”。...d) 通过传递参数include='all',将同时显示数字和非数字数据。 data.describe(include='all') ? e) 别忘了通过在末尾添加.T来转置数据帧。...创建新的数据帧,复制数据,以保持原始数据的完整性。

2.9K40
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    精通 Pandas 探索性分析:1~4 全

    Pandas 数据帧是带有标签行和列的多维表格数据结构。 序列是包含单列值的数据结构。 Pandas 的数据帧可以视为一个或多个序列对象的容器。.../img/1bf4d056-8840-4178-a2ab-0c907727d277.png)] 接下来,我们将学习如何从多行和单列中选择值。...我们将把真实的数据集读入 Pandas。 我们将探索一些字符串方法,并将使用这些字符串方法从数据集中选择和更改值。...我们看到了如何处理 Pandas 中缺失的值。 我们探索了 Pandas 数据帧中的索引,以及重命名和删除 Pandas 数据帧中的列。 我们学习了如何处理和转换日期和时间数据。...然后,我们从数据集中传递两个列名称为x和y,并将 data 参数设置为我们的 Pandas 数据帧。

    28.2K10

    如何漂亮打印Pandas DataFrames 和 Series

    当我们必须处理可能有多个列和行的大型DataFrames时,能够以可读格式显示数据是很重要的。这在调试代码时非常有用。...仅显示一部分列(缺少第4列和第5列),而其余列以多行方式打印。 ? 尽管输出仍可读取,但绝对不建议保留列或将其打印在多行中。...如何漂亮打印Pandas的DataFrames 如果您的显示器足够宽并且能够容纳更多列,则可能需要调整一些显示选项。我将在下面使用的值可能不适用于您的设置,因此请确保对其进行相应的调整。...display.expand_frame_repr 默认值:True 是否跨多行打印宽数据的完整DataFrame ,可以考虑使用max_columns,但是如果宽度超过display.width,...另外,您可以更改display.max_rows的值,而不是将expand_frame_repr设置为False: pd.set_option(‘display.max_rows’, False) 如果列仍打印在多页中

    2.5K30

    嘀~正则表达式快速上手指南(下篇)

    虽然这个教程让使用正则表达式看起来很简单(Pandas在下面)但是也要求你有一定实际经验。例如,我们知道使用if-else语句来检查数据是否存在。...在步骤3A中,我们使用了if 语句来检查s_email的值是否为 None, 否则将抛出错误并中断脚本。...就像之前做的一样,我们在步骤3B中首先检查s_name 的值是否为None 。 然后,在将字符串分配给变量前,我们调用两次了 re 模块中的re.sub() 函数。...就像保证这两个字段的值不是None一样,我们同样要检查被赋值到变量date_field的值是否为 None。 ?...我们已经拥有了一个精致的Pandas数据帧,实际上它是一个简洁的表格,包含了从email中提取的所有信息。 请看下数据帧的前几行: ?

    4K10

    Pandas 秘籍:1~5

    数据帧的数据(值)始终为常规字体,并且是与列或索引完全独立的组件。 Pandas 使用NaN(不是数字)来表示缺失值。 请注意,即使color列仅包含字符串值,它仍使用NaN表示缺少的值。...操作步骤 创建新列的最简单方法是为其分配标量值。 将新列的名称作为字符串放入索引运算符。 让我们在电影数据集中创建has_seen列以指示我们是否看过电影。 我们将为每个值分配零。...any方法再次链接到该布尔结果序列上,以确定是否有任何列缺少值。 如果步骤 4 求值为True,则整个数据帧中至少存在一个缺失值。 更多 电影数据集中具有对象数据类型的大多数列都包含缺少的值。...这里有必要四舍五入,以使两个数据帧值相等。equals方法确定两个数据帧之间的所有元素和索引是否完全相同,并返回一个布尔值。 更多 与序列一样,数据帧具有与运算符等效的方法。...除空字符串外,所有字符串均为True。 所有非空集,元组,字典和列表都是True。 空的数据帧或序列不会求值为True或False,而是会引发错误。

    37.6K10

    python读取json格式文件大量数据,以及python字典和列表嵌套用法详解

    1.Python读取JSON报错:JSONDecodeError:Extra data:line 2 column 1 错误原因: JSON数据中数据存在多行,在读取数据时,不能够单单用open(),应利用...列表是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。...键(key)必须是唯一的,可以用数字,字符串或元组充当,而用列表就不行 同一个键出现两次,最后出现的会更新前一个的值。...在一个子帧中为多个用户设备配置的参考信号的符号和数据的符号在子帧中的时域位置关系满足前提一和前提二;前提一为,将每个用户设备的参考信号所需的资源包括在多个参考信号的符号中,前提二为以下条件中的至少一个:...,extend方法的返回值为None,所以直接打印alist 方法3:使用切片 alist = [1,2,3] blist = ['www','pythontab.com'] alist[len(alist

    15.7K20

    数据科学和人工智能技术笔记 十九、数据整理(上)

    十九、数据整理(上) 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 在 Pandas 中通过分组应用函数 import pandas as pd # 创建示例数据帧...中使用正则表达式将字符串分解为列 # 导入模块 import re import pandas as pd # 创建带有一列字符串的数据帧 data = {'raw': ['Arizona 1 2014...包 import pandas as pd # 将 csv 文件加载为数据帧 df_original = pd.read_csv('http://vincentarelbundock.github.io...具体来说,我正在为地理函数加载 pygeocoder,为数据帧结构加载 pandas,为缺失值(np.nan)函数加载 numpy。...在我们处理数据之前,我们需要1)将字符串分成纬度和经度,然后将它们转换为浮点数。以下代码就是这样。

    5.9K10

    python数据分析——数据的选择和运算

    此外,Pandas库也提供了丰富的数据处理和运算功能,如数据合并、数据转换、数据重塑等,使得数据运算更加灵活多样。 除了基本的数值运算外,数据分析中还经常涉及到统计运算和机器学习算法的应用。...关键技术:假设我们有一个长度为7的字符串数组,然后对这个字符串数组进行逻辑运算,进而把元素的结果(布尔数组)作为索引的条件传递给目标数组。具体程序代码如下所示: 【例】二维数组的布尔索引。...Python的Pandas库为数据合并操作提供了多种合并方法,如merge()、join()和concat()等方法。...: 四、数据运算 pandas中具有大量的数据计算函数,比如求计数、求和、求平均值、求最大值、最小值、中位数、众数、方差、标准差等。...:布尔值,是否忽略索引,值为True标记索引(从0开始按顺序的整数值),值为False则忽略索引。

    19310

    Pandas系列 - 基本数据结构

    从面板中选择数据 系列(Series)是能够保存任何类型的数据(整数,字符串,浮点数,Python对象等)的一维标记数组。...,list,constants 2 index 索引值必须是唯一的和散列的,与数据的长度相同 默认np.arange(n)如果没有索引被传递 3 dtype dtype用于数据类型 如果没有,将推断数据类型...s 0 5 1 5 2 5 3 5 dtype: int64 ---- 二、pandas.DataFrame 数据帧(DataFrame)是二维数据结构,即数据以行和列的表格方式排列...数据帧(DataFrame)的功能特点: 潜在的列是不同的类型 大小可变 标记轴(行和列) 可以对行和列执行算术运算 构造函数: pandas.DataFrame(data, index, columns...4 dtype 每列的数据类型。 5 copy 如果默认值为False,则此命令(或任何它)用于复制数据。

    5.2K20

    数据分析从业者必看!10 个加速 python 数据分析的简易小技巧

    这是对 pandas 数据帧进行探索性数据分析的一种简单快速的方法。pandas df.describe()和 df.info()函数通常用作 EDA 过程的第一步。...但是,它只提供了非常基本的数据概述,对于大型数据集没有太大帮助。另一方面,pandas 分析函数使用 df.profile_report()扩展 pandas 数据帧,以便快速进行数据分析。...2.第二步,为 pandas plots 带来交互性 pandas 有一个内置的.plot()函数作为数据帧类的一部分。然而,用这个函数呈现的可视化并不是交互式的,这使得它不那么吸引人。...所有可用的 magic 函数列表 magic 命令有两种:行 magics(前缀为一个% 字符并在一行输入上操作)和单元 magics(用%% 前缀关联并在多行输入上操作)。...5.输出也可以很漂亮 如果您想为数据结构生成美观的表示,pprint 是你想要的模块,它在打印字典或 JSON 数据时特别有用。让我们来看一个使用 print 和 pprint 显示输出的示例。 ?

    2K30

    嘀~正则表达式快速上手指南(上篇)

    学完本教程,你会对正则的使用熟悉很多,可以使用re模块的基础模式和函数完成字符串分析。我们也学会如何高效地使用正则和pandas库化大量紊乱的数据集为有序。 现在,让我们看看正则可以做些什么。...Python 正则表达式模块的介绍 首先打开文本文件读取数据,设置为只读模式,并读取数据集,最后将上述操作结果赋给变量 fh(“file handle” 即文件句柄)。 ?...pattern表示我们想要搜索的子字符串,string 表示我们想要搜索的主字符串。主字符串可以由多行组成。 .* 是字符串模式的简写。我们很快就会解释它的细节。...常用的正则表达式 我们之前用到的 re.findall() 包含"From:"的字符串。这个函数当我们明确知道搜索目标时候十分有用,甚至包括明确字母拼写和是否大小写。...数据帧或表格中的一列。

    1.6K20

    Pandas 秘籍:6~11

    解决方法是,您偶尔会看到在同一单元格中存储了多个值的数据集。 整洁的数据可为每个单元格精确地提供一个值。 为了纠正这些情况,通常需要使用str序列访问器中的方法将字符串数据解析为多列。...将任何先前的字符串值分配为空字符串,将所有其他字符串值分配为缺失值。...默认情况下,Pandas 将使用数据帧的每个数字列制作一组新的条形,线形,KDE,盒形图或直方图,并在将其作为两变量图时将索引用作 x 值。 散点图是例外之一,必须明确为 x 和 y 值指定一列。...进入plot方法时,数据帧中有两列,默认情况下,该方法将为每一列绘制条形图。 我们对count列不感兴趣,因此仅选择mean列来形成条形。 此外,在使用数据帧进行打印时,每个列名称都会出现在图例中。...itertuples方法循环遍历每个数据帧的行,并以元组的形式返回其值。 我们为绘图解压缩相应的 x 和 y 值,并用我们分配给它的编号标记它。

    34K10

    高效的5个pandas函数,你都用过吗?

    pandas还有很多让人舒适的用法,这次再为大家介绍5个pandas函数,作为这个系列的第二篇。 1. explode explode用于将一行数据展开成多行。...用法: # 直接将df或者series推断为合适的数据类型 DataFrame.infer_objects() pandas支持多种数据类型,其中之一是object类型。...object类型包括字符串和混合值(数字及非数字)。 object类型比较宽泛,如果可以确定为具体数据类型,则不建议用object。...; deep:如果为True,则通过查询object类型进行系统级内存消耗来深入地检查数据,并将其包括在返回值中。...value:替换后的值 inplace:是否要改变原数据,False是不改变,True是改变,默认是False limit:控制填充次数 regex:是否使用正则,False是不使用,True是使用,默认是

    1.2K40

    高效的5个pandas函数,你都用过吗?

    pandas还有很多让人舒适的用法,这次再为大家介绍5个pandas函数,作为这个系列的第二篇。 1. explode explode用于将一行数据展开成多行。...用法: # 直接将df或者series推断为合适的数据类型 DataFrame.infer_objects() pandas支持多种数据类型,其中之一是object类型。...object类型包括字符串和混合值(数字及非数字)。 object类型比较宽泛,如果可以确定为具体数据类型,则不建议用object。...; deep:如果为True,则通过查询object类型进行系统级内存消耗来深入地检查数据,并将其包括在返回值中。...value:替换后的值 inplace:是否要改变原数据,False是不改变,True是改变,默认是False limit:控制填充次数 regex:是否使用正则,False是不使用,True是使用,默认是

    1.2K20
    领券