首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python数据科学系列:pandas入门详细教程

还是dataframe,均支持面向对象的绘图接口 正是由于具有这些强大的数据分析与处理能力,pandas还有数据处理"瑞士军刀"的美名。...自然毫无悬念 dataframe:无法访问单个元素,只能返回一列、多列或多行:单或多值(多个列名组成的列表)访问时按列进行查询,单访问不存在列名歧义时还可直接用属性符号" ....isin/notin,条件范围查询,即根据特定列是否存在于指定列表返回相应的结果 where,仍然执行条件查询,但会返回全部结果,只是将不满足匹配条件的结果赋值为NaN或其他指定,可用于筛选或屏蔽...,可通过axis参数设置按行删除还是按列删除 替换,replace,非常强大的功能,对series或dataframe每个元素执行按条件替换操作,还可开启正则表达式功能 2 数值计算 由于pandas...两种数据结构作图,区别仅在于series绘制单个图形,而dataframe则是绘制一组图形,且在dataframe绘图结果以列名为标签自动添加legend。

13.9K20

pandas库的简单介绍(2)

3、 DataFrame数据结构 DataFrame表示的矩阵数据表,每一列可以是不同的类型(数值、字符串、布尔等)。...3.1 DataFrame的构建 DataFrame有多种构建方式,最常见的利用等长度的列表或字典构建(例如从excel或txt读取文件就是DataFrame类型)。...另外一个构建的方式字典嵌套字典构造DataFrame数据;嵌套字典赋给DataFrame,pandas会把字典的键作为列,内部字典的键作为索引。...(*4)索引对象的特征和操作 索引对象的重要特征不可变的,因此我们无法修改索引对象(初学者常常忽略这一点)。...4.1 重建索引 reindexpandas对象的重要方法,该方法创建一个符合条件的新对象。如果某个索引之前并不存在,则会引入缺失;在这里注意与上一篇文章2.2的区别。

2.3K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    一文介绍Pandas的9种数据访问方式

    导读 Pandas之于日常数据分析工作的重要地位不言而喻,而灵活的数据访问则是其中的一个重要环节。本文旨在讲清Pandas的9种数据访问方式,包括范围读取和条件查询等。 ?...通常情况下,[]常用于在DataFrame获取单列、多列或多行信息。具体而言: 当在[]中提供单或多值(多个列名组成的列表)访问时按列进行查询,单访问不存在列名歧义时还可直接用属性符号" ....4. isin,条件范围查询,一般对某一列判断其取值是否在某个可迭代的集合。即根据特定列是否存在于指定列表返回相应的结果。 5. where,妥妥的Pandas仿照SQL实现的算子命名。...这里仍然执行条件查询,但与直观不大相符的这里会返回全部结果,只是将不满足匹配条件的结果赋值为NaN或其他指定,可用于筛选或屏蔽 ? 6. query,提到query,还得多说两句。...尤其在执行链式查询时,例如可参考历史推文:Pandas用了一年,这3个函数我的最爱……。当然,这种用法一般都可用常规的条件查询替代。 ?

    3.8K30

    这些pandas技巧你还不会吗 | Pandas实用手册(PART II)

    Pandas实用手册(PART I),介绍了建立DataFrame以及定制化DataFrame显示设定两大类技巧。发现已经有同学留言催更了?‍?...处理空 世界总是残酷,很多时候手上的DataFrame里头会有不存在的,如底下一格格额外显眼的NaN: ? 你可以利用fillna函数将DataFrame里头所有不存在的设为0: ?...当然,这个操作的前提你确定在当前分析的情境下,将不存在的视为0这件事情没有问题的。...条件选取数据 在pandas 里头最实用的选取技巧大概非遮掩(masking)莫属了。masking让pandas 将符合特定条件的样本回传: ?...选取某栏位为top-k的样本 很多时候你会想选取在某个栏位前k大的所有样本,这时你可以先利用value_counts函数找出该栏位前k多的: ?

    1.1K20

    懂Excel轻松入门Python数据分析包pandas(十九):文本条件统计

    今天我们来看看在 pandas 如何做到条件统计。...以下 Excel 的公式做法: 那么 pandas 的做法呢? 想必聪明的你一定大概知道怎么做,pandas 求平均的方法 mean: - 行3:同样语义非常清晰。...."住址New York 的人数" Excel 的 xxifs 类函数公式都能支持通配符: - 前后用 * 包围内容,表示包含此内容即符合条件pandas ,由于筛选与统计独立分开的,因此只需要知道怎么筛选...如果本身内容 nan(不存) ,那么直接赋值为 False 如果我们只需要 住址 结尾 NY 的人数?...一次解决所有问题 以上 pandas 的做法主要有以下问题: - 不能用通配符表达不同的文本规则,只能用不同的方法,我记不住这么多方法呀 - 不能忽略大小写(实际上面的需求,pandas 的结果更合理

    1.3K10

    懂Excel轻松入门Python数据分析包pandas(十九):文本条件统计

    今天我们来看看在 pandas 如何做到条件统计。...以下 Excel 的公式做法: 那么 pandas 的做法呢? 想必聪明的你一定大概知道怎么做,pandas 求平均的方法 mean: - 行3:同样语义非常清晰。...."住址New York 的人数" Excel 的 xxifs 类函数公式都能支持通配符: - 前后用 * 包围内容,表示包含此内容即符合条件pandas ,由于筛选与统计独立分开的,因此只需要知道怎么筛选...如果本身内容 nan(不存) ,那么直接赋值为 False 如果我们只需要 住址 结尾 NY 的人数?...一次解决所有问题 以上 pandas 的做法主要有以下问题: - 不能用通配符表达不同的文本规则,只能用不同的方法,我记不住这么多方法呀 - 不能忽略大小写(实际上面的需求,pandas 的结果更合理

    1.2K20

    Python数据科学:方差分析

    描述性分析的难点在于对业务的了解和对数据的寻找。 统计推断和统计建模,建立解释变量与被解释变量之间可解释的、稳定的、最好具有因果关系的表达式。...在模型运用时,将解释变量(自变量)带入表达式,用于预测被解释变量(因变量)的。...比如说「浅谈数据分析岗」薪水与教育程度之间的关系,教育程度为一个多分类的分类变量。 01 单因素方差分析 单因素方差分析的前提条件: ①变量服从正态分布(薪水符合)。...这里组间均方与组内均方的比值服从F分布,下面贴出F分布曲线图。 ? 其中横坐标为F,即组间均方与组内均方的比值。 当F越大时,即组间均方越大、组内均方越小,说明组间的变异大。...单样本t检验原假设:总体均值与假设的检验不存在显著差异(无差异)。 双样本t检验原假设:两个样本均值(二分变量下的均值)不存在显著差异(无差异)。

    1.6K10

    Python数据分析实战之数据获取三大招

    ---- 第二招 Pandas 库读取数据 在日常数据分析,使用pandas读取数据文件更为常见。...pandas不仅可以读取open()函数所读取的文本文件及其他各类文件,最重要的pandas读取结果为DataFrame数据框,后续的数据处理更为方便。...header参数可以是一个list例如:[0,1,3],这个list表示将文件这些行作为列标题(意味着每一列有多个标题),介于中间的行将被忽略掉(例如本例的2;本例的数据1,2,4行将被作为多级标题出现...重写此以接收unicode数组, 并将字符串作为输入传递给转换器。如果没有设置, 使用系统默认。默认"bytes"。...sep : str 字符串, 如果文件文本文件, 那么该为数据间的分隔符。空("")分隔符表示该文件应该作为二进制文件处理。分隔符的空格(" ")匹配零个或多个空格字符。

    6.1K20

    Python数据分析实战之数据获取三大招

    ---- 第二招 Pandas 库读取数据 在日常数据分析,使用pandas读取数据文件更为常见。...pandas不仅可以读取open()函数所读取的文本文件及其他各类文件,最重要的pandas读取结果为DataFrame数据框,后续的数据处理更为方便。...header参数可以是一个list例如:[0,1,3],这个list表示将文件这些行作为列标题(意味着每一列有多个标题),介于中间的行将被忽略掉(例如本例的2;本例的数据1,2,4行将被作为多级标题出现...重写此以接收unicode数组, 并将字符串作为输入传递给转换器。如果没有设置, 使用系统默认。默认"bytes"。...sep : str 字符串, 如果文件文本文件, 那么该为数据间的分隔符。空("")分隔符表示该文件应该作为二进制文件处理。分隔符的空格(" ")匹配零个或多个空格字符。

    6.5K30

    Pandas实现Excel的SUMIF和COUNTIF函数功能

    pandas的SUMIF 使用布尔索引 要查找Manhattan区的电话总数。布尔索引pandas中非常常见的技术。本质上,它对数据框架应用筛选,只选择符合条件的记录。...“未指定”类别可能由于缺少一些数据,这里不重点讨论这些数据。 Pandas的SUMIFS SUMIFS另一个在Excel中经常使用的函数,允许在执行求和计算时使用多个条件。...本质上使用按位与运算符&将两个条件结合起来。注意,这两个条件周围的括号必不可少的。...(S),虽然这个函数在Excel不存在 mode()——将提供MODEIF(S),虽然这个函数在Excel不存在 小结 Python和pandas多才多艺的。...虽然pandas没有SUMIF函数,但只要我们了解这些如何计算的,就可以自己复制/创建相同功能的公式。

    9.2K30

    Vaex :突破pandas,快速分析100GB大数据集

    Pythonpandas大家常用的数据处理工具,能应付较大数据集(千万行级别),但当数据量达到十亿百亿行级别,pandas处理起来就有点力不从心了,可以说非常的慢。...当然pandas可以通过chunk分批读取数据,但是这样的劣势在于数据处理较复杂,而且每一步分析都会消耗内存和时间。...使用vaex读取并计算: 文件读取用了9ms,可以忽略不计,平均值计算用了1s,总共1s。 同样读取1亿行的hdfs数据集,为什么pandas需要十几秒,而vaex耗费时间接近于0呢?...这种对应关系纯属逻辑上的概念,物理上不存在的,原因进程的逻辑地址空间本身就是不存在的。...vaex还在快速发展,集成了越来越多pandas的功能,它在github上的star数5k,成长潜力巨大。

    2.5K70

    Vaex :突破pandas,快速分析100GB大数据集

    Pythonpandas大家常用的数据处理工具,能应付较大数据集(千万行级别),但当数据量达到十亿百亿行级别,pandas处理起来就有点力不从心了,可以说非常的慢。...文件读取用了9ms,可以忽略不计,平均值计算用了1s,总共1s。 同样读取1亿行的hdfs数据集,为什么pandas需要十几秒,而vaex耗费时间接近于0呢?...这种对应关系纯属逻辑上的概念,物理上不存在的,原因进程的逻辑地址空间本身就是不存在的。...结论 vaex有点类似spark和pandas的结合体,数据量越大越能体现它的优势。只要你的硬盘能装下多大数据,它就能快速分析这些数据。...vaex还在快速发展,集成了越来越多pandas的功能,它在github上的star数5k,成长潜力巨大。

    3K31

    亲和性调度

    文章目录 简介 nodeAffinity 节点亲和性 podAffinity 亲和性调度实例 互斥性调度实例 简介 前面的 nodeSelector 调度略显生硬,如果场景某个 Pod 最好调度到磁盘大的节点上...,如果暂时没有,小点也行,比方说数据库; 如果场景某个 Pod,坚决不能调度到某类节点上,其余无所谓,比如说负载均衡不能调度到不对外开放端口的节点上; 诸如此类… 关于这些,nodeSelector...- ssd containers: - name: with-node-affinity image: mysql operator 的可选操作: In: label的某个列表...NotIn:label的不在某个列表 Exists:某个label存在 DoesNotExist:某个label不存在 Gt:label的大于某个(字符串比较) Lt:label的小于某个...(字符串比较) equal:label存在且等于指定的 注意事项: 如果同时定义了nodeSelector和nodeAffinity,name必须两个条件都得到满足,pod才能最终运行在指定的node

    43520

    Pandas

    Series: Series一种一维的数据结构,类似于Python的基本数据结构list,但区别在于Series只允许存储相同的数据类型。...如何在Pandas实现高效的数据清洗和预处理? 在Pandas实现高效的数据清洗和预处理,可以通过以下步骤和方法来完成: 处理空: 使用dropna()函数删除含有缺失的行或列。...例如,可以根据特定条件筛选出满足某些条件的数据段,并对这些数据段应用自定义函数进行处理。...缺失处理(Missing Value Handling) : 处理缺失时间序列数据分析的重要步骤之一。Pandas提供了多种方法来检测和填补缺失,如线性插、前向填充和后向填充等。...Pandas的groupby方法可以高效地完成这一任务。 在Pandas,如何使用聚合函数进行复杂数据分析? 在Pandas,使用聚合函数进行复杂数据分析一种常见且有效的方法。

    7310

    懂Excel轻松入门Python数据分析包pandas(29):轻松做出筛选控件

    本身是以行列表作为核心概念,比如说 Excel 的透视表,在 pandas 中就有一一对应,本系列已经讲解过。...Excel 的操作便利性在于只需要鼠标点击就可以完成操作,这对于查看数据是非常方便。 难道我们用 Python 就不能做到吗?本文将结合一些工具,使得你的 pandas 处理过程变得灵活动态。...---- 透视表的灵活性 当我们拿到一份数据时,经常需要不断改变条件对数据进行观测,如下一份某水果的销售情况: 一行数据表示,某天(date)在某地区(region)此水果的某个品种(type)的价格...处理 本文需要导入的库这些: 首先使用 pandas 得到透视表的结果,这非常简单: 行3,4:为了突出可以变化的东西,这里定义2个变量 通过修改2个变量,我们能得到对应的结果数据 但是这远远不够...2015,2016,2017,2018] ,年份有4种选择,此时界面上看到一个 year 的下拉框供用户点选 topn=range(1,11) ,topn 有10种选择,界面同样可以看到下拉框 现在,我们只需要简单从下拉框选择条件

    93720

    Pandas_Study01

    而DataFrame一种表格型数据结构,它含有一组有序的列,每列可以是不同的。DataFrame既有行索引,也有列索引,它可以看作由Series组成的字典,不过这些Series公用一个索引。...一通过iloc 索引访问,只能接受整数索引,也不能添加逻辑判断的过滤条件,但它不受标签的影响可以一直通过整数索引访问,在对series排序后如果想获取首个元素,就可以通过iloc 来访问,因为此时标签的顺序已经改变...df.at['a', 'c'] # 按标签信息,传入行列标签索引信息 获取具体某个数据 df.iat[1, 2] # 按位置信息,传入行列位置信息,获取具体某个数据 # 新版本pandas df...pandas 常用函数 pandas的函数 一般会有两种结果,一copy,即返回一个修改后的副本,原有的不变,二inplace,即在原有基础上直接进行修改。...series 的统计函数 1. sum() 方法 和 mean() 方法 sum 求和函数。mean 求均值,同时有skipnan参数可选是否忽略nan 空

    19710

    利用query()与eval()优化pandas代码

    因此很多时候为了提升整个数据分析工作流的「执行效率」以及代码的「简洁性」,需要配合一些pandas的高级特性。...图1 2 基于query()的高效查询 query()顾名思义,pandas中专门执行数据查询的API,其实早在2014年,pandas0.13版本这个特性就已经出现了,随着后续众多版本的迭代更新,...目前pandas的query()已经进化得非常好用(笔者目前使用的pandas版本为1.1.0)。...而pandas的eval()有两种,一种top-level级别的eval()函数,而另一种针对数据框的DataFrame.eval(),我们接下来要介绍的后者,其与query()有很多相同之处,...策略之后无法被解析的日期会填充pd.NAT,而缺失之间无法进行相等比较的: # 利用assign进行新增字段计算并保存为新数据框 result1 = netflix.assign(years_to_now

    1.5K30
    领券