首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

pandas库的简单介绍(2)

3、 DataFrame数据结构 DataFrame表示的矩阵数据表,每一列可以是不同的类型(数值、字符串、布尔等)。...3.1 DataFrame的构建 DataFrame有多种构建方式,最常见的利用等长度的列表或字典构建(例如从excel或txt读取文件就是DataFrame类型)。...另外一个构建的方式字典嵌套字典构造DataFrame数据;嵌套字典赋给DataFrame,pandas会把字典的键作为列,内部字典的键作为索引。...(*4)索引对象的特征和操作 索引对象的重要特征不可变的,因此我们无法修改索引对象(初学者常常忽略这一点)。...4.1 重建索引 reindexpandas对象的重要方法,该方法创建一个符合条件的新对象。如果某个索引之前并不存在,则会引入缺失;在这里注意与上一篇文章2.2的区别。

2.3K10

python数据科学系列:pandas入门详细教程

还是dataframe,均支持面向对象的绘图接口 正是由于具有这些强大的数据分析与处理能力,pandas还有数据处理"瑞士军刀"的美名。...自然毫无悬念 dataframe:无法访问单个元素,只能返回一列、多列或多行:单或多值(多个列名组成的列表)访问时按列进行查询,单访问不存在列名歧义时还可直接用属性符号" ....isin/notin,条件范围查询,即根据特定列是否存在于指定列表返回相应的结果 where,仍然执行条件查询,但会返回全部结果,只是将不满足匹配条件的结果赋值为NaN或其他指定,可用于筛选或屏蔽...,可通过axis参数设置按行删除还是按列删除 替换,replace,非常强大的功能,对series或dataframe每个元素执行按条件替换操作,还可开启正则表达式功能 2 数值计算 由于pandas...两种数据结构作图,区别仅在于series绘制单个图形,而dataframe则是绘制一组图形,且在dataframe绘图结果以列名为标签自动添加legend。

13.9K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    一文介绍Pandas的9种数据访问方式

    导读 Pandas之于日常数据分析工作的重要地位不言而喻,而灵活的数据访问则是其中的一个重要环节。本文旨在讲清Pandas的9种数据访问方式,包括范围读取和条件查询等。 ?...通常情况下,[]常用于在DataFrame获取单列、多列或多行信息。具体而言: 当在[]中提供单或多值(多个列名组成的列表)访问时按列进行查询,单访问不存在列名歧义时还可直接用属性符号" ....4. isin,条件范围查询,一般对某一列判断其取值是否在某个可迭代的集合。即根据特定列是否存在于指定列表返回相应的结果。 5. where,妥妥的Pandas仿照SQL实现的算子命名。...这里仍然执行条件查询,但与直观不大相符的这里会返回全部结果,只是将不满足匹配条件的结果赋值为NaN或其他指定,可用于筛选或屏蔽 ? 6. query,提到query,还得多说两句。...尤其在执行链式查询时,例如可参考历史推文:Pandas用了一年,这3个函数我的最爱……。当然,这种用法一般都可用常规的条件查询替代。 ?

    3.8K30

    这些pandas技巧你还不会吗 | Pandas实用手册(PART II)

    Pandas实用手册(PART I),介绍了建立DataFrame以及定制化DataFrame显示设定两大类技巧。发现已经有同学留言催更了?‍?...处理空 世界总是残酷,很多时候手上的DataFrame里头会有不存在的,如底下一格格额外显眼的NaN: ? 你可以利用fillna函数将DataFrame里头所有不存在的设为0: ?...当然,这个操作的前提你确定在当前分析的情境下,将不存在的视为0这件事情没有问题的。...条件选取数据 在pandas 里头最实用的选取技巧大概非遮掩(masking)莫属了。masking让pandas 将符合特定条件的样本回传: ?...选取某栏位为top-k的样本 很多时候你会想选取在某个栏位前k大的所有样本,这时你可以先利用value_counts函数找出该栏位前k多的: ?

    1.1K20

    懂Excel轻松入门Python数据分析包pandas(十九):文本条件统计

    今天我们来看看在 pandas 如何做到条件统计。...以下 Excel 的公式做法: 那么 pandas 的做法呢? 想必聪明的你一定大概知道怎么做,pandas 求平均的方法 mean: - 行3:同样语义非常清晰。...."住址New York 的人数" Excel 的 xxifs 类函数公式都能支持通配符: - 前后用 * 包围内容,表示包含此内容即符合条件pandas ,由于筛选与统计独立分开的,因此只需要知道怎么筛选...如果本身内容 nan(不存) ,那么直接赋值为 False 如果我们只需要 住址 结尾 NY 的人数?...一次解决所有问题 以上 pandas 的做法主要有以下问题: - 不能用通配符表达不同的文本规则,只能用不同的方法,我记不住这么多方法呀 - 不能忽略大小写(实际上面的需求,pandas 的结果更合理

    1.2K20

    懂Excel轻松入门Python数据分析包pandas(十九):文本条件统计

    今天我们来看看在 pandas 如何做到条件统计。...以下 Excel 的公式做法: 那么 pandas 的做法呢? 想必聪明的你一定大概知道怎么做,pandas 求平均的方法 mean: - 行3:同样语义非常清晰。...."住址New York 的人数" Excel 的 xxifs 类函数公式都能支持通配符: - 前后用 * 包围内容,表示包含此内容即符合条件pandas ,由于筛选与统计独立分开的,因此只需要知道怎么筛选...如果本身内容 nan(不存) ,那么直接赋值为 False 如果我们只需要 住址 结尾 NY 的人数?...一次解决所有问题 以上 pandas 的做法主要有以下问题: - 不能用通配符表达不同的文本规则,只能用不同的方法,我记不住这么多方法呀 - 不能忽略大小写(实际上面的需求,pandas 的结果更合理

    1.3K10

    Pandas实现Excel的SUMIF和COUNTIF函数功能

    pandas的SUMIF 使用布尔索引 要查找Manhattan区的电话总数。布尔索引pandas中非常常见的技术。本质上,它对数据框架应用筛选,只选择符合条件的记录。...“未指定”类别可能由于缺少一些数据,这里不重点讨论这些数据。 Pandas的SUMIFS SUMIFS另一个在Excel中经常使用的函数,允许在执行求和计算时使用多个条件。...本质上使用按位与运算符&将两个条件结合起来。注意,这两个条件周围的括号必不可少的。...(S),虽然这个函数在Excel不存在 mode()——将提供MODEIF(S),虽然这个函数在Excel不存在 小结 Python和pandas多才多艺的。...虽然pandas没有SUMIF函数,但只要我们了解这些如何计算的,就可以自己复制/创建相同功能的公式。

    9.2K30

    Python数据科学:方差分析

    描述性分析的难点在于对业务的了解和对数据的寻找。 统计推断和统计建模,建立解释变量与被解释变量之间可解释的、稳定的、最好具有因果关系的表达式。...在模型运用时,将解释变量(自变量)带入表达式,用于预测被解释变量(因变量)的。...比如说「浅谈数据分析岗」薪水与教育程度之间的关系,教育程度为一个多分类的分类变量。 01 单因素方差分析 单因素方差分析的前提条件: ①变量服从正态分布(薪水符合)。...这里组间均方与组内均方的比值服从F分布,下面贴出F分布曲线图。 ? 其中横坐标为F,即组间均方与组内均方的比值。 当F越大时,即组间均方越大、组内均方越小,说明组间的变异大。...单样本t检验原假设:总体均值与假设的检验不存在显著差异(无差异)。 双样本t检验原假设:两个样本均值(二分变量下的均值)不存在显著差异(无差异)。

    1.6K10

    Python数据分析实战之数据获取三大招

    ---- 第二招 Pandas 库读取数据 在日常数据分析,使用pandas读取数据文件更为常见。...pandas不仅可以读取open()函数所读取的文本文件及其他各类文件,最重要的pandas读取结果为DataFrame数据框,后续的数据处理更为方便。...header参数可以是一个list例如:[0,1,3],这个list表示将文件这些行作为列标题(意味着每一列有多个标题),介于中间的行将被忽略掉(例如本例的2;本例的数据1,2,4行将被作为多级标题出现...重写此以接收unicode数组, 并将字符串作为输入传递给转换器。如果没有设置, 使用系统默认。默认"bytes"。...sep : str 字符串, 如果文件文本文件, 那么该为数据间的分隔符。空("")分隔符表示该文件应该作为二进制文件处理。分隔符的空格(" ")匹配零个或多个空格字符。

    6.5K30

    Python数据分析实战之数据获取三大招

    ---- 第二招 Pandas 库读取数据 在日常数据分析,使用pandas读取数据文件更为常见。...pandas不仅可以读取open()函数所读取的文本文件及其他各类文件,最重要的pandas读取结果为DataFrame数据框,后续的数据处理更为方便。...header参数可以是一个list例如:[0,1,3],这个list表示将文件这些行作为列标题(意味着每一列有多个标题),介于中间的行将被忽略掉(例如本例的2;本例的数据1,2,4行将被作为多级标题出现...重写此以接收unicode数组, 并将字符串作为输入传递给转换器。如果没有设置, 使用系统默认。默认"bytes"。...sep : str 字符串, 如果文件文本文件, 那么该为数据间的分隔符。空("")分隔符表示该文件应该作为二进制文件处理。分隔符的空格(" ")匹配零个或多个空格字符。

    6.1K20

    Vaex :突破pandas,快速分析100GB大数据集

    Pythonpandas大家常用的数据处理工具,能应付较大数据集(千万行级别),但当数据量达到十亿百亿行级别,pandas处理起来就有点力不从心了,可以说非常的慢。...当然pandas可以通过chunk分批读取数据,但是这样的劣势在于数据处理较复杂,而且每一步分析都会消耗内存和时间。...使用vaex读取并计算: 文件读取用了9ms,可以忽略不计,平均值计算用了1s,总共1s。 同样读取1亿行的hdfs数据集,为什么pandas需要十几秒,而vaex耗费时间接近于0呢?...这种对应关系纯属逻辑上的概念,物理上不存在的,原因进程的逻辑地址空间本身就是不存在的。...vaex还在快速发展,集成了越来越多pandas的功能,它在github上的star数5k,成长潜力巨大。

    2.5K70

    Vaex :突破pandas,快速分析100GB大数据集

    Pythonpandas大家常用的数据处理工具,能应付较大数据集(千万行级别),但当数据量达到十亿百亿行级别,pandas处理起来就有点力不从心了,可以说非常的慢。...文件读取用了9ms,可以忽略不计,平均值计算用了1s,总共1s。 同样读取1亿行的hdfs数据集,为什么pandas需要十几秒,而vaex耗费时间接近于0呢?...这种对应关系纯属逻辑上的概念,物理上不存在的,原因进程的逻辑地址空间本身就是不存在的。...结论 vaex有点类似spark和pandas的结合体,数据量越大越能体现它的优势。只要你的硬盘能装下多大数据,它就能快速分析这些数据。...vaex还在快速发展,集成了越来越多pandas的功能,它在github上的star数5k,成长潜力巨大。

    3K31

    亲和性调度

    文章目录 简介 nodeAffinity 节点亲和性 podAffinity 亲和性调度实例 互斥性调度实例 简介 前面的 nodeSelector 调度略显生硬,如果场景某个 Pod 最好调度到磁盘大的节点上...,如果暂时没有,小点也行,比方说数据库; 如果场景某个 Pod,坚决不能调度到某类节点上,其余无所谓,比如说负载均衡不能调度到不对外开放端口的节点上; 诸如此类… 关于这些,nodeSelector...- ssd containers: - name: with-node-affinity image: mysql operator 的可选操作: In: label的某个列表...NotIn:label的不在某个列表 Exists:某个label存在 DoesNotExist:某个label不存在 Gt:label的大于某个(字符串比较) Lt:label的小于某个...(字符串比较) equal:label存在且等于指定的 注意事项: 如果同时定义了nodeSelector和nodeAffinity,name必须两个条件都得到满足,pod才能最终运行在指定的node

    43520

    懂Excel轻松入门Python数据分析包pandas(29):轻松做出筛选控件

    本身是以行列表作为核心概念,比如说 Excel 的透视表,在 pandas 中就有一一对应,本系列已经讲解过。...Excel 的操作便利性在于只需要鼠标点击就可以完成操作,这对于查看数据是非常方便。 难道我们用 Python 就不能做到吗?本文将结合一些工具,使得你的 pandas 处理过程变得灵活动态。...---- 透视表的灵活性 当我们拿到一份数据时,经常需要不断改变条件对数据进行观测,如下一份某水果的销售情况: 一行数据表示,某天(date)在某地区(region)此水果的某个品种(type)的价格...处理 本文需要导入的库这些: 首先使用 pandas 得到透视表的结果,这非常简单: 行3,4:为了突出可以变化的东西,这里定义2个变量 通过修改2个变量,我们能得到对应的结果数据 但是这远远不够...2015,2016,2017,2018] ,年份有4种选择,此时界面上看到一个 year 的下拉框供用户点选 topn=range(1,11) ,topn 有10种选择,界面同样可以看到下拉框 现在,我们只需要简单从下拉框选择条件

    93720

    Pandas

    Series: Series一种一维的数据结构,类似于Python的基本数据结构list,但区别在于Series只允许存储相同的数据类型。...如何在Pandas实现高效的数据清洗和预处理? 在Pandas实现高效的数据清洗和预处理,可以通过以下步骤和方法来完成: 处理空: 使用dropna()函数删除含有缺失的行或列。...例如,可以根据特定条件筛选出满足某些条件的数据段,并对这些数据段应用自定义函数进行处理。...缺失处理(Missing Value Handling) : 处理缺失时间序列数据分析的重要步骤之一。Pandas提供了多种方法来检测和填补缺失,如线性插、前向填充和后向填充等。...Pandas的groupby方法可以高效地完成这一任务。 在Pandas,如何使用聚合函数进行复杂数据分析? 在Pandas,使用聚合函数进行复杂数据分析一种常见且有效的方法。

    7210

    Pandas_Study01

    而DataFrame一种表格型数据结构,它含有一组有序的列,每列可以是不同的。DataFrame既有行索引,也有列索引,它可以看作由Series组成的字典,不过这些Series公用一个索引。...一通过iloc 索引访问,只能接受整数索引,也不能添加逻辑判断的过滤条件,但它不受标签的影响可以一直通过整数索引访问,在对series排序后如果想获取首个元素,就可以通过iloc 来访问,因为此时标签的顺序已经改变...df.at['a', 'c'] # 按标签信息,传入行列标签索引信息 获取具体某个数据 df.iat[1, 2] # 按位置信息,传入行列位置信息,获取具体某个数据 # 新版本pandas df...pandas 常用函数 pandas的函数 一般会有两种结果,一copy,即返回一个修改后的副本,原有的不变,二inplace,即在原有基础上直接进行修改。...series 的统计函数 1. sum() 方法 和 mean() 方法 sum 求和函数。mean 求均值,同时有skipnan参数可选是否忽略nan 空

    19710

    (数据科学学习手札92)利用query()与eval()优化pandas代码

    因此很多时候为了提升整个数据分析工作流的执行效率以及代码的简洁性,需要配合一些pandas的高级特性。...图1 2 基于query()的高效查询 query()顾名思义,pandas中专门执行数据查询的API,其实早在2014年,pandas0.13版本这个特性就已经出现了,随着后续众多版本的迭代更新...,目前pandas的query()已经进化得非常好用(笔者目前使用的pandas版本为1.1.0)。   ...而pandas的eval()有两种,一种top-level级别的eval()函数,而另一种针对数据框的DataFrame.eval(),我们接下来要介绍的后者,其与query()有很多相同之处,...策略之后无法被解析的日期会填充pd.NAT,而缺失之间无法进行相等比较的: # 利用assign进行新增字段计算并保存为新数据框 result1 = netflix.assign(years_to_now

    1.7K20
    领券