首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 查找,丢弃列值唯一的列

前言 数据清洗很重要,本文演示如何使用 Python Pandas 来查找和丢弃 DataFrame 中列值唯一的列,简言之,就是某列的数值除空值外,全都是一样的,比如:全0,全1,或者全部都是一样的字符串如...:已支付,已支付,已支付… 这些列大多形同虚设,所以当数据集列很多而导致人眼难以查找时,这个方法尤为好用。...上代码前先上个坑吧,数据列中的空值 NaN 也会被 Pandas 认为是一种 “ 值 ”,如下图: 所以只要把列的缺失值先丢弃,再统计该列的唯一值的个数即可。...代码实现 数据读入 检测列值唯一的所有列并丢弃 最后总结一下,Pandas 在数据清洗方面有非常多实用的操作,很多时候我们想不到只是因为没有接触过类似的案例或者不知道怎么转换语言描述,比如 “...列值唯一 ” --> “ 除了空值以外的唯一值的个数等于1 ” ,许多坑笔者都已经踩过了,欢迎查看我的其余文章,提建议,共同进步。

5.7K21

用过Excel,就会获取pandas数据框架中的值、行和列

在Excel中,我们可以看到行、列和单元格,可以使用“=”号或在公式中引用这些值。...在Python中,数据存储在计算机内存中(即,用户不能直接看到),幸运的是pandas库提供了获取值、行和列的简单方法。 先准备一个数据框架,这样我们就有一些要处理的东西了。...df.columns 提供列(标题)名称的列表。 df.shape 显示数据框架的维度,在本例中为4行5列。 图3 使用pandas获取列 有几种方法可以在pandas中获取列。...在pandas中,这类似于如何索引/切片Python列表。 要获取前三行,可以执行以下操作: 图8 使用pandas获取单元格值 要获取单个单元格值,我们需要使用行和列的交集。...接着,.loc[[1,3]]返回该数据框架的第1行和第4行。 .loc[]方法 正如前面所述,.loc的语法是df.loc[行,列],需要提醒行(索引)和列的可能值是什么?

19.2K60
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    DataFrame和Series的使用

    DataFrame和Series是Pandas最基本的两种数据结构 可以把DataFrame看作由Series对象组成的字典,其中key是列名,值是Series Series和Python...() share.std() # 计算标准差 share.value_counts() # 统计每个取值在数据集中出现了多少次 share.count() # 返回有多少非空值...share.describe() # 一次性计算出 每一列 的关键统计量 平均值, 标准差, 极值, 分位数 movie.head(10) # 默认取前5条数据 查看数据类型及属性...pop','gdpPercap']].mean() # 根据year分组,查看每年的life平均值,pop平均值和gpd平均值,用mean做聚合运算 也可以根据两个列分组,形成二维数据聚合 df.groupby...Series的唯一值计数 # 可以使用 value_counts 方法来获取Pandas Series 的频数统计 df.groupby(‘continent’) → dataframeGroupby

    10910

    干货:4个小技巧助你搞定缺失、混乱的数据(附实例代码)

    原理 pandas的.fillna(...)方法帮我们处理了所有重活。这是DataFrame对象的一个方法,将要估算的值作为唯一必须传入的参数。...更多 插补数据不是填补缺失值的唯一方法。数据对称分布且没有异常值时,才会返回一个合理的值;如果分布比较偏,平均值是有偏差的。衡量集中趋势更好的维度是中位数。...数据标准化是移动其分布,使得数据的平均数是0、标准差是1。 1. 准备 要实践本技巧,你要先装好pandas模块。 其他没有什么要准备的了。 2....normalize(...)方法就是做的前面描述的工作:对数据的集合,减去最小值,除以范围。 标准化的过程类似:减去平均数,除以样本的标准差。这样,处理后的数据,平均数为0而标准差为1。...对于价格数据(缺失值用估算的平均数填补),我们创建了六个容器,在最小值和最大值之间均匀分配。.

    1.5K30

    pandas库的简单介绍(4)

    ---- 5 描述性统计概述与计算 5.1 描述性统计和汇总统计 pandas对象有一个常用数学、统计学方法的集合,大部分属于规约和汇总统计,并且还有处理缺失值的功能。...值的样本标准差 skew, kurt 样本偏度(第三时刻)、样本峰度(第四时刻)的值 cumsum 累计值 cummin, cummax 累计值的最小值和最大值 cumprod 值的累计积 pct_change...---- 5.3 唯一值、计数和成员属性 一维Series也有一些统计方法,例如: 1、计算唯一值,unique方法 series1 = pd.Series(list('abcdacdabcabc')...) unique = series1.unique() #计算唯一值 print('唯一值:\n', unique) 唯一值: ['a' 'b' 'c' 'd'] 2、计算包含值的个数,并降序排列 pd.value_counts...至此,pandas基础操作已经全部完成,熟练运用这些方法能大大减少编程的复杂度,也能提高效率;下一篇将对时间类型做一个专题。

    1.4K30

    Python北京空气质量数据处理

    假设PM指数最高500,对PM_Dongsi,PM_Dongsihuan,PM_Nongzhanguan三列超过500的数据,修改为500PM指数修改cbwd列中的值为cv的单元格,其值用后项数据填充并计算北京空气质量...分析解决方法 第一对HUMI,PRES,TEMP线性插值处理,主要用numpy.interp,超出3倍标准差的高度异常数据,修改成3倍标准差的数值来一个判断OK,关键是其值用后项数据填充一开始想使用转化为...计算北京每年的PM2.5情况 import pandas as pd # 打开文件,仅读取第7至第10列 FileNameStr = 'PM_Beijing.csv' df = pd.read_csv...(axis=1)为求行平均值 df['PM_ave'] = df.iloc[:, 1:5].mean(axis=1) # 保存到文件,其中以'year'分组,计算'PM_ave'列的平均值。...2:6].mean(axis=1) # 保存到文件,其中以'year'和'month'分组,计算'PM_ave'列的平均值。

    2K20

    Pandas | 数据统计

    前言 本次我们介绍Pandas数据统计函数,如针对数值类型的统计(获取样本个数、平均值、标准差、极值等);针对非数值类型的统计(获取每个类型的个数)以及计算相关系数和协方差。 本文框架 0....导入Pandas 1. 读取数据与数据预处理 2. 汇总类统计 3. 获取唯一值与按值计数 4. 相关系数与协方差 0. 导入Pandas import pandas as pd 1....汇总类统计 针对数值列,我们可以使用"df.describe()"将统计结果计算出来,返回结果有个数(count)、平均数(mean)、标准差(std)、最小值(min)、最大值(max)以及分位数(25%...获取唯一值与按值计数 对于非数值类型,我们可以通过"unique"进行去重,获取列中有哪些类型值; 以及使用"value_counts"获取每个类型的个数。...相关系数与协方差 相关系数(corr):检查两个变量之间变化趋势的方向以及程度,值范围-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大相关性越强。

    77510

    Linux下的计算命令和求和、求平均值、求最值命令梳理

    在Linux系统下,经常会有一些计算需求,那么下面就简单梳理下几个常用到的计算命令 (1)bc命令 bc命令是一种支持任意精度的交互执行的计算器语言。...不过有一点需要注意,在计算加减乘除时,不要忘了使用空格和转义。...print a}' a 2348 (1)求最大值 [root@redis-server1 ~]# awk '$0>a{a=$0}END{print a}' a 2333 (2)求最小值(思路:先定义一个最大值...) [root@redis-server1 ~]# awk 'BEGIN{a=9999999}{if($1<a) a=$1 fi}END{print a}' a 1 (3)求平均值 第一种方法:在上面求和的基础上...上一个命令结果的返回值,0是正确,非0是错误的 $0 当前程序名 $n 命令行参数,比如$1是第一个参数,$2是第二个参数,$3是第三个参数..... $# 命令行参数的个数 $* 格式形如

    3.8K71

    Pandas 功能介绍(二)

    “by”参数可以使用字符串,也可以是列表,ascending 的参数也可以是单个值或者列表 ascending 默认值是 True 列中的每行上的 apply 函数 在前一篇的增加列的部分,根据风速计算人体感觉是否舒适...,为了功能的演示,在这里使用 DataFrame 的 apply 方法,他会在指定列的每个值上执行。...详见代码: 均值和标准差 我们通过 describe 方法查看的统计信息中均值和方差都是按照列统计呢,这里要说的,既可以按照列,还可以按照行 均值,行 df.mean(axis=0),列df.mean(...SQL 一样的连接,内联,外联,左联,右联 作为我们的示例数据,可以唯一标识一行的就是 Datatime 列 merged_df = df_1.merge(df_2, how='left', on='...特别是统计数量、计算和、求平均值,等等。

    1.6K60

    Pandas速查卡-Python数据科学

    df.info() 索引,数据类型和内存信息 df.describe() 数值列的汇总统计信息 s.value_counts(dropna=False) 查看唯一值和计数 df.apply(pd.Series.value_counts...) 所有列的唯一值和计数 选择 df[col] 返回一维数组col的列 df[[col1, col2]] 作为新的数据框返回列 s.iloc[0] 按位置选择 s.loc['index_one'] 按索引选择...=max) 创建一个数据透视表,按col1分组并计算col2和col3的平均值 df.groupby(col1).agg(np.mean) 查找每个唯一col1组的所有列的平均值 data.apply(...df.describe() 数值列的汇总统计信息 df.mean() 返回所有列的平均值 df.corr() 查找数据框中的列之间的相关性 df.count() 计算每个数据框的列中的非空值的数量 df.max...() 查找每个列中的最大值 df.min() 查找每列中的最小值 df.median() 查找每列的中值 df.std() 查找每个列的标准差 点击“阅读原文”下载此速查卡的打印版本 END.

    9.2K80

    Pandas库常用方法、函数集合

    qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉表,用于计算两个或多个因子之间的频率 join:通过索引合并两个dataframe stack: 将数据框的列“堆叠”为一个层次化的...mean:计算分组的平均值 median:计算分组的中位数 min和 max:计算分组的最小值和最大值 count:计算分组中非NA值的数量 size:计算分组的大小 std和 var:计算分组的标准差和方差...describe:生成分组的描述性统计摘要 first和 last:获取分组中的第一个和最后一个元素 nunique:计算分组中唯一值的数量 cumsum、cummin、cummax、cumprod:...计算分组的累积和、最小值、最大值、累积乘积 数据清洗 dropna: 丢弃包含缺失值的行或列 fillna: 填充或替换缺失值 interpolate: 对缺失值进行插值 duplicated: 标记重复的行...用于访问Datetime中的属性 day_name, month_name: 获取日期的星期几和月份的名称 total_seconds: 计算时间间隔的总秒数 rolling: 用于滚动窗口的操作 expanding

    31510

    Pandas 功能介绍(二)

    image.png 列排序 数据按照某列进行排序 image.png “by”参数可以使用字符串,也可以是列表,ascending 的参数也可以是单个值或者列表 image.png ascending...默认值是 True 列中的每行上的 apply 函数 在前一篇的增加列的部分,根据风速计算人体感觉是否舒适,为了功能的演示,在这里使用 DataFrame 的 apply 方法,他会在指定列的每个值上执行...详见代码: image.png 均值和标准差 我们通过 describe 方法查看的统计信息中均值和方差都是按照列统计呢,这里要说的,既可以按照列,还可以按照行 均值,行 df.mean(axis=0)...=1) 基于索引关键字合并 Pandas 还提供了像 SQL 一样的连接,内联,外联,左联,右联 作为我们的示例数据,可以唯一标识一行的就是 Datatime 列 merged_df = df_1.merge...特别是统计数量、计算和、求平均值,等等。

    1.2K70

    《python数据分析与挖掘实战》笔记第3章

    另外提供的基本参数还有平均值(mean)、标准差(std)、最小值(min)、最大值(max)以及1/4、1/2、3/4分位数(25%、50%、75%)。 异常值检测箱型图 ?...平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数; 反映变异程度的指标则是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位间距。...即在全部数据中, 小于和大于中位数的数据个数相等。 ⑶众数 众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更适 用于定性变量。众数不具有唯一性。...表3-8 Pandas主要统计特征函数 方法名 函数功能 所属库 sum() 计算数据样本的总和(按列计算) Pandas mean() 计算数据样本的算术平均数 Pandas var() 计算数据样本的方差...() 计算数据样本的总和(按列计算) Pandas rolling_mean() 数据样本的算术平均数 Pandas rolling_var() 计算数据样本的方差 Pandas rolling_std

    2.2K20

    数据导入与预处理-第5章-数据清理

    重复值主要有两种处理方式:删除和保留,其中删除重复值是比较常见的方式,其目的在于保留唯一的数据记录。...缺失值的常见处理方式有三种:删除缺失值、填充缺失值和插补缺失值,pandas中为每种处理方式均提供了相应的方法。...| 平均数填充到指定的列 # 计算A列的平均数,并保留一位小数 col_a = np.around(np.mean(na_df['A']), 1) # 计算D列的平均数,并保留一位小数 col_d =...np.around(np.mean(na_df['D']), 1) # 将计算的平均数填充到指定的列 na_df.fillna({'A':col_a, 'D':col_d}) 输出为: 缺失值补全...: 异常值及其对应的行索引 """ # 计算平均值 mean_data = ser.mean() # 计算标准差 std_data = ser.std()

    4.5K20

    Pandas知识点-统计运算函数

    在Pandas中,数据的获取逻辑是“先列后行”,所以max()默认返回每一列的最大值,axis参数默认为0,如果将axis参数设置为1,则返回的结果是每一行的最大值,后面介绍的其他统计运算函数同理。...在numpy中,使用argmax()和argmin()获取最大值的索引和最小值的索引,在Pandas中使用idxmax()和idxmin(),实际上idxmax()和idxmin()可以理解成对argmax...使用DataFrame数据调用mean()函数,返回结果为DataFrame中每一列的平均值,mean()与max()和min()不同的是,不能计算字符串或object的平均值,所以会自动将不能计算的列省略...使用DataFrame数据调用median()函数,返回结果为DataFrame中每一列的中位数,median()也不能计算字符串或object的中位数,会自动将不能计算的列省略。 ?...使用Series数据调用mean()或median()时,返回Series中的均值或中位数。 四、标准差和方差 ? std(): 返回数据的标准差。 var(): 返回数据的方差。

    2.1K20

    左手用R右手Python系列10——统计描述与列联分析

    Hmisc::describe(diamonds[myvars]) #可输出变量与观测值个数、缺失值与唯一值个数、均值与分位数,五最大值最小值。 ?...pastecs::stat.desc(diamonds[myvars]) #可以计算所有值、空值、缺失值数量,最大值、最小值、值域即总和。 ?...psych::describe(diamonds[myvars]) #可以计算非缺失值的数量、平均值、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误。 ?...Python: 关于Python中的变量与数据描述函数,因为之前已经介绍过一些基础的聚合函数,这里仅就我使用最多的数据透视表和交叉表进行讲解:Pandas中的数据透视表【pivot_table】和交叉表...pandas的交叉表函数pd.crosstab参数设定规则与透视表保持了很高的相似度,确实从呈现形式上来讲,数值型变量的尽管聚合方式有很多【均值、求和、最大值、最小值、众数、中位数、方差、标准差、求和等

    3.5K120

    Python数据分析实战基础 | 初识Pandas

    3、统计信息概览 快速计算数值型数据的关键统计指标,像平均数、中位数、标准差等等。 ? 我们本来有5列数据,为什么返回结果只有两列?那是因为这个操作只针对数值型的列。...其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、平均值和最大值,25%、50%、75%对应的则是分位数。...2、 数值型 数值型数据,常见的操作是计算,分为与单个值的运算,长度相等列的运算。 以案例数据为例,源数据访客数我们是知道的,现在想把所有渠道的访客都加上10000,怎么操作呢? ?...只需要选中访客数所在列,然后加上10000即可,pandas自动将10000和每一行数值相加,针对单个值的其他运算(减乘除)也是如此。 列之间的运算语句也非常简洁。...导致报错的原因,是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?

    1.8K30

    Python数据分析实战基础 | 初识Pandas

    3、统计信息概览 快速计算数值型数据的关键统计指标,像平均数、中位数、标准差等等。 ? 我们本来有5列数据,为什么返回结果只有两列?那是因为这个操作只针对数值型的列。...其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、平均值和最大值,25%、50%、75%对应的则是分位数。...2、 数值型 数值型数据,常见的操作是计算,分为与单个值的运算,长度相等列的运算。 以案例数据为例,源数据访客数我们是知道的,现在想把所有渠道的访客都加上10000,怎么操作呢? ?...只需要选中访客数所在列,然后加上10000即可,pandas自动将10000和每一行数值相加,针对单个值的其他运算(减乘除)也是如此。 列之间的运算语句也非常简洁。...导致报错的原因,是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?

    1.3K21

    我的Python分析成长之路9

    loc内部可以出入表达式,返回布尔值的series       iloc和loc的区别是,iloc接受的必须是行索引和列索引的位置。...1.数值型特征的描述性统计     数值型特征的描述性统计主要包括了计算数值型数据的完整情况、最小值、均值、中位数、最大值、四分位数、极差、标准差、方差、协方差和变异系数。     ...min:最小值     max:最大值     mean:平均值     ptp:极差     median:中位数     std:标准差     var:方差     cov:协方差     corr...:返回一个Series,索引是唯一值序列,值是计数个数,按照个数降序排序 ?...()) #返回每个分组的最小值 print(group.std()) #返回每组的标准差 print(group.sum()) #返回每组的和 print(group.quantile(0.9))

    2.1K11
    领券