首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 查找,丢弃列值唯一的列

前言 数据清洗很重要,本文演示如何使用 Python Pandas 来查找和丢弃 DataFrame 中列值唯一的列,简言之,就是某列的数值除空值外,全都是一样的,比如:全0,全1,或者全部都是一样的字符串如...:已支付,已支付,已支付… 这些列大多形同虚设,所以当数据集列很多而导致人眼难以查找时,这个方法尤为好用。...上代码前先上个坑吧,数据列中的空值 NaN 也会被 Pandas 认为是一种 “ 值 ”,如下图: 所以只要把列的缺失值先丢弃,再统计该列的唯一值的个数即可。...代码实现 数据读入 检测列值唯一的所有列并丢弃 最后总结一下,Pandas 在数据清洗方面有非常多实用的操作,很多时候我们想不到只是因为没有接触过类似的案例或者不知道怎么转换语言描述,比如 “...列值唯一 ” --> “ 除了空值以外的唯一值的个数等于1 ” ,许多坑笔者都已经踩过了,欢迎查看我的其余文章,提建议,共同进步。

5.7K21
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Excel公式练习47: 根据单元格区域中出现的频率和大小返回唯一值列表

    本次的练习是:有一个包含数字和空的单元格区域,如下图1所示示例的单元格区域A1:F6,要求生成这些数字的唯一值,并按数字出现的频率顺序排列,出现频率高的排在前面,如果几个数字出现的频率相同,则数字小的排在前面...,这很重要,因为问题的症结在于根据值在该区域内的频率返回值。...然后将它们与原始值进行匹配,我们知道上述值分别代表5出现了6次、2出现了5次、1出现了3次、4出现了3次、6出现了3次、3出现了1次。...简单地使用INDEX函数处理由FREQUENCY函数生成的数组,使用合适大小和值的数组传递给其row_num参数,结果数组将是一个由6行6列组成的数组。...这里由FREQUENCY函数生成的37行1列数组: {3;15;0;0;3;0;0;6;0;0;0;0;0;0;5;0;0;0;3;0;0;0;0;0;0;1;0;0;0;0;0;0;0;0;0;0;0

    1.7K20

    数据导入与预处理-第6章-02数据变换

    基于列值重塑数据(生成一个“透视”表)。使用来自指定索引/列的唯一值来形成结果DataFrame的轴。此函数不支持数据聚合,多个值将导致列中的MultiIndex。...columns:表示新生成对象的列索引。 values :表示填充新生成对象的值。 要想了解pivot()函数,可以先了解下pivot_table()函数。...pivot_table透视的过程如下图: 假设某商店记录了5月和6月活动期间不同品牌手机的促销价格,保存到以日期、商品名称、价格为列标题的表格中,若对该表格的商品名称列进行轴向旋转操作,即将商品名称一列的唯一值变换成列索引...,将出售日期一列的唯一值变换成行索引。...,商品一列的唯一数据变换为列索引: # 将出售日期一列的唯一数据变换为行索引,商品一列的唯一数据变换为列索引 new_df = df_obj.pivot(index='出售日期', columns='商品名称

    19.3K20

    Python-matplotlib 散点图绘制02

    接下来一步算是比较重要的数据处理过程了,即将groupby操作后的结果转成字典,然后再根据字典结果对生成新数据。...注意红框标记的地方,下面根据字典生成新的特征列数据,代码如下: office['avg'] = office['season'].apply(lambda x : avg_select_dic['imdb_rating...接下来的分组操作也是非常重要和根据需求操作较多的数据处理过,笔者我也是查了些资料才实现自己的需求:即groupby()后根据不同列的值生成对应不同数据操作的数据结果,大家可以直接记住此步骤。...episode_mod 列生成新特征start_x列,结果为 episode_mod 列的最小值减5; 根据 episode_mod 列生成新特征end_x列,结果为 episode_mod 列的最大值加...5; 根据 avg 列生成新特征y列,结果为 avg 列的唯一值。

    1K10

    Python-matplotlib 散点图配色设计

    接下来一步算是比较重要的数据处理过程了,即将groupby操作后的结果转成字典,然后再根据字典结果对生成新数据。...注意红框标记的地方,下面根据字典生成新的特征列数据,代码如下: office['avg'] = office['season'].apply(lambda x : avg_select_dic['imdb_rating...接下来的分组操作也是非常重要和根据需求操作较多的数据处理过,笔者我也是查了些资料才实现自己的需求:即groupby()后根据不同列的值生成对应不同数据操作的数据结果,大家可以直接记住此步骤。...episode_mod 列生成新特征start_x列,结果为 episode_mod 列的最小值减5; 根据 episode_mod 列生成新特征end_x列,结果为 episode_mod 列的最大值加...5; 根据 avg 列生成新特征y列,结果为 avg 列的唯一值。

    1.1K10

    python数据分析——数据分类汇总与统计

    例如, DataFrame可以在其行(axis=0)或列(axis=1)上进行分组。然后,将一个函数应用(apply)到各个分组并产生一个新值。...对象; df.groupby(col1)[col2]或者 df[col2].groupby(col1),两者含义相同,返回按列col1进行分组后col2的值; 首先生成一个表格型数据集: import...首先,根据day和smoker对tips进行分组,然后采用agg()方法一次应用多个函数。 如果传入一组函数或函数名,得到的DataFrame的列就会以相应的函数命名。...Apply函数会将待处理的对象拆分成多个片段,然后对各片段调用传入的函数,最后尝试将各片段组合到一起。 示例一 【例13】采用之前的小费数据集,根据分组选出最高的5个tip-pct值。...可以是单个列名、多个列名组成的列表或者数组,表示数据透视后的行的唯一标识。 columns:指定数据透视后的列索引。可以是单个列名、多个列名组成的列表或者数组,表示数据透视后的列的唯一标识。

    5610
    领券