大家好,我是早起。
前两天,有一位读者在知识星球提出了一个关于 pandas
数据清洗的问题。
他的数据大致如下
现在希望分别做如下清洗
“
”
其实本质上都是「数据筛选」的问题,先来模拟下数据
如上图所示,基本上都是根据数据类型进行数据筛选,下面逐个解决。
让我们从第 4 题开始,取出 D 列全部非整数行,其实在 pandas
中可以使用.is_integer()
判断一个元素是否为整数。
这样我们就能结合 apply
函数找到全部整数行
再使用 ~
取其补集即可得到答案
df[~df[['D']].apply(lambda x: x[0].is_integer(), axis=1)]
第 3 题要求取出 C 列所有数值形式的行。
在 pandas
同样有直接判断的函数 .isdigit()
判断是否为数值。
所以同上可以结合 apply
函数轻松搞定~
df[df['C'].str.isdigit().isnull()].dropna()
至于第 2 题,pandas
中虽有直接判断时间格式函数,但由于存在其他类型数据,该列为object
,并不能直接判断。
所以只要我们将该列转换为时间格式(见习题 8-12)就会将不支持转换的格式修改为缺失值
这样在转换后删除确实值即可
至于第 1 题,我们可以借助 Python 中 isinstance
函数判断一个变量是否为字符串格式
再同样借助 apply 函数即可找到全部字符串的行,然后使用 ~ 取其补集即可
最后是一个看上去是异常值处理的问题,但本质上还是数据筛选。
直接计算该列的指定范围,并多条件筛选即可。
至此我们就成功利用 pandas
根据 数据类型 进行筛选值。其实这些题都在「pandas进阶修炼300题」中有类似的存在。
当然本文的内容也将再次整理后添加至第 9 章「其他未提及操作中」,点击下方图片即可了解习题详情~
点击下载「pandas进阶修炼300题」👇
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有