你可能会遇到过各种文本处理,从文本中其他所有数值,初看起来没有啥特别难度。
但是,数据经常让你"喜出望外"。
今天我们使用各种方式从文本中提取有效的数值:
为了方便对比各种实现方式,我们把待验证的文本与正确结果写入 excel 表格:

为了简化调用,我封装了一系列流程,我们只需要定义一个处理函数即可:

这个方式非常好,因为直观简单。
但是从验证结果可以看到,大部分的数据都没能通过
接下来就要使用核武器
简单的正则表达式还是挺好弄:


我们注意到测试表中,有些内容数值前有正负号,还有科学计数法
·不妨在数字前面加上可能出现的正负号:


没有多大改进,只是多通过了一行
看了第二行大概就能知道,我们没有考虑小数:


这次好很多了。
现在集中解决索引3的 case,注意到他有科学计数法(45e5 等):


还有最后3个 case 没有通过,但我也解决不了。希望有高手能指点。
先到这里吧,估计我过几天就看不懂这些代码了。
本文源码请发送 "python 正则" 获取
你学会了没有?
记得点赞,转发!谢谢支持!
推荐阅读:
pandas输出的表格竟然可以动起来?教你华而不实的python