昨儿上午到公司,小峰峰说程哥,mysql有没有正则表达式的函数,将字段中的英文占字段长度比例超过百分之60的提取出来.mysql中正则表达式常用语where条件中,进行条件过滤,后来一想还是用python正则模块re进行处理.
一.源数据
二.处理逻辑
nid是记录一条记录的唯一标志,将源数据中要处理的字段查询出来,文本字段替换空白字符,计算长度,正则提取出英文,计算英文字符串的长度,通过两个长度相除,>=0.6的则大部分是英文,长度相等的是纯英文标题,新处理后的数据也添加上nid字段,写入一个新表,通过新表和数据源表关联查找数据
三.代码
四.数据处理后 测试了1000条 筛选出了辣么少.....
五.代码下载
https://github.com/chengcxy/Data_ETL/blob/master/handle_taobao.py
领取专属 10元无门槛券
私享最新 技术干货