昨天学了 bs4 后,基本上就没明白啥意思,情绪一度陷入低谷。
好在有朋友在评论区告诉我:不用太在乎 bs4 了,正则表达式学好就行了,效率不是 bs4 可以比的。
一下子点燃了我前进的道路、又让我变得元气满满。
巧合的是,今天老师就开始讲正则表达式了,这就是命中注定吧。
正则表达式 描述了一种字符串匹配的模式,可以用来检查一个字符串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
网上一搜,常用的正则表达式有60多个,关键是一个个都写的跟天书一样。
好在老师说作为初学者,不要求全会,自己能写一两个即可,关键是能看懂别人写的。
所以,就必须要能掌握正则表达式的常用操作符。
在 Python 中,主要使用 Re库解决正则表达式匹配问题的。
上面的几个函数中,必须要熟练掌握的就是 match 、 findall 、sub。
此外,正则表达式可以包含一些可选标志修饰符来控制匹配的模式。
概念说了半天,不上手实操一下,都是扯淡。
使用 compile() 与 findall(), search(), match()等搭配使用。可以返回一个匹配对象。
这里返回的匹配结果是,span=(3,5),考虑到左闭右开特性,也就是说,它在第3、4位置找到了AA。
也就是说,匹配的结果是两个:一是匹配不匹配;二是在哪个位置匹配。
search 方法进行比对查找,只查找出现的第一个。
也可以进行简写,前面的字符串是规则(正则表达式),后面是被校验的对象。
sub()的使用方法可以参考下面的代码。
表示:在第三个字符串中查找,将找到的 a 用 A 替换。
这个功能还是蛮强大的,这不就是 word 里面的替换功能嘛。
建议:在正则表达式中,被比较的字符串前面加上 r ,不用担心 转义字符 的问题。
总体感觉这部分不算难,真正在未来操作过程中,碰到想不起来的,直接查找就好了。
正则表达式,就是一个熟能生巧的工具罢了。
领取专属 10元无门槛券
私享最新 技术干货