今日分享:正则表达式
一:正则表达式的定义及用途
正则表达式是一种特殊的字符串,字符串中的每个字符都含有特定的意义。使用者通过将正则中不同的字符组合成不同的字符串,以便用它来匹配(筛选或提取)文本中的目标文本。
其用途主要就是匹配文本。就编写Python爬虫来说,当获取到目标网页中的链接文本时,要想按照我们的需要提取出数据,就可以通过比对要获取的目标数据来编写相对应的正则表达式。
二:正则表达式的基本语法
在这里为使大家详细了解正则的基础知识,小编从网上搜索了一个较为详细的知识图,小编就不在重复造轮子了
图片来源于网络,请大家访问图片右下角的原创地址
三:正则的优缺点
正则表达式的难点在于复杂多变没有统一格式,也可以这样理解:在每匹配一个目标文本时,都需要重新编写正则表达式,导致工作量很大,这是正则的缺点;其优点在于非常灵活,你可以任意的匹配掉或提取出任一个你想要的文本,前提就是要熟练掌握匹配原则。
四:小编建议
首先大致熟悉正则的基本知识,不必完全记下,当需要使用时在看即可。
其次就是在练习中熟悉掌握匹配原则,为防止一脸懵A ,匹配的难度可以慢慢加深,也就是先匹配少量文本,然后慢慢增加匹配的文本,这样做的好处就是 你可以清除地知道自己所匹配的每一个目标文本,做到运筹帷幄。
如果觉得正则提取文本太麻烦,不要担心,还有别的提取文本的方法,比如也可以用bs4库,相关内容会后续推出。
领取专属 10元无门槛券
私享最新 技术干货