首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

说说正则表达式的使用

今日分享:正则表达式

一:正则表达式的定义及用途

正则表达式是一种特殊的字符串,字符串中的每个字符都含有特定的意义。使用者通过将正则中不同的字符组合成不同的字符串,以便用它来匹配(筛选或提取)文本中的目标文本。

其用途主要就是匹配文本。就编写Python爬虫来说,当获取到目标网页中的链接文本时,要想按照我们的需要提取出数据,就可以通过比对要获取的目标数据来编写相对应的正则表达式。

二:正则表达式的基本语法

在这里为使大家详细了解正则的基础知识,小编从网上搜索了一个较为详细的知识图,小编就不在重复造轮子了

图片来源于网络,请大家访问图片右下角的原创地址

三:正则的优缺点

正则表达式的难点在于复杂多变没有统一格式,也可以这样理解:在每匹配一个目标文本时,都需要重新编写正则表达式,导致工作量很大,这是正则的缺点;其优点在于非常灵活,你可以任意的匹配掉或提取出任一个你想要的文本,前提就是要熟练掌握匹配原则。

四:小编建议

首先大致熟悉正则的基本知识,不必完全记下,当需要使用时在看即可。

其次就是在练习中熟悉掌握匹配原则,为防止一脸懵A ,匹配的难度可以慢慢加深,也就是先匹配少量文本,然后慢慢增加匹配的文本,这样做的好处就是 你可以清除地知道自己所匹配的每一个目标文本,做到运筹帷幄。

如果觉得正则提取文本太麻烦,不要担心,还有别的提取文本的方法,比如也可以用bs4库,相关内容会后续推出。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171230G0OO1N00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券