Python的爬虫工具有很多种,比如urllib、requests、正则表达式等等。这些是具体的,但是正则表达式是必须会的,因为它不仅仅在Python爬虫中有在很多地方都有可以使用的地方。只要多用就一定可以熟练的掌握。下面我们来具体的说一下爬虫的三种思路。
判断数据是否在当前请求的网页源代码中
对于我们想要的数据信息,我们首先应该查看在浏览器渲染后的内容是否可以在“查看源码”中的源代码中找到,一般通过快捷键查询Ctrl+F,将所爬取得文字信息拿到源码中找,看是否得到,在或者通过F12进入开发者模式,选中左上角的鼠标标记点击将要的数据信息位置,看浏览器的内容是否和源码部分对应,如果有的话,则适用。
判断数据是否为ajax异步
ajax是通过异步加载获取数据信息的,也就是说不是通过一个URL就可以得到的数据,而是有这个url中之后通过页面加载事件或者其他的事件来读取数据。
如果第一种办法不能适用的话,即浏览器中的数据元素我们在源码中找不到。我们就需要用第二种来通过抓包来获取数据信息。这种方式一般要按F12查看NetWork,点击clear清空一下然后重新请求或者刷新一下。在看NetWork,从中选择对应的URL链接,有的是加载图片,有的是加载数据具体的具体看。
数据混淆/数据加密
最后一种是数据加密,这是最难的一种,数据加密是指在我们看到的是A但是经过数据加密之后再浏览器看到的是1,当把数据存回到数据库中时,有存回了A,这种方式就称为数据加密。
领取专属 10元无门槛券
私享最新 技术干货