首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫的三种思路

Python的爬虫工具有很多种,比如urllib、requests、正则表达式等等。这些是具体的,但是正则表达式是必须会的,因为它不仅仅在Python爬虫中有在很多地方都有可以使用的地方。只要多用就一定可以熟练的掌握。下面我们来具体的说一下爬虫的三种思路。

判断数据是否在当前请求的网页源代码中

对于我们想要的数据信息,我们首先应该查看在浏览器渲染后的内容是否可以在“查看源码”中的源代码中找到,一般通过快捷键查询Ctrl+F,将所爬取得文字信息拿到源码中找,看是否得到,在或者通过F12进入开发者模式,选中左上角的鼠标标记点击将要的数据信息位置,看浏览器的内容是否和源码部分对应,如果有的话,则适用。

判断数据是否为ajax异步

ajax是通过异步加载获取数据信息的,也就是说不是通过一个URL就可以得到的数据,而是有这个url中之后通过页面加载事件或者其他的事件来读取数据。

如果第一种办法不能适用的话,即浏览器中的数据元素我们在源码中找不到。我们就需要用第二种来通过抓包来获取数据信息。这种方式一般要按F12查看NetWork,点击clear清空一下然后重新请求或者刷新一下。在看NetWork,从中选择对应的URL链接,有的是加载图片,有的是加载数据具体的具体看。

数据混淆/数据加密

最后一种是数据加密,这是最难的一种,数据加密是指在我们看到的是A但是经过数据加密之后再浏览器看到的是1,当把数据存回到数据库中时,有存回了A,这种方式就称为数据加密。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180111A0XKQK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券