首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    python应用实践之boss数据获取

    boos直聘,想必对于找工作的同志都非常熟悉,以其'招人快 人才多 匹配准 公开透明'等优点位居行业的前沿,今天我们就用scrapy框架配合selenium进行岗位,薪资.待遇,公司 等信息进行爬取。boss直聘网站: www.zhipin.com 我想爬取过这个网站的同学都知道他的反爬还是很讨厌的,信息都是用cookies渲染生成的,cookies时效很短,很快就失效了,快速访问还会封掉你的ip ,封了ip第一反映就使用代理吧,有时候使用代理你就会发现,会提示ip异常,然后进验证 并且需要接入接码平台了。当然这些都是在获取比较详细的信息的前提下,如果我们只是访问首先信息就没有那么大的难度了,这种情况下我们就直接加上代理IP就搞定了。不过也需要高质量的代理IP才可以,比如由亿牛云提供的隧道IP,我们可以示例下使用隧道IP获取数据的成功率是什么样的。简单示例如下:

    01

    使用python爬取招聘网站数据

    八、九月份是一年中的求职高峰期,一大波应届毕业生涌入市场,加上疫情因素下,很多行业都没有那么景气,很多人应届生表示想要找到理想工作变得难上加难! 现在大家找工作都是通过各种招聘app,信息全部罗列出来,可是招聘信息有一些是错综复杂的。而且不能把全部的信息全部罗列出来,这样也让人很苦恼,所以今天我们就通过爬虫技术,为大家解决这个问题。首先我们的爬取目标是获取招聘信息,并批量把地点、 公司名、工资 、等详细资料做成文档。这里我们就以boss直聘为例。在获取数据之前简单的对网站进行了分析,该网站上的反爬主要有两点。1、 直接使用requests库,在不设置任何header的情况下,网站直接不返回数据。2、同一个ip连续访问多次,直接封掉ip。 为了解决这两个问题,最后经过研究,使用以下方法,可以有效解决。1、获取正常的 http请求头,并在requests请求时设置这些常规的http请求头。2、使用代理IP进行访问。代理IP的选择比较多,比如现在我们使用的亿牛云代理,简单实现过程如下:

    01
    领券