首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何用python爬取51Job职位信息

又接近毕业季了,又到了大学生求职的季节,想要找一个好的职位,当然免不了要到各种的求职软件去看看什么的,例如51job,拉钩网什么的。

在那些网页上一页一页的翻挺麻烦的,所以,教不会简单爬虫的你,简单的把职位信息爬取到excel表中,供你自己分析查看。。。。

1.确定爬取目标

我要查看的是python这个职位的

我要爬取的就是职位名 公司名 工作地点 薪资 发布时间

2.查看目标内容在html的位置

将鼠标放置在文字上面,右键 -> 检查, 在弹出的框里分析

从这里我们可以发现,目标内容它的css关系

class = "dw_table" > class ="el" > class = "t1" / "t2" / "t3" / "t4" / "t5"

知道了内容位于哪些标签下,就可以很简单的在html中提取内容了

3.分析下一页

刚刚上面的仅仅是一个页面的数据,但我们想要更多的数据,不仅限于一页,所以想要得到下一页的数据,我们就要分析链接或者点击下一页的请求包数据。

先从链接分析开始 。。。

我发现,当我点击了下一页时,链接发生了明显的改变,点击前

点击下一页后,也就是第2页后

我们可以观察到链接中的2.1 变成 2.2

所以,我们可以猜想,是不是这个数字就是页数?

为了验证,我直接把 2.2 改为 2.5, 结果发现它跳转到了第5页

所以,只要我们修改这个数字,就可以得到下一页的数据了

4.创建python工程,开始爬取

在爬取前,我们先要引入一些模块

importrequests#用来进行网络访问的模块

importxlwt#用来进行操作excel的模块

然后开始写码,我爬取前10页的数据

在while page

上面的两段代码合起来就是,完整的代码。当我们运行后就可以爬取数据,并写入到excel表了

如果文章对您有帮助的话,记得点个赞哦~

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180416G1BGJX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券