又接近毕业季了,又到了大学生求职的季节,想要找一个好的职位,当然免不了要到各种的求职软件去看看什么的,例如51job,拉钩网什么的。
在那些网页上一页一页的翻挺麻烦的,所以,教不会简单爬虫的你,简单的把职位信息爬取到excel表中,供你自己分析查看。。。。
1.确定爬取目标
我要查看的是python这个职位的
我要爬取的就是职位名 公司名 工作地点 薪资 发布时间
2.查看目标内容在html的位置
将鼠标放置在文字上面,右键 -> 检查, 在弹出的框里分析
从这里我们可以发现,目标内容它的css关系
class = "dw_table" > class ="el" > class = "t1" / "t2" / "t3" / "t4" / "t5"
知道了内容位于哪些标签下,就可以很简单的在html中提取内容了
3.分析下一页
刚刚上面的仅仅是一个页面的数据,但我们想要更多的数据,不仅限于一页,所以想要得到下一页的数据,我们就要分析链接或者点击下一页的请求包数据。
先从链接分析开始 。。。
我发现,当我点击了下一页时,链接发生了明显的改变,点击前
点击下一页后,也就是第2页后
我们可以观察到链接中的2.1 变成 2.2
所以,我们可以猜想,是不是这个数字就是页数?
为了验证,我直接把 2.2 改为 2.5, 结果发现它跳转到了第5页
所以,只要我们修改这个数字,就可以得到下一页的数据了
4.创建python工程,开始爬取
在爬取前,我们先要引入一些模块
importrequests#用来进行网络访问的模块
importxlwt#用来进行操作excel的模块
然后开始写码,我爬取前10页的数据
在while page
上面的两段代码合起来就是,完整的代码。当我们运行后就可以爬取数据,并写入到excel表了
如果文章对您有帮助的话,记得点个赞哦~
领取专属 10元无门槛券
私享最新 技术干货