开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

Python爬虫之爬取拉勾网职位信息并写入Excel表格

文章来源：企鹅号 - 一个学生程序员

学习编程总是以项目作为驱动的，这两天了解了一下python中的urllib库的使用方法，就像着能不能做一点东西出来，刚好看到了拉勾网，不经对它有了想法。如果上天能再给我一次机会我一定不会选拉钩网的，这简直是给自己挖坑，说多了都是泪。

首先，我们打开谷歌浏览器，打开拉勾网，本文我们以python相关的职位为例子，其他的职位类似，输入python后我们将看到如下的职位信息：

通过chrome浏览器的调试功能我们可以发现，网页其实做了一个重定向，也就是我们在浏览器上看到的url其实不是我们的目标url，这里是第一个坑，我们不难找到我们的目标url。下图红色圆圈中的即为目标url。

现在我们离目标又更近了一步，现在我们根据目标url重新访问拉勾网，你以为现在就可以获取网页源代码了嘛，太天真了，我们查看网页源代码发现并没有我们想要的数据，通过查(搜)资(百)料(度)我们得知，拉勾网是通过异步加载的方式来获取数据的。

通过进一步分析我们发现，拉勾网通过post请求向服务器发送数据，服务器返回一个json字符串，字符串中存储着我们想要的数据。通过解析json我们就可以得到想要的东西。

写完代码进行爬取的时候我们还会遇到一个大坑，就是当你同一个ip请求次数很多的时候他会显示访问太过频繁，为了解决这个问题，我爬取了西刺代理的首页上的所有代理实现了动态更换ip，这样我们就可以爬取到30页的全部数据。下面是这个爬虫脚本的全部代码。

---END---

发表于: 2018-09-102018-09-10 23:20:20
原文链接：https://kuaibao.qq.com/s/20180910G22NP800?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯