直接来点儿干货吧
对于Python开发环境的安装,语言规则的熟悉过程就不说了,绝大部分Python教材都会讲到,简单说一下我目前使用的版本: Python使用最新的3.6版本,开发环境使用的是Pycharm 2017。基于Windows7环境,Mysql5.3,pip3 自动安装了pymysql,BeautifulSoup等模块。
第一周,通过几十行代码实现了猎聘网人选搜索记录的获取。
import requests
from bs4 import BeautifulSoup
import re
import pymysql.cursors
cookie = '''_MyCookies'''
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',
'Connection': 'keep-alive',
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Cookie': cookie
}
url = https://h.liepin.com/search/soResume/
d = {'company': '乐视', 'keys': '', 'titleKeys': '', 'wantdqs': '010', 'dqs': '010', 'pageSize': '50'}
r = requests.post(url, headers=header, data=d)
r.encoding = 'utf-8'
soup = BeautifulSoup(r.text, 'lxml')
tr1 = soup.select('tr[class^=table-list-peo]')
tr2 = soup.select('tr[class^=table-list-info]')
print(tr1)
print(tr2)
以上代码可以获取如下红框中的内容。
相当于用猎聘搜索乐视公司,且目前所在地区和期望地区都是北京的人员名单。
以上代码很简单,出乎意料的简单!
第二周,我尝试解析网页代码并把搜索结果入库。首先我按照获取的内容用Mysql建了个数据表,结构如下:
表格中前面的数据项对应的是搜索结果的内容,后面的“入库时间”和“搜索条件”为以后做数据分析做准备,这个以后再讲。
通过页面的搜索结果我们可以看到,目前猎聘网上“乐视”公司在北京地区的人选有2666人(几天之前我记得应该有2680人,这个数据也很重要,可以监测某公司或某行业的人员流动情况,这个应用点以后再说),每页50人共有54页,获取这些内容后我们就可以将所有的网页爬完,然后将这2666人的简要信息写入我建的数据库了。
代码部分不再贴了,简单说就是页面的分析爬取和页面元素的解析入库。最终结果汇报一下:
这是爬完入库的数据表,2666的爬取入库需要大约75秒(单线程)。有了这个数据表,我们对目标公司人选的选择就更方便了,我可以按照任意字段排序,也可以在Mysql里面按照不同字段搜索。
第一阶段的任务基本完成了,这两周的劳动成果是,我目前可以对目标公司或特定行业进行搜索整理存入自己的数据库,至于数据的使用可以非常灵活,最简单的用法可以对目标公司信息进行跟踪,可以对比人选变化等等。
下一步任务是根据简要简历库中保存的链接爬取完整简历,完善简历信息。最终目的是通过机器学习进行自动推荐,路漫漫其修远......
(作者王军先生:70后,是广仕缘猎头高级顾问兼合伙人,有着丰富的IT互联网技术从业和创业经历,擅长IT互联网和金融行业的产品技术和研发类高端人群的猎寻和甄别)
广聚仕途之缘分,非凡平台,改变你与他人的人生差距。
图片来源于网络,版权人请联系我们
领取专属 10元无门槛券
私享最新 技术干货