应一位金融圈的朋友所托,帮忙写个爬虫,帮他爬取中国期货行业协议网站中所有金融机构的从业人员信息。网站数据的获取本身比较简单,但是为了学习一些新的爬虫方法和技巧,即本文要讲述的生产者消费者模型,我又学习了一下Python中队列库queue及线程库Thread的使用方法。
生产者消费者模型
生产者消费者模型非常简单,相信大部分程序员都知道,就是一方作为生产者不断提供资源,另一方作为消费者不断消费资源。简单点说,就好比餐馆的厨师和顾客,厨师作为生产者不断制作美味的食物,而顾客作为消费者不断食用厨师提供的食物。此外,生产者与消费者之间可以是一对一、一对多、多对一和多对多的关系。
那么这个模型和爬虫有什么关系呢?其实,爬虫可以认为是一个生产者,它不断从网站爬取数据,爬取到的数据就是食物;而所得数据需要消费者进行数据清洗,把有用的数据吸收掉,把无用的数据丢弃。
在实践过程中,爬虫爬取和数据清洗分别对应一个Thread,两个线程之间通过顺序队列queue传递数据,数据传递过程就好比餐馆服务员从厨房把食物送到顾客餐桌上的过程。爬取线程负责爬取网站数据,并将原始数据存入队列,清洗线程从队列中按入队顺序读取原始数据并提取出有效数据。
以上便是对生产者消费者模型的简单介绍了,下面针对本次爬取任务予以详细说明。
分析站点
http://www.cfachina.org/cfainfo/organbaseinfoServlet?all=personinfo
我们要爬取的数据是主页显示的表格中所有期货公司的从业人员信息,每个公司对应一个机构编号(G01001~G01198)。从上图可以看到有主页有分页,共8页。以G01001方正中期期货公司为例,点击该公司名称跳转至对应网页如下:
从网址及网页内容可以提取出以下信息:
网址
organid: 机构编号,+G01001++G01198+
currentPage: 该机构从业人员信息当前页面编号
pageSize: 每个页面显示的人员个数,默认20
selectType: 固定为personinfo
机构名称mechanism_name,在每页表格上方可以看到当前机构名称
从业人员信息,即每页的表格内容,也是我们要爬取的对象
该机构从业人员信息总页数page_cnt
我们最终爬取的数据可以按机构名称存储到对应的txt文件或excel文件中。
获取机构名称
get mechanism name
获取到某机构的任意从业信息页面后,使用BeautifulSoup可快速提取机构名称。
mechanism_name = soup.find('', {'class':'gst_title'}).find_all('a')[2].get_text()
那么有人可能会问,既然主页表格都已经包含了所有机构的编号和名称,为何还要多此一举的再获取一次呢?这是因为,我压根就不想爬主页的那些表格,直接根据机构编号的递增规律生成对应的网址即可,所以获取机构名称的任务就放在了爬取每个机构首个信息页面之后。
获取机构信息对应的网页数量
get count of page
每个机构的数据量是不等的,幸好每个页面都包含了当前页面数及总页面数。使用以下代码即可获取页码数。
url_re = re.compile('#currentPage.*\+.*\+\'(\d+)\'')page_cnt = url_re.search(html).group(1)
从每个机构首页获取页码数后,便可for循环修改网址参数中的currentPage,逐页获取机构信息。
获取当前页面从业人员信息
get personinfo
针对如上图所示的一个特定信息页时,人员信息被存放于一个表中,除了固定的表头信息外,人员信息均被包含在一个带有id的tr标签中,所以使用BeautifulSoup可以很容易提取出页面内所有人员信息。
soup.find_all('tr', id=True)
确定爬取方案
一般的想法当然是逐页爬取主页信息,然后获取每页所有机构对应的网页链接,进而继续爬取每个机构信息。
但是由于该网站的机构信息网址具有明显的规律,我们根据每个机构的编号便可直接得到每个机构每个信息页面的网址。所以具体爬取方案如下:
将所有机构编号网址存入队列url_queue
新建生产者线程SpiderThread完成抓取任务
循环从队列url_queue中读取一个编号,生成机构首页网址,使用requests抓取之
从抓取结果中获取页码数量,若为0,则返回该线程第1步
循环爬取当前机构剩余页面
将页面信息存入队列html_queue
新建消费者线程DatamineThread完成数据清洗任务
循环从队列html_queue中读取一组页面信息
使用BeautifulSoup提取页面中的从业人员信息
将信息以二维数组形式存储,最后交由数据存储类Storage存入本地文件
代码实现
生成者SpiderThread
爬虫线程先从队列获取一个机构编号,生成机构首页网址并进行爬取,接着判断机构页面数量是否为0,如若不为0则继续获取机构名称,并根据页面数循环爬取剩余页面,将原始html数据以如下dict格式存入队列html_queue:
{ 'name': mechanismId_mechanismName,
'num': currentPage,
'content': html
}
爬虫产生的数据队列html_queue将由数据清洗线程进行处理,下面是爬虫线程的主程序,整个线程代码请看后面的源码。
消费者DatamineThread
数据清洗线程比较简单,就是从生产者提供的数据队列html_queue逐一提取html数据,然后从html数据中提取从业人员信息,以二维数组形式存储,最后交由存储模块Storage完成数据存储工作。
class DatamineThread(Thread): """Parse data from html"""
def __init__(self, html_queue, filetype):
Thread.__init__(self)
self.html_queue = html_queue
self.filetype = filetype def __datamine(self, data):
'''Get data from html content'''
soup = BeautifulSoup(data['content'].text, 'html.parser')
infos = [] for info in soup.find_all('tr', id=True):
items = [] for item in info.find_all('td'):
items.append(item.get_text())
infos.append(items) return infos
def run(self):
while True:
data = self.html_queue.get()
print('Datamine Thread: get %s_%d' % (data['name'], data['num']))
store = Storage(data['name'], self.filetype)
store.save(self.__datamine(data))
self.html_queue.task_done()
数据存储Storage
我写了两类文件格式的存储函数,write_txt,write_excel,分别对应txt,excel文件。实际存储时由调用方确定文件格式。
def save(self, data): { '.txt': self.write_txt, '.xls': self.write_excel
}.get(self.filetype)(data)
存入txt文件
存入txt文件是比较简单的,就是以附加(a)形式打开文件,写入数据,关闭文件。其中,文件名称由调用方提供。写入数据时,每个人员信息占用一行,以制表符\t分隔。
def write_txt(self, data): '''Write data to txt file'''
fid = open(self.path, 'a', encoding='utf-8') # insert the header of table
if not os.path.getsize(self.path):
fid.write('\t'.join(self.table_header) + '\n')
for info in data:
fid.write('\t'.join(info) + '\n')
fid.close()
存入Excel文件
存入Excel文件还是比较繁琐的,由于经验不多,选用的是xlwt,xlrd和xlutils库。说实话,这3个库真心不大好用,勉强完成任务而已。为什么这么说,且看:
修改文件麻烦:xlwt只能写,xlrd只能读,需要xlutils的copy函数将xlrd读取的数据复制到内存,再用xlwt修改
只支持.xls文件:.xlsx经读写也会变成.xls格式
表格样式易变:只要重新写入文件,表格样式必然重置
所以后续我肯定会再学学其它的excel库,当然,当前解决方案暂时还用这三个。代码如下:
说明:
一个文件对应一个机构的数据,需要多次读取和写入,所以需要计算文件写入时的行数偏移量offset,即当前文件已包含数据的行数
当被写入文件被人为打开时,会出现PermissionError异常,可以在捕获该异常然后提示错误信息,并定时等待直到文件被关闭。
main
主函数用于创建和启动生产者线程和消费者线程,同时为生产者线程提供机构编号队列。
从主函数可以看到,两个队列都调用了join函数,用于阻塞,直到对应队列为空为止。要注意的是,队列操作中,每个出队操作queue.get()需要对应一个queue.task_done()操作,否则会出现队列数据已全部处理完,但主线程仍在执行的情况。
至此,爬虫的主要代码便讲解完了,下面是完整源码。
源码
请点击此处输入图片描述
请点击此处输入图片描述
爬取测试
spider
save to txt
save to excel
写在最后
测试发现,写入txt的速度明显高于写入excel的速度
如果将页面网址中的pageSize修改为1000或更大,则可以一次性获取某机构的所有从业人员信息,而不用逐页爬取,效率可以大大提高。
领取专属 10元无门槛券
私享最新 技术干货