一.简介:
最近经常有朋友让我帮忙写个爬虫,便萌生了一个写一篇简单的scrapy教程的想法,旨在帮助没有太多爬虫经验的朋友,可以快速爬取到所需的信息....回到清华大学两院院士页面,进入开发者模式,找到院士们名字的href:
[找名字的href]
在tsinghuaSpider类中复写parse方法,使用CSS选择器得到我们需要的元素.不会CSS语法也没关系...,Google一下就可以了,非常的简单.姓名的href使用的是相对值,因此,我们还需要把href和当前url进行结合,得到绝对地址url,发起一个Request,并指定回调函数为parse_detail...,使用parse_detail作为详情页的处理函数:
def parse(self, response, **kwargs):
href_list = response.css('div.yuanShi...)
类似地,我们进入院士的详情页,找到姓名,简介,照片所在的元素:
[x5w51iiu43.png]
在parse_detail函数中,我们使用CSS选择器得到我们所需的值,并将其放入到之前定义好的TsinghuaItem