看了《HTML & CSS设计与构建网站》《Python网络数据采集》《从零开始学Python网络爬虫》,买了并学习了这三本书,感觉很好
自己也想爬一下,把自己读研时学校老师的信息爬下来,把他们的照片分文件夹下载,并把他们的个人主页保存到一个Excel表里面
爬虫思路介绍一下
在
里面,有着所有的老师个人信息
每个人都在
里面
里面就有一个和一个
,
里面有一个,没有和
里面有两个
第一个里是照片的相对路径
第二个
里面是老师的姓名
用爬虫把这两项给爬下来
下面图片是每个老师的html
把用来保存图片,把里面的href保存个人主页,把里面的内容作为姓名保存
看了一些文章,可以批量下载图片、漫画,小说等等,感觉还是很有用,只是他们有反爬的方法,这里还要感谢学校没有反爬,我调试python过程中,爬的比较频繁
在做爬虫的过程中,发现网站的html发生了变化,还好影响不大
看书,有很多种爬虫方法,以后会用到更强大的方法的
代码上传到github
领取专属 10元无门槛券
私享最新 技术干货