老大爷有个师姐玩爬虫很6,于是便想着跟师姐学习学习,和师姐说明了来意,随即扔了本书,告诉我可以先试着把学校官网全站的所有图片爬下来,于是就做了这么一个有趣的事情
整个的爬取过程中主要用了Requests库和BeautifulSoup库,当然正则表达式也是必不可缺的咯。
回过头来看整个过程其实非常简单,主要通过三个方法就可以完成。
第一步当然是通过主站递归获取所有链接地址,因为还有一些其他的外链,所以需要用正则表达式判断一下排除掉,不然要无穷尽也咯
第二步就是把已经获取到的网址解析一下,获得页面图片的URL链接
最后一步就非常简单了,通过URL保存图片,当然图片肯定是要用二进制保存了,一个简单的response.content()就可以搞定
在做这个任务之前,觉得好难啊,但是做完之后发现还是很简单的,当然这只是静态页面了,动态页面本宝宝还需要再继续学习,爬虫也确实是个挺有趣的事情。
总结:1.用requests库发送网络请求,获取response对象
2.利用BeautifulSoup库来解析页面
3.利用正则表达式re库来判断资源链接
4.利用os系统模块来确认文件路径问题
领取专属 10元无门槛券
私享最新 技术干货