抓住元旦的尾巴,祝大家元旦快乐、2018一起努力18!!!
去年(也就是前几天)分享了一篇爬虫实战的文章:爬虫实战之暴走表情包下载实现了网页图片的下载保存。
今日分享:简单爬取糗事百科段子
看过上一篇文章的读者可以看出,其实爬虫程序主要分为四个大的框架:获取网页,分析网页,解析并提取目标信息,打印输出或保存到本地。
下面看一下爬取糗事百科段子的流程:
导入基本库
由于爬虫比较简单,使用之前分享的两个库即可实现功能。
获取网页
获取网页,仍是使用模板框架
解析网页并提取信息
小编就不在这放置网页源码的截图了,网页地址在主函数中,赶快自己动手结合代码去分析一下吧!
打印输出内容
本次爬取的结果是在Python的交互界面打印输出的,在后续的文章中会分享如何将内容保存到各种格式的文档中,敬请期待
主函数
这就是整个爬虫的主框架,具体功能还是依靠上面的几个函数。
最后调用主函数,即可完成。
下面是爬虫打印输出的结果:
爬取结果截图
本爬虫代码上传已分享至QQ学习交流群,如若需要请自行获取
领取专属 10元无门槛券
私享最新 技术干货