爬虫实战之爬取糗事百科

文章来源：企鹅号 - 数据挖掘及分析

抓住元旦的尾巴，祝大家元旦快乐、2018一起努力18！！！

去年（也就是前几天）分享了一篇爬虫实战的文章：爬虫实战之暴走表情包下载实现了网页图片的下载保存。

今日分享：简单爬取糗事百科段子

看过上一篇文章的读者可以看出，其实爬虫程序主要分为四个大的框架：获取网页，分析网页，解析并提取目标信息，打印输出或保存到本地。

下面看一下爬取糗事百科段子的流程：

导入基本库

由于爬虫比较简单，使用之前分享的两个库即可实现功能。

获取网页

获取网页，仍是使用模板框架

解析网页并提取信息

小编就不在这放置网页源码的截图了，网页地址在主函数中，赶快自己动手结合代码去分析一下吧！

打印输出内容

本次爬取的结果是在Python的交互界面打印输出的，在后续的文章中会分享如何将内容保存到各种格式的文档中，敬请期待

主函数

这就是整个爬虫的主框架，具体功能还是依靠上面的几个函数。

最后调用主函数，即可完成。

下面是爬虫打印输出的结果：

爬取结果截图

本爬虫代码上传已分享至QQ学习交流群，如若需要请自行获取

相关快讯