Linux编程
点击右侧关注,免费入门到精通!
作者丨数据架构师
python爬虫案例——百度贴吧数据采集
通过python实现百度贴吧页面的内容采集是相对来说比较容易的,因为百度贴吧不需要登陆,不需要cookie,不需要设置http的MIME头
本案例使用python实现百度贴吧数据采集,获取百度贴吧的文章内容,楼层
百度贴吧网址比如:http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1,这是一个关于NBA50大的盘点,分析一下这个地址。
所以我们可以把URL分为两部分,一部分为基础部分,一部分为参数部分。
例如,上面的URL我们划分基础部分是
http://tieba.baidu.com/p/3138733512
参数部分是 ?see_lz=1&pn=1
爬虫过程比较简单,基本还是围绕:请求、正则解析、打印存储
注意:python3.4以后中,将urllib2、urlparse、robotparser并入了urllib模块,并且修改了urllib模块,其中包含了5个子模块,每个子模块中的常用方法如下:
python2.7下
python3.6下
推荐↓↓↓
领取专属 10元无门槛券
私享最新 技术干货