这次爬取的网站是糗事百科,网址是: http://www.qiushibaike.com/hot/page/1
分析网址,参数 ' page/ '后面的数字' 1 '指的是页数,第二页就是' /page/2 ',以此类推。。。
一、分析网页
网页图片
然后明确要爬取的元素:作者名、内容、好笑数、以及评论数量
每一个段子的信息存放在' div id=" content-left" '下的 div 中
爬取元素的所在位置
二、爬取部分
工具:
Python3
requests
xpath
1、获取每一个段子
每一个段子都在div中,这里用xpath,筛选出来后返回的是一个列表,每一个div都在里面
2、获取每一个段子中的元素
这里需要注意的是,xpath返回的是一个列表,筛选出来后需要用 [0] 获取到字符串类型
上面的代码中,爬取的内容里,有的段子是这样的,如下图:
内容中会有标签
,那么用xpath爬取出来后,里面的内容都会成一个列表(这里的div就是列表),
那div[0]就是" 有一次回老家看姥姥,遇到舅妈说到表弟小时候的事~ ",所以需要将div转换成字符串
其他的部分就xpath语法的使用
3、保存进文本
4、全部代码
结束语
领取专属 10元无门槛券
私享最新 技术干货