今天爬一下百度新闻的新闻标题
1.首先分析页面
进入百度新闻
在搜索栏输入需要搜索的内容
再选择搜索的内容为点击搜索后页面跳转到以下url:
点击下第二页发现url中增加了:
点击第三页发现:
合理的推断出页数,
2.然后开始分析页面内容
找出比较重要的几个信息,,
以第一条新闻为例,使用浏览器自带的找到其源码中的位置
发现内容写在一个的div里面
3.开始代码实现
通过request模块模拟http访问,lxml进行xpath解析
首先写一个获取页面信息的函数:
将内容写入文件
主函数:
以上就完成了一个输入关键字并将内容写入json文件的爬虫
领取专属 10元无门槛券
私享最新 技术干货