01 前言
微博,想必大家都非常熟悉。人人都可以在上面发表自己的观点。到现在微博已经成为了官方和明星等“新闻发布”的第一阵地,比如前几天范冰冰宣布和李晨分手,双宋CP宣布离婚,瞬间微博就爆炸。主要是因为微博不同于其他的社交平台,不需要对方关注你或是成为好友,就可以看到所有你想看到的信息和动态。所以,微博信息量巨大,也为我们爬数据提供了基础!
数据爬取
是的,今天,我们就来爬一下微博的评论,前面已经给大家介绍了很多经典算法,大家对于python基本的内容已经熟悉啦,今天,我们就简单的来学习一下如何爬数据。
Tip:准备工作
首先,我们需要找到一个待爬取的微博,微博主要是三种界面,分别是网页版、手机端和移动端,我们选取最简单的移动端来练手。
接下来,就开始我们的爬虫了,我们就选取前几天大热的范冰冰的博客吧。微博页面如下图所示:
我们的工作是对评论进行爬取,点击“下一页”,可见评论页数高达28514页,看来大家对这个话题的关注度真的很高诶~~我们可以看到评论的链接为:
https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=1
https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=2
https://weibo.cn/comment/HASs7tfjN?uid=3952070245&rl=0&page=3
网址最后的数字代表了页数,这也就为我们的评论爬取提供了基础!
Tip:爬取算法
算法介绍:Requests算法
1. Request 对象用于从访客那里获取信息。
2.pattern:属性规定用于验证 <input> 元素的值的正则表达式
爬取算法:
运行上述算法后,将得到:
输出到txt文件的内容是:
这样的数据还不太美观直接,我们再对上面的数据进行整理:
运行上述算法后,可得结果为:
这样我们就大功告成啦!
总结
这次我们只介绍了爬取新浪微博移动端的评论数据(因为这个比较简单....)大家可以用这个方法试着爬取网页端或者手机端的数据哦~我们下期再见!
参考网址:
https://blog.csdn.net/weixin_42555080/article/details/88363040