自从改了‘海边长大就喜欢浪’这个id后,就更加喜欢刷新浪微博了,于是乎爬一下新浪微博好友圈信息
通过提交cookie信息模拟登录移动端新浪微博(http://m.weibo.cn),爬取’好友圈’信息,新浪微博的表单交互比较复杂,移动端数据比较容易抓取,网页使用了异步加载技术。代码参考了各路大神的分享。
01
—
提交cookie信息模拟登录
没有微博小号,勇敢使用大号登录
刷新网页找到加载好友圈信息的文件,Headers部分和Response部分查看请求的URL和返回的信息,返回的信息为JSON格式。
个人cookie信息要注意保密。
02
—
构造下一页URL
翻页到下一页,发现后面的页面URL中有next_cursor字段的一串数字信息,在Preview标签中发现,返回的JSON数据中恰好有next_cursor字段,通过查看后面多页的URL发现,前一页的next_cursor字段刚好是后一页URL中的一串数字信息。
03
—
爬取文本内容写入文件
主要代码:
headers中的信息写的详细一点,防止id被封。
04
—
统计词频制作词云
使用Python第三方库jieba进行文本的关键词提取。
利用TAGUL在线制作词云工具(https://wordart.com/)制作词云。
结果真是惊呆了,排名前四的关键词竟然是......
焦虑
允悲?
摊手
哈哈哈哈!
90后的叔叔阿姨们,你们是提前进入中年危机了嘛
看着这张简单的好友圈词云,不得不寻求一下解决小伙伴们焦虑的办法了
最最后,年轻人嘛,应该多读书、多看报、少玩手机、多睡觉,少一点焦虑,多一点踏实。
领取专属 10元无门槛券
私享最新 技术干货