首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python爬取微博好友圈信息

自从改了‘海边长大就喜欢浪’这个id后,就更加喜欢刷新浪微博了,于是乎爬一下新浪微博好友圈信息

通过提交cookie信息模拟登录移动端新浪微博(http://m.weibo.cn),爬取’好友圈’信息,新浪微博的表单交互比较复杂,移动端数据比较容易抓取,网页使用了异步加载技术。代码参考了各路大神的分享。

01

提交cookie信息模拟登录

没有微博小号,勇敢使用大号登录

刷新网页找到加载好友圈信息的文件,Headers部分和Response部分查看请求的URL和返回的信息,返回的信息为JSON格式。

个人cookie信息要注意保密。

02

构造下一页URL

翻页到下一页,发现后面的页面URL中有next_cursor字段的一串数字信息,在Preview标签中发现,返回的JSON数据中恰好有next_cursor字段,通过查看后面多页的URL发现,前一页的next_cursor字段刚好是后一页URL中的一串数字信息。

03

爬取文本内容写入文件

主要代码:

headers中的信息写的详细一点,防止id被封。

04

统计词频制作词云

使用Python第三方库jieba进行文本的关键词提取。

利用TAGUL在线制作词云工具(https://wordart.com/)制作词云。

结果真是惊呆了,排名前四的关键词竟然是......

焦虑

允悲?

摊手

哈哈哈哈!

90后的叔叔阿姨们,你们是提前进入中年危机了嘛

看着这张简单的好友圈词云,不得不寻求一下解决小伙伴们焦虑的办法了

最最后,年轻人嘛,应该多读书、多看报、少玩手机、多睡觉,少一点焦虑,多一点踏实。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180323G16BJI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券