利用在上一期【推送】中微博关键词爬虫,爬取了超过 4000 条微博数据,每条数据 18 个字段,这一期,我们来看看对这份数据的数据分析。包含常规可视化和复杂网络建模两部分,也许值得一个收藏、转发。
这一步,选择本号之前开发过的微博话题可视化工具直接完成,工具地址为:
https://weibo-crawl-visual.buyixiao.xyz/topic-weibo-visual
只需要上传爬虫爬到的 csv 文件,就能立刻完成各种常规可视化任务。需要特别说明的是,为了符合数据格式要求,需要将爬到的 csv 文件中的 text 列名改成 content 列,把 status_city 列名改成 location。
先来看下淄博烧烤关键词下的微博发布趋势,可以选择按照月、天、小时、分四个维度查看趋势,这里选择按天查看。
搜索查得,淄博烧烤是从 3.8 开始火起来的,从图可见,3.9 就有相关的热门微博了,然后接下来的每个周末都有一个小波峰,看来周末打个高铁去淄博吃烧烤渐成潮流。
无论是从每天的情感分析均值来看,貌似不太积极,波动较大,推测可能是样本量太小,单条极性微博很容易影响均值,下面的总体情感分析也佐证了总体消极这个结论,但置信度存疑。
如果怀疑有水军成分,可以使用我之前训练过的 spammer 模型检测工具,几乎不会漏判。
spammer 模型在线使用地址为:
https://weibo-crawl-visual.buyixiao.xyz/weibo-spammer-evaluator
再来看下微博发布的 ip 属地城市分布情况。
从分布图上来看,最多发布来源于淄博当地,其次是北京,上海这些超级都市,同时,和淄博同省的烟台、潍坊、济南、青岛等山东其他地级市也有不少网友参与了话题讨论,总体来看,讨论淄博烧烤的大部分还是北方的城市。下面这个图很好的展示了 ip 属地的省份分布情况。
最后来看下词云图
需要过滤的停用词太多,就不一一添加了,正确的做法应该是本地对这个 csv 文件的 content 做 html 标签清洗。
更多的常规可视化,比如流量桑基图:
可以去下面这个页面生成:
https://tools.buyixiao.xyz/advanced-chart
简言之就是抽取微博文本中相互引用的话题和相互艾特的好友,分别构造话题之间和好友之间的 gephi 文件和关系矩阵文件,详细解释可以参考 复杂网络 | 社交媒体话题和人物共现,工具地址在:
https://weibo-crawl-visual.buyixiao.xyz/weibo-topic-user-matrix-extractor
只需要上传爬取到的结果 csv 文件即可~,稍等就可下载结果 zip 文件。
zip 文件解压后有 user 和 topic 两个文件夹,每个文件夹里面都是各自的处理结果文件。
nodes.csv 和 edges.csv 和网页上展示的 demo 数据格式一致,我们打开 topic html 可视化文件,看看淄博烧烤这个话题,衍生出了哪些相关话题。
今天的分享就到这里,记得别在收藏夹吃灰。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有