Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >任意关键词(如淄博烧烤)微博数据抓取及可视化

任意关键词(如淄博烧烤)微博数据抓取及可视化

作者头像
月小水长
发布于 2023-07-03 06:32:54
发布于 2023-07-03 06:32:54
6630
举报
文章被收录于专栏:月小水长月小水长

利用在上一期【推送】中微博关键词爬虫,爬取了超过 4000 条微博数据,每条数据 18 个字段,这一期,我们来看看对这份数据的数据分析。包含常规可视化复杂网络建模两部分,也许值得一个收藏、转发。

常规可视化

这一步,选择本号之前开发过的微博话题可视化工具直接完成,工具地址为:

https://weibo-crawl-visual.buyixiao.xyz/topic-weibo-visual

只需要上传爬虫爬到的 csv 文件,就能立刻完成各种常规可视化任务。需要特别说明的是,为了符合数据格式要求,需要将爬到的 csv 文件中的 text 列名改成 content 列,把 status_city 列名改成 location

先来看下淄博烧烤关键词下的微博发布趋势可以选择按照月、天、小时、分四个维度查看趋势,这里选择按天查看。

搜索查得,淄博烧烤是从 3.8 开始火起来的,从图可见,3.9 就有相关的热门微博了,然后接下来的每个周末都有一个小波峰,看来周末打个高铁去淄博吃烧烤渐成潮流。

无论是从每天的情感分析均值来看,貌似不太积极,波动较大,推测可能是样本量太小,单条极性微博很容易影响均值,下面的总体情感分析也佐证了总体消极这个结论,但置信度存疑。

如果怀疑有水军成分,可以使用我之前训练过的 spammer 模型检测工具,几乎不会漏判。

spammer 模型在线使用地址为:

https://weibo-crawl-visual.buyixiao.xyz/weibo-spammer-evaluator

再来看下微博发布的 ip 属地城市分布情况。

从分布图上来看,最多发布来源于淄博当地,其次是北京,上海这些超级都市,同时,和淄博同省的烟台、潍坊、济南、青岛等山东其他地级市也有不少网友参与了话题讨论,总体来看,讨论淄博烧烤的大部分还是北方的城市。下面这个图很好的展示了 ip 属地的省份分布情况。

最后来看下词云图

需要过滤的停用词太多,就不一一添加了,正确的做法应该是本地对这个 csv 文件的 content 做 html 标签清洗

更多的常规可视化,比如流量桑基图:

可以去下面这个页面生成:

https://tools.buyixiao.xyz/advanced-chart

复杂网络建模

简言之就是抽取微博文本中相互引用的话题和相互艾特的好友,分别构造话题之间和好友之间的 gephi 文件和关系矩阵文件,详细解释可以参考 复杂网络 | 社交媒体话题和人物共现,工具地址在:

https://weibo-crawl-visual.buyixiao.xyz/weibo-topic-user-matrix-extractor

只需要上传爬取到的结果 csv 文件即可~,稍等就可下载结果 zip 文件。

zip 文件解压后有 user 和 topic 两个文件夹,每个文件夹里面都是各自的处理结果文件。

nodes.csv 和 edges.csv 和网页上展示的 demo 数据格式一致,我们打开 topic html 可视化文件,看看淄博烧烤这个话题,衍生出了哪些相关话题。

今天的分享就到这里,记得别在收藏夹吃灰。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-05-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
2023 微博评论爬虫 | 突破 1000 页限制,抓取 10w 条微博评论
相比较一条微博的正文内容,微博的评论区往往有着更多的态度和情感极性,是不错的语料分析文本来源,因此对微博评论的抓取需求较大,笔者在以往分享过几个微博评论抓取的代码或者教程:
月小水长
2023/07/03
3.7K2
2023 微博评论爬虫 | 突破 1000 页限制,抓取 10w 条微博评论
【2023 最新】微博爬虫及配套数据分析可视化教程
如果你想爬微博热搜话题等,你可以在上述博客地址查看说明书并索引到对应的爬虫文件获取方式。
月小水长
2023/03/02
6K0
【2023 最新】微博爬虫及配套数据分析可视化教程
微博话题在线分析工具
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2023/01/30
7290
微博评论在线分析可视化上线
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2023/01/30
8840
微博自助采集及可视化网站汇总
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2023/01/30
7300
关键词共现矩阵可视化
这个页面整体的业务逻辑是,用户在页面上传 CSV 文件,后台根据上传的 CSV 文件,计算关键词矩阵,最后在页面可视化显现出来。注意 CSV 必须包含 content 列,这是后台分析的指定列名,同时文件格式必须是 utf-8。
月小水长
2023/03/02
7210
关键词共现矩阵可视化
复杂网络 | 社交媒体话题和人物共现
以 当人们在讨论 ChatGPT 时,都在讨论什么 中共享的 ChatGPT.csv 数据集为例,只需要在上面的网页中上传这个 csv 文件,就能实时生成 这个 ChatGPT 帖子讨论中的 hashtag 话题和 user 人物共现可视化矩阵,结果文件为 Gephi 所需的 nodes.csv 和 edges.csv 和前 Top-N 权重连边的 NxN 矩阵 csv,以及网络可视化图 html 文件。
月小水长
2023/04/27
4520
复杂网络 | 社交媒体话题和人物共现
微博可视化网站定制:微博话题人物关系共现可视化
写了个一站式微博分析可视化网站 作为长期项目,本次开放微博话题人物关系共现可视化功能,用户可以输入 2021 新版微博话题爬虫发布 的 csv 结果文件和自己的邮箱,然后网站后台提取话题的文本内容中相互艾特的人物关系并且生成 gephi 构图所需的 edge.csv 和 node.csv 文件,处理成功并压缩后发送至你输入的邮箱地址。接口地址如下:
月小水长
2022/05/18
5760
微博可视化网站定制:微博话题人物关系共现可视化
微博可视化网站定制:多话题情感分析 3D 对比可视化
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2022/04/01
6360
微博可视化网站定制:多话题情感分析 3D 对比可视化
【爬虫+数据清洗+可视化】“淄博烧烤”热评Python舆情分析大屏
自从2023.3月以来,"淄博烧烤"现象持续占领热搜流量,体现了后疫情时代众多网友对人间烟火气的美好向往,本现象级事件存在一定的数据分析实践意义。
马哥python说
2024/04/06
6190
【爬虫+数据清洗+可视化】“淄博烧烤”热评Python舆情分析大屏
当人们在讨论 ChatGPT 时,都在讨论什么
第一,ChatGPT 本质上没有脱离计算机的计算范畴,它只能也终将取代繁重重复、只依靠经验和知识的劳动和工作,它可以取代大部分行业的一部分人,包括程序员,但是无法取代所有程序员,也无法取代那些依靠智慧和灵感的工作,笔者在大厂待过一两年,相信所有大厂都一样,主要产品的代码由于历经多人维护、多次迭代、多向重构,其代码量随随便便几千万行甚至上亿计,这样一个庞然大物能够运行起来,除了优雅的架构设计,还有数不清的胶水,复杂度远超当下 ChatGPT 能够生成的 demo 代码,但是它还是能够有它用武之地,有记不清的 function 代码,它是个好帮手,因此更像是一个无限容量的代码字典。
月小水长
2023/03/02
5330
当人们在讨论 ChatGPT 时,都在讨论什么
批量解析微博详情(包括 ip 属地、经纬度等)
工具为在线解析,本页面是根据微博 id 解析微博信息工具,可以是数字 id 也可以数字字母混合 id,输入后者将会自动转化为前者,可解析微博正文、转评赞数、微博链接、图片链接、视频链接、发博 ip 属地、签到地点和经纬度,以及用户主页链接、用户认证类型、用户所在地、用户关注数、粉丝数、微博数、视频数等 30 余字段。
月小水长
2023/01/30
2.3K0
构建 2024 美国总统大选推特 X 文本数据集,生成复杂网络和动态主题建模
虽然美国 2024 年总统大选已经是去年的事了,但是现在看来还是很振奋人心,抛开别的不说,一个 80 岁的美国 MAGA 老头冒着生命危险求职,就很励志。
月小水长
2025/01/18
1310
构建 2024 美国总统大选推特 X 文本数据集,生成复杂网络和动态主题建模
复杂网络建模 | 构建 M 层 N 节点的微博深度转发网络
不过由于某些微博的转发可能多达十万甚至百万,有必要对网络规模作出限制,这里采取的做法是限制每一层节点最多为 N 个。
月小水长
2023/07/03
5330
复杂网络建模 | 构建 M 层 N 节点的微博深度转发网络
增量微博备份工具:指定时段,单博主可备份十万条微博文本、高清图片和 HD 视频
比如有个博主有 10w 条博文,如果手动备份,估计备份到后年去,调研发现现有微博备份工具在备份数据量、备份速度和数据丰富度上很难同时让人满意,于是就就开发了这个工具,它具有以下功能。
月小水长
2023/04/27
8450
增量微博备份工具:指定时段,单博主可备份十万条微博文本、高清图片和 HD 视频
写了个一站式微博分析可视化网站
抽空写了一个微博可视化的网站,前端基于 sb-admin-2,后端基于 django3,微博相关数据则来源于本号维护的微博超级爬虫系列。
月小水长
2022/04/01
7230
写了个一站式微博分析可视化网站
中断可继续,10w+,无 cookie 微博评论抓取网站上线
补齐无 cookie 爬虫系列的最后一块拼图:无 cookie 评论爬虫今日上线。虽然是 无 cookie 系列,但是它和无 cookie 话题等相比,限制更少,更为强大。欲知强在何处,且听我一一道来。
月小水长
2022/09/03
5150
中断可继续,10w+,无 cookie 微博评论抓取网站上线
2022 年微博签到数据集自助构建(包含经纬度)
选择构建的城市可以是北京、上海、广州、深圳这样的一线城市,也可以是海口、洛阳这样的三线城市。除了国内所有城市,还可以选择东京、巴黎等国外上百个主要城市。
月小水长
2023/01/30
1K0
可提高 page,可跳过缓存,微博无 cookie 爬虫网站更新
前阵子发布了 带 ip 属地,无 Cookie 微博话题自助抓取网站上线,可以实现脱离 Python 环境,直接在浏览器上抓取最新微博话题数据。
月小水长
2022/12/07
4260
可提高 page,可跳过缓存,微博无 cookie 爬虫网站更新
【爬虫+数据清洗+可视化分析】舆情分析"淄博烧烤"的B站评论
自从2023.3月以来,"淄博烧烤"现象持续占领热搜流量,体现了后疫情时代众多网友对人间烟火气的美好向往,本现象级事件存在一定的数据分析实践意义。
马哥python说
2024/04/06
5620
【爬虫+数据清洗+可视化分析】舆情分析"淄博烧烤"的B站评论
推荐阅读
相关推荐
2023 微博评论爬虫 | 突破 1000 页限制,抓取 10w 条微博评论
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档