Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【2023 最新】微博爬虫及配套数据分析可视化教程

【2023 最新】微博爬虫及配套数据分析可视化教程

作者头像
月小水长
发布于 2023-03-02 10:50:25
发布于 2023-03-02 10:50:25
6.1K00
代码可运行
举报
文章被收录于专栏:月小水长月小水长
运行总次数:0
代码可运行

微博超级爬虫已经走到第四个年头,开源在 Github 上的代码已经收获了超过 1000 个 star,感谢大家的一路支持。总结了各类型的需求及问题,结合 2022 开年的推送 万字长文,2022 最全微博超级爬虫指南,和以下对应的博客,特开此篇。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://buyixiao.github.io/blog/weibo-super-spider.html#%E8%AF%9D%E9%A2%98%E5%85%B3%E9%94%AE%E8%AF%8D%E7%B3%BB%E5%88%97

1、热搜话题、关键词等微博抓取

如果你想爬微博热搜话题等,你可以在上述博客地址查看说明书并索引到对应的爬虫文件获取方式

如果抓取过程中遇到问题,可以在当前页面全局搜索问题关键词,你的问题很可能其他人已经遇到过了,在页面内容区域或者评论区域查看对应的解决方案就行了。如果没有找到,你可在评论区留言,贴上报错信息,我会定期 check 并回复,相信我应该不会跑路,已经维护四年迭代差不多十次了。

抓完微博热搜数据,如果你还想分析数据并可视化,比如趋势分析情感分析ip 属地分布词云生成共现可视化等等,你可以前往以下页面直接上传刚才抓完保存的 csv 文件,在网页自动完成分析并可视化。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://weibo-crawl-visual.buyixiao.xyz/topic-weibo-visual

上传 CSV

趋势分析

自定义词云生成

对于任意最近的微博热搜或者以往的微博热搜抓取和分析可视化,你都可以遵循上面一样的流程。以下是更多探索部分。

2、用户微博抓取或备份、相册下载等

如果你想抓取一个用户主页的微博或者下载他的图片等等,可以在上述博客地址单功能系列爬虫下用户抓取爬虫之用户微博爬虫,如下图。

除了抓取用户微博、下载相册、还有抓取用户文章和公开信息等功能~

3、指定(单个或者批量)微博的评论、转发、点赞数据抓取

如果你想抓取微博热搜话题或者微博用户的评论、转发或者点赞,道理同话题微博,在博客地址上找到说明书并获取对应的文件即可,对于微博热搜话题的分析和可视化同样适用于评论或者转发,字段等我都做好了上下游适配,你只需要在分析页面上传 CSV 文件即可

如果你想批量抓取评论,我也写好了对应的脚本工具,包括其他各种上下游边缘工具代码,一并放在了博客的附录代码部分~

4、在浏览器中抓取数据

为了面向部分产品和运营同学,可能不想在本地配置 python 环境,也可以选择在线运行本系列爬虫,比如上面的微博评论,可以选择在以下地址在线抓取。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-with-reply-spider

你只需要在线点点点就行了,抓取结束可以点击下载 CSV 文件

这个效果和本地运行几乎一样,但迭代速度会快于本地,因为本地运行我需要再发布,更新后你也需要再重新获取,而网页版本是即时更新的。如果你觉得效果不好,可以尝试另外一条技术路线实现的网页版,这个单条微博最多能抓到几十万条评论

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-spider

这个爬虫配套的教程和网站还有很多未能详尽阐述的,但是道理都类似,一般有新增或者修复我都会更新在对应的博客地址,并附有对应的更新日志

同时积累了一些常见的 QA,大家可以保存关注,可以 RSS 订阅博客,更新后可立即就能收到推送。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://buyixiao.github.io/blog/weibo-super-spider.html
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
2023 微博评论爬虫 | 突破 1000 页限制,抓取 10w 条微博评论
相比较一条微博的正文内容,微博的评论区往往有着更多的态度和情感极性,是不错的语料分析文本来源,因此对微博评论的抓取需求较大,笔者在以往分享过几个微博评论抓取的代码或者教程:
月小水长
2023/07/03
4K2
2023 微博评论爬虫 | 突破 1000 页限制,抓取 10w 条微博评论
复杂网络建模 | 构建 M 层 N 节点的微博深度转发网络
不过由于某些微博的转发可能多达十万甚至百万,有必要对网络规模作出限制,这里采取的做法是限制每一层节点最多为 N 个。
月小水长
2023/07/03
5590
复杂网络建模 | 构建 M 层 N 节点的微博深度转发网络
写了个一站式微博分析可视化网站
抽空写了一个微博可视化的网站,前端基于 sb-admin-2,后端基于 django3,微博相关数据则来源于本号维护的微博超级爬虫系列。
月小水长
2022/04/01
7420
写了个一站式微博分析可视化网站
微博可视化网站定制:多话题情感分析 3D 对比可视化
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2022/04/01
6530
微博可视化网站定制:多话题情感分析 3D 对比可视化
任意关键词(如淄博烧烤)微博数据抓取及可视化
利用在上一期【推送】中微博关键词爬虫,爬取了超过 4000 条微博数据,每条数据 18 个字段,这一期,我们来看看对这份数据的数据分析。包含常规可视化和复杂网络建模两部分,也许值得一个收藏、转发。
月小水长
2023/07/03
6970
任意关键词(如淄博烧烤)微博数据抓取及可视化
微博可视化网站定制:微博话题人物关系共现可视化
写了个一站式微博分析可视化网站 作为长期项目,本次开放微博话题人物关系共现可视化功能,用户可以输入 2021 新版微博话题爬虫发布 的 csv 结果文件和自己的邮箱,然后网站后台提取话题的文本内容中相互艾特的人物关系并且生成 gephi 构图所需的 edge.csv 和 node.csv 文件,处理成功并压缩后发送至你输入的邮箱地址。接口地址如下:
月小水长
2022/05/18
5990
微博可视化网站定制:微博话题人物关系共现可视化
关键词共现矩阵可视化
这个页面整体的业务逻辑是,用户在页面上传 CSV 文件,后台根据上传的 CSV 文件,计算关键词矩阵,最后在页面可视化显现出来。注意 CSV 必须包含 content 列,这是后台分析的指定列名,同时文件格式必须是 utf-8。
月小水长
2023/03/02
7420
关键词共现矩阵可视化
微博话题在线分析工具
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2023/01/30
7620
Python 爬取“工商秘密”微博后,我做了这个“可视化大屏”(附gif图)
微博作为我的日常软件之一,平时除了看看热搜、肖战(哈哈),我还会时不时看看秘密,虽然从来都没有投过稿,但还是会对一些感兴趣的内容评论评论或者点点赞,前两天刷秘密突然很想知道,
数据森麟
2021/03/09
6810
Python 爬取“工商秘密”微博后,我做了这个“可视化大屏”(附gif图)
批量解析微博详情(包括 ip 属地、经纬度等)
工具为在线解析,本页面是根据微博 id 解析微博信息工具,可以是数字 id 也可以数字字母混合 id,输入后者将会自动转化为前者,可解析微博正文、转评赞数、微博链接、图片链接、视频链接、发博 ip 属地、签到地点和经纬度,以及用户主页链接、用户认证类型、用户所在地、用户关注数、粉丝数、微博数、视频数等 30 余字段。
月小水长
2023/01/30
2.5K0
零配置构建微博多层转发网络可视化的网站来了
这个网站是做什么的呢?简单来说,就提供一个功能,啥也不用配置,只需要输入一个微博 id,就能抓取该微博的多级转发并且构建转发关系网络。
月小水长
2022/09/03
5940
零配置构建微博多层转发网络可视化的网站来了
flask + pyecharts 搭建新冠肺炎疫情数据可视化交互分析平台:包含疫情数据获取、态势感知、预测分析、舆情监测等任务
该项目是浙江大学地理空间数据库课程作业8:空间分析中,使用 flask + pyecharts 搭建的简单新冠肺炎疫情数据可视化交互分析平台,包含疫情数据获取、态势感知、预测分析、舆情监测等任务
云微
2023/02/11
1.1K0
flask + pyecharts 搭建新冠肺炎疫情数据可视化交互分析平台:包含疫情数据获取、态势感知、预测分析、舆情监测等任务
复杂网络 | 社交媒体话题和人物共现
以 当人们在讨论 ChatGPT 时,都在讨论什么 中共享的 ChatGPT.csv 数据集为例,只需要在上面的网页中上传这个 csv 文件,就能实时生成 这个 ChatGPT 帖子讨论中的 hashtag 话题和 user 人物共现可视化矩阵,结果文件为 Gephi 所需的 nodes.csv 和 edges.csv 和前 Top-N 权重连边的 NxN 矩阵 csv,以及网络可视化图 html 文件。
月小水长
2023/04/27
4760
复杂网络 | 社交媒体话题和人物共现
微博超话爬虫,它来了
首先 #buyixiao# 这个就是话题, 而 buyixiao 是关键词;使用关键词可以同时搜到同名话题,话题却不能搜到同名关键词。
月小水长
2022/04/01
2.4K0
中断可继续,10w+,无 cookie 微博评论抓取网站上线
补齐无 cookie 爬虫系列的最后一块拼图:无 cookie 评论爬虫今日上线。虽然是 无 cookie 系列,但是它和无 cookie 话题等相比,限制更少,更为强大。欲知强在何处,且听我一一道来。
月小水长
2022/09/03
5410
中断可继续,10w+,无 cookie 微博评论抓取网站上线
用户、话题、评论一网打尽,分享一个最强微博爬虫
微博向来是一个极好的吃瓜圣地,为了获取微博上行行色色的数据,微博相关的爬虫也是层出不穷,因为无论是运营者还是数据分析从业者都或多或少需要微博数据,我的许多朋友也不例外,经过断断续续的努力,我完成了一个可能是史上最强大的微博爬虫的编写。
月小水长
2019/10/14
4K0
可提高 page,可跳过缓存,微博无 cookie 爬虫网站更新
前阵子发布了 带 ip 属地,无 Cookie 微博话题自助抓取网站上线,可以实现脱离 Python 环境,直接在浏览器上抓取最新微博话题数据。
月小水长
2022/12/07
4470
可提高 page,可跳过缓存,微博无 cookie 爬虫网站更新
2022 年微博签到数据集自助构建(包含经纬度)
选择构建的城市可以是北京、上海、广州、深圳这样的一线城市,也可以是海口、洛阳这样的三线城市。除了国内所有城市,还可以选择东京、巴黎等国外上百个主要城市。
月小水长
2023/01/30
1.1K0
微博评论在线分析可视化上线
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2023/01/30
9190
微博(APP)榜单爬虫及数据可视化
首先对部分用户id进行可视化,字体大一点的是上榜2次的(这次统计中最多上榜的是2次)。
罗罗攀
2018/08/28
1.1K0
微博(APP)榜单爬虫及数据可视化
推荐阅读
相关推荐
2023 微博评论爬虫 | 突破 1000 页限制,抓取 10w 条微博评论
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验