Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >2024 批量下载微博内容/图片/视频/评论/转发数据,导出excel和pdf

2024 批量下载微博内容/图片/视频/评论/转发数据,导出excel和pdf

作者头像
苏生不惑
发布于 2024-05-10 07:50:21
发布于 2024-05-10 07:50:21
72000
代码可运行
举报
文章被收录于专栏:苏生不惑苏生不惑
运行总次数:0
代码可运行

之前分享过我写的几个工具2023 更新版:苏生不惑开发过的那些原创工具和脚本 ,今天再更新下微博下载。

还是以这个号为例https://weibo.com/n/歌手李健,共抓取727条微博,导出的excel微博数据包含微博链接,微博正文,原始图片链接,被转发微博原始图片链接,是否为原创微博,微博视频链接,发布位置,发布时间,发布工具,点赞数,转发数,评论数,话题等。

第一条微博发布于2010年5月31 https://www.weibo.com/1744395855/OyJMj

再根据微博点赞转发评论数之和做个降序排列,这样就能找出受欢迎的前10微博了。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd
df=pd.read_csv('weibo/歌手李健/1744395855.csv')
df['sort']=df['点赞数']+df['转发数']+df['评论数']
df.sort_values(by=['sort'],ascending=False, inplace=True)
df.head(10).to_csv('歌手李健.csv',encoding='utf_8_sig',index=False)
https://www.weibo.com/1744395855/LgnjmrmvF
https://www.weibo.com/1744395855/Cc3T09sqM
https://www.weibo.com/1744395855/C9UW2BmNd
https://www.weibo.com/1744395855/ChaNZmx6A 
https://www.weibo.com/1744395855/Jfpw2xihv
https://www.weibo.com/1744395855/CfNZzoAMV
https://www.weibo.com/1744395855/Ckrkv2A0b
https://www.weibo.com/1744395855/Fn3bhwNWv
https://www.weibo.com/1744395855/Gt5of2OCo
https://www.weibo.com/1744395855/Gt5of2OCo

再分析下微博发布工具比例图:

微博内容词云图:

原创微博与转发数据分布图:

转发评论点赞数据分布图:

导出pdf,大小 40MB。

所有微博图片:

然后是批量下载微博评论,工具下载地址在公众号后台对话框回复 微博

打开工具输入微博链接和网页版微博cookie就行,比如 https://weibo.com/1744395855/O0haQaIfE,https://m.weibo.cn/detail/5000660202553386

不过下载的评论比实际评论数少很多,可能被微博过滤了,点击加载更多没反应。

导出的excel数据包含微博昵称,微博uid,评论时间,评论内容,评论地区,回复数,点赞数等。

对excel文件分析评论IP地址分布图:

对excel文件分析评论内容生成的词云图:

还有批量下载微博转发内容,导出的excel数据包含微博昵称,微博uid,转发时间,转发内容,转发地区,转发来源,转发数,评论数,点赞数,比如https://m.weibo.cn/status/5000660202553386这条微博有5000多条转发微博:

对excel文件分析微博转发ip地址分布图:

对excel文件分析微博转发内容词云图:

最后分享个查看微博无水印图片小技巧,有水印图https://lz.sinaimg.cn/mw690/001U3j31ly1gnynq1xvcqj634022oqv502.jpg替换为oslarge就是无水印图https://lz.sinaimg.cn/oslarge/001U3j31ly1gnynq1xvcqj634022oqv502.jpg,效果对比:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 苏生不惑 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一键备份微博并导出生成PDF,顺便用Python分析微博账号数据
这里再分享下如何快速导出你的所有微博数据,然后用Python分析某个微博账号的数据,比如高赞,转发,评论微博,微博词云,微博发布时间轴,以及使用的手机。
苏生不惑
2020/06/04
8.7K2
一次性搞定微博,苏生不惑又写了个脚本
之前分享过很多微博相关的脚本和工具一键批量下微博内容/图片/视频,获取博主最受欢迎微博,图片查找微博博主,今天再整理下,一次性搞定微博。
苏生不惑
2023/11/16
1.2K0
一次性搞定微博,苏生不惑又写了个脚本
我又写了个好玩的工具
之前文章微博/公众号/抖音等各大平台都显示 ip 归属地了,能改吗? 我用代码统计了下公众号留言区的地区分布情况,广东的小伙伴最多:
苏生不惑
2022/05/30
5060
我又写了个好玩的工具
围观微博网友发起的美胸比赛学习爬取微博评论内容
继上次知乎话题 拥有一副好身材是怎样的体验? 解析了知乎回答内容之后,这次我们来解析一下微博内容,以微博网友发起的美胸大赛为例:
爱写bug
2019/07/15
1.7K0
围观微博网友发起的美胸大赛
继上次知乎话题 拥有一副好身材是怎样的体验? 解析了知乎回答内容之后,这次我们来解析一下微博内容,以微博网友发起的美胸大赛为例:
爱写bug
2019/08/01
6.9K0
围观微博网友发起的美胸大赛
再谈备份微博
除了使用稳部落和Python来备份微博,这里再分享个好用的Chrome扩展 Octoman 。
苏生不惑
2020/07/21
1.8K0
再谈备份微博
文章马伊琍离婚后微博评论太多了...用代码来解决吧
上周末文章同学的一条微博:“吾愛伊琍,同行半路,一别两宽,餘生漫漫,依然親情守候.”
Python编程与实战
2019/12/04
4020
Python 爬取“工商秘密”微博后,我做了这个“可视化大屏”(附gif图)
微博作为我的日常软件之一,平时除了看看热搜、肖战(哈哈),我还会时不时看看秘密,虽然从来都没有投过稿,但还是会对一些感兴趣的内容评论评论或者点点赞,前两天刷秘密突然很想知道,
数据森麟
2021/03/09
6770
Python 爬取“工商秘密”微博后,我做了这个“可视化大屏”(附gif图)
基于Java爬取微博数据(五) 补充微博正文列表图片 or 视频 内容
在通过对微博正文内容中的图片 or 视频内容进行分析后,图片 or 视频 链接是可以直接通过 Java 代码下载或者转存的,那么这样就可以补充我们在 【基于Java爬取微博数据(一) 微博主页正文列表数据】 时缺失的图片 or 视频信息了,当然,如果你的需求并不需要转存微博正文列表内容中的图片 or 视频的话,那么你就无需进行下面的操作了。在开始进行微博主页正文列表数据 补充 图片 or 视频内容之前,先来分析一下获取到的微博正文列表数据的内容。
六月的雨在Tencent
2024/09/25
2870
微博爬虫综述、错误汇总、Q&A
微博爬虫主要有两个导向,一个是微博内容的爬虫,其目的字段包括微博文本、发布者、转发/评论/点赞数等,另一个是微博评论的爬虫,其目的字段主要是评论文本和评论者。
月小水长
2020/03/19
1.5K0
微博爬虫综述、错误汇总、Q&A
用Python对鹿晗、关晓彤微博进行情感分析
專 欄 ❈大吉大利小米酱,Python中文社区专栏作者,Python爱好者,顽强地自学中,18线灵魂画手/段子手/脑洞女王。 简书: http://www.jianshu.com/u/8e45f2f3b6c1 知乎: https://www.zhihu.com/people/otakurice ❈ 前言:本文主要涉及知识点包括新浪微博爬虫、python对数据库的简单读写、简单的列表数据去重、简单的自然语言处理(snowNLP模块、机器学习)。适合有一定编程基础,并对python有所了解的盆友阅读。 相
Python中文社区
2018/02/01
1.4K0
用Python对鹿晗、关晓彤微博进行情感分析
分享几个有趣实用的冷知识,涨知识了
之前详细介绍过身份证号码的由来身份证号码的秘密 ,号码最后一位Ⅹ表示罗马数字10,读作shí。
苏生不惑
2023/02/06
7650
微博的力量为什么这么大?
最近听闻「杨超越杯编程大赛」很是火热~ 网友纷纷评论,原来追星还可以这么硬核,没点实力还不敢追了。 本期,小F通过爬取新浪微博评论,来看看大家对此次大赛有什么看法。 在此之前,先查阅一下相关资料,发现从微博的手机端和移动端入手,效果还可以。 网页版的微博,想都不用想,去了就是自讨苦吃。 微博的反爬甚是厉害,我可不想去大动干戈... 虽然最后由于种种原因,还是没能够获取到完整的评论,不过也拿到了挺多数据。 还是可以拿来一窥的。 / 01 / 网页分析 网页端微博直接不看,先看一下手机端。 网址为 https:
龙哥
2019/04/25
8690
微博的力量为什么这么大?
Python采集微博热评进行情感分析祝你狗年脱单
如果自己需要爬(cai)虫(ji)的数据量比较大,为了防止被网站封Ip,可以分时段爬取,另外对于爬到的数据一般是用来存储数据库,这就需要对数据进行去重处理,记录上次爬取的状态,就可以实现在爬虫中断后,可以快速继续上次的状态,实现增量爬取,这里可以参考我之前写过的一个新闻采集,增量采集新闻数据,本文写的对新浪微博的数据采集和处理完整代码在我的Github。 玩微博的人大多数应该知道微博搞笑排行榜的,刚好写这篇文之前看到榜姐1月8号0点话题是一人说一个,追女孩的小道理,感觉这个话题简直是对广大单身男性的福利啊,ヾ(✿゚゚)ノ,故有了何不就采集一下评论来分析一波的想法。
Python攻城狮
2018/08/23
7120
Python采集微博热评进行情感分析祝你狗年脱单
一键批量下载微信公众号文章内容/图片/封面/视频/音频,支持导出html和pdf格式,包含阅读数/点赞数/在看数
之前分享过听说公众号深圳卫健委被网友投诉尺度大,我抓取了所有文章标题和阅读数分析了下 ,后来发现这个号的封面图真有意思,于是批量下载了所有封面图,如果有需要在公众号后台对话框回复 封面 获取所有封面图的网盘地址。
苏生不惑
2021/12/28
4.5K1
一键批量下载微信公众号文章内容/图片/封面/视频/音频,支持导出html和pdf格式,包含阅读数/点赞数/在看数
微博爬虫,python微博用户主页小姐姐图片内容采集爬虫
python爬虫,微博爬虫,需要知晓微博用户id号,能够通过抓取微博用户主页内容来获取用户发表的内容,时间,点赞数,转发数等数据,当然以上都是本渣渣结合网上代码抄抄改改获取的!
二爷
2020/12/11
1.2K0
微博爬虫,python微博用户主页小姐姐图片内容采集爬虫
【爬虫+数据清洗+可视化】“淄博烧烤”热评Python舆情分析大屏
自从2023.3月以来,"淄博烧烤"现象持续占领热搜流量,体现了后疫情时代众多网友对人间烟火气的美好向往,本现象级事件存在一定的数据分析实践意义。
马哥python说
2024/04/06
6790
【爬虫+数据清洗+可视化】“淄博烧烤”热评Python舆情分析大屏
为了知道胡歌粉丝的男女比率,爬了三百万微博数据
、最近偶然间看到一条新闻,标题是:“胡歌作为一个男性明星,男粉丝比女粉丝还多,这不科学!”
小歪
2018/07/25
1.9K0
为了知道胡歌粉丝的男女比率,爬了三百万微博数据
昨晚中国女足绝地大逆转,爬取了微博评论区,评论很精彩
昨晚,女足16年后重夺亚洲杯,决赛落后两球,依然能保持对比赛的观察和思考,下半场从容调度人手,最后完成逆转。
润森
2022/09/22
3990
昨晚中国女足绝地大逆转,爬取了微博评论区,评论很精彩
微博(APP)榜单爬虫及数据可视化
首先对部分用户id进行可视化,字体大一点的是上榜2次的(这次统计中最多上榜的是2次)。
罗罗攀
2018/08/28
1.1K0
微博(APP)榜单爬虫及数据可视化
推荐阅读
相关推荐
一键备份微博并导出生成PDF,顺便用Python分析微博账号数据
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验