Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【开源】微博超话相册下载及超话活跃粉丝抓取

【开源】微博超话相册下载及超话活跃粉丝抓取

作者头像
月小水长
发布于 2022-01-20 09:03:11
发布于 2022-01-20 09:03:11
1.4K00
代码可运行
举报
文章被收录于专栏:月小水长月小水长
运行总次数:0
代码可运行

微博话题 Vs 微博超话

之前的微博话题爬虫

里区分了话题爬虫关键词爬虫的区别,相同点是它们的页面是一模一样的,只是文本带 ## 区别与否;而微博超话又不等同于一般的微博话题,它具有独立的页面地址和样式

一般的微博话题的地址如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://s.weibo.com/weibo?q=%23%E6%9D%8E%E8%8D%A3%E6%B5%A9%23

其页面样式如下:

而微博超话的页面样式如下:

其页面地址格式如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://weibo.com/p/10080868ed174b2d302045692b38756ee47f21/super_index#1640834166497

其中的数字字母 10080868ed174b2d302045692b38756ee47f21 就是这个超话的 id。可以看到页面有关注按钮,意味着超话是有粉丝的,但是新版本已经无法查看粉丝列表了,我们只能通过发的帖子或图片里找粉丝 id,暂且称之为活跃粉丝;还有一个相册 tab;本爬虫的两大目标:抓取超话活跃粉丝和下载超话相册图片

演示效果

如图所示

运行中

图片是实时下载,最后的活跃粉丝是爬完或断网出错结束时才写入 csv,运行一会儿手动断网结束,下面下载的图片及活跃粉丝

开源代码

代码全部开源,地址如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://github.com/Python3Spiders/WeiboSuperSpider/blob/master/%E6%97%A0%20GUI%20%E5%8A%9F%E8%83%BD%E7%8B%AC%E7%AB%8B%E7%89%88/WeiboSuperTopicActiveUserSpider.py

可以复制到浏览器打开,也可以点击文末阅读原文直达

拿到代码后,需要替换两个参数,第一个就是 super_topic_id,即上文所说的超话 id,可以直接在浏览器地址栏复制得到;第二个是 cookie , 由于抓取的核心接口是 /p/aj/proxy,复制 cookie 需要遵循以下步骤。

1、确保已经登录了新版本 weibo.com;确保电脑关闭了 V**;

2、打开一个超话主页的相册 tab 例如,

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://weibo.com/p/10080868ed174b2d302045692b38756ee47f21/topic_album?from=page_100808&mod=TAB#place

3、下拉,复制 /p/aj/proxy 接口的 cookie;cookie 开头如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
SINAGLOBAL=*********

4、复制 cookie 时右键,点复制而不是 copy value;

5、替换 id 和 cookie,代码就能像演示效果那样 run 起来了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【开放源代码】微博搜索用户爬虫
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2021/10/26
1.2K0
【开放源代码】微博搜索用户爬虫
再谈备份微博
除了使用稳部落和Python来备份微博,这里再分享个好用的Chrome扩展 Octoman 。
苏生不惑
2020/07/21
1.8K0
再谈备份微博
一键下载QQ空间相册,微博相册,知乎回答图片,豆瓣图片,instagram图片
之前分享过如何批量下载知乎回答图片,这里再做个整理,一键下载QQ空间相册,微博相册,知乎回答图片,豆瓣图片,instagram图片。
苏生不惑
2021/04/22
2.4K0
一键下载QQ空间相册,微博相册,知乎回答图片,豆瓣图片,instagram图片
2021 微博爬虫更新及使用指南
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2021/09/24
1.4K0
微博超话爬虫,它来了
首先 #buyixiao# 这个就是话题, 而 buyixiao 是关键词;使用关键词可以同时搜到同名话题,话题却不能搜到同名关键词。
月小水长
2022/04/01
2.4K0
数据分析入门系列教程-微博热点
在前面,我们学习了爬虫的基本流程和必备技能,对于刚刚入门的人来说,打好基础,掌握基本步骤是最为重要的。
周萝卜
2020/10/10
5970
数据分析入门系列教程-微博热点
新浪微博自动评论机器人,超话批量发布私信关注点赞,微博python模块分享
成品下载地址:https://www.pan38.com/yun/share.php?code=JCnzE 提取密码:9921
用户11744395
2025/07/13
1900
微博python爬虫,每日百万级数据
新浪微博绝对是一个巨大的,实时的语料库!对微博数据爬取和分析,有重大的意义。 比如,现在要调查工商银行的服务态度,就可以抓取微博内容中包含工商银行的微博语料,然后做情感分析,就可以得到用户对银行服务的满意程度。
机器学习AI算法工程
2019/10/28
1.3K0
微博python爬虫,每日百万级数据
中断可继续,10w+,无 cookie 微博评论抓取网站上线
补齐无 cookie 爬虫系列的最后一块拼图:无 cookie 评论爬虫今日上线。虽然是 无 cookie 系列,但是它和无 cookie 话题等相比,限制更少,更为强大。欲知强在何处,且听我一一道来。
月小水长
2022/09/03
5510
中断可继续,10w+,无 cookie 微博评论抓取网站上线
为了知道胡歌粉丝的男女比率,爬了三百万微博数据
、最近偶然间看到一条新闻,标题是:“胡歌作为一个男性明星,男粉丝比女粉丝还多,这不科学!”
小歪
2018/07/25
2K0
为了知道胡歌粉丝的男女比率,爬了三百万微博数据
微博评论采集软件,采集评论UID博主粉丝,python采集微博用户列表【源码框架】
下载地址:https://www.pan38.com/dow/share.php?code=JCnzE 提取密码:1198
用户11749621
2025/07/21
1270
微博位置爬虫发布
这个位置爬虫的结果可以和用户信息爬虫联动,比如有这样一个分析任务:去北京环球影城的人,都发了什么微博,男生多还是女生多,年龄群体分布怎么样,等等。都可以先用这个微博位置爬虫,爬完后的 csv 交给用户信息爬虫处理。
月小水长
2021/09/24
8091
【2023 最新】微博爬虫及配套数据分析可视化教程
如果你想爬微博热搜话题等,你可以在上述博客地址查看说明书并索引到对应的爬虫文件获取方式。
月小水长
2023/03/02
6.1K0
【2023 最新】微博爬虫及配套数据分析可视化教程
微博爬取热搜榜和热门话题
weibo_spider 微博爬虫: 爬取热搜榜:不需要登录,但是需要处理反扒措施 爬取热门话题:需要登录之后获得cookies和user_id 爬取热搜榜 微博热搜榜地址:https://s.wei
职场亮哥
2020/10/10
2.1K0
客官,想瞅瞅邓紫棋微博粉丝分布吗,进来看看呗
1.移动端爬取:利用selenium去模拟登录然后再去爬取,比较麻烦,但是可以根据个人需求依据关键词进行指定爬取。
快学Python
2021/08/09
6890
m.微博各种接口分析
1.微博用户搜索接口。 https://m.weibo.cn/api/container/getIndex?containerid=100103type%3D3%26q%3D乐队的夏天%26t%3D0
李玺
2021/11/22
4.1K0
m.微博各种接口分析
微博爬虫综述、错误汇总、Q&A
微博爬虫主要有两个导向,一个是微博内容的爬虫,其目的字段包括微博文本、发布者、转发/评论/点赞数等,另一个是微博评论的爬虫,其目的字段主要是评论文本和评论者。
月小水长
2020/03/19
1.5K0
微博爬虫综述、错误汇总、Q&A
pyhton爬取爱豆(李易峰)微博评论
很明显,是动态的,抓取也是按我以前写的那些方法来,就不一一说了,他这里最重要的还是那串数字,所以我们只要在第一个网址哪里把那串数字找出来就算成功一半了,这次需要用到re正则,嗯,这个我不擅长,不过没事,应该还是可以搞到的:
Python研究者
2021/06/29
5790
开源 | 写了个微博备份助手浏览器扩展
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
月小水长
2022/04/01
1.2K0
开源 | 写了个微博备份助手浏览器扩展
那些实用的 Chrome 扩展神器(二)
之前已经写过 那些实用的 Chrome 扩展神器 ,如果你不能上谷歌没法直接安装Chrome扩展,可以使用https://crxdl.com/ 这个网站下载crx文件,然后手动安装。
苏生不惑
2020/01/02
1.5K0
推荐阅读
相关推荐
【开放源代码】微博搜索用户爬虫
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验