Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >python爬取B站千万级数据,发现了这些热门UP主的秘密!

python爬取B站千万级数据,发现了这些热门UP主的秘密!

原创
作者头像
猫咪编程
修改于 2018-06-08 01:49:43
修改于 2018-06-08 01:49:43
7881
举报

Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象、直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法非常简捷和清晰,与其它大多数程序设计语言不一样,它使用缩进来定义语句。

Python支持命令式程序设计、面向对象程序设计、函数式编程、面向切面编程、泛型编程多种编程范式。与Scheme、Ruby、Perl、Tcl等动态语言一样,Python具备垃圾回收功能,能够自动管理存储器使用。它经常被当作脚本语言用于处理系统管理任务和网络程序编写,然而它也非常适合完成各种高级任务。Python虚拟机本身几乎可以在所有的作业系统中运行。使用一些诸如py2exe、PyPy、PyInstaller之类的工具可以将Python源代码转换成可以脱离Python解释器运行的程序。

粉丝独白

说起热门的B站相信很多喜欢玩动漫的,看最有创意的Up主的同学一定非常熟悉。我突发奇想学Python这么久了,为啥不用Python爬取B站中我关注的人,已经关注的人他们关注的人,看看全站里面热门的UP主都是是哪些。

要点:

- 爬取10万用户数据

- 数据存储

- 数据词云分析

1.准备阶段

写代码前先构思思路:既然我要爬取用户关注的用户,那我需要存储用户之间的关系,确定谁是主用户,谁是follower。

存储关系使用数据库最方便,也有利于后期的数据分析,我选择sqlite数据库,因为Python自带sqlite,sqlite在Python中使用起来也非常方便。

数据库中需要2个表,一个表存储用户的相互关注信息,另一个表存储用户的基本信息,在B站的用户体系中,一个用户的mid号是唯一的。

然后我还需要一个列表来存储所以已经爬取的用户,防止重复爬取,毕竟用户之间相互关注的现象也是存在的,列表中存用户的mid号就可以了。

2.新建数据库

先写建数据库的代码,数据库中放一个用户表,一个关系表:

3.爬取前5页的用户数据

我需要找到B站用户的关注列表的json接口,很快就找到了,地址是:

https://api.bilibili.com/x/relation/followings?vmid=2&pn=1&ps=20&order=desc&jsonp=jsonp&callback=__jp7

其中vimd=后的参数就是用户的mid号

pn=1指用户的关注的第一面用户,一面显示20个用户

因为B站的隐私设置,一个人只能爬取其他人的前5页关注,共100人。

整个爬取页面的思路比较简单,首先设置header,用requests库进行API请求,获得关注的用户数据列表。

我们爬取前5页,每一页的数据进行简单的处理,然后转为字典数据进行获取mid,uname,sign3个维度的数据,最后save()函数存入db.

4.存入数据库

我们数据集里面一共有2个表,一个用户列表,用来存储所以的用户信息,一个是用户之间的关注信息。

5.探秘是热门UP主

打算利用已经爬取到本地的数据进行词云的生成,来看一下这10万用户中共同的关注的哪些UP主出现的次数最多。

代码的思路主要是从数据库中获取用户的名字,重复的次数越多说明越多的用户关注,然后我使用fate的一张图片作为词云的mask图片,最后生成词云图片。

最后一起来看一下词云图

可以看出蕾丝,暴走漫画,木鱼水心,参透之C君,papi酱等B站大UP主都是热门关注。

Python可以做什么?

web开发和 爬虫是比较适合 零基础的

自动化运维 运维开发 和 自动化测试 是适合 已经在做运维和测试的人员

大数据 数据分析 这方面 是很需要专业的 专业性相对而言比较强

科学计算 一般都是科研人员 在用

机器学习人工智能 首先 学历 要求高 其次 高数要求高 难度很大

我有一个微信公众号,经常会分享一些python技术相关的干货;如果你喜欢我的分享,可以用微信搜索“python语言学习”关注

欢迎大家加入千人交流答疑裙:699+749+852

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
Python好像是应用挺广的,我身边经常能听到这个词,看起来我还真得认真学学了~
Python好像是应用挺广的,我身边经常能听到这个词,看起来我还真得认真学学了~
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
B站弹幕爬虫
B站作为弹幕文化的代表,有着非常丰富的弹幕资源。今天我们尝试对B站的弹幕进行爬虫并且绘制词云图展示爬虫结果。
数据森麟
2020/02/20
1.4K0
B站弹幕爬虫
axaj异步加载数据爬虫,获取B站UP主所有视频信息保存到数据库——每周一个爬虫小教程系列
网址:https://space.bilibili.com/482165792/video
SingYi
2022/07/14
7440
axaj异步加载数据爬虫,获取B站UP主所有视频信息保存到数据库——每周一个爬虫小教程系列
爬取视频数据后我们发现,原来逛B站也能学编程...
很多人提到B站,首先想到的就会是二次元或者鬼畜,上个月,我们公众号也发表了一篇关于B站鬼畜视频的文章:大数据解读B站火过蔡徐坤的“鬼畜“区巨头们。
CDA数据分析师
2019/05/17
6720
爬取视频数据后我们发现,原来逛B站也能学编程...
不写代码如何爬取B站
之前在商拆营的时候,分享了一个微博一个B站的excle数据,大家都比较好奇 怎么快速的抓取这些数据,我这边做个如何写尽量少的代码快速抓取这些数据,图文教程。
overme
2022/01/17
4480
不写代码如何爬取B站
爬取B站20万+条弹幕,我学会了如何成为B站老司机
B站(哔哩哔哩)是国内知名的视频弹幕网站,也是中国最大的年轻人聚集地之一,想要知道B站弹幕爱刷什么梗?不同分区UP主弹幕各有什么特点?如何快速成为B站弹幕老司机?本文就通过Python爬取B站不同UP主近20万+弹幕数据进行分析,全文共分为两个部分,第一部分为不同分区up主的弹幕分析,第二部分为Python爬取B站弹幕技术分析。
刘早起
2020/08/04
1.5K1
爬取B站20万+条弹幕,我学会了如何成为B站老司机
我在B站看番,你却在B站学编程?
然而,实际上B站其实是个非常神奇的网站,里面的内容可谓是包罗万象,有趣的弹幕文化也能极大地提高大家的体验,B站也逐渐地成为了一个用来学习的“神器”。
IT阅读排行榜
2019/05/17
8940
我在B站看番,你却在B站学编程?
爬取B站评论:Python技术实现详解
在当今信息爆炸的互联网时代,用户生成的内容不断涌现,其中包括了各种各样的评论。而B站作为一个充满活力的视频分享平台,其评论区更是一个充满了各种各样精彩评论的宝藏地。那么,有没有一种简单的方法可以将这些评论收集起来呢?答案是肯定的!本文将介绍如何使用Python编写一个爬虫程序,轻松实现爬取B站视频的评论,为我们探索互联网数据的奥秘带来便利。
小白学大数据
2024/04/30
8380
爬取了252家酒店的数据后,我发现了热门旅游城市酒店的秘密
外出旅游,酒店一定会占据一大部分开销。哪些酒店的价格是合理的?这个价格配得上它的地理位置么?这个价格和它对应的服务匹配么?数据侠 Johnnie 以纽约的酒店为例,尝试用数据一窥决定酒店价格的因素,做出一份出行居住指南。
DT数据侠
2018/09/27
8730
爬取了252家酒店的数据后,我发现了热门旅游城市酒店的秘密
用Python扒出B站那些“惊为天人”的阿婆主!
作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin)
数据森麟
2020/02/12
4920
用Python扒出B站那些“惊为天人”的阿婆主!
高效爬取B站评论:Python爬虫的最佳实践
在视频分享平台如B站(哔哩哔哩)上,用户生成的评论数据不仅能够反映用户对视频内容的喜好和反馈,还可以用于视频内容推荐系统的优化、用户行为分析、舆情监控和市场趋势预测等。本文将探讨如何使用Python爬虫技术高效地采集B站视频评论数据,并在代码中加入代理信息以规避反爬虫机制。
小白学大数据
2024/11/13
7520
Python爬虫实战:爬取B站Top100视频,分析弹幕、播放量和分类并数据可视化
最近挺好奇的,B站每天Top100,具体什么视频最多,播放量和视频的弹幕数有没有比例关系。
Mintimate
2022/02/15
5.9K2
Python爬虫实战:爬取B站Top100视频,分析弹幕、播放量和分类并数据可视化
Cloud Studio实战——热门视频Top100爬虫应用开发
点开一个工作台,选择一个环节,即可在里面编辑代码,不用再担心本地环境不兼容的问题。腾讯云Cloud Studio是一种基于云的开发环境,可以帮助开发人员更高效地进行软件开发和协作。它提供了一个集成开发环境(IDE),可以在任何地方通过互联网访问,无需在本地安装任何软件。
爱睡觉的咋
2023/08/08
2790
Cloud Studio实战——热门视频Top100爬虫应用开发
用Python爬取陈奕迅新歌《我们》10万条评论的新发现
最近就有一部“怀旧”题材的电影,未播先火,那就是刘若英的处女作——《后来的我们》。青春,爱情,梦想,一直是“怀旧”题材的核心要素,虽然电影现在还未上映,但先行发布的主题曲《我们》,已经虐哭了不少人。在MV里,歌声清清浅浅,诉说着那些年关于爱情里的遗憾。
Python中文社区
2018/07/27
5490
用Python爬取陈奕迅新歌《我们》10万条评论的新发现
Python爬取B站耗子尾汁、不讲武德出处的视频弹幕
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
松鼠爱吃饼干
2020/11/19
7190
Python爬取B站耗子尾汁、不讲武德出处的视频弹幕
利用scrapy进行八千万用户数据爬取与优化(一)
最近准备把数据分析这块补一下,加上一直在听喜马拉雅的直播,有一个比较喜欢的主播,突然萌生了爬取喜马拉雅所有主播信息以及打赏信息,来找一找喜马拉雅上比较火的主播和有钱的大哥,看看这些有钱人是怎么挥霍的。
星星在线
2018/08/21
2.1K0
利用scrapy进行八千万用户数据爬取与优化(一)
爬取知乎60万用户信息之后的简单分析
使用 Java+Elasticsearch+Kibana 爬取了知乎 60 万用户数据,做了简单的可视化分析。 ---- 项目源码 GitHub - webporter https://github.com/brianway/webporter 动机 在知乎上看到有个叫 @路人甲 的大神每隔一段时间就爬爬豆瓣/B站等等网站,做了很多有意思的分析,加上之前因为实验室项目接触过 Nutch,浅尝辄止了,所以一直想好好玩玩爬虫。 网上 Python 的爬虫教程很多,而自己的主语言是 Java,本着宣传 Java
前朝楚水
2018/04/04
8500
爬取知乎60万用户信息之后的简单分析
Python实现单博主微博文本、图片及热评爬取
文章简介 经常刷微博的同学肯定会关注一些有比较意思的博主,看看他们发的文字、图片、视频和底下评论,但时间一长,可能因为各种各样的原因,等你想去翻看某个博主的某条微博时,发现它已经被删除了,更夸张的是发现该博主已经被封号。那么如果你有很感兴趣的博主,不妨定期将Ta的微博保存,这样即使明天微博服务器全炸了,你也不用担心找不到那些微博了。(自己的微博也同理哦。) 看网上一些微博爬虫,都是针对很早之前的微博版本,而且爬取内容不全面,比如长微博不能完整爬取、图片没有爬取或没有分类,已经不适用于对当下版本微博内容的
慕白
2018/07/06
1.4K0
某坤学学吴亦凡,Python可视化分析「大碗宽面」b站弹幕和网易云音乐评论
上周五也就是 4 月 19 号吴亦凡官方发布了一首歌:大碗宽面,这首歌的官方版 MV 也同步发布在 b 站上了,初听感觉这首歌和普通歌也没什么区别,其实这首歌是吴亦凡对自己的一种自黑的梗。原梗是两年前的一个综艺节目上,吴亦凡表演了即兴的freestyle,我们先来看看原梗的视频。
小小詹同学
2019/05/07
7030
某坤学学吴亦凡,Python可视化分析「大碗宽面」b站弹幕和网易云音乐评论
万万没想到,逛B站也能学编程了
很多人提到B站,首先想到的就会是二次元或者鬼畜,上个月,我们公众号也发表了一篇关于B站鬼畜视频的文章:《大数据解读B站火过蔡徐坤的“鬼畜“区巨头们》。
AI科技大本营
2019/05/22
1.2K0
真特么激动第一个爬虫----爬取豆瓣电影top250
之前一直对爬虫有兴趣,但是一直没有真正静下心来去好好学习过,这一段时间跟着b站上的一个教程做了自己人生中第一个爬虫程序,还是很有成就感的。
萌萌哒的瓤瓤
2020/08/26
4630
真特么激动第一个爬虫----爬取豆瓣电影top250
推荐阅读
相关推荐
B站弹幕爬虫
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档