导语
利用Python获取斗鱼弹幕数据。。。
至于数据的用途。。。
至少可以拿来当训练模型用的语料?
虽然已经有很多现成的数据集了。。。
其他用途就智者见智了。。。
主要思路
根据斗鱼后台协议发送数据。
主要步骤有:
(1)发送登录请求,用于完成登录授权;
(2)获取弹幕数据;
(3)保持登录状态;
(4)转码并将数据保存至Excel表中。
爬取的数据有:
用户ID、昵称、等级和弹幕内容。
更多:
将弹幕内容制作成词云。。。just for fun...
开发工具
Python版本:3.5.4
相关模块:
requests模块、BeautifulSoup4模块、openpyxl模块、jieba模块、wordcloud模块以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
使用演示
在cmd窗口运行Get_DY_Barrage.py文件,根据提示输入房间号和所需的弹幕数量即可。
随便找个人多的直播间演示下咯~~~
如下图所示:
结果:
更多
后续有机会会尝试获取其他直播平台的弹幕数据~~~
毕竟不能把鸡蛋放到一个篮子里~~~
领取专属 10元无门槛券
私享最新 技术干货