首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >分析完吴亦凡的所有歌曲,我震惊了

分析完吴亦凡的所有歌曲,我震惊了

作者头像
godweiyang
发布于 2021-08-12 02:37:25
发布于 2021-08-12 02:37:25
2.3K0
举报
文章被收录于专栏:算法码上来算法码上来

- BEGIN -

最近吴亦凡的事件闹的沸沸扬扬,相信不少吃瓜群众也都有所耳闻。

但咱们今天不谈他的事件到底怎么样,咱们来谈谈他的歌到底如何。

收集歌词

我写了一个代码,从QQ音乐上收集了吴亦凡所有的歌词信息,自动汇总整理成一个txt文件,代码在下面:https://github.com/godweiyang/lyric-crawler

使用方法非常简单,直接运行python run.py,然后输入你要收集的歌手名字即可,比如吴亦凡

然后就会在output文件夹下自动生成两个文件吴亦凡_歌词.txt吴亦凡_歌名.txt,里面分别是他的所有歌词和按专辑分类的所有歌名。

我们来看看歌词文件具体内容:

可以看到Kris Wu的《大碗宽面》和《bad girl》等经典作品都在其中。

分析歌词

那么有了这些歌词可以干嘛呢?咱们可以做很多有趣的分析,比如今天就来分析一下吴亦凡的歌里面出现最多的词是什么?

我们可以用jieba对歌词文件进行分词,然后生成词云,相关代码我也都开源在了下面:https://github.com/godweiyang/wordcloud

只需要运行python create_word_cloud.py 吴亦凡_歌词.txt即可,会自动生成两张词云的图片。

咱们打开看看效果:

可以看到,吴亦凡歌曲里出现最多的词竟然是「girl」!其次是一些语气词“yeah”之类的,果然是符合他的rapper身份啊。

这也就不难想象了,Kris Wu先生对girl如此的痴迷,做出现在的事情也在情理之中。

而且高频词里面大多都是英文,也表明了Kris Wu成为国际顶流的决心。

这次事件也为各大顶流和众多粉丝们敲响了警钟。顶流要洁身自好,树立良好的榜样形象。而粉丝们更应该去追求那些正能量、能够激励我们前进的顶流。

分析完了吴亦凡,我们再来看看我最爱的几位歌手都喜欢用什么词语。

首先就是我最爱的歌手「周杰伦」

可以看到杰伦最爱用的词语是“离开、回忆、微笑、世界、爱情”。杰伦早期的作品主要以苦情歌为主,这也是我最爱的风格,比如“你要离开我知道很简单,你说依赖是我们的阻碍”。而结婚后杰伦就几乎再也没唱过苦情歌了,基本都是甜甜的情歌。

再来看看我最爱的女歌手「邓紫棋」

紫棋最爱用的是“世界、快乐、再见、离开”,可以看到和杰伦有两个词是相同的,大家都喜欢用“世界、离开”等词语。

更多的歌手我就不在这里分析了,大家可以自己用我的代码收集歌词,然后进行分析。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法码上来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
我们分析了400位歌手的歌词,发现了华语音乐的秘密
“香槟酒起满场飞,钗光槟影晃来回,爵士乐声响,跳桑巴才够味,”三四十年代张帆的一曲《满场飞》,成了“十里洋场”大上海上流社会醉生梦死的缩影;
CDA数据分析师
2019/05/13
1.4K0
我们分析了400位歌手的歌词,发现了华语音乐的秘密
我分析了2837首歌曲,做了个信息检索与信息抽取系统
我把目标锁定在网易云音乐热门的华语男歌手、华语女歌手以及华语组合/乐队,每一类爬取20个热门歌手,这样我就有了60位歌手的信息。
echobingo
2018/08/09
1.4K1
我分析了2837首歌曲,做了个信息检索与信息抽取系统
分析周杰伦75775字歌词后,我们用他最爱的词重写了《说好不哭》
有人觉得,听着这首歌,仿佛自己的青春岁月回来了,说好不哭,可还是哭了下来,那个周杰伦又回来了!
IT阅读排行榜
2019/10/15
7730
分析周杰伦75775字歌词后,我们用他最爱的词重写了《说好不哭》
用Python分析周杰伦6.5W字的歌词,原来他是这样的人
一、准备歌词素材 歌词选择:杰伦至今的所有专辑(从最开始的<JAY>到最新的<周杰伦的床边故事>) 由于爬虫木有学会,就只能手动收集歌词。经过一系列的 google、baidu,终于找到别人整理好的歌
AI研习社
2018/03/28
1.7K0
用Python分析周杰伦6.5W字的歌词,原来他是这样的人
基于jiebaR包的周杰伦歌词文本挖掘分析
虽然是听了十几年的周杰伦,各种周氏情歌和中国风也算信手拈来,但昨天把13张专辑和十几首单曲的歌词整理成规范的txt文档也着实花了不少时间,这篇文章没做多少深度的分析,只是用杰伦的歌词基于jiebaR包做了简单的分词并用wordcloud2包做了几个词云图,在NLP和文本挖掘领域目前了解不多,但还是胡适那句话:“怕什么真理无穷尽,有一寸得一寸的欢喜!”
IT阅读排行榜
2018/08/16
8980
基于jiebaR包的周杰伦歌词文本挖掘分析
那些年,我们追过的周杰伦
很早之前写了个网易云音乐的爬虫,准备把网易云音乐的所有歌曲信息和评论信息抓下来,但是爬虫开始工作不到一天,服务器就被网易云音乐给ban了>_<…然后爬虫就这么被搁置了。
尾尾部落
2018/09/04
9180
那些年,我们追过的周杰伦
Python 词云分析周杰伦新歌《说好不哭》
周杰伦难得出新歌 ,最近终于推出了单曲《说好不哭》,然后直接把QQ音乐服务器干崩了,天王的实力可见一斑,QQ音乐还把这个当作 今天过年
苏生不惑
2019/10/30
8470
Python 词云分析周杰伦新歌《说好不哭》
弹幕挖掘在综艺节目热点分析中的应用初探
作者:黄耀鹏, 腾讯PCG数据分析工程师 |导语 视频弹幕作为视频内容延伸、以及用户喜好反馈的一部分,有着巨大的挖掘价值。本文旨在通过运用文本挖掘技术,从弹幕中挖掘综艺节目热点话题,助力平台精准把握用户消费偏好、提升节目运营效率。 声明:本文运营方案相关的思考为个人观点,不代表腾讯视频既有运营方案和平台价值取向。本文仅纯粹作为个人感兴趣的技术研究总结。抛砖引玉,期待感兴趣的同学一起交流探讨。 1. 业务场景思考 1.1 视频弹幕的本质 弹幕文化,首先兴起于ACG社区等小众群体。而随着B站等弹幕视频网站的
腾讯大讲堂
2020/12/02
1.8K0
12月的音乐可视化笔记:我从TOP2000歌曲中,分析了这几年流行音乐的变化趋势
大数据文摘作品 编译:HAPPEN、朝夕、林海、吴双 2017年的最后一个月挟裹着寒风悄悄地来临了,与我们不经意间撞了一个满怀。今天,我们收录了两篇特别可爱的“创作笔记”,是生活在阿姆斯特丹的Nadish和在旧金山生活的Shirley,因为要共同在12月份完成属于各自的一篇音乐可视化的小项目。他们各自用了4周完成创作,并写了下了两篇”创作笔记”。 从一开始确定各自的选题,到收集数据完成阶段性效果草图,再到最终实现代码完成验证,他们经历了一些趣事,我们从中既可以看到音乐可视化模型的新视角,也希望为大家在寒冬
大数据文摘
2018/05/24
1.4K0
《增长黑客》节选与笔记[通俗易懂]
这本书涉及了很多具体又贴合现实的互联网产品问题,即使你是非专业人士,也应该读一读,了解开发者是如何把你当猫耍的,以便你更好地认识一些套路,解锁,为选择手机软件或者云端应用擦亮眼睛!
全栈程序员站长
2022/08/27
8K0
电脑史话(说历史视频)
从1980年8月到1981年8月,在整整一年的时间里,埃斯特奇领导着“国际象棋”工程计划13人小组奋力攻关。“当时很少有人体会到,这一小组人即将改写全世界的历史。”(英特尔华裔副总裁虞有澄语)据说,IBM公司后来围绕PC机的各项开发,投入的力量逐步达到450人,英特尔公司也组成“特殊客户部”为PC机供应高质量的芯片。   根据协定,微软公司应该为PC机提供包括BASIC在内的系列电脑语言软件。然而,未来的PC电脑,最需要的软件是操作系统,于是,比尔·盖茨把IBM的代表介绍给了另一家以研制CP/M操作系统软件闻名的DR数字研究公司。   接下来发生的事情又出现了戏剧性情节,CP/M操作系统软件的设计者基多尔恰好不在家,而他的太太又不愿在保密协定上签字画押,千载难逢的机遇与DR公司失之交臂。   IBM的代表只得掉转头来,仍请微软公司帮助解决操作系统的问题。比尔·盖茨急中生智,想起了西雅图电脑公司的软件天才帕特森(T.Paterson),此人早就为英特尔的16位芯片编写了一个QDOS软件,正好可以充当PC机的操作系统。QDOS即“快而粗糙的操作系统”,微软公司以低价购买到这款软件的版权,只是当时帕特森这位“DOC之父”并不知晓内情。   1980年感恩节刚过,“国际象棋”工程小组把IBM公司的最高机密──两台PC电脑的样机,从迈阿密空运到西雅图。同样在高度保密的条件下,比尔·盖茨率领着微软公司的软件小组开始为PC电脑编写程序。他们的任务除了需要赶写BASIC、COBOL、FORTRAN和PASCAL四种电脑语言的4万个程序代码,还要把QDOS改造成适合PC机使用的MS-DOS操作系统。从此,微软和IBM公司两个小组的技术人员,不断地乘飞机来来往往,飞越美国距离最远的两个城市,相互交换信息。微软的工程师还必须把自己关在密不透风的房间里,满头大汗地日夜加班。比尔·盖茨大量招聘编程高手,使参加PC机软件工程的人员增加到了70人。直到1981年6月,帕特森也加盟微软公司,并立即参加到MS-DOS的开发之中,经过反复修改和调试,终于完成了这件影响深远的著名软件。   一年的时间转瞬而至。1981年8月12日,IBM公司在纽约市对外宣布:IBM PC机横空出世,昭示着人类社会跨进了个人电脑的新时代。应该说,这是由英特尔公司提供微处理器芯片、微软公司编写软件、IBM公司主要设计电脑系统的共同作品。   IBM PC机最重要的特点在于它的开放性。埃斯特奇代表设计部门宣布,他们将把所有的技术文件全部公开,热诚欢迎同行加入个人电脑的发展行列。于是乎,全世界各地的电子电脑厂商一轰而上,争相转产仿造PC机,仿造出来的产品就是IBM PC兼容机。不久,IBM PC机就成为个人电脑“事实上的标准”。   为了推广这种供个人使用的电脑,IBM公司巧妙地借助卓别林式的小流浪汉形象,头戴园顶高帽,身着灯笼裤,滑稽可爱地在电视上频频露脸,手里舞动着个人电脑,表示人人都能够使用。《华尔街日报》评论说:IBM大踏步地进入微型电脑市场,蓝色巨人可望在两年内夺得这一新兴市场的领导权。果然,就在1982年内,IBM PC机卖出了25万台,以每月2万台的速度迅速接近了“苹果”。1983年5月8日,IBM公司推出改进型IBM PC/XT个人电脑,增加了硬盘装置,当年就使市场占有率超过76%。1984年8月14日,IBM公司趁胜又把一种“先进技术”的IBM PC/AT机投向用户的怀抱。AT机采用英特尔公司后来发展的80286微处理器芯片,能管理多达16M的内存,并可以同时执行多个任务。从此,个人电脑开始了所谓286、386、486……的接力赛跑。   1982年,美国著名的《时代》周刊在介绍本年度“新闻人物”时曾满怀激情地写到:“在一年的新闻里,这个最吸引人的话题,它代表着一种进程,一种持续发展并被广泛接受和欢迎的进程。这就是为什么《时代》在风云激荡的当今世界中选择了这么一位新闻人物,但这完全不是一个人物,而是一台机器。”   这个史无前例的“新闻人物”,就是个人电脑IBM PC机。
全栈程序员站长
2022/07/31
3.4K0
Python简单验证文本的Zipf分布
齐普夫定律是语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。实际上,包括汉语在内的许多国家的语言都有这种特点。这个定律后来在很多领域得到了同样的验证,例如著名的28定律。
周小董
2019/03/25
3.2K0
Python简单验证文本的Zipf分布
《纽约客》:还原真实的扎克伯格
本文作者欧逸文(Evan Osnos)是《纽约客》驻华记者,曾获得2008年普利策奖。文章由公众号“新闻别动队”韩巍翻译。
AI科技大本营
2018/10/22
1.5K0
盘点python工具包并优化pip下载加速
开源地址:https://github.com/wolfbolin/BiliUtil 安装命令:pip install BiliUtil
全栈程序员站长
2022/09/15
5.7K0
盘点python工具包并优化pip下载加速
图片验证码训练
1.项目git地址 https://github.com/kerlomz/captcha_trainer 2.安装模块 pip install -r requirements.txt 3.创建项目 python make_dataset.py img_test #这时候会报错 4.添加配置文件 cd projects/img_test/ 上传下面的配置文件 # - requirement.txt - GPU: tensorflow-gpu, CPU: tensorflow # - If you use
小小咸鱼YwY
2021/05/24
4.8K0
如何制作离线tts?「建议收藏」
tts->把文字转化为语音。 先把中文转化为拼音。 这个主要依靠1个字典,能把汉字和读音对应。 下面提供字典:
全栈程序员站长
2022/06/24
3.5K0
支持二级汉字的 php 汉字助记码生成
gbk2312 编码范围共94区, 0-55区为一级汉字, 是按照拼音顺序排列的, 可以按照编码区间确定汉字的拼音, 但是 56 区以后是按笔画顺序排列的, 所以只能用对照表来确定拼音 鉴于目前我找不到现成的代码, 固整理了一份, 测试可用.
全栈程序员站长
2022/06/24
4.4K0
自动根据汉字生成拼音_拼音分类表
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/170079.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/22
8.6K0
如何做职业规划并进行求职准备(持续更新)「建议收藏」
总结:就现在情况,大学我不考研,安心求职 考研=我要“它”+我现在就要 我不要“它”:测试是个实践性很强的工作,测试招聘学士学位占比低,研究型的测试研究生学历比起小本并不能带来太大优势 我现在不要:不可否认,学历可以突破职业瓶颈,所以我要考研,但是是在很多年以后,而不是现在。(等以后进入管理阶层,有了丰富的经验,考取工商管理MBA,得到的相关的文凭技能人脉会更加有价值)
全栈程序员站长
2022/11/01
3.3K0
如何做职业规划并进行求职准备(持续更新)「建议收藏」
[PHP] 2018年终总结
========================================================================== 2018年12月29日 记录:
唯一Chat
2019/09/10
2.8K0
推荐阅读
相关推荐
我们分析了400位歌手的歌词,发现了华语音乐的秘密
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档