看了一个Beyond的纪录片, 提到“唏嘘”是他们的歌词中出现最多的词. 觉得心有不甘, 于是搜集了下面24首歌词, 用Python做了简单分词和词频统计.
Amani 遥望 不再犹豫 午夜怨曲 灰色轨迹 旧日的足迹农民 长城 不可一世 可否冲破 逝去日子 谁伴我闯荡大地 冷雨夜 光辉岁月 岁月无声 无悔这一生 为了你,为了我情人 喜欢你 再见理想 海阔天空 无泪的遗憾
统计了单个词语在所有歌词中总出现次数, 以及某个词出现在了几首歌中。
Python源码如下,使用了结巴分词:
使用中文命名的Python简单脚本,计算Beyond歌词中的词频排序
前者的最高频几个中文词(完整的在"所有词频输出.txt"):
('多少', 22), ('一生', 21), ('多么', 20), ('理想', 19), ('没有', 19), ('一天', 19), ('Woo', 18), ('今天', 18), ('心中', 16), ('一起', 16), ('OH', 16), ('唏嘘', 15), ('彼此', 14)
“理想”出现了19次,“唏嘘”出现了15次。
后者的前几位(完整的在"所在文件数.txt"):
('多少', 9), ('心中', 8), ('没有', 8), ('一切', 8), ('理想', 7), ('Woo', 7), ('一生', 7), ('今天', 7), ('唏嘘', 6), ('拥有', 6), ('可否', 5), ('多么', 5), ('风雨', 5), ('感觉', 5), ('天空', 5), ('心里', 5), ('岁月', 5)
“理想”出现在了7首歌中,“唏嘘”出现在了6首中。
至少这几首经典里, "理想"比"唏嘘"更多.
这应该是Beyond希望的吧。
更多中文编程推广过程内情,请关注“用中文编程”微信公众号。
领取专属 10元无门槛券
私享最新 技术干货