数极客首页

我做了六百万字的歌词分析,告诉你中国Rapper都在唱些啥

文/ 猫弟Azz

原发自《摩登天空杂志》公众号

“你有freestyle吗”火遍全网之后,一个个你历来
没听过的?rapper?像加拿大土拨鼠播报春天一样冒出洞口——你忽然

觉得
到,妈的,HipHop还真要成主流了?我努力努力改天还靠这个吃饭吗?

然后,你作为一个对HipHop,特别
是中国HipHop毫无了解

的吃瓜大众

,你自然会猎奇
以下三个问题:

HipHop到底在唱些什么?

各个国度
和地域
的 Rapper 们想要说的聊的唱的都有哪些特征

假定

想当一个Rapper,我应该怎样写词才干
紧跟潮流又不会切题
太远?

所以我用?Python?抓取了美国、英国、台湾、香港、中国大陆四个地域
,总共六千万的歌词,其中包括大陆600万的歌词,做了一些数据剖析

的工作,目的就是给你想要的答案。

我的数据源选了虾米音乐,由于
虾米有细致
的嘻哈音乐分类,其它的如网易云音乐、QQ、Spotify、iTunes、StreetVoice,要么欠缺对歌手音乐作风
的分类,要么分类粗糙,没法当做数据源。

选定虾米音乐之后,写了好一会代码,抓取歌词的爬虫开端
蹭蹭工作了

爬虫普通
会面对两个问题——

1.代理问题

频繁地抓取网站的页面,IP?很容易被封。于是写了个抓免费代理的爬虫,抓了八百多个代理?IP,够用了。

2.效率问题

10万首歌,即便

是1秒一个央求

,那得27个小时,我可等不了27个小时。

于是我决议
开10个线程,三小时程序就能跑完。

……

然后在三小时之后,我收获一个约100M,49419首歌的数据库。

看着这满满的记载
,感遭到
蜜蜂勤劳
搬运后看着蜂蜜的喜悦,我置信
关于HipHop歌词的秘密

全部都包含在里边了。

接下来,就是一些数据清洗、处置
、剖析

的工作。

虾米的歌词都是用户编辑上传的,格式不适用数据剖析

,所以我得把无用的符号、编曲、作词之类的信息除去(格式统一有多么重要啊朋友们),然后中英文各自分词。英文需求
去停词(对数据剖析

无用的词,普通
没有理论

含义,如?is、on、at、which),大小写变换,以及词形变换。英语中词汇有单复数、各种时态,为了易于剖析

,需求
恢复

为词干。另外不论

是中文还是英文都需求
词性标注,普通
来说剖析

也就剖析

名词和形容词,这些现成的开源库运用
(此处省去1000万字)。

总之,我都搞定了,以下就是剖析

结果。我们先看看大陆地域
rapper 歌词里有都写啥关键词

“世界”“时间”占领
首位,“老子”、“兄弟”、“baby”、“money”、“BItch”、“real”?等词倒是让?rapper?的形象呼之欲出。rapper?的词里频繁提到“音乐”、“歌词”、“旋律”、“歌曲”,可见他们对自己

的音乐十分

在乎。嘻哈音乐由于有?freestyle?的文化,对亲身
写词有央求

,否则就不 “ real ” ,从节目中他们对偶像?rapper?的?diss?也能看出来。

接着,我们来看看与其他几个地域
的关键词对比

 

看起来?rapper?的生活差不多,无论大陆还是台湾,都喜欢喊?“baby”,身边都有一群“兄弟”“朋友”,有“幻想

,平常
都在唱?“hip hop”?,有“懊恼

了就骂骂街。

亮点是美国的关键字?top1?是?“nigga”,这个和带有种族歧视意味的?“nigger”?还不是一个词。关于这个Tupac?有过一个有意义
的定义。

igger : a black man with a slavery chain around his neck.?

igga : a black man with a gold chain on his neck.

接下来,为了了解

?rapper?的生活状况

,我开端
剖析

一些常见词汇在歌词中呈现
的频率。饶舌歌手们的生活想必少不了豪车,出门骑摩拜可能有被开除?rap?籍的风险。

感激

维基提供汽车品牌页面,并且很贴心的分了英语称号
、中国大陆译名,于是我又写了个爬虫把品牌称号
抓下来,然后统计数据库中每个品牌呈现
的频率。

这是各汽车品牌在国内16284首嘻哈歌曲中呈现
的状况

,在一首歌的歌词中呈现
算一次,总共约有400多首歌中呈现
至少一次汽车的品牌名字。能够

看出,饶舌歌手喜欢宝马和飞驰

的很多,特性
只需

一个,就是贵!其实夏利、桑塔纳等车也有不少歌提到,但普通
表达的是消极心情

然后我又统计了一下?rapper?们都喝什么

*红色是国内饶舌歌手的数据,黄色是总数据

看来饶舌歌手不那么喜欢喝威士忌,排在威士忌前面的还分别有龙舌兰、白兰地、朗姆酒,限于图表大小我没将这几个列入图表。香槟作为富有的意味
,遥遥抢先
,不过国内的饶舌歌手似乎处于消费尚未升级

的水平

,啤酒排在首位。外国人比较

喜欢金酒,国内的饶舌歌手简直

没提到,固然
金酒普通
用来调鸡尾酒,但是鸡尾酒提到的次数也是少得不幸

绝对伏特加在《中国有嘻哈》做广告的确

是找对中央
了,rapper?们对伏特加有高于常人的偏好。

所以?rapper?们都怎样
喝金酒?我看了看歌词。

“Sippin’ gin and juice Layin’ underneath the palm trees”,gin&juice?是最常见的组合,由于著名?rapper? Snoop Dogg?发过同名单曲,rapper?们特别喜欢。

“Think we a joke? I’ll put three in your throat

Drunk off gin and C&C; coke then we flee in a boat”金酒兑可乐,听起来不错。

“Rolling weed in raw papers, taking shots, gin got me faded

If I get back to your spot, won’ know how I made it”,一边飞叶子一边喝金酒!

“Havin’ fun with some BItches smokin’ weed in the ride

On the corner with my dogs drinkin’ gin to survive”,这个?rapper?跟一个狗喝?gin,看来故事很多。

“Swimmin’ under water like I’m aquaman

I used to drink gin now it’s vodka man”,这个?rapper?喝腻了,从金酒转到伏特加阵营……

然后,我们来看一下管制药物的状况

 

果真
大家还是喜欢叶子,不只是饶舌歌手啦。

饶舌歌手喜欢相互

?diss,所以他们?diss?时会骂些啥?让我们来看看他们都骂了什么脏话。

这个统计有个小插曲,第一次统计发现一个中文脏话都没有,还以为净网运动胜利

了,结果发现分词的词库里压根就没脏话的词汇,重新手动参与

词库后就好了。

(左边是一切
数据的呈现
次数,右边是大陆说唱的呈现
次数)

大陆16284首歌有2496首呈现
脏话,脏话率约为15%,而非大陆的数据中,33134首歌有13217首呈现
脏话,脏话率约为40%。

总的来看,我国歌手比较

契合
社会主义中心
价值观。我试着把?“damn”?和?“shit”?这两个不那么“脏”并且口语常见的词在国外的统计中去掉,最终
脏话率还有33%,比例远远高于大陆。
一个推测

是,英文脏话词汇在歌词中更容易押韵,或者唱起来?flow?更好把握。另一个可能是检查
缘由
,早有 “in3” 这样的乐队英文歌词缘由
被禁,国内的?rapper?创作起来可不能太豪迈

最终
我们来讨论
一下?rap?里的押韵。

在《中国有嘻哈》中我们看到有单押、双押、三押,各种层出不穷的押韵。旋律、押韵、节拍
是说唱歌曲三个很重要的评判规范

,一个好的押韵,能让歌曲的?flow?愈加
流利

那么我们怎样
才干
唱出酷酷的押韵呢?我从歌词库中取出一切
歌词,分词,然后依据

韵母、声调

分类,然后得到了一个押韵词汇文件。

韵脚的散布

挺有趣的,我统计了一下呈现
前十的两字词语韵脚

能够

看出,i i?这个韵脚是最容易押韵的。下图的这个韵脚的部分

词汇。“势利”,“世纪”,“日志”,“秘密

”……

看着这些词汇,我就情不自禁?rap?起来了,drop the beat

双押x9 达成!

以上应该能通知
你中国到底有什么样的嘻哈了。

歌词剖析

暂时到此为止,其实还有更多的工作能够

做,例如统计歌手的词汇量,国外的?Ma Daniels?统计了饶舌歌手的词汇量(点击阅读原文查看),跟莎士比亚的词汇量做对照。

发表评论

评论已关闭。

相关文章