虎嗅注:前有民谣歌词剖析,现有Rapper歌词剖析。
这么提及来,机器基本都可以通过几十万、几百万字歌词剖析或曲库剖析,来节制人类艺术创作的套路了。
AI Diss你人类那一天还远吗兄弟!

本文转载自公众号摩登天空杂志(ModernskyMag),作者:猫弟Azz。

我用Python做了六百万字的歌词分析告诉你中国Rapper都在唱些啥 休闲娱乐

《中国有嘻哈》火了,作为一名对中国HipHop毫无理解的吃瓜群众,我开始好奇以下三个问题:

HipHop到底在唱些什么?各个国家和地区的 Rapper 们想要说的唱的都有哪些特色?如果想当一个Rapper,我该当若何写词才能紧跟潮流又不会离题太远?

为理解答这个疑问,我用Python抓取了美英、台湾、喷鼻香港、中国大陆四个地区,统共六千万的歌词,个中包括大陆600万的歌词,做了一些数据剖析的事情,目的便是给我以及像我一样的吃瓜群众们一个有理有据的答案。

我的数据源选了X米音乐,写了好一会代码,抓取歌词的爬虫开始蹭蹭事情了⇣

爬虫一样平常会面对两个问题——

1.代理问题

频繁地抓取网站的页面,IP很随意马虎被封。
于是写了个抓免费代理的爬虫,抓了八百多个代理IP,够用了。

2.效率问题

10万首歌,纵然是1秒一个要求,那得27个小时,我可等不了27个小时。

于是我决定开10个线程,三小时程序就能跑完。

……

然后在三小时之后,我收成一个约100M,49419首歌的数据库。

接下来,便是一些数据洗濯、处理、剖析的事情。

虾米的歌词都是用户编辑上传的,格式不适用数据剖析,以是我得把无用的符号、编曲、作词之类的信息撤除(格式统一有多么主要啊朋友们),然后中英文各自分词。
英文须要去停词(对数据剖析无用的词,一样平常没有实际含义,如is、on、at、which),大小写变换,以及词形变换。
英语中词汇有单复数、各种时态,为了易于剖析,须要还原为词干。
其余不管是中文还是英文都须要词性标注,一样平常来说剖析也就剖析名词和形容词,这些现成的开源库利用(此处省去1000万字)。

总之,我都搞定了,以下便是剖析结果。
我们先看看大陆地区的rapper歌词里有都写啥关键词⇣

“天下”和“韶光”霸占首位,“老子”、“兄弟”、“baby”、“money”、“bitch”、“real”等词倒是让rapper的形象呼之欲出。
rapper的词里频繁提到“音乐”、“歌词”、“旋律”、“歌曲”,可见他们对自己的音乐非常在乎。
嘻哈音乐由于有freestyle的文化,对亲自写词有哀求,否则就不“ real ”,从节目中他们对偶像rapper的diss也能看出来。

接着,我们来看看与其他几个地区的关键词比拟↓

看起来rapper的生活差不多,无论大陆还是台湾,都喜好喊“baby”,身边都有一群“兄弟”和“朋友”,有“梦想”,平时都在唱“hip hop”,有“烦恼”了就骂骂街。

亮点是美国的关键字top1是“nigga”,这个和带有种族歧视意味的“nigger”还不是一个词。
关于这个Tupac有过一个故意思的定义。

nigger : a black man with a slavery chain around his neck.(黑奴)

nigga : a black man with a gold chain on his neck.(金链黑男人)

接下来,为了理解rapper的生活状况,我开始剖析一些常见词汇在歌词中涌现的频率。
饶舌歌手们的生活想必少不了豪车,出门骑摩拜可能有被开除rap籍的风险。

感谢维基供应汽车品牌页面,并且很知心的分了英语名称、中国大陆译名,于是我又写了个爬虫把品牌名称抓下来,然后统计数据库中每个品牌涌现的频率。

这是各汽车品牌在海内16284首嘻哈歌曲中涌现的情形,在一首歌的歌词中涌现算一次,统共约有400多首歌中涌现至少一次汽车的品牌名字。
可以看出,饶舌歌手喜好宝马和奔驰的很多,特点只有一个,便是贵!
实在夏利、桑塔纳等车也有不少歌提到,但一样平常表达的是悲观感情。

然后我又统计了一下rapper们都喝什么⇣

赤色是海内饶舌歌手的数据,黄色是总数据

看来饶舌歌手不那么喜好喝威士忌,排在威士忌前面的还分别有龙舌兰、白兰地、朗姆酒,限于图表大个人没将这几个列入图表。
喷鼻香槟作为富有的象征,遥遥领先,不过海内的饶舌歌手彷佛处于消费尚未升级的水平,啤酒排在首位。
外国人比较喜好金酒,海内的饶舌歌手险些没提到,虽然金酒一样平常用来调鸡尾酒,但是鸡尾酒提到的次数也是少得可怜。

饶舌歌手喜好相互diss(怼),以是他们diss时会骂些啥?让我们来看看他们都骂了什么脏话。

这个统计有个小插曲,第一次统计创造一个中文脏话都没有,还以为净网运动成功了,结果创造分词的词库里压根就没脏话的词汇,重新手动加入词库后就好了。

(左边是所有数据的涌现次数,右边是大陆说唱的涌现次数)

大陆16284首歌有2496首涌现脏话,脏话率约为15%,而非大陆的数据中,33134首歌有13217首涌现脏话,脏话率约为40%。

总的来看,我国歌手比较符合社会主义核心代价不雅观。
我试着把“damn”和“shit”这两个不那么“脏”并且口语常见的词在国外的统计中去掉,末了脏话率还有33%,比例远远高于大陆。
一个推测是,英文脏话词汇在歌词中更随意马虎押韵,或者唱起来flow更好把握。
另一个可能是审查缘故原由,早有“in3”这样的乐队由于歌词缘故原由被禁,海内的rapper创作起来可不能太旷达。

末了我们来磋商一下rap里的押韵。

在《中国有嘻哈》中我们看到有单押、双押、三押,各种层出不穷的押韵。
旋律、押韵、节奏是说唱歌曲三个很主要的评判标准,一个好的押韵,能让歌曲的flow更加流畅。

那么我们怎么才能唱出酷酷的押韵呢?我从歌词库中取出所有歌词,分词,然后根据韵母、音调分类,然后得到了一个押韵词汇文件。

韵脚的分布挺有趣的,我统计了一下涌现前十的两字词语韵脚⇣

可以看出,i i这个韵脚是最随意马虎押韵的。
下图的这个韵脚的部分词汇。
“势利”,“世纪”,“日志”,“秘密”……

看着这些词汇,我就情不自禁rap起来了,drop the beat!

双押x9 达成!

以上该当能见告你中国到底有什么样的嘻哈了。