前一段韶光剖析民谣歌词的那边文章特殊火,刚好在研究利用python处理数据,就也想弄个类似东西练练手。
于是乎,拉上自己亲妹妹 @张小黑 就开始分工。

一、准备歌词素材

歌词选择:杰伦至今的所有专辑(从最开始的

我分析了 65W 字的歌词看到了这样的周杰伦 休闲娱乐

由于爬虫木有学会,就只好手动网络歌词。
经由一系列的 google、baidu,终于找到别人整理好的歌词全集。
ok,就这样歌词文件搞定了,一共也没多大,也就207K(想想周董这么多年唱的歌词大半都在这207K的txt文件里就不免有些感慨)。

二、对歌词文件完身分词

这是最难的部分,产品汪只会跟程序猿们相爱相杀,哪会写代码呀!


没办法,硬着头皮也要写。
网上goolge各种关键字,看博客,花了半天的韶光,连蒙带猜,勉勉强强看懂了网上的代码示例,比着葫芦画瓢写了一点点写。

千难万险,终于写完调通,终极紧张的部分一共也就12行,没有任何注释(切实其实托钵人版代码,根本看不出来哪里sexy ~~~~(>_

三、对分词的结果进行剖析

好,我们终于到了正文,以上都是废话,下边才是主要结论。
(如果以这种办法写邮件一定会被老板打去世 ♪(^∇^) )

结论一:杰伦最喜好的唱的主题 --- 情歌 (我自己也知道这是废话 O(∩_∩)O)

拉了下涌现频率 top20 的词语,满满的都是文艺、伤感、爱情 :

我们 / 怎么 / 没有 / 微笑 / 离开 / 爱情 / 回顾 / 不要 / 开始 / 如果 / 怎么 / 开始

我擦,觉得随机排列组合都能成歌词,方文山往后是不是就可以下岗了 ♪(^∇^)

结论二:杰伦喜好妈妈赛过爸爸,喜好外婆赛过爷爷以及外公(歌词中没有涌现奶奶)

大家该当都听过。

杰伦专门为外婆写了一首歌,个中也就1句歌词提到了外公。

至于爷爷,杰伦也有那首

结论三:杰伦喜好玄色、白色赛过其他颜色

很符合周董的形象,歌词里高大上的玄色&白色力压其他颜色。
看到黑白两色频率这么高,我第一韶光想到的是,觉得很符合那个气质。
还有便是青色涌现了6次,大概率是由于吧。

结论四:杰伦最喜好的语气词是 oh~

毋庸置疑,杰伦最喜好 oh~ ,打消大小写的成分,[oh] 涌现的频率乃至超过 [我们] 成为涌现词频最高的词汇。
此外杰伦经典的 \"大众哎呦不错哦~\"大众 中的 [哎呦] 也名列前茅,看来杰伦真的很喜好讲这句话。

总结:只是从歌词来看,大概杰伦便是一个穿着黑白帽衫,表面上酷酷的,但是骨子里满是深情、文艺, 只喜好喝爷爷泡的茶,听妈妈的话,爱自己外婆的 ,嘴里时时时地冒出一句‘哎呦,不错哦’ 的 五好青年 ^_^

注:以上内容纯属胡说八道,如有雷同,纯属巧合。

另,头图不是 python 天生,是利用一个国外的网站(wordart)天生的。
文章中利用的分词代码、歌词文本、头图已通过有道云条记分享(文章末端有链接),内容如下:

有道云条记链接:http://t.cn/RaICFIV

TensorFlow & 神经网络算法高等运用班” 要开课啦!

从低级到高等,理论 + 实战,一站式深度理解 TensorFlow!

本课程面向深度学习开拓者,讲授如何利用 TensorFlow 办理图像识别、文本分析等详细问题。
课程跨度为 10 周,将从 TensorFlow 的事理与根本实战技巧开始,一步步教授学员如何在 TensorFlow 上搭建 CNN、自编码、RNN、GAN 等模型,并终极节制一整套基于 TensorFlow 做深度学习开拓的专业技能。

两名授课老师佟达、白发川身为 ThoughtWorks 的资深技能专家,具有丰富的大数据平台搭建、深度学习系统开拓项目履历。

韶光:每周二、四晚 20:00-21:00

开课时长:总学时 20 小时,分 10 周完成,每周 2 次,每次 1 小时

线上授课地址:http://www.mooc.ai/

雷锋网("大众年夜众号:雷锋网)干系阅读:

不再收费!
MapD数据库开源,过来人指示如何上手

你和真正的数据科学究竟差在哪里