他一贯在谷歌做数据科学家,所谓的数据科学家,便是专门研究数据的,并且这些数据能带给我们很多启迪。他创造原来人的真实想法,是可以通过谷歌搜索、通过大数据打算出来的,他写这本书,便是为了让我们通过大数据理解一个更真实的天下。
作者曾经做过很多次研究,创造我们的天下充满了无数的谎话,人类或出于善意或出于恶意,无时无刻不在说谎。如你买的书真的看完了吗?你朋友的酒量真的如他所说的那么好吗等等,很多问题依赖传统的统计调研方法得出的结论,很多都是缺点的,误导了我们的认知。
但是人们每每在一个地方放下戒备、吐露心声,那便是互联网。每一次搜索、点击、勾留、关闭……在线天生了大量的数据,暴露着每个人的真实想法、希望、恐怖和职业,而海量的数据形成的真实而弘大的数据宝库会总结出意想不到的结论和趋势。
在本书中,作者从一个个备受关注的话题切入,用他独特的数据剖析方法得出了很多颠覆认知的结论,个中包括:为什么说大家都在说谎?大数据是若何戳穿人们的谎话的?如何合理利用大数据以及大数据给我们带来的启迪……
(图片来自网络)
大数据暴露人们真实的想法我们在网上把各种搜索引擎打开之后会创造,人们可能会去偷偷搜索一些东西,这些搜索关键词会暴露他们内心的真实想法,这些搜索行为,包括关键词、韶光、地点,乃至于某个人的搜索的,什么韶光搜索的,前后有什么关联,大概我们不知道,但谷歌全部知道。
谷歌是一个很伟大的搜索引擎,它与百度最大的差异在于它不会买关键词,谷歌的数据会保留很多年,大概有人会因此担心涉及隐私问题,不过,谷歌不会公布详细是谁搜索了什么,它只会公布是“某个人”搜索了什么,这就不涉及隐私问题了。
实质上来说,谷歌搜索只是一种调查办法。这本书的核心,便是表达人的说法和想法有时候是不一样的。
比如你要做个关于美国公民性生活的频率的调查,虽然这个调查完备匿名的,但我们也可以想象,人们面对这个问题尤其是美国人面对这个问题时,他们是会说谎的。
单就异性恋而言,美国女性表示她们均匀每年的性生活次数是55次,个中16%的情形利用了避孕套,按照这个数据打算,每年她们会利用11亿个避孕套。接着调查男性,你会创造这个数据令人感到奇怪,男性每年一共会利用16亿个避孕套。
按理来说,男女利用避孕套的两个数据该当相同,但是数据显示女性是11亿个,男性是16亿个,中间相差了5亿。
结论便是双方都没有说实话。
赛思利用谷歌的搜索数据创造了更深层次的原形。根据谷歌的记录,“无性婚姻”的搜索量比“不幸婚姻”要高3.5倍,比“无爱婚姻”要高8倍。
由此可见,人们对付婚姻最大的抱怨,是结了婚之后就没有性生活了。无性婚姻是更为严厉的问题,它超出了人们的想象,由于这种事情不能公开对外说,以是人们就默默地去网上搜索这个话题,当人们搜索的时候,也就把自己的一些真实想法暴露了出来。
种族歧视的原形美国是个歧视非常严重的国家。
2008年奥巴马当选总统投票的前夜,民调显示他有很大的领先上风,当时有美国学者担心选民很可能说和做法不一,末了的结果是奥巴马高票当选。虽然没有如学者担心的那样,但实在歧视的风在那一次已经吹过来了。
赛思通过进行大数据运算,创造就全国总数而论,奥巴马由于种族歧视少拿了4%的选票,由此我们可以看出美国的种族歧视是很严重的,只管我们到街上去问任何一个人,对方都会回答说自己没有种族歧视,以为大家平等。
关于种族歧视,一贯存在两个刻板印象:一个因此为民主党人的思想比较进步,会鲜少存在种族歧视,共和党人的思想比较守旧,会更加存在种族歧视;另一个因此为南北方开放程度不一样,北方比较开放,南方比较守旧,南方一定会存在种族歧视。
特殊故意思的是,赛思通过对谷歌的数据判断,创造两个刻板印象都是缺点的。大数据完备冲破了我们对这件事情的认定,实在真正划分种族歧视的根本不是政党,也不是南北方,而是东西部。美国东部的几个州是极其守旧的,它们不仅守旧,而且还有非常严重的种族歧视思想,而西部像加州这一带的人们,是没什么种族歧视思想的,由于加州大多数都是移民。
东西部有一些人,他们可能是民主党人,住在很发达的波士顿,经济条件与受教诲条件都很不错,也代表着很前辈的文化与生产力,只管他们内心深处一定是种族主义者,但平时他们隐蔽得非常深,直到投选票的时候,他们才偷偷地投代表种族歧视的票。
一个人内心的歧视我们是可以从搜索上看出来的,乃至可以让人直接形成偏见思想。如今天晚上有一场总统辩论赛,我们会创造一个特殊故意思的规律,人们会在网上进行搜索,并且他们支持谁就会把谁的名字放在前面。
大数据的存在,让人在伪装中寸步难行。换句话说,大数据完完备全冲破了人们对这个天下的伪装,有时候大数据比我们自己还要理解自己。
大数据带给我们的帮助当我们开始理解自己的时候,肯定会带来好处的,比我们更懂自己的是大数据。
有一种病叫胰腺癌,它不是一种非常常见的癌症,但是却相称危险。如果一个人被确诊患了胰腺癌,他的存活率大概只有3%,如果是确诊长达5年的,存活率会更低。如果我们能提前创造胰腺癌的病症迹象,并且尽早去干预它,很可能就会救人一命,只是我们很多人并不理解自己。
作者是怎么研究的呢,首先他先锁定网上搜索中的这样一个问题,便是“我被诊断出患了胰腺癌,我该怎么办?”当你搜索“我被诊断出胰腺癌,我该怎么办”的时候,这些人很可能真的得了胰腺癌。
他再研究这些人,看他们最近在网上搜索了什么与“康健”干系的症状,研究者创造了两组非常独特的症状:第一组便是背痛,皮肤变黄;第二组是消化不良,而且腹痛。纯挚的背痛和消化不良,并不能代表一个人得了胰腺癌,但如果患者的皮肤已经开始变黄,并且伴随有腹痛症状,那么他很可能是胰腺癌的前期,当一个人的这些症状被确定,他患病的可能性就会增大。
当你创造这些症状一旦涌如今某个人面前时,你可以关照他,这样就可以提前锁定5%-15%的胰腺癌患者,虽然这个比例不高,但是却可以救助很多人。
这是大数据供应给我们的帮助,也是谷歌供应给我们的帮助。接下来我们谈谈烦闷症。
我们知道烦闷症这种生理病症,但你知道治疗烦闷症很特殊的一种办法是什么吗?是良好的景象环境,好天气可以使民气境愉快。
谷歌数据显示住在夏威夷的人搜索烦闷症的比率比芝加哥这样寒冷地区的人低了40%,要知道,哪怕最好的抗烦闷药物,也只能让烦闷症的发病率减少20%。如此说来,如果冬天开始得烦闷症了,最好的治疗办法并不是吃药,而是搬家,大数据见告我们,治疗烦闷症,搬家的治疗效果大约是吃药的两倍。
这些大数据带给我们的启示,某种程度来说是冲破我们三不雅观的。有时候并不是我们想说谎,乃至也不是我们要故意说谎,而是我们压根不理解我们自己,有时候我以为自己在讲真话,实在我们说的全是谎话。
那些反直觉的事情假设你有两个潜在的结婚工具:第一个和你有很多共同好友,第二个是圈外人,和你没什么共同好友。叨教你要坚持长久的关系你该当选择和谁结婚呢?
就我们的直觉而言的话,肯定认为该当选第一个人,由于你和她有共同好友,也就会有更多共同话题、共同点同,相处起来也就会更融洽,但如果你结过婚,大概你就不这么认为了。
研究者利用Facebook的数据做了剖析,他们将目光锁定在那些是夫妻或者男女朋友关系的人身上,不雅观察他们的朋友圈有多少重合之处,结果创造,朋友圈重合度越高的夫妻或者男女朋友,越有可能在一定韶光之后走向分离。也便是说最持久的关系是相互之间的朋友圈没有牵扯,否则两个人分离的概率是非常高的。
大数据可能不能见告我们详细是为什么,但它能见告我们一个结论,便是让人们只管即便少跟自己伴侣的朋友走得太近。当然,这个结论也不是绝对的,我们本日评论辩论的是大数据,大数据算的便是一个大概率,而不是一个个体,这里所磋商的东西都是一种趋势而并非个体。由此可见,很多时候我们以为的那些所谓精确直觉,到后来竟然都是错的。
赛思自己也有一个非常反直觉的新创造。
NBA球星有很多来自穷苦家庭,也有很多来自单亲家庭的,那么,你认为是单亲穷苦家庭更随意马虎产生球星,还是双亲中产家庭或者贵族家庭更随意马虎产生球星呢?
赛思负责稽核了每个球员的出生地,不雅观察他们出生地的贫富程度,接着,他尽可能去追溯每个球员的家族历史,他乃至还通过球员的名字来判断他是不是单亲家族,有一个很奇怪的规律,单亲妈妈特殊喜好给孩子取很奇怪的名字,而双亲家庭父母给孩子取的名字则比较正常。终极,数据给出的答案是父母双全的中产家庭球员更随意马虎取得好成绩,这是很颠覆人们的直觉的。
之以是父母双全的中产家庭球员会取得更好的成绩,缘故原由有两个:第一,中产阶级家庭的孩子从小营养比较均衡,个子长得更高,打篮球就相对会更好一些;第二是拥有这样条件的孩子,从小爸爸妈妈都陪在身边,他的社交能力会比较强,打篮球很主要的一点便是社交能力,你要去和教练谈天,和队友积极合营,这两种本色在全体篮球场上都是非常主要的。
由此看来,大概我们以为大数据让人很绝望,但你要把稳个体从来没有被大数据限定,个体从来没有变革,它只是比例会低落而已,我们千万别让自己活成大数据,而是要让自己活成一个超级个体。
大数据给我们的启迪
(1)关于恋爱
书里有数据讲到了我们该怎么去谈恋爱。
有一对青年男女,他们正处在确定恋爱关系之前的一种很奇妙的暧昧状态,你有什么办法能预测到他们关系的走向吗?
一样平常而言,我们可能会根据身高、性情这样的硬性指标,或者稽核双方互动的表情动作来判断,有一个新研究是把男女生第一次约会的对话全程给录下来,剖析他们约会过程中彼此对话的语音、语调。如果男性对女性感兴趣,他一样平常会有两个表现,首先如果女性讲了个什么笑话,他会非常合营地笑出来;再者他会极力掌握自己的音调。有研究表明音调起伏不大的男生更具有吸引力,如果是女生对男生感兴趣,则刚好相反,女生会增加自己音调的变革。
如果你想好好表现一番,增加自己在对方眼中的吸引力,最好的办法便是男性要接管女性的领导,所谓的接管女性的领导,便是合营女生、随着对方的节奏走。
大数据显示女性对男性说话根本不用技巧,男性末了都是探求俊秀的,女生千万不要相信男生说我喜好你是由于你很特殊这样的谎话,由于男生喜好你便是由于你俊秀。这段话听起来彷佛很残酷,但它是事实。
我们透过大数据看到民气坎深处的各种偏见、各种虚伪以及表现出来的各种虚假。乃至在成人的天下里,我们创造虚伪有点像一个一定的和必要的一个状态,这是成年人的悲哀。
但是,个体可能不属于大数据,我们每个人都是独一无二的,千万不要以为自己是孤单的。
(2)关于孤单
很多人都以为自己很孤单,不用担心,由于每个人都很孤单。
2014年奥巴马有一次做演讲,谷歌捕捉到了很多人都在网上问一些屈曲的问题。奥巴马那时候已经当了6年的总统,按理来说民众对他该当很熟习,可在奥巴马讲话的过程中,谷歌搜索显示最热门的问题是“今年奥巴马多少岁了”、“副总统拜登身边得人是谁”等等诸如此类的话题。
不必以为只有自己是屈曲的,实在很多问题,不但有你不懂,是所有人都不懂。
还有很多人喜好搜索与自己身体毛病干系的问题,这种事情你也不孤单,谷歌搜索显示有很多人都在搜索同样的问题,尤其是男性。实在数据显示,女性对男性关注的很多东西是不关心的。那为什么还会有这么多人对自己的身体毛病有所顾虑呢?
这是由于我们总是看别人的朋友圈,别人的朋友圈是别人刻意向你展示的,不要拿自己的真实情形与别人发的朋友圈做比拟,他人的朋友圈会显示对方过得特殊好,但事实不一定是这样的,千万别担心别人笑话你的不敷,大家都会有自己的不敷,家家也都会有本难念的经,千万不要拿自己的缺陷与别人刻意炫耀的虚假做比拟。我们要少留神朋友圈,多过自己的生活。
(3)关于教诲
这本书在末了见告了我们一个特殊主要的东西,便是名校正人的用途并没有我们想象的那么大。
首先,名校正人有没有用,毫无疑问肯定是有用的。
在美国,如果你是名校毕业生,你的收入水平肯定会比一样平常大学的毕业生要赶过很多,如果你是哈佛大学的毕业生,你均匀年收入是123000美元,如果你是宾夕法尼亚州立大学的毕业生,你的均匀年收入大概是87000美元,显然哈佛的年收入是更高的。
在美国便是这样的,由于美国它是成本主义国家。
实在,哈佛大学的录取标准本来就比宾夕法尼亚州立大学赶过许多,一样平常是精良的学生才能进入哈佛就读,可是,如果这些学生本来就很精良,他们不去哈佛上学而去一样平常大学上学,有没有可能得到更高的收入呢?
信息学家开始研究一批高中生,这个很厉害的高中叫史岱文森高中,是市重点,这个学校的学生险些往后都能去哈佛大学上学。经济学家创造,有些初中升高中的考生只差一、两分没考上史岱文森高中,有些考生则只比录取分数线高了一两分,实际上,考试离分数线差一、两分或者赶过一、两分,这两种考生的实际水平是没有任何差异的。
我们供应一个自然实验,便是经济学家跟踪这两拨人,不雅观察他们日后考上大学的情形,就可以知道上史岱文森这样非常精良的高中到底有没有用,末了大数据剖析表给出的结果是没用。
书里结论说,名校并没有培养牛人,名校只是选择牛人。
实在,大数据一贯都在带给我们很多启迪,我们创造有很多书都在讲大数据,并且我一贯对大数据有点执迷,但是我依旧相信个体的力量,大数据丈量的是群体,而我们个体该当朝着远方,个体永久和大数据是分开的,我们可以研究数据,但千万不要活成大数据的样子容貌。
(图片来自网络)