数极客首页

数据会说谎?从大选预测说开去

昨天被美国大选刷屏了,我们
像看春晚一样关注着他人

家的大选,也是怪有意义
的。我们数据人的朋友圈看到的都是这样的:《大数据与美国总统》,《2016美国大选,来自人工智能大数据的预测》,《美国大选倒计时:R言语
和蒙特卡洛算法预测希拉里赢面高达89%》…预测上大部分

都是说希拉里胜面高。可理论

结果却是相反的,就连两次胜利

预测大选结果的538网站的Nate Silver预测大神这次也失算了。那么大数据到底是怎样
预测的?到底是什么缘由
招致
不精确

第一
我们说说大数据能干啥。纽约时报对美国大选结果的可视化剖析

大数据时期
的第一次美国大选,天文
学和可视化像透镜一样,能够

让我们愈加
分明

地认识数据。图二:希拉里赢了纽约、洛杉矶、芝加哥、湾区、波士顿、西雅图、费城和华盛顿等简直

美国一切
的大城市,但是却输了中小城市。每个鼠标点上去就会有细致
数据呈现,看上去十分

“美好

”,这就是大数据的魅力。

数据会说谎?从大选预测说开去
数据会说谎?从大选预测说开去
数据会说谎?从大选预测说开去
数据会说谎?从大选预测说开去

同时,纽约时报还做了对大选的竞选预测:数据会说谎?从大选预测说开去

The Yhat Blog:

在这篇文章中,作者以R言语
来完成
。预测数据来源:1,选举团(electoral college);2,近期投票数据。作者选用了一个GitHub上的CSV文件作为选举团数据源。

数据会说谎?从大选预测说开去

投票数据选择的是 electionprojection.com,并抓取了每个州的数据,构成
表单。

数据会说谎?从大选预测说开去

接下来关键的一点是为每次投票设置权重。我们给每次投票都分配不时

指数衰减权重(exponentially decaying weights)。

数据会说谎?从大选预测说开去

第三步开端
模仿

选举。运用
的是最简单的蒙特卡洛模仿

生成合成的竞选数据。将找到的投票数据结果随机化,生成“what if”结果。

数据会说谎?从大选预测说开去
数据会说谎?从大选预测说开去
数据会说谎?从大选预测说开去
  • 希拉里赢:89%
  • 希拉里大获全胜(高出对方 400 票及以上):0.11%
  • 特朗普大获全胜:0%

还有个ASA’s Prediction Competition的,数据取自538网站,也是得出结果是希拉里胜,并给出了简单的代码。网址:https://www.r-statistics.com/2016/08/presidential-election-predictions-2016/

GitHub上还有开源出来的蒙特卡洛预测大选代码,有兴味
的也能够

看一看:

https://github.com/GaryBoone/PresidentialMonteCarlo

要说大选预测,那么“数据大神”Nate Silver就不得不拿出来说一说。Nate Silver早年是搞统计的,对数据十分

有兴味
,在审计公司毕马威当了四年顾问

,后来开端
数据剖析

创业。他对美国职业棒球大联盟的球员中止

数据剖析

,预测棒球赛的结果十分

胜利

。2007年Silver树立
了“538”网站(http://fivethirtyeight.com)。2008年大选,Silver预测对了50个州选举结果中的49个。2012年,预测奥巴马胜出概率高达9成,和普通
专家说的奥巴马与罗姆尼五五开的预测很大差别

,最终
结果出来全部50个州都预测对了。

538网站的数据来源自民调数据,但是由于各种民调的机构背景、立场倾向、掩盖
人群、举行
时间都有差别

。所以Silver会依据

拟投票选民、会后弹升、疏忽

第三党候选人、趋向
走向、党派倾向五个要素
对数据中止

调整。据Business Insider报道,Nate Silver将概率学中的贝叶斯决策理论(Bayesian Theorem)应用到大选预测中,用数学办法

对未知事情
中止

概率剖析

。最终
一步就是对一切
不精确

性作出解释,并对最终大选重复

模仿

测试,调整误差。随着大选日接近,不精确

性会愈发降低。538给出了希拉里与川普各自的胜选可能性以及在几个月内的变化趋向

数据会说谎?从大选预测说开去

但最终他失算了,估量
内心也是各种解体

和自我安慰

,但是还嘴硬说自己

不吃惊:

数据会说谎?从大选预测说开去

大多数人将此结果归于民调数据不精确

。538预测的依据

在于各项传统民调。而各技术宅玩的预测数据来源很多也是基于538的数据,所以大家统一都得出了希拉里会获胜的结果。像洛杉矶时报与南加州大学协作
做出的民调得出的结果是完好

相反的,他预测的是川普胜出。曾经
有不少解读民调的资料

,包含样本取得

,样本所提供的信息,误差界线

等,我们
也不需求
细细说了。

其实数据统计原理大家都明白,第一需关注数据源。数据报告出处以及数据来源,数据采集面向的对象,数据的时效性和相关性。第二是数据统计过程。固然
原始的数据相同,但是数据处置
的过程不同。细致

状况

通常可分为四种:抽样办法

、样本选取、离群值处置
及统计指标设置。抽样办法

,样本选取等都与结果紧密

相关。

数据不会说谎,但是从数据源和数据处置
过程就可能构成

不一样的结果。听说
有网友查看了《纽约时报》网站竞选预测指针的源代码,发现其指针变化并非来自实时数据,而是随机摇晃

数据会说谎?从大选预测说开去

数据似乎

金矿,需求
人运用
工具来开采、提炼、加工,当对这些数字中止

解读,从获取到剖析

,这个过程就可能呈现
问题,即便

每个步骤看起来都契合

逻辑。

阿桑奇的采访,The Secret World of US Election中,阿桑奇说美国的政治高层以及背后的银行、财团、跨国企业、媒体等等,早已组成了一个庞大的利益圈层,理论

上都在协力将希拉里推上总统宝座。我们每个人都会有自己

的成见
,对他人

的解释倾向于狐疑

。由于
数据是最客观的东西,于是用数听说
明就变成了最好的压服
他人

的办法

。所以有时分
我们剖析

数据的目的,可能还不是为了解

释现象获取信息,其实仅仅是为了压服
他人

或者压服
自己

毕竟他人

家的选举,我们也就看看繁华
,了解

下预测办法

就好了,顺便通知
下自己

的Boss,看,我们
数据剖析

师多么重要,你想要什么结果我们
都能给你!当然这也是玩笑话,大数据的价值在于真实可信,这是我们数据人的准绳
所在。

以上资料

来源于网络,纯属小编一家之言,班门弄斧,欢送

大家拍砖。

发表评论

评论已关闭。

相关文章