数极客首页

2016美国大选,来自人工智能和大数据的预测

近期最火的好莱坞大片,莫过于2016年的美国大选了,两位候选人秉承了一撕到底的精神,为广大的吃瓜群众提供了茶余饭后的最佳谈资。

2016年6月,有“数据巫师”之称的美国统计学家纳特·西尔弗(NateSilver)在知名数据博客538(FiveThirtyEight)发表最新分析,预测希拉里·克林顿有八成可能击败唐纳德·特朗普,当选第45任美国总统。西尔弗在博客中提供了三种不同模型的预测,而该博客将持续跟踪美国选情,根据最新民意调查每天更新预测结果,直到11月8日大选。不过,根据其网站11月2日的最新数据显示,希拉里获胜的概率下降到了67%左右。

2016年10月中,微软大数据分析预测希拉里·克林顿极有可能赢得选举,概率 87%。微软使用搜索,社交网络聊天和其他相关数据智能预测即将到来的事件,包括今年的选举。根据在上周日的最后更新显示,希拉里·克林顿将有高达 87%的机会成为下一个美国总统,她的共和党对手唐纳德·特朗普,只有12%的机会。

2016年10月底,印度的一家人工智能企业根据其模型得出的结论是:共和党候选人特朗普将赢得本次的总统大选。要知道,这可是在10月底联邦调查局重启电邮门旧案之前! 根据外电报导,印度这家公司推出的人工智能系统名为 MogIA,是通过在Google、Facebook、YouTube等网站上收集超过两千万份资料进行分析,最后的结果令人意外。

不仅仅是预测未来的总统,甚至是总统自己也会使用技术手段来为自己保驾护航。 坊间有传言,2012年,美国总统奥巴马仰仗其大数据分析团队,击败竞争对手成功连任。奥巴马团队的竞选总指挥吉姆·梅西纳表示,在整个竞选过程中,奥巴马的每次活动都是以数据作为支撑,而对多种来源的数据进行搜集、整理、分析和运用,确保了以数据为基础的决策。在每一次动员活动和公开辩论前,奥巴马团队都能根据受众的特点选取其最关心的议题,精心准备、博得支持。动员渠道和互动方式的选择也为目标选民量身定做,例如,奥巴马发现很大一部分目标选民在社交新闻网站上,于是决定在社交新闻网站上回答问题。

这时,你可能会好奇,机器怎么能预测总统大选的结果呢?这里简单为大家剖析一下。对于人工智能和机器学习的建模,其标准的步骤主要包括以下几个步骤:特征化工程、数据的获取,数据的清理、建模和最后的评估。

  1. 数据的特征化:和专家的常见观点略有不同,笔者认为首先,也是最重要的步骤,不是获取数据,而是确定特征化工程(feature engineering)如何做。什么是特征化?举个简单的例子,机器是无法理解总统候选人是什么,我们需要将候选人的特征用数据表示出来,最终达到机器可以处理的目的。这些特征包括人类本身的特点,例如性别、身高、学历等等,还可以包括候选人与候选人之间的关系、候选人与选民之间的互动等等。这也是为什么很多预测模型都热衷于互联网选民的行为分析,因为这些数据不仅直接反应了选民和候选人直接的关系,而且本身都是数字化的,很容易获取并进行特征化处理。之所以个人觉得这步非常关键,首先是因为良好的特征,可以帮助我们更有效地刻画事物,提升机器学习的效果。此外,只有特征集合确定了,才能确定获取哪些数据。

    注:本文部分内容和观点摘自IBM研究院科学家黄申博士的最新力作《大数据架构商业之路:从业务需求到技术方案》

    来源:微信公众号?浩瀚星辰

    发表评论

    评论已关闭。

相关文章