数极客首页

统计数字会说谎

摘要: 在我们的工作、生活中,经常能接触到各种各样的数据、调查结果,这些数据和结果都是正确的吗?哪些数据有误导性?哪些数据有限定条件?哪些数据不可以比较?本次分享告诉大家如何解读数据,如何看透数据的真相!

在我们的工作、生活中,经常能接触到各种各样的数据、调查结果,这些数据和结果都是正确的吗?哪些数据有误导性?哪些数据有限定条件?哪些数据不可以比较?本次分享告诉大家如何解读数据,如何看透数据的真相!

统计数字会说谎

盖洛普为什么预测美国大选的结果很准确?他们采用抽样调查方法,在全国各州按比例选择调查对象对总体有很强的代表性 。

统计数字会说谎

举一个用研的例子:对于整个淘宝网买家的调研,基本上我们要保障1500的样本量,而对于某一类目卖家的调研可能几百就足够了(比如机票等类目卖家较少)。

PS:抽样经验:1500以上的样本量基本就能很好地代表总体,无论总体有多大。

统计数字会说谎
统计数字会说谎

【案例四】平均数的陷阱

假设你是某个小型制造企业的3个合伙人之一,到了月底给企业的90个职工发了99000元,你和合伙人每人共获得5500元的工资,最后还余下21000 元作为利润可供你们3个合伙人平分。你会选择哪一种表述公示呢? 肯定是后者,因为显得收入分配更公平,但其实每个人拿到的钱还是和前者一样。因此需要特别注意这些平均数背后的真相。

统计数字会说谎

统计局公布1月CPI数字,因为春节假期央行再度加息,市场曾预期1月CPI必将再创新高,甚至有望接近6%数字,可实际数字4.9%却让人颇为意外。原 因就是统计局CPI统计的新权重:居住类、医疗保健类、娱乐教育文化类价格权重上升,食品类权重下降。而食品类价格却是百姓感受最明显的一个指标,因此平 均时权重差异也使得我们感受与数字之间产生差异。

【案例五】一样的数据,不一样的图形

为了让没有直接接触数据的人也能直观地感受到其中的一些信息,人们发明了各种各样漂亮的统计图表。但是就是“客观”的图表里面也存在着各种各样的陷阱。在制作统计图表时,一个常用的欺骗手法便是改变统计图形的坐标尺度,从而改变了整个图形的增长趋势或是陡峭程度。

统计数字会说谎
统计数字会说谎

此图反映了某年9月27日某时的黄金价格走势。上面两幅图描述的是相同时间段的黄金价格走势,显然,左边的金价急升更容易让人产生激动的心情。即使标出了横纵轴的刻度,这两幅图给普通人留下的第一印象也大不一样。

【案例六】 结论的使用范围、限定条件

对于这一则广告,从广告词来看,此感冒药效果很好,但是在这里我们需要问两个问题:在人的喉咙里会不会发挥作用?这些细菌是感冒细菌吗?显然如果广告词没 有标明结论的限定条件,我们并不能就此认为此感冒药到底有何效果。因此我们特别要关注有些结论的限定条件,并不是所有条件下结论都成立。

统计数字会说谎

【案例七】口径不同的数字不可比较

如果告诉图中所示信息,你肯定会认为美国海军的死亡率低于纽约市民。但是大家想一下:美国海军与纽约市民的年龄结构是一致的吗?海军都是青壮年而纽约市民 中很一部分是死亡率极高的老年人,这两个人群的死亡率可以比较吗?显然是不行的。国家统计局公布2009年上半年,中国城镇单位在岗职工平均工资为 14638元,与上年同期相比增加了1674元,增长12.9%。有网民称,统计数据与自己的收入不符。为何数字公布与网民感受不符呢?关键在于纳入国家 统计局口径的不是所有劳动人口,而是城镇国有单位、集体单位和股份合作、联营、有限责任公司、股份有限公司、外资和港澳台商投资单位的员工,不包括私营单 位、个体工商户和灵活就业人员,而往往低收入人群广泛存在于漏掉那部分人群中。因此在看到一个统计结论时一定要仔细辨清其统计口径。

统计数字会说谎
统计数字会说谎

此图给出了两种很容易被我们误解为A与B之间有因果关系的情况,虽然A与B同时变动,但是他们的变动都是由Z引起的,而不是本身的因果关系,这样的情况我们需要特别注意。

统计数字会说谎
  • 根据抽样得出的结论一定要采用具有代表性的样本
  • 在样本量足够时误差才会较小,结论才会可靠
  • 对敏感隐私问题需要多方验证
  • 看到平均数时首先问问是平均了什么?
  • 同一种数据的不同展现方式带来的陷阱
  • 大部分结论都有其限定条件和适用范围
  • 口径不一致的数据不能拿来比较
  • 两个数字同时变化并不能用于说明因果关系

如果在看到很多数据以及结论的时候想到了以上八个问题,并且在心中回答出以下四个问题:“研究方法科学吗?”、“表达方式有误吗?”、“这些数字可以比较吗?”、“结论有限定条件吗?”,那么恭喜大家练成了火眼金睛,不用害怕掉入任何数字的陷阱了!

via:KDD china

推荐使用国内新一代大数据用户行为分析平台:数极客,新一代支持无埋点、前端埋点、后端埋点、API导入四种混合数据采集方式;自动监测网站、APP、小程序等多种渠道推广效果分析,是增长黑客必备的互联网数据分析工具。数极客支持实时多维分析、漏斗分析、留存分析、路径分析等十大数据分析方法以及APP数据分析网站统计网站分析小程序数据统计用户画像等应用场景,国内首创6大提升转化率的数据分析模型,是用户行为分析领域首款应用定量分析与定性分析方法的数据分析产品

发表评论

评论已关闭。

相关文章