数极客首页

关于“数据会说谎”的几个例子

究竟是数据在说谎,还是逻辑在说谎?让我们一起来看看以下几个案例。

一、内在有偏的样本

在高中课本中我们就曾经接触过这种例子:

在1936年美国总统选举前,一份颇有名气的杂志(Literary Digest)的工作人员做了一次民意测验。调查兰顿(A.Landon)(当时任堪萨斯州州长)和罗斯福(F.D.Roosevelt)(当时总统)中谁将当选下一届总统,为了了解公众意向,调查者通过电话簿和车辆登记簿上的名单给一大批人发了调查表(注意在1936年电话和汽车只有少数富人拥有)。通过分析收回的调查表,显示兰顿非常受欢迎,于是此杂志预测兰顿将在选举中获胜。

实际选举结果正好相反,最后罗斯福选举获胜,其数据如下:

候选人 预测结果% 选举结果%

Roosevelt 43 62

Landon 57 38

为什么会产生这种预测失误呢?原因在于《文摘》所选的样本限定在了拥有电话薄和车辆登记簿的一群人身上,但是在那个年代,有能力购买电话和订阅杂志的人并不能真正代表选民.至少在经济上,他们是极特殊的,是有偏差的,你们是要负责任的。

<img src=”https://pic2.zhimg.com/f391921026fcbf817f38215411952ecd_b.jpg” width=”580″>上图是《南华早报》上一个“你愿意回到英国管辖的香港吗”投票率超过百分之九十证明香港人大多愿意重回英占时期的香港。这种投票得出的结果如果被用在讨论香港人是否愿意重回英占时期的香港是会有偏差的,尽管香港仔或许真的是想要重回那个殖民时代。南华早报的这次投票很显然的采取的是内在有偏差的样本,它的受众群决定了这次投票的结果,如果把相同的投票放在亲中的《大公报》上,结果就可能截然相反。关于“数据会说谎”的几个例子

二、精心挑选的平均数

假设你是某个制造企业的3个合伙人之一。这是一个收入颇丰的一年,到了年底你给本企业的90个职工——他们制造并且运输椅子(或者任何你所经营的东西)——共发了198000美元的工资,给自己与合伙人各发11000美元。最后,还有45000美元的利润可供3人平分。你将如何说明这种情况呢?为了便于理解,你打算采用平均数的形式。既然所有的职工从事相同的工作,获得同样的收入,用均值还是中位数没有区别。说明如下: 职工的平均工资…2200美元所有者平均工资及利润……26000美元 看上去太不公平了,不是吗,来试试另一种形式:从利润中拿出30000美元以奖金的形式平分给3位合伙人,再将包括了所有者和职工的所有工资进行平均,的确又是平均数,结果却变成: 所有人员的平均工资或薪水…2806.45美元

20 所有者平均利润……5000美元 哈,看上去不错了吧。虽然还能进一步改善,但这已经有了长足的进步,全部资金中只有少于6%的部分形成了利润。你还可以继续如法炮制,但不管怎样,现在的结果已经足以作为公布的内容,张贴在公告栏中,或者作为与职工谈判的依据。 因为简化,这个例子是十分粗糙的。与以会计名义所做的手脚相比,它简直是小儿科。对于一个等级森严、职员的范围从打字员到领取儿十万美元薪金的总裁的复杂公司而言,所

有情况都可用类似的方法进行掩盖。 因此,当你看到一个平均收入时,首先问问:是什么的平均?包括了什么?美国钢铁公司(TheUnitedStatesSteelCorporation)曾经指出:从1940年到1948年间,该公司职工的平均周收入攀升了107%。确实如此,但是,当你注意到1940年包括更多的兼职职工时,奇妙的增长比率会大打折扣。如果你某年只工作了半年,而第二年全年工作,你的收入毫无疑问会翻番,但这与你工资率的变动无关。

三、没有披露的数据

<img src=”https://pic1.zhimg.com/fe7d8d89d1f77d6ce9fcd4bc0ce73c98_b.jpg” width=”457″>关于“数据会说谎”的几个例子

用户反映使用多克斯(Doakes)牌牙膏将使蛀牙减少23%!
大字标题历历在目。你希望减少23%的痛苦,于是接着往下读。这些结论出自一家信誉良好的“独立”实验室,并且还经过了注册会计师的证明,有了这些,你还想知道什么呢?
然而,如果你不是特别容易上当受骗且不盲目乐观,经验将告诉你:一种牙膏难得比其他牙膏好。那么,多克斯公司是怎样得到了如上的结论?如果他们说谎,并用大字标题报道这些谎言,他们又如何能够逃避责任呢?但事实是,根本无需说谎,下面便是更简单而有效的方法。
这里的主要把戏是不充分样本——统计角度的不充分,但对于多克斯公司而言已经足够充分了。被测试的用户,这些你只有在读小字的内容时才会发现,仅由12人组成。单凭这点,你便不得不佩服多克斯公司,因为它给你提供了一个冒险的机会。有的广告商索性将类似的文字略去,使得读者——即便他是一个老练的统计专家——一头雾水:这里面到底玩了什么把戏?从这个角度来说,多克斯公司由12个人组成的样本还不算太坏。几年前,一个叫做可尼斯博士(Dr.Cornish)的牙粉上市了,并宣传“在治疗臼齿方面获得了极大的成功”,因为该牙粉中含有尿素,而经过实验室的证明,尿素对于治疗臼齿有极大功效。然而,值得一提的是,实验室的结论完全先入为主而且仅仅建立在6个案例之上
下面,再让我们回头看看,多克斯公司可以怎样轻易地获得一个不存在漏洞并经得起检验的标题。让一组人连续6个月计算蛀牙数,接着使用多克斯的产品。之后只会发生三种结果:蛀牙明显增多,蛀牙明显减少,蛀牙数量无显著变化。如果发生了第一和第三种结果,那么多克斯公司就可记录下这些数字(并很好地藏于某处),然后重新实验。由于机遇的作用,迟早有一组测试者的数据将证明蛀牙明显减少,并且这个结果足以好到作为标题并引发一场广告战。只不过不论实骑者使用的是多克斯牙膏还是做面包的苏打粉,或者继续使用原来的品牌,上述结果都会产生。

没有披露的数据其实很可能是经过人为操纵的数据,当数据的样本量越小最终的结果就越多变,然后在众多的结果中选择有利于自己的一种,就可以诱导公众进行我们所期待的行动。

<img src=”https://pic2.zhimg.com/587a891ee4622876fbebdd15c2e501dd_b.jpg” width=”912″>关于“数据会说谎”的几个例子

在我面前是两盒葡萄坚果饼干盒的包装纸。正如说明书上注明的,它们是不同的版本。它们一个引用了双枪皮特(Pete)的赞语,而另一个写道:“如果你想和哈比(Hoppy)一样……你就得像哈比一样吃。”它们都提供了图表(“科学家证明是真实的!”)来说明这些薄饼“在2分钟之内开始提供能量!”一张图隐藏在文字海洋中,其纵轴标有数据,另一张图省略了这些数据。既然没有关于这些数据的说明,有没有它们都一样。两张图都有一条急剧攀升的红色曲线(代表“能量释放”),但一条曲线开始于吃葡萄坚果饼干一分钟后,而另一条则开始于两分钟后。一条曲线的攀升速度看上去是另一条的两倍。毫无疑问,连制图者都不清楚这两张图能说明什么问题.

当一个图表、数据或者是一段趋势遗漏了某项数据,那么你就有理由去怀疑这些数据的缺失可能使你对一件事物的判断产生偏差,而只有在你明晰了这些数据的存在与否所能产生的影响,你才能做出适当的决策。
四、毫无意义的工作

<img src=”https://pic4.zhimg.com/ea28c88fe33bd5cdac4b2f09a1c8e17b_b.jpg” width=”482″>关于“数据会说谎”的几个例子

如果你不介意,本章一开始我们将赋予你两个孩子。如同许多受教育的孩子一样,彼德(Peter)和琳达(Linda)(我们顺便给他们起了很时髦的名字)接受了智力测试。目前任何形式的智力测试都有点原始伏都教育目崇拜的味道,因此你费了不少口舌来打听测试的结果。这个信息是保密的,一般只有心理学家和教育者才知道,或许这样是对的。但不管怎样,你还是通过某种方式探听到:琳达的智商是101,彼德只有98。当然你很清楚:智商的平均数是100,即100意味着“正常”。
哈.琳达是比较聪明的孩子,而且她的智商高于平均水平,彼德则低于平均水平。对此我们先不详细评论。
任何类似的结论纯粹都是胡说。
为了澄清事实,我们首先必须注意到,无论智力测验测试什么内容.它都与我们平常意义上的智商相去甚远。它忽略了类似领导才能、创造性想像力等十分重要的素质;它没有考虑到社交判断力以及音乐、艺术或其他方面的才能;它无法测试出诸如勤劳、情感平衡等重要的人格品质。再加上,大部分学校做的智力测试都是简单低廉的类型,它们极大程度地依赖于阅读能力、测验者反映的快慢等因素,阅读速度慢的人根本没有拿高分的希望。
假设我们对这些都有了重新认识并一致达成共识:智力测验仅仅测验了处理那些预先准备好的抽象问题的能力,而这些能力又很难确切地进行定义。假设彼德和琳达所做的是公认最好的智力测验——修订的斯坦福一比奈测验。这个测验是独立进行并且不需要特别的阅读能力。
智力测试只是智商水平的一个抽样。与其他抽样的结果一样,代表智力水平的数据也具有统计误差,这个误差将用来衡量该数据的准确度和可信度。
智力测验类似于你估计某块地玉米质量时所做的工作。你在地里四处走动,随意地到处摘取一些玉米穗,当剥开并研究了大约100颗玉米穗时,你就能对整块地的质量大致有数。当已知两块地的质量不同时,这些信息已经足够对它们的质量进行比较了。但如果接近,你还得摘取更多的玉米穗,并利用精确的质量标准来给它们划分等级。
人们有时会为了一个数学上可论证却小得没有意义的差别费尽力气。这种行为是对这句古训的藐视:只有当差别有意义时才能称之为差别。

还有一个案例:

“老黄金”(oldGold)香烟公司利用了一个毫无价值的结论赚了一笔。 故事起源于《文学文摘》某编辑的一个无辜想法。当他发现虽然自己抽烟却对这些香烟一无所知时,他的杂志开始行动起来,聘请一些实验室人员分析了不同品牌香烟的烟雾,并刊登了最终结果,列出每种品牌香烟的烟雾中所含尼古丁以及其他有害物质的含量。在详尽的数据支撑下,该杂志声明:所有品牌的香烟是一样的,当你吸烟时,品牌没有任何差异。 也许你会认为,对于香烟生产厂商和那些为香烟杜撰崭新广告词的家伙而言,这是一个有力的打击,它还将引爆关于某些品牌的香烟有助于平缓喉痛和对胸部有益的广告索赔案。 但有的人有了其他发现,在一长串具有相同危害物质的品牌名单上,总有一个排在最后,而那就是“老黄金”牌香烟。于是,电报漫天飞舞,大幅广告以最大的字体刊登在报纸上,其标题和副本仅仅提到,由一家国家级杂志主持的实验证明“老黄金”香烟在不良物质,以及尼古丁含量方面“排名最后”!甚至连所有可以说明差异的数据和文字都被省略了。 最后,“老黄金”公司被通知“中止并停止”使用这个具有误导性的广告。但这并不要紧,它们早已获得了足够的好处。

‘五、惊人的统计图形
人们对于数字似乎有一种天生的畏惧。当汉普蒂·汤普蒂(HumptyDumpty)充满自信地告诉爱丽斯(Alice),他能熟练地驾驭文字时,恐怕没有多少人能将同样的自信延伸到对数字的掌握上。也许中小学的算术给我们的心灵造成了创伤。
不管什么原因,当作者渴望自己的书有人读。广告商希望自己的广告能促进商品的销售。出版商想向人们炫耀自己的书或杂志是畅销书籍时,数字便产生了真正的问题。当表格中的数字是禁用的,而文字又小能达到很好的效果时,人们就自然会想到另一种解决问题的办法——画图。
最简单的统计图形是直线类图形。在显示趋势时,直线图形非常有用。而对于趋势,人们总是津津乐道于发现它、分析它,甚至预测它。下面,我们将用图形来显示国民收入怎样在一年内实现了10%的增长。
首先,在纸上用相互垂直的直线画出许多小方格。然后,在横轴的底部注明月份,在纵轴旁由下往上地标上数字“0,2,4……”并注明数字的单位“十亿美元”。在图中点出每个月的国民收入,再用直线将这些点连接起来,你将获得类似下面的图形。
这个图清楚地显示了一年来的变化,而且变化是逐月反映出来的。然而,画图者很快就会发现,由于图形的纵轴从“0”开始,并且整个图形都是按照比例绘制的,虽然直线的确上升了10%~一个了不起的上涨趋势,但视觉效果却并不振奋人心。

<img src=”https://pic2.zhimg.com/7c525e4d58e83357a687da39ec9c8bc1_b.jpg” width=”484″>关于“数据会说谎”的几个例子

<img src=”https://pic3.zhimg.com/4e9d7cddcc22ebe1eae9f0dae5d5ac42_b.jpg” width=”854″>关于“数据会说谎”的几个例子

<img src=”https://pic1.zhimg.com/fb43a8a71c31fd245a4db946a48c2dc4_b.jpg” width=”576″>关于“数据会说谎”的几个例子

<img src=”https://pic4.zhimg.com/ca2373d55299a79ad24de2b498e1fadb_b.jpg” width=”861″>关于“数据会说谎”的几个例子

<img src=”https://pic3.zhimg.com/18e2e3fb02746217420f0ef84fdf27e6_b.jpg” width=”873″>关于“数据会说谎”的几个例子

<img src=”https://pic4.zhimg.com/38a15ef10fc2ec9680cd27481fa99df7_b.jpg” width=”930″>关于“数据会说谎”的几个例子

<img src=”https://pic1.zhimg.com/a853c15d2f3d26e8db2b70bb3dbb33f8_b.jpg” width=”942″>关于“数据会说谎”的几个例子

<img src=”https://pic4.zhimg.com/bd2f9a8e6205f3eeb96e53b2f1001783_b.jpg” width=”852″>关于“数据会说谎”的几个例子

<img src=”https://pic3.zhimg.com/85ef25c86707fb7060e9ba238f97496e_b.jpg” width=”440″>关于“数据会说谎”的几个例子

当然当然,还有很多让我们很(shen)费(me)解(gui)的统计:
比如这个

<img src=”https://pic1.zhimg.com/a482bddbb7bf26c6ddd1c5136458e618_b.jpg” width=”400″>关于“数据会说谎”的几个例子

<img src=”https://pic3.zhimg.com/17566f82ba9126cb3d10892fe51ef5da_b.jpg” width=”640″>关于“数据会说谎”的几个例子

相关文章:统计陷阱_百度文库
一秒钟看穿统计陷阱

作者:范一帆
链接:https://www.zhihu.com/question/19578400/answer/22290995
来源:知乎
著作权归作者所有,转载请联系作者获得授权。

发表评论

评论已关闭。

相关文章