数极客首页

MIT课程笔记:数据可视化会撒谎

这篇文章取材于David Karger教授讲授的Data Visualizations课程,此课程是MIT ProfessionalEducation开设的网络课程Tackling the Challenges of Big Data的一部分。文中部分图片经Karger教授本人授权,请勿转载。

上一期的可视化专栏中,我们推出了一篇文章《人类历史上最有影响力的5张信息图》,相信读过这篇文章的读者都会对下面这幅图有印象。这是排名第二的“战争死亡统计图”,作者FlorenceNightingale(南丁格尔)是一名护士,她用数据图表的方式展示了那些可预防疾病(蓝色和灰色区域)导致的惊人死亡数字,成功的说服了将军们投钱在医院和医疗设施上。

MIT课程笔记:数据可视化会撒谎
MIT课程笔记:数据可视化会撒谎

这幅图的本意是用桶的高度来表示石油价格的变化,离我们最近的桶是最远的桶的5.5倍。但由于角度和阴影的关系,我们直觉上会认为桶的体积表示了价格的变化。尽管这个图上的数字是正确的,1979年石油价格是1973年的5.5倍,但是由于这幅图给我们的误导,我们会把体积变化(270倍)当成一个与价格有关的变量。

这是在创建可视化过程中容易进入的误区,也是我们应该尽量避免的。一般的规则是,尽量避免使用多维变量来代表数量。如果你想用一个可视变量代表一个数,那么只使用长度或者高度, 但不要两者同时用。下面三张图显示的是2000年的股市崩盘。

MIT课程笔记:数据可视化会撒谎

 

MIT课程笔记:数据可视化会撒谎

 

MIT课程笔记:数据可视化会撒谎

下面这两张图可谓恶劣之作。这两张图出现在一本杂志的封面,企图披露康奈尔大学在学校排名直线下降的同时学费持续飙升。让我们来看看真实情况是怎么回事。

MIT课程笔记:数据可视化会撒谎
MIT课程笔记:数据可视化会撒谎

这个图的问题是,这里用0.6英寸代表1978年的18英里/加仑,用5.3英寸代表1985年的27.5英里/加仑,并试图用透视图使它看起来更漂亮。但这样做,在视觉上大幅度放大了长度的变化。因此,我们看到的不是每加仑英里数增加了52%,而是780%。

下面的例子是Karger教授制作的关系数据可视化图。

MIT课程笔记:数据可视化会撒谎

总的来说,可视化是一个非常强大的工具,有时候比统计数据本身更强大。这意味着它可以更好地揭示真相,但同时也可能更显著地放大错误。在可视化的过程中,要经常反问自己:这个图有没有什么不正确的暗示?要做到这一点,需要考虑:一、显示完整的坐标区间;二、显示全面的数据;三、选择适当的可视化变量。

作者:Linda Bi

本文采用「CC BY-SA 4.0 CN」协议转载学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系「我们」处理。

发表评论

评论已关闭。

相关文章