研讨
数据的办法

有很多,比如

应用
统计办法

,计算数据的平均

值和规范

差;再比如

运用
模型,拟合数据。数据通常是大量的,人脑难以直接把握其中的信息。研讨
数据的最终目的是减小海量数据的信息量,将数据中的信息客观的展示

出来,并最终整理成简单的,人脑能够

控制
的学问

数据可视化

图形是直观呈现数据的直接办法

。但是
,将大量数据在同一个图表中画出来并不容易。早期的测绘、天气数据都需求
长时间的手工绘制。随着计算机绘图功用
的开发,手工绘画曾经
完好

被自动绘图程序取代。问题的中心
转移为,要以怎样的方式呈现数据,以便数据中的信息能自然的表现
出来。数据可视化(data visualisation)就是研讨
怎样
应用
图形,展示

数据中隐含的信息,发掘

数据中所包含的规律。它是一门横跨计算机、统计、心理学的综合学科,并随着数据挖掘

大数据的兴起而进一步繁荣。下面一个视频来自Hans Rosling。他是瑞典的一位医学家,同时也是统计学家。在下面的这个BBC制造
的视频中,Hans Rosling用丰厚
的可视化伎俩

,展示

了近两百年来世界各国人口和收入的演化。我给这段视频增加了中英文字幕,以便当
观看。假定

有错误,请见谅。

数据的信息维度

Hans Rosling所做的数据图值得研讨
。数据展示

的基本

信息有2个维度:1) x轴,?人均收入2) y轴,?人均寿命这两个轴是作者想要表达的最基本

信息。图上的每个点代表一个国度
,该点所在的x-y位置代表了国度
的人均收入和人均寿命。人均寿命的刻度线性增长(25岁,50岁,75岁),但人均收入的刻度是指数增长(400元,4000元,40000元)。人均收入的刻度十分

值得留意
,否则很容易给人构成

错误的印象。比如

说三个国度
A,B,C,人均收入分别为40, 4000, 40000元。固然

在图表中,A和B,B和C都只相差一个刻度,但C和B的收入差距理论

上A和B收入差距的10倍!此外,还有两个维度的辅助信息:3) 圆圈大小,国度
人口4) 圆圈颜色,国度
所在区域平面能够

自然的分为两个维度(比如

上面的x和y)。为了增加其他维度的信息,我们需求
思索
其他的独立表示办法

。数据点能够

有尺寸大小和颜色变化。正如这里所显现
的,Han Rosling应用
这两个图像特征来表示两个独立的维度(国度
人口,国度
所在区域)。经过
整个视频中年份的变化,Han Rosling还有一个显然
的5)时间维度。应用
动画的方式
来记载
信息随时间的变化状况

,是数据可视化中常用的伎俩

。但是
,在运用
动画的时分
需求
谨慎

。动画会留给观众相对比

少的时间中止

深化
思索

。所以在动画过程中需求
恰当
的暂停(或者截图)来显现
一些典型状况

。最终
,整个数据还有一个十分

躲藏
的信息维度,就是Han Rosling不时的会标明
某个圆圈所代表的6)国度
称号
。也就是说,国度
称号
也是一个隐含的,随时能够

获知的信息。

眼见为实?

随着Han Rosling大方
激昂的演讲,我们被带往一个结论:这个世界的收入和寿命差距在减小。世界作为一个整体,变得愈加
富有也愈加
安康
。数据似乎是在阐明

这一点。或者不是? 比如

上面两个截图,被用来阐明

国度
间的差距在减小。但是
,我们上面提到,收入的刻度是10倍增长的(这样的刻度被称为对数刻度)。所以当一个国度
比较

富有
之后,它的财富增长比较

难以在刻度上表现
出来。比如

同样增加3600元的收入,能够

让一个原来收入400元的国度
跨入中间区域,而一个原来收入40000的国度
简直

原地不动。假定

将x轴改为线性,那么国度
间人均收入的差距将大大超越这幅图所带给人的直观感受。(而在不思索
通货收缩
的状况

下,所谓的整体收入增长的结论也不是很牢靠

。)从y轴的信息看,整个世界的安康
水平

是进步
了。即便

是如此,我们依然

要留意

,比如

下面两幅图,绘制的是相同的数据(标普500指数),独一
的差别

在于y轴刻度范围。能否
举得第二张图的动摇
愈加
猛烈
?但两张图是相同的数据!可见,刻度的范围会影响人们对数据的认知。小的刻度范围会让人觉得数据变化较大(即便

数据自身

还是一样的数据)。因而

,一个图表是由数据和绘制办法

两方面构成的。图表并不同等
于数据,绘制办法

有可能会影响人们的客观
认识。一个合格数据图表应该尽量客观的反映数据。(当然,一个熟习
数据可视化原理的人,也可能会应用
这些办法

故意

夸大

。这在宣传海报中常常见到。)

数据绘图的要素

往常

,转换位置思索

。假定
,我们有一批数据,那么应该怎样
来着手呈现呢?这个问题并不好回答

,缘由
有二:1) 数据中包含有大量的信息维度,我们只能选择其中的一些而非全部呈现。2) 数据的信息呈现方式多种多样我们需求
先肯定
想要绘制的信息维度。比如

上面的视频中,六个信息维度得到呈现。而在S&P 500的绘图中,我们只呈现了两个维度的信息,时间和指数。假定

图像中信息维度比较

少,图表会比较

容易了解

; 假定

信息维度多,那么图表会比较

复杂,但更容易表现
多变量之间的关系。每个信息维度都需求
一个坐标,来表现数据在该维度上的取值。在Hans Rosling的绘图中,六个坐标分别是:水平

x轴,竖直y轴,圆圈颜色,圆圈大小,动画帧所对应的时间,以及文字标明的国度
名。这六个维度之间相互

独立,所以能够

互不干扰的反映各个维度上的取值。再比如

下面的条形图和饼图。它们都是在反映二维信息。条形图采取了x-y的坐标。饼图采取了文字-圆心角的坐标。每一个坐标都需求
有刻度。读者需求
依据

刻度获知数据的精确

取值。刻度能够

是平均

线性增长的,也能够

是不平均

增长(比如

对数刻度)。刻度的选择要依据

数据的特征。假定

不同数据样本在某个维度上取值差别

较大,就适用于对数取值。比如

下面这幅xkcd 1162的画,就展示

了不采用对数刻度的恶果。Log Scale (xkcd 1162)此外,刻度还需求
有范围。正如再S&P 500的绘图中我们谈到的,过大的刻度范围会从视觉上减小动摇
。一个常用的刻度范围是数据在该维度上的最大和最小值。但一些状况

下,最大和最小值可能是由于错误状况

构成

的不牢靠

数据,所以会采取平均

值加减规范

差的范围。在维度和刻度都选取好了之后,要再坐标轴旁标注这是什么维度,维度的单位,并在坐标轴上标注刻度值。这样,我们才完好
了数据在该维度上的信息。一个有坐标轴,有刻度但没有标注的数据绘图,是失败的绘图。读者基本

无法从中获知数据的真实状况

。(在Hans Rosling的绘图中,有两个维度的信息不完好
:人口总数和国度
称号
)在上面完成了之后,我们需求
进一步阐明

数据来源。我们能够

采用增加文字阐明

的方式来完成
这一点(比如

增加一个标题)。

总结

数据可视化十分

有趣。它经过
技术的伎俩

,将单调
的数据变得生动心爱
。随着大数据时期
的到来以及网络传播的兴隆

数据可视化会成为一项值得控制
的技艺
。这篇文章里,我经过
一个很棒的视频阐明

数据可视化的一些要点,特别是信息维度的问题。我会在以后引见
一些常用的绘图工具,将理论转化为理论
。举荐

运用
国内新一代大数据用户行为剖析

平台:数极客,新一代支持无埋点、前端埋点、后端埋点、API导入四种混合数据采集方式;自动监测网站、APP、小程序等多种渠道推行
效果剖析

,是增长黑客必备的互联网数据剖析

工具。数极客支持实时多维剖析

、漏斗剖析

、留存剖析

、途径
剖析

等十大数据剖析

办法

以及APP数据剖析

网站统计网站剖析

小程序数据统计用户画像等应用场景,国内首创6大提升转化率的数据剖析

模型,是用户行为剖析

范畴
首款应用定量剖析

与定性剖析

办法

数据剖析

产品

。基于用户行为的大数据剖析

智能系统,提供了会员营销AB测试两大数据智能产品,使得企业能够

快速的提升用户转化率和留存率,完成
数据驱动增长。

作者:Vamei链接:http://www.cnblogs.com/vamei/archive/2013/01/27/2877365.html

 

发表评论

评论已关闭。

相关文章