数极客首页

推荐 :数据可视化专家的七个秘密

数据可视化
数据可视化的道路上充溢
了不可见的圈套
和迷宫,最近ClearStory Data的两位数据可视化开发人员分享了他们总结出来的数据可视化开发的7个不宣之秘,普通开发者了解

这些办法

能提升视野,少走弯路。

数据可视化, 特别是基于Web的数据可视化的时期
曾经
到来了。 相似

JavaScript的可视化库如D3.js, Raphaël, 以及Paper.js, 以及最新阅读
器所支持的如Canvas和SVG, 以及使得那些过去只能由计算机专家和专业设计人员开发的复杂的可视化变得越来越简单了。

数据可视化往常
成为了很多网站项目的必备功用
。 而相似

于Platfora, DatameerClearStory Data以及Chartio等初创公司则能够

应用
基于阅读
器的剖析

平台融到数百万美圆
的投资。

数据可视化是数据探求

以及数据表现的重要方式, 但是
, 关于
数据可视化的开发者来说, 依然

有很多应战
要去面对。 这些迎接这些应战
的办法

, 则是很多专业的数据可视化开发者不愿意让他人

知道

的秘密

。 ClearStory Data的两位数据可视化开发人员Nate Argrin和 Nick Rabinowitz 在 netmagzine.com上分享了他们总结出来的数据可视化开发的7个秘密

以及在理论
中怎样
应对的方式。秘密

一: 理想
中的数据常常
很丑大部分

数据可视化的教程, 都会让你轻松地从一个原始数据集开端
。 无论你是学习基本

的柱状图还是力导向的网络图, 你的数据都是洁净

的,经过整理的数据。 这些圆满
的JSON或者CSV文件就像电视里的厨艺节目中的灶台那样洁净

整洁。而理论

上, 当你在处置
理想
中的真正的数据是, 你80%的时间得用来搜索
, 获取, 载入, 清洗以及转换你的数据。这样的过程, 有时分
能够

用自动化的工具来完成。 不过, 差不多任何需求
针对两个以上的数据集中止

清洗的工作总会需求
或多或少的人工的工作。有很多工具能够

把XLS文件转化为XML的格式或者把时间戳转换为其他日期格式。但是, 要想把一个公司的内部运用
的销售类型与竞争对手中止

比对, 或者对输入错误中止

检查, 或者对不同的Encoding或者OCR产生出来的文字中止

检查时, 就只能靠手工来处置
了。工具及处置
方式:在数据可视化项目中给数据清洗留出足够的时间, 特别是在需求
处置
多个数据源, 需求
手工录入或者OCR数据, 中止

不同类别的配比, 或者需求
处置
一些非规范

格式时, 需求
留出更多的时间。Google Refine (编者:需求
翻墙)是一个很好的数据清洗工具, 固然

在有些中央
, 特别是处置
非表格化数据时有些缺乏
。 此外, 还有一些数据清洗专用的工具如Data Wranger 和 Mr. Data Converter。 不过, 很多的数据清洗工作依然

需求
你熟习
脚本言语
如Python或者需求
你在Excel里中止

一些手工工作。 记得把你的脚本存档, 你以后肯定用得上。用简单的一些散点图或者直方图来发现一些超正常范围的错误数据。秘密

二: 柱状图常常
更好

和柱状图比起来, 气泡图能够

在同样的空间表现更多地数据, 饼图能够

更明晰
地表现整体和部分

的关系, 树状图能够

更好地表现分层的结构

。但是
, 这些图在简单明了方面都无法与柱状图相比。在思索
数据可视化设计计划

时, 我们要问自己

的第一个问题就是:“这个计划

比柱状图好吗?” 假定

你需求
在一个单一维度上可视化一个可量化的数据集,那么很少有别的方式能比得上柱状图。 相似

的, 时间序列最好表现为线状图, 而散点图普通
用来表现两个线性度量的相关性。 在数据可视化设计中, 运用
这些从18世纪以来就不时

在运用
的图风险最低。 而柱状图关于
中止

数据比较

的可视化来说是最佳方式。 由于
我们人眼最习气
的比较

方式就是将两个东西并排比较

。关于柱状图优先, 其实提示

数据可视化中一个最大的秘密

, 那就是, 那些最酷的可视化常常
用处

反而最小。 最求新奇以及美观的可视化常常
带来一个问题,那就是数据的可了解

问题。 很多柱状图的替代图迫使人们用他们并不擅长的方式中止

比较

, 如比较

面积, 角度, 颜色
, 或者透明度等。 这些比较

, 说好听的, 是增加了比较

的难度,说的严重一些, 可能会对数据中止

扭曲, 招致
运用
者得出错误的结论。工具及处置
方式:不要随意

丢弃
那些传统的可视化方式, 假定

这些方式能够

表现你的数据。 先试试柱状图或者线状图, 假定

你的数据真的需求
其他的再思索
其他图。了解

其他方式
的图的表现优势, 比如

, 气泡图支持更多地数据范围, 饼图支持部分

全局的对比

, 树状图能够

支持分层结构

等等。柱状图是可视化最容易的图形之一, 你能够

手工编写一段HTML代码, 仅仅运用
CSS或者很少量的JavaScript, 或者从Excel里面的一个公式, 就能够

生成一个有效的柱状图来。秘密

三: 真实数据不可替代对一个数据集中止

清洗和格式化曾经
很繁琐了, 假定

你需求
设计一个基于多个数据集的可视化呢? 比如

你需求
把公司不同部门的数据中止

可视化, 而这些部门各自有各自的数据库, 而且你也没有时间手工把每个数据集中止

清洗。 这时分
, 人们的第一想法可能是抓一些Demo的数据来中止

可视化。 而且你的可视化库里可能就有一些规范

的样本数据。很不幸, 真实数据不可替代。 Demo数据普通
遵照
正态散布

而且数据量有限。 是为了展示

可视化用的。 而一个看上去圆满
的柱状图,并不能辅佐

你处置

那些数据缺失, 异常数据或者理想
中的真实问题。 假定

你过度依赖Demo数据, 当你用真实数据时, 你就会发现你的数据可视化设计并不能真正满足你的数据剖析

或者数据表现的需求。工具及处置
方式:假定

你无法访问整个数据集, 无妨
先试试从真实数据集中随机取些样本数据。保管

无效或者缺失数据, 假定

你的数据集在可视化前不准备中止

数据清洗, 那么也不要清洗样本数据。真实数据集或许
过大。 在你运用
样本数据时,在生成最终的可视化图前, 等比例调整样本数据范围
。秘密

四:细节的中央
才最头痛

如上图, 当你水平

排列数据标识时, 数据标识会看不清, 假定

旋转90度, 数据标识是看分明

了, 不过又糜费
了很大一块空间。 选择一个合适

的数据标识格式对有些可视化来说是个处置

计划

, 不过也不是对一切
计划

都适用。设计数据标识, 注释或者横轴纵轴通常都是在初始可视化后才思索
的。 不过这些元素对可视化来说十分

重要, 而且可能会很艰难

或者需求
大量时间才干
把它们做好。 特别是在你无法事前
预知你的数据的状况

下。在设计你的可视化的时分
, 你需求
留出相当部分

的空间以便你可能需求
添加标识只用, 通常要在你的图周围

留出相对较大的空间。 横纵轴上的标识要保证它们不相互

掩盖
而且可读。 假定

必要的话, 能够

将标识中止

旋转来增加可读性。 假定

有一块空间标识过于集中, 而你又需求
这些标识可读, 你能够

让思索
把标识离它们所指的元素远一些, 然后用衔接
线把标识和元素连起来。 另外一种方式就是把标识整合成一个组, 用标识工具提示的方式来中止

可视化。 假定

标识的文字过长, 能够

思索
中止

缩写或者把超出的文字剪掉等方式。相似

的, 对图的注释也需求
事前
计划

好。 最简单的方式就是在可视化中保管

一部分

区域来便当
添加注释。 不过, 这样意味着你的图所占的部分

就会减小。 为了保管

空间, 把注释放在图上的空白部分

。 或者把注释做成可拖拽, 这样用户能够

把注释移开来看注释遮盖的部分

。工具及处置
方式:在设计时把数据标识, 数据轴及注释的空间在图上留好。对数据标识, 定义最大字符数, 超出部分

需求
裁掉。 把相近的标识组合在一同
, 在用户点到时再显现
。对长注释, 能够

思索
用滚动或者展开的方式无论怎样
, 不要忽视

这些元素。 数据标识在你专注图形设计的时分
, 可能不是你的最主要思索
, 不过它们对可视化的用户来说十分

重要。秘密

五:需求
的时分
才用动画可视化的设计者经常希望能够

在最终设计上加上动画。 动画是一种衔接
数据和变化趋向
的十分

有用的工具。 不过动画也常常会招致
对你的数据的错误了解

。 你需求
对它会怎样
影响你的最终效果中止

评价
, 而不是简单地在最终
加上动画效果。 动画最适合

表现的, 是提示

数据怎样
在不同状态下组合在一同
, 怎样
随时间变化或者是怎样
相互

影响的等场所
。普通
的设计准绳
是, 动画要简单, 可预测并且能够

重新播放。 让用户能够

多次

播放动画, 能够

让他们看到动画元素从哪里开端
到哪里中止
。 要避免

不同元素在移动

中相互

掩盖
, 不要让元素的运动不可预测。 关于
复杂的动画, 研讨
标明
, 能够

把动画合成
为几个不同的阶段,在每个阶段暂停一会给用户一些时间来体会

。 这样有助于进步
用户的了解

。工具及处置
方式:尽可能让动画简单假定

动画复杂或者有很多动画元素, 能够

思索
分阶段动画一开端
动画常常
能够

给人新颖
感, 不过会很快让用户感到厌倦。 不要仅仅由于
你会加动画就在你的可视化你加上动画。秘密

六: 数据可视化不是剖析

数据可视化能够

产生一些剖析

结果, 不过需求
指出的是, 可视化是一个辅助剖析

的工具, 而不是数据剖析

的替代, 它也不是统计的替代: 你的图形可能提示

了一些数据差别

或者数据的相关性。 不过, 要得出存在这些差别

和相关性的牢靠

结论, 还需求
运用统计的办法

。 要对你的数据真正了解

, 需求
剖析

的技艺
, 以及专业的学问
。 不要希望
可视化能够

给你这些。 因而

, 在中止

可视化项目的时分
, 要调整客户或者你的CEO的希冀
值。工具及处置
方式:除非你就是数据剖析

师, 你对数据可视化得出的结论不要随意

下判别
。 假定

需求
中止

结论, 最好找一个统计师或者专业人士一同
考证
后再给结论。一些细小的设计改动
, 比如

调色板的变化, 对某个变量的可视化方式等, 都可能改动
可视化得出的结论。 假定

你用可视化中止

剖析

, 一定要试试多种可视化方式, 而不要依赖于一种方式。Stephen Few的 书“Now You See It”里面引见
了应用
可视化中止

商业剖析

的方式, 包括对开发者怎样
设计可供剖析

运用
的可视化工具的一些倡议

, 读者能够

参考秘密

七: 数据可视化不只
仅是编程往常

大量的可视化编程库和教程使得普通的人员在中止

基于Web的可视化中, 也能够

设计出高质量的可视化产品。 但是
, 要想真正设计一个能够

提供深化
见解, 或者能够

分明

表达的可视化产品, 除了编程之外, 还需求
很多其他的技艺
。 比如

图像设计, 数据剖析

, 交互设计, 以及对人们认知的了解

等候
。 这些技艺
, 是那些可视化编程库提供不了的。不过, 好音讯

是,假定

你坚持采用一些数据可视化的基本

准绳
的话。你也不需求
对这些技艺
了解

太多。关于
初学者来说, 需求
坚持一些最基本

的准绳
, 比如

, 尽量运用
柱状图, 不要把圆半径设置按线性比例设定(编者: 在面积比较

时会给用户错误了解

), 设计要简单(不要用3D, 少用动画, 不要用阴影)等。 依照

一些好的可视化样本, 初学者也能够

发明

出好的可视化作品来。

数极客是国内新一代用户行为剖析

平台,支持APP数据剖析

网站数据剖析

,首创
了6大转化率剖析

模型,在数据剖析

方面,初次
提出拆分定量剖析

与定性剖析

办法

,并且基于用户行为剖析

,提供了会员营销管理系统A/B测试工具两大处置

计划

,能够

快速的完成
数据驱动增长。

发表评论

评论已关闭。

相关文章