数极客首页

数据可视分析中的知识产生模型

摘要:可视剖析

技术曾经
展开

了近十年。在这些年间,人们研讨
了大量的可视剖析

办法

和案例,发表了不少研讨
论文。但是
,关于
一些基本

问题,人们依然

没有明白
的答案。例如,一个基本

的可视剖析

流程是怎样的?一个可视剖析

系统应该包含哪几个组件?怎样
评价和比较

不同的可视剖析

系统?

在VAST’2014的一篇论文中[1],Sacha等人提出了一个可视剖析

模型,系统性的回答

了以上问题。

如图1所示,他们的模型包含左边计算机的部分

和右边人的部分

。在计算机部分

中,数据被绘制为可视化图表,同时也经过
模型中止

整理和挖掘

。可视化图表既能够

显现
原始数据的特性,也能够

显现
模型的结果。用户也能够

基于可视化图表来对模型中止

调整,指导建模过程。在人的部分

中,作者提出了三层循环:探求

循环、考证
循环和学问
产生循环。在探求

循环中,人们经过
模型输出和可视化图表寻觅
数据中可能存在的方式

,基于此采取一系列行动,例如改动
参数,去产生得到新的模型输出和新的可视化图表。这样做的动机在考证
循环之中:人们经过
方式

洞察到数据的特性
,产生可能的猜测

。这些猜测

的考证
正是基于探求

循环中的行动。最终
,在考证
循环之上有学问
循环,不时
的搜集
考证
循环中已被考证
的猜测

,总结为学问

阐明

数据可视剖析中的学问产生模型

图 1. 可视剖析

中的学问
产生模型

本模型的提出是树立
在已有的各种模型的基础

之上的,如图2所示。例如,之前的信息可视化流程图描画

了怎样
从数据产生可视化图表,数据挖掘

流程图则描画

了怎样
对数据中止

预处置
和建模并最终得到剖析

结果。之前的交互步骤模型描画

了人在剖析

过程中的评价、目的
产生和执行步骤,意义构建模型则描画

了人在整个剖析

过程中对问题了解

的加深。它们在本模型中被合成
为三层循环。此外,众多的交互词汇系统的描画

了探求

循环中的行为。

数据可视剖析中的学问产生模型

图 2. 本模型和已有模型之间的关系

作者应用
本模型对一些理论

的可视剖析

系统中止

了评价和比较

,如图3所示。Jigsaw是一款免费的文本可视剖析

系统[2],它能够

读入文本数据,自动提取实体,树立
主题模型,因而

强于建模。此外,它提供了一系列可视化图表来显现
文本的各种特征,因而

也强于可视化。它的许多可视化,例如文件聚类视图,是基于主题模型的,因而

能够

算是对模型的可视化。用户能够

在多种视图之间切换,改动
各种视觉特性,因而

它很好的支持了探求

循环。此外,它还提供了tablet视图,允许用户记载
自己

的发现,并整理归类,提供了一定的考证
循环支持。但是
,Jigsaw不支持对原始数据预处置
,也不太支持模型参数选择。

Weka是一款免费的数据挖掘

系统 [3],它允许用户对数据中止

一系列的预处置
,例如数据删除、离散化、文本分词等等,同时支持大量的数据挖掘

算法,涵盖了各种分类、聚类、关联规则挖掘

模型。但是该系统支持的可视化相当有限,例如显现
散点图矩阵,或者显现
决策树结果、显现
神经网络结构

。另外,用户探求

仅限于改换
预处置
办法

和改换
模型,功用
较为简单。用户无法整理自己

的发现,因而

该系统对考证
循环的支持并不好。

Tableau是一款商业化的可视化系统 [4],它允许用户经过
漂亮的UI来预处置
数据,经过
简单的拖拽来设计各种可视化图表。但是不时

以来,它支持的模型很有限,直到今年,Tableau支持了R言语
,它才真正用于建模功用
。Tableua支持灵活

的数据探求

。它还支持spreadsheet和storyboard等强大的功用
,能够

生成MLV视图和相似

powerpoint的演示界面。这些都是对考证
循环的支持。

Space是一款商业化的文本剖析

系统 [5],固然
它对数据预处置
和数学模型的支持很弱,但是它提供了多种可视化图表显现
数据的不同特征。这些图表能够

较好的支持数据探求

循环。最为与众不同的是,nSpace提供了sandbox界面用于组织用户的发现,并生成结果报告。该功用
比Jigsaw的tablet和Tableau的storyboard更为强大,能较好的支持考证
循环。

数据可视剖析中的学问产生模型

图 3.应用
本模型对不同的可视剖析

系统中止

评价和比较

作者也谈到,本模型具有一些局限性,比如

未思索
多个剖析

人员之间的协作与交流,未思索
不同可视剖析

系统之间的切换,未思索
剖析

人员和范畴
专家、政府官员之间的沟通,未思索
动态变化的流数据。这些问题能够

进一步研讨

基于此模型,作者瞻望

了未来

可视剖析

的研讨
方向。例如,在探求

循环中,研讨
者能够

更多的思索
经过
可视化与数学模型中止

交互的技术,也能够

思索
怎样
引导用户快速系统的发现数据中的方式

,或者怎样
自动检测方式

。在考证
循环中,研讨
者能够

怎样
保管
之间的探求

结果,以便当
回溯,考证
其牢靠

性。研讨
者能够

思索
怎样
组织不同的探求

结果,辅助用户产生假定
,致使

自动产生假定
。在学问
发现循环中,研讨
者能够

做的比较

少。毕竟,学问
发现只在人脑中。但研讨
者能够

提供更多更便当
的可视化视图和数学模型,便当
用户从多个角度思索
同一个数据、同一个问题。这样,或许
用户更容易最终得到有用的学问

[1] Dominik Sacha, Andreas Stoffel, Florian Stoffel, Bum Chul Kwon, Geoffrey Ellis, and Daniel Keim, Knowledge Generation Model for Visual Analytics, IEEE Trans. Vis. Comput. Graph. (VAST’14), 2014, to appear.

[2] C. G?rg, Z. Liu, J. Kihm, J. Choo, H. Park, and J. T. Stasko. Combining Computational Analyses and Interactive Visualization for Document Exploration and Sensemaking in Jigsaw, IEEE Trans. Vis. Comput. Graph., 19(10):1646–1663, 2013.

[3] Weka 3: Data Mining Software in Java, http://www.cs.waikato.ac.nz/ml/weka/

[4] Tableau: Visual Analytics for Everyone, http://www.tableausoftware.com/

[5] nSpace: Web 2.0 Analysis, http://www.oculusinfo.com/nspace/

本文采用「CC BY-SA 4.0 CN」协议转载学习交流,内容版权归原作者一切
,如涉作品、版权和其他问题请联络
「我们」处置

发表评论

评论已关闭。

相关文章