数极客首页

决策树(专家药物模型)操作案例

依据

常用案例专家药物模型运用
SmartMining桌面版,以决策树算法为背景,阐明

大数据怎样
构建专家诊病模型,以及怎样
经过
可视化探求

数据,完成
决策树同样的计算结果!案例偏重

大数据思想
的构成
和可视化探求

数据挖掘

中重要作用有所体验。专家预测模型工作流如下:

 

1)商业目的

业务了解

该案例所用的数据是一份模仿

医生诊病的数据,如下:

在处置
一个陌生

的业务时,一是直接从业务中学习,二是从数据中学习业务。从图中能够

看出,其中,年龄、性别、血压、胆固醇、钠、钾是病人的指标,而药物是医生针对病人的状况

开出的药物。

肯定
业务目的
树立
专家诊病系统,当把病人的指标输入到该系统时,系统会自动输出该给此类病人开出的药物。中心
关键就是将业务目的
转化为数据挖掘

目的

数据挖掘

目的
树立
专家诊病模型,该模型以病人的病例指标为输入,以药物为目的
,树立
预测模型,该模型能够

依据

输入指标的值,计算预测值(药物)。

操作完成

2)新建工作流

能够

点击文件菜单下的“新建”开端
创建

工作流。点击后会弹出以下导游
界面:

输入工作流的名字后即可完成创建

 

3)导入数据

此时要依据

数据存储文件的格式选择相应的导入节点。在这里由于数据源是CSV文件,因而

能够

选择CSV导入节点(也能够

运用
可变文件)。左侧节点库中CSV导入节点拖到右侧的工作流中。双击节点或者右键菜单当选

择“配置”,弹出如下配置窗口:

点击<阅读
>按钮,选择相应的数据文件。

留意
,依据

数据表的数据结构

中止

配置,此数据如图配置即可。配置好之后点击<确认>。

节点下方的预警符号从变为黄色阐明

配置正确,黄色表示节点能够

执行。红色表示节点尚未配置或者配置有误,此时节点不可执行。单击节点,点击右键菜单的或者点击工具栏的,即可执行工作流。执行完成后预警符号变成绿色。

点击右键菜单的文件表能够

查询数据。

4)了解

数据

运用
统计学习菜单下的数据审核能够

对数据中止

描画

,这是建模之前必需求

做的工作,一方面是为了设计合理的实施

计划

,另外一方面也是为了更好的选择合适

的算法。

将数据审核节点与数据源节点衔接
,右键单击执行,执行终了

之后,右键点击查看统计视图。结果如下图:

从中能够

看出每种分类变量的取值及每种取值的个数。比如

,从这里我们能够

看出药物字段一共包含五种取值,且呈现
最多的是Y药物。在这里目的
变量为分类型,因而

只能选择分类预测类模型,如决策树、逻辑回归等。

5)预建模

接下来便是尝试建模,看看建模效果。

第一
,从数据准备>列菜单下选择类型转换节点。由于性别、血压、胆固醇三个字段理论

存储类型该是字符型,但这里是整型,因而

为了便于以下剖析

,运用
类型转换节点将它们的类型从整型转化为字符型。在数据挖掘

过程汇总,一定要留意
数据类型。配置如下:

第二
,运用
类型节点指定目的
变量的角色,将药物的角色设为目的

在中止

模型构建的时分
一定要肯定
字段的角色,给算法以明白
的指示。

然后,选择分类预测节点,由于
目的
变量(药物)为分类型。此处我们重点学习决策树算法。节点衔接
如工作流所示,在决策树节点配置当选

择目的
变量药物。其中,决策树节点衔接
分区节点。决策树锻炼
节点能够

采用默许
配置,无需修正
配置,如下:

最终
,运用
评价
节点评价
模型的精确

性,默许
无需配置。评价
结果:

从表3中能够

看出,模型测试精确

度为97.5%,误判2.5%。但是测试数据的错误率抵达

了15%。普通
我们经过

区节点将数据分为锻炼
数据和测试数据,这样做主要的目的
是检测模型能否
存在过度拟合,假定

没有测试数据集,单独看模型的锻炼
结果很好,但是这样的模型在理论

中的顺应
性比较

差。

祝贺

你完成了一个简化的数据预建模过程。

从本模型看,预测的精确

性比较

高,,但是模型的应用结果不好,我们继续尝试,看能否
还有优化的可能。

6)数据探求

数据探求

最中心
的一项工作就是探求

输入变量与目的
变量(自变量与因变量)的相关性。剖析

变量的相关性能够

运用
相关性计算,也能够

运用
图形剖析

,然后
者直观常用。剖析

两个分类型变量能够

运用
条形图、散点图或者直方图。剖析

两个数值型变量能够

运用
散点图。剖析

一个数值型变量和一个分类型变量能够

运用
直方图。剖析

两个字符型变量的关系能够

运用
条形图。

选择交互条形图中止

字符串字段的可视化探求

。(节点在可视化探求

>交互视图>交互条形图)。分类字段选择目的
字段药物,颜色标志
选择字符型的字段。经过
察看

条形图,我们来看药物与几个字段间的相关性。

经过
剖析

,血压和药物字段有着强相关性,由于
从图中能够

看出运用
药物B和药物A的人都是高血压(3表示高血压,2表示正常,1表示低血压),运用
药物C的人都是正常,这种很明细的规律反映出两个字段间存在很强的相关关系,如下图所示:

同理,胆固醇和选择药物之间也有一定相关性,而性别和选择药物相关性不大,如下图所示:

接下来剖析

数值型字段的相关性,此时我们运用
条形图。从图中能够

看出血液中的钠和钾相关性很弱或者没有。从图形化的方式判别
相关性强弱的办法

就是看图形中的规律,规律越显然
,相关性就越强,否则越弱。

就此图来说,散点图中的每一个点表示一个病例,而我们最想知道

的还不是钠和钾的相关性,而是两者与药物的相关性,由于
药物才是我们剖析

的目的
。所以我们还想知道

散点图中的每个病例运用
的什么药物。可视化探求

的中心
是目的
变量与输入变量的关系,所以探求

不能够

脱离目的
变量。

因而

,我们运用
药物作为颜色辨别

,重新修正散点图。如下:

从图中可见,下三角区都是深蓝色,阐明

这部分

病例运用
的都是Y药物。这是很显然
的规律,阐明

这里面有一种很强的关联。用数学的言语
来描画

,就是钠和钾的比例与药物有很强的相关性。因而

,我们发现了一个很重要的变量就是钠和钾的比例。因而

,我们能够

派生一个变量:钠钾比。

7)优化输入

第一
,运用
派生字段节点或者Java代码段节点生成钠钾比字段。配置如下:

第二
,运用
过滤节点过滤钠和钾字段,尝试在不适用钠、钾字段,而引入钠钾比字段的,经过
以上的可视化探求

,性别与药物的相关性不强,也过滤掉。所以,配置如下:

过滤后预览数据如下(右键执行,执行完成后,右键查看数据表):

 

8)重新建模

模型整体评价
如下:

我们点击决策树节点右键查看变量重要性视图。

结果如下所示:

从评价
图中可看出,模型精度从原来的85%提升带了100%。当然理论

中假定

遇到预测精度为100%的状况

一定就是错的。

下面我们再来解读一下得到的决策树模型,能够

直观的了解

决策树算法。如下图所示:

从整体来看,得此类病的人有大约一半的人(45%)选择服用了Y药物;

假定

病人血液中钠和钾的比例大于14.8285,则选择服用Y药物,精确

率为100%;

假定

病人血液中钠和钾的比例不大于14.8285,若全部判成X药物精确

率只需

47.5%,因而

再看病人的另外一个指标血压;

假定

血压(其值有1、2和3)为2,则全部判为X药物,精确

率为100%;

假定

血压为1,全部判为C药物,精确

率仅50%。再看另外一个指标胆固醇,若胆固醇的值为1,全部判为X药物,则精确

率为100%。若胆固醇的值为2,全部判为C药物,则精确

率为100%。

假定

血压为3,全部判为A药物,则精确

率仅56.8%。再看另外一个指标年龄,若年龄大于50.5岁,判为B药物,则精确

率100%。若年龄不大于50.5岁,判为A药物,精确

率为100%。

总结

第一,在建模中,应该留意
过拟合问题。在商业中建模的目的是为了商业应用,因而

不只
要保证模型的精确

性,更要保证模型的稳定性。

第二,模型应用的中心
是模型的风险控制。只需

能够

控制风险的模型才能够

运用
,否则不论

理论模型建的多么漂亮都是没有理论

意义的。

第三,数据挖掘

的成果并不只是数学模型,数据挖掘

也不等价于高级模型(如决策树、神经网络等)。数据挖掘

关键是理论

应用与指导。

第四,数据挖掘

的一个中心
工作就是图形化探求

,貌似很简单却又最为重要。由于
这是数据挖掘

思绪
的源泉。

本文由?莱信学院 投稿?数据剖析

网 发表,并经数据剖析

网编辑。版权归作者一切
,转载此文请与作者联络

发表评论

评论已关闭。

相关文章