数极客首页

数据挖掘中的十大实用分析方法

数据挖掘中的十大适用剖析办法

1.基于历史的MBR剖析

基于历史(Memory-Based Reasoning)的MBR剖析

办法

最主要的概念是用已知的案例(case)来预测未来

案例的一些属性(aribute),通常找寻最相似

的案例来做比较

MBR中有两个主要的要素,分别为距离

函数(distance function)与分别

函数(comBIation function)。距离

函数的企图

在找出最相似

的案例;分别

函数则将相似

案例的属性分别

起来,以供预测之用。

MBR的优点是它允许
各种型态的数据,这些数据不需服从某些假定
。另一个优点是其具备学习才干

,它能藉由旧案例的学习来获取关于新案例的学问
。较令人诟病的是它需求
大量的历史数据,有足够的历史数据方能做良好的预测。此外记忆基础

推理法在处置
上亦较为费时,不易发现最佳的距离

函数与分别

函数。其可应用的范围包括诈骗
行为的侦测、客户反响
预测、医学诊疗、反响
的归类等方面。

2.购物篮剖析

购物篮剖析

(Market Basket Analysis)最主要的目的在于找出什么样的东西应该放在一同
?商业上的应用在藉由顾客的置办

行为来了解

是什么样的顾客以及这些顾客为什么买这些产品, 找出相关的联想(association)规则,企业藉由这些规则的挖掘

取得

利益与树立
竞争优势。举例来说,批发
店可藉由此剖析

改动
置物架上的商品排列或是设计 吸收
客户的商业套餐等等。

购物篮剖析

基本

运作过程包含下列三点:

选择正确的品项:这里所指的正确乃是针对企业体而言,必需求

在数以百计、千计品项当选

择出真正有用的品项出来。

经由对共同发作
矩阵(co-occurrence matrix)的讨论
挖掘

出联想规则。

抑止

理论

上的限制:所选择的品项愈多,计算所耗费

的资源与时间愈久(呈现指数递增),此时必需
运用一些技术以降低资源与时间的损耗。

购物篮剖析

技术能够

应用在下列问题上:针对信誉
卡购物,能够

预测未来

顾客可能置办

什么。关于
电信与金融效劳
业而言,经由购物篮剖析

能够

设计不同的效劳
组合以扩展
利润。保险业能藉由购物篮剖析

侦测出可能不寻常的投保组兼并
作预防。对病人而言,在疗程的组合上,购物篮剖析

能作为能否
这些疗程组合会招致
并发症的判别
依据

3.决策树

决策树(Decision Trees)在处置

归类与预测上有着极强的才干

,它以规律
的方式表达,而这些规律
则以一连串的问题表示出来,经由不时
讯问
问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录合成
成不同的子集,每个子集中的字段可能都包含一个简单的规律
。此外,决策树可能有着不同的外型,例如二元 树、三元树或混和的决策树型态。

4.遗传算法

遗传算法(Genetic Algorithm)学习细胞演化的过程,细胞间可经由不时
的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很相似

,它必需
预先树立
好一个方式

,再经由一连串相似

产生新细胞过程的运作,应用
适合

函数(fitness function)决议
所产生的后代能否
与这个方式

吻合,最终
仅有最吻合的结果能够

存活,这个程序不时

运作直到此函数收敛到最佳解。基因算法在群集 (cluster)问题上有不错的表现,普通
可用来辅助记忆基础

推理法与类神经网络的应用。

5.聚类剖析

聚类剖析

(Cluster Detection)这个技术涵盖范围相当普遍
,包含基因算法、类神经网络、统计学中的群集剖析

都有这个功用
。它的目的
为找出数据中以前未知的相似

群体,在许许多多的剖析

中,刚开端
都运用到群集侦测技术,以作为研讨
的开端。

6.衔接
剖析

衔接
剖析

(Link Analysis)是以数学中之图形理论(graph theory)为基础

,藉由记载
之间的关系展开

出一个方式

,它是以关系为主体,由人与人、物与物或是人与物的关系展开

出相当多的应用。例如电信效劳
业可藉连结剖析

搜集
到顾客运用
电话的时间与频率,进而推断顾客运用
偏好为何,提出有利于公司的计划

。除了电信业之外,愈来愈多的营销业者亦应用
连结剖析

做有利于 企业的研讨

7.OLAP剖析

严厉
说起来,OLAP(On-Line Analytic Processing;OLAP)剖析

并不算特别的一个数据挖掘

技术,但是透过在线剖析

处置
工具,运用
者能更分明

的了解

数据所躲藏
的潜在意涵。似乎

一些视觉处置
技术普通
,透过图表或图形等方式显现,对普通
人而言,觉得
会更友善。这样的工具亦能辅助将数据转变成信息的目的

8.神经网络

神经网络是以重复

学习的办法

,将一串例子交与学习,使其归结
出一足以辨别

的样式

。若面对新的例证,神经网络即可依据

其过去学习的成果归结
后,推导出新的结果,乃属于机器学习的一种。数据挖掘

的相关问题也可采类神经学习的方式,其学习效果十分

正确并可做预测功用

9.判别剖析

当所遭遇问题它的因变量为定性(categorical),而自变量(预测变量)为定量(metric)时,判别剖析

为一十分

恰当
之技术,通常应用在处置

分类的问题上面。若因变量由两个群体所构成,称之为双群体 —判别剖析

(Two-Group Discriminant Analysis);若由多个群体构成,则称之为多元判别剖析

(Multiple Discriminant Analysis;MDA)。

a. 找出预测变量的线性组合,使组间变异相关于
组内变异的比值为最大,而每一个线性组合与先前曾经
取得

的线性组合均不相关。

b. 检定各组的重心能否
有差别

c. 找出哪些预测变量具有最大的区别才干

d. 依据

新受试者的预测变量数值,将该受试者指派到某一群体。

10.逻辑回归剖析

当判别剖析

中群体不契合
正态散布

假定
时,逻辑回归剖析

是一个很好的替代办法

。逻辑回归剖析

并非预测事情
(event)能否
发作
,而是预测该事情
的机率。它将自变量与因变量的关系假定是S行的外形
,当自变量很小时,机率值接近为零;当自变量值慢慢

增加时,机率值沿着曲线增加,增加到一定水平

时,曲线协 率开端
减小,故机率值介于0与1之间。

姓名:杨凯航 学号:17101223381

出处:http://www.cnn6.net/html/BIgdata/20171010/202649.html

发表评论

评论已关闭。

相关文章