数极客首页

数据挖掘知识点整理

1.数据、信息和学问
是广义数据表现的不同方式

2.主要学问
方式

类型有:广义学问
,关联学问
,类学问
,预测型学问
,特异型学问

3.web挖掘

研讨
的主要流派有:Web结构

挖掘

、Web运用
挖掘

、Web内容挖掘

4.普通
地说,KDD是一个多步骤的处置
过程,普通
分为问题定义、数据抽取、数据预处置
、.数据挖掘

以及方式

评价
等基本

阶段。

5.数据库中的学问
发现处置
过程模型有:阶梯处置
过程模型,螺旋处置
过程模型,以用户为中心的处置
结构

模型,联机KDD模型,支持多数据源多学问
方式

的KDD处置
模型

6.粗略地说,学问
发现软件或工具的展开

阅历
了独立的学问
发现软件、横向的学问
发现工具集和纵向的学问
发现处置

计划

三个主要阶段,其中后面两种反映了目前学问
发现软件的两个主要展开

方向。

7.决策树分类模型的树立
通常分为两个步骤:决策树生成,决策树修剪。

8.从运用
的主要技术上看,能够

把分类办法

归结为四种类

型:

a) 基于距离

的分类办法

b) 决策树分类办法

c) 贝叶斯分类办法

d) 规则归结
办法

9.关联规则挖掘

问题能够

划分红
两个子问题:

a)?发现频繁项目集:经过
用户给定Minsupport ,寻觅
一切
频繁项目集或者最大频繁项目集。

b)?生成关联规则:经过
用户给定Minconfidence ,在频繁项目集中,寻觅
关联规则。

10.?数据挖掘

是相关学科充沛

展开

的基础

上被提出和展开

的,主要的相关技术:

数据库等信息技术的展开

统计学深化
应用

人工智能技术的研讨
和应用

11.?权衡
关联规则挖掘

结果的有效性,应该从多种综合角度来思索

a?精确

性:挖掘

出的规则必需
反映数据的理论

状况

b?适用
性:挖掘

出的规则必需
是简约
可用的。

c?新颖性:挖掘

出的关联规则能够

为用户提供新的有价值信息。

12.?约束的常见类型有:

单调性约束;

反单调性约束;

可转变的约束;

简约
性约束.

13.?依据

规则中触及
到的层次,多层次关联规则能够

分为:

同层关联规则:假定

一个关联规则对应的项目是同一个粒度层次,那么它是同层关联规则。

层间关联规则:假定

在不同的粒度层次上思索
问题,那么可能得到的是层间关联规

14.?依照

聚类剖析

算法的主要思绪
,聚类办法

能够

被归结
为如下几种。

划分法:基于一定规范

构建数据的划分。

属于该类的聚类办法

有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。

层次法:对给定数据对象汇合

中止

层次的合成

密度法:基于数据对象的相连密度评价。

网格法:将数据空间划分红
为有限个单元(Cell)的网格结构

,基于网格结构

中止

聚类。

模型法:给每一个簇假定一个模型,然后去寻觅
能够

很好的满足这个模型的数据集。

15.?类间距离

的度量主要有:

最短距离

法:定义两个类中最靠近的两个元素间的距离

为类间距离

最长距离

法:定义两个类中最远的两个元素间的距离

为类间距离

中心法:定义两类的两个中心间的距离

为类间距离

类平均

法:它计算两个类中恣意
两个元素间的距离

,并且综合他们为类间距离

离差平方和。

16.?层次聚类办法

细致

可分为:

凝聚的层次聚类:一种自底向上的战略
,第一
将每个对象作为一个簇,然后兼并
这些原子簇为越来越大的簇,直到某个终结条件被满足。

团结
的层次聚类:采用自顶向下的战略
,它第一
将一切
对象置于一个簇中,然后逐步

细分为越来越小的簇,直到抵达

了某个终结条件。

层次凝聚的代表是AGNES算法。层次团结
的代表是DIANA算法。

17.?文本挖掘

(TD)的方式和目的
是多种多样的,基本

层次有:

关键词检索:最简单的方式,它和传统的搜索技术相似

挖掘

项目关联:聚焦在页面的信息(包括关键词)之间的关联信息挖掘

上。

信息分类和聚类:应用
数据挖掘

的分类和聚类技术完成
页面的分类,将页面在一个更到层次上中止

笼统
和整理。

自然言语
处置
:提示

自然言语
处置
技术中的语义,完成
Web内容的更精确

处置

18. ?在web访问挖掘

中常用的技术:

途径
剖析

途径
剖析

最常用的应用是用于判定

在一个Web站点中最频繁访问的途径
,这样的学问
关于
一个电子商务网站或者信息安全

评价
是十分

重要的。

关联规则发现

运用
关联规则发现办法

能够

从Web访问事务集中,找到普通
性的关联学问

序列方式

发现

在时间戳有序的事务集中,序列方式

的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务方式

分类

发现分类规则能够

给出辨认

一个特殊群体的公共属性的描画

。这种描画

能够

用于分类新的项。

聚类

能够

从Web Usage数据中汇集

出具有相似

特性的那些客户。在Web事务日志中,聚类顾客信息或数据项,就能够

便于开发和执行未来

的市场战略。

 

19.?依据

功用
和偏重

点不同,数据挖掘

言语
能够

分为三种类

型:

数据挖掘

查询言语
:希望以一种像SQL这样的数据库查询言语
完成数据挖掘

的任务。

数据挖掘

建模言语
:对数据挖掘

模型中止

描画

和定义的言语
,设计一种规范

的数据挖掘

建模言语
,使得数据挖掘

系统在模型定义和描画

方面有规范

能够

遵照

通用数据挖掘

言语
:通用数据挖掘

言语
兼并
了上述两种言语
的特性
,既具有定义模型的功用
,又能作为查询言语
与数据挖掘

系统通讯
,中止

交互式挖掘

。通用数据挖掘

言语
规范

化是目前处置

数据挖掘

行业呈现
问题的颇具吸收
力的研讨
方向。

20.?规则归结
有四种战略
:减法、加法,先加后减、先减后加战略

减法战略
:以细致

例子为动身
点,对例子中止

推行
或泛化,推行
即减除条件(属性值)或减除合取项(为了便当
,我们不思索
增加析取项的推行
),使推行
后的例子或规则不掩盖
任何反例。

加法战略
:起始假定
规则的条件部分

为空(永真规则),假定

该规则掩盖
了反例,则不停地向规则增加条件或合取项,直到该规则不再掩盖
反例。

先加后减战略
:由于属性间存在相关性,因而

可能某个条件的参与

会招致
前面参与

的条件没什么作用,因而

需求
减除前面的条件。

先减后加战略
:道理同先加后减,也是为了处置
属性间的相关性。

21.?数据挖掘

定义有广义和狭义之分。

从广义的观念
,数据挖掘

是从大型数据集(可能是不完好

的、有噪声的、不肯定
性的、各种存储方式
的)中,挖掘

隐含在其中的、人们事前
不知道

的、对决策有用的学问
的过程。

从这种狭义的观念
上,我们能够

定义数据挖掘

是从特定方式
的数据集中提炼学问
的过程。

22.?web挖掘

的含义: 针对包括Web页面内容、页面之间的结构

、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘

办法

以辅佐

人们从因特网中提取学问
,为访问者、站点运营
者以及包括电子商务在内的基于因特网的商务活动提供决策支持。

23.?K-近邻分类算法(K Nearest Neighbors,简称KNN)的定义:经过
计算每个锻炼
数据到待分类元组的距离

,取和待分类元组距离

最近的K个锻炼
数据,K个数据中哪个类别的锻炼
数据占多数,则待分类元组就属于哪个类别。

24. K-means算法的性能剖析

主要优点:

是处置

聚类问题的一种经典算法,简单、快速。

对处置
大数据集,该算法是相对可伸缩和高效率的。

当结果簇是密集的,它的效果较好。

主要缺陷

在簇的平均

值被定义的状况

下才干
运用
,可能不适用于某些应用。

必需
事前
给出k(要生成的簇的数目),而且对初值敏感,关于
不同的初始值,可能会招致
不同结果。

不适合

于发现非凸面外形
的簇或者大小差别

很大的簇。而且,它关于
“躁声”和孤立点数据是敏感的。

25. ?ID3算法的性能剖析

ID3算法的假定
空间包含一切
的决策树,它是关于现有属性的有限离散值函数的一个完好
空间。所以ID3算法避免

了搜索不完好
假定
空间的一个主要风险:假定
空间可能不包含目的
函数。

ID3算法在搜索的每一步都运用
当前的一切
锻炼
样例,大大降低了对个别锻炼
样例错误的敏理性
。因而

,经过
修正
终止准绳

,能够

容易地扩展四处

含有噪声的锻炼
数据。

ID3算法在搜索过程中不中止

回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到部分

最优而不是全局最优。

26. ?Apriori算法有两个致命的性能瓶颈:

a多次

扫描事务数据库,需求
很大的I/O负载

对每次k循环,侯选集Ck中的每个元素都必需
经过
扫描数据库一次来考证
其能否
参与

Lk。假定

有一个频繁大项目集包含10个项的话,那么就至少需求
扫描事务数据库10遍。

b.可能产生庞大的侯选集

由Lk-1产生k-侯选集Ck是指数增长的,例如104个1-频繁项目集就有可能产生接近107个元素的2-侯选集。如此大的侯选集对时间和主存空间都是一种应战
。a基于数据分割的办法

:基本

原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。

27. ?改善Apriori算法顺应
性和效率的主要的改进

办法

有:

a基于数据分割(Partition)的办法

:基本

原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。

b基于散列的办法

:基本

原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。

c基于采样的办法

:基本

原理是“经过
采样技术,评价
被采样的子集中,并依次来估量
k-项集的全局频度”。

d其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来

的扫描结果不会产生影响,因而

能够

删除”。

28. ?面向Web的数据挖掘

比面向数据库和数据仓库的数据挖掘

要复杂得多:

a异构数据源环境:Web网站上的信息是异构: 每个站点的信息和组织都不一样;存在大量的无结构

的文本信息、复杂的多媒体信息;站点运用
战争

性、私密性央求

各异等等。

b数据的是复杂性:有些是无结构

的(如Web页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构

的(如Email,HTML页)。当然有些具有很好的结构

(如电子表格)。揭开这些复合对象蕴涵的普通
性描画

特征成为数据挖掘

的不可推脱
的义务

c动态变化的应用环境:

Web的信息是频繁变化的,像新闻、股票等信息是实时更新的。

这种高变化也体往常

页面的动态链接和随机存取上。

Web上的用户是难以预测的。

Web上的数据环境是高噪音的。

29. ?简述学问
发现项目的过程化管理I-MIN过程模型。

MIN过程模型把KDD过程分红
IM1、IM2、…、IM6等步骤处置
,在每个步骤里,集中讨论几个问题,并按一定的质量规范

来控制项目的实施

IM1任务与目的:它是KDD项目的计划

阶段,肯定
企业的挖掘

目的
,选择学问
发现方式

,编译学问
发现方式

得到的元数据;其目的是将企业的挖掘

目的
嵌入到对应的学问
方式

中。

IM2任务与目的:它是KDD的预处置
阶段,能够

用IM2a、IM2b、IM2c等分别对应于数据清洗、数据选择和数据转换等阶段。其目的是生成高质量的目的
数据。

IM3任务与目的:它是KDD的挖掘

准备阶段,数据挖掘

工程师中止

挖掘

实验,重复

测试和考证
模型的有效性。其目的是经过
实验和锻炼
得到浓缩学问
(Knowledge Concentrate),为最终用户提供可运用
的模型。

IM4任务与目的:它是KDD的数据挖掘

阶段,用户经过
指定数据挖掘

算法得到对应的学问

IM5任务与目的:它是KDD的学问
表示阶段,按指定央求

构成
规格化的学问

IM6任务与目的:它是KDD的学问
解释与运用
阶段,其目的是依据

用户央求

直观地输出学问
或集成到企业的学问
库中。

30. ?改善Apriori算法顺应
性和效率的主要的改进

办法

有:

a基于数据分割(Partition)的办法

:基本

原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。

b基于散列(Hash)的办法

:基本

原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。

c基于采样(Sampling)的办法

:基本

原理是“经过
采样技术,评价
被采样的子集中,并依次来估量
k-项集的全局频度”。

d其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来

的扫描结果不会产生影响,因而

能够

删除”。

31. ?数据分类的两个步骤是什么?

a树立
一个模型,描画

预定的数据类集或概念集

数据元组也称作样本、实例或对象。

为树立
模型而被剖析

的数据元组构成
锻炼
数据集。

锻炼
数据集中的单个元组称作锻炼
样本,由于提供了每个锻炼
样本的类标号,因而

也称作有指导的学习。

经过
剖析

锻炼
数据集来结构

分类模型,可用分类规则、决策树或数学公式等方式
提供。

b运用
模型中止

分类

第一
评价
模型(分类法)的预测精确

率。

假定

以为
模型的精确

率能够

接受

,就能够

用它对类标号未知的数据元组或对象中止

分类。

32. ?web访问信息挖掘

的特性

Web访问数据容量大、散布

广、内涵丰厚
和形态多样

一个中等大小的网站每天能够

记载几兆的用户访问信息。

普遍
散布

于世界各处。

访问信息形态多样。

访问信息具有丰厚
的内涵。

Web访问数据包含决策可用的信息

每个用户的访问特性
能够

被用来辨认

该用户和网站访问的特性。

同一类用户的访问,代表同一类用户的个性。

一段时期的访问数据代表了群体用户的行为和群体用户的共性。

Web访问信息数据是网站的设计者和访问者中止

沟通的桥梁。

Web访问信息数据是展开
数据挖掘

研讨
的良好的对象。

Web访问信息挖掘

对象的特性

访问事务的元素是Web页面,事务元素之间存在着丰厚
的结构

信息。

访问事务的元素代表的是每个访问者的次第
关系,事务元素之间存在着丰厚
的次第
信息。

每个页面的内容能够

被笼统
出不同的概念,访问次第
和访问量部分

决议
概念。

用户对页面存在不同的访问时长,访问长代表了用户的访问兴味

33. ?web页面内文本信息的挖掘

挖掘

的目的
是对页面中止

摘要和分类。

页面摘要:对每一个页面应用传统的文本摘要办法

能够

得到相应的摘要信息。

页面分类:分类器输入的是一个Web页面集(锻炼
集),再依据

页面文本信息内容中止

监视
学习,然后就能够

把学成的分类器用于分类每一个新输入的页面。

{在文本学习中常用的办法

是TFIDF向量表示法,它是一种文档的词集(Bag-of-Words)表示法,一切
的词从文档中抽取出来,而不思索
词间的次序和文本的结构

。这种结构

二维表的办法

是:

每一列为一个词,列集(特征集)为辞典中的一切
有辨别

价值的词,所以整个列集可能有几十万列之多。

每一行存储一个页面内词的信息,这时,该页面中的一切
词对应到列集(特征集)上。列集中的每一个列(词),假定

在该页面中不呈现
,则其值为0;假定

呈现
k次,那么其值就为k;页面中的词假定

不出往常

列集上,能够

被放弃。这种办法

能够

表征出页面中词的频度。

对中文页面来说,还需先分词然后再中止

以上两步处置

这样结构

的二维表表示的是Web页面汇合

的词的统计信息,最终就能够

采用Naive Bayesian办法

或k-Nearest Neighbor等办法

中止

分类挖掘

在挖掘

之前,普通
要先中止

特征子集的选取,以降低维数}

来自:数据挖掘

入门与实战

发表评论

评论已关闭。

相关文章