数极客首页

数据挖掘化功大法(20)——网站日志挖掘

搜集
web日志的目的

Web日志挖掘

是指采用数据挖掘

技术,对站点用户访问Web效劳
器过程中产生的日志数据中止

剖析

处置
,从而发现Web用户的访问方式

和兴味
喜好

等,这些信息对站点树立

潜在有用的可了解

的未知信息和学问
,用于剖析

站点的被访问状况

,辅助站点管理和决策支持等。

1、以改进

web站点设计为目的
,经过
挖掘

用户聚类和用户的频繁访问途径
,修正
站点的页面之间的链接关系,以顺应
用户的访问习气
,并且同时为用户提供有针对性的电子商务活动和个性化的信息效劳
,应用信息推拉技术构建智能化Web站点。

2、以剖析

Web站点性能为目的
,主要从统计学的角度,对日志数据项中止

粗略的统计剖析

,得到用户频繁访问页、单位时间的访问数、访问数据量
随时间散布

图等。现有的绝大多数的Web日志剖析

工具都属于此类。

3、以了解

用户企图
为目的
,主要是经过
与用户交互的过程搜集
用户的信息,Web效劳
器依据

这些信息对用户央求

的页面中止

裁剪,为用户返回定制的页面,其目的就是进步
用户的称心

度和提供个性化的效劳

搜集
方式

网站剖析

数据主要有三种搜集
方式:Web日志、JavaScript标志
和包嗅探器。

1. Web日志

web日志处置
流程:

2. JavaScript标志

JavaScript标志
处置
流程:

上图所示JavaScript标志
同Web日志搜集
数据一样,从网站访问者发出hp央求

开端
。不同的是,JavaScript标志
返回给访问者的网页代码中会包含一段特殊的JavaScript代码,当页面展示

的同时这段代码也得以执行。这段代码会从访问者的Cookie中取得

细致
信息(访问时间、阅读
器信息、工具厂商赋予当前访问者的userID等)并发送到工具商的数据搜集
效劳
器。数据搜集
效劳
器对搜集
到的数据处置
后存入数据库中。网站运营
人员经过
访问剖析

报表系统查看这些数据。

3. 包嗅探器

经过
包嗅探器搜集
剖析

的流程:

web日志挖掘

过程

整体流程参考下图:

依据

挖掘

的目的,对原始Web日志文件中的数据中止

提取、合成
、兼并
、最终
转换为用户会话文件。该阶段是Web访问信息挖掘

最关键的阶段,数据预处置
包括:关于用户访问信息的预处置
、关于内容和结构

的预处置

2、会话辨认

阶段

该阶段本是属于数据预处置
阶段中的一部分

,这里将其划分红
单独的一个阶段,是由于
把用户会话文件划分红
的一组组用户会话序列将直接用于挖掘

算法,它的精准度直接决议
了挖掘

结果的好坏,是挖掘

过程中最重要的阶段。

3、方式

发现阶段

方式

发现是运用各种办法

和技术从Web同志数据中挖掘

和发现用户运用
Web的各种潜在的规律和方式

。方式

发现运用
的算法和办法

不只
仅来自数据挖掘

范畴
,还包括机器学习、统计学和方式

辨认

等其他专业范畴

方式

发现的主要技术有:统计剖析

(statistical analysis)、关联规则(association rules)、聚类(clustering)、归类(classification)、序列方式

(sequential paerns)、依赖关系(dependency)。

(1)统计剖析

(statistical analysis):常用的统计技术有:贝叶斯定理、预测回归、对数回归、对数-线性回归等。可用来剖析

网页的访问频率,网页的访问时间、访问途径
。可用于系统性能剖析

、发现安全

漏洞

、为网站修正
、市场决策提供支持。

(2)关联规则(association rules):关联规则是最基本

的挖掘

技术,同时也是WUM最常用的办法

。在WUM中常常用在被访问的网页中,这有利于优化网站组织、网站设计者、网站内容管理者和市场剖析

,经过
市场剖析

能够

知道

哪些商品被频繁置办

,哪些顾客是潜在顾客。

(3)聚类(clustering):聚类技术是在海量数据中寻觅
彼此相似

对象组,这些数据基于距离

函数求出对象组之间的相似

度。在WUM中能够

把具有相似

方式

的用户分红
组,能够

用于电子商务中市场分片和为用户提供个性化效劳

(4)归类(classification):归类技术主要用处

是将用户资料

归入某一特定类中,它与机器学习关系很紧密

。能够

用的技术有:决策树(decision tree)、K-最近邻居、Na?ve Bayesian classifiers、支持向量机(support vector machines)。

(5)序列方式

(sequential paerns):给定一个由不同序列组成的汇合

,其中,每个序列由不同的元素按次第
有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列方式

挖掘

就是找出一切
的频繁子序列,即子序列在序列集中的呈现
频率不低于用户指定的最小支持度阈值。

(6)依赖关系(dependency):一个依赖关系存在于两个元素之间,假定

一个元素A的值能够

推出另一个元素B的值,则B依赖于A。

4、方式

剖析

阶段

方式

剖析

是Web运用
挖掘

最终
一步,主要目的是过滤方式

发现阶段产生的规则和方式

,去除那些无用的方式

,并把发现的方式

经过
一定的办法

直观的表现出来。由于Web运用
挖掘

在大多数状况

下属于无倾向
学习,有可能挖掘

出一切
的方式

和规则,所以不能扫除
其中有些方式

是常识性的,普通的或最终用户不感兴味
的,故必需
采用方式

剖析

的办法

使得挖掘

出来的规则和学问
具有可读性和最终可了解

性。常见的方式

剖析

办法

有图形和可视化技术、数据库查询机制、数理统计和可用性剖析

等。

搜集
数据包括

搜集
的数据主要包括:

全局UUID、访问日期、访问时间、生成日志项的效劳
器的IP地址、客户端试图执行的操作、客户端访问的效劳
器资源、客户端尝试执行的查询、客户端衔接
到的端口号、访问效劳
器的已考证
用户称号
、发送效劳
器资源央求

的客户端IP地址、客户端运用
的操作系统、阅读
器等信息、操作的状态码(200等)、子状态、用Windows@运用
的术语表示的操作的状态、点击次数。

用户辨认

关于
网站的运营者来说,怎样
能够

高效精确

的辨认

用户十分

关键,这会对网站运营带来极大的辅佐

,如定向举荐

等。

用户辨认

办法

如下:

数据搜集
到效劳
器之后,依据

数据量能够

思索
将数据存储在hadoop的HDFS中。

假定

不熟习
HDFS,能够

参考:

http://www.niubua.com/?p=1107

在往常

的企业中,普通
状况

下都是多台效劳
器生成日志,日志包括nginx生成的,也包括在程序中运用
log4j生成的自定义格式的。

通常的架构如下图:

ginx默许
的日志格式如下:

222.68.172.190 - - [18/Sep/2013:06:49:57 +0000] "GET /images/my.jpg HTTP/1.1" 200 19939 "http://www.angularjs.cn/A00n" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"

变量的解释如下:

  • remote_addr: 记载
    客户端的ip地址, 222.68.172.190
  • remote_user: 记载
    客户端用户称号
    , –
  • time_local: 记载
    访问时间与时区, [18/Sep/2013:06:49:57 +0000]
  • request: 记载
    央求

    的url与hp协议, “GET /images/my.jpg HTTP/1.1″

  • status: 记载
    央求

    状态,胜利

    是200, 200

  • body_bytes_sent: 记载
    发送给客户端文件主体内容大小, 19939
  • hp_referer: 用来记载
    从那个页面链接访问过来的, “http://www.angularjs.cn/A00n”
  • hp_user_agent: 记载
    客户阅读
    器的相关信息, “Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36″

能够

直接运用
mapreduce来中止

日志剖析

要明细的剖析

能够

参考这篇:

http://blog.fens.me/hadoop-mapreduce-log-kpi/?utm_source=tuicool&utm_medium=referral

也能够

运用
hive来替代
mapreduce中止

剖析

总结

web日志搜集
是每个互联网企业必需求

处置
的过程,当搜集
上来数据,并且经过
恰当
的数据挖掘

之后,会对整体网站的运营才干

及网站的优化带来质的提升,真正的做到数据化剖析

和数据化运营。

本文采用「CC BY-SA 4.0 CN」协议转载学习交流,内容版权归原作者一切
,如涉作品、版权和其他问题请联络
「我们」处置

发表评论

评论已关闭。

相关文章