数极客首页

如何做网站数据分析(一)——准备工作篇

大数据时期
的当下,网站数据的关注度越来越高,网站剖析

已成为网站运营和互联网营销从业者的必备技艺
但是
网站剖析

该怎样
操作呢?网站剖析

有哪些办法

呢?怎样
中止

一次全面的网站剖析

呢?

本章节讲的是在中止

剖析

前,我们还需求
做的一些数据剖析

前的准备工作。做准备工作的意义在于保证手头一切
数据源的广度和精度。

怎样
才干
保证你准备数据源的广度和精度呢?小编倡议

你从以下3方面着手做准备:

1、多来源地搜集
数据;

2、对数据做初步的清洗整理;

3、着重留意
一些可能会构成

倾向

的数据类型。

一、数据的来源

多来源地搜集
数据是尽可能地保证数据的全面性,从而能从更多角度地剖析

问题。普通
来说,数据的来源类型主要有点击流数据、业务运营数据、实验测试数据、用户调研数据、行业展开

数据、竞争对手数据。

1)点击流数据

点击流数据主要是解释 “What” 的问题。普通
有以下几种搜集
方式。

1.经过
网站日志的方式
获取得

到;

2.经过
百度统计等第三方工具获取;

3.经过
对网站埋点的方式获取;

例如:访问数、页面阅读
数、停留时长等都属于点击流数据。

2)业务运营数据

业务运营数据主要解释”How much”的问题。主要是一些寄存

在前台数据库(ERP或CRM系统)的数据,这些数据能够

直接权衡
网站的绩效和目的
。普通
可经过
查询后台数据获取。例如:销售额、订单量、置办

用户数等指标。

3)实验测试数据

实验数据主要解释”Which”的问题。实验测试数据普通
都是暂时
采集的,功用
是为了某些专题的剖析

,比如

网站改版、用户体验的优化等。网站剖析

中最常见的实验测试就是a/b测试,即从两个计划

当选

择更优的计划

4)用户调研数据

用户调研数据功用
主要是去找到“Why”的结果。直接讯问
用户无疑是最有效的,最常见的用户调研方式是问卷调查,让用户直接回答

问题来解释问题的缘由
。当然,用户调研属于典型的定性剖析

,假定

分别

定量剖析

一同
中止

会更精确

5)行业展开

数据

行业展开

数据与自身

的数掘中止

比较

,常常
能够

看到自身

存在的缺乏
。很多第三方咨询剖析

机构会定期出一些行业的数据报告,能够

从这些报告中发掘

一些有用的行业信息。

6)竞争对手数据

与行业数据一样,对竞争对手的剖析

也是发现自身

优优势
的最好办法

。而且网站自身

为了让用户了解

到一些信息也会展示

一些数据,而这些数据也是剖析

竞争对手的一种途径。

怎样做网站数据剖析(一)——准备工作篇

二、对数据的初步清洗与整理

数据的清洗与整理是为了保证数据的完好
性、分歧
性和精确

性。

1)数据的完好

保证数据的完好
性就需求
尽量减少数据源的缺失值对数据剖析

带来的影响。为了之后的统计和剖析

的需求
,普通
经过
均值、中位数、众数,或者依据

指标的变化趋向
运用
回归剖析

中止

拟合后算出预测值,假定

与其他的指标存在相关性,也能够

分别

其他的指标中止

预算

举个例子:(对表中缺失数据的填充)

怎样做网站数据剖析(一)——准备工作篇

表中显现
的是1月份某几天的网站销售状况

,人均消费额由总销售额除以置办

用户数计算得到。由于1月11日的数据总销售额缺失,进而人均销售额也无法计算得到。我们对1月11日的缺失数据中止

填充,能够

简单地运用
11日前后两天的总销售额数据取平均

值计算得到61329作为11日总销售额的数据中止

填充,进而能够

计算得到人均消费额为37.33。或者思索
到每天的人均消费额坚持
相对恒定,我们运用
1月份的人均消费额均值33.00来填充11日的人均消费额,进而计算得到该日总销售额为54219。

2)数据的分歧

要保证数据的分歧
性,就要保证整个数据采集阶段的描画

分歧
性、记载
分歧
性、既定的规则分歧
性。

1、描画

的分歧
性:比如

省份的细分数据,一个数据源记载
的是”京”,另外一个是“北京市”;这时分
能够

经过
察看

省份字段的一切
独一
值排序的结果,这样相似

的不分歧
的描画

就会了如指掌

2、记载
分歧
性:记载
分歧
性普通
是由于数据的重复

录入,假定

发作
在数据库中,我们则能够

运用
主键约束或者独一
约束去避免

相似

状况

的发作

3、既定的规则分歧
性:这个央求

采集到的数据在总体和细分上坚持
分歧
,假定

不分歧
,很有可能就是数据模型的设计或者维表的结构

存在问题。当然,也可能是某些指标的定义和计算规则没有统一。

3)数据的精确

要保证数据精确

性则要提早
辨认

出源数据中存在的异常数据。比如

查询页面称号
、搜索关键词等数据时,可经过
排序(升序、降序)的办法

排查异常数据;另外数值显然
过大或过小也是异常值的表现,比如

网站某个页面的访问量一天一百多亿,处置

办法

普通
是经过
限定指标的取值区间,然后再中止

查找;还有访问量、页面阅读
量这些指标永远应该是整数,这些数据假定

异常能够

运用
数据的有效性检验去发现能否
有非整数值的存在。

怎样做网站数据剖析(一)——准备工作篇

三、容易产生数据倾向

的数据类型罗列

1)用户的辨认

用户的辨认

方式直接影响网站UV的统计。比如

单纯的访问用户普通
称为访客,而当用户注册登录后就变成了网站的用户,这时分
就能够

用注册的用户名或者用户ID中止

辨认

。在电子商务网站,当用户置办

商品之后就变成了网站的顾客,这时分
统计的就是真实的用户,而非用户运用
的终端设备。

2)停留时间

用户在页面精确

的停留时间其实很难计算得到,一些通用的网站剖析

工具对访问的停留时间计算方式普通
为:计算用户阅读
最终
一个页面和阅读
第一个页面之间的时间距离

,并没有思索
用户在这个时间距离

里面能否
真的是在阅读
页面,还是接了个电话或者干别的事情去了?。

3)访问来源

访问来源通常有直接流量、搜索来源、外部网站和收费流量,例如Flash或者某些广告,都会混杂
流量来源。

发表评论

评论已关闭。

相关文章