数极客首页

5种常用的相关分析方法

相关剖析

(Analysis of Correlation)是网站剖析

中经常运用
的剖析

办法

之一。经过
对不同特征或数据间的关系中止

剖析

,发现业务运营中的关键影响及驱动要素
。并对业务的展开

中止

预测。本篇文章将引见
5种常用的剖析

办法

。在开端
引见
相关剖析

之前,需求
特别阐明

的是相关关系不等于因果关系。5种常用的相关剖析办法相关剖析

的办法

很多,初级的办法

能够

快速发现数据之间的关系,如正相关,负相关或不相关。中级的办法

能够

对数据间关系的强弱中止

度量,如完好

相关,不完好

相关等。高级的办法

能够

将数据间的关系转化为模型,并经过
模型对未来

的业务展开

中止

预测。下面我们以一组广告的本钱
数据和曝光量数据对每一种相关剖析

办法

中止

引见
。以下是每日广告曝光量和费用本钱
的数据,每一行代表一天中的破费

和取得

的广告曝光数据量
。凭阅历

判别
,这两组数据间应该存在联络
,但仅经过
这两组数据我们无法证明这种关系真实存在,也无法对这种关系的强度中止

度量。因而

我们希望经过
相关剖析

来找出这两组数据之间的关系,并对这种关系进度度量。5种常用的相关剖析办法

1,图表相关剖析

(折线图及散点图)

第一种相关剖析

办法

是将数据中止

可视化处置
,简单的说就是绘制图表。单纯从数据的角度很难发现其中的趋向
和联络
,而将数据点绘制成图表后趋向
和联络
就会变的明晰
起来。关于
有显然
时间维度的数据,我们选择运用
折线图。 为了更明晰
的对比

这两组数据的变化和趋向
,我们运用
双坐标轴折线图,其中主坐标轴用来绘制广告曝光量数据,次坐标轴用来绘制费用本钱
的数据。经过
折线图能够

发现,费用本钱
和广告曝光量两组数据的变化和趋向
大致相同,从整体的大趋向
来看,费用本钱
和广告曝光量两组数据都呈现增长趋向
。从规律性来看费用本钱
和广告曝光量数据每次的最低点都出往常

同一天。从细节来看,两组数据的短期趋向
的变化也基本

分歧
5种常用的相关剖析办法经过以上这些对比

,我们能够

说广告曝光量和费用本钱
之间有一些相关关系,但这种办法

在整个剖析

过程和解释上过于复杂,假定

换成复杂一点的数据或者相关度较低的数据就会呈现
很多问题。比折线图更直观的是散点图。散点图去除了时间维度的影响,只关注广告曝光量和费用本钱
这里两组数据间的关系。在绘制散点图之前,我们将费用本钱
标识为X,也就是自变量,将广告曝光量标识为y,也就是因变量。下面是一张依据

每一天中广告曝光量和费用本钱
数据绘制的散点图,X轴是自变量费用本钱
数据,Y轴是因变量广告曝光量数据。从数据点的散布

状况

能够

发现,自变量x和因变量y有着相同的变化趋向
,当费用本钱
的增加后,广告曝光量也随之增加。5种常用的相关剖析办法折线图和散点图都明晰
的表示了广告曝光量和费用本钱
两组数据间的相关关系,优点是对相关关系的展示

明晰
,缺陷
是无法对相关关系中止

精确

的度量,缺乏压服
力。并且当数据超越
两组时也无法完成各组数据间的相关剖析

。若要经过
细致

数字来度量两组或两组以上数据间的相关关系,需求
运用
第二种办法

:协方差。

2,协方差及协方差矩阵

第二种相关剖析

办法

是计算协方差。协方差用来权衡
两个变量的总体误差,假定

两个变量的变化趋向
分歧
,协方差就是正值,阐明

两个变量正相关。假定

两个变量的变化趋向
相反,协方差就是负值,阐明

两个变量负相关。假定

两个变量相互

独立,那么协方差就是0,阐明

两个变量不相关。以下是协方差的计算公式:5种常用的相关剖析办法下面是广告曝光量和费用本钱
间协方差的计算过程和结果,经过计算,我们得到了一个很大的正值,因而

能够

阐明

两组数据间是正相关的。广告曝光量随着费用本钱
的增长而增长。在理论

工作中不需求
按下面的办法

来计算,能够

经过
Excel中COVAR()函数直接取得

两组数据的协方差值。5种常用的相关剖析办法协方差只能对两组数据中止

相关性剖析

,当有两组以上数据时就需求
运用
协方差矩阵。下面是三组数据x,y,z,的协方差矩阵计算公式。5种常用的相关剖析办法协方差经过
数字权衡
变量间的相关性,正值表示正相关,负值表示负相关。但无法对相关的密切

水平

中止

度量。当我们面对多个变量时,无法经过
协方差来阐明

那两组数据的相关性最高。要权衡
和对比

相关性的密切

水平

,就需求
运用
下一个办法

:相关系数。,

3,相关系数

第三个相关剖析

办法

是相关系数。相关系数(Correlation coefficient)是反响
变量之间关系密切

水平

的统计指标,相关系数的取值区间在1到-1之间。1表示两个变量完好

线性相关,-1表示两个变量完好

负相关,0表示两个变量不相关。数据越趋近于0表示相关关系越弱。以下是相关系数的计算公式。5种常用的相关剖析办法其中rxy表示样本相关系数,Sxy表示样本协方差,Sx表示X的样本规范

差,Sy表示y的样本规范

差。下面分别是Sxy协方差和Sx和Sy规范

差的计算公式。由于是样本协方差和样本规范

差,因而

分母运用
的是n-1。Sxy样本协方差计算公式:5种常用的相关剖析办法Sx样本规范

差计算公式:5种常用的相关剖析办法Sy样本规范

差计算公式:5种常用的相关剖析办法下面是计算相关系数的过程,在表中我们分别计算了x,y变量的协方差以及各自的规范

差,并求得相关系数值为0.93。0.93大于0阐明

两个变量间正相关,同时0.93十分

接近于1,阐明

两个变量间高度相关。5种常用的相关剖析办法在理论

工作中,不需求
上面这么复杂的计算过程,在Excel的数据剖析

模块当选

择相关系数功用
,设置好x,y变量后能够

自动求得相关系数的值。在下面的结果中能够

看到,广告曝光量和费用本钱
的相关系数与我们手动求的结果分歧
5种常用的相关剖析办法相关系数的优点是能够

经过
数字对变量的关系中止

度量,并且带有方向性,1表示正相关,-1表示负相关,能够

对变量关系的强弱中止

度量,越靠近0相关性越弱。缺陷
是无法应用
这种关系对数据中止

预测,简单的说就是没有对变量间的关系中止

提炼和固化,构成
模型。要应用
变量间的关系中止

预测,需求
运用
到下一种相关剖析

办法

,回归剖析

。,

4,一元回归及多元回归

第四种相关剖析

办法

是回归剖析

。回归剖析

(regression analysis)是肯定
两组或两组以上变量间关系的统计办法

。回归剖析

依照

变量的数据量
分为一元回归和多元回归。两个变量运用
一元回归,两个以上变量运用
多元回归。中止

回归剖析

之前有两个准备工作,第一肯定
变量的数据量
。第二肯定
自变量和因变量。我们的数据中只包含广告曝光量和费用本钱
两个变量,因而

运用
一元回归。依据

阅历

广告曝光量是随着费用本钱
的变化而改动
的,因而

将费用本钱
设置为自变量x,广告曝光量设置为因变量y。以下是一元回归方程,其中y表示广告曝光量,x表示费用本钱
。b0为方程的截距,b1为斜率,同时也表示了两个变量间的关系。我们的目的
就是b0和b1的值,知道

了这两个值也就知道

了变量间的关系。并且能够

经过
这个关系在已知本钱
费用的状况

下预测广告曝光量。5种常用的相关剖析办法这是b1的计算公式,我们经过
已知的费用本钱
x和广告曝光量y来计算b1的值。5种常用的相关剖析办法以下是经过
最小二乘法计算b1值的细致

计算过程和结果,经计算,b1的值为5.84。同时我们也取得

了自变量和因变量的均值。经过
这三个值能够

计算出b0的值。5种常用的相关剖析办法以下是b0的计算公式,在已知b1和自变量与因变量均值的状况

下,b0的值很容易计算。5种常用的相关剖析办法将自变量和因变量的均值以及斜率b1代入到公式中,求出一元回归方程截距b0的值为374。这里b1我们保管

两位小数,取值5.84。5种常用的相关剖析办法在理论

的工作中不需求
中止

如此繁琐的计算,Excel能够

帮我们自动完成并给出结果。在Excel中运用
数据剖析

中的回归功用
,输入自变量和因变量的范围后能够

自动取得

b0(Intercept)的值362.15和b1的值5.84。这里的b0和之前手动计算取得

的值有一些差别

,由于
前面用于计算的b1值只保管

了两位小数。这里还要单独阐明

下R Square的值0.87。这个值叫做判定

系数,用来度量回归方程的拟合优度。这个值越大,阐明

回归方程越有意义,自变量对因变量的解释度越高。5种常用的相关剖析办法将截距b0和斜率b1代入到一元回归方程中就取得

了自变量与因变量的关系。费用本钱
每增加1元,广告曝光量会增加379.84次。经过
这个关系我们能够

依据

本钱
预测广告曝光量数据。也能够

依据

转化所需的广告曝光量来反推投入的费用本钱
。取得

这个方程还有一个更简单的办法

,就是在Excel中对自变量和因变量生成散点图,然后选择添加趋向
线,在添加趋向
线的菜单当选

中显现
公式和显现
R平方值即可。5种常用的相关剖析办法以上引见
的是两个变量的一元回归办法

,假定

有两个以上的变量运用
Excel中的回归剖析

,选中相应的自变量和因变量范围即可。下面是多元回归方程。5种常用的相关剖析办法

5,信息熵及互信息

最终
一种相关剖析

办法

是信息熵与互信息。前面我们不时

在盘绕
消费本钱
和广告曝光量两组数据展开剖析

。理论

工作中影响最终效果的要素
可能有很多,并且不一定都是数值方式
。比如

我们站在更高的维度来看之前的数据。广告曝光量只是一个过程指标,最终要剖析

和关注的是用户能否
置办

的状态。而影响这个结果的要素
也不只
仅是消费本钱
或其他数值化指标。可能是一些特征值。例如用户所在的城市,用户的性别,年龄区间散布

,以及能否
第一次到访网站等等。这些都不能经过
数字中止

度量。度量这些文本特征值之间相关关系的办法

就是互信息。经过
这种办法

我们能够

发现哪一类特征与最终的结果关系密切

。下面是我们模仿

的一些用户特征和数据。在这些数据中我们疏忽

之前的消费本钱
和广告曝光量数据,只关注特征与状态的关系。5种常用的相关剖析办法关于
信息熵和互信息细致

的计算过程请参考文章《决策树分类和预测算法的原理及完成
》,这里直接给出每个特征的互信息值以及排名结果。经过计算城市与置办

状态的相关性最高,所在城市为北京的用户置办

率较高。5种常用的相关剖析办法到此为止5种相关剖析

办法

都已引见
完,每种办法

各有特性
。其中图表办法

最为直观,相关系数办法

能够

看到变量间两两的相关性,回归方程能够

对相关关系中止

提炼,并生成模型用于预测,互信息能够

对文本类特征间的相关关系中止

度量。举荐

运用
国内新一代大数据用户行为剖析

平台:数极客,新一代支持无埋点、前端埋点、后端埋点、API导入四种混合数据采集方式;自动监测网站、APP、小程序等多种渠道推行
效果剖析

,是增长黑客必备的互联网数据剖析

工具。数极客支持实时多维剖析

、漏斗剖析

、留存剖析

、途径
剖析

等十大数据剖析

办法

以及APP数据剖析

网站统计网站剖析

小程序数据统计用户画像等应用场景,国内首创6大提升转化率的数据剖析

模型,是用户行为剖析

范畴
首款应用定量剖析

与定性剖析

办法

数据剖析

产品

。基于用户行为的大数据剖析

智能系统,提供了会员营销AB测试两大数据智能产品,使得企业能够

快速的提升用户转化率和留存率,完成
数据驱动增长。

发表评论

评论已关闭。

相关文章