数极客首页

小白学统计(69)一元(简单线性)相关分析与回归分析

基础准备

相关与回归分析基础中阐述了相关分析与回归分析的区别与联系,以及分类等基础概念,简要回顾:

回归分析要求研究者根据因果关系(或假设存在因果关系)将两个变量,一个定义为自变量(X),由试验者设定,一个定义为因变量(Y),是随机变量。目的是给出描述两个变量关系的数学方程,这个方程可以用来预测相应因变量的值。例如,某品牌矿泉水的定价与其销售量之间的关系。

相关分析的两个变量都是自变量,研究的是两个自变量的相关程度,两个自变量均为随机变量。例如,矿泉水(不同品牌)价格与销售量之间的关系。

简单线性回归

简单线性回归模型

如果自变量X与因变量Y是直线型关系,则可以通过建立一元线性模型来描述它们之间的关系。而将所建立的一元线性模型称为一元回归模型或简单线性回归模型,可以表示为:

小白学统计(69)一元(简单线性)相关分析与回归分析

回归模型是从总体的角度描述自变量X与因变量Y的关系。因此,β0,β1就是从总体上说明X与Y变量关系的系数,称为回归系数,他们的数值在实际中是不可能得到的,只能通过样本数据得到它们的估计值,所以通过它们得到的Y与实际的Y之间存在随机误差εi。回归模型分成两部分:一部分是由线性函数β01Xi构成的确定性数值;另一部分就是随机误差εi。E(Yi)=β01Xi称为回归函数。

回归系数的估计

回归分析的任务就是用恰当的方法估计出参数β0和β1。通过n对样本数据(Xi,Yi)可以得到回归函数E(Yi)=β01Xi的估计,即:

小白学统计(69)一元(简单线性)相关分析与回归分析

上式称为Y关于X的一元线性回归方程。

β0和β1的估计值b0,b1可以通过最小二乘法计算得到。用Excel,SPSS进行一元线性拟合就是通过最小二乘法计算出b0和b1数值的。

最小二乘法

最小二乘法(又称最小平方法)是一种数学优化技术。简单的说,就是通过误差平方和的最小化,寻找数据的最佳函数匹配。

现有回归函数:

小白学统计(69)一元(简单线性)相关分析与回归分析
小白学统计(69)一元(简单线性)相关分析与回归分析

假定n对样本数据(x1,y1),(x2,y2)……(x,y)为已知,现在需要确定通过这些点的哪一条直线描述X与Y最好。

根据最小二乘法建立回归直线的原则就是:使Yi的估计值与其离差平方和最小。因此设:

小白学统计(69)一元(简单线性)相关分析与回归分析

某市欲对货运总量与工业总产值的数量关系进行研究,以便通过工业总产值预测货运总量。现将1991-2000年的数据,列入表8-1中,根据这些数据建立回归方程。

货运总量2.82.93.23.23.43.23.33.73.94.2
工业总值25272932343635394245

单位:货运总量(亿吨);工业总产值(10亿元);

解:分析步骤如下:

1、确定因变量和自变量,通过散点图观察它们之间的关系。从下图可以看出,两者之间有线性关系。

小白学统计(69)一元(简单线性)相关分析与回归分析

2、进行数据计算

数据计算表
年份货运总量(X)工业总值(Y)XYX平方Y平方
19912.82570.06257.84
19922.92778.37298.41
19933.22992.884110.24
19943.232102.4102410.24
19953.434115.6115611.56
19963.236115.2129610.24
19973.335115.5122510.89
19983.739144.3152113.69
19993.942163.8170415.21
20004.245189.0202517.64
合计33.83441186.912206115.96

3、带入公式计算

小白学统计(69)一元(简单线性)相关分析与回归分析

用Excel添加渐近线及回归方程,结果与上面计算结果一致:

小白学统计(69)一元(简单线性)相关分析与回归分析

简单线性相关

对于简单线性回归,变量X是固定的(由试验者设定),而Y是随机变量,如上所述。对于简单线性相关,X与Y均为随机变量,目的是确定他们之间线性相关的程度。

散点图

两个随机变量之间的关系可由散点图看出:

小白学统计(69)一元(简单线性)相关分析与回归分析

协方差

协方差刻画了两个随机变量相对于它们均值的同时偏差,它反映了两个变量共同变化的程度,如果结果是负数,说明两个变量可能是负相关;结果为正,它们可能是正相关。例如,对随机变量X和Y的相关程度感兴趣,得到一些样本点(如下图),对每个样本点,求它们与各自均值的偏差,然后相乘,除以自由度即可得到样本协方差。

小白学统计(69)一元(简单线性)相关分析与回归分析
小白学统计(69)一元(简单线性)相关分析与回归分析

但是,协方差不能直接用来度量两个变量的相关程度,因为它的值与测量单位相关,当两个变量的测量单位不同时会带来一些问题。因此,需要将协方差标准化,以消除测量单位的影响,这就引出了相关系数r。

相关系数r

为了消除测量单位对协方差的影响,引出相关系数r,计算公式如下:

小白学统计(69)一元(简单线性)相关分析与回归分析

相关系数r有以下性质:

小白学统计(69)一元(简单线性)相关分析与回归分析

当|r|≥0.8时,可视为高度相关;当0.5≤|r|<0.8时,可视为中度相关;当0.3≤|r|<0.5时,视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度极弱。

发表评论

评论已关闭。

相关文章