数极客首页

小白学统计(64)独立性和一致性的卡方检验—列联表分析方法

卡方检验的应用

卡方检验即可以分析一个变量的拟合程度,如拟合优度检验(二项分布、泊松分布和正态分布)还可以用来分析两个变量间的关系:是否相互独立,是否来自一个总体。对于两个变量关系的分析方法与在拟合优度中的方法略有差别,这里适用了一种称为列联表的表格来进行分析。

列联表

所谓列联表就是一个行列交叉的表格。将研究的两个变量,一个变量按类分行排列,另一个变量按类分列排列,行列交叉处是同属于两个变量不同类的数据。这样的表格称为列联表。如下表所示:

列联表
变量A合计
A1A2Ac
变量BB111121c1.
B221222c2.
Brr1r2rcr.
合计.1.2.c

上表就是列联表的形式,表示研究A、B两个变量,A变量有c类,B变量有r类。通常用i表示行,用j表示列,则i=1, 2, …, r; j=1, 2, …,c; ij表示第i行和第j列的频数,n表示总的频数,也就是样本容量。

在上述列联表中,频数nij是指实际频数。为了检验两个变量是否独立,还需要计算每一个行列的期望频数。我们在之前的篇章中有介绍,如果事件A和事件B相互独立,则有P(A∩B)=P(A)*P(B)。根据这个原理,现在我们作如下假设:

H0: 两个变量相互独立;

H1: 两个变量不独立;

则在H0为真时,第i行的Bi与第j列的Aj的期望频数就应等于P(Ai)*P(Bj)。

我们用P(Aj)=.j/,P(Bi)=i./n分别代替P(Aj)和P(Bi)。所以在H0为真时,第i行第j列的期望概率为:P(Aj∩Bi)=.j/*i./

用样本容量n分别乘以不同行列的期望频率,就可以得到期望频数eij。第i行第j列的期望频数为:eij=*i./*.j/=i..j/

即:eij=第i行频数合计×第j列频数合计/样本容量。

最后将实际频数nij与期望频数eij进行比较,判断方法与进行拟合优度时类似,即构造χ2统计量。最后将实际频数nij与期望频数eij进行比较,判断方法与进行拟合优度时类似,即构造χ2统计量:

小白学统计(64)独立性和一致性的卡方检验—列联表分析方法

该χ2统计量服从自由度为(r-1)(c-1)的卡方分布。当χ2α2[(r-1)(c-1)]时,拒绝H0,接受H1。在进行χ2检验时,仍要注意当各行列的期望频数小于5时,不能使用列联表检验。或者在有意义的情况下合并行和列,或加大样本容量,使各行列的期望频数要大于等于5。

发表评论

评论已关闭。

相关文章