文章及案例数据来源:微信公众号【我看人看我】
在前两篇文章(《如何使用SPSS进行相关性分析(一)》、《如何使用SPSS进行相关性分析(二)》),我们介绍了相关关系的基本概念,并基于实际案例,使用SPSS对两个定类变量、两个定序变量进行了相关性分析。今天将继续基于实际案例来介绍其他变量类型的相关性分析:
(1)定距变量(连续型变量)间的相关性分析;
(2)定类变量和定距变量的相关性分析.
连续型变量的相关性分析定距变量,即连续型变量之间的关系,我们一般使用线性相关分析的方法进行分析测量。
对于连续型变量来说,可以通过线性回归分析来以自变量(X)的数值来估计因变量(Y)的值,即构建线性回归模型来对未知的因素进行预测。但进行回归分析的前提是,变量之间必须存在相关关系。
我们初中曾学过的一元二次方程,即是简单线性回归模型的简写 Y=bX a。其中,b值表示了自变量X对因变量Y的影响大小和方向,是一个分析不对称相关关系的统计方法。但b值的大小没有上限,要根据变量的衡量单位来定,因此很少被用来衡量连续型变量之间的相关程度。
在连续型变量的相关性分析中,我们主要使用皮尔逊(Pearson)的积矩相关系数(简写为 r)来测量连续型变量之间的相关大小和方向。
r 系数与b 系数的不同地方在于,r系数假定X与Y的关系是对称的,而且r的统计值范围是[-1,1]。r系数值越大,就表示线性回归方程式的预测能力越强。r^2称为决定系数(coefficient of determination),反映在某个变量的变化中有多少是受另一个变量的变化所决定。
在社会研究中,要先计算 r 系数值,即先判断变量之间是否存在相关关系,才能决定是否运用线性回归分析法来预测数值。如果r系数值很小,即相关性很弱或者不相关,那么就不要用线性回归方程式来预测,因为这样所犯的误差会很大。
通过皮尔逊(Pearson)方法测量出变量间的相关性大小后,还需要进行显著性检验,以确定基于随机样本数据计算的相关系数是否能推论总体。
接下来,我们将以 "休闲调查.sav" 的数据进行实际案例操作。
研究问题:住房面积和家庭月收入的相关关系是怎样的?
针对该研究问题,SPSS的分析操作如下过程。
(一)打开双变量相关分析对话框,添加变量
操作路径:工具栏“分析”——相关——双变量
将需要分析的“住房使用面积”和“家庭月收入”从左侧的原变量窗口添加到右侧的目标变量窗口。
(二)确定统计量
在变量窗口下,【相关系数】我们这里选择Pearson,前文已经说明,这里不再赘述;【显著性检验】即检验样本是否能够推论总体,这里选择双侧检验(关于单侧检验和双侧检验,后面有机会再详细介绍);【标记显著性相关】的作用是在显著性水平为0.05和为0.01时以星号进行标记,当显著性水平为0.05时标记一个星号,为0.01时标记两个星号。