第7章相关分析与回归分析含SPSS_第1页
第7章相关分析与回归分析含SPSS_第2页
第7章相关分析与回归分析含SPSS_第3页
第7章相关分析与回归分析含SPSS_第4页
第7章相关分析与回归分析含SPSS_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.第七章第七章 相关分析与回归分析相关分析与回归分析.本章内容本章内容v第一节第一节 相关分析相关分析v第二节第二节 线性回归分析线性回归分析 v第三节第三节 曲线估计曲线估计.第一节第一节 相关分析相关分析一、相关分析的概念与类型一、相关分析的概念与类型(一)相关分析的基本概念(一)相关分析的基本概念 相关关系是指变量之间存在的不确定的依存关系,相关关系是指变量之间存在的不确定的依存关系,即当一个变量取一定值时,另一变量无法依确定即当一个变量取一定值时,另一变量无法依确定的函数取唯一确定的值,然而它仍按某种规律在的函数取唯一确定的值,然而它仍按某种规律在一定的范围内变化。一定的范围内变化。.

2、(二)相关关系的类型(二)相关关系的类型 1、按相关关系的程度,分为完全相关、不完全相关、按相关关系的程度,分为完全相关、不完全相关和零相关。和零相关。 2、按相关变量的变化方向,分为正相关和负相关。、按相关变量的变化方向,分为正相关和负相关。 3、按相关关系的表现形式,分为线性相关和曲线相、按相关关系的表现形式,分为线性相关和曲线相关。关。 4、按变量多少,分为单相关、复相关和偏相关。、按变量多少,分为单相关、复相关和偏相关。 5、按相关性质,分为、按相关性质,分为“真实相关真实相关”和和“虚假相关虚假相关” 绘制散点图和计算相关系数是相关分析最常用的工绘制散点图和计算相关系数是相关分析最常

3、用的工具,它们的相互结合能够达到较为理想的分析效果。具,它们的相互结合能够达到较为理想的分析效果。.二、散点图二、散点图 (一)散点图的特点(一)散点图的特点 绘制散点图是相关分析过程中极为常用且非常直观绘制散点图是相关分析过程中极为常用且非常直观的分析方法,它将数据以点的形式画在直角平面上。的分析方法,它将数据以点的形式画在直角平面上。通过观察散点图可以比较直观地看出变量之间的相通过观察散点图可以比较直观地看出变量之间的相关关系以及它们的强弱程度和数据的可能走向。通关关系以及它们的强弱程度和数据的可能走向。通常橄榄球和棒状代表了数据对的主要结构和特征,常橄榄球和棒状代表了数据对的主要结构和特

4、征,可以利用曲线将这种主要结构的轮廓描述出来,使可以利用曲线将这种主要结构的轮廓描述出来,使数据的主要特征更突显。数据的主要特征更突显。.(二)散点图在(二)散点图在SPSS中的实现中的实现 1、建立或打开数据文件后,进入、建立或打开数据文件后,进入“Graphs” “Legacy Dialogs”“Scatter/Dot”主对话框,如图主对话框,如图7-1所示。所示。v图图7-1 散点图主对话框散点图主对话框. 2、选择散点图的类型。、选择散点图的类型。SPSS中提供了四种散点中提供了四种散点图,分别是简单散点图(图,分别是简单散点图(Simple)、重叠散点图)、重叠散点图(Overlay

5、)、矩阵散点图()、矩阵散点图(Matrix)和三维散)和三维散点图(点图(3-D)。)。 3、根据所选择的散点图的类型,按、根据所选择的散点图的类型,按Define按钮按钮对散点图作具体定义。不同类型的散点图其具体对散点图作具体定义。不同类型的散点图其具体的定义选项略有差别。的定义选项略有差别。 .三、相关系数三、相关系数(一)相关系数的概念和分析步骤(一)相关系数的概念和分析步骤 相关系数能够以数字的方式准确描述变量间的线相关系数能够以数字的方式准确描述变量间的线性关系程度和方向。性关系程度和方向。 相关系数的分析步骤:相关系数的分析步骤: 1、计算样本相关系数、计算样本相关系数 对不同类

6、型的变量应采用不同的相关系数指标,对不同类型的变量应采用不同的相关系数指标,但它们的取值范围和含义都是相同的,即相关但它们的取值范围和含义都是相同的,即相关系数系数 没有单位,其值在没有单位,其值在-1+1 之间。之间。 rr. 2、对样本来自的两总体是否存在显著的线性关系、对样本来自的两总体是否存在显著的线性关系进行推断。进行推断。 (1)提出)提出原假设:总体中两个变量间的相关系数原假设:总体中两个变量间的相关系数为为0,即两总体无显著的线性相关关系。,即两总体无显著的线性相关关系。 (2)选择检验统计量。对不同类型的变量应采用)选择检验统计量。对不同类型的变量应采用不同的相关系数,对应也

7、应采用不同的检验统计量。不同的相关系数,对应也应采用不同的检验统计量。 (3)计算检验统计量的观测值和相伴概率)计算检验统计量的观测值和相伴概率 值。值。 (4)给定显著性水平)给定显著性水平 ,并作出决策。如果相伴,并作出决策。如果相伴概率值小于或等于给定的显著性水平,则拒绝原假概率值小于或等于给定的显著性水平,则拒绝原假设;如果相伴概率值大于给定的显著性水平,则不设;如果相伴概率值大于给定的显著性水平,则不能拒绝原假设。能拒绝原假设。p.v(二)相关系数的种类(二)相关系数的种类v 1、Pearson 简单相关系数简单相关系数v Pearson 简单相关系数用来度量定距型变量间的线性简单相

8、关系数用来度量定距型变量间的线性相关关系,它的数学定义为:相关关系,它的数学定义为:v v (7.1)v Pearson 简单相关系数的检验统计量为统计量,其数简单相关系数的检验统计量为统计量,其数学定义为:学定义为:v v (7.2)v SPSS将自动计算将自动计算Pearson 简单相关系数、检验统计量简单相关系数、检验统计量的观察值和对应的概率值。的观察值和对应的概率值。22)()()( )(yyxxyyxxiiiir212rnrt.v 2、Spearman等级相关系数等级相关系数v Spearman等级相关系数用来度量定序变量间的线性相等级相关系数用来度量定序变量间的线性相关关系,设计

9、思想与关关系,设计思想与Pearson简单相关系数相同,只是数简单相关系数相同,只是数据为非定距的,故计算时并不直接采用原始数据据为非定距的,故计算时并不直接采用原始数据 ,而是利用数据的秩,用两变量的秩而是利用数据的秩,用两变量的秩 代替代替 代代入入Pearson简单相关系数计算公式中,于是其中的简单相关系数计算公式中,于是其中的 和和 的取值范围被限制在的取值范围被限制在1和和 之间,且可被简化为:之间,且可被简化为:v式中:式中:(,)iixy(,)iixy(,)iiU Vixiyn) 1(61212nnDrnii2112)(niniiiiVUD.v 如果两变量的正相关性较强,它们秩的

10、变化具有同步性,如果两变量的正相关性较强,它们秩的变化具有同步性,于是于是 的值较小,的值较小,r趋向于趋向于1;v 如果两变量的正相关性较弱,它们秩的变化不具有同步性,如果两变量的正相关性较弱,它们秩的变化不具有同步性,于是于是 的值较大,的值较大,r趋向于趋向于0;v 在小样本下,在零假设成立时,在小样本下,在零假设成立时, Spearman等级相关系数等级相关系数服从服从Spearman分布;在大样本下,分布;在大样本下, Spearman等级相关系等级相关系数的检验统计量为数的检验统计量为Z统计量,定义为:统计量,定义为: v Z统计量近似服从标准正态分布。统计量近似服从标准正态分布。

11、v SPSS将自动计算将自动计算Spearman等级相关系数,等级相关系数, 检验统计量检验统计量的观察值和相伴概率的观察值和相伴概率 值。值。22i11()nniiiiDUV1Zr n22i11()nniiiiDUVZp.v 3、Kendall 相关系数相关系数v Kendall 相关采用非参数检验方法用来度量定序变量相关采用非参数检验方法用来度量定序变量间的线性相关关系。它利用变量秩数据计算一致对数目间的线性相关关系。它利用变量秩数据计算一致对数目 和非一致对数目和非一致对数目 。v Kendall 相关正是要对此进行检验。相关正是要对此进行检验。Kendall 统计统计量的数学定义为量的

12、数学定义为v (7.5)v 在小样本下在小样本下Kendall 服从服从Kendall分布。在大样本下分布。在大样本下采用的检验统计量为采用的检验统计量为v v (7.6)v 在公式(在公式(7.6)中,)中, 统计量近似服从标准正态分布。统计量近似服从标准正态分布。vSPSS将自动计算将自动计算Kendall 相关、相关、 检验统计量的观测检验统计量的观测值和相伴概率值和相伴概率 值。值。)1(2nnVU)( U V)52(2) 1(n9nnZZZp.v(三)相关系数在(三)相关系数在SPSS中的实现中的实现v 1、建立或打开数据文件后,进入、建立或打开数据文件后,进入AnalyzeCorr

13、elateBivariate主对话框,如图主对话框,如图7-4所示。所示。v图图7-4 相关分析主对话框相关分析主对话框. 2、选择参加计算相关系数的变量到、选择参加计算相关系数的变量到Variables框。框。 3、Correlation Coefficients分析方法选择项,有分析方法选择项,有三种相关系数,如三种相关系数,如Pearson复选项、复选项、Spearman复选复选项、项、Kendalls tau-b 复选项,对应于三种分析方法。复选项,对应于三种分析方法。 4、Test of Significance选择显著性检验类型。选择显著性检验类型。Two tailed 双尾检验选

14、项,双尾检验选项,One tailed 单尾检验选项。单尾检验选项。 5、Flag significant Correlations 复选项,如果选复选项,如果选中此项,输出结果中除显示统计检验的概率中此项,输出结果中除显示统计检验的概率 值以值以外,还输出星号标记,相关系数右上方使用外,还输出星号标记,相关系数右上方使用“*”表表示显著水平为示显著水平为5%;用;用“*”表示其显著水平为表示其显著水平为1%。p.v6、Options 对话框中的选择项对话框中的选择项v 在相关分析主对话框中单击在相关分析主对话框中单击“Options”按钮,展开按钮,展开Options 对话框,如图对话框,如

15、图7-5所示。所示。图图7-5 Options 对话框对话框.v(1)Statistics选择项中有两个有关统计量的选择选择项中有两个有关统计量的选择项:项:v Means and standard deviations复选项,要复选项,要求计算并输出均值与标准差;求计算并输出均值与标准差;v Cross-product deviations and covariances复选项,要求计算并输出叉积离差阵复选项,要求计算并输出叉积离差阵和协方差阵。和协方差阵。v (2)Missing Values选择项中有两个关于缺失选择项中有两个关于缺失值处理方法的选择项:值处理方法的选择项:v Exclu

16、de cases pairwise选项,仅剔除正在选项,仅剔除正在参与计算的两个变量值是缺失值的观测量。参与计算的两个变量值是缺失值的观测量。v Exclude cases listwise选项,剔除带有缺失选项,剔除带有缺失值的所有观测量。值的所有观测量。.v四、偏相关分析四、偏相关分析v(一)(一) 偏相关分析和偏相关系数偏相关分析和偏相关系数v 偏相关分析也称净相关分析,它在控制其他变量偏相关分析也称净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性相关性,的线性影响的条件下分析两变量间的线性相关性,所采用的工具是偏相关系数(净相关系数)。所采用的工具是偏相关系数(净相关系

17、数)。v 偏相关分析的主要用途是根据观测资料应用偏相偏相关分析的主要用途是根据观测资料应用偏相关分析计算偏相关系数,可以判断哪些解释变量对关分析计算偏相关系数,可以判断哪些解释变量对被解释变量的影响较大,而选择作为必须考虑的解被解释变量的影响较大,而选择作为必须考虑的解释变量。这样在计算多元回归分析时,只要保留起释变量。这样在计算多元回归分析时,只要保留起主要作用的解释变量,用较少的解释变量描述被解主要作用的解释变量,用较少的解释变量描述被解释变量的平均变动量。释变量的平均变动量。.v 利用偏相关系数进行变量间相关分析通常需要完利用偏相关系数进行变量间相关分析通常需要完成以下两大步骤:成以下两

18、大步骤:v 1、计算样本的偏相关系数。、计算样本的偏相关系数。v 在分析变量在分析变量 和和 之间的净相关时,当控制了之间的净相关时,当控制了 的线性作用后,的线性作用后, 和和 之间的一阶偏相关系数定之间的一阶偏相关系数定义为义为 (7.7)v偏相关系数的取值范围及大小含义与相关系数相同。偏相关系数的取值范围及大小含义与相关系数相同。1xy2x1xy)1)(1 (2122212212, 1rrrrrryyyy. 2、对样本来自的两总体是否存在显著的偏相关、对样本来自的两总体是否存在显著的偏相关进行推断。进行推断。 (1)提出)提出原假设:两总体的偏相关系数与零无显原假设:两总体的偏相关系数与

19、零无显著差异。著差异。 (2)选择检验统计量。偏相关系数的检验统计量)选择检验统计量。偏相关系数的检验统计量为为 统计量。统计量。 (3)计算检验统计量的观测值和相伴概率)计算检验统计量的观测值和相伴概率 。 (4)给定显著性水平)给定显著性水平 ,并作出决策。如果相,并作出决策。如果相伴概率值小于或等于给定的显著性水平,则拒绝伴概率值小于或等于给定的显著性水平,则拒绝原假设;如果相伴概率值大于给定的显著性水平,原假设;如果相伴概率值大于给定的显著性水平,则不能拒绝原假设。则不能拒绝原假设。pt.v(二)偏相关系数在(二)偏相关系数在SPSS中的实现中的实现v 1、建立或打开数据文件后,进入、

20、建立或打开数据文件后,进入Analyze Correlate Partial主对话框,如图主对话框,如图7-6所示。所示。图图7-6 偏相关分析主对话框偏相关分析主对话框. 2、选择分析变量送入、选择分析变量送入Valiables框,选择控制变框,选择控制变量进入量进入Controlling for框。框。 3、在、在Test of Significance 栏中选择输出偏相关栏中选择输出偏相关检验的双尾(检验的双尾(Two-tailed)概率)概率 值还是单尾值还是单尾(One-tailed)概率)概率 值。值。 4、选择、选择Display actual significance leve

21、l复选复选项,表示显示相关系数的同时,显示实际的显著项,表示显示相关系数的同时,显示实际的显著性概率。不选择此项,其显著性概率使用星号性概率。不选择此项,其显著性概率使用星号“*”来代替。来代替。pp.v 5、在偏相关分析主对话框中单击、在偏相关分析主对话框中单击“Options”按钮,按钮,进入进入Options 对话框,如图对话框,如图7-7所示。所示。图图7-7 偏相关分析的选项对话框偏相关分析的选项对话框. (1)Statistics 统计量选择项,有两个选项:统计量选择项,有两个选项: Means and standard deviations 复选项,要求复选项,要求SPSS计算并

22、显示各分析变量的均值和标准差。计算并显示各分析变量的均值和标准差。Zero-order correlations 复选项,要求显示零复选项,要求显示零阶相关矩阵,即阶相关矩阵,即Pearson 相关矩阵。相关矩阵。 (2)Missing Values 处理缺失值观测量的选择项。处理缺失值观测量的选择项。.第二节第二节 线性回归分析线性回归分析(一)回归分析的概念和一般步骤(一)回归分析的概念和一般步骤 1、回归分析的概念、回归分析的概念 回归分析是指根据相关关系的具体形态,选择一回归分析是指根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变个合适的数学模型,来近似地表达

23、变量间的平均变化关系。回归分析不仅可以提供变量之间相关关系化关系。回归分析不仅可以提供变量之间相关关系的数学表达式,而且还可以利用所得的经验公式,的数学表达式,而且还可以利用所得的经验公式,根据一个或几个变量的值,预测或控制另一个变量根据一个或几个变量的值,预测或控制另一个变量的值,并且可以知道这种预测和控制可达到什么样的值,并且可以知道这种预测和控制可达到什么样的精确程度。另外,还可以进行因素分析。因此,的精确程度。另外,还可以进行因素分析。因此,回归分析是一种应用极为广泛的数量分析方法。回归分析是一种应用极为广泛的数量分析方法。.2、回归分析的一般步骤、回归分析的一般步骤 (1)确定回归方

24、程中的解释变量(自变量)和)确定回归方程中的解释变量(自变量)和被解释变量(因变量)。被解释变量(因变量)。 (2)确定回归模型。)确定回归模型。 (3)建立回归方程。)建立回归方程。 (4)对回归方程进行各种检验。)对回归方程进行各种检验。 (5)利用回归方程进行预测。)利用回归方程进行预测。 利用利用SPSS进行回归分析时,应重点关注上述过进行回归分析时,应重点关注上述过程中第一步和最后一步,至于中间各步,程中第一步和最后一步,至于中间各步,SPSS会自动进行计算并给出最佳的模型。会自动进行计算并给出最佳的模型。.v(二)线性回归模型(二)线性回归模型v1、一元线性回归模型、一元线性回归模

25、型v一元线性回归模型是指只有一个解释变量的线性回归模一元线性回归模型是指只有一个解释变量的线性回归模型,用于揭示被解释变量与另一个解释变量之间的线性型,用于揭示被解释变量与另一个解释变量之间的线性关系。数学模型是:关系。数学模型是:v (7.9)v 式(式(7.9)中)中 为解释变量;为解释变量; 为被解释变量;为被解释变量; 为截为截距,即常量;距,即常量; 为回归系数,表明解释变量对被解释变为回归系数,表明解释变量对被解释变量的影响程度;量的影响程度; 为随机误差。公式表明:被解释变量为随机误差。公式表明:被解释变量的变化可由两部分来解释,第一部分由解释变量的变化的变化可由两部分来解释,第

26、一部分由解释变量的变化引起的引起的 的线性变化部分;第二部分由其他随机因素引的线性变化部分;第二部分由其他随机因素引起的起的 的变化部分。的变化部分。01xy10 xyyy. 用最小二乘法求解方程中的两个参数,得到:用最小二乘法求解方程中的两个参数,得到:21)()(xxyyxxiiixby 0.v2、多元线性回归方程、多元线性回归方程v多元线性回归方程是指含有多个解释变量的线性回归模多元线性回归方程是指含有多个解释变量的线性回归模式,用于揭示被解释变量与其他多个解释变量之间的线式,用于揭示被解释变量与其他多个解释变量之间的线性关系。数学模型为:性关系。数学模型为:v (7.12)v 式(式(

27、7.12)是一个)是一个 元线性回归模型,其中有元线性回归模型,其中有 个解个解释变量。释变量。 、 、 、 分别称为回归常数和偏回归分别称为回归常数和偏回归系数,为随机误差。公式表明:被解释变量的变化可由系数,为随机误差。公式表明:被解释变量的变化可由两部分来解释,第一部分由两部分来解释,第一部分由 个解释变量变化引起的个解释变量变化引起的 的线性变化部分;第二部分由其他随机因素引起的的线性变化部分;第二部分由其他随机因素引起的 的的变化部分。变化部分。ppxxxy.22110pp01p、 pyy. (三)线性回归方程的假设理论(三)线性回归方程的假设理论 德国数学家高斯提出德国数学家高斯提

28、出5 个假设理论,即正态性假设、个假设理论,即正态性假设、等方差假设、独立性假设、无自相关性假设、等方差假设、独立性假设、无自相关性假设、 与与 的不相关性。满足这些假设的线性回归模型称为古的不相关性。满足这些假设的线性回归模型称为古典线性模型:典线性模型: (四)线性回归分析的数据要求(四)线性回归分析的数据要求 1、解释变量与被解释变量应该是数值型变量,分、解释变量与被解释变量应该是数值型变量,分类变量应重新编码为哑变量或其他类型的对比变量。类变量应重新编码为哑变量或其他类型的对比变量。 2、被解释变量的分布必须是正态的,被解释变量、被解释变量的分布必须是正态的,被解释变量的方差分布必须是

29、一个常数。被解释变量和每一个的方差分布必须是一个常数。被解释变量和每一个解释变量变量的关系必须是线性关系,所有的观察解释变量变量的关系必须是线性关系,所有的观察量必须是相互独立的。量必须是相互独立的。x.v二、线性回归方程的统计检验二、线性回归方程的统计检验v(一)回归方程的拟合优度检验(一)回归方程的拟合优度检验v 回归方程的拟合优度检验就是要检验样本数据点聚集回归方程的拟合优度检验就是要检验样本数据点聚集在回归直线周围的密集程度,从而评价回归方程对样本在回归直线周围的密集程度,从而评价回归方程对样本数据的代表程度。我们知道,被解释变量各个观察值之数据的代表程度。我们知道,被解释变量各个观察

30、值之间的差异主要是由解释变量的不同取值和其他因素造成间的差异主要是由解释变量的不同取值和其他因素造成的。用公式表示为:的。用公式表示为:v (7.13)v (7.14)v 从式(从式(7.14)中可以看出,当所有样本点都落在回归)中可以看出,当所有样本点都落在回归直线上,回归方程的拟合优度一定是最高的。拟合优度直线上,回归方程的拟合优度一定是最高的。拟合优度的统计量正是基于这种基本思想构造出来的。的统计量正是基于这种基本思想构造出来的。SSESSASST222) ()()(yyyyyyiii.v 1、一元线性回归方程的拟合优度检验、一元线性回归方程的拟合优度检验v 在判定一个线性回归直线的拟合

31、优度的好坏时,在判定一个线性回归直线的拟合优度的好坏时,判定系数系数是一个重要的判定指标。判定系数判定系数系数是一个重要的判定指标。判定系数等于回归平方和在总平方和中所占的比率,即体等于回归平方和在总平方和中所占的比率,即体现了回归模型所能解释的被解释变量变异性的百现了回归模型所能解释的被解释变量变异性的百分比。计算公式为:分比。计算公式为: = (7.15)SSTSSESSTSSESSTSSTSSAR12221yyyyiii.v2、多元线性回归方程的拟合优度检验、多元线性回归方程的拟合优度检验v 在多元线性回归方程中采用调整的在多元线性回归方程中采用调整的 作为拟合作为拟合优度检验指标,计算

32、公式为:优度检验指标,计算公式为:vAdjusted = (7.16)2R) 1/() 1/(122nyyknyyiii2R.v(二)回归方程的显著性检验(二)回归方程的显著性检验v 回归方程的显著性检验是检验被解释变量与所回归方程的显著性检验是检验被解释变量与所有解释变量之间的线性关系是否显著,是否可以有解释变量之间的线性关系是否显著,是否可以用线性模型来描述被解释变量和解释变量之间的用线性模型来描述被解释变量和解释变量之间的关系。关系。v 回归方程显著性检验的基本出发点与拟合优度回归方程显著性检验的基本出发点与拟合优度检验非常相识。检验非常相识。.1、一元线性回归方程的显著性检验、一元线性

33、回归方程的显著性检验 一元线性回归方程显著性检验的一元线性回归方程显著性检验的原假设是:回归系数与原假设是:回归系数与零无显著差异。零无显著差异。 一元线性回归方程显著性检验采用一元线性回归方程显著性检验采用 统计量,计算公式统计量,计算公式为:为: (7.17) SPSS将自动计算将自动计算 统计量及相伴概率统计量及相伴概率 值。如果相伴值。如果相伴概率值小于或等于给定的显著性水平概率值小于或等于给定的显著性水平 ,则拒绝原假设;,则拒绝原假设;如果相伴概率值大于给定的显著性水平,则不能拒绝原如果相伴概率值大于给定的显著性水平,则不能拒绝原假设。假设。),(21)2/()(1/)()2/(1

34、/22nFnyyyynSSESSAFiiiFpF.v2、多元线性回归方程的显著性检验、多元线性回归方程的显著性检验v多元线性回归方程显著性检验的多元线性回归方程显著性检验的原假设是:所有偏回归原假设是:所有偏回归系数同时与零无显著差异。系数同时与零无显著差异。v 多元线性回归方程显著性检验采用多元线性回归方程显著性检验采用 统计量,计算公统计量,计算公式为:式为:v v SPSS将自动计算将自动计算 统计量及相伴概率统计量及相伴概率 值。如果相值。如果相伴概率值小于或等于给定的显著性水平伴概率值小于或等于给定的显著性水平 ,则拒绝原假,则拒绝原假设;如果相伴概率值大于给定的显著性水平,则不能拒

35、设;如果相伴概率值大于给定的显著性水平,则不能拒绝原假设。绝原假设。),(1p) 1/()(/)() 1/(/22pnFpnyypyypnSSEpSSAFiiiFpF.v 通过上面的分析不难发现,回归方程的显著性通过上面的分析不难发现,回归方程的显著性检验和回归方程的拟合优度检验有异曲同工之处。检验和回归方程的拟合优度检验有异曲同工之处。回归方程的拟合优度越高,回归方程的显著性检验回归方程的拟合优度越高,回归方程的显著性检验也会越显著。但应注意的是,回归方程的拟合优度也会越显著。但应注意的是,回归方程的拟合优度检验实质上并非统计学的统计检验问题,它不涉及检验实质上并非统计学的统计检验问题,它不

36、涉及统计检验的一系列步骤,因此,回归方程的拟合优统计检验的一系列步骤,因此,回归方程的拟合优度检验本质上仅仅是一种刻画性的描述,不涉及对度检验本质上仅仅是一种刻画性的描述,不涉及对解释变量和被解释变量总体线性关系的推断,而这解释变量和被解释变量总体线性关系的推断,而这恰恰是回归方程显著性检验所要实现的目标。恰恰是回归方程显著性检验所要实现的目标。.v(三)回归系数的显著性检验(三)回归系数的显著性检验v 回归系数的显著性检验的主要目的是研究回归方回归系数的显著性检验的主要目的是研究回归方程中的每个解释变量与被解释变量之间是否存在显程中的每个解释变量与被解释变量之间是否存在显著的线性关系,也就是

37、研究每个解释变量能否有效著的线性关系,也就是研究每个解释变量能否有效地解释被解释变量的线性关系,它们能否应保留在地解释被解释变量的线性关系,它们能否应保留在线性回归方程中。线性回归方程中。v 回归系数显著性检验是围绕回归系数(或偏回归回归系数显著性检验是围绕回归系数(或偏回归系数)估计值的抽样分布展开的,由此构造服从某系数)估计值的抽样分布展开的,由此构造服从某种理论分布的检验统计量,并进行检验。种理论分布的检验统计量,并进行检验。.v1、一元线性回归方程的回归系数显著性检验、一元线性回归方程的回归系数显著性检验v 一元线性回归方程的回归系数显著性检验的一元线性回归方程的回归系数显著性检验的原

38、假设是:原假设是:回归系数与零无显著差异。回归系数与零无显著差异。v 回归系数显著性检验一般采用回归系数显著性检验一般采用 检验的方法,其计算检验的方法,其计算公式为:公式为:v (7.19)v SPSS在自动计算回归系数的在自动计算回归系数的 值后,会给出相伴概率值后,会给出相伴概率值。如果相伴概率值小于或等于给定的显著性水平值。如果相伴概率值小于或等于给定的显著性水平 ,则,则拒绝原假设;如果相伴概率值大于给定的显著性水平,则拒绝原假设;如果相伴概率值大于给定的显著性水平,则不能拒绝原假设。不能拒绝原假设。)2()(21ntxxtitpt.v2、多元线性回归方程的回归系数显著性检验、多元线

39、性回归方程的回归系数显著性检验v 一元线性回归方程的回归系数显著性检验的一元线性回归方程的回归系数显著性检验的原假设是:第原假设是:第 个偏回归系数与零无显著差异。个偏回归系数与零无显著差异。v 回归系数显著性检验一般采用回归系数显著性检验一般采用 检验的方法,其计算公检验的方法,其计算公式为:式为:v (7.21)v SPSS在自动计算每个回归系数的在自动计算每个回归系数的 值后,会给出相伴概值后,会给出相伴概率率 值。如果相伴概率值小于或等于给定的显著性水平值。如果相伴概率值小于或等于给定的显著性水平 ,则拒绝原假设;如果相伴概率值大于给定的显著性水平,则则拒绝原假设;如果相伴概率值大于给

40、定的显著性水平,则不能拒绝原假设。不能拒绝原假设。) 1()(2pntxxtiijiitpit.v 在一元线性回归分析中,回归方程显著性检验和在一元线性回归分析中,回归方程显著性检验和回归系数显著性检验的作用是相同的,两者可以相回归系数显著性检验的作用是相同的,两者可以相互替代。同时,回归方程显著性检验中统计量恰好互替代。同时,回归方程显著性检验中统计量恰好等于回归系数显著性检验中统计量的平方。等于回归系数显著性检验中统计量的平方。v 多元线性模型中,回归方程显著性检验与回归系多元线性模型中,回归方程显著性检验与回归系数显著性检验的作用不尽相同。回归方程显著性检数显著性检验的作用不尽相同。回归

41、方程显著性检验只能检验所有偏回归系数是否同时为零。回归系验只能检验所有偏回归系数是否同时为零。回归系数显著性检验对每个偏回归系数是否为零进行逐一数显著性检验对每个偏回归系数是否为零进行逐一考察。因此,多元线性回归方程中的这两种检验不考察。因此,多元线性回归方程中的这两种检验不能互相替代。能互相替代。.v(四)回归方程的残差分析(四)回归方程的残差分析v 所谓残差是指由回归方程计算所得的预测值与实所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距。它是回归模型中的估计值,际样本值之间的差距。它是回归模型中的估计值,由多个形成的序列称为残差序列。数学表达式为:由多个形成的序列称为残差序列

42、。数学表达式为:v (7.23)v 残差分析是回归方程检验中的重要组成部分,其残差分析是回归方程检验中的重要组成部分,其出发点是:如果回归方程能够较好地反映被解释变出发点是:如果回归方程能够较好地反映被解释变量的特征和变化规律,那么残差序列中应不包含明量的特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性。残差分析正是基于这种考虑显的规律性和趋势性。残差分析正是基于这种考虑并围绕对残差的检验展开,主要任务有以下四个方并围绕对残差的检验展开,主要任务有以下四个方面。面。).(22110ppiiiixxxyyye.v1、残差均值为、残差均值为0的正态性分析的正态性分析v 残差均值为残差均值

43、为0的正态性分析,又名残差的正态的正态性分析,又名残差的正态性检验。性检验。v 对于残差序列的正态性分析,我们可以通过绘对于残差序列的正态性分析,我们可以通过绘制残差图对该问题进行分析。残差图也是一种散制残差图对该问题进行分析。残差图也是一种散点图,图中一般横坐标是解释变量(也可以是被点图,图中一般横坐标是解释变量(也可以是被解释变量的预测值),纵坐标为残差。如果残差解释变量的预测值),纵坐标为残差。如果残差的均值为的均值为0,残差图中的点应在纵坐标为,残差图中的点应在纵坐标为0的横线的横线上下随机散落。我们还可以通过绘制标准化(或上下随机散落。我们还可以通过绘制标准化(或学生化)残差序列的带

44、正态曲线的直方图或累计学生化)残差序列的带正态曲线的直方图或累计概率图来分析。概率图来分析。.v 2、残差序列的独立性分析、残差序列的独立性分析v 在对回归模型的诊断中,需要诊断回归模型中在对回归模型的诊断中,需要诊断回归模型中的误差序列的独立性。残差独立性分析可以通过的误差序列的独立性。残差独立性分析可以通过以下三种方式实现:以下三种方式实现:v(1)绘制残差序列的序列图。)绘制残差序列的序列图。v 在直角坐标系中,常以预测值在直角坐标系中,常以预测值 为横轴,以为横轴,以 与与 之间的误差(或学生式残差值)为纵轴,绘之间的误差(或学生式残差值)为纵轴,绘制残差的散点图。如果散点图呈现出明显

45、的规律制残差的散点图。如果散点图呈现出明显的规律性,则认为存在自相关性,或者存在非线性、非性,则认为存在自相关性,或者存在非线性、非常数方差的问题。常数方差的问题。v 利用残差图还可以判断模型拟合效果。利用残差图还可以判断模型拟合效果。y y y.v(2)计算残差的自相关系数。)计算残差的自相关系数。v 自相关系数是一种测度序列自相关强弱的工具,自相关系数是一种测度序列自相关强弱的工具,数学定义为:数学定义为: v v 自相关系数的取值范围在自相关系数的取值范围在-1和和+1之间,接近于之间,接近于1表明序列存在正自相关,接近表明序列存在正自相关,接近-1表明序列存在表明序列存在负自相关。负自

46、相关。ntntttnntteeeep2221221.v(3) (Durbin-Watson)检验检验v 检验是推断是否存在自相关的统计检验方法。其检验是推断是否存在自相关的统计检验方法。其原假设是:总体的自相关系数与零无显著差异。原假设是:总体的自相关系数与零无显著差异。采用的采用的检验统计量是检验统计量是 统计量。统计量。v (7.25)v 的取值范围是的取值范围是04,它的统计学意义如下:,它的统计学意义如下: =0时,时,残差序列存在完全正自相关;残差序列存在完全正自相关; 2时,残差与解释变量时,残差与解释变量互为独立,即残差不存在自相关;互为独立,即残差不存在自相关; 2时,相邻两点

47、的时,相邻两点的残差为正相关;残差为正相关; 2时,相邻两点的残差为负相关;时,相邻两点的残差为负相关; =4时,残差序列存在完全负自相关。时,残差序列存在完全负自相关。)1 (2)(22221nttnttteeeDWDWDWDWDWDWDWDWDWDW.v 3、异方差分析、异方差分析v 异方差分析即方差齐性检验。异方差分析可以通过以下两种异方差分析即方差齐性检验。异方差分析可以通过以下两种方式实现:方式实现:v (1)绘制残差图)绘制残差图v 一般用绘制被解释变量预测值与学生式残差的散点图来检验,一般用绘制被解释变量预测值与学生式残差的散点图来检验,残差应随机地分布在一条穿过零点的水平直线的

48、两侧。残差应随机地分布在一条穿过零点的水平直线的两侧。v (2)等级相关分析)等级相关分析v 得到残差序列后首先对其取绝对值,然后分别计算出残差和得到残差序列后首先对其取绝对值,然后分别计算出残差和解释变量的秩,最后计算解释变量的秩,最后计算Spearman等级相关系数,并进行等等级相关系数,并进行等级相关分析。如果等级相关分析中检验统计量的概率值小于给级相关分析。如果等级相关分析中检验统计量的概率值小于给定的显著性水平,应拒绝等级相关分析的原假设,认为解释变定的显著性水平,应拒绝等级相关分析的原假设,认为解释变量与残差间存在显著的相关关系,出现了异方差现象。量与残差间存在显著的相关关系,出现

49、了异方差现象。 .v4、探测样本中的异常值和强影响点、探测样本中的异常值和强影响点v 异常值和强影响点是指那些远离远离均值的样本异常值和强影响点是指那些远离远离均值的样本数据点,它们对回归方程的参数估计有较大的影响,数据点,它们对回归方程的参数估计有较大的影响,应尽量找出它们并加以排除。应尽量找出它们并加以排除。v (1)对被解释变量中影响点的探测方法有标准)对被解释变量中影响点的探测方法有标准化残差(化残差(Dresid)、学生化残差)、学生化残差(Sdresid)、剔、剔除残差。除残差。v (2)对解释变量中影响点的探测方法有杠杆值、)对解释变量中影响点的探测方法有杠杆值、库克距离(库克距

50、离(Cook距离)、标准化回归系数的变化距离)、标准化回归系数的变化和标准化预测值的变化。和标准化预测值的变化。.v三、共线性分析三、共线性分析v (一)解释变量的筛选方法(一)解释变量的筛选方法v 如果某些解释变量彼此相关,即存在共线性问题,就需要如果某些解释变量彼此相关,即存在共线性问题,就需要对回归方程中的解释变量加以控制和筛选。在多元线性回归对回归方程中的解释变量加以控制和筛选。在多元线性回归时,变量的筛选一般有向前引入法、向后剔除法和逐步引入时,变量的筛选一般有向前引入法、向后剔除法和逐步引入-剔除法三种基本方法。剔除法三种基本方法。v 1、向前引入法(、向前引入法(Forward)

51、:指解释变量由少到多一个):指解释变量由少到多一个一个引入回归方程,直到不能按检验水准引入新的变量为止。一个引入回归方程,直到不能按检验水准引入新的变量为止。v 2、向后剔除法(、向后剔除法(Backward):指解释变量由多到少一个):指解释变量由多到少一个一个从回归方程中剔除,直到不能按检验水准剔除为止。一个从回归方程中剔除,直到不能按检验水准剔除为止。v 3、逐步引入、逐步引入-剔除法(剔除法(Stepwise):是指将向前引入法和):是指将向前引入法和向后剔除法结合起来,在向前引入的每一步之后都要考虑从向后剔除法结合起来,在向前引入的每一步之后都要考虑从已引入方程的变量中剔除作用不显著

52、者。已引入方程的变量中剔除作用不显著者。.v(二)解释变量间多重共线性的测度(二)解释变量间多重共线性的测度v 1、解释变量的容忍度、解释变量的容忍度(Tolerance)v 某解释变量的容忍度定义为:某解释变量的容忍度定义为: ,取值范围在,取值范围在0至至1之间,如果某解释变量的容忍度较大,一方面说明该解之间,如果某解释变量的容忍度较大,一方面说明该解释变量对被解释变量变差的解释关系能力较强,另一方面释变量对被解释变量变差的解释关系能力较强,另一方面也说明该解释变量与其他解释变量的相关性越弱,即多重也说明该解释变量与其他解释变量的相关性越弱,即多重共线性较低,应将其引入回归方程。共线性较低

53、,应将其引入回归方程。v 2、方差膨胀因子、方差膨胀因子(VIF)v 方差膨胀因子是容忍度的倒数,其值介于方差膨胀因子是容忍度的倒数,其值介于1-之间。其之间。其值越大,解释变量之间存在共线性的可能性越大。值越大,解释变量之间存在共线性的可能性越大。21iiRTol.v 3.特征根(特征根(Eigenvalues)v 特征根中,如果最大特征根的值远远大于其他特征根的值,特征根中,如果最大特征根的值远远大于其他特征根的值,则说明这些解释变量间具有相当多的重叠信息,原因是仅通则说明这些解释变量间具有相当多的重叠信息,原因是仅通过这一个特征根就基本刻画了所有解释变量的绝大部分信息。过这一个特征根就基

54、本刻画了所有解释变量的绝大部分信息。v 4.方差比(方差比(Variance Proportions)v 如果某个特征根既能够刻画某解释变量方差的较大部分比如果某个特征根既能够刻画某解释变量方差的较大部分比例,同时又可以刻画另一个解释变量方差的较大部分比例,例,同时又可以刻画另一个解释变量方差的较大部分比例,则表明这两个解释变量间存在较强的线性相关关系。则表明这两个解释变量间存在较强的线性相关关系。v 5.条件指数(条件指数(Condition Index)v 条件指数是最大的特征根与第个特征根比的平方根。其值条件指数是最大的特征根与第个特征根比的平方根。其值越大,说明解释变量间的多重共线性越

55、严重。越大,说明解释变量间的多重共线性越严重。.v(三)共线性问题的解决方法(三)共线性问题的解决方法v 共线性问题是建立回归模型过程中比较常见而共线性问题是建立回归模型过程中比较常见而又较难克服的问题,常用的方法有:又较难克服的问题,常用的方法有:v (1)从有共线性问题的解释变量中剔除不重)从有共线性问题的解释变量中剔除不重要的解释变量。要的解释变量。v (2)增加样本量。)增加样本量。v (3)重新抽取样本数据。不同样本的观察量)重新抽取样本数据。不同样本的观察量的共线性是不一致的,所以重新抽取样本数据有的共线性是不一致的,所以重新抽取样本数据有可能减少共线性问题的严重程度。可能减少共线

56、性问题的严重程度。.v四、线性回归分析在四、线性回归分析在SPSS中的实现中的实现v1、主对话框、主对话框 v (1) 建立或打开数据文件后,从建立或打开数据文件后,从Analyze Regression Linear,打开线性回归主对话框,如图,打开线性回归主对话框,如图7-8 所示。所示。v图图7-8 线性回归主对话框线性回归主对话框.v (2) 在左侧的源变量栏中选择被解释变量进入在左侧的源变量栏中选择被解释变量进入Dependent 栏中,选择一个或更多的解释变量进入栏中,选择一个或更多的解释变量进入Independent(s)栏中。栏中。v (3) 在在Method(方法)选择框中确

57、定一种建立回归方程的(方法)选择框中确定一种建立回归方程的方法。有方法。有Enter(强迫引入法强迫引入法),Remove(强迫剔除法强迫剔除法),Forward(向前引入法向前引入法):Backward(向后剔除法向后剔除法) Stepwise(逐逐步引入一剔除法步引入一剔除法) 5 种方法可供选择。种方法可供选择。v (4) 根据一个设定的变量值选择参与回归分析的观察量,将根据一个设定的变量值选择参与回归分析的观察量,将作为参照的变量送入作为参照的变量送入Selection variable(选择变量选择变量)框中。框中。v (5)在主对话框的)在主对话框的Case Label 下面输入变

58、量名,用其值作下面输入变量名,用其值作为观察量标签。为观察量标签。v (6)单击)单击WLS(Weight Least Squares)按钮,选择一个作按钮,选择一个作为权重的变量进入为权重的变量进入WLS Weight框中。框中。.v2、Statistics(统计统计)对话框对话框v 单击单击“Statistics“按钮进入统计对话框,如图按钮进入统计对话框,如图7-9所示所示。v图图7-9 输出统计量对话框输出统计量对话框.v(1)Regression Coefficients栏,有关回归系数的选项。栏,有关回归系数的选项。v Estimates复选项复选项(默认选择项默认选择项),输出回

59、归系数的相关,输出回归系数的相关数据。数据。v Confidence intervals复选项,输出每一个非标准化回复选项,输出每一个非标准化回归系数归系数95%的可信区间或者一个方差矩阵。的可信区间或者一个方差矩阵。v Covariance matrix复选项,输出非标准化回归系数的复选项,输出非标准化回归系数的协方差矩阵、各变量的相关系数矩阵。协方差矩阵、各变量的相关系数矩阵。v(2)与模型拟合及其拟合效果有关的选项)与模型拟合及其拟合效果有关的选项v Model fit复选项复选项(默认选择项默认选择项):输出进入或从模型中剔:输出进入或从模型中剔除的变量;显示复相关系数、判定系数、调整

60、除的变量;显示复相关系数、判定系数、调整 (Adjusted R Square)、 估计值的标准误以及方差分析表。估计值的标准误以及方差分析表。v R squared change复选项,输出复选项,输出 、 、 。2chRchFchSig.v Descriptives复选项,输出合法观察量的数量,变量的复选项,输出合法观察量的数量,变量的均值、标准差、相关系数矩阵及单尾检验显著性水平矩阵。均值、标准差、相关系数矩阵及单尾检验显著性水平矩阵。v Part and partial correlations复选项,显示方程中各解复选项,显示方程中各解释变量与被解释变量的零阶相关系数、偏相关系数和部

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论