SPSS_相关分析_第1页
SPSS_相关分析_第2页
SPSS_相关分析_第3页
SPSS_相关分析_第4页
SPSS_相关分析_第5页
已阅读5页,还剩305页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、相关分析与回归分析相关分析与回归分析专题相关分析与回归分析专题(Correlation & regression)相关分析与回归分析相关分析相关分析(Correlation Analysis)相关分析与回归分析一、相关分析的意义:一、相关分析的意义:研究问题过程:单变量分析研究问题过程:单变量分析 双变量分析双变量分析 多变量分析多变量分析多变量分析与单变量分析的多变量分析与单变量分析的最大不同最大不同:揭示客观事物之间:揭示客观事物之间的关联性。的关联性。所以,相关分析的意义和目的在于:所以,相关分析的意义和目的在于:(1 1)在统计学中有理论与实践意义)在统计学中有理论与实践意义(

2、2 2)对相关关系的存在性给出判断)对相关关系的存在性给出判断 ( 3 ) ( 3 ) 对相关关系的强度给出度量和分析对相关关系的强度给出度量和分析相关分析与回归分析二、相关分析的概念二、相关分析的概念 变量之间的关系分为确定性关系和非确定性关系。变量之间的关系分为确定性关系和非确定性关系。 确定性关系:当一个变量值(自变量)确定后,另一个确定性关系:当一个变量值(自变量)确定后,另一个变量值(因变量)也就完全确定了,确定性关系往往可以变量值(因变量)也就完全确定了,确定性关系往往可以表示成一个表示成一个函数函数的形式,比如圆的面积和半径的关系:的形式,比如圆的面积和半径的关系: S=S= r

3、 r 非确定性关系:给定了一个变量值后,另一个变量值可非确定性关系:给定了一个变量值后,另一个变量值可以在一定范围内变化,例如家庭的消费支出和家庭收入的以在一定范围内变化,例如家庭的消费支出和家庭收入的关系。关系。 研究者把研究者把非确定性关系称为相关关系非确定性关系称为相关关系。相关分析与回归分析三三. .相关分析的特点和应用相关分析的特点和应用 相关关系是普遍存在的,函数关系仅是相关关系的特相关关系是普遍存在的,函数关系仅是相关关系的特例。例。 1. 1.相关关系的类型相关关系的类型 相关关系多种多样,归纳起来大致有以下相关关系多种多样,归纳起来大致有以下6 6种:种:l 强正相关关系强正

4、相关关系,其特点是一变量,其特点是一变量X X增加,导致另一变量增加,导致另一变量 Y Y明显增加,说明明显增加,说明X X是影响是影响Y Y的主要因素。的主要因素。l 弱正相关关系弱正相关关系,其特点是一变量,其特点是一变量X X增加,导致另一变量增加,导致另一变量Y Y增加,但增加幅度不明显。增加,但增加幅度不明显。l 强负相关关系强负相关关系,其特点是,其特点是X X增加,导致增加,导致Y Y明显减少,说明显减少,说明明X X是影响是影响Y Y的主要因素的主要因素相关分析与回归分析l 弱负相关关系弱负相关关系,其特点是变量,其特点是变量X X增加,导致增加,导致Y Y减少,但减少,但 减

5、少幅度不明显,说明减少幅度不明显,说明X X是是Y Y的影响因素,但不是唯一的影响因素,但不是唯一 因素。因素。l 非线性相关关系非线性相关关系,其特点是,其特点是X X、Y Y之间没有明显的线之间没有明显的线性性 关系,却存在着某种非线性关系,说明关系,却存在着某种非线性关系,说明X X仍是影响仍是影响Y Y的的 因素。因素。l 不相关不相关,其特点是,其特点是X X、Y Y不存在相关关系,说明不存在相关关系,说明X X不不是是 影响影响Y Y的因素。的因素。相关分析与回归分析2. 2.相关分析的应用相关分析的应用 (1 1)相关分析可以在影响某个变量的诸多变量中判断)相关分析可以在影响某个

6、变量的诸多变量中判断哪些是显著的,哪些是不显著的。而且在得到相关分析哪些是显著的,哪些是不显著的。而且在得到相关分析的结果后,可以的结果后,可以用于其他分析用于其他分析,如回归分析和因子分析。,如回归分析和因子分析。 (2 2) 相关分析方法已广泛用于心理学、教育学、医相关分析方法已广泛用于心理学、教育学、医学、经济学等各学科。它对试验数据的处理、经验公式学、经济学等各学科。它对试验数据的处理、经验公式的建立、管理标准的测定、自然现象和经济现象的统计的建立、管理标准的测定、自然现象和经济现象的统计预报,都是一种方便而且有效的工具。预报,都是一种方便而且有效的工具。相关分析与回归分析四、相关系数

7、四、相关系数l相关分析的主要目的是研究变量之间关系的密切程度,相关分析的主要目的是研究变量之间关系的密切程度,以及根据样本的资料推断总体是否样关。反映变量之间关以及根据样本的资料推断总体是否样关。反映变量之间关系紧密程度的指标主要是系紧密程度的指标主要是相关系数相关系数r r。相关系数相关系数r r取值在取值在-1-1到到+1+1之间之间,当数值愈接近,当数值愈接近-1 -1或或+1+1时,说明关系愈紧密,接时,说明关系愈紧密,接近于近于0 0时,说明关系不紧密。时,说明关系不紧密。相关分析与回归分析相关系数的计算相关系数的计算l 样本的相关系数一般用样本的相关系数一般用r r表示,总体的相关

8、系数一般用表示,总体的相关系数一般用p p表表示。示。l 对于不同类型的变量,相关系数的计算公式不同。在相关对于不同类型的变量,相关系数的计算公式不同。在相关分析中,常用的相关系数有:分析中,常用的相关系数有: PearsonPearson简单简单相关系数相关系数:对定距连续变量的数据进行计算。:对定距连续变量的数据进行计算。如测度收入和储蓄,身高和体重。如测度收入和储蓄,身高和体重。 SpearmanSpearman等级相关系数等级相关系数:用于度量定序变量间的线性相关:用于度量定序变量间的线性相关关系。如军队教员的军衔与职称。关系。如军队教员的军衔与职称。 Kendall r Kendal

9、l r相关系数相关系数:用非参数检验方法来度量定序变量间用非参数检验方法来度量定序变量间的线性相关关系。计算基于数据的秩。的线性相关关系。计算基于数据的秩。相关分析与回归分析22)()()(yyxxyyxxr不相关与时,表示当为负相关与时,表示当为正相关与时,表示当高度相关显著相关、低度相关微弱相关、yxryxryxrrrrr00018 . 08 . 05 . 05 . 03 . 03 . 0PearsonPearson相关系数应用广泛,其计算公式及其性质如下:相关系数应用广泛,其计算公式及其性质如下:相关分析与回归分析在在AnalyzeAnalyze的下拉菜单的下拉菜单CorrelateCo

10、rrelate命令项中有三个相关命令项中有三个相关分析功能子命令分析功能子命令:l Bivariate(两两相关分析过程)(两两相关分析过程)l Partial (偏相关分析过程)(偏相关分析过程)l Distances(距离分析过程)(距离分析过程)五、五、SPSSSPSS中相关分析中相关分析CorrelationCorrelation菜单菜单 相关分析与回归分析Bivariate过过程程相关分析与回归分析lBivariateBivariate过程用于进行两个或多个变量间的参数与非过程用于进行两个或多个变量间的参数与非参数相关分析,如为多个变量,给出两两相关的分析参数相关分析,如为多个变量,

11、给出两两相关的分析结果。这是结果。这是correlatecorrelate菜单中最常用的一个过程,包括自菜单中最常用的一个过程,包括自动计算动计算PearsonPearson简单相关系数、简单相关系数、T T检验统计量和对应的检验统计量和对应的概率概率P P值。值。相关分析与回归分析举例:举例:对肺活量和体重对肺活量和体重做相关分析做相关分析 1 1. .打开打开SAVSAV数据。数据。 2. 2.用散点图初步观察两变量用散点图初步观察两变量间有无相关趋势,依次单击间有无相关趋势,依次单击菜单菜单“Graphs-Chart Graphs-Chart Builder”Builder”打开图形构建

12、器,打开图形构建器,选择做散点图(选择做散点图(Scatter /Dot)Scatter /Dot)。 相关分析与回归分析 3. 3.设置相关分析的参数。设置相关分析的参数。 依次单击依次单击“Analyze-Correlate-Bivariate”Analyze-Correlate-Bivariate”执执行两变量相关分析。其主设置面板如图所示:行两变量相关分析。其主设置面板如图所示:待分析变量列表待分析变量列表变量列表变量列表相关系数相关系数显著性检验选项显著性检验选项相关分析与回归分析相关分析与回归分析(2 2)相关性输出,)相关性输出,“相关性相关性”表格给出的是表格给出的是Pears

13、oPearson n相关系数及其检验结果:相关系数及其检验结果:“相关系数相关系数”表格给出的表格给出的是两个非参数相关系数及其检验结果。可见,是两个非参数相关系数及其检验结果。可见,3 3个相个相关系数在关系数在0.010.01和和0.050.05的显著性水平(双边检验)上都的显著性水平(双边检验)上都非常显著,从而推断体重和肺活量之间存在着明显非常显著,从而推断体重和肺活量之间存在着明显的正相关关系。的正相关关系。(1 1)描述性输出,)描述性输出,“描述性统计量描述性统计量”表格给出了两表格给出了两个变量的基本统计信息,包括均值、标准差和频率。个变量的基本统计信息,包括均值、标准差和频率

14、。相关分析与回归分析 Partial 过过程相关分析与回归分析l 偏相关分析偏相关分析也称净相关分析,它在控制其他变量的线性也称净相关分析,它在控制其他变量的线性影响下分析两变量间的线性相关,所采用的是工具是影响下分析两变量间的线性相关,所采用的是工具是偏偏相关系数相关系数(净相关系数)。运用偏相关分析可以有效地(净相关系数)。运用偏相关分析可以有效地揭示变量间的真实关系,识别干扰变量并寻找隐含的相揭示变量间的真实关系,识别干扰变量并寻找隐含的相关性。关性。如控制年龄和工作经验的影响,估计工资收入与如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。受教育水平之间的相关关系。l

15、 PartialPartial过程,当进行相关分析的两个变量的取值都受过程,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数。量进行控制,输出控制其他变量影响后的相关系数。相关分析与回归分析举例:举例:分析身高与肺活量之间的相关性,要控制体重在分析身高与肺活量之间的相关性,要控制体重在相关分析过程中的影响。相关分析过程中的影响。1. 1.设置偏相关分析的参数。设置偏相关分析的参数。 依次单击依次单击“Analyze-Correlate-Patial”Analyze-Co

16、rrelate-Patial”执行偏相执行偏相关分析。其主设置面板如图所示:关分析。其主设置面板如图所示:相关分析与回归分析0 0阶偏相关阶偏相关(Pearson)Pearson)1 1阶偏相关阶偏相关显著相关显著相关相关不显著相关不显著相关分析与回归分析(1 1)描述性输出,)描述性输出,“描述性统计量描述性统计量”表格给出了三个表格给出了三个变量的基本统计信息,包括均值、标准差和频率。变量的基本统计信息,包括均值、标准差和频率。(2 2)相关性输出,)相关性输出,“相关性相关性”表格给出了所有变量的表格给出了所有变量的0 0阶偏相关(阶偏相关(PearsonPearson简单相关)系数和简

17、单相关)系数和1 1阶偏相关系数的阶偏相关系数的计算结果果、以及它们各自的显著性检验计算结果果、以及它们各自的显著性检验P P值。分析结值。分析结果显示:在体重果显示:在体重 不变的条件下,身高与肺活量之间不不变的条件下,身高与肺活量之间不存在显著存在显著 线性相关关系。线性相关关系。相关分析与回归分析Distances过程过程相关分析与回归分析l 距离分析:距离分析:此过程可以在观测记录之间或者此过程可以在观测记录之间或者 不同变量不同变量之间进行之间进行相似性和不相似性相似性和不相似性分析。相似性分析可以用分析。相似性分析可以用于检测观测值的接近程度,不相似性分析可用于考察于检测观测值的接

18、近程度,不相似性分析可用于考察各变量的内在联系和结构。该过程一般不单独使用,各变量的内在联系和结构。该过程一般不单独使用,而是作为因子分析、聚类分析和多维尺度分析等的预而是作为因子分析、聚类分析和多维尺度分析等的预分析过程,以帮助了解复杂数据集的内部结构,为进分析过程,以帮助了解复杂数据集的内部结构,为进一步的分析做准备。一步的分析做准备。l 与距离分析有关的统计量分为相似性测度和不相似性与距离分析有关的统计量分为相似性测度和不相似性测试两大类。测试两大类。相关分析与回归分析l不相似性测度不相似性测度a a、对定距、对定距变量变量的测度可以使用的统计量有的测度可以使用的统计量有EuclidEu

19、clid欧氏距离、欧氏距离、平方欧氏距离平方欧氏距离、契比雪夫距离、契比雪夫距离等。等。 b b、对、对定序变量,定序变量,使用卡方使用卡方不相似测度和不相似测度和PhiPhi方不相似测度方不相似测度。 c c、对二值(只有两种取值)、对二值(只有两种取值)变量变量,使用欧氏距离、平方欧,使用欧氏距离、平方欧氏距离、氏距离、Lane and Williams Lane and Williams 不相似测度。不相似测度。l相似性测度:相似性测度:a a、对定距、对定距变量的测度,主要有变量的测度,主要有统计量统计量PearsonPearson相关或余弦相关或余弦距距离离。 b b 、对二值变量的

20、相似性测度主要包括简单匹配系数、对二值变量的相似性测度主要包括简单匹配系数、JaccJaccardard相似性指数等。相似性指数等。在通常使用的距离中,最常用的是在通常使用的距离中,最常用的是欧式距离。欧式距离。相关分析与回归分析案例:打开案例:打开“地区经济发展水平指标地区经济发展水平指标.sav”.sav”相关分析与回归分析参数设置:参数设置:距离的计算对象距离的计算对象距离的测度类型距离的测度类型分析变量例表分析变量例表相关分析与回归分析结果分析:结果分析:相关分析与回归分析(1 1)案例处理摘要。)案例处理摘要。“案例处理摘要案例处理摘要”表格给出了数表格给出了数据使用的基本情况。主要

21、是对有无缺失值的统计信息,据使用的基本情况。主要是对有无缺失值的统计信息,可见本例的可见本例的1111个案例没有缺失,全部用于分析。个案例没有缺失,全部用于分析。(2 2)近似矩阵。)近似矩阵。“近似矩阵近似矩阵”表格给出的是各变量之表格给出的是各变量之间的相似矩阵,图中以线框标注了相关系数较大的几间的相似矩阵,图中以线框标注了相关系数较大的几对变量。它们在进一步的分析中应重点关注,或者直对变量。它们在进一步的分析中应重点关注,或者直接对其进行适当的预处理(例如变量约减)接对其进行适当的预处理(例如变量约减)相关分析与回归分析相关分析与回归分析相关分析与回归分析线性回归线性回归相关分析与回归分

22、析线性回归相关分析与回归分析回归分析(regression analysis) 确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。p 涉及的自变量的多少一元回归分析多元回归分析p 自变量和因变量之间的关系类型,线性回归分析非线性回归分析线性回归相关分析与回归分析回归分析一般步骤:确定回归方程中的解释变量(自变量)和被解释变量(因变量)确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测线性回归相关分析与回归分析一元线性回归模型是指只有一个解释变量的线性回归模型,用于揭示被解释变量与另一个解释变量之间的线性关系。一元线性回归数学模型:其中0和1是未知参数,分别称为回归常

23、数和回归系数,称为随机误差,是一个随机变量,且应该满足两个前提条件: E( )=0 var()=201yx线性回归模型线性回归相关分析与回归分析多元线性回归模型是指有多个解释变量的线性回归模型,用于揭示被解释变量与其他多个解释变量之间的线性关系。多元线性回归数学模型:其中0、1、 p都是未知参数,分别称为回归常数和偏回归系数,称为随机误差,是一个随机变量,且同样满足两个前提条件: E( )=0 var()=201122ppyxxx线性回归线性回归模型相关分析与回归分析回归参数的普通最小二乘估计(OLSE)线性回归方程确定后的任务是利用已经收集到的样本数据,根据一定的统计拟合准则,对方程中的各参

24、数进行估计。普通最小二乘就是一种最为常见的统计拟合准则。最小二乘法将偏差距离定义为离差平方和,即 (1)最小二乘估计就是寻找参数0 、1、 p的估计值0 、 1、 p,使式(1)达到极小。通过求极值原理(偏导为零)和解方程组,可求得估计值,SPSS将自动完成。2011(,)()npiiiQyE y线性回归相关分析与回归分析u回归方程的统计检验u回归方程的拟合优度检验(相关系数检验)一元线性回归的拟合优度检验采用R2统计量,称为判定系数或决定系数,数学定义为22121()()niiniiyyRyy21()niiyy其中 称为回归平方和(SSA) 称为总离差平方和(SST)21()niiyy线性回

25、归相关分析与回归分析线性回归u回归方程的统计检验u回归方程的拟合优度检验(相关系数检验) R2取值在0-1之间, R2越接近于1,说明回归方程对样本数据点的拟合优度越高。相关分析与回归分析多元线性回归的拟合优度检验采用 统计量,称为调整的判定系数或调整的决定系数,数学定义为2R式中n-p-1、n-1分别是SSE和SST的自由度。其取值范围和意义与一元回归方程中的R2是相同的。u回归方程的统计检验u回归方程的拟合优度检验(相关系数检验)2111SSEnpSSTnR 线性回归相关分析与回归分析u回归方程的统计检验u回归方程的显著性检验(F检验)一元线性回归方程显著性检验的零假设是1=0,检验采用F

26、统计量,其数学定义为:2121()()2niiniiiyyMSAFMSEyyn即平均的SSA/平均的SSE,F统计量服从(1,n-2)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为线性关系显著。线性回归相关分析与回归分析u回归方程的统计检验u回归方程的显著性检验(F检验)多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零,检验采用F统计量,其数学定义为:即平均的SSA/平均的SSE,F统计量服从(p,n-p-1)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显

27、著性水平,则应拒绝零假设,认为y与x的全体的线性关系显著。2121()()1niiniiiyyPMSAFMSEyynP线性回归相关分析与回归分析u回归方程的统计检验u回归系数的显著性检验(t检验)一元线性回归方程的回归系数显著性检验的零假设是1=0,检验采用t统计量,其数学定义为:121()niitxxt统计量服从n-2个自由度的t分布。 SPSS将会自动计算t统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为x对y有显著贡献,线性关系显著。线性回归相关分析与回归分析u回归方程的统计检验u回归系数的显著性检验(t检验)多元线性回归方程的回归系数显著性检验的零假

28、设是i=0,检验采用t统计量,其数学定义为:ti统计量服从n-p-1个自由度的t分布。 SPSS将会自动计算ti统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为xi对y有显著贡献,应保留在线性方程中。21()injiijixxt(i=1,2, ,p)线性回归相关分析与回归分析u回归方程的统计检验u残差分析所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距,即iiiyye它是回归模型中 的估计值。如果回归方程能较好地反映被解释变量的特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性。i线性回归相关分析与回归分析u回归方程的统计检验u残差分析均

29、值为0的正态性分析残差均值为0的正态性分析,可以通过绘制残差图进行分析,如果残差均值为0,残差图中的点应在纵坐标为0的横线上下随机散落着。正态性可以通过绘制标准化(或学生化)残差的累计概率图来分析线性回归相关分析与回归分析u 回归方程的统计检验u残差分析独立性分析 绘制残差序列的序列图以样本期(或时间)为横坐标,残差为纵坐标,如果残差随时间的推移呈规律性变化,则存在一定的正或负相关性。计算残差的自相关系数取值在-1到+1之间,接近于+1表明序列存在正自相关性。 DW(DurbinWatson)检验DW取值在0至4之间,直观判断标准是DW=4,残差序列完全负自相关;DW=2,完全无自相关;DW=

30、0,完全正自相关。线性回归相关分析与回归分析u回归方程的统计检验u残差分析异方差分析 绘制残差图如果残差的方差随着解释变量值的增加呈增加(或减少)的趋势,说明出现了异方差现象。线性回归相关分析与回归分析u回归方程的统计检验u残差分析异方差分析 等级相关分析得到残差序列后首先对其取绝对值,然后计算出残差和解释变量的秩,最后计算Spearman等级相关系数,并进行等级相关分析。具体过程见相关分析相关章节。线性回归相关分析与回归分析u回归方程的统计检验u残差分析探测样本中的异常值和强影响点(对于y值)标准化残差ZRE由于残差是服从均值为0的正态分布,因此可以根据3准则进行判断,首先对残差进行标准化

31、,绝对值大于3对应的观察值为异常值。学生化残差SRE剔除残差DRE(或剔除学生化残差SDRE)上述SRE、SDRE的直观判断标准同标准化残差ZRE。iZREe线性回归相关分析与回归分析u回归方程的统计检验u残差分析探测样本中的异常值和强影响点(对于x值)杠杆值hiiSPSS中计算的是中心化杠杆值chii,通常如果chii大于2或3倍的chii的均值(p/n),则认为观察点为强影响点。库克距离Di库克距离是杠杆值与残差大小的综合效应,一般库克距离大于1,则可认为观察点为强影响点。标准化回归系数的变化和标准化预测值的变化如果标准化回归系数变化的绝对值大于 ,或标准化预测值变化的绝对值大于 ,则可认

32、为第i个样本可能是强影响点。22211iiiipiiehDh2n2p n线性回归相关分析与回归分析多元回归分析中的其他问题u变量筛选问题向前筛选策略 解释变量不断进入回归方程的过程,首先选择与被解释变量具有最高线性相关系数的变量进入方程,并进行各种检验;其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程。向后筛选策略 变量不断剔除出回归方程的过程,首先所有变量全部引入回归方程并检验,然后在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量。逐步筛选策略 向前筛选与向后筛选策略的综合线性回归相关分析与回归分析多元回归分析中的其他问题u变量多重共线性问题容忍

33、度Tol容忍度值越接近于1,表示多重共线性越弱。SPSS变量多重共线性的要求不很严格,只是在容忍度值太小时给出相应警告信息。方差膨胀因子VIF膨胀因子是容忍度的倒数,越接近于1,表示解释变量间的多重共线性越弱。通常如果VIFi大于等于10,说明解释变量xi与其余解释变量之间有严重的多重共线性。特征根和方差比这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其他特征根的值,则说明这些解释变量之间具有相当多的重叠信息。条件指数ki10 ki 100时,认为多重共线性较强, ki 100时,认为多重共线性很严重线性回归21iiTolR miik相关分析与回归分析n回归分析基本操作(1)选择

34、菜单AnalyzeRegressionLinear,出现如下对话框因变量自变量条件变量标志变量筛选策略线性回归相关分析与回归分析(2)将因变量选入Dependent框(3)将一个或多个自变量选入Independengt(s)框(4)在Method框中选择回归分析中自变量的筛选策略。其中Enter表示所选变量强行进入回归方程,是SPSS默认策略,通常用在一元线性回归分析中;Remove表示从回归方程中剔除所选变量;Stepwise表示逐步筛选策略;Backward、Forward分别表示向后、向前筛选策略。n回归分析基本操作线性回归相关分析与回归分析(5)上述(3)、(4)中确定的自变量和筛选策

35、略可放置在不同的Block中,单击 “Next”和“Previous”按钮设置多组自变量和变量筛选策略,并放在不同Block中,SPSS将按照设置顺序依次进行分析。“Block”设置便于作各种探索性的回归分析。n回归分析基本操作线性回归相关分析与回归分析(6)选择一个变量作为条件变量到Selection Variable框中,并单击“Rule”按钮给定一个判断条件。只有变量值满足给定条件的样本数据才参与线性回归分析。线性回归n回归分析基本操作相关分析与回归分析(7)在Case Labels框中指定哪个变量作为数据样本点的标志变量,该变量的值将标在回归分析的输出图形中。(8)WLS Weight

36、中选人权重变量,主要用于加权最小二乘法。 至此便完成了线性回归分析的基本操作,SPSS将根据指定自动进行回归分析,并将结果输出到输出窗口中。线性回归n回归分析基本操作相关分析与回归分析n回归分析的其他操作StatisticsStatistics选项选项输出与回归系数相关的统计量,包括回归系数、回归系数标准误、标准化回归系数、回归系数显著性检验的t统计量和概率p值,个解释变量的容忍度。每个非标准化回归系数的95%置信区间输出各解释变量间的相关系数、协方差以及各回归系数的方差线性回归相关分析与回归分析输出判定系数、调整的判定系数、回归方程的标准误、回归方程显著性检验的方差分析表每个解释变量进入方程

37、后引起的判定系数的变化量和F值的变化量(偏F统计量)输出个解释变量和被解释变量的均值、标准差、相关系数矩阵及单侧检验概率值输出方程中各解释变量与被解释变量之间的简单相关、偏相关系数和部分相关线性回归n回归分析的其他操作StatisticsStatistics选项选项相关分析与回归分析多重共线性分析:输出各解释变量的容忍度、方差膨胀因子、特征值、条件指标、方差比例等DW值输出标准化残差绝对值大于等于3(默认)的样本数据的相关信息线性回归n回归分析的其他操作StatisticsStatistics选项选项相关分析与回归分析PlotsPlots选项选项标准化预测值标准化残差剔除残差调整的预测值学生化

38、残差剔除学生化残差标准化残差序列直方图标准化残差序列正态分布累计概率图依次绘制被解释变量与各解释变量的散点图线性回归n回归分析的其他操作相关分析与回归分析SaveSave选项选项该窗口将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中,并可同时生成XML格式的文件,便于分析结果的网络发布。线性回归n回归分析的其他操作相关分析与回归分析SaveSave选项选项保存剔除第i个样本后各统计量的变化量回归系数变化量标准化回归系数变化量预测值变化量标准化预测值变化量协方差比线性回归n回归分析的其他操作相关分析与回归分析OptionsOptions选项选项设置多元线性回归分析中解释变量进入或剔除

39、出回归方程的标准偏F统计量的概率值线性回归n回归分析的其他操作相关分析与回归分析u线性回归分析的应用举例为研究高校人文社会科学研究中立项课题数受哪些因素的影响,收集某年31个省市自治区部分高校有关社科研究方面的数据,并利用线性回归方法进行分析。这里,被解释变量为立项课题数X5,解释变量为投入人年数( X2)、投入高级职称的人年数( X3)、投入科研事业费( X4)、专著数( X6)、论文数( X7 )、获奖数( X8 )。具体操作如前所述。分析结果如下线性回归相关分析与回归分析相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归

40、分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析线性回归相关分析与回归分析u线性回归分析的应用举例立项课题数多元线性回归分析结果(强制进入策略)(一)回归方程的拟合优度较高线性回归相关分析与回归分析u线性回归分析的应用举例立项课题数多元线性回归分析结果(强制进入策略)(二)SSA

41、SSASSESSESSTSST被解释变量与解释变量的全体的线性关系显著线性回归相关分析与回归分析u线性回归分析的应用举例立项课题数多元线性回归分析结果(强制进入策略)(三)偏回归系数检验只有x2的是显著的,其他均不显著,即与0无显著差异各解释变量之间存在很强共线性线性回归相关分析与回归分析u线性回归分析的应用举例立项课题数多元线性回归分析结果(强制进入策略)(四)由特征根的较大差异、条件指数以及方差比进一步证实了各解释变量之间存在严重的线性自相关。线性回归相关分析与回归分析u线性回归分析的应用举例立项课题数多元线性回归分析结果(向后筛选策略)(一)由此可见,不能以一味追求高的拟合优度为目标,还

42、要重点考察解释变量对被解释变量的贡献线性回归相关分析与回归分析u线性回归分析的应用举例立项课题数多元线性回归分析结果(向后筛选策略)(二)SSASSASSESSESSTSST线性回归相关分析与回归分析u线性回归分析的应用举例立项课题数多元线性回归分析结果(向后筛选策略)(三)由此可清楚地看到变量剔除的过程线性回归相关分析与回归分析u线性回归分析的应用举例立项课题数多元线性回归分析结果(向后筛选策略)(四)线性回归相关分析与回归分析u线性回归分析的应用举例通过上述回归方程的分析以及各种检验,得出如下回归方程:立项课题数=-94.524+0.492投入人年数,意味着投入人年数每增加一个单位会使立项

43、课题数平均增加0.492个单位。线性回归相关分析与回归分析曲线估计相关分析与回归分析曲线估计曲线估计变量间相关关系的分析中,变量之间的关系并不总是表现出线性关系,非线性关系也极为常见。非线性又可划分为:本质线性关系形式上虽然呈非线性,但可通过变量转换化为线性关系。本质非线性关系不仅形式上呈非线性,也无法通过变量转换化为线性关系。这里的曲线估计是解决本质线性关系问题的。相关分析与回归分析模型名回归方程变量变换后的线性方程二次曲线(Quadratic)复合曲线(Compound)增长曲线(Growth)对数曲线(Logarithmic)三次曲线(Cubic)S曲线(S)指数曲线(Exponenti

44、al)逆函数(Inverse)幂函数(Power)逻辑函数(Logistic)2012yxx211012(x = x )y=+x+x01xy ln( )ln()ln()01yx01xyeln( )01yxln( )01yx1101(x = ln( )y =+xx332012xyxx3322211012,(x = x)y =+x+xxxx01xye11011(x =)ln(y)=+xx10 xye01)ln(y)=ln(+x01xy1()01 11yxxx10()xy01 11ln( )ln()(ln( )yx xx0111xuy 0111ln() ln() ln()xyu常见本质线性模型曲线估

45、计曲线估计相关分析与回归分析在SPSS曲线估计中,首先在不能明确哪种模型更接近样本数据时可在上述可选择的模型中选择几种模型,然后,SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率P值、判定系数R2等统计量;最后以判定系数为主要依据选择其中的最优模型,并进行预测分析。曲线估计曲线估计相关分析与回归分析基本操作:(1)选择菜单Analyze Regression Curve Estimation。(2)选择被解释变量到Dependent框。(3)曲线估计中解释变量可以是相关因素变量,也可以是时间变量。如果解释变量为相关因素变量。则选择Variable选项,并指定一个解释变量到I

46、ndependent框;如果选择Time参数表示解释变量为时间变量。(4)在Models中选择几种模型。(5)选择Plot Models选项绘制回归线;选择Display ANOVA table输出各个模型的方差分析表和各回归系数显著性检验结果。曲线估计曲线估计相关分析与回归分析曲线估计应用举例为研究居民家庭教育支出和消费性支出之间的关系,收集到1990年至2002年全国人均消费性支出和教育支出的数据。曲线估计曲线估计相关分析与回归分析相关分析与回归分析曲线估计曲线估计相关分析与回归分析曲线估计曲线估计相关分析与回归分析曲线估计曲线估计相关分析与回归分析曲线估计曲线估计相关分析与回归分析曲线估

47、计曲线估计相关分析与回归分析教育支出和年人均消费性支出的散点图曲线估计曲线估计相关分析与回归分析曲线估计应用举例观察散点图发现两变量之间呈非线性关系,可尝试选择二次、三次曲线,复合函数、幂函数等模型。曲线估计曲线估计相关分析与回归分析相关分析与回归分析曲线估计曲线估计相关分析与回归分析曲线估计曲线估计相关分析与回归分析曲线估计曲线估计相关分析与回归分析曲线估计曲线估计相关分析与回归分析曲线估计曲线估计相关分析与回归分析曲线估计曲线估计相关分析与回归分析曲线估计曲线估计相关分析与回归分析曲线估计曲线估计相关分析与回归分析曲线估计曲线估计相关分析与回归分析曲线估计应用举例观察散点图发现两变量之间呈

48、非线性关系,可尝试选择二次、三次曲线,复合函数、幂函数等模型。拟合优度比较曲线估计曲线估计相关分析与回归分析曲线估计应用举例与实际不符回归系数检验不通过曲线估计曲线估计相关分析与回归分析曲线估计应用举例曲线估计曲线估计相关分析与回归分析曲线估计应用举例 复合函数和幂函数的拟合优度都很好,同时两种模型的回归系数显著性检验也都通过 ,因此可考虑采用这两种模型。另外,由于复合函数数值增长速度高于幂函数,从居民消费未来趋势看,教育支出将可能占消费性支出的较大比例,并呈快速增长的趋势,而且复合函数拟合优度高于幂函数,因此可最终考虑采用复合函数。曲线估计曲线估计相关分析与回归分析曲线估计应用举例曲线估计曲

49、线估计相关分析与回归分析相关分析与回归分析部分最小平方回归部分最小平方回归PLSPLS相关分析与回归分析部分最小平方回归部分最小平方回归PLSPLS PLS PLS 是一种预测技术,可替代普通最小二乘法是一种预测技术,可替代普通最小二乘法 (OLS) (OLS) 回归、回归、典型相关性或结构化方程建模,并且它在预测变量高度相关典型相关性或结构化方程建模,并且它在预测变量高度相关或预测变量数量超过个案数量时特别有用。或预测变量数量超过个案数量时特别有用。 PLS PLS 融合主成分分析和多重回归功能。它首先提取一组充分融合主成分分析和多重回归功能。它首先提取一组充分解释自变量和因变量之间的协方差

50、的潜在因子。然后,回归解释自变量和因变量之间的协方差的潜在因子。然后,回归步骤使用自变量分解来预测因变量的值。步骤使用自变量分解来预测因变量的值。 可用性。可用性。PLS PLS 属于扩展命令,需要在您计划运行属于扩展命令,需要在您计划运行 PLS PLS 的系统的系统上安装上安装 Python Python 扩展模块。扩展模块。PLS PLS 扩展模块需要单独安装,安装扩展模块需要单独安装,安装程序下载链接为程序下载链接为 http:/ http:/ 。相关分析与回归分析输出的图形与统计量包括:输出的图形与统计量包括:表表 解释方差比例(潜在因子)、潜在因子权重、潜在因子解释方差比例(潜在因

51、子)、潜在因子权重、潜在因子 加载、图像自变量重要性加载、图像自变量重要性 (VIP) (VIP) 和回归参数估计值(因变量和回归参数估计值(因变量)全部缺省生成。)全部缺省生成。图表图表 前三个潜在因子的图像变量重要性前三个潜在因子的图像变量重要性 (VIP)(VIP)、因子得分、因、因子得分、因子权重,以及模型距离均从选项选项卡生成。子权重,以及模型距离均从选项选项卡生成。部分最小平方回归数据注意事项:部分最小平方回归数据注意事项:测量级别。因变量和自(预测)变量可以是刻度、名义或有序测量级别。因变量和自(预测)变量可以是刻度、名义或有序变量。该过程假设相应的测量级别已指定给所有变量。该过

52、程变量。该过程假设相应的测量级别已指定给所有变量。该过程以相同的方式处理类别(名义或有序)变量。以相同的方式处理类别(名义或有序)变量。相关分析与回归分析 类别变量编码。该过程在其间使用一个类别变量编码。该过程在其间使用一个 c c 编码临时对类别编码临时对类别因变量重新编码。如果存在变量的因变量重新编码。如果存在变量的 c c 类别,则变量存储为类别,则变量存储为 c c 矢量,第一个类别指示为矢量,第一个类别指示为 (1,0,.,0)(1,0,.,0),下一个类别,下一个类别 (0,1,0,.,0)(0,1,0,.,0),. .,和最后一个类别,和最后一个类别 (0,0,.,0,1)(0,

53、0,.,0,1)。使用虚拟编码。使用虚拟编码表示类别因变量,即仅省略对应于参考类别的指示符。表示类别因变量,即仅省略对应于参考类别的指示符。 频率权重。权重值在使用前四舍五入为最接近的整数。在频率权重。权重值在使用前四舍五入为最接近的整数。在分析中不使用缺失权重或权重小于分析中不使用缺失权重或权重小于 0.5 0.5 的个案。的个案。 缺失值。用户和系统缺失值视为无效。缺失值。用户和系统缺失值视为无效。 重新调整。所有模型变量均被居中和标准化,包括表示类重新调整。所有模型变量均被居中和标准化,包括表示类别变量的指示变量别变量的指示变量相关分析与回归分析引例:汽车行业集团保持对个人的各种机动车辆

54、的销售引例:汽车行业集团保持对个人的各种机动车辆的销售进行追踪。为了能够识别过度和表现不佳的模式,想进行追踪。为了能够识别过度和表现不佳的模式,想建立一个汽车销售与车辆特征的关系。建立一个汽车销售与车辆特征的关系。 由于车辆的特征是相关的,部分最小二乘回归可以很由于车辆的特征是相关的,部分最小二乘回归可以很好的替代普通最小二乘回归。好的替代普通最小二乘回归。 car_sales.savcar_sales.sav。该数据文件包含假设销售估计值、订价。该数据文件包含假设销售估计值、订价以及各种品牌和型号的车辆的物理规格。订价和物理以及各种品牌和型号的车辆的物理规格。订价和物理规格可以从规格可以从

55、和制造商处获得。和制造商处获得。 相关分析与回归分析 步骤:步骤: AnalyzeAnalyze Regression Regression Partial Least Squares Partial Least Squares 选择选择log-transformed sales log-transformed sales 作为因变量作为因变量 选择车辆类型选择车辆类型 类型通过燃油效率类型通过燃油效率 英里英里 作作为自变量。为自变量。 点击点击optionoption相关分析与回归分析相关分析与回归分析 选择保存估计个别的个案,数据集名称类型选择保存估计个别的个案,数据集名称类型indvC

56、asesindvCases。 选择保存估计潜在因素和数据集的名称类型选择保存估计潜在因素和数据集的名称类型latentFactorslatentFactors。 选择保存估计自变量和数据集的名称类型选择保存估计自变量和数据集的名称类型indepVarsindepVars。 该程序符合部分最小平方回归模型的规模变量该程序符合部分最小平方回归模型的规模变量lnsaleslnsales,使用的一个因素和价格等变量的类型,通,使用的一个因素和价格等变量的类型,通过英里表示。过英里表示。 相关分析与回归分析 OUTDATASETOUTDATASET命令要求分别输出与具体案命令要求分别输出与具体案件,潜在

57、因素,以及预测被保存到新的数件,潜在因素,以及预测被保存到新的数据集据集indvCasesindvCases,latentFactorslatentFactors和和indepVarsindepVars相关相关的变量。这些选择也将产生潜在的因子得的变量。这些选择也将产生潜在的因子得分,潜在因子权重,潜在因子图像变量重分,潜在因子权重,潜在因子图像变量重要性(要性(VIPVIP)的因素)的因素 所有其他选项设置为默认值。所有其他选项设置为默认值。 相关分析与回归分析相关分析与回归分析该解释的方差比例表显示了每个潜在因子模型的贡献。第一个因素解释了在自变量中20.9%的方差和在因变量中40.3的方

58、差。第二个因素解释了在自变量中55.0%的方差和在因变量中2.9的方差。第三个因素解释了在自变量中5.3%的方差和在因变量中4.3的方差。合计,前三个因素的解释了在自变量中81.3%的方差和在因变量中47.4的方差相关分析与回归分析 虽然第四个因素增加了很少的虽然第四个因素增加了很少的Y Y方差解释,方差解释,但它对于但它对于X X的方差的贡献大于第三个因素,的方差的贡献大于第三个因素,并且其调整并且其调整R R平方值高于第三个因素。平方值高于第三个因素。 第五个因素对于第五个因素对于X X方差和方差和Y Y方差的贡献都最方差的贡献都最小。并且其调整小。并且其调整R R平方值有轻微下降。并没平

59、方值有轻微下降。并没有令人信服的证据可以说明选择第四个因有令人信服的证据可以说明选择第四个因素而不是第五个因素。素而不是第五个因素。相关分析与回归分析参数表显示为预测因变量的每一个自变量的回归系数的估计。而不是模型影响参数表显示为预测因变量的每一个自变量的回归系数的估计。而不是模型影响的典型实验,寻找图像变量的重要性在哪一个预测量是最有用方面提供指导。的典型实验,寻找图像变量的重要性在哪一个预测量是最有用方面提供指导。相关分析与回归分析预测变量重要性代表了每一个猜测值对于模型的贡献,及在模型中因素数预测变量重要性代表了每一个猜测值对于模型的贡献,及在模型中因素数量的累积贡献。例如,在一个因素模

60、型中,价格对第一因素比重较大,有量的累积贡献。例如,在一个因素模型中,价格对第一因素比重较大,有2.0882.088的的VIPVIP值,当更多的因素加入的时候,累积的值,当更多的因素加入的时候,累积的VIPVIP值慢慢的降到值慢慢的降到1.9461.946,大概是因为对于这些因素的比重较小。相比之下,大概是因为对于这些因素的比重较小。相比之下,engin-sengin-s在单因素模型中在单因素模型中有有0.5120.512的的VIPVIP值。而在值。而在5 5个因素模型中上升到个因素模型中上升到0.9320.932相关分析与回归分析参数系数和参数系数和VIPVIP值信息也保存到值信息也保存到ind

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论