《社会研究方法》·SPSS应用.doc_第1页
《社会研究方法》·SPSS应用.doc_第2页
《社会研究方法》·SPSS应用.doc_第3页
《社会研究方法》·SPSS应用.doc_第4页
《社会研究方法》·SPSS应用.doc_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

附录统计分析软件SPSS的应用一、SPSS简介社会科学统计软件包SPSS(Statistical Package for the Social Science)是非常重要的统计分析软件之一。20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,并迅速地开始应用于自然科学、技术科学和社会科学的各个领域。随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式改名为“统计产品与服务解决方案”,即“Statistical Product and Service Solutions(SPSS)”,这一名称的改变标志着SPSS的战略方向正在做出重大调整。SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响的三大统计软件。SPSS for Windows是一个组合式软件包,它集数据整理、分析功能于一身。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据降维、生存分析、时间序列分析、多重响应等几大类,每类中又分若干个统计过程,例如回归分析中包括线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。 (一)数据编辑窗口SPSS启动后进入主窗口,即数据编辑窗口SPSS Data Editor。数据编辑窗口的主菜单包括10个选项,具体功能详见表1。表1 数据编辑窗口中的菜单项及功能菜单项中文含义包括的命令项File文件管理文件的打开、保存、另存和打印等Edit编辑撤销/回复、剪切、复制、粘贴、清除、查找等View视图显示或隐藏状态栏、工具栏、网络线、值标签和改变字体等Data数据管理定义变量、日期、模板;插入变量、观测量;对观测量定位、排序;对数据文件拆分、合并;对观测量选择、加权和正交设计等Transform数据转换计算新变量、计数、重编码、自动重编码、排秩建立时间序列、重置缺失值等Analyze统计分析描述性分析、均值比较、方差分析、一般线性模型、相关、回归、聚类与判别、降维分析、非参检验、时间序列和生存分析等Graphs统计制图各种统计图的制作Utilities用户选项命令解释、字体选择、文件信息、定义输出标题、窗口设计等Windows窗口控制窗口的排列、查找、显示等Help帮助主题、SPSS主页、主句指南、统计学指导等点击菜单选项即可激活菜单,这时弹出下拉式子菜单,用户可根据自己的需要再点击子菜单的选项,完成特定的功能。(二)建立数据文件建立数据文件的第一步是定义变量。点击左下角的Variable View进入变量定义窗口,对变量进行定义。变量定义包括10项内容,分别为Name、Type、Width、Decimal、Label、Values、Missing、Column、Align和Measure,如图1所示。图1(1)Name:定义变量名。变量名不能超过8个字符,中英文以及数字都可以,但首字母不能为数字,同时不能使用与SPSS软件运算符相同的一些字符串,如ALL,AND,BY,EQ,GE,GT,LE,LT,NE,NOT,OR,TO,WITH等以及(),/,?等符号,而且也不能以下划线“ ”或圆点“.”作为变量名的最后一个字符。英文的变量名不区分大小写。(2) Type:定义变量类型。SPSS变量有三种基本类型:数值型、字符型和日期型,数值型变量又分为5种,因此共可定义8种类型的变量。系统默认的变量类型为标准数值型变量(Numeric),其他7种为带逗点的数值型(Comma),逗点作小数点的数值型(Dot),科学计数法(Scientific Notation),日期型(Date),带美元符号的数值型(Dollar),自定义型(Custom Currency)和字符(String),如图2所示。 图2(3)Width:设置数值值变量的长度,当变量为日期型时无效。小数点或其它分界符号包含在总长度之内。变量长度的系统默认长度为8,但可以用Edit菜单中的Options命令重新设置。(4)Decimal:设置变量值小数点位数,系统默认值为2。(5)Label:设置变量标签。变量标签是对变量名的进一步说明。变量名只能由不超过8个字符组成,而变量标签可长达120个字符。变量标签可以对变量名的含义加以解释,在统计分析过程的输出结果中会在与变量名相对应的位置显示该变量的标签。(6)Values:设置标量值标签。标量值标签是对变量值的进一步说明,对分类变量往往要定义其变量值标签。单击Values相应单元即可展开设置变量值标签的对话框,如图3所示。如定义GENDER变量的值标签,“1”为男性,“2”为女性。先在第一个Value框中输入“1”,在第二个Value框中输入“男”,按Add按钮,列表框中增加一个值标签,显示1“男”。然后再重复上述操作,定义2“女”的值标签。确认无误后,按OK返回上一级对话框。 图3(7)Missing:缺失值的定义方式。单击Missing下的长方形框即可展开Missing Values对话框,如图4所示。其中No missing value为无缺失值选项,这也是系统的默认值;Discrete missing value为离散缺失值选项,选定此项即可在下面三个矩形框中填入数据(可少于3个);Range plus one optional discrete missing value为定义缺失值范围并附加一个范围外选项,选定此项可在Low和High两个参数框中填入数值,同时还可以定义一个离散的缺失值。 图4(8)Column:设置变量的显示宽度。(9)Align:设置变量显示的对齐方式。Left为左对齐,Right为右对齐,Center为居中对齐。(10)Measure:设置变量的测量尺度。SPSS将测量变量分为三大类,定类变量Nominal,定序变量Ordinal和定距以及定比变量Scale。变量定义完成后,即可单击左下角的Data View转换到数据编辑窗口,将数据录入,生成SPSS数据文件。(三)数据的整理1、观测量数据的排序。在主菜单选择DataSort cases,打开Sort Cases观测量排序对话框,如图5所示。从左侧的源变量框中选择排序变量,通过箭头按钮选到sort by框中。如果选择两个以上的排序变量,观测量排序的结果与排序变量在Sort by框中的顺序有关。列于首位的称为第一排序变量,其后的被依次称为第二排序变量、第三排序变量等等。Sort order是确定排序的方式,选择Ascending是按升序排列;选择Descending是按降序排列。 图52、建立新变量。在主菜单选择TransformCompute Variable,打开Compute Variable 对话框,如图6所示。在Target目标变量框中输入变量名,在Numeric Expression数学表达式框中输入计算方法。在输入数学表达式时,注意字符串常量必须用引号括起来,且每一个关系表达式必须单独完成。如果需要选择特定的观测量计算新变量,可以选择IF按钮,并在Compute Variable: If cases对话框中设置条件表达式。 图63、数据重分组。在主菜单选择TransformRecode into same variable/Recode into different variable。从左侧源变量框中选择年龄A01.1,通过箭头按钮选到Numeric VariableOutput Variable栏,如图7所示。图7 单击Old and New Values按钮,打开Recode into different Variable: Old and New Values对话框,对A01.1变量重新进行分组。将“25岁以下”的赋值为“1”,“2535岁”的赋值为“2”,“35岁以上”的赋值为“3”,如图8所示。 图8单击Continue按钮,返回上一级对话框。在Output Variable栏对新输出的变量进行命名并设置变量标签后,单击Change和OK按钮,提交运行,在数据文件中即可生成一个新的分组年龄的变量Agegroup。4、从数据中抽取观测量。在主菜单选择DataSelect cases,打开Select cases对话框。右侧的Select栏包括All cases为全选,这是系统默认的设置;If condition is satisfied为条件选择抽取。单击If按钮,将显示如图9所示的条件设置对话框,在右侧矩形栏中输入条件设置,例如抽取性别为男性的观测量。图9Random sample of cases为随机抽取。单击Sample,将出现如图10所示的随机抽取对话框,可以根据要求选择观测量。Approximately of all cases为抽取百分比,这种抽样方式仅仅是一种近似的抽取;Exactly cases from the first cases则表示从总样本数中精确抽取的观测量数,例如图10所示的从582个观测量中随机抽取300个观测量。 图10Base on time or case range为指定抽取。单击Range按钮,将出现如图11所示的指定范围抽取对话框。 First case和Last case分别表示从第几个观测量到第几个观测量,确定范围后将看到所指定范围内的观测量被选中,例如选取从第100400的观测量。图11Use filter variable为过滤抽取,可以指定某一个变量作为过滤器变量,指定变量对应各个观测量的值如果为0,则表示该个案未被选中;不为0则表示选中。二、SPSS在描述性统计中的应用描述性统计一般包括数据的频数(率)分析、数据分布的集中趋势和离散程度的分析,以及数据分布的偏斜度和峰度分析等。在SPSS的主菜单Analyze下的Descriptive statistics就可以完成对数据的描述性统计分析。(一) 描述性统计分析的步骤利用频数分布表可以方便地对数据按组进行归类整理,形成各变量的不同水平(分组)的频数分布表和图形,以便对各变量的数据特征和观测量分布状况有一个概括的认识。描述性统计分析的步骤如下: 1.按AnalyzeDescriptive statisticsFrequencies顺序逐一单击按钮,打开Frequencies频数分布对话框。2.在左侧的源变量框中选择一个或多个变量,通过箭头按钮选入右侧的Variable(s)框中。3.选中Display frequency table,将显示频数分布表。4.单击Statistics按钮,打开Frequency:Statistics对话框,在对话框中确定将要在输出结果中出现的统计量。(1)Percentile Values为百分数值栏,选择该栏中的选择项,将输出百分位数。其中Quartiles为输出四分位数,显示25、50和75的百分位数;Cut points for equal groups是将数据平分为所设定的相等等分,在参数框所设置的数值范围必须是2100间的整数;Percentile(s)是由用户定义的百分位数,在参数框中键入数值的范围在0100。(2)Central Tendency为集中趋势栏,选择该栏中的选择项,将输出集中趋势统计量。其中Mean为算术平均数;Median为中位数;Mode为众数;Sum为算术和。(3)Dispersion为离散程度栏,选择该栏中的选择项,将输出离散程度统计量。其中Std.Deviation为标准差;Variance为方差;Range为全距,即最大值与最小值之差;Minimum为最小值;Maximum为最大值;S.E.mean为均值的标准误。(4)Distribution为分布状态栏,其中Skewness为正态分布的偏度,同时显示偏度的标准误;Kurtosis为正态分布的峰度,也同时显示峰度的标准误。(5)选中Values are group midpoints复选项,是在计算百分位数值或中位数时,假设数据已经分组,且用各组的组中值代表各组数据。5.单击Charts按钮,展开Frequency:Chart对话框。在对话框中对图形的类型及坐标轴等进行设置。(1)Chart type为选择图形类型栏。其中None为不输出图形,这是系统默认选项;Bar Charts为输出条形图;Pie Charts为输出饼图;Histograms为输出直方图,这一选项只适用于连续的数值型变量。如果选择了直方图还可以选择With normal curve,即输出直方图并带有正态曲线。(2)Chart value栏,是指纵轴表达的统计量,只有选择了条形图和饼图的选项才有效。其中Frequencies选项,纵轴表示频数;Percentage选项,纵轴表示百分比。6.单击Format按钮,打开Frequencies:Format对话框,在对话框中设置频数表输出的格式。(1)Order by为排序栏,在该栏中选择频数表中排列顺序。其中Ascending Values选项,按变量实际值的升序排列,这是系统默认的排列方式;Descending Values选项,按变量实际值的降序排列;Ascending counts选项,按变量各种取值发生的频数的升序排列;Descending counts选项,按变量各种取值发生的频数的降序排列。(2)Multiple Variables为多变量栏,选择多变量输出表格设置。其中Compare variables选项,将所有变量的结果在一个图形中输出,以便比较;Organize output by variable选项,为每一个变量单独输出一个图像。(3)选中Suppress tables with more than categories复选项,是控制频数表输出的分类数量。在参数框中的系统默认值为10。7.提交运行。所有选择完成后,单击OK按钮提交运行,进行频数分布分析。Reset按钮为重新设置选择项,Cancel按钮为取消选择设置并关闭对话框。Help按钮可以获得帮助信息,Paste按钮可以将有关所设定的统计过程以及选择项的语句粘贴到Syntax窗口中。(二)描述性统计分析的实例分析表2为某机关2008年回复107件群众来信所用的天数,请对表中数据进行描述性统计分析。表2 2008年局回复群众来信所用的天数9161081291415719821105037942844918839714157284796724104179296412791539249220311893386371620269916531236118628358101120310168124691010916414118581197611978109111.在SPSS中录入表2中的数据,建立数据文件。在主菜单中选择AnalyzeDescriptive statisticsFrequencies,打开Frequencies主对话框,如图12所示。 图122.将左侧源变量框中的X即“回复群众来信所用的天数”选入Variable(s)框中,并选中Display frequency table。3.单击Statistics按钮,打开Statistics对话框,做出如图13所示的选择,并单击Continue。图134.单击Charts按钮,打开Charts对话框,选中Histograms和With normal curve复选项,如图14所示。图145.在主对话框中,单击OK按钮,提交运行。输出的主要结果如表3,表4和图15所示。表3 描述性统计的Statistics表表4 描述性统计的频数和频率分布表 图15 带分布曲线的直方图三、SPSS在相关分析中的应用在主菜单Analyze的下拉菜单中的Correlate,包含了相关分析、偏相关分析和相似性测度。Bivariate是计算指定的两个变量间的相关系数,可以选择Pearson、Spearman和Kendall tau-b等相关系数;Partial是计算两个变量间在控制了其他变量的影响下的相关系数,即偏相关系数;Distance是对变量或观测量进行相似性或不相似性测度。本文主要介绍SPSS在相关和偏相关分析中的应用。(一) 双变量相关分析的选项在菜单中按AnalyzeCorrelateBivarite顺序逐一展开,打开Bivarite Correlation双变量相关分析主对话框,如图16所示。图161、Correlation Coefficients是计算相关系数。主对话框中Correlation Coefficients栏中列出了三个相关系数,对应着三种分析方法。其中Pearson(皮尔逊相关)是系统默认设置,计算两个定距(或定比)变量之间的积差相关;Kendalls tau-b(肯德尔-b相关)是计算分类变量间的秩相关;Spearman(斯皮尔曼相关)是计算两个定序变量或一个定序与一个定距(或定比)变量之间的秩相关。2、Test of Significance是选择显著性检验类型。其中Two-tailed双尾检验选项为系统默认设置,如果事先不知道相关方向(正相关还是负相关)时选择此项;One-tailed单尾检验选择,如果事先知道相关方向可以选择此项。3、Flag significant correlations复选项,选中此项为系统默认设置,输出结果中在相关系数右上方使用“*”表示其显著性水平为5;用“*”表示其显著性水平为1。4、Options选项。单击Options按钮,打开Options对话框,如图17所示。在Statistics栏中有两个有关统计量的选项,但只有在主对话框中选择Pearson相关时才可以选择这两个选项。其中,Means and standard deviations为均值和标准差复选项;Cross-product deviations and covariances为积差离差阵和协方差离差阵复选项。在Missing value栏中有两个关于缺失值处理方法的选项,其中Exclude cases pairwise选项为系统默认选项,是仅剔除正在参与计算的两个变量值是缺失值的观测量。这样有可能相关系数矩阵中的相关系数是根据不同数量的观测量计算出来的;Exclude cases listwise选项,是剔除在主对话框中Variables矩形框中列出的变量带有缺失值的所有观测量。这样计算出的相关系数矩阵,每个相关系数都是依据相同数量的观测量计算出来的。图17(二)双变量Pearson相关的实例分析表5是关于我国19912002年的人均GDP和婴儿死亡率的统计数据,试分析两变量之间的相关关系。表5 19912002年的人均GDP和婴儿死亡率年份婴儿死亡率人均GDP19911992199319941995199619971998199920002001200250.246.743.639.936.436.033.133.233.332.230.029.21879228729393923485455766054603865517086765181841、在SPSS中录入原始数据,建立SPSS数据文件。2、选择AnalyzeCorrelateBivariate,打开Bivarite Correlation对话框。3、从左侧源变量框中分别选择“婴儿死亡率(IMR)”和“人均GDP”进入右侧的Variables栏。在Correlation Coefficients选中Pearson,Test of Significance中选中Two-tailed。4、单击OK按钮,提交运行,输出结果如表6所示。表6 Pearson相关分析输出结果从输出结果看,“婴儿死亡率”和“人均GDP”两变量之间的相关系数R0.980,p0.000,在0.01条件下达到统计显著性相关。(三)偏相关分析的实例分析偏相关分析(Analysis of Partial Correlation)是在研究两个变量之间的线性相关关系时控制可能对其产生影响的其他变量。表7为20个地区出口商品、国内生产总值和实际利用外资的统计数据。表7 偏相关分析的原始数据表地区出口商品(亿美元)国内生产总值(亿元)实际利用外资(万美元1234567891011121314151617181920205.6926208.517593.392640.344713.5447189.135117.147536.8069735.0526874.9423581.385439.3681293.947619.9475358.445241.746433.821931.06431915.7123.85596060.283110.978477.633571.373041.076672.03122.014750.68072.8315003.611648.74759.325763.353456.715021.848553.795633.245641.9418864.623433.5255974.0172091.069954.09022.034297.0540677.019237.033917.0631087.0894830.0573256.042850.0192384.0204487.0866423.042211.0174441.0141803.01001158.029579.01、在SPSS中录入原始数据,建立SPSS数据文件。2、在菜单中按AnalyzeCorrelateBivariate逐一展开,打开Bivarite Correlation对话框,计算“出口商品总值”和“国内生产总值”的Pearson相关系数。输出结果如表8所示。表8 Pearson相关分析输出结果从输出结果看,“出口商品总值”和“国内生产总值”之间的相关系数R0.826,p0.000,表明两变量之间具有高度的统计显著性相关。3、选择AnalyzeCorrelationPartial逐一展开,打开Partial Correlations的主对话框,将“实际利用外资金额”送入Controlling for栏,如图18所示。图184、单击OK按钮,提交运行。输出结果如表9 所示。从输出结果看,在控制了“实际利用外资金额”这一变量后,“出口商品总额”和“国内生产总值”之间的偏相关系数仅为0.358,而且不具有统计显著性意义。表9 偏相关系数输出结果(四) 低测量层次变量相关的实例分析表10为在一次问卷调查中得出的某机关工作人员职务级别与工作满意度的交叉表,请分析职务级别与工作满意度之间的关系,并进行统计显著性检验。表10 某机关工作人员工作满意度与职务级别的交叉表工作满意度职务级别合计低中高低1502040210中3020140190高2016020200合计2002002006001、将工作满意度设为变量X1,并赋值1,2,3分别表示工作满意度低、中、高。职务级别设为变量X2,并赋值1,2,3分别表示职务级别为低、中、高。表10中的数据设为变量W,从而将表10转换为表11所示的数据结构表,并在SPSS中根据表11录入数据,建立数据文件。表11 交叉表输入的数据结构X1X2WX1X2W1115023140122031201340321602130332022202、选择DataWeight Cases,打开Weight Cases对话框,选中Weight cases by并将W输入Frequency Variable框中,如图19所示。图193、选择AnalyzeDescriptive StatisticsCrosstabs逐一展开,打开Crosstabs对话框。将X1 、X2分别输入Row(s)和Column(s)。如图20所示。图204、单击Statistics按钮,打开Crosstabs Statistics对话框,如图21所示。在这个对话框中,可以对不同测量水平的变量进行不同的相关分析。Chi-square是进行卡方检验,Nominal是计算两个定类变量的相关系数,包括Contingency coefficient系数、Phi and Gramers V系数、Lambda系数和Uncertainty coefficient系数。Ordinal是计算两个定序变量的相关系数,包括Gamma系数、Somerss系数、Kendalls tau-b系数和Kendalls tau-c系数。Nominal by Interval是计算定类定距(定比)变量的Eta相关系数。Kappa相关系数用于分析两个等级相同的定序变量的相关;Risk相关系数用于分析某时间与某因素之间联系的一致性的相关;McNemar相关系数用于检验两个有关联的二分变量之间联系的相关;Cochrans and Mantel-Haenzel statistics相关系数用于检验两个独立的二分变量之间联系的相关分析。图215、单击OK按钮,提交运行。输出结果如表12-表14所示。从输出结果看,“工作满意度”与“职务级别”之间的Somersd系数为0.202,=0.253,且均具有统计显著性意义。表12 输出结果中的Chi-Square Tests(卡方检验)表表13 输出结果中的Directional Measures表表14 输出结果中的Symmetric Measures表四、 SPSS在回归分析中的应用SPSS软件中包含了Liner(线性回归)、Curve Estimation(曲线回归)、Logistic(逻辑斯蒂回归)、Probit(概率单位回归)、Nonlinear(非线性回归)、Weight Estimation (加权估计)以及Optimal Scaling(最有编码回归)等回归分析。本文主要介绍SPSS在一元线性回归、多元线性回归和曲线回归中的应用。(一) 一元线性回归的实例分析表5是关于我国19912002年的人均GDP和婴儿死亡率的统计数据,在上文中已经计算出两个变量间R0.980,p0.000,在0.01条件下达到统计显著性相关。而从“人均GDP”和“婴儿死亡率”的散点图来看,两变量表现出比较明显的线性相关关系。如图22所示。 图22 两变量的散点图1、选择菜单中AnalyzeRegressionLinear逐一展开,打开Linear Regression主对话框。 2、从左侧的源变量框中选定“婴儿死亡率”作为因变量,输入Dependent框;选定变量“人均GDP”作为自变量,输入Independent(s)框。如图23所示。图233、单击OK按钮,输出结果如表15表17所示。表15是关于一元线性回归模型的总体参数表,给出了复相关系数、决定性系数(复相关系数平方)、调整后的复相关系数平方,以及回归的标准误差(未解释的标准差)。决定性系数是指被解释的方差(回归平方和)占总方差(总平方和)的百分比,是对回归模型拟合程度的综合度量。决定性系数越大,模型拟合程度越高,回归方程的解释能力越强。从表15来看,该模型的决定性系数为0.961,说明一元线性回归方程对总平方和的解释能力达到96.1。表15 一元线性回归的Model Summary表表16是关于一元线性回归方程的方差分析表,给出了回归平方和、残差平方和、总平方和及其自由度,以及F统计量值及其显著性水平。F检验是对回归总体线性关系是否显著的一种假设检验。根据表16输出结果可知,F246.121,p0.0000.05,所以回归方程的线性关系是显著的。表16 一元线性回归的ANOVA(b)表表17是关于一元线性回归模型的回归系数及其显著性检验表,给出了常数项和自变量的非标准化的回归系数和标准化的回归系数,以及t统计量值及其显著性水平。从表17的输出结果看,常数项的非标准化值为53.528,自变量的系数非标准化的值为-0.003,且t检验的p0.0000.05,所以自变量“人均GDP”对因变量“婴儿死亡率”具有显著的影响。表17 一元线性回归的Coefficients(a)表由此可知,以“婴儿死亡率”为因变量,“人均GDP”为自变量的一元线性回归方程为:y53.5280.003x(二)多元线性回归的实例分析表18是19902003年出国回国人数及相关指标的统计数据,试建立以“回国人员”为因变量的多元线性回归方程。表18 19902003年出国回国人数及相关指标的统计数据年份出国人数回国人数高校在校生人数科技投入(亿元)GDP(亿元)医疗机构数1990199119921993199419951996199719981999200020012002200329502900654010742190712038120905224101762223749389898397312517911730715932069361151284230575065707130737977489121122431794520152206320442184253627992906302131743409413455617191903411086139.12160.69189.26225.61268.25302.36348.63408.86438.6543.85575.62703.26816.22975.5418598.421662.526651.934560.546670.057494.966850.573142.776967.280579.488228.195727.9103935.3116603.22087342090362047871935861917421900573225663150333140973109963247713303483060382913231、在SPSS中录入数据,建立数据文件。定义“回国人数”为因变量Y,其他变量为自变量x1、x2、x3和x4。如图24所示。图242、在Method框中选择一种回归分析方法,在本例中选择Stepwise,如图24所示。(1)Enter为强行进入法,即所选择的自变量全部进入回归模型,该选择是默认方式。(2)Remove为消去法,建立回归方程时,根据设定的条件剔除部分自变量。(3)Forward为向前选择法。根据在Option对话框中所设定的判据,从无自变量开始。在拟合过程中,对被选择的自变量进行方差分析,每次加入一个F值最大的变量,直至所有符合判据的变量都进入模型为止。第一个引入回归模型的变量应该与因变量间相关系数绝对值最大。(4)Backward为向后提出法。根据在Option对话框中所设定的判据,先建立全模型,然后根据设置的判据,每次剔除一个F值最小的自变量,直至回归方程中不再含有不符合判据的自变量为止。(5)Stepwise为逐步进入法,它是向前选择变量法和向后剔除变量法的结合。根据在Option对话框中所设定的判据,首先根据方差分析结果选择符合判据的自变量且对因变量贡献最大的进入回归方程,根据向前选择变量法选入变量,然后根据向后剔除法,将模型中F值最下的且符合剔除判据的变量剔除出模型,重复进行直到回归方程中的自变量均进入模型的判据,模型外的自变量都不符合进入模型的判据为止。3、单击Statistics按钮,打开Statistics对话框,做出如图25所示的选项。(1)Regression Coefficients是有关回归系数的选择栏,其中Estimates是输出回归系数B、B的标准误、标准回归系数、B的T值以及T值的双侧检验的显著性水平sig.;Confidence intervals是输出每一个非标准化回归系数95的置信区间;Covariance matrix是输出非标准化回归系数的协方差矩阵、各变量的相关系数矩阵。(2)与模型拟合及其拟合效果有关的选择项。其中Model fit是输出引入模型与从模型中剔除的变量,提供复相关系数R,复相关系数平方R2,及其修正值,估计值的标准误,ANOVA方差分析表;R Square change是表示当回归方程中引入或剔除一个自变量后R2的变化量。如果R2ch较大,那么说明进入和剔除回归方程的自变量有可能是一个较好的回归变量。选择此项输出R2ch、Fch、Sigch;Descriptive是输出合法观测量的数目,变量的平均数、标准差、相关系数矩阵和单侧检验显著性水平矩阵;Part and partial correlation是输出部分相关系数(表明当一个自变量进入回归方程后,R2增加了多少)、偏回归系数(表明排斥了其他自变量对Y的影响后,与因变量Y的相关程度)与零阶相关系数(变量之间的简单相关系数);Collinearity diagnostics是输出各变量的容限公差以及共线性诊断表。(3)Residuals为有关残差分析的选择项栏。其中Durbin-Watson是输出Durbin-Watson统计量以及可能是奇异值的诊断表;Casewise diagnostics是输出观测量诊断表,诊断表既可以通过Outliers outside standard deviation选项,设置奇异值的判据,系统默认值为3倍标准差,也可以选中All cases项,输出所有观测量的残差值。图254、单击OK按钮,提交运行,输出结果如表19表22所示。表19是汇报运用Stepwise方法过程中被引入和剔除的变量,第一列Model是回归方程编号;第二列Variables Entered为引入回归方程的自变量名称;第三列Variables Removed为从回归方程中被剔除的自变量名称;第四列Method为自变量进入与被剔除回归方程的判据。从表19看,在Model 1中,只进入一个自变量x1即“高校在校生人数”,在Model 2中,除了x1,还进入了x3即“GDP总量”。表19 多元线性回归的Variables Entered/Removed表表20是多元回归方程的常用统计量,第二列R为复相关系数,第三列R Square即R2系数为决定性系数。随着自变量个数的增加,R2系数的值随之增加,但这并不意味着自变量越多,模型的拟合度越好。第四列Adjusted R Square即修正R2系数,为了尽可能地确切反映模型的拟合度,该参数试图修正R2系数的偏差,修正R2系数未必随自变量个数的增加而增加。第五列Std.Error of the Estimate为估计的标准误,增加自变量的个数将增大R2系数,但未必会减少估计的标准误。在建立多元线性回归方程时,除非必要,自变量数目不应太多,因为一个包含多余自变量的模型可能会增加标准误差。从表20看,两个Model的R2系数以及修正的R2系数都表明,回归方程存在高度线性相关。第六列Durbin-Watson是对回归模型中的误差项进行独立性检验,Dw的取值范围是0 4,当残差与自变量互为独立时,Dw2;当相邻两点的残差为正相关时,Dw2;当相邻两点的残差为负相关时,Dw2。表20表明Dw1.613,比较接近于2,说明残差项基本符合独立性假设。表20 多元线性回归的Model Summary表表21显示回归拟合过程中每一步的方差分析结果。Sum of Square为回归平方和(Regression)、残差平方和(Residual)和总平方和(Total);df为自由度。从表21看,Model 1和Model 2均通过了F检验,即在两个回归方程中,自变量对因变量的影响都是显著的。表21 多元线性回归的AVOVA(b)表表22是多元回归方程的系数表,Unstandardized Coefficients为非标准化系数,Standardized Coefficients为标准化系数,t检验为偏回归系数(或常数项)为0的假设检验的t值,Sig.为偏回归系数(或常数项)为0的假设检验的显著性水平值,Collinearity Statistics为共线性统计量,其中Tolerance为容忍度,VIF为方差膨胀因子。表22 多元线性回归的Coefficients(a)表需要说明的是,偏回归系数B是在控制了其他变量之后得到的。它的不足之处在于,当自变量的单位不一致时,比较它的大小没有任何意义。也就是说只有当所有的自变量单位统一时,偏相关系数才有可比性。但在比较时还应注意,在多元回归分析中,方差分析是对整个回归方程的显著性检验,它与单独地进行每一个偏回归系数的显著性检验不一定等效,就是说,由方差分析得出回归方程有统计意义,而回归方程的每一个偏回归系数不一定都有显著性,但至少有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论