数据分析及SPSS软件_第1页
数据分析及SPSS软件_第2页
数据分析及SPSS软件_第3页
数据分析及SPSS软件_第4页
数据分析及SPSS软件_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据分析数据分析及及统计软件统计软件 SPSS主要介绍:主要介绍:SPSS软件的特点;软件的特点;SPSS软件对系统的基本要求;软件对系统的基本要求;SPSS主要系统分析过程以及主要系统分析过程以及主要菜单、子主要菜单、子菜单的英文名及其中中文译名菜单的英文名及其中中文译名; SPSS即时提示和帮助。即时提示和帮助。第一讲第一讲 SPSS概述概述1.1 特点特点SPSS具有以下特点具有以下特点 对于常见的统计分析方法完全可以通过对于常见的统计分析方法完全可以通过“菜单菜单”、“对对话框话框”的操作完成的操作完成, 因此无需编写程序因此无需编写程序. 只要通过菜单的选择、对话框的操作只要通过菜单

2、的选择、对话框的操作,即可告诉系统要做即可告诉系统要做什么什么,无需告知具体怎么做。只要了解统计分析原理,即可得无需告知具体怎么做。只要了解统计分析原理,即可得到统计分析的结果。到统计分析的结果。 与其他软件有数据转换接口与其他软件有数据转换接口。 分析方法丰富,从简单数据统计分析到多因素数据分析分析方法丰富,从简单数据统计分析到多因素数据分析等大多数的统计分析技术,兼有很强的统计图表的生成、编等大多数的统计分析技术,兼有很强的统计图表的生成、编辑功能辑功能.1.2 SPSS的运行和运行环境的运行和运行环境系统的运行及主屏幕介绍系统的运行及主屏幕介绍 (打开打开SPSS软件进行介绍软件进行介绍

3、) SPSS共有共有“File”(文件文件)、“Edit”(编辑编辑)、“View”(视图视图)、“Data”(数据数据)、“Transform”(转转换换)、“Analyze”(分析分析)、“Graphs”(图形图形)、“Utilities”(通用通用)、“Windows”(窗口窗口)和和“Help”(帮助帮助)10个菜单。个菜单。 最重要、最富有特色最重要、最富有特色的是菜单栏中的的是菜单栏中的“Data”(数据数据)、“Transform”(转换转换)、“Analyze”(分析分析)菜单菜单. “Data ” 是指变量定义是指变量定义, 具体包括数据的长度具体包括数据的长度, 小数小数点

4、的定义点的定义, 给变量贴标签给变量贴标签, 数据和变量的插入数据和变量的插入, 数据合数据合并、加权并、加权, 数据选择、分组等数据选择、分组等. “Transform” 是指变量转换是指变量转换, 通过计算使之形成新通过计算使之形成新变量或重新编码使之形成新变量变量或重新编码使之形成新变量. “Analyze” 是指变量统计分析是指变量统计分析,具体包括变量总计、具体包括变量总计、相关和回归、平均数比较、聚类分析等相关和回归、平均数比较、聚类分析等. 1.3 SPSS的主要功能的主要功能1. 数据编辑功能数据编辑功能 2. 表格的生成和编辑表格的生成和编辑3. 图形的生成和编辑图形的生成和

5、编辑4.与其他软件的连接与其他软件的连接 5. 统计功能统计功能 1.4 帮助系统帮助系统(打开打开SPSS软件进行介绍软件进行介绍) 用户在使用用户在使用SPSS过程中过程中,如果遇到困难如果遇到困难,对某统计结果无对某统计结果无法解释法解释,或对某项目不清楚或对某项目不清楚,可以通过可以通过SPSS所提供的帮助信息所提供的帮助信息得到帮助和提示得到帮助和提示.从提供帮助的内容而言从提供帮助的内容而言,有主题词帮助、各有主题词帮助、各统计过程子菜单帮助提示和统计过程子菜单帮助提示和“Help”主菜单帮助系统主菜单帮助系统. 为实现统计功能为实现统计功能,常需要打开一些对话框常需要打开一些对话

6、框,大部分对话框大部分对话框内都包含一个一个内都包含一个一个“Help”(帮助帮助)按钮按钮,通过该按钮可得到相通过该按钮可得到相应的提示应的提示,这就是在线提示这就是在线提示,或各种统计过程菜单帮助提示或各种统计过程菜单帮助提示. 当用户对某个对话框的某控件用途不很清楚时当用户对某个对话框的某控件用途不很清楚时,单击鼠标单击鼠标右键右键, 可出现小提示框可出现小提示框, 询问询问“Whats is this”和和“Variable Information”, 前者询问该控件的意义前者询问该控件的意义, 后者问变量的信息后者问变量的信息,再再单击相应的地方单击相应的地方, 等到相应的用方框包含

7、的帮助提示信息等到相应的用方框包含的帮助提示信息. 这这就是右键提示就是右键提示. : 学习最好的方法是模仿,学习软件最好的方法是学习最好的方法是模仿,学习软件最好的方法是从实例学习。这里我们介绍自输入文件的处理,具体从实例学习。这里我们介绍自输入文件的处理,具体包括包括SPSS数据的输入、数据变量的定义、资料的预数据的输入、数据变量的定义、资料的预处理和数据资料的统计处理处理和数据资料的统计处理.并且还介绍并且还介绍SPSS基本操基本操作原理,完全窗口菜单运行管理方式;讨论了数据编作原理,完全窗口菜单运行管理方式;讨论了数据编辑窗口、结果输出窗口等多种不同的窗口形式以及各辑窗口、结果输出窗口

8、等多种不同的窗口形式以及各种对话框、按钮的选择和含义。还介绍了数据编辑窗种对话框、按钮的选择和含义。还介绍了数据编辑窗口的责成,常量、变量、函数、操作符和表达式的基口的责成,常量、变量、函数、操作符和表达式的基本定义,数据的录入,函数的应用和新变量的计算等。本定义,数据的录入,函数的应用和新变量的计算等。2.1.1 数据处理的构思数据处理的构思 在录入数据之前首先要对处理数据有个设想在录入数据之前首先要对处理数据有个设想, 即根据调查即根据调查样本、调查内容,准备计算哪些变量样本、调查内容,准备计算哪些变量, 做什么样的统计处理做什么样的统计处理,准备生成那些统计图表准备生成那些统计图表. 本

9、例将对每个变量做一般性统计描述本例将对每个变量做一般性统计描述处理处理,并对两个变量建立散点图并对两个变量建立散点图. 假如假如 , 调查了调查了10个学生的数学、物理、化学和英文的学个学生的数学、物理、化学和英文的学习成绩习成绩, 如表如表3.1所示所示, 现进行数据汇总现进行数据汇总, 要求每人、每门课程要求每人、每门课程的平均成绩的平均成绩. 表表3.1 10名学生成绩调查表名学生成绩调查表 变量标签 学号 性别 年龄 数学 物理 化学 英文 变量名 ID A1 A2 A3 A4 A5 A6 类型长度 N4.0 String N4.0 N4.0 N4.0 N4.0 N4.0 1 01 女

10、 22 82 90 88 77 2 02 女 18 91 81 76 82 3 03 男 20 78 76 90 56 4 04 女 20 85 82 缺考 75 5 05 女 21 缺考 67 82 64 6 06 男 不清 68 86 54 69 7 07 男 18 76 93 80 78 8 08 女 19 84 88 72 52 9 09 男 18 56 64 86 80 10 10 女 24 88 71 94 76表表3.2 学生成绩的调查表编码学生成绩的调查表编码 ID A1 A2 A3 A4 A5 A6 1 F 22 82 90 88 77 2 F 18 91 81 76 82

11、3 M 20 78 76 90 82 4 F 20 85 82 -9 56 5 F 21 -9 67 82 75 6 M -9 68 86 54 69 7 M 18 76 93 80 78 8 F 19 84 88 72 52 9 M 18 56 64 86 80 10 F 24 88 71 94 763.1.2 数据录入和定义数据录入和定义 (打开打开SPSS进行演示讲解进行演示讲解) 由于由于SPSS数据处理是按列进行的数据处理是按列进行的,而并不考虑这一列有而并不考虑这一列有多少行多少行. 因此,在因此,在SPSS数据输入中数据输入中, 行变量固定为调查样本、行变量固定为调查样本、列变量

12、为调查变量列变量为调查变量. 此外此外, 英文大小写对英文大小写对SPSS的变量、程序的变量、程序是等价一致的是等价一致的, 没有区分的没有区分的; 仅在作为文字输出时可有大小仅在作为文字输出时可有大小写之分写之分.录入数据常分为如下两个基本步骤录入数据常分为如下两个基本步骤: 数据录入数据文件后数据录入数据文件后, 为了便于观察和数据处理为了便于观察和数据处理, 就要对就要对数据文件中的数据进行编辑修改数据文件中的数据进行编辑修改, 数据编辑功能包括数据排数据编辑功能包括数据排列、转换列、转换(行列互换行列互换)、插入观测量、选择变量等、插入观测量、选择变量等, 用户可根用户可根据需要进行选

13、择据需要进行选择. 1. 常量的定义常量的定义 2. 观察值的输入观察值的输入 1. 变量名的定义变量名的定义 2. 变量类型和宽度的定义变量类型和宽度的定义 3. 变量标变量标签和签和(变量变量)值标签的定义值标签的定义 4. 用户缺失值的定义用户缺失值的定义 5. 变量显示变量显示格式的定义格式的定义 1. 算术表达式算术表达式 2. 关系表达式关系表达式 3. 逻辑表达式逻辑表达式 【注】以上过程打开【注】以上过程打开SPSS文件进行演示文件进行演示 在进行数据分析处理时在进行数据分析处理时,仅分析原始测量值往往是不够的仅分析原始测量值往往是不够的,常常需要根据已经存在的变量建立新变量常

14、常需要根据已经存在的变量建立新变量. 例如将出生年月与例如将出生年月与调查时间相减调查时间相减, 计算被调查者的年龄计算被调查者的年龄; 根据家庭男性人数、家根据家庭男性人数、家庭女性人数庭女性人数, 计算家庭总人数等计算家庭总人数等, 这些可以直接由这些可以直接由SPSS语句实语句实现现. 对对SPSS来说来说,体现其特点的更直观方法是通过体现其特点的更直观方法是通过“Compute”对话框实现对话框实现.【注】以上过程打开【注】以上过程打开SPSS文件进行演示文件进行演示2.1.3 数据资料预处理数据资料预处理 在资料输入后在资料输入后,有时要将资料进行预处理有时要将资料进行预处理. 如将

15、出生年月、结婚年月转如将出生年月、结婚年月转换成年龄、婚龄,如将年龄、职业、行业等资料进行分组处理换成年龄、婚龄,如将年龄、职业、行业等资料进行分组处理, 或将资料或将资料进行排序、转置等进行排序、转置等. “Data”选项选项提供了这一功能提供了这一功能. 资料还可以按某种类别资料还可以按某种类别,永永久或暂时地分成两部分久或暂时地分成两部分(Split File), 或两部分资料的合并或两部分资料的合并(Merge Files), 或或数据资料的加权数据资料的加权(Weight Cases), 或特选某部分资料或特选某部分资料(Select Cases),如某年龄如某年龄组男性进行专题研究

16、组男性进行专题研究.2.1.4 数据统计分析数据统计分析 2.1.5结果输出选择结果输出选择 统计学运算的结果显示在统计学运算的结果显示在“Output”输出窗口输出窗口.2.1.6图形绘制图形绘制 选择选择“Graphs”下的下的“Scatter”选项选项,在取在取“Simple”, 定义定义Y轴和轴和X轴后,按轴后,按“OK”按钮即可输出散点按钮即可输出散点(XY坐坐标标).2.1.7 文件保存文件保存 统计处理完毕之后将各个窗口的数据、结果或图形保存,以便需要时统计处理完毕之后将各个窗口的数据、结果或图形保存,以便需要时再读出。再读出。SPSS规定一些扩展名,以保存经规定一些扩展名,以保

17、存经SPSS处理的数据库。原始数据文处理的数据库。原始数据文件以件以“sav”为扩展名进行保存,为扩展名进行保存,SPSS语句文件以语句文件以“sps”为扩展名进行保存,为扩展名进行保存,数据、图形输出文件以数据、图形输出文件以“spo”扩展名进行保存。扩展名进行保存。 很多数据文件不能直接输入很多数据文件不能直接输入, 可以由其他数据库导入可以由其他数据库导入. 这时需要对原这时需要对原数据文件进行逻辑检查数据文件进行逻辑检查, 而后进行适当数据处理而后进行适当数据处理. 如打开如打开SPSS目录下的目录下的“Cars.sav”文件文件, 首先将变量名、变量标签进行汉化处理首先将变量名、变量

18、标签进行汉化处理, 然后将英制变然后将英制变量转换为公制变量量转换为公制变量, 然后制作合适的图表然后制作合适的图表.2.2.1 变量名、变量标签的汉化变量名、变量标签的汉化 打开打开SPSS数据库以后数据库以后,单击单击“File”菜单下的菜单下的“Open”命令命令,则显示则显示SPSS的目录的目录,找到找到Cars文件文件,双击该文件或用左键单击该文件名双击该文件或用左键单击该文件名,然后单击然后单击“打开打开”按钮,基本数据即出现按钮,基本数据即出现. 2.2.2 变量的转换变量的转换2.2.3 统计分析统计分析2.2.4 图表的制作图表的制作 SPSS的图形大致有两大类的图形大致有两

19、大类,20多种多种,其图形十分丰富其图形十分丰富.与表格相比较与表格相比较,图图形表达直观、形象、生动形表达直观、形象、生动. 注注 以上所有的过程在以上所有的过程在SPSS中打开中打开Cars文件进行演示文件进行演示窗口运行管理方式窗口运行管理方式 File 文件操作文件操作 Edit 文件编辑文件编辑 View 视图视图 Data 数据文件建立与编辑数据文件建立与编辑 Transform 数据转换数据转换 Analyze 统计分析统计分析 Graphs 统计图表的建立与编辑统计图表的建立与编辑 Utilities 实用程序实用程序 Windows 窗口控制窗口控制 Help 帮助帮助 【注

20、】【注】 在以上菜单中在以上菜单中,最重要、最有特色的是最重要、最有特色的是“Data”、 “Transform” 、“Analyze”3个子菜单个子菜单. 2.4.1 数据编辑窗口数据编辑窗口 2.4.2 结果输出窗口结果输出窗口 2.4.3 程序编写窗口程序编写窗口 2.4.4 统计图形编辑窗口统计图形编辑窗口 2.4.5 帮助窗口帮助窗口 单击单击“Help”按钮就可以打开一个按钮就可以打开一个“Help”窗口窗口.窗口中显示的帮助窗口中显示的帮助信息可为对话框中的内容提供提示、为参数选择及操作提供帮助信息可为对话框中的内容提供提示、为参数选择及操作提供帮助.【注】【注】 以上所有窗口的

21、操作过程在以上所有窗口的操作过程在SPSS中打开文件中打开文件进行演示进行演示常见对话框类型常见对话框类型 SPSS中使用的对话框主要有以下几种中使用的对话框主要有以下几种 1. 统计分析对话框统计分析对话框 “Analyze”菜单各类分析功能中,打开的对话框均属于菜单各类分析功能中,打开的对话框均属于此类。在该类对话框中选择参与分析的各相关变量是对话框此类。在该类对话框中选择参与分析的各相关变量是对话框的主要任务。另外,还可根据分析方法不同而选择不同的参的主要任务。另外,还可根据分析方法不同而选择不同的参数项、算法、输出选择等。数项、算法、输出选择等。2. 文件操作对话框文件操作对话框 “F

22、ile”菜单中的各种功能操作对话框都属于此类。如菜单中的各种功能操作对话框都属于此类。如“Save as”存储数据文件对话框。存储数据文件对话框。(打开打开SPSS文件操作对话框进行演示文件操作对话框进行演示) 进入进入SPSS以后以后,屏幕显示的主画面中有一个标有彩色底色、屏幕显示的主画面中有一个标有彩色底色、白字的白字的“Untitled”的窗口的窗口,这就是这就是SPSS的数据编辑窗口的数据编辑窗口(数据窗数据窗口口).用户在该窗口可建立数据文件用户在该窗口可建立数据文件. 1. 数据编辑窗口的组成数据编辑窗口的组成 (打开打开SPSS进行演示进行演示) 2. 数据编辑窗口的功能数据编辑

23、窗口的功能 数据编辑窗口的编辑功能主要是通过数据编辑窗口的编辑功能主要是通过“Data”和和“Edit”两项菜单所包含的各功能菜单项来实现的两项菜单所包含的各功能菜单项来实现的. 定义时间变量定义时间变量(Define Dates); 插入一个变量插入一个变量/插入一个观测样本插入一个观测样本(Insert Variable /Insert Cases ); 光标移动到指定的样本光标移动到指定的样本(Go to Cases); 按某变量值对观测量进行排序按某变量值对观测量进行排序(Sort Cases); 求数据文件的转置求数据文件的转置(Transpose); 合并数据文件合并数据文件/拆分

24、数据文件拆分数据文件(Merge Files/Split Files); 对数据进行分类与不分类的汇总对数据进行分类与不分类的汇总(Aggregate) 选择观测量选择观测量(Select Cases); 对观测量进行加权处理对观测量进行加权处理(Weight Cases). 删除刚刚输入删除刚刚输入/恢复修改的数据恢复修改的数据(Undo/Redo); 剪切指定的数据到剪贴板剪切指定的数据到剪贴板(Cut); 把指定的数据复制到剪贴板把指定的数据复制到剪贴板(Copy); 将过程作为程序贴在程序窗口将过程作为程序贴在程序窗口(Paste); 清除数据编辑窗口中的选定的变量或观测量清除数据编辑

25、窗口中的选定的变量或观测量(Clear); 查找数据查找数据(Find); 系统参数的设置系统参数的设置(Options).第三讲第三讲 多元线性回归模型及实例多元线性回归模型及实例 多元线性回归模型多元线性回归模型:表现在线性回归模型中的解释变量有多个。 一般表现形式一般表现形式:其中:p为解释变量的数目,j称为回归参数回归参数(regression coefficient)。 习惯上习惯上:把常数项常数项看成为一虚变量虚变量的系数,该虚变量的样本观测值始终取1。这样: 模型中解释变量的数目为(模型中解释变量的数目为(p+1+1) ,f农作物产量气温 降雨量 阳光 施肥量01 122ppyx

26、xx也被称为也被称为总体回归函数总体回归函数的的随机表达形式随机表达形式。 服从正态分布。 方程表示:方程表示:各变量各变量X值固定时值固定时Y的平均响应的平均响应。 j也被称为也被称为偏回归系数偏回归系数,表示在其他解释变,表示在其他解释变量保持不变的情况下,量保持不变的情况下,Xj每变化每变化1个单位时,个单位时,Y的均值的均值E(Y)的变化的变化; 或者说或者说j给出了给出了Xj的单位变化对的单位变化对Y均值的均值的“直直接接”或或“净净”(不含其他变量)影响。(不含其他变量)影响。 对一个实际问题,如果我们获得对一个实际问题,如果我们获得n组观测数组观测数据,则线性回归模型表示为:据,

27、则线性回归模型表示为:01221,1,2,iiip ipiyxxxini0,1,2,jp总体回归模型总体回归模型n个随机方程的个随机方程的矩阵表达式矩阵表达式为为 其中其中111111,1pnnpXXXl XXpXX01 12 2ppYXXXX nYYY11jjnjXXX11l0p n 1样本回归函数样本回归函数:用来估计总体回归函数:用来估计总体回归函数其其随机表示式随机表示式: : ei称为称为残差残差或或剩余项剩余项(residuals),可看成是总,可看成是总体回归函数中随机扰动项体回归函数中随机扰动项 i的近似替代。的近似替代。 样本回归函数样本回归函数的的矩阵表达矩阵表达: : X

28、Y或或eXY其中:其中:neee21e0pipipiiieXXXY 22110eXXXYpp 22110二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 假设1,解释变量是非随机的或固定的,且各X之间互不相关(无多重共线性)。 假设2,随机误差项具有零均值、同方差及不序列相关性njiji, 2 , 1, 假设3,解释变量与随机项不相关 假设4,随机项满足正态分布 ()1rankXpn 0iE 2iVarcov,0ij 22(0,)1,2,(,)inNinYN XI cov,0ijiX 1,2, ;1,2,in jp一、普通最小二乘估计一、普通最小二乘估计对于随机抽取的n组观测值如果

29、样本函数样本函数的参数估计值已经得到,则有: i=1,2n根据最小二乘原理最小二乘原理,参数估计值应该是下列方程组的解 其中2112)(niiiniiYYeQ3.2 多元线性回归模型的估计多元线性回归模型的估计 01000pQQQ eXeXXXYipipiii 221102221101)(pipiiiniXXXY 向量表示 回归方程的向量表示 回归残差向量 残差平方和0pnYY1Ynee1eYXe eYYYX )()()()(12XXXYYXYYXYXYeQnii 3.3 3.3 参数估计量的性质参数估计量的性质 在满足基本假设的情况下,其结构参数 的普通普通最小二乘估计最小二乘估计、最大或然

30、估计最大或然估计及矩估计矩估计仍具有: 线性性线性性、无偏性无偏性、有效性有效性。 同时,随着样本容量增加,参数估计量具有: 渐近无偏性、渐近有效性、一致性渐近无偏性、渐近有效性、一致性。 性质性质1、线性性、线性性 CYYXXX1)(其中,C=(XX)-1 X 为一仅与固定的X有关的行向量 性质性质2、无偏性、无偏性 性质性质3、 11111X XX YX XXXX XX XX X XXX XXEEEEEEE 12X XD 11111111212XXXYXXX X XXXXXXXXXXXXXXX IXXXXXVarVarVarVarVarVar 性质性质4、有效性(最小方差性)、有效性(最小

31、方差性) 性质性质5、 回归参数与残差项不相关,在正态假定下回归参数与残差项不相关等价于回归参数与残差项独立,从而这两条性质对一元线性回归也成立。 1222(1)( ,()(2)/(1)NX XSSEnpcov,0ecov,0,SSESSEe e其 中 : 性质性质6、2nY (X ,I )N 当时,则:(一)回归方程的显著性检验(一)回归方程的显著性检验(一)拟合优度拟合优度(二)回归方程显著性的回归方程显著性的F检验检验(三)回归系数的显著性检验回归系数的显著性检验(四)回归参数的置信区间回归参数的置信区间M Mo od de el l S Su um mm ma ar ry y.935a

32、.875.792304.67978Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), x12, x10, x1, x2, x4, x6, x11, x3,x8, x9, x7, x5a. 回归拟合度评价和决定系数回归拟合度评价和决定系数拟合优度:检验回归方程对样本观测值的拟合程度。拟合优度:检验回归方程对样本观测值的拟合程度。 两变量回归决定系数的公式两变量回归决定系数的公式22211iiiieSSRSSERSSTSSTYY SSTSSRRR 2样样本本复复相相关关系系数数:该统计量越接

33、近于该统计量越接近于1,模型的拟合优度越高。,模型的拟合优度越高。 22221111111iiiiennRRnpnpYY 调整的可决系数调整的可决系数 在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方将残差平方和与总离差平方和分别除以各自的自由度,以剔和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响除变量个数对拟合优度的影响: 其中:n-p-1为残差平方和的自由度,n-1为总体平方和的自由度。11)1 (122knnRR(二)回归方程显著性的F检验F F统计量统计量( ,1)1SSR pFF p npSSEnp 检验目的:每一自变量整体上

34、是否对因变量检验目的:每一自变量整体上是否对因变量Y有有显著的影响。显著的影响。 对总体参数提出假设:对总体参数提出假设: H0: 1= 2= p=0记22()iiSSTyYY22()iiSSRyYY22()iiiSSEeYY 给定显著性水平,可得到临界值F(p,n-p-1),由样本求出统计量F的数值,通过 F F(p,n-p-1) 或 FF(p,n-p-1)来拒绝或接受原假设H0,以判定原方程总体上总体上的线性关系是否显著成立。 A AN NO OV VA Ab b1168710312973925.24310.492.000a16709361892829.7661335803930Regre

35、ssionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), x12, x10, x1, x2, x4, x6, x11, x3, x8, x9, x7, x5a. Dependent Variable: yb. (三)回归系数的显著性检验(三)回归系数的显著性检验(t检验)检验) 方程的总体线性总体线性关系显著 每个解释变量每个解释变量对被解释变量的影响都是显著的 因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。 这一检验是由对变量的这一检验是由对变量的 t t 检验

36、完成的。检验完成的。 1、t统计量统计量 由于12)()(XXCov 以cii表示矩阵(XX)-1 主对角线上的第i个元素,于是参数估计量的方差为: iiicVar2)( 其中2为随机误差项的方差,在实际计算时,用它的估计量代替: 21iieSnp),(2iiiicN因此,可构造如下t统计量 (1)iiiiitt npc0,1,2,ip 显然,如果某个自变量Xi对Y的作用不显著,它的系数i就取值为零,因此可构造如下t检验。 2、t检验检验 设计原假设与备择假设: H1:i0 给定显著性水平,可得到临界值t/2(n-p-1),由样本求出统计量t的数值,通过 |t| t/2(n-p-1) 或 |t

37、|t/2(n-p-1)来拒绝或接受原假设H0,从而判定对应的解释变判定对应的解释变量是否显著,是否应包括在模型中。量是否显著,是否应包括在模型中。 H0:i=0 (i=0,1,2p) 注意:注意:一元线性回归中,一元线性回归中,t t检验与检验与F F检验一致检验一致 一方面一方面,t检验与F检验都是对相同的原假设H0: 1=0=0 进行检验; 另一方面另一方面,两个统计量之间有如下关系: 222212221222122212212)2()2()2()2(txnexnexnenexneyFiiiiiiiiii(四)参数的置信区间(四)参数的置信区间 参数的参数的置信区间置信区间用来考察:在一次

38、抽样中所在一次抽样中所估计的参数值离参数的真实值有多估计的参数值离参数的真实值有多“近近”。 在变量的显著性检验中已经知道:在变量的显著性检验中已经知道:容易推出容易推出:在在(1-(1- ) )的置信水平下的置信水平下 i的置信区间是的置信区间是 (,)iitstsii22 其中,其中,t /2为显著性水平为为显著性水平为 、自由度为、自由度为n-p-1的临界值。的临界值。 (1)iiiiitt npc利用利用SPSS软件建立多元线性回归的一般步骤软件建立多元线性回归的一般步骤:1 输入样本数据,计算因变量与各自变量之间的相关系数输入样本数据,计算因变量与各自变量之间的相关系数 (Analy

39、ze+Correlate+Bivariatea-Pearson) , 根据结果根据结果初选自变量。初选自变量。2 2 若因变量与自变量之间有线性相关关系,可以建立线性回归若因变量与自变量之间有线性相关关系,可以建立线性回归模型模型. . Analyze-Regression-Linear Dependent:因变量因变量; Independents:所有自变量所有自变量 (在(在Statistics对话框对话框,选择选择CoLlinearity Diagnostic)。)。比较有用的结果比较有用的结果 拟合程度拟合程度Adjusted RAdjusted R2 2检验:检验: 越接近越接近1

40、1拟合程度越好。拟合程度越好。 回归方程的显著性检验回归方程的显著性检验(F(F检验检验)F)F值和值和Sig.PSig.P值值; ; 回归系数表回归系数表CoefficientsCoefficients回归系数回归系数B B和显著性检验和显著性检验(t(t检验检验)t)t值和值和Sig.PSig.P值值; ; 得到多元线性回归模型得到多元线性回归模型。实例分析实例分析 【例】【例】国际旅游收入是国民经济发展的重要组成部分,国际旅游收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本

41、例研究第三产社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。业对旅游外汇收入的影响。中国统计年鉴中国统计年鉴把第三把第三产业划分为产业划分为1212个组成部分,分别为:个组成部分,分别为:x1x1农林牧渔服务农林牧渔服务业,业,x2x2地址勘查水利管理业,地址勘查水利管理业,x3x3交通运输仓储和邮电交通运输仓储和邮电通信业,通信业,x4x4批发零售贸易和餐饮业,批发零售贸易和餐饮业,x5x5金融保险业,金融保险业,x6x6房地产业,房地产业,x7x7社会服务业,社会服务业,x8x8卫生体育和社会福利卫生体育和社会福利业,业,x9x9教育文化艺术和广播,教育文化艺术和广播

42、,x10 x10科学研究和综合艺科学研究和综合艺术,术,x11x11党政机关,党政机关,x12x12其他行业。选取其他行业。选取19881988年我国年我国3131个省市自治区的数据,以国际旅游外汇收入(百万美个省市自治区的数据,以国际旅游外汇收入(百万美元)为因变量元)为因变量y y,以以上,以以上1212个行业为自变量作线性回个行业为自变量作线性回归,单位为亿元人民币。数据见归,单位为亿元人民币。数据见SPSSSPSS数据文件。数据文件。例 国际旅游外汇收入分析C Co oe ef ff fi ic ci ie en nt ts sa a-205.552116.964-1.757.096-

43、451.28540.181-1.49522.887-.013-.065.949-49.57846.5882.64918.592.023.142.888-36.41141.7093.2912.467.7481.334.199-1.8918.473-.9441.298-.312-.727.476-3.6701.782-5.5124.512-.961-1.221.238-14.9913.9684.0603.957.7581.026.318-4.25312.3744.1625.077.446.820.423-6.50414.828-15.43610.829-.521-1.425.171-38.1877

44、.31517.3738.3681.0402.076.052-.20634.9539.12710.160.221.898.381-12.21830.471-10.5375.619-.780-1.875.077-22.3431.2691.3605.005.042.272.789-9.15511.875(Constant)x1x2x3x4x5x6x7x8x9x10 x11x12Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Lower Bound Upper Bound95% Confidence

45、 Interval for BDependent Variable: ya. 可见,可见,计算的所有计算的所有p值都大于值都大于0.05,所以拒绝原假设。,所以拒绝原假设。包括常数项在内的包括常数项在内的13个解释变量都在个解释变量都在95%的水平下对的水平下对y不显著,都未通过了变量显著性检验。不显著,都未通过了变量显著性检验。C Co oe ef ff fi ic ci ie en nt ts sa a-205.552116.964-1.757.096-451.28540.181-1.49522.887-.013-.065.949-49.57846.5882.64918.592.023.1

46、42.888-36.41141.7093.2912.467.7481.334.199-1.8918.473-.9441.298-.312-.727.476-3.6701.782-5.5124.512-.961-1.221.238-14.9913.9684.0603.957.7581.026.318-4.25312.3744.1625.077.446.820.423-6.50414.828-15.43610.829-.521-1.425.171-38.1877.31517.3738.3681.0402.076.052-.20634.9539.12710.160.221.898.381-12.21

47、830.471-10.5375.619-.780-1.875.077-22.3431.2691.3605.005.042.272.789-9.15511.875(Constant)x1x2x3x4x5x6x7x8x9x10 x11x12Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Lower Bound Upper Bound95% Confidence Interval for BDependent Variable: ya. C Co oe ef ff fi ic ci ie en n

48、t ts sa a-201.690101.998-1.977.059 -411.3497.9703.616.813.8214.448.0001.9455.286-21.6287.340-.730 -2.946.007-36.716-6.54027.8614.2281.6686.589.00019.16936.553-17.2482.777-1.277 -6.212.000-22.956-11.541(Constant)x3x8x9x11Model1B Std. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Low

49、er BoundUpper Bound95% Confidence Interval for BDependent Variable: ya. 变量选择变量选择后退法后退法 先剔除计算先剔除计算p值较大的一个变量,然后进行新的回归并对值较大的一个变量,然后进行新的回归并对方程检验,有不显著变量再剔除,直到留下的变量都通过了方程检验,有不显著变量再剔除,直到留下的变量都通过了显著性检验。显著性检验。 承上例按承上例按P值依次剔除不显著的变量(原则上每次只剔除值依次剔除不显著的变量(原则上每次只剔除一个变量),最终得到以下结果:一个变量),最终得到以下结果: 逐步回归方法的基本思想逐步回归方法的基

50、本思想: :对全部的自变量对全部的自变量x x1 1,x,x2 2,.,x,.,xp p, ,按它们对按它们对Y Y贡献的大小进行比较,并通过贡献的大小进行比较,并通过F F检验法,选择偏检验法,选择偏回归平方和显著的变量进入回归方程,回归平方和显著的变量进入回归方程,每一步只引入一个每一步只引入一个变量变量,同时建立一个偏回归方程。当一个变量被引入后,同时建立一个偏回归方程。当一个变量被引入后,对原已引入回归方程的变量,逐个检验他们的偏回归平方对原已引入回归方程的变量,逐个检验他们的偏回归平方和。和。如果由于引入新的变量而使得已进入方程的变量变为如果由于引入新的变量而使得已进入方程的变量变为

51、不显著时,则及时从偏回归方程中剔除。不显著时,则及时从偏回归方程中剔除。在引入了两个自在引入了两个自变量以后,便开始考虑是否有需要剔除的变量。只有当回变量以后,便开始考虑是否有需要剔除的变量。只有当回归方程中的所有自变量对归方程中的所有自变量对Y Y都有显著影响而不需要剔除时,都有显著影响而不需要剔除时,在考虑从未选入方程的自变量中,挑选对在考虑从未选入方程的自变量中,挑选对Y Y有显著影响的有显著影响的新的变量进入方程。不论引入还是剔除一个变量都称为一新的变量进入方程。不论引入还是剔除一个变量都称为一步。不断重复这一过程,步。不断重复这一过程,直至无法剔除已引入的变量,也直至无法剔除已引入的

52、变量,也无法再引入新的自变量时,无法再引入新的自变量时,逐步回归过程结束。逐步回归过程结束。最优回归方程的选择最优回归方程的选择逐步回归法逐步回归法逐步线性回归的一般步骤逐步线性回归的一般步骤: Analyze-Regression-Linear Dependent:因变量因变量; Independents:所有自变量所有自变量 Method: Stepwise 比较有用的结果:比较有用的结果: 拟合程度拟合程度Adjusted R2检验:检验: 越接近越接近1拟合程度越好拟合程度越好; 回归方程的显著性检验回归方程的显著性检验(F检验检验)F值和值和Sig.P值值; 回归系数表回归系数表Coefficients的的Model最后一个模型中的最后一个模型中的回归系数回归系数B和显著性检验和显著性检验(t检验检验)t值和值和Sig.P值值; 得到逐步回归模型得到逐步回归模型。缺点缺点:遗失重要变量遗失重要变量,不能消除多重共线性。不能消除多重共线性。 当有些解释变量很重要,不能舍弃时,可以利用当有些解释变量很重要,不能舍弃时,可以利用19331933年年Ho

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论