SPSS数据分析教程第8章线性回归分析ppt课件.ppt

上传人：闯*** IP属地：广东上传时间：2020-03-30 格式：PPT 页数：189 大小：3.97MB 积分：25 举报 版权申诉

已阅读5页，还剩184页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

SPSS数据分析第7讲 SPSS数据分析教程在数量分析中经常会看到变量与变量之间存在着一定的联系要了解变量之间如何发生相互影响的就需要利用相关分析和回归分析在上一章讲述了相关分析有关内容本章介绍回归分析基本概念回归分析的主要类型一元线性回归分析多元线性回归分析非线性回归分析曲线估计时间序列的曲线估计含虚拟自变量的回归分析以及逻辑回归分析等 7 1回归分析基本概念相关分析和回归分析都是研究变量间关系的统计学课题在应用中两种分析方法经常相互结合和渗透但它们研究的侧重点和应用面不同在回归分析中变量y称为因变量处于被解释的特殊地位而在相关分析中变量y与变量x处于平等的地位研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的在回归分析中因变量y是随机变量自变量x可以是随机变量也可以是非随机的确定变量而在相关分析中变量x和变量y都是随机变量相关分析是测定变量之间的关系密切程度所使用的工具是相关系数而回归分析则是侧重于考察变量之间的数量变化规律并通过一定的数学表达式来描述变量之间的关系进而确定一个或者几个变量的变化对另一个特定变量的影响程度具体地说回归分析主要解决以下几方面的问题通过分析大量的样本数据确定变量之间的数学关系式对所确定的数学关系式的可信程度进行各种统计检验并区分出对某一特定变量影响较为显著的变量和影响不显著的变量利用所确定的数学关系式根据一个或几个变量的值来预测或控制另一个特定变量的取值并给出这种预测或控制的精确度作为处理变量之间关系的一种统计方法和技术回归分析的基本思想和方法以及回归 Regression 名称的由来都要归功于英国统计学家F Galton 1822 1911 在实际中根据变量的个数变量的类型以及变量之间的相关关系回归分析通常分为一元线性回归分析多元线性回归分析非线性回归分析曲线估计时间序列的曲线估计含虚拟自变量的回归分析和逻辑回归分析等类型 7 2一元线性回归分析 7 2 1统计学上的定义和计算公式定义一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下分析某一个因素自变量是如何影响另一事物因变量的过程所进行的分析是比较理想化的其实在现实社会生活中任何一个事物因变量总是受到其他多种事物多个自变量的影响在实际问题中由于所要研究的现象的总体单位数一般是很多的在许多场合甚至是无限的因此无法掌握因变量y总体的全部取值也就是说总体回归方程事实上是未知的需要利用样本的信息对其进行估计显然样本回归方程的函数形式应与总体回归方程的函数形式一致通过样本数据建立一个回归方程后不能立即就用于对某个实际问题的预测因为应用最小二乘法求得的样本回归直线作为对总体回归直线的近似这种近似是否合理必须对其作各种统计检验一般经常作以下的统计检验 1 拟合优度检验回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度从而判断回归方程对样本数据的代表程度回归方程的拟合优度检验一般用判定系数R2实现该指标是建立在对总离差平方和进行分解的基础之上 2 回归方程的显著性检验 F检验回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验回归方程的显著性检验一般采用F检验利用方差分析的方法进行 3 回归系数的显著性检验 t检验所谓回归系数的显著性检验就是根据样本估计的结果对总体回归系数的有关假设进行检验之所以对回归系数进行显著性检验是因为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量因此可以通过回归系数显著性检验对每个回归系数进行考察回归参数显著性检验的基本步骤提出假设计算回归系数的t统计量值根据给定的显著水平确定临界值或者计算t值所对应的p值作出判断研究问题合成纤维的强度与其拉伸倍数有关测得试验数据如表7 1所示求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系 7 2 2SPSS中实现过程表7 1强度与拉伸倍数的试验数据实现步骤图7 1在菜单中选择 Linear 命令图7 2 LinearRegression 对话框一图7 3 LinearRegression Statistics 对话框图7 4 LinearRegression Plots 对话框图7 5 LinearRegression Save 对话框图7 6 LinearRegression Options 对话框 1 输出结果文件中的第一个表格如下表所示 7 2 3结果和讨论 2 输出的结果文件中第二个表格如下表所示 3 输出的结果文件中第三个表格如下表所示 4 输出的结果文件中第四个表格如下表所示 7 3多元线性回归分析 7 3 1统计学上的定义和计算公式定义在上一节中讨论的回归问题只涉及了一个自变量但在实际问题中影响因变量的因素往往有多个例如商品的需求除了受自身价格的影响外还要受到消费者收入其他商品的价格消费者偏好等因素的影响影响水果产量的外界因素有平均气温平均日照时数平均湿度等因此在许多场合仅仅考虑单个变量是不够的还需要就一个因变量与多个自变量的联系来进行考察才能获得比较满意的结果这就产生了测定多因素之间相关关系的问题研究在线性相关条件下两个或两个以上自变量对一个因变量的数量变化关系称为多元线性回归分析表现这一数量关系的数学公式称为多元线性回归模型多元线性回归模型是一元线性回归模型的扩展其基本原理与一元线性回归模型类似只是在计算上更为复杂一般需借助计算机来完成对多元线性回归也需要测定方程的拟合程度检验回归方程和回归系数的显著性 1 拟合优度检验测定多元线性回归的拟合程度与一元线性回归中的判定系数类似使用多重判定系数其定义为 2 回归方程的显著性检验 F检验多元线性回归方程的显著性检验一般采用F检验利用方差分析的方法进行 3 回归系数的显著性检验 t检验回归系数的显著性检验是检验各自变量x1 x2 对因变量y的影响是否显著从而找出哪些自变量对y的影响是重要的哪些是不重要的与一元线性回归一样要检验解释变量对因变量y的线性作用是否显著要使用t检验研究问题用多元回归分析来分析36个员工多个心理变量值 z1 z8 对员工满意度my的预测效果测得试验数据如表7 2所示 7 3 2SPSS中实现过程表7 2员工多个心理变量值和员工满意度数据实现步骤图7 7 LinearRegression 对话框二 1 输出结果文件中的第一个表格如下表所示 7 3 3结果和讨论 2 输出的结果文件中第二个表格如下表所示 3 输出的结果文件中第三个表格如下表所示 4 输出的结果文件中第四个表格如下表所示 5 输出的结果文件中第五个表格如下表所示 6 输出的结果文件中第六个表格为回归系数分析如下表所示 7 输出的结果文件中第七个表格如下表所示 8 输出的结果文件中第八部分为图形为回归因变量和每个自变量之间的关系点图图7 8为自变量z1和my之间的关系点图 7 4 1统计学上的定义和计算公式 7 4非线性回归分析定义研究在非线性相关条件下自变量对因变量的数量变化关系称为非线性回归分析在实际问题中变量之间的相关关系往往不是线性的而是非线性的因而不能用线性回归方程来描述它们之间的相关关系而要采用适当的非线性回归分析非线性回归问题大多数可以化为线性回归问题来求解也就是通过对非线性回归模型进行适当的变量变换使其化为线性模型来求解一般步骤为根据经验或者绘制散点图选择适当的非线性回归方程通过变量置换把非线性回归方程化为线性回归用线性回归分析中采用的方法来确定各回归系数的值对各系数进行显著性检验计算公式如下在本节中介绍几种常见的非线性回归模型并分别给出其线性化方法及图形研究问题研究民用汽车总量与国内生产总值的关系数据如表7 3所示资料来源中国统计年鉴2007 中国统计出版社 2007年 7 4 2SPSS中实现过程实现步骤图7 9 SimpleScatterplot 对话框图7 10散点图图7 11 CurveEstimation 对话框一 7 4 3结果和讨论 1 第一部分输出相关统计量和参数的值如下表所示 2 第二部分输出的是观察值和Cubic Power两种曲线预测值的对比图如图7 12所示 7 5 1统计学上的定义和计算公式 7 5曲线估计定义在一元回归分析中一般首先绘制自变量和因变量间的散点图然后通过数据在散点图中的分布特点选择所要进行回归分析的类型是使用线性回归分析还是某种非线性的回归分析然而在实际问题中用户往往不能确定究竟该选择何种函数模型更接近样本数据这时可以采用曲线估计的方法其步骤如下首先根据实际问题本身特点同时选择几种模型然后SPSS自动完成模型的参数估计并显示R2 F检验值相伴概率值等统计量最后选择具有R2统计量值最大的模型作为此问题的回归模型并作一些预测研究问题试用SPSS对国内生产总值和社会消费品零售总额之间的关系进行曲线回归分析数据如表7 4所示资料来源中国统计年鉴2007 中国统计出版社 2007年 7 5 2SPSS中实现过程表7 41978 2006年社会消费品零售总额实现步骤图7 13 CurveEstimation 对话框二图7 14 CurveEstimation Save 对话框一 1 SPSS输出结果文件中的第一部分如下表所示 7 5 3结果和讨论 2 输出的结果文件中第二部分如图7 15所示 3 由于进行曲线估计时所选的曲线模型种类较多所以使得输出的观察值与在各种函数模型条件下预测值的对比图比较复杂不易分辨出究竟Linear Quadratic Cubic及Power这4种曲线究竟哪种的对样本观察值的拟合优度更符合实际图7 16对比图2 4 重新回到图7 13所示对话框在 Model 框内只选中 Quadratic 和 Cubic 这两种拟合优度更高的曲线模型进行估计得出它们与观察值的对比图如图7 17所示图7 17对比图3 5 如果在图7 13所示对话框中选中了 DisplayANOVAtable 项作回归方程显著性检验将输出相应的方差分析表以Cubic模型为例如下表所示其结果是回归方程显著有意义并且x x2 x3三个自变量的系数显著不为零 6 由于在图7 13所示对话框中选了 Save 项且在图7 14所示的 SaveVariables 框中选择了 Predictedvalues Residuals 和 Predictionintervals 3个选项因此在SPSS数据编辑窗口中就增了fit 1 err 1 lcl 1 ucl 1等44个变量的值如图7 18所示图7 18曲线估计分析结果保存 7 6 1统计学上的定义和计算公式 7 6时间序列的曲线估计定义时间序列的曲线估计是分析社会和经济现象中经常用到的一种曲线估计通常把时间设为自变量x 代表具体的经济或社会现象的变量设为因变量y 研究变量x与y之间关系的方法就是时间序列曲线估计其具体步骤与一般的曲线估计基本类似计算公式 SPSS中时间序列的曲线估计模型与上一节所介绍相同研究问题试用SPSS对1978 2006年间社会消费品零售总额之间的关系进行曲线回归分析数据如表7 5所示资料来源中国统计年鉴2007 中国统计出版社 2007年 7 6 2SPSS中实现过程表7 51978 2006年社会消费品零售总额实现步骤图7 19 CurveEstimation 对话框三图7 20 CurveEstimation Save 对话框二 1 第一部分输出相关统计量和参数的值如下表所示 7 6 3结果和讨论 2 第二部分输出的是观察值Linear Cubic Power和Exponential4种曲线预测值的对比图如图7 21所示 3 由于在图7 19所示 CurveEstimation 对话框三中选了 Save 项且在图7 20的 SaveVariables 框中选择了 Predictedvalues 选项和 PredictCases 框中选择了 Predictthrough 项并且在 Observation 框中键入了 31 因此在SPSS数据编辑窗口中就新增了fit 1 fit 2 fit 3和fit 4等4个变量的预测值同时在窗口下方还新增了两个个案它们分别代表对2007年和2008年的预测值如图7 22所示 7 7 1统计学上的定义和计算公式 7 7含虚拟自变量的回归分析定义前面几节所讨论的回归模型中因变量和自变量都是可以直接用数字计量的即可以获得其实际观测值如收入支出产量国内生产总值等这类变量称作数量变量定量变量或数量因素然而在实际问题的研究中经常会碰到一些非数量型的变量如性别民族职业文化程度地区正常年份与干旱年份改革前与改革后等定性变量在建立一个实际问题的回归方程时经常需要考虑这些定性变量例如建立粮食产量预测方程就应考虑到正常年份与受灾年份的不同影响建立空调的销售模型时除了要考虑居民收入和商品价格这两个量的因素之外还必须将季节这个质的因素作为一个重要解释变量由于受到质的因素影响回归模型的参数不再是固定不变的例如在空调销售模型中收入价格与空调销售额的关系是随着季节变化而改变的也就是说在不同的季节回归模型的参数也会有所不同再如我国居民的消费行为在改革开放前后大不相同因此消费函数的参数也会发生变化显然如果忽略质的因素仍把模型中的参数看作是固定不变的得到的参数估计量就不能正确描述经济变量之间的关系在回归分析中对一些自变量是定性变量的先作数量化处理处理的方法是引进只取 0 和 1 两个值的0 1型虚拟自变量当某一属性出现时虚拟变量取值为 1 否则取值为 0 例如令 1 表示改革开放以后的时期 0 则表示改革开放以前的时期再如用 l 表示某人是男性 0 则表示某人是女性虚拟变量也称为哑变量需要指出的是虽然虚拟变量取某一数值但这一数值没有任何数量大小的意义它仅仅用来说明观察单位的性质和属性如果在回归模型中需要引入多个0 1型虚拟变量D时虚拟变量的个数应按下列原则来确定对于包含一个具有k种特征或状态的质因素的回归模型如果回归模型不带常数项则中需引入k个0 1型虚拟变量D 如果有常数项则只需引入k 1个0 1型虚拟变量D 当k 2时只需要引入一个0 1型虚拟变量D 计算公式如下下面以自变量所含定性变量是一个还是多个来分别说明如何构造含虚拟自变量的回归模型 1 自变量中只含一个定性变量且这个定性变量只有两种特征的简单情况时 2 自变量中含多个定性变量时研究问题研究采取某项保险革新措施的速度y与保险公司的规模x1及其类型d之间的关系数据如表7 6所示 7 7 2SPSS中实现过程表7 6保险公司革新情况实现步骤图7 23 LinearRegression 对话框三 1 第一部分输出结果文件中的第一个表格如下表所示 7 7 3结果和讨论 2 输出的结果文件中第二个表格如下表所示 3 输出的结果文件中第三个表格如下表所示 4 输出的结果文件中第四个表格如下表所示 7 8 1统计学上的定义和计算公式 7 8逻辑回归分析定义逻辑回归分析是对定性变量的回归分析可用于处理定性因变量的统计分析方法有判别分析 Discriminantanalysis Probit分析 Logistic回归分析和对数线性模型等在社会科学中应用最多的是Logistic回归分析 Logistic回归分析根据因变量取值类别不同又可以分为BinaryLogistic回归分析和Multinomi nalLogistic回归分析 BinaryLogistic回归模型中因变量只能取两个值1和0 虚拟因变量而MultinomialLogistic回归模型中因变量可以取多个值本节将只讨论BinaryLogistic回归并简称Logistic回归与7 5节曲线估计中介绍的Logistic曲线模型相区别 Logistic函数的形式为与任何概率一样似然的取值范围在 0 1 之间 2LL的计算公式为 1 2对数似然值 2loglikelihood 2LL Logistic回归的拟合优度统计量计算公式为在实际问题中通常采用如下分类表 ClassificationTable 反映拟合效果 2 拟合优度 GoodnessofFit 统计量 ClassificationTableforY 3 Cox和Snell的R2 Cox Snell sR Square 4 Nagelkerke的R2 Nagelkerke sR Square 5 伪R2 Psedo R square 伪R2与线性回归模型的R2相对应其意义相似但它小于1 6 Hosmer和Lemeshow的拟合优度检验统计量 HosmerandLemeshow sGoodnessofFitTestStatistic 与一般拟合优度检验不同 Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组然后根据观测频数和期望频数构造卡方统计量即Hosmer和Lemeshow的拟合优度检验统计量简称H L拟合优度检验统计量最后根据自由度为8的卡方分布计算其值并对Logistic模型进行检验如果该p值小于给定的显著性水平如 0 05 则拒绝因变量的观测值与模型预测值不存在差异的零假设表明模型的预测值与观测值存在显著差异如果值大于我们没有充分的理由拒绝零假设表明在可接受的水平上模型的估计拟合了数据 7 Wald统计量 Wald统计量用于判断一个变量是否应该包含在模型中其检验步骤如下 1 提出假设 2 构造Wald统计量 3 作出统计判断研究问题在一次关于某城镇居民上下班使用交通工具的社会调查中因变量y 1表示居民主要乘坐公共汽车上下班 y 0表示主要骑自行车上下班自变量x1表示被调查者的年龄 x2表示被调查者的月收入 x3表示被调查者的性别 x3 1为男性 x3 0为女性试建立y与自变量间的Logistic回归数据如表7 7所示 7 8 2SPSS中实现过程表7 7使用交通工具上下班情况实现步骤图7 24 LogisticRegression 对话框图7 25 LogisticRegression Options 对话框 1 第一部分输出结果有两个表格第一个表格说明所有个案 28个都被选入作为回归分析的个案 7 8 3结果和讨论第二个表格说明初始的因变量值 0 1 已经转换为逻辑回归分析中常用的0 1数值 2 第二部分 Block0 输出结果有4个表格 3 OmnibusTestsofModelCoefficients表格列出了模型系数的OmnibusTests结果 4 ModelSummary表给出了 2对数似然值 Cox和Snell的R2以及Nagelkerke的R2检验统计结果 5 HosmerandLemeshowTest表格以及ContingencyTableforHosmerandLemeshowTest表格给出了Hosmer和Lemeshow的拟合优度检验统计量 6 ClassificationTa

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

SPSS数据分析教程第8章线性回归分析ppt课件.ppt

文档简介

温馨提示

最新文档

评论

SPSS数据分析教程第8章线性回归分析ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档