SPSS数据分析教程第8章线性回归分析ppt课件.ppt_第1页
SPSS数据分析教程第8章线性回归分析ppt课件.ppt_第2页
SPSS数据分析教程第8章线性回归分析ppt课件.ppt_第3页
SPSS数据分析教程第8章线性回归分析ppt课件.ppt_第4页
SPSS数据分析教程第8章线性回归分析ppt课件.ppt_第5页
已阅读5页,还剩184页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS数据分析 第7讲 SPSS数据分析教程 在数量分析中 经常会看到变量与变量之间存在着一定的联系 要了解变量之间如何发生相互影响的 就需要利用相关分析和回归分析 在上一章讲述了相关分析有关内容 本章介绍回归分析基本概念 回归分析的主要类型 一元线性回归分析 多元线性回归分析 非线性回归分析 曲线估计 时间序列的曲线估计 含虚拟自变量的回归分析以及逻辑回归分析等 7 1回归分析基本概念 相关分析和回归分析都是研究变量间关系的统计学课题 在应用中 两种分析方法经常相互结合和渗透 但它们研究的侧重点和应用面不同 在回归分析中 变量y称为因变量 处于被解释的特殊地位 而在相关分析中 变量y与变量x处于平等的地位 研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的 在回归分析中 因变量y是随机变量 自变量x可以是随机变量 也可以是非随机的确定变量 而在相关分析中 变量x和变量y都是随机变量 相关分析是测定变量之间的关系密切程度 所使用的工具是相关系数 而回归分析则是侧重于考察变量之间的数量变化规律 并通过一定的数学表达式来描述变量之间的关系 进而确定一个或者几个变量的变化对另一个特定变量的影响程度 具体地说 回归分析主要解决以下几方面的问题 通过分析大量的样本数据 确定变量之间的数学关系式 对所确定的数学关系式的可信程度进行各种统计检验 并区分出对某一特定变量影响较为显著的变量和影响不显著的变量 利用所确定的数学关系式 根据一个或几个变量的值来预测或控制另一个特定变量的取值 并给出这种预测或控制的精确度 作为处理变量之间关系的一种统计方法和技术 回归分析的基本思想和方法以及 回归 Regression 名称的由来都要归功于英国统计学家F Galton 1822 1911 在实际中 根据变量的个数 变量的类型以及变量之间的相关关系 回归分析通常分为一元线性回归分析 多元线性回归分析 非线性回归分析 曲线估计 时间序列的曲线估计 含虚拟自变量的回归分析和逻辑回归分析等类型 7 2一元线性回归分析 7 2 1统计学上的定义和计算公式 定义 一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下 分析某一个因素 自变量 是如何影响另一事物 因变量 的过程 所进行的分析是比较理想化的 其实 在现实社会生活中 任何一个事物 因变量 总是受到其他多种事物 多个自变量 的影响 在实际问题中 由于所要研究的现象的总体单位数一般是很多的 在许多场合甚至是无限的 因此无法掌握因变量y总体的全部取值 也就是说 总体回归方程事实上是未知的 需要利用样本的信息对其进行估计 显然 样本回归方程的函数形式应与总体回归方程的函数形式一致 通过样本数据建立一个回归方程后 不能立即就用于对某个实际问题的预测 因为 应用最小二乘法求得的样本回归直线作为对总体回归直线的近似 这种近似是否合理 必须对其作各种统计检验 一般经常作以下的统计检验 1 拟合优度检验回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度 从而判断回归方程对样本数据的代表程度 回归方程的拟合优度检验一般用判定系数R2实现 该指标是建立在对总离差平方和进行分解的基础之上 2 回归方程的显著性检验 F检验 回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验 回归方程的显著性检验一般采用F检验 利用方差分析的方法进行 3 回归系数的显著性检验 t检验 所谓回归系数的显著性检验 就是根据样本估计的结果对总体回归系数的有关假设进行检验 之所以对回归系数进行显著性检验 是因为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异 它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量 因此 可以通过回归系数显著性检验对每个回归系数进行考察 回归参数显著性检验的基本步骤 提出假设 计算回归系数的t统计量值 根据给定的显著水平 确定临界值 或者计算t值所对应的p值 作出判断 研究问题合成纤维的强度与其拉伸倍数有关 测得试验数据如表7 1所示 求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系 7 2 2SPSS中实现过程 表7 1强度与拉伸倍数的试验数据 实现步骤 图7 1在菜单中选择 Linear 命令 图7 2 LinearRegression 对话框 一 图7 3 LinearRegression Statistics 对话框 图7 4 LinearRegression Plots 对话框 图7 5 LinearRegression Save 对话框 图7 6 LinearRegression Options 对话框 1 输出结果文件中的第一个表格如下表所示 7 2 3结果和讨论 2 输出的结果文件中第二个表格如下表所示 3 输出的结果文件中第三个表格如下表所示 4 输出的结果文件中第四个表格如下表所示 7 3多元线性回归分析 7 3 1统计学上的定义和计算公式 定义 在上一节中讨论的回归问题只涉及了一个自变量 但在实际问题中 影响因变量的因素往往有多个 例如 商品的需求除了受自身价格的影响外 还要受到消费者收入 其他商品的价格 消费者偏好等因素的影响 影响水果产量的外界因素有平均气温 平均日照时数 平均湿度等 因此 在许多场合 仅仅考虑单个变量是不够的 还需要就一个因变量与多个自变量的联系来进行考察 才能获得比较满意的结果 这就产生了测定多因素之间相关关系的问题 研究在线性相关条件下 两个或两个以上自变量对一个因变量的数量变化关系 称为多元线性回归分析 表现这一数量关系的数学公式 称为多元线性回归模型 多元线性回归模型是一元线性回归模型的扩展 其基本原理与一元线性回归模型类似 只是在计算上更为复杂 一般需借助计算机来完成 对多元线性回归 也需要测定方程的拟合程度 检验回归方程和回归系数的显著性 1 拟合优度检验测定多元线性回归的拟合程度 与一元线性回归中的判定系数类似 使用多重判定系数 其定义为 2 回归方程的显著性检验 F检验 多元线性回归方程的显著性检验一般采用F检验 利用方差分析的方法进行 3 回归系数的显著性检验 t检验 回归系数的显著性检验是检验各自变量x1 x2 对因变量y的影响是否显著 从而找出哪些自变量对y的影响是重要的 哪些是不重要的 与一元线性回归一样 要检验解释变量对因变量y的线性作用是否显著 要使用t检验 研究问题用多元回归分析来分析36个员工多个心理变量值 z1 z8 对员工满意度my的预测效果 测得试验数据如表7 2所示 7 3 2SPSS中实现过程 表7 2员工多个心理变量值和员工满意度数据 实现步骤 图7 7 LinearRegression 对话框 二 1 输出结果文件中的第一个表格如下表所示 7 3 3结果和讨论 2 输出的结果文件中第二个表格如下表所示 3 输出的结果文件中第三个表格如下表所示 4 输出的结果文件中第四个表格如下表所示 5 输出的结果文件中第五个表格如下表所示 6 输出的结果文件中第六个表格为回归系数分析 如下表所示 7 输出的结果文件中第七个表格如下表所示 8 输出的结果文件中第八部分为图形 为回归因变量和每个自变量之间的关系点图 图7 8为自变量z1和my之间的关系点图 7 4 1统计学上的定义和计算公式 7 4非线性回归分析 定义 研究在非线性相关条件下 自变量对因变量的数量变化关系 称为非线性回归分析 在实际问题中 变量之间的相关关系往往不是线性的 而是非线性的 因而不能用线性回归方程来描述它们之间的相关关系 而要采用适当的非线性回归分析 非线性回归问题大多数可以化为线性回归问题来求解 也就是通过对非线性回归模型进行适当的变量变换 使其化为线性模型来求解 一般步骤为 根据经验或者绘制散点图 选择适当的非线性回归方程 通过变量置换 把非线性回归方程化为线性回归 用线性回归分析中采用的方法来确定各回归系数的值 对各系数进行显著性检验 计算公式如下 在本节中介绍几种常见的非线性回归模型 并分别给出其线性化方法及图形 研究问题研究民用汽车总量与国内生产总值的关系 数据如表7 3所示 资料来源 中国统计年鉴2007 中国统计出版社 2007年 7 4 2SPSS中实现过程 实现步骤 图7 9 SimpleScatterplot 对话框 图7 10散点图 图7 11 CurveEstimation 对话框 一 7 4 3结果和讨论 1 第一部分输出相关统计量和参数的值 如下表所示 2 第二部分输出的是观察值和Cubic Power两种曲线预测值的对比图 如图7 12所示 7 5 1统计学上的定义和计算公式 7 5曲线估计 定义 在一元回归分析中 一般首先绘制自变量和因变量间的散点图 然后通过数据在散点图中的分布特点选择所要进行回归分析的类型 是使用线性回归分析还是某种非线性的回归分析 然而 在实际问题中 用户往往不能确定究竟该选择何种函数模型更接近样本数据 这时可以采用曲线估计的方法 其步骤如下 首先根据实际问题本身特点 同时选择几种模型 然后SPSS自动完成模型的参数估计 并显示R2 F检验值 相伴概率值等统计量 最后 选择具有R2统计量值最大的模型作为此问题的回归模型 并作一些预测 研究问题试用SPSS对国内生产总值和社会消费品零售总额之间的关系进行曲线回归分析 数据如表7 4所示 资料来源 中国统计年鉴2007 中国统计出版社 2007年 7 5 2SPSS中实现过程 表7 41978 2006年社会消费品零售总额 实现步骤 图7 13 CurveEstimation 对话框 二 图7 14 CurveEstimation Save 对话框 一 1 SPSS输出结果文件中的第一部分如下表所示 7 5 3结果和讨论 2 输出的结果文件中第二部分如图7 15所示 3 由于进行曲线估计时所选的曲线模型种类较多 所以使得输出的观察值与在各种函数模型条件下预测值的对比图比较复杂 不易分辨出究竟Linear Quadratic Cubic及Power这4种曲线究竟哪种的对样本观察值的拟合优度更符合实际 图7 16对比图2 4 重新回到图7 13所示对话框 在 Model 框内只选中 Quadratic 和 Cubic 这两种拟合优度更高的曲线模型进行估计 得出它们与观察值的对比图 如图7 17所示 图7 17对比图3 5 如果在图7 13所示对话框中选中了 DisplayANOVAtable 项 作回归方程显著性检验 将输出相应的方差分析表 以Cubic模型为例 如下表所示 其结果是 回归方程显著有意义 并且x x2 x3三个自变量的系数显著不为零 6 由于在图7 13所示对话框中选了 Save 项 且在图7 14所示的 SaveVariables 框中选择了 Predictedvalues Residuals 和 Predictionintervals 3个选项 因此在SPSS数据编辑窗口中就增了fit 1 err 1 lcl 1 ucl 1等44个变量的值 如图7 18所示 图7 18曲线估计分析结果保存 7 6 1统计学上的定义和计算公式 7 6时间序列的曲线估计 定义 时间序列的曲线估计是分析社会和经济现象中经常用到的一种曲线估计 通常把时间设为自变量x 代表具体的经济或社会现象的变量设为因变量y 研究变量x与y之间关系的方法就是时间序列曲线估计 其具体步骤与一般的曲线估计基本类似 计算公式 SPSS中时间序列的曲线估计模型与上一节所介绍相同 研究问题试用SPSS对1978 2006年间社会消费品零售总额之间的关系进行曲线回归分析 数据如表7 5所示 资料来源 中国统计年鉴2007 中国统计出版社 2007年 7 6 2SPSS中实现过程 表7 51978 2006年社会消费品零售总额 实现步骤 图7 19 CurveEstimation 对话框 三 图7 20 CurveEstimation Save 对话框 二 1 第一部分输出相关统计量和参数的值如下表所示 7 6 3结果和讨论 2 第二部分输出的是观察值Linear Cubic Power和Exponential4种曲线预测值的对比图 如图7 21所示 3 由于在图7 19所示 CurveEstimation 对话框 三 中选了 Save 项 且在图7 20的 SaveVariables 框中选择了 Predictedvalues 选项和 PredictCases 框中选择了 Predictthrough 项 并且在 Observation 框中键入了 31 因此在SPSS数据编辑窗口中就新增了fit 1 fit 2 fit 3和fit 4等4个变量的预测值 同时在窗口下方还新增了两个个案 它们分别代表对2007年和2008年的预测值 如图7 22所示 7 7 1统计学上的定义和计算公式 7 7含虚拟自变量的回归分析 定义 前面几节所讨论的回归模型中 因变量和自变量都是可以直接用数字计量的 即可以获得其实际观测值 如收入 支出 产量 国内生产总值等 这类变量称作数量变量 定量变量或数量因素 然而 在实际问题的研究中 经常会碰到一些非数量型的变量 如性别 民族 职业 文化程度 地区 正常年份与干旱年份 改革前与改革后等定性变量 在建立一个实际问题的回归方程时 经常需要考虑这些定性变量 例如 建立粮食产量预测方程就应考虑到正常年份与受灾年份的不同影响 建立空调的销售模型时 除了要考虑居民收入和商品价格这两个量的因素之外 还必须将 季节 这个质的因素 作为一个重要解释变量 由于受到质的因素影响 回归模型的参数不再是固定不变的 例如 在空调销售模型中 收入 价格与空调销售额的关系是随着季节变化而改变的 也就是说 在不同的季节回归模型的参数也会有所不同 再如 我国居民的消费行为在改革开放前后大不相同 因此消费函数的参数也会发生变化 显然 如果忽略质的因素 仍把模型中的参数看作是固定不变的 得到的参数估计量就不能正确描述经济变量之间的关系 在回归分析中 对一些自变量是定性变量的先作数量化处理 处理的方法是引进只取 0 和 1 两个值的0 1型虚拟自变量 当某一属性出现时 虚拟变量取值为 1 否则取值为 0 例如 令 1 表示改革开放以后的时期 0 则表示改革开放以前的时期 再如 用 l 表示某人是男性 0 则表示某人是女性 虚拟变量也称为哑变量 需要指出的是 虽然虚拟变量取某一数值 但这一数值没有任何数量大小的意义 它仅仅用来说明观察单位的性质和属性 如果在回归模型中需要引入多个0 1型虚拟变量D时 虚拟变量的个数应按下列原则来确定 对于包含一个具有k种特征或状态的质因素的回归模型 如果回归模型不带常数项 则中需引入k个0 1型虚拟变量D 如果有常数项 则只需引入k 1个0 1型虚拟变量D 当k 2时 只需要引入一个0 1型虚拟变量D 计算公式如下 下面以自变量所含定性变量是一个还是多个来分别说明如何构造含虚拟自变量的回归模型 1 自变量中只含一个定性变量 且这个定性变量只有两种特征的简单情况时 2 自变量中含多个定性变量时 研究问题研究采取某项保险革新措施的速度y与保险公司的规模x1及其类型d之间的关系 数据如表7 6所示 7 7 2SPSS中实现过程 表7 6保险公司革新情况 实现步骤 图7 23 LinearRegression 对话框 三 1 第一部分输出结果文件中的第一个表格如下表所示 7 7 3结果和讨论 2 输出的结果文件中第二个表格如下表所示 3 输出的结果文件中第三个表格如下表所示 4 输出的结果文件中第四个表格如下表所示 7 8 1统计学上的定义和计算公式 7 8逻辑回归分析 定义 逻辑回归分析是对定性变量的回归分析 可用于处理定性因变量的统计分析方法有 判别分析 Discriminantanalysis Probit分析 Logistic回归分析和对数线性模型等 在社会科学中 应用最多的是Logistic回归分析 Logistic回归分析根据因变量取值类别不同 又可以分为BinaryLogistic回归分析和Multinomi nalLogistic回归分析 BinaryLogistic回归模型中因变量只能取两个值1和0 虚拟因变量 而MultinomialLogistic回归模型中因变量可以取多个值 本节将只讨论BinaryLogistic回归 并简称Logistic回归 与7 5节曲线估计中介绍的Logistic曲线模型相区别 Logistic函数的形式为 与任何概率一样 似然的取值范围在 0 1 之间 2LL的计算公式为 1 2对数似然值 2loglikelihood 2LL Logistic回归的拟合优度统计量计算公式为在实际问题中 通常采用如下分类表 ClassificationTable 反映拟合效果 2 拟合优度 GoodnessofFit 统计量 ClassificationTableforY 3 Cox和Snell的R2 Cox Snell sR Square 4 Nagelkerke的R2 Nagelkerke sR Square 5 伪R2 Psedo R square 伪R2与线性回归模型的R2相对应 其意义相似 但它小于1 6 Hosmer和Lemeshow的拟合优度检验统计量 HosmerandLemeshow sGoodnessofFitTestStatistic 与一般拟合优度检验不同 Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组 然后根据观测频数和期望频数构造卡方统计量 即Hosmer和Lemeshow的拟合优度检验统计量 简称H L拟合优度检验统计量 最后根据自由度为8的卡方分布计算其值并对Logistic模型进行检验 如果该p值小于给定的显著性水平 如 0 05 则拒绝因变量的观测值与模型预测值不存在差异的零假设 表明模型的预测值与观测值存在显著差异 如果值大于 我们没有充分的理由拒绝零假设 表明在可接受的水平上模型的估计拟合了数据 7 Wald统计量 Wald统计量用于判断一个变量是否应该包含在模型中 其检验步骤如下 1 提出假设 2 构造Wald统计量 3 作出统计判断 研究问题在一次关于某城镇居民上下班使用交通工具的社会调查中 因变量y 1表示居民主要乘坐公共汽车上下班 y 0表示主要骑自行车上下班 自变量x1表示被调查者的年龄 x2表示被调查者的月收入 x3表示被调查者的性别 x3 1为男性 x3 0为女性 试建立y与自变量间的Logistic回归 数据如表7 7所示 7 8 2SPSS中实现过程 表7 7使用交通工具上下班情况 实现步骤 图7 24 LogisticRegression 对话框 图7 25 LogisticRegression Options 对话框 1 第一部分输出结果有两个表格 第一个表格说明所有个案 28个 都被选入作为回归分析的个案 7 8 3结果和讨论 第二个表格说明初始的因变量值 0 1 已经转换为逻辑回归分析中常用的0 1数值 2 第二部分 Block0 输出结果有4个表格 3 OmnibusTestsofModelCoefficients表格列出了模型系数的OmnibusTests结果 4 ModelSummary表给出了 2对数似然值 Cox和Snell的R2以及Nagelkerke的R2检验统计结果 5 HosmerandLemeshowTest表格以及ContingencyTableforHosmerandLemeshowTest表格给出了Hosmer和Lemeshow的拟合优度检验统计量 6 ClassificationTa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论