已阅读5页,还剩53页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章SPSS的线性回归分析 9 1回归分析概述9 2线性回归分析和线性回归模型9 3回归方程的统计检验9 4多元回归分析中的其他问题9 5线性回归分析的基本操作9 6线性回归分析的应用举例 学习的内容与目标 掌握线性回归分析的主要指标 了解最小二乘法的基本思想熟练掌握线性回归分析的具体操作 读懂分析结果 掌握计算结果之间的数量关系 写出回归方程 对回归方程进行各种统计检验了解多元回归分析中自变量筛选的策略 以及对应结果的分析了解SPSS残差分析和多重共线检测的基本操作 并能分析结果 9 1回归分析概述 9 1 1什么是回归分析 回归 一词最初源于英国统计学家F Galton 高尔顿 描述父亲的身高和其成年儿子身高之间的关系 发现成年儿子的身高会趋向于子辈身高的平均值 F Galton称这种现象为 回归 用于分析事物之间的统计关系 并通过回归方程的形式描述变量间的数量变化规律 帮助人们准确把握变量受一个或多个变量的影响程度 进而为预测提供依据 回归分析和相关分析 1 相关分析变量性质 都是随机变量且关系对等分析方法 图表法 散点图 和相关系数分析目的 判定变量之间相关方向和关系的密切程度2 回归分析变量性质 自变量 确定型变量 和因变量 随机变量 的关系且不对等分析方法 建立回归模型分析目的 研究变量间数量依存关系 9 1 2如何得到回归线 函数拟合首先 通过散点图观察变量之间的统计关系 得到对回归线的感性认知 并据之确定最简洁的数学函数 回归模型 其次 利用样本数据在一定的拟合准则下 估计回归模型中各个参数 得到确定的回归方程 最后 由于回归参数是在样本数据的基础上得到的 存在随机性 因此需要进行各种检验 9 1 3回归分析的一般步骤 确定回归方程中的解释变量 父亲身高x 和被解释变量 儿子身高y 确定回归模型 线性与非线性 建立回归方程 并估计出模型中的参数对回归方程进行各种检验利用方程进行预测 9 2线性回归分析和线性回归模型 观察被解释变量y和一个或多个解释变量xi的散点图 当发现y与xi之间呈现出显著的线性关系时 应采用线性回归分析的方法 建立y关于xi的线性回归模型 线性回归模型可分为 一元线性回归模型多元线性回归模型 9 2 1一元线性回归模型 只有1个解释变量 数学模型为 y 0 1x 上式表明 y的变化可由两部分解释 第一 由解释变量x的变化引起的y的线性变化部分 即y 0 1x 第二 由其他随机因素引起的y的变化部分 即 0 1都是模型中的未知参数 0为回归常数 1为y对x回归系数 即x每变动一个单位所引起的y的平均变动 称为随机误差 且满足 E 0 Var 2 一元线性回归方程 E y 0 1x表明x和y之间的统计关系是在平均意义下表述的 估计的一元线性回归方程 估计方程是平面上的一条直线 即回归直线 参数分别代表回归直线的截距和斜率 9 2 2多元线性回归模型 多元数学模型 y 0 1x1 2x2 pxp 多元线性回归方程 E y 0 1x1 2x2 pxp估计多元线性回归方程 y 0 1x1 2x2 pxp 9 2 3回归参数的最小二乘估计 ordinaryleastsquareestimation OLSE 估计思想 使每个样本点 xi yi 与回归线上的对应点 xi E yi 在垂直方向上偏差距离的二次方总和达到最小的原则来估计参数即 yi E yi 2 最小一元二乘估计 多元二乘估计 略 9 3回归方程的统计检验 拟合优度检验回归方程的显著性检验回归系数的显著性检验残差分析 9 3 1回归方程的拟合优度检验 用于检验样本数据点聚集在回归线周围的密集程度 从而评价回归线对样本数据的代表程度 思想 因变量y 儿子身高 取值的变化受两个因素的影响 自变量x 父亲身高 不同取值的影响 其他因素 环境 饮食等 的影响 可表示如下 因变量总变差 自变量引起的 其他因素引起的即因变量总变差 回归方程可解释的 不可解释的即 因变量总离差平方和SST 回归平方和SSA 剩余平方和SSE 图示 一 一元线性回归方程 拟合优度的检验采用R2统计量 称为判定系数R2 SSA SST 1 SSE SST R2体现了回归方程所能解释的因变量变差的比例 1 R2体现了回归方程所无法解释的变差比例 R2越接近于1 则说明回归平方和占了绝大部分比例 因变量y的变差主要由自变量x的取值造成 回归方程对样本数据点拟合得好在一元线性回归中 判定系数R2 相关系数r2 因此 从这个意义上讲 判定系数能够比较好地反映回归直线对样本数据的代表程度和线性相关性 说明 二 多元线性回归方程 多元线性回归方程的拟合优度检验采用统计量 称为调整的判定系数调整的判定系数 判定系数受解释变量X的个数p的影响 在p的个数不同的模型之间进行比较时 判定系数必须进行调整 9 3 2回归方程的显著性检验 用于检验被解释变量与所有解释变量之间的线性关系是否显著 用线性模型来描述它们之间的关系是否恰当 即检验模型对总体的近似程度 SST 回归平方和SSA 剩余平方和SSE回归方程的显著性检验中采用方差分析的方法 研究在SST中SSA相对于SSE来说是否占有较大比例 如果比例较大 表明y与x全体的线性关系明显 则利用线性模型反映y与x的关系是恰当的 反之 不恰当 原假设H0 1 0 即 回归系数与0无显著差异利用F检验 构造F统计量 F F 1 n 2 判断 若p a 则拒绝H0 模型的线性关系是显著的 反之 模型的线性关系不显著 一 一元线性回归方程显著性检验 原假设H0 1 2 p 0 即 各个回归系数同时与0无显著差异利用F检验 构造F统计量 F F p n p 1 判断 若p a 则拒绝H0 模型的线性关系是显著的 反之 模型的线性关系不显著 二 多元线性回归方程的显著性检验 R2检验与F检验的关系 F是R2的单调增函数 F 与一一对应 图1F统计量与R2的关系 9 3 3回归系数的显著性检验 主要目的是研究回归方程中每个解释变量与被解释变量之间是否存在显著的线性关系 即研究每个解释变量能否有效的反映被解释变量的线性变化 它们能否保留在线性回归方程中 回归系数的显著性检验是围绕回归系数估计值的抽样分布展开的 构造统计量 并进行检验 一 一元线性回归方程显著性检验 回归系数的显著性检验 t检验H0 1 0 即 回归系数与0无显著差异 利用t检验 若pa 不能拒绝H0 y和x线性关系不显著 一元线性回归方程的检验和回归系数的检验是等效的 需要对回归系数是否为零逐一进行检验 原假设H0 i 0 即 第i个偏回归系数与0无显著差异利用t检验统计量 略 若与t统计量的概率伴随p a 则拒绝H0多元线性回归中回归系数的检验与整体回归方程的检验不能相互替代 二 多元线性方程回归系数的检验 9 3 4残差分析 残差指由回归方程计算所得的预测值与实际样本值之间的差距 即模型中 i的估计值 回归模型要求 残差序列中不含明显的规律性和趋势性 均值为零 正态分布 等方差 且序列是独立的 一 残差均值为零的正态分析 可以通过绘制残差散点图来观察 如果残差的均值为零 残差图中的点应在纵坐标为零的横线上下随机散落 如下图 二 残差的独立性分析 非自相关 残差是独立的 则残差序列应满足cov i j 0 i j 表示残差序列前期和后期之间不存在相关关系 即不存在自相关 独立性检验方式 第一 绘制残差序列图 下图残差随时间的推移 呈有规律变化 表明残差序列存在一定的正或负自相关 自相关系数用于测定序列自相关强弱 其取值范围 1 1 接近1表明序列存在正自相关 第二 计算残差的自相关系数 DW检验用于推断小样本序列是否存在自相关的方法 其原假设为 总体自相关系数 与零无显著差异 采用统计量为 DW取值在0 4之间 1 0 时 DW 2 4 残差序列负自相关 0时 DW 2 残差序列无自相关 0 1 时 DW 0 2 残差序列正自相关残差存在自相关表明遗漏了解释变量 或变量取值存在滞后性 或线性模型不适合 第三 DW durbin watson 检验 三 残差异方差分析 回归分析要求残差的方差相等 如果存在异方差 则参数的最小二乘估计不再是最小方差的无偏估计 因此需要检验残差是否存在异方差 其方法 第一 绘制残差图 下图残差的方差随解释变量值的增加呈现增加趋势 表明存在异方差 第二 计算等级相关系数得到残差序列后首先取其绝对值 然后分别计算出残差和解释变量的秩 最后计算spearman等级相关系数 进行等级相关分析 若p值小于给定显著性水平 则拒绝原假设 认为解释变量与残差间存在显著相关 出现了异方差现象 9 4多元回归分析中的其它问题 9 4 1解释变量的筛选问题多元回归分析中 模型选中应引入多少解释变量呢 少了难以解释对解释变量的变化 多了会引起多重共线 一 向前筛选策略指解释变量不断进入回归方程的策略 首先引入与被解释变量线性相关系数最高的解释变量进入方程 并进行回归方程的各种检验 然后 引入与被解释变量偏相关系数最高并通过检验的解释变量 并对新方程进行各项检验 直到没有可引入的变量为止 二 向后筛选策略指解释变量不断剔除出回归方程的过程 首先 将所有解释变量引入方程 并检验 然后剔除t检验值不显著 最小 的一个或多个变量 重新建立回归方程并进行各种检验 如果回归系数都显著 则方程建立结束 否则 接着依次删除最不显著的解释变量 三 逐步筛选策略指向前向后筛选的综合策略 在向前筛选过程中 随着变量不断引入方程 需要再次判断是否存在可剔除的解释变量 如有 则剔除 9 4 2变量的多重共线性问题 变量的多重共线 指解释变量之间存在线性相关关系的现象 若存在多重共线 则会造成偏回归系数估计困难 估计的方差增大 估计值的不稳定性增强 偏回归系数假设检验的结果不显著等问题 测度多重共线的方法如下 一 容忍度 解释变量xi的容忍度 Toli 1 Ri2 其中 Ri2是解释变量xi与方程中其他解释变量间复相关系数的平方 表明了解释变量之间的线性相关程度 容忍度大表示与其他自变量的共线性低 应进入方程 容忍度很小的变量 spss才会给出警告 不应进入方程 T 0 1一般认为具有多重共线性 二 方差膨胀因子 方差膨胀因子 VIF 容忍度的倒数方差膨胀因子取值大于等于1 Ri2接近0 解释变量间多重共线性越弱 VIFi越接近于1 如果VIFi大于等于10 说明解释变量xi与方程中其余解释变量之间有严重的多重共线性 另外 也可以采用方差膨胀因子的均值来测度多重共线性 三 特征值与方差比 如果最大特征值远大于其它特征值 表明该解释变量能刻画所有解释变量绝大部分信息 方差 意味着解释变量间存在较强的线性相关关系 常以某特征值占70 左右 四 条件指数 条件指数是在特征值的基础上定义的 它能反映解释变量间多重共线性指标 定义如下 Ki为第i个解释变量的条件指标 它是最大特征值 m与第i个特征值比的平方根 第i个条件指数Ki越大 表明解释变量间信息重叠的越多 多重共线越严重 Ki小表明共线不明显 0 Ki 10 认为多重共线弱 10 Ki 100 认为多重共线较强 100 Ki时 认为共线很严重 9 5线性回归分析的基本操作 9 5 1线性回归分析的基本操作SPSS将一元与多元集成在一起 一个菜单工具 analyze regression linear 选择被解释变量进入 dependent 框中选择一个或多个解释变量进入 independent 框在 method 中选择解释变量的筛选策略enter 所选解释变量强行进入回归方程 默认方法 常用于一元回归 remove 从回归方程中剔除所选变量stepwise 逐步筛选策略 backward 向后筛选 forward 向前筛选 block 表示设置解释变量不同的筛选策略块 可以按next和previous按钮设置多组解释变量和变量的筛选策略 并放在不同的块中 SPSS将按每一指定策略逐一进行回归 其中 remove 方法只能放在第二个以后块中 块设置便于作各种探索性分析 selectionvariable 为设置的条件变量框 Rule表示给定的判定条件 只有满足条件的样本数据才参与回归分析 caselabels 是指定某变量为样本数据点的标记变量 将再图形中标出 9 5 2线性回归的其它操作 一 statistics选项该窗口提供用户可选择的统计量 estimates 是SPSS默认输出项 输出与回归系数相关的统计量 包括回归系数 偏回归系数 回归系数标准误差 标准化回归系数 如果各解释变量单位不一致 如希望比较对被解释变量的影响时 可采用 回归系数显著性检验t统计量和P值 各解释变量的容忍度 confidenceintervals 输出每个非标准化回归系数的95 置信区间 descriptives 输出各解释变量和被解释变量的均值 标准差 相关系数矩阵及单侧检验概率值 modelfit 为SPSS默认输出项 输出判定系数 调整的判定系数 回归方程的标准误差 回归方程显著性检验的方差分析表 Rsquaredchange 表示每个解释变量进入方程后引起判定系数的变化量 Rch2 和F值的变化量 Partandpartialcorrelation 输出方程中各解释变量与被解释变量间的简单相关系数 偏相关系数和部分相关系数 covariancematrix 输出各解释变量间的相关系数 协方差和回归系数的方差 Collinearitydignostics 多重共线性诊断 输出各解释变量的容忍度 方差膨胀因子 特征值 条件指标 方差比率等 在 residuals 框中 durbin watson 表示输出DW检验值 异方差检验 casewisediagnostics 表示输出标准化残差绝对值大于等于3的样本数据相关信息 二 option选项 该窗口提供解释变量筛选的标准以及缺失值处理方式 useprobabilityofF SPSS默认项 表示以偏F统计量的概率值为标准判断解释变量能否进入或剔除出回归方程 一个解释变量的F值显著性水平小于entry 0 05 则该解释变量可以进入方程 大于removal 0 1 则剔除出方程 useFvalue 以偏F统计量的临界值来判断解释变量能否进入 默认大于3 84 线性影响显著 方程 还是剔除出 默认小于2 71 不能拒绝原假设 线性影响不显著 方程 三 plot选项 该窗口用于对残差的序列分析 包括分析残差散点图 正态分布累计概率图等 窗口左边dependent表示被解释变量 zpred表示标准化预测值 dresid表示标准化残差 adjpred表示剔除异常点后调整的新预测值 sresid表示学生化残差 绘制多对变量散点图需要在 scatter1of1 框中定义散点图的纵坐标和横坐标变量 在 standardizedresidualplots 中选 histogram 表示绘制标准化残差序列直方图 选 normalprobabilityplot 表示绘制标准化残差序列正态分布累计概率图 选 produceallpartialplots 项 表示一次绘制被解释变量与各个解释变量的散点图 四 save选项 表示将回归分析结果保存到数据编辑窗口中 略讲 predictedvalue 保存非标准化预测值unstandardized 标准化预测值standardized 调整的预测值adjusted 解释变量x x0下预测值的均值标准差 predictionintervals 保存均值mean 保存个体值的预测值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司电脑运输合同范本
- 冰粉摊位出售合同范本
- 农村换工雇工合同范本
- 养老农庄出租合同范本
- 劳动合同转签工龄协议
- 新能源开发项目计划
- 合同回扣协议模板模板
- 农田抽水灌溉合同范本
- 农村厂房租聘合同范本
- 别墅住宅设计合同范本
- 医院感染防控技术的创新与应用
- 【MOOC】《思想道德与法治》(东南大学)章节中国大学慕课答案
- 2025年度新能源汽车充电站合伙经营协议书4篇
- 7.岩土工程勘察-第七章-岩土工程原位测试-王亚军
- 部队一封家书范文
- 油气电站操作员国家职业标准(2024年)
- 剪映剪辑培训课程
- 吉林省四平市双辽市2024-2025学年九年级上学期10月期中物理试题(含答案)
- 新人教版七年级上册初中数学全册教材习题课件
- JTG F40-2004 公路沥青路面施工技术规范
- 死亡证明模板
评论
0/150
提交评论