第十二章_线性回归分析.ppt_第1页
第十二章_线性回归分析.ppt_第2页
第十二章_线性回归分析.ppt_第3页
第十二章_线性回归分析.ppt_第4页
第十二章_线性回归分析.ppt_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十二章线性回归分析 授课教师 杨卫华博士 主要内容 1一元线性回归的基本思路和步骤2多元线性回归3SPSS的线性回归操作 第一节一元线性回归 什么是回归分析 Regression 从样本数据出发 确定变量的数学关系式 对关系式的可信程度进行统计检验 找到影响某一特定变量显著因素 根据变量的取值来预测或控制另一个特定变量的取值 并给出这种预测或控制的精确程度 回归分析的一般步骤 重点内容 一元线性回归 涉及一个自变量的回归 因变量y与自变量x之间为线性关系 因变量 dependentvariable 被预测或被解释的变量 用y表示 自变量 independentvariable 预测或解释因变量的一个或多个变量 用x表示 因变量与自变量之间的关系用一条线性方程来表示 一元回归的例子 人均收入是否会显著影响人均食品消费支出 贷款余额是否会影响到不良贷款 航班正点率是否对顾客投诉次数有显著影响 广告费用支出是否对销售额有显著影响 一元线性回归模型 描述因变量y如何依赖于自变量x和误差项 的方程称为回归模型一元线性回归模型 y b0 b1x ey是x的线性函数 部分 加上误差项线性部分反映了由于x的变化引起的y的变化误差项 是随机变量反映了除x和y之间线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性 0和 1称为模型的参数 一元线性回归模型 基本假定 误差项 是期望值为0的随机变量 即E 0 对于一个给定的x值 y的期望值为E y 0 1x对于所有的x值 的方差 2都相同误差项协方差等于零 即 i和 j相互独立 i j 误差项 是服从正态分布的随机变量 即 N 0 2 回归方程 regressionequation 描述y的平均值或期望值如何依赖于x的方程称为回归方程 一元线性回归方程的形式如下 E y 0 1x 方程表示一条直线 也称为直线回归方程 0是回归直线在y轴上的截距 是当x 0时y的期望值 1是直线的斜率 称为回归系数 表示当x每变动一个单位时 y的平均变动值 估计的回归方程 estimatedregressionequation 一元线性回归中估计的回归方程为 用样本统计量和代替回归方程中的未知参数和 就得到了估计的回归方程 总体回归参数和是未知的 必须利用样本数据去估计 其中 是估计的回归直线在y轴上的截距 是直线的斜率 它表示对于一个给定的x的值 是y的估计值 也表示x每变动一个单位时 y的平均变动值 普通最小二乘法估计 OLS OrdinaryLeastSquare 使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法 即 用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小 最小二乘估计 图示 最小二乘法 和的计算公式 根据最小二乘法的要求 可得求解和的公式如下 一元回归方程统计检验的主要内容 变差 因变量y取值的波动称为变差变差来源于两个方面 由于自变量x的取值不同造成 除x以外的其他因素 如测量误差等 的影响 对一个具体的观测值来说 变差的大小可以通过该实际观测值与其均值之差来表示 变差的分解 图示 离差平方和的分解 三个平方和的意义 总平方和 SST 反映因变量的n个观察值与其均值的总离差 回归平方和 SSR 反映自变量x的变化对因变量y取值变化的影响 是由于x与y之间的线性关系引起的y的取值变化 也称为可解释的平方和 残差平方和 SSE 反映除x以外的其他因素对y取值的影响 也称为不可解释的平方和或剩余平方和 离差平方和的分解 三个平方和的关系 判定系数R2 coefficientofdetermination 回归平方和占总离差平方和的比例 反映回归方程的拟合程度 取值范围在 0 1 之间 R2 1 说明回归方程拟合的越好 R2 0 说明回归方程拟合的越差 一元线性回归中 判定系数等于y和x相关系数的平方 即R2 r 2 线性关系的检验 检验所有自变量与因变量之间的线性关系是否显著 将均方回归 MSR 同均方残差 MSE 加以比较 应用F检验来分析二者之间的差别是否显著 均方回归 回归平方和SSR除以相应的自由度 自变量的个数K 均方残差 残差平方和SSE除以相应的自由度 n k 1 线性关系的检验 检验的步骤 提出假设H0 1 0所有回归系数与零无显著差异 y与全体x的线性关系不显著 计算检验统计量F 确定显著性水平 并根据分子自由度1和分母自由度n 2找出临界值F 作出决策 若F F 拒绝H0 若F F 不能拒绝H0 线性关系的检验 sig值检验 Sig值小于显著性水平a 拒绝零假设认为所有回归系数与零存在显著差异 被解释变量y与解释变量x的线性关系显著 可以用线性模型描述它们之间的关系 Sig值大于显著性水平a 不应拒绝零假设说明用线性模型描述x和y之间的关系是不恰当的 检验回归方程中的每个解释变量x与被解释变量y之间是否存在显著的线性关系 确定解释变量能否保留在线性回归方程中 回归系数的显著性检验 回归系数的检验 样本统计量的分布 是根据最小二乘法求出的样本统计量 服从正态分布 的分布具有如下性质数学期望 标准差 由于 未知 需用其估计量se来代替得到的估计标准差 回归系数的检验 检验步骤 提出假设H0 b1 0 没有线性关系 H1 b1 0 有线性关系 计算检验的统计量 确定显著性水平 并进行决策 t t 拒绝H0 t t 不能拒绝H0Sig值小于a 拒绝H0 利用回归方程进行估计和预测 根据自变量x的取值估计或预测因变量y的取值估计或预测的类型点估计y的平均值的点估计y的个别值的点估计区间估计y的平均值的置信区间估计y的个别值的预测区间估计 第二节多元线性回归 多元回归模型 multipleregressionmodel 一个因变量与两个及两个以上自变量的回归 描述因变量y如何依赖于自变量x1 x2 xk和误差项 的方程 称为多元回归模型 涉及k个自变量的多元回归模型可表示为 b0 b1 b2 bk是参数 是被称为误差项的随机变量y是x1 x2 xk的线性函数加上误差项 是y不能被k个自变量的线性关系所解释的变异性 多元回归模型 基本假定 误差项 是一个期望值为0的随机变量 即E 0 对于自变量x1 x2 xk的所有值 的方差 2都相同 误差项 是一个服从正态分布的随机变量 即 N 0 2 且相互独立 多元回归方程 multipleregressionequation 描述因变量y的平均值或期望值如何依赖于自变量x1 x2 xk的方程多元线性回归方程的形式为E y 0 1x1 2x2 kxk b1 b2 bk称为偏回归系数bi表示假定其他变量不变 当xi每变动一个单位时 y的平均变动值 调整的多重判定系数 adjustedmultiplecoefficientofdetermination 用样本容量n和自变量的个数k去修正R2得到计算公式为避免增加自变量而高估R2意义与R2类似数值小于R2 线性关系检验 提出假设H0 1 2 k 0线性关系不显著H1 1 2 k至少有一个不等于0 计算检验统计量F 确定显著性水平 和分子自由度k 分母自由度n k 1找出临界值F 作出决策 若F F 拒绝H0 回归系数的检验 步骤 提出假设H0 bi 0 自变量xi与因变量y没有线性关系 H1 bi 0 自变量xi与因变量y有线性关系 计算检验的统计量t 确定显著性水平 并进行决策 t t 拒绝H0 t t 不能拒绝H0 多元回归分析中的其他问题 多重共线性 multicollinearity 回归模型中两个或两个以上的自变量彼此相关的现象 多重共线性带来的问题有回归系数估计值的不稳定性增强 回归系数假设检验的结果不显著等 多重共线性检验的主要方法容忍度方差膨胀因子 VIF 容忍度 容忍度Ri是解释变量xi与方程中其他解释变量间的复相关系数 容忍度在0 1之间 越接近于0 表示多重共线性越强 越接近于1 表示多重共线性越弱 方差膨胀因子 方差膨胀因子是容忍度的倒数VIFi越大 特别是大于等于10 说明解释变量xi与方程中其他解释变量之间有严重的多重共线性 VIFi越接近1 表明解释变量xi和其他解释变量之间的多重共线性越弱 变量的筛选问题 回归方程中到底引入多少解释变量x变量的筛选策略向前筛选策略 Forward 向后筛选策略 Backward 逐步筛选策略 Stepwise 向前筛选策略 Forward 解释变量x不断进入回归方程的过程 首先 选择与y具有最高线性相关系数的变量进入方程 进行回归方程的各种检验 然后 在剩余变量中寻找与当前解释变量偏相关系数最高且通过检验的变量进入方程 该过程一直重复 直到用尽所有的自变量 向后筛选策略 Backward 变量不断剔除出回归方程的过程 首先 所有自变量全部引入回归方程 对回归方程进行检验 然后 在回归系数显著性不高的变量中 剔除t检验值最小的自变量 重新检验新的回归方程 如果新建回归方程中所有变量的回归系数检验都显著 则回归方程建立结束 否则重复第二步 直到再没有可剔除的变量 逐步筛选策略 Stepwise 也叫逐步回归在向前筛选策略的基础上 结合向后筛选策略 在每个变量进入方程后再次判断是否存在应该剔除出方程的变量 第三节SPSS的线性回归操作 一元回归 自变量强行进入的回归 使用SPSS的 Analyze Regression linear 模块分析数据文件 例11 6 sav 研究假设 各项贷款余额x是影响不良贷款y的关键因素 拟合优度为0 712 模型的总体拟合情况较好 Sig值小于显著性水平 拒绝回归方程显著性检验的零假设 认为各回归系数不同时为零 解释变量 各项贷款余额 的sig值小于显著性水平a 表明该解释变量的回归系数与零有显著差异 非标准化回归方程 标准化回归方程 多元回归 自变量强行进入的回归 使用SPSS的 Analyze Regression linear 模块分析数据文件 例11 6 sav 各项贷款余额x1 累积应收贷款x2 贷款项目数量x3 固定资产投资额x4是影响不良贷款y的关键因素 多元线性回归模型 Sig值小于显著性水平 拒绝回归方程显著性检验的零假设 认为各回归系数不同时为零 各项贷款余额 自变量的Tolerance值为0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论