《多重线性回归》PPT课件.ppt_第1页
《多重线性回归》PPT课件.ppt_第2页
《多重线性回归》PPT课件.ppt_第3页
《多重线性回归》PPT课件.ppt_第4页
《多重线性回归》PPT课件.ppt_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多重线性回归分析,医学统计学教研室 柳伟伟,2,一、方法简介,1.2 概念 用回归方程定量地刻画一个因变量与多个自变量之间的线性依存关系,称为多重线性回归分析(multiple linear regression analysis)。 自变量是相互独立的连续型变量或分类变量。,一、方法简介,1.3 数据结构 表1 进行多重线性回归分析资料的数据结构,3,4,二、基本原理,2.1 原理简介 多重线性回归模型: Y=b0+b1X1+b2X2+bkXk+e 其中,bj (j=0, 1 , 2 , k)为未知参数,e为随机误差项。,5,二、基本原理,2.1 原理简介 多重线性回归模型中包含多个自变量,它们同时对因变量Y 发生作用。 若要考察一个自变量对Y 的影响,就必须假设其他自变量保持不变。,6,二、基本原理,2.1 原理简介 因此,多重线性回归模型中的回归系数为偏回归系数。 它反映的是当模型中的其他自变量不变时,其中一个自变量对因变量Y 的均值的影响。,7,二、基本原理,2.2 前提条件 多重线性回归分析要求资料满足线性(Linear)、独立性(Independence)、正态性(Normality)和方差齐性(Equal variance) 。 除此之外,还要求多个自变量之间相关性不要太强。,8,二、基本原理,2.2 前提条件 线性指自变量与因变量之间的关系是线性的 独立性指各观测值之间是相互独立的 正态性指自变量取不同值时,因变量服从正 态分布 方差齐性指自变量取不同值时,因变量的方 差相等,9,三、分析步骤,1. 基本任务 求出模型中参数的估计值,对模型和参数进行假设检验; 对自变量进行共线性诊断,对观测值进行异常点诊断; 结合统计学知识和专业知识,对回归方程进行合理的解释,并加以应用。,10,三、分析步骤,2. 具体步骤 2.1 回归参数估计 多重线性回归分析的参数估计,常采用最小二乘法(OLS)进行。该方法使残差平方和达到最小,从而得出模型参数估计值 表示Y的估计值,11,三、分析步骤,2. 具体步骤 2.2 模型检验 根据方差分析的思想,将总的离均差平方和SS总分解为回归平方和SS回和残差平方和SS残两部分。 SS总的自由度为n-1, SS回的自由度为k,SS残的自由度为n-k-1。,12,三、分析步骤,2. 具体步骤 2.2 模型检验,13,三、分析步骤,2. 具体步骤 2.2 模型检验 模型的显著性检验步骤为: 第一步,建立检验假设。 H0:b1=b2= =bk=0 H1: b1, b2, , bk不同时为0,14,三、分析步骤,2. 具体步骤 2.2 模型检验 第二步,计算统计量F的值。,15,三、分析步骤,2. 具体步骤 2.2 模型检验 第三步,确定P值,下统计学结论。 根据检验统计量F的值和自由度,确定其对应的P值。若Pa,则接受H0,认为回归模型的系数全部为0;若Pa,则拒绝H0,接受H1,认为回归模型的系数不全为0。,16,三、分析步骤,2. 具体步骤 2.3 参数检验 回归方程有统计学意义,可以说明整体上自变量对Y 有影响,但并不意味着每个自变量对因变量的影响都有统计学意义。,17,三、分析步骤,2. 具体步骤 2.3 参数检验 考察各个自变量对因变量的影响,即检验其系数是否为0。 若某自变量对因变量的影响无统计学意义,可将其从模型中删除,重新建立回归方程。,18,三、分析步骤,2. 具体步骤 2.3 参数检验 对自变量Xi的系数是否为0进行假设检验,步骤为: 第一步,建立检验假设。 H0:bi=0 H1: bi0,19,三、分析步骤,2. 具体步骤 2.3 参数检验 第二步,计算检验统计量。,20,三、分析步骤,2. 具体步骤 2.3 参数检验 第三步,确定P值。 根据自由度和临界水平,查t分布表,可得双侧界值为ta/2(n-k-1)。,21,三、分析步骤,2. 具体步骤 2.3 参数检验 若t ta/2(n-k-1)或t - ta/2(n-k-1),则Pa。此时,拒绝H0,接受H1,认为该回归系数不等于0。反之,则接受H0,认为该回归系数为0。,22,三、分析步骤,2. 具体步骤 2.4 变量筛选 由例1的分析结果可知,不是所有的自变量对因变量的作用都有统计学意义。 故需要找到一个较好的回归方程,使之满足:方程内的自变量对回归都有统计学意义,方程外的自变量对回归都无统计学意义。,23,三、分析步骤,2. 具体步骤 2.4 变量筛选 这就是自变量的选择问题,或称为变量筛选。选择时, 一要尽可能地不漏掉重要的自变量; 二要尽可能地减少自变量的个数,保持模型的精简。,24,三、分析步骤,2. 具体步骤 2.4 变量筛选 常用的变量筛选方法有以下8种: 前进法 后退法 逐步回归法 最大R2增量法 最小R2增量法 R2选择法 修正R2选择法 Mallows Cp选择法,25,三、分析步骤,2.4.1 前进法(FORWARD) 回归方程中变量从无到有依次选择一个自变量进入回归方程,并计算该变量对应的F统计量及P值。 当P小于纳入标准(规定的选变量进入方程的临界水平),则该变量入选,否则不能入选。,26,三、分析步骤,2.4.1 前进法 当回归方程中变量少时某变量不符合入选标准,但随着回归方程中变量逐次增多时,该变量就可能符合入选标准;这样直到没有变量可入选为止。 具体而言,是从仅含常数项(即截距项)的最简单模型开始,逐步在模型中添加自变量。,27,三、分析步骤,2.4.1 前进法 局限性: 纳入标准取值小时,可能没有一个变量能入选; 纳入标准取值大时,开始选入的变量后来在新条件下不再进行检验,因而不能剔除后来变得无统计学意义的变量。,28,三、分析步骤,2.4.2 后退法(BACKWARD) 从模型中包含全部自变量开始,计算留在回归方程中的各个自变量所产生的F统计量和P值,当P值小于排除标准(规定的从方程中剔除变量的临界水准)则将此变量保留在方程中。,29,三、分析步骤,2.4.2 后退法 否则,从最大的P值所对应的自变量开始逐一剔除,直到回归方程中没有变量可以被剔除时为止。,30,三、分析步骤,2.4.2 后退法 局限性: 排除标准大时,任何一个自变量都不能被剔除; 排除标准小时,开始被剔除的自变量后来在新条件下即使变得对因变量有较大的贡献了,也不能再次被选入回归方程并参与检验。,31,三、分析步骤,2.4.3 逐步回归法(STEPWISE) 此法是前进法和后退法的结合。 回归方程中的变量从无到有像前进法那样,根据F统计量和P值大小按纳入标准水平决定该自变量是否入选。,32,三、分析步骤,2.4.3 逐步回归法(STEPWISE) 当回归方程选入自变量后,又像后退法那样,根据F统计量和P值按排除标准水平剔除无统计学意义的各自变量,依次类推。 这样直到没有自变量可入选,也没有自变量可被剔除时,则停止逐步筛选过程。,33,三、分析步骤,2.4.3 逐步回归法,34,三、分析步骤,2.4.3 逐步回归法 逐步回归法比前进法和后退法都能更好地选出变量构造模型,但它也有局限性: 其一,当有m个变量入选后,选第m1个变量时,对它来说,前m个变量不一定是最佳组合; 其二,选入或剔除自变量仅以F值和P值作标准,完全没考虑其它标准。,35,三、分析步骤,2.4.5 变量筛选方法的选择 究竟哪一种筛选变量的方法最好?这个问题没有绝对的定论。 一般来说,逐步回归法和最优回归子集法较好。对于一个给定的资料,可试用多种变量筛选的方法,结合以下几条判断原则,从中选择最佳者。,36,三、分析步骤,2.4.5 变量筛选方法的选择 其一,拟合的回归方程在整体上有统计学意义; 其二,回归方程中各回归参数的估计值的假设检验结果都有统计学意义; 其三,回归方程中各回归参数的估计值的正负号与其后的变量在专业上的含义相吻合;,37,三、分析步骤,2.4.5 变量筛选方法的选择 其四,根据回归方程计算出因变量的所有预测值在专业上都有意义。 其五,若有多个较好的多重线性回归方程时,残差平方和较小且多重线性回归方程中所含的自变量的个数又较少者为最佳。,38,三、分析步骤,2.5 模型拟合效果评价 2.5.1 决定系数(R2) 即复相关系数的平方,其值等于因变量观测值与预测值之间简单相关系数的平方。计算公式为:,39,三、分析步骤,2.5 模型拟合效果评价 2.5.1 决定系数(R2) R2取值介于0到1之间,其含义为自变量能够解释因变量y变异的百分比。 R2越接近于1,说明线性回归对实际数据的拟合程度越好。,40,三、分析步骤,2.5 模型拟合效果评价 2.5.2 校正决定系数(Rc2) 随着模型中自变量个数的增加,决定系数R2将不断增大,这不符合回归模型中自变量个数尽可能少的原则。,41,三、分析步骤,2.5 模型拟合效果评价 2.5.2 校正决定系数(Rc2) 故在评价两个包含不同个数自变量的回归模型的拟合效果时,不能简单地用决定系数作为评价标准。 此时,必须考虑回归模型中自变量个数的影响。,42,三、分析步骤,2.5 模型拟合效果评价 2.5.2 校正决定系数(Rc2) 构造校正决定系数,其公式为: 其中,n为样本含量,p为模型中自变量个数。决定系数相同时,自变量个数越多, Rc2越小。,43,三、分析步骤,2.5 模型拟合效果评价 2.5.3 剩余标准差s 即残差之标准差,计算公式为: 剩余标准差越小,说明回归模型的拟合效果越好。,44,三、分析步骤,2.5 模型拟合效果评价 2.5.4 AIC信息准则 该准则由日本学者赤池于1973年提出,广泛应用于时间序列分析中自回归阶数的确定,多重回归、广义线性回归中自变量的筛选以及非线性回归模型的比较和选优。该统计量取值越小,反映模型拟合效果越好。,45,三、分析步骤,2.6 共线性诊断 多重线性回归分析中,可能会出现以下问题: 回归方程的检验有统计学意义,而各偏回归系数的检验均无统计学意义。 偏回归系数的估计值大小或其符号与实际情况和专业知识相违背,难以解释。,46,三、分析步骤,2.6 共线性诊断 多重线性回归分析中,可能会出现以下问题: (3) 某个(些)与因变量关系密切的自变量,因为参数标准误的估计值较大,相应t值就会变得较小,造成其偏回归系数无统计学意义。,47,三、分析步骤,2.6 共线性诊断 导致这些问题的原因可能有: (1)研究设计不够合理; (2)资料收集存在问题; (3)自变量间近似线性; (4)数据中存在异常点; (5)样本少而自变量多。,48,三、分析步骤,2.6 共线性诊断 何谓多重共线性? 自变量间的近似线性关系,即是多重共线性。 由于数据自身的特征,回归模型中的自变量之间或多或少地存在一些相关性,这违反了自变量间相互独立的假设条件,称为多重共线性。,49,三、分析步骤,2.6 共线性诊断 多重共线性的分类: (1)严重的多重共线性 此时,自变量之间存在着较高甚至完全的线性相关关系,虽然最小二乘法仍可应用,但由于观测误差的稳定性变差,所得的估计值可能面目全非。这类情况较为少见。,50,三、分析步骤,2.6 共线性诊断 多重共线性的分类: (2)某种程度的多重共线性 此时,最小二乘法仍可获得参数的无偏估计值,但参数的方差估计值将变得很大,导致估计精度下降,且无法判断自变量对因变量的影响程度。,51,三、分析步骤,2.7 异常点诊断 2.7.1 异常点 对因变量的预测值影响特别大,甚至容易导致相反结论的观测点,称为异常点。 异常点的诊断,可采用学生化残

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论