自变量选择与逐步回归.ppt_第1页
自变量选择与逐步回归.ppt_第2页
自变量选择与逐步回归.ppt_第3页
自变量选择与逐步回归.ppt_第4页
自变量选择与逐步回归.ppt_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章 自变量选择与逐步回归,信计学院统计系 沈菊红,2,第5章 自变量选择与逐步回归,自变量选择对估计和预测的影响 自变量选择的准则 逐步回归 前进法 后退法 逐步回归法,3,说 明,我们在建立回归模型时,首要问题是如何确定回归自 变量。如果遗漏了某些重要的变量,回归方程的效果 肯定不会好;如果考虑过多的自变量,在这些变量中, 某些变量可能和其他变量有很大程度的重叠。这样的 话,会增大计算量,回归方程稳定性也很差,并且直 接影响回归方程的应用。,4,一 自变量选择对估计和预测的影响,全模型和选模型 设对因变量有影响的因素共有m个,由因变量y 和m个自变量 构成的回归模型为,(5.1),称模型(5.1)为全模型。 如果从所有可供选择的m个变量中挑选出p个,记 为 ,由所选的p个自变量组成的回归模 型为,(5.2),5,相对全模型而言,称(5.2)式为选模型 自变量的选择问题可以看成是对一个实际问题是用(5.1)式全模型还是用(5.2)式选模型去描述。 模型选择不当会给参数估计和预测带来不良影响。为了方便,把模型(5.1)式的参数向量 和 记为,6,把模型(5.2)式的参数向量 和 记为,7,2 自变量选择对预测的影响,全模型与选模型 全模型正确,误用选模型 选模型正确,误用全模型,所有m个变量,m个变量中选择p个变量,8,全模型正确,误用选模型的情况,选模型回归系数的OLS是全模型相应参数的有偏估计 选模型的预测有偏,9,全模型正确,误用选模型的情况,选模型的参数估计方差较小 选模型的预测残差方差较小,10,全模型正确,误用选模型的情况,在 条件下, 选模型预测的均方误差比全模型预测的方差小,全模型估计,11,2 自变量选择对预测的影响,全模型正确而误用选模型的情况 当全模型正确时,而我们舍去了m-p个自变量, 用剩下的p个自变量去建立选模型,参数估计值是 全模型相应参数的有偏估计,用其作预测,预测值 也是有偏的; 用选模型作预测,残差的方差比用全模型去作预 测的方差小; 即使全模型正确,但如果其中有一些自变量对因 变量影响较小或回归系数方差过大,我们丢掉这些 变量后,用选模型去预测,可以提高预测的精度。,12,选模型正确,误用全模型的情况,全模型的预测值是有偏估计 从预测方差的角度看,选模型的预测方差小于全模型的预测方差,13,从均方预测误差的角度看,选模型的均方 预测误差小于全模型的均方预测误差,14,2 自变量选择对预测的影响,选模型正确而误用全模型的情况 如果选模型正确,从无偏性的角度看,选模型的 预测值 是因变量新值 的无偏估计,而全模型 的预测值 是 的有偏估计; 从预测方差的角度看,选模型的预测方差小于全 模型的预测方差; 从均方预测误差的角度看,全模型的预测误差大 于选模型的预测误差。,15,选择自变量的基本指导思想是:少而精,剔除可有可无的自变量。以估计量的有偏性为代价,用选模型估计的保留变量的回归系数的方差小,对于所预测的因变量的方差也小。,16,二 所有子集回归,选模型的个数 残差平方和最小? 复决定系数最大?,变量越多越好,17,选择回归子集的准则,自由度调整复决定系数达到最大; 回归误差项方差估计(残差均方)最小:,18,什么是自由度,模型中样本值可以自由变动的个数,称为自由度 自由度 = 样本个数 样本数据受约束条件(方程)的个数 例如,样本数据个数为n,它们受k个方程的约束(系数矩阵秩为k),那么,自由度df = n-k,19,举例:SST、SSR、SSE的自由度,20,对应于平方和分解的自由度的分解,SST = SSR + SSE n-1 1 n-2 总自由度dfT 回归自由度dfR 残差自由度dfE 自由度分解:dfT= dfE +dfR,21,选择回归子集的准则,赤池信息量AIC最小:根据极大似然估计原理 正态经典回归模型的选择,反映回归方程的拟合精度,模型复杂度,22,选择回归子集的准则,CP统计量最小(mallows,1964) 从预测角度提出:预测误差最小,23,三 逐步回归,在多元线性回归分析中,并不是所有自变量对因变量有显著的影响。 问题:如何挑选出对因变量有显著影响的自变量? 变量的所有可能子集构成 个回归方程,当自变量个数较多时,要求出所有可能的回归方程是非常困难的。,24,三、 逐步回归,前进法:少到多 后退法:多到少 逐步回归,偏F检验: 考虑自变量 的显著性,剔除xj 后回归平方和,25,前进法:少到多,1.建立m个一元线性回归方程,取最大的,则Xj进入方程,一元,26,前进法:少到多,2.建立m-1个二元线性回归方程,取最大的 直到所有未引入方程的自变量F值均小于,则Xj进入方程,二元,为止。,27,例题分析,输出结果5.3,28,29,从输出结果中看到,前进法依次引入了变量 ,最优回归模型为,30,这是全模型的复决定系数表,比较它和选模型的复 决定系数。,31,后退法(与前进法相反) :多到少,1.用全部m个变量建立一个回归方程,对m个回归系数进行F检验,取最小的,则Xj 剔出方程,m元,32,后退法:多到少,2.对剩下的m-1个自变量建立回归方程,取最小的 直到方程中所剩余的自变量F值均大于,则Xj进入方程,m-1元,为止。,33,例题分析,输出结果5.4,【例5.4】 对例3.1国际旅游外汇收入y关于第三产业 的12个变量作回归的数据,用后退法做变量选择,取,34,35,Coefficients,36,由输出结果看到:模型1是全模型,从模型2至模型 8依次剔除变量 ,最优回归子集 模型8的回归方程为,复决定系数 ,而全模型的复决 定系数,37,逐步回归:有进有出,前进法和后退法的不足(自变量间相关时): 前者:只考虑引进,不考虑剔除 后者:一旦剔除一棍子打死 引入一个自变量后,对已选入的自变量逐个检查,保证每次引入前方程只包含显著变量 引入自变量的显著性水平低于剔除自变量的显著性水平 :避免死循环,38,逐步回归法,逐步回归的基本思想是有进有出。 具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。,39,此过程反复进行,直到即无显著的自变量选入回归方程,也无不显著自变量从方程中剔除为止。 逐步回归法避免了前进法和后退法各自的缺陷,保证了最后所得的回归子集是最优回归子集。,40,例题分析,【续例5.4】用逐步回归法作变量选择,取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论