




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
为何要剔除一部分自变量?自变量太多,信息成本高,模型复杂,不易分析理解;高度相关的自变量并不增强模型的预测能力,反而加大回归系数的样本变差,削弱模型的描述能力。多元逐步回归多元逐步回归------从m个自变量中选择K(K≤m)个自变量,拟合最优或较理想的多元线性回归方程。选出的自变量数应:足够少:对应变量无重要作用的自变量不能多,剔除在方程外充分多:对应变量有重要作用的自变量不能少,保留在方程中自变量选择准则残差平方和(SS残)与确定系数(R2)残差均方(MS残)与调整确定系数(AdjR2)AIC信息统计量CP统计量预测残差平方和PRESS残差平方和(SS残)残差平方和(SS残)与确定系数(R2)以某一自变量Xj被引入模型中导致残差平方和的改变量评价在此模型条件下Xj对应变量影响程度;引入Xj,SS残减少量多,则Xj对Y的作用大,可被引入;剔除Xj,SS残增加量多,则Xj对Y的作用大,不应剔除.确定系数(R2)R2=1-SS残/SS总
R2与SS残完全相关,作为选择自变量的准则时完全与SS残等价。SS残与R2如具有p个自变量的某一种组合可使:SS残P与含全部(m个)自变量SS残m接近;R2P与
R2m接近,则含这p个自变量的方程为“最优”方程。但“接近”的标准凭主观确定SS残与R2
SS残值小,R2大的模型为较“优”模型。SS残、R2值的大小与引入自变量个数有关,随自变量个数的增加SS残减少,R2缺点:按SS残值小,R2大的原则选择自变量,全部自变量均引入时的模型为较“优”模型,未起到选择自变量作用;
SS残变化量准则适用于比较具有相同自变量个数模型优劣的判据,而不适合对变量个数不同的模型的比较。残差均方(MS残)MS残P=SS残P/(n-p-1):含P个自变量时的MS残MS残是在SS残准则基础上增加了(n-p-1)-1因子,随着自变量个数的增加,SS残减少,(n-p-1)同时减少,MS残不一定减低。残差均方(MS残)模型从无自变量开始,按自变量对Y作用大小逐渐引入,当对Y作用大的自变量引入时,SS残减少幅度大于(n-p-1)减少幅度,MS残降低;当模型中自变量增加到一定程度,对Y作用大的自变量已基本引入,再增加自变量,SS残减少幅度小于(n-p-1)减少幅度,MS残增加。调整确定系数(AdjR2)作为选择自变量的准则,AdjR2与MS残等价。缺点:当n很大,AdjR2≈
R2
,评判效果不佳AIC信息统计量由日本统计学家Akaike(1974)提出并修正以适合于回归模型选择的准则------Akaike
信息量准则(Akaikeinformationcriterion),简记AIC。AIC实用计算式
AIC=n.Ln(SS残P)+2P
SS残P:含P个自变量时的残差平方和。AIC达到最小为准则CP统计量Mallows,C.L(1966)提出。
:含有P个自变量的残差平方和;:含有全部自变量(m个)的残差平方和CP统计量CP统计量从预测出发,基于残差平方和的一个准则。若含有P个自变量的模型合适,具有较小的CP值,且CP接近于P+1的模型为“最优”模型。n大时,CP准则效果好预测残差平方和PRESShii
度量第i个数据点到数据中心的距离当PRESS达到最小的自变量组合模型为“最优”模型自变量选择方法目的决定自变量选择方法选择对应变量作最好预报的一组自变量----着眼点是拟合回归方程的一组自变量整体,用该组自变量应使回归方程拟合得最好;选择对应变量作最好解释的主要自变量----着眼点是引入回归方程的一组自变量的每个自变量自变量选择方法最优子集法向前法向后法逐步法最优子集法m个自变量,可建立2m-1个不同自变量组合方程,按某一自变量选择准则,从2m-1个方程中选择一个或几个最优的方程。常用自变量选择准则:SS残准则、R2准则、AdjR2准则、CP准则建议选择:AdjR2准则、CP准则最优子集法优点
MS残最小,F最大,回归方程最优;缺点:计算量大,如m=15,则必须拟合215-1=32767个子集回归方程来挑选最优,因此该法主要适用于m较小情况
当样本含量n小时,结果的重复性差;不能保证:引入回归方程的各自变量都有统计学意义、回归方程外的各自变量都无统计学意义最优子集法实例输出结果解读(M=3)子集SS残R2MS残AdjR2CPX18774770.48241096840.41775.8226X211123380.34391390420.26188.9866X37947590.5312993450.47264.7079X1.X24964370.7072709190.62352.6885X1.X36459250.6190922750.51014.7026X2.X36541650.6141934520.50394.8136X1.X2.X34453320.7373742220.60604.0000向前法(forwardselection)基本思想0步:方程中无自变量,SS回=
0,SS残=
SS总;1步:分别建立自变量为X1、X2…Xm的m个回归方程,对贡献最大者,即F最大者(假如为X1)作偏回归平方和F检验,如无统计学意义,则终止,如有统计学意义,则引入X1,完成第1步;向前法2步:在方程中已有X1情况下,分别引入1个其余自变量,(X1,X2),(X1,X3)…(X1,Xm)建立方程,引入偏F最大者(假设为X2)作F检验,如无统计学意义,则终止,如有统计学意义,则引入X2,完成第2步;反复上述过程,直到剩余变量不能再引入。整个过程结束。向前法优点:计算量小缺点:引入自变量在当时有统计学意义,但随着其他自变量引入,可能引入的自变量与前期引入自变量间存在共线性,导致前期引入自变量作用无统计学意义,因此,最终方程中可能存在无统计学意义的自变量。向后法(backwardselection)0步:建立1个包含全部自变量的方程,作F检验,如无统计学意义,全部过程结束,否则进行第1步;1步:建立剔除1个自变量的方程(共m个方程),计算剔除变量后所致残差平方和增量的偏F值,取最小者与F界值比较,如无统计学意义,则将对应的自变量剔除;……重复上述过程,每次循环剔除1个对模型贡献最小的且无统计学意义的自变量,直到方程中变量都不能再剔除为止。向后法优点:可行性强,若自变量较少时,不太多的步骤可以获得回归方程;缺点:1、第0步计算含全部自变量的回归方程,如自变量数多,则计算量大;2、每次剔除1个贡献最小且无统计学意义的自变量,若无统计学意义的自变量多,则计算量大。逐步法(stepwiseselection)向前法与向后法相结合,基本思想:1步:在全部自变量中,引入一个对Y贡献最大的自变量,建立只含1个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论