自变量选择与逐步回归_第1页
自变量选择与逐步回归_第2页
自变量选择与逐步回归_第3页
自变量选择与逐步回归_第4页
自变量选择与逐步回归_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自变量选择与逐步回归第一页,共六十四页,编辑于2023年,星期一多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的,但在许多回归分析的、应用中,由于没有清晰的理论依据,回归模型所包含的自变量难以预先确定,如果将一些不重要的自变量也引入方程,会降低模型的精度,因此选择有意义的自变量是回归分析的第一步。

选择自变量的基本思路是:尽可能将回归效果显著的自变量选入回归方程中,将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。第二页,共六十四页,编辑于2023年,星期一第七章第一节机动目录上页下页返回结束自变量选择对估计和预测的影响第三页,共六十四页,编辑于2023年,星期一在多元线性回归模型中,自变量的选择实质上就是模型的选择。其中:Y是nx1的观测值,X是nxm结构矩阵,并假定X的秩为m。现设一切可供选择的变量是t个,它们组成的回归模型称为全模型(记m=t+1)是mx1未知参数向量,第四页,共六十四页,编辑于2023年,星期一下面的回归模型称为选模型:现从这t个变量中选t’变量,不妨设矩阵X可作如下的分块(记:)

,那么对全模型中的参数和结构第五页,共六十四页,编辑于2023年,星期一自变量的选择问题可以看成是这样二个问题:究竟应用全模型还是用选模型;若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。第六页,共六十四页,编辑于2023年,星期一为了讨论方便起见,先引入几个记号:全模型中参数的估计:其中:R(X)为矩阵X的秩。第七页,共六十四页,编辑于2023年,星期一在选模型中参数的估计:在上的预测值第八页,共六十四页,编辑于2023年,星期一分块矩阵求逆公式:第九页,共六十四页,编辑于2023年,星期一均方误差的概念对无偏估计常用来衡量估计量的好坏,而对有偏估计则相应采用均方误差第十页,共六十四页,编辑于2023年,星期一第十一页,共六十四页,编辑于2023年,星期一第十二页,共六十四页,编辑于2023年,星期一注:由上述定理说明,若全模型为真的而误用选模型作为y值的预测的话,所得的估计是有偏的.但预测方差会有所下降。而对有偏的估计,一般可用均方差去表明估计的好坏,在均方误差的意义下,预测的均方误差也是会下降。所以删去一些影响不大,但回归系数方差过大的变量(用为非负定矩阵来表示),对预测精度的提高是有利的.综合以上所述,一般我们尽可能使模型的变量少而精,要引入对y有显著影响的变量,而对y并不很显著的变量要删除,这样不仅对估计而且对预测也有利.第十三页,共六十四页,编辑于2023年,星期一第七章第二节机动目录上页下页返回结束自变量选择方法第十四页,共六十四页,编辑于2023年,星期一自变量选择准则若一个多元回归的问题中有t可供选择的自变量,那么所有可能的回归方程有2t-1个,下面给出一些自变量选择的准则,希望能从2t-1个回归方程中选择一个最合理的方程.

对全模型,记:对选模型,记:第十五页,共六十四页,编辑于2023年,星期一准则1平均残差平方和达到最小.第十六页,共六十四页,编辑于2023年,星期一第十七页,共六十四页,编辑于2023年,星期一准则3预测偏差的方差

准则4平均预测均方误差Sp达到最小。准则5Cp统计量其中三s2是全模型中

的无偏估计.

第十八页,共六十四页,编辑于2023年,星期一第十九页,共六十四页,编辑于2023年,星期一第二十页,共六十四页,编辑于2023年,星期一第二十一页,共六十四页,编辑于2023年,星期一准则7AIC准则AIC准则的定义:AIC=-2(模型的对数似然估计函数的极大值)+2(模型中独立参数的个数)第二十二页,共六十四页,编辑于2023年,星期一第二十三页,共六十四页,编辑于2023年,星期一第七章第三节机动目录上页下页返回结束逐步回归第二十四页,共六十四页,编辑于2023年,星期一一、全局选择法对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个“最优”的回归方程。第二十五页,共六十四页,编辑于2023年,星期一

R2可用来评价回归方程优劣。随着自变量增加,R2不断增大,对两个不同个数自变量回归方程比较,须考虑方程包含自变量个数影响,应对R2进行校正。所谓“最优”回归方程指最大者。1.校正决定系数选择法第二十六页,共六十四页,编辑于2023年,星期一2.选择法P为方程中自变量个数。最优方程的Cp期望值是p+1。应选择Cp最接近P+1的回归方程为最优。是由个自变量作回归的误差平方和,是从全部m个自变量的回归模型中得到的残差均方。第二十七页,共六十四页,编辑于2023年,星期一第二十八页,共六十四页,编辑于2023年,星期一27名糖尿病人的血糖及有关变量的测量结果

第二十九页,共六十四页,编辑于2023年,星期一全局择优法的局限性

如果自变量个数为4,则所有的回归模型有24-1=15个;当自变量数个数为10时,所有可能的回归为210-1=1023个;……;当自变量数个数为50时,所有可能的回归为250-1≈1015个。第三十页,共六十四页,编辑于2023年,星期一第三十一页,共六十四页,编辑于2023年,星期一二、逐步选择法全局选择计算量很大:6个变量,计算26-1=63个方程;10个变量,计算210-1=1023个方程。按选入变量顺序不同分前进法、后退法与逐步回归法,共同特点是每一步只引入或剔除一个自变量Xj。第三十二页,共六十四页,编辑于2023年,星期一对Xj的取舍要进行F检验:计算进行到第l步时:p:方程中自变量个数SS回:Xj的偏回归平方和SS残:残差平方和第三十三页,共六十四页,编辑于2023年,星期一缺点:后续变量的引入可能使先前引入的变量变的不重要。Xj入选1.前进法(只选不剔)自变量从无到有、从少到多

Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,…第三十四页,共六十四页,编辑于2023年,星期一

2.后退法(只剔不选)开始方程中包含全部自变量,然后从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除,直至无自变量可以从方程中剔除为止。缺点:当某些自变量高度相关时,可能得不出正确结果。Xj剔除第三十五页,共六十四页,编辑于2023年,星期一

3.逐步回归法(先选后剔,双向筛选)开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程;每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除;直至方程外无自变量可引入,方程内无自变量可剔除为止。第三十六页,共六十四页,编辑于2023年,星期一

Xj剔除内剔Xj入选外引α入值定的越小选取自变量标准越严,被选入方程内自变量数越少。α入值越大则反之。小样本:α入=0.05,α出=0.10。

大样本:α入=0.10,α出=0.15。

α入<α出,以免Xj上一步剔除后下一步又被选入第三十七页,共六十四页,编辑于2023年,星期一逐步回归法流程图第三十八页,共六十四页,编辑于2023年,星期一

例第三十九页,共六十四页,编辑于2023年,星期一

1.全回归第四十页,共六十四页,编辑于2023年,星期一

第四十一页,共六十四页,编辑于2023年,星期一

2.决定系数R2血糖含量变异的60%可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异解释。第四十二页,共六十四页,编辑于2023年,星期一

选X4前先建立4个直线回归方程;选X1前先建立1个含3个自变量、3个含2个自变量的多元线性回归方程。第四十三页,共六十四页,编辑于2023年,星期一

第四十四页,共六十四页,编辑于2023年,星期一

第四十五页,共六十四页,编辑于2023年,星期一

第四十六页,共六十四页,编辑于2023年,星期一

第四十七页,共六十四页,编辑于2023年,星期一

第四十八页,共六十四页,编辑于2023年,星期一逐步回归法流程图第四十九页,共六十四页,编辑于2023年,星期一在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x之间可能不完全相互独立的,可能有种种互作关系。在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更较好。逐步回归分析,首先要建立因变量y与自变量x之间的总回归方程,再对总的方程及每—个自变量进行假设检验。当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某—个自变量对y影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。筛选出有显著影响的因子作为自变量,并建立“最优”回归方程。第五十页,共六十四页,编辑于2023年,星期一回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值的误差也愈小,模拟的效果愈好。但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中,选择适宜的变量数目尤为重要。第五十一页,共六十四页,编辑于2023年,星期一例变量说明如下:X1粮食X11烟草类X2淀粉及薯类X12酒和饮料X3干豆类及豆制品X13干鲜瓜果类X4油脂类X14糕点类X5肉禽及制品X15奶及奶制品X6蛋类X16其他食品X7水产品类X17在外用餐X8菜类X18食品加工服务费X9调味品Y消费性支出X10糖类第五十二页,共六十四页,编辑于2023年,星期一第五十三页,共六十四页,编辑于2023年,星期一1)准备分析数据在SPSS数据编辑窗口中,用“File→Open→Data”命令2)启动线性回归过程单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项第五十四页,共六十四页,编辑于2023年,星期一3)设置分析变量设置因变量:将左边变量列表中的“y”变量,选入到“Dependent”因变量显示栏里。设置自变量:将左边变量列表中的“x1”~“x21”变量,全部选移到“Independent(S)”自变量栏里。设置控制变量:本例子中不使用控制变量,所以不选择任何变量。选择标签变量:选择“DIST”为标签变量。选择加权变量:本例子没有加权变量,因此不作任何设置。第五十五页,共六十四页,编辑于2023年,星期一4)回归方式在“Method”分析方法框中选中“Stepwise”逐步分析方法。该方法是根据“Options”选择对话框中显著性检验(F)的设置,在方程中进入或剔除单个变量,直到所建立的方程中不再含有可加入或可剔除的变量为止。第五十六页,共六十四页,编辑于2023年,星期一5)设置变量检验水平“Options”“SteppingMethodCriteria”框里的设置用于逐步回归分析的选择标准。其中“UseprobabilityofF”选项,提供设置显著性F检验的概率。如果一个变量的F检验概率小于或等于进入“Entry”栏里设置的值,那么这个变量将被选入回归方程中;当回归方程中变量的F值检验概率大于剔除“Removal”栏里设置的值,则该变量将从回归方程中被剔除。由此可见,设置F检验概率时,应使进入值小于剔除值。第五十七页,共六十四页,编辑于2023年,星期一“UesFvalue”选项,提供设置显著性F检验的分布值。如果一个变量的F值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当回归方程中变量的F值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置F分布值时,应该使进入值大于剔除值。本例子使用显著性F检验的概率,在进入“Entry”栏里设置为“0.15”,在剔除“Removal”栏里设置为“0.20”(剔除的概率值应比进入的值大),如图2-89所示。第五十八页,共六十四页,编辑于2023年,星期一6)设置输出统计量“Statistics”①“RegressionCoefficients”回归系数选项:“Estimates”输出回归系数和相关统计量。②“Residuals”残差选项:③其它输入选项“Modelfit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。第五十九页,共六十四页,编辑于2023年,星期一7)绘图选项

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论