应用多元统计课件ch4.2_第1页
应用多元统计课件ch4.2_第2页
应用多元统计课件ch4.2_第3页
应用多元统计课件ch4.2_第4页
应用多元统计课件ch4.2_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章§4.2回归变量的选择与逐步回归在实际问题中,影响因变量Y的因素(自变量)可能很多,人们希望从中挑选出影响显著的自变量来建立回归关系式,这就涉及到变量选择问题.

在回归方程中若漏掉对Y影响显著的变量,那么建立的回归式用于预测时会产生大的偏差.但回归式中若包含的变量太多,且其中有些对Y影响不大,显然这样的回归式不仅使用不方便,而且反而会影响预测的精度.因而选择合适的变量用于建立一个“最优”的回归方程是十分重要的问题.1

什么是“最优”回归方程?直观考虑应该是方程中包含的所有变量对因变量Y的影响都是显著的;而不包含在方程中的变量对Y的影响是不显著的(可忽略)。也就是从自变量集{x1,x2,…,xm}中选出适当的子集{xi1,xi2

,…,xil}(l

<=m),使得建立Y与xi1,xi2,…,xil

的回归方程就是这样的“最优”回归方程。这就是回归变量的选择问题。第四章§4.2回归变量的选择与逐步回归

§4.2.1变量选择问题2

回归变量的选择问题在实用上和理论上都是十分重要的。这个问题最大的困难就是如何比较不同选择(即不同子集)的优劣,即最优选择的标准。从不同的角度出发,可以有不同的比较准则,在不同的准则下,“最优”回归方程也可能不同。第四章§4.2回归变量的选择与逐步回归

§4.2.1变量选择问题3

(1)

均方误差s2最小

(2)

Cp统计量最小准则

(3)

修正R2准则

(4)预测均方误差最小

(5)AIC,SBC或BIC准则

第四章§4.2回归变量的选择与逐步回归

§4.2.1变量选择问题4在REG过程中逐步筛选变量的方法通过以下有关的选项给出:FORWARD:

向前加入法,即逐个加入变量;BACKWARD:

向后删除法,全部加入后逐个剔除;STEPWISE:

逐步筛选法,边进边出;第四章§4.2回归变量的选择与逐步回归

§4.2.2变量选择问题5MAXR:逐个加入和对换,使R2增加最大;开始加入使R2增加最大的变量,以后每一步选择模型内外变量进行对换--

1.选择使R2增加最大的对换;2.选择加入一个使R2增加最大的新变量.MINR:逐个加入和对换,使R2增加最小.开始加入使R2增加最小的变量,以后每一步选择模型内外变量进行对换--

1.选择R2增加最小的对换;2.选择加入一个使R2增加最小的新变量.第四章§4.2回归变量的选择与逐步回归

§4.2.2变量选择问题6

ADJRSQ:选Adj-RSQ最大的模型CP:选最先满足Cp≤p的模型

其中p为进入回归式的变量个数Hocking建议:

Cp≤p(预测)Cp≤2p-m+1(估计)

(m为全模型的变量个数)第四章§4.2回归变量的选择与逐步回归

§4.2.2所有可能回归法7

以上介绍的选择回归子集的几种方法中,最常用的是逐步筛选法。逐步回归的基本思想和基本步骤如下:

基本思想:逐个引入自变量,每次引入对Y影响最显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉。最终得到的方程中即不漏掉对Y影响显著的变量,又不包含对Y影响不显著的变量。

基本步骤:首先给出引入变量的显著性水平αin和剔除变量的显著水平αout。然后按以下框图筛选变量。第四章§4.2回归变量的选择与逐步回归

§4.2.2逐步回归基本思想8第四章§4.2回归变量的选择与逐步回归

§4.2.2逐步回归基本思想(框图)9

例4.2.1

(水泥数据)某种水泥在凝固时放出的热量Y(卡/克)与水泥中四种化学成分x1~x4有关.共观测了13组数据(见表4.1),试用逐步回归方法求“最优”回归方程,然后进行预测。

(1)调用REG过程完成逐步回归计算。假设引入变量的显著性水平αin=0.15,剔除变量的显著水平αout=0.15(一般取αin=αout,也可取为不等.但要求αin<=αout,否则可能出现死循环)。要求计算预测值和95%置信界限。SAS程序如下:

第四章§4.2回归变量的选择与逐步回归

§4.2.2逐步回归例子10

procregdata=d411;modely=x1-x4/selection=stepwise

sle=0.15sls=0.15;printcli;title'StepwiseSelection';run;0.15是系统的缺省值,可以省略第四章§4.2回归变量的选择与逐步回归

§4.2.2逐步回归例子11

以上SAS程序的输出结果,首先给出筛选变量的过程:

第一步引入x4

,一元线性回归模型的R2=0.6745;

第二步引入x1,Y与x4,x1

的二元回归模型的

R2=0.9725;

第三步引入x2,Y与x4,x1

和x2

的三元回归模型的

R2=0.9823;

第四步因引入新变量后原变量x4变得不重要了,故第四步剔除x4,Y与x1、x2的二元回归模型的R2=0.9787.经过四步,筛选变量的过程结束后,“最优”回归方程中包含两个变量.回归方程式为:

Y=52.5774+1.4683x1+0.6623x2.第四章§4.2回归变量的选择与逐步回归

§4.2.2逐步回归例子12

或要求计算所有可能回归子集.并且对每种变量个数输出最好的二个回归子集(best=2).

procregdata=d411;

modely=x1-x4/selection=rsquare

badjrsqcpaic

mse

sbc;

title'R-SquareSelection';run;

例4.2.2(水泥数据)

试用全子集法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论