SAS第三十三课逐步回归分析_第1页
SAS第三十三课逐步回归分析_第2页
SAS第三十三课逐步回归分析_第3页
SAS第三十三课逐步回归分析_第4页
SAS第三十三课逐步回归分析_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三十三课 逐步回归分析逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自 变量的作用可以忽略。这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影 响的部分自变量的问题。在可能自变量的整个集合有 40 到 60个,甚至更多的自变量的那些情况下,使用“最优” 子集算法可能并不行得通。那么,逐步产生回归模型要含有的 X 变量子集的自动搜索方法, 可能是有效的。逐步回归方法可能是应用最广泛的自动搜索方法。这是在求适度“好”的自 变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。本质上说,这种方 法在每一步增加或剔除一个 X 变量时, 产生

2、一系列回归模型。 增加或剔除一个 X 变量的准则, 可以等价地用误差平方和缩减量、偏相关系数或 F 统计量来表示。无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视 的。通常在多元线性模型中,我们首先从有关专业角度选择有关的为数众多的因子,然后用 数学方法从中选择适当的子集。本节介绍的逐步回归法就是人们在实际问题中常用的,并且 行之有效的方法。逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验 是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除, 这样保证最后所得的变量子集中的所有变量都是显著的。这样经若干步以后

3、便得“最优”变 量子集。逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回 归模型中剔除。 Efroymoson (1966) 编的程序中, 有两个 F 水平,记作 Fin 和 Fout,在每一步时, 只有一个回归因子,比如说 Xi ,如果剔除它可能引起 RSS 的减少不超过残差均方 MSE(即 ESS/(N-k-1)的 Fout 倍,则将它剔除;这就是在当前的回归模型中,用来检验i=0 的 F 比= (RSS(x1, x2 , xi 1,xi) RSS(x1,x2, xi 1) / MSE是小于或等于 Fout。若剔除的变量需要选择, 则就选择使 RSS减少最少的那

4、一个 (或等价的选择 F 比最小的)。 用这种方式如果没有变量被剔除,则开始引进一个回归因子,比如Xj,如果引进它后使 RSS的增加,至少是残差均方的 F in倍,则将它引进。即若在当前模型加 Xj项后,为了检验j =0的 F 比,F Fin 时,则引进 Xj,其次,若引进的变量需要选择,则选择F 比最大的。程序按照上面的步骤开始拟合,当没有回归因子能够引进模型时,该过程停止。变量选择的方法若在回归方程中增加自变量 Xi,称为“引入”变量 Xi,将已在回归方程中的自变量 Xj 从 回归方程中删除,则称为“剔除”变量Xj。无论引入变量或剔除变量,都要利用F 检验,将显著的变量引入回归方程,而将不

5、显著的从回归方程中剔除。记引入变量 F 检验的临界值为 Fin(进),剔除变量 F 检验的临界值为 Fout(出),一般取 Fin Fout,它的确定原则一般是 对 k 个自变量的 m 个(m k),则对显著性水平 df1=1,df2= N m 1的 F 分布表的值,记 为 F*,则取 Fin=Fout= F*。一般来说也可以直接取 Fin=Fout=2.0 或 2.5。当然, 为了回归方程中1 / 12还能够多进入一些自变量,甚至也可以取为1.0 或 1.5。1. 变量增加法首先对全部 k个自变量,分别对因变量 Y建立一元回归方程,并分别计算这 k 个一元回 归方程的 k 个 回归系数 F

6、检验值,记为 F11, F21, Fk1 ,选其最大的记为 Fi1 = max F11,F21, Fk1 ,若有 Fi1 Fin,则首先将 X1引入回归方程,不失一般性,设 Xi就是 X1。接着考虑 X1 分别与 X2,X3,.,Xk 与因变量 Y 二元回归方程,对于这 k1 个回归方程中X2,.,Xk的回归系数进行 F检验,计算得的 F 值,并选其最大的 F值Fj/ 12 ,若F j2Fin,则接着就 将 Xj 引入回归方程,不失一般性,设 Xj 就是 X2。对已经引入回归方程的变量 X1和 X2,如同前面的方法做下去, 直至所有末被引入方程的 变量的 F 值均小于 Fin 时为止。这时的回

7、归方程就是最终选定的回归方程。显然,这种增加法有一定的缺点,主要是,它不能反映后来变化的情况。因为对于某个 自变量,它可能开始是显著的,即将其引入到回归方程,但是,随着以后其他自变量的引入, 它也可能又变为不显著的了,但是,也并没有将其及时从回归方程中剔除掉。也就是增加变 量法,只考虑引入而不考虑剔除。2. 变量减少法与变量增加法相反,变量减少法是首先建立全部自变量X1,X2,.,Xk对因变变量 Y 的回归方程,然后对 k个回归系数进行 F 检验,记求得的 F值为 F11,F21, Fk1 ,选其最小的记为Fi1 =min F11 , F21 , Fk1 ,若有 Fi1 F out,则可以考虑

8、将自变量 Xi 从回归方程中剔除掉,不妨 设 Xi 就取为 X1 。再对 X2,X3,.,Xk对因变量 Y建立的回归方程中重复上述过程, 取最小的 F 值为 Fj2,若有Fj2 F out,则将 Xj也从回归方程中剔除掉。不妨设Xj 就是 X2。重复前面的做法,直至在回归方程中的自变量 F 检验值均大于 Fout,即没有变量可剔除为止。这时的回归方程就是最终 的回归方程。这种减少法也有一个明显的缺点,就是一开始把全部变量都引入回归方程,这样计算量 比较大。若对一些不重要的变量,一开始就不引入,这样就可以减少一些计算。3. 变量增减法前面的二种方法各有其特点, 若自变量 X1,X2,.,Xk 完

9、全是独立的, 则可结合这二种方法, 但是,在实际的数据中,自变量X1,X2,.,Xk 之间往往并不是独立的,而是有一定的相关性存在的,这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的贡献也会发 生变化。因此一种很自然的想法是将前二种方法综合起来,也就是对每一个自变量,随着其 对回归方程贡献的变化,它随时可能被引入回归方程或被剔除出去,最终的回归模型是在回 归方程中的自变量均为显著的,不在回归方程中的自变量均不显著。三、 引入变量和剔除变量的依据如果在某一步时,已有 l 个变量被引入到回归方程中,不妨设为X1,X2, ,Xl ,即已得回归方程Y? 0 1X1 2X2l Xl(33

10、.1)并且有平方和分解式TSS RSS ESS (33.2) 显然,回归平方和 RSS及残差平方和 ESS 均与引入的变量相关。为了使其意义更清楚 起见,将其分别设为 RSS( X1,X2, ,Xl)及 ESS( X1,X2, , Xl )。下面我们来考虑,又 有一个变量 Xi ( li k)被引入回归方程中,这时对于新的回归方程所对应的平方和分解式 为TSS= RSS( X1,X2, ,Xl, Xi)+ ESS( X1,X2, ,Xl, Xi) (33.3)当变量 Xi引入后,回归平方和从 RSS( X1,X2, , Xl )增加到 RSS( X1,X2, ,Xl,Xi ),而相应的残差平方

11、和却从 ESS( X1,X2, ,Xl)降到 ESS( X1,X2, ,Xl, Xi),并有RSS( X1,X2, ,Xl , Xi)- RSS( X1,X2, ,Xl)(33.4)= ESS( X1,X2, ,Xl )- ESS( X1,X2, ,Xl , Xi)记Wi RSS(X1,X2, ,Xl,Xi) RSS( X1, X 2 , , X l ) ,它反映了由于引入 Xi 后, Xi 对回归平方和的贡献,也等价于引入 Xi后残差平方和所减少的量,称其为Xi 对因变量 Y 的 方差贡献,故考虑检验统计量(33.5)Wi X1,X2, ,XlESSX1,X2, ,Xl,Xi / N l 1

12、其中 N 为样本量, l 是已引入回归方程的变量个数,这时若有Fi Fin ,则可以考虑将自变量 Xi 引入回归方程,否则不能引入。实际上大于 Fin 的变量开始时可能同时有几个, 那么是否将它们都全部引入呢?实际编程 序时并不是一起全部引入,而是选其最大的一个引入回归方程。关于剔除变量, 如果已有 l 个变量被引入回归方程, 不失一般性, 设其为 X1,X2, ,Xl , 所对应的平方和分解公式为:TSS RSS(X1,X2, ,Xi, ,Xl) ESS(X1,X2, ,Xi , Xl) (33.6)其中 i 1,2, ,l 为了研究每个变量在回归方程中的作用,我们来考虑分别删掉Xi (i=

13、1,2,.,l3 / 12后相应的平方和分解公式为:(33.7)TSS RSS(X1,X2, Xi 1,Xi 1 ,Xl) ESS( X1, X 2 , ,Xi 1,Xi 1 ,Xl)这时,回归平方和从 RSS( X1, X2, ,Xi, ,Xl)降为 RSS( X1 , X 2, Xi 1,Xi 1 ,Xl),同 时 残 差 也 发 生 相 应 的 变 化 。 残 差 平 方 和 从 ESS( X1, X2, ,Xi, Xl) 增 加 到ES(SX1,X2, ,Xi 1,Xi 1 , Xl ) , Xi对回归平方和的贡献,也等价于删除Xi后残差平方和所增加的量,同理可表示为:Wi RSS(X

14、1,X2, ,Xi, Xl) RSS( X1 , X 2 , ,Xi 1,Xi 1 Xl)(3ESS(X1,X2, ,Xi 1,Xi 1 Xl) ESS(X1,X2, ,Xi, Xl)与前同理,我们来构造检验统计量(33.9)Wi X1,X2, ,Xi, ,XlESSX1,X2, ,Xi, Xl / N l 1显然,这时 Fi 越小,则说明 Xi 在回归方程中起的作用(对回归方程的贡献)越小,也 就是若有 Fi Fout ,则可以考虑将自变量 Xi从回归方程中剔除掉,我们在编程序时,每次只剔除一个,因此,我们每次选择最小的Fi min(F1, F2 , ,Fl ) 来与 Fout 进行比较。若

15、有Fi F out 则可以不考虑剔除,而开始考虑引入。四、 逐步回归在使用过程中要注意的问题逐步回归在计算过程中,进入和剔除变量规则的差别在例子中有可能得到说明。例如,可以根据 Fi统计量中 MSE 的自由度来使用不同的 Fin和Fout 。但是,往往并不使用这种提 纯量,而是使用固定的 F 值,因为在搜索过程的重复检验中, 并不可能得到精确的概率解释。 最低可接受 Fin 决不应小于最高可接受 Fout ,否则就有可能重复进入和剔除一个自变量。自变量进入模型的顺序并不反映它们的重要程度。例如,第一个进入模型的X1,最终却可能被剔除。我们使用的逐步回归程序,在每个阶段上都打印出偏相关系数。对于

16、筛选变量 来说,使用这些相关系数与使用 Fi 值是等价的,事实上,有些程序就是使用偏相关系数来筛 选变量的。进入和剔除一个变量的 F 限不必根据近似显著性水平选定,但可以根据误差缩减 量来描述性地确定。例如,一个进入变量的 F 限 2.0 可以这样来说明:变量一旦进入模型, 那么,进入变量的边际误差缩减量至少应该是剩余误差均方的二倍。逐步回归方法的一个局限是预先假定有单一的最优 X 变量子集,从而来进行识别。正如 前面已经提到的,常常并没有唯一的最优子集。因此,一些统计学家建议,求得逐步回归的 解后,拟合所有可能与逐步回归解的自变量个数相同的回归模型,以研究是否存在更好的 X 变量子集。4 /

17、 12逐步回归方法的另一个缺点是当 X变量高度相关时, 有时会得到不合理的 “最优” 子集。 也有人提出好几种其他寻找“最优”自变量子集的自动搜索方法。我们这里提一下其中的两 种。但这两种方法都还未被接受为逐步搜索方法。其中之一为向前选元法,这种搜索方法只 是逐步回归方法的简化,略去了检验进入模型的变量是否应被剔除这一步。其中之二为向后 剔除法,这种搜索方法与向前选元法相反。它从包括所有 X 变量的模型开始,挑出 F * 值最 小的那个变量。例如,假定 Xi 为 F * 值最小的那个变量,有:(33.10)Wi X1,X2, ,Xi, ,XkESS X1, X 2 , ,Xi, Xk / N

18、k 1如果最小的 Fi* 值小于预定限,就剔除这个变量,然后拟合剩余的k 1 个自变量的模型,挑选下一个待剔除元。重复这种过程,直至没有自变量可以被剔除。因为向后剔除法是从最大 可能模型开始的,所以它比向前选元法需要更多的计算量。但是,向后剔除法有一个优点, 它可以使使用者明白含有许多变量模型的复杂性。五、 stepwise逐步回归过程stepwise 过程对逐步回归提供了九种方法。 当你有许多自变量且想找出哪些自变量是该选 入回归模型时, stepwise 是有用的。由于 stepwise 可以使你深入地了解自变量与因变量或响应变量之间的关系,所以它对考 察分析是很有帮助的。但是, step

19、wise 并不能保证给你“最好”的模型,甚至具有最大R2 的模型也不一定是“最好”的,并且靠这些均值演变得来的模型没有一个可以保证它精确地描 述了真实世界的过程。stepwise 与 rsquare 以及其他过程是不同的。 rsquare 对所有自变量的组合找出 R2 ,所以 它可以指出具有最大 R2 的模型。而 stepwise 在挑选变量时选择下面描述的方法,所以,当 stepwise 判断模型时,它打印一份多个回归报告。1. stepwise 过程提供的九种模型1)none(全回归模型) 。没有对回归变量进行筛选,建立Y 与全部自变量的全回归模型。2)forward (向前选择) 。向前

20、选择技术以模型中没有变量开始,对每个自变量,forward计算反映自变量对模型的贡献的 F 统计量。 这些 F 统计量与 model 语句中给出的 slentry 水平上的值相比较, 如果 F 统计量的显著水平没有一个比 slentry 水平上 (如果缺省 slentry 这个参数,则显著水平假设为 0.50)的值大,则 forward 停止。否则, forward 在模型中 加入具有最大 F 统计量的变量,然后 forward 再计算这些变量的 F 统计量直到剩下的变量 都在模型的外面, 再重复估计过程。 变量就这样一个接一个地进入模型直到剩下的变量没有 一个可以产生显著的 F 统计量。一旦

21、一个变量进入了模型,它就不再出去了。3)backward (向后淘汰) 。向后淘汰技术以计算含有全部自变量的模型的统计量为开始。 然后变量一个接一个地从模型中剔除,直到留在模型中的所有变量产生的 F 统计量的显著 水平在 slstay= 水平上(如果缺省 slstay= 这个参数,则显著水平假设为 0.10)。在每一步, 剔除对模型贡献最小的变量。4)stepwise(逐步回归, 向前且向后) 。逐步方法是向前选择的修正。 对已在模型中的变量, 不一定必须一直在模型中,这点与向前选择法是不同的。stepwise 按照向前选择方法选入变量后,还考察模型中所包含的所有变量并剔除使得 F 统计量的显

22、著水平不在 slstay=水平上 / 12的变量。 只有在完成检验和必要的剔除之后, 其他变量才可再进入模型。 当模型外的变量没 有一个使 F 统计量的显著在 slentry = 水平上且模型中的每个变量在 slstay= 水平上显著, 或 加到模型中的变量是刚刚剔除的变量时候,逐步处理便结束了。5) maxr(具有对偶切换的向前选择) 。最大 R2 改良技术是占优势的逐步技术,它几乎与 所有可能的回归一样好。 不象上面三种技术, 这个方法不是落在单个模型上, 而是试着找出 最佳一变量模型、最佳二变量模型等等,但它不能保证对每个量度都能找到具有最大R2 的模型。maxr 方法先找出一个产生最大

23、 R2值的变量,然后再加入另一个次最大R2 值的变量,从而形成二变量的模型。形成二变量的模型之后,将模型中的变量与模型外的变量相比较,以 决定是否移去一个变量而以另一个能生成更大R2 值的变量来代替。 全部比较结束后, 便得到了最佳二变量模型。依次往下,便得到最佳三变量模型等等。6) minr (具有对偶搜索的向前选择) 。最小 R2 增量法非常类似于 maxr ,只是选择准则为 产生最小 R2 增量。对模型中一个已知的变量数, maxr 和 minr 通常产生同样的“最佳”模 型,但是 minr 在每步中考虑较多的模型。7) rsquare(R2 选择法)。按给定样本的 R2 大小准则选择最

24、优的自变量子集,但不能保证 对总体或其他样本而言是最优的。 用户可以规定出现在子集中自变量的最大和最小个数及被 选择的每种子集的个数。 R2选择法总能够对所考虑变量的每种变量个数找到具有最大R2 的模型,但需要很多的计算时间。8) adjrsq(修正 R2选择法)。该方法类似于 rsquare 法,只是对于选择模型使用的准则为修 正 R2 统计量。修正公式见 (32.27) 式。9) Mallows 的 Cp 统计量。 Cp统计量是由 Mallows 提出的作为选择模型的判别式的变量。 Cp 是一个误差平方总和的量度:ESSpCP(N 2P) (33.11)P MSE其中, P 是模型中包括截

25、距项的参数个数, MSE 是满模型时均方误差, ESSp是具有 P 个 自变量(包括截距项)回归模型的误差平方和。作Cp 与 P 的曲线图, Matlows 建议取 Cp 首次接近 P 的地方的模型。2. proc stepwise 过程控制语句stepwise 过程一般由下列语句控制:proc stepwisedata= 数据集 ;model因变量自变量 ;weight变量 ;by变量 ;run ;stepwise 至少需要一个 model 语句。 by 语句和 weight 语句可以放在任何地方。1) model语句的。stepwise中可以有任意多个 model语句。 model语句中的

26、选 项如下:noint 不产生一般在模型中自动生成的截距参数。none 请求全回归模型。forward 或 f 请求向前选择法。backward 或 b 请求向后淘汰法。 / 12stepwise 请求逐步技术,这个任选项是预置的。 maxr 请求最大 R2 增量法。 minr 请求最小 R2 增量法。rsquare 请求 R2 最大准则法。adjrsq 请求修正 R2 最大准则法。 cp 请求 Mallows 的 Cp 统计量法。slentry= 值 指出向前选择和逐步技术中选择变量进入模型的显著水平。如果省 略,那么 stepwise过程便对向前选择技术置 slentry= 0.5,对逐步

27、技术置 slentry 0.15。slstay= 值 指出向后淘汰与逐步技术中变量留在模型里的显著水平。如果省略, 则逐步技术用 0.15,向后淘汰技术用 0.10。include=n 强迫头 n 个因变量总是在模型中。选择技术由model 语句中其他变量来完成。start= s以含有 model 语句中头 s个自变量的模型为开始, 进行比较、选择过程。 理所当然地, 没有一个被估计的模型含有不足s 个的变量。 此仅应用于 maxr 或 minr 模型。stop= s 当它找到 “最佳” s变量模型之后, stepwise便停止。 其中 s 是 stop的值, 此仅应用于 maxr 或 min

28、r 模型。2) 其他语句weight 语句 用于指出含有观察值的权数的变量。 分析中仅用具有 weight 变量正 值的观察。by 语句 指定的变量值来分组处理某数据集。六、 实例分析例 33.1 例 32.2续 对 fitness 数据进行逐步回归分析。调用 reg 过程, model 语句中的参数选项使用 selection=stepwise,请求按逐步回归方法 挑选自变量子集。程序如下:proc reg data= fitness ;model oxygen = age weight rstpulse maxpulse runpulse runtime/selection=stepwis

29、e ;run ; 运行后,得到见表 33.1 所示的结果。表 33.1 逐步回归分析结果 / 12Stepwise Procedure for Dependent Variable OXYGENStep 1 Variable RUNTIME Entered R-square = 0.74338010 C(p) = 13.51976469DFSum of SquaresMean SquareF ProbFRegression 1632.90009985632.9000998584.01 0.0001Error29218.481444997.53384293Total30851.38154484P

30、arameter Standard Type IIVariable Estimate Error Sum of SquaresF ProbFINTERCEP 82.42177268 3.85530378 3443.36654076 457.05 0.0001RUNTIME -3.31055536 0.36119485 632.90009985 84.01 0.0001Bounds on condition number:1, 1Step 2 Variable AGE Entered R-square = 0.76424693 C(p) = 12.22493455DFSum of Squares

31、Mean SquareF ProbFRegression 2650.66573237 325.3328661845.38 0.0001Error28200.715812477.16842187Total30851.38154484Parameter StandardType IIVariableEstimate ErrorSum of SquaresF ProbFINTERCEP 88.46228749 5.37263885 1943.41070877 271.11 0.0001 AGE -0.15036567 0.09551468 17.76563252 2.48 0.1267 RUNTIM

32、E -3.20395056 0.35877488 571.67750579 79.75 0.0001Bounds on condition number: 1.036941, 4.147763Step 3 Variable RUNPULSE Entered R-square = 0.81109446 C(p) = 6.82780371DFSum of SquaresMean SquareF ProbFRegression 3690.55085627 230.1836187638.64 0.0001Error27160.830688575.95669217Total30851.38154484P

33、arameter StandardType IIVariableEstimate ErrorSum of SquaresF ProbFINTERCEP 111.71806443 10.23508836 709.69013814 119.14 0.0001 AGE -0.25639826 0.09622892 42.28867438 7.10 0.0129 RUNPULSE -0.13090870 0.05059011 39.88512390 6.70 0.0154 RUNTIME -2.82537867 0.35828041 370.43528607 62.19 0.0001Bounds on

34、 condition number: 1.354763, 11.59745Step 4 Variable MAXPULSE Entered R-square = 0.83681815 C(p) = 4.76608569DF Sum of Squares Mean SquareF ProbFRegression 4 712.45152692 178.11288173 33.33 0.0001在输出结果报告中, 提供了进入回归变量逐次改变后回归方差分析和拟合的信息。 在报告的 最后部分,列出了用逐步回归法挑选自变量过程,四个自变量按runtime , age, runpulse,maxpulse

35、先后次序进人回归模型。 所有进入回归的变量在 0.15 的水平下是显著的, 未进人 回归的侯选变量在 0.15 的水平下是不显著的。同时还概要地提供了每个回归模型变化时的 R2值增加值、 R2值、 CP值、相应的 F统计量、 p值。在逐步回归的每步细节中,还列出了 条件指数的最小值最大值,以及每一个回归变量的类型 2 平方和。 age变量进入模型后, R2 值的增加值( Partial R2,称为偏 R2 或部分 R2)计算为( 650.6657632.9001)/ 851.3815= 0.020867 。 如果按 CP 值选择最优子集,随着进入回归模型中的自变量个数P 从 2 到 5 个8

36、/ 12包括截距) ,相应 CP 值从大到小为 13.51976469、12.22493455、6.82780371 和 4.76608569,按照 Mallows 提出的回归模型最优自变量个数的选择准则, CP=4.76608569 是最接近自变量 个数 P=5 的模型。 CP 的计算公式见 (33.11)式,当 P=5 时, CP=138.93001792/5.39197 (31 25)= 4.76608569 。因此,用逐步回归方法及 CP 值确认的拟合回归模型为:oxygen= 98.14788797 0.19773470age + 0.27051297maxpulse 0.34810

37、795runpulse 2.76757879runtime条件指数( condition number )为最大特征值和每个特征值之比的平方根。我们看到当模 型进入第四个自变量 maxpulse 时,最大的条件指数从较小 11.59745 变成了较大 76.85135,说 明存在一定程度的共线性, 根据前面例 33.2 的分析,我们诊断这个共线性方程可能为 runpulse maxpulse= 0。在向前、向后或逐步回归的变量选择过程中,都有一个判断是否可进入或剔除的显著水 平,在程序中是分别由 model 语句的选项 slentry =和 slstay设定的,缺省的情况见表 33.2 所 示

38、。表 33.2 缺省的入选和剔除显著水平forwardbackwardstepwizeslentry0.500.15slstay0.100.15面我们提供全部可能回归的程序,并且以R2 值的大到小排序输出。proc reg data= fitness ;model oxygen = age weight rstpulse maxpulse runpulse runtime /selection= rsquare b ;run ;在上述程序中, model 语句的选项 selection= rsquare,表示请求 R2值最大法, 选项 b 是表 示要输出每种回归的回归系数。程序运行后,得到见表

39、 33.3 所示的结果。表 33.3 用 R2 排序全部可能的变量数的逐步回归分析结果N = 31 Regression Models for Dependent Variable: OXYGENParameterModelNumber in R-square Estimates0.7433801082.4218 . . . . -3.31060.1583834482.4582. -0.20680.1199967059.3325. . -0.2225 . .0.0927765362.2206-0.3114 .0.0560459271.2907-0.1376 .0.0264884955.4379

40、. -0.10410.7642469388.4623-0.1504 . 9 . / 1 2 .-3.20400.7614238193.0888. -0.0735-3.1402Intercept AGE WEIGHT RSTPULSE MAXPULSE RUNPULSE RUNTIME11111122程序的输出包括所有只含一个变量的 6 种回归,含 2 个变量的 15 种回归,。总共有 63 种不同形式的回归模型。例如,含 2 个自变量按 R2 第二个大值选择回归模型为,R2=0.76142381,拟合的回归模型为oxygen= 93.08880.0735runpulse 3.1402runti

41、me若对每种变量个数,只要保留 R2 最大的两种情况,可在 model 语句中加入选项 best=2, 即提交以下的程序:proc regdata= fitness;model oxygen = age weight rstpulse maxpulse runpulse runtime/selection= rsquare b best=2 ;run ;这一程序提供较为紧凑的输出报表,见表 33.4 所示的结果。N = 31 Regression Models for Dependent Variable: OXYGENParameterNumber in R-square Estimates

42、Model Intercept AGE WEIGHT RSTPULSE MAXPULSE RUNPULSE RUNTIME1 0.74338010 82.4218 -3.31061 0.15838344 82.4582 . . . . -0.2068 .2 0.76424693 88.4623 -0.1504 . . . . -3.20402 0.76142381 93.0888 . . . . -0.0735 -3.14023 0.81109446 111.7 -0.2564 . . . -0.1309 -2.82543 0.80998844 80.9008 . . . 0.3542 -0.

43、3751 -2.97024 0.83681815 98.1479 -0.1977 . . 0.2705 -0.3481 -2.7676表 33.4 只保留 R2 最大两种情况的逐步回归分析结果通过上面的逐步回归分析, 我们已经得到回归模型的自变量个数确定时的最优子集或次优子集,但问题是我们到底应该选择几个自变量的回归模型呢?如上表33.4中的 3 个自变量、4 个自变量、 5 个自变量、 6 个自变量的回归模型中哪一个模型呢?一种最简便确定回归模型 的自变量个数的方法是 Mallows 的 Cp方法。确定好模型的自变量个数后, 根据上表 33.4 就很 容易确定在这个固定自变量数下,最优的自变量组合和相应的参数值估计。以下的程序是对 所有可能的回归按 Cp由小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论