




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SAS系统和数据分析逐步回归分 析Unit33Stat.doc商务数据分析电子商务系列第三十三课 逐步回归分析一、逐步回归分析在一个多元线性回归模型中,并不是所有的 自变量都与因变量有显著关系,有时有些自变量 的作用可以忽略。这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分 自变量的问题。在可能自变量的整个集合有40到60个,甚至更多的自变量的情况下,使用“最优”子集算 法可能并不行得通。那么,逐步产生回归模型要 含有的X变量子集的自动搜索方法,可能是有效 的。逐步回归方法可能是应用最广泛的自动搜索 方法。这是在求适度“好”的自变量子集时,同 所有可能回归的方法比较,为节省
2、计算工作量而 产生的。从本质上说,这种方法在每一步增加或 剔除一个X变量时,产生一系列回归模型。增加 或剔除一个X变量的准则,可以等价地用误差平 方和缩减量、偏相关系数或F统计量来表示。无疑选择自变量要靠有关专业知识,但是作上海财经大学经济信息管理系IS/SHUFEPage 1 of 48Unit33Stat.doc商务数据分析电子商务系列为起参谋作用的数学工具,往往是不容轻视的。 通常在多元线性模型中,我们首先从专业角度选 择有关的为数众多的因子,然后用数学方法从中 选择适当的子集。本节介绍的逐步回归法就是人 们在实际问题中常用的,并且行之有效的方法。逐步回归的基本思想是,将变量一个一个引
3、入,引入变量的条件是偏回归平方和经检验是显 著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保 证最后所得的变量子集中的所有变量都是显著 的。这样经若干步以后便得“最优”变量子集。逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模有两型中剔除。Efroymoson (1966)编的程序中,个F水平,记作F加和几心在每一步时,只有一 个回归因子,比如说如果剔除它可能引起/?SS 的减少不超过残差均方MSE (即ESS/(Nkd)的 凡“倍,则将它剔除;这就是在当前的回归模型中, 用来检验沪0的F比(Rssgf 兀_1,兀)一 RSS
4、 (旺,七,X-) / MSE 是小于或等于F丽。若剔除的变量需要选择,则就选择使人SS减上海财经大学经济信息管理系IS/SHUFEPage 2 of 48Unit33Stat.doc商务数据分析电子商务系列少最少的那一个(或等价的选择F比最小的)。用 这种方式如果没有变量被剔除,则开始引进一个 回归因子,比如如果引进它后使ASS的增加, 至少是残差均方的F初倍,则将它引进。即若在当 前模型加&项后,为了检验为=0的F比,F 2 凡时,则引进冯其次,若引进的变量需要选择, 则选择F比最大的。程序按照上面的步骤开始拟 合,当没有回归因子能够引进模型时,该过程停 止。二、变量选择的方法若在回归方程
5、中增加自变量称为“引入” 变量将已在回归方程中的自变量兀从回归方 程中删除,贝!I称为“剔除”变量心无论引入变 量或剔除变量,都要利用F检验,将显著的变量 引入回归方程,而将不显著的从回归方程中剔除。 记引入变量F检验的临界值为Fin (进),剔除变 量F检验的临界值为Fout (出),一般取Fi&Fut, 它的确定原则一般是对k个自变量的m个(加W k),对显著性水平dfl=l, dfl=N-m-的F分布表 的值,记为F*,则取Fin=F0Ut= F*。一般来说,上海财经大学经济信息管理系IS/SHUFEPage 3 of 48Unit33Stat.doc商务数据分析电子商务系列也可以直接取
6、F沪几沪20或2.5。当然,为了回归方程中还能够多进入一些自变量,甚至也可以 取为10或15。1. 变量增加法首先对全部E个自变量,分别对因变量Y建 立一元回归方程,并分别计算这k个一元回归方 程的E个回归系数F检验值,记为昭码斥,选 其最大的记为F = max甘打迟1,若有血,则 首先将X引入回归方程,不失一般性,设&就是 X。 MF 1=1接着考虑X1分别与乂2石,.不与因变量Y组 成二元回归方程,对于这k-1个回归方程中 X2,./k的回归系数进行F检验,计算F值,并选 其最大的F值厅,若厅$血,则接着就将引入回 归方程,不失一般性,设禺就是&2。对已经引入回归方程的变量X和X2,如同前
7、 面的方法做下去,直至所有未被引入方程的变量 的F值均小于Fin时为止。这时的回归方程就是最 终选定的回归方程。显然,这种增加法有一定的缺点,主要是, 它不能反映后来变化的情况。因为对于某个自变 上海财经大学经济信息管理系IS/SHUFEPage 4 of 48Unit33Stat.doc商务数据分析电子商务系列量,它可能开始是显著的,即将其引入到回归方 程,但是,随着以后其他自变量的引入,它也可 能又变为不显著了,但是,并没有将其及时从回 归方程中剔除掉。也就是增加变量法,只考虑引 入而不考虑剔除。2. 变量减少法与变量增加法相反,变量减少法是首先建立 全部自变量X1西,对因变量Y的回归方程
8、, 然后对E个回归系数进行F检验,记求得的F值 为 Ff* ,选其最小的记为F =min W E,若 有尺则可以考虑将自变量&从回归方程中 剔除掉,不妨设&就取为Xi。再对X2疋3,.斯对因变量Y建立的回归方程 重复上述过程,取最小的F值为吋,若有f;WF。讥, 则将X)也从回归方程中剔除掉。不妨设X)就是 X2O重复前面的做法,直至在回归方程中的自变 量F检验值均大于几“”即没有变量可剔除为止。 这时的回归方程就是最终的回归方程。这种减少法也有一个明显的缺点,就是一开 始把全部变量都引入回归方程,这样计算量比较 大。若对一些不重要的变量,一开始就不引入, 上海财经大学经济信息管理系IS/SH
9、UFEPage 5 of 48Unit33Stat.doc商务数据分析电子商务系列这样就可以减少一些计算。3.变量增减法前面的两种方法各有其特点,若自变量X1,X2,斯 完全是独立的,则可结合这两种方法, 但是,在实际的数据中,自变量&疋2,.不之间 往往并不是独立的,而是有一定的相关性存在的,这就会使得随着回归方程中变量的增加和减少,ill某些自变量对回归方程的贡献也会发生变化。因 此一种很自然的想法是将前两种方法综合起来, 也就是对每一个自变量,随着其对回归方程贡献 的变化,它随时可能被引入回归方程或被剔除出 去,最终的回归模型是在回归方程中的自变量均 为显著,不在回归方程中的自变量均不显
10、著。三、引入变量和剔除变量的依据如果在某一步时,已有/个变量被引入到回归 方程中,不妨设为知兀,兀,即已得回归方程:7 = 0()+0凶+0虫+0兀(33.1)并且有平方和分解式:(332)TSS = RSS + ESS显然,回归平方和RSS及残差平方和ESS均与引上海财经大学经济信息管理系IS/SHUFEPage 6 of 48Unit33Stat.doc商务数据分析电子商务系列入的变量相关。为了使其意义更清楚起见,将其 分别设为&SS (xPx2, ,xz)及 ESS ( X|,X2,乙)。 下面我 们来考虑,又有一个变量X, (IWiG)被引入回 归方程中,这时对于新的回归方程所对应的平
11、方 和分解式为:亦=磁(xX2,X” x, ) + 磁(乙冬,X/,X,)(33.3)当变量Xi引入后,回归平方和从xssC)增加到RSS (,必,X,),而相应的残差平方和却 从磁(X|,X2,,X/)降到 ESS(XPX2, X,),并有:(33.4)RSS(X、XX,X)一RSslx、X?、X)- 磁(X|,X2,,xj-粥&,兀, 必,X,)记 Wi=RSS(X、X2,:XXJ RSS(X,X2,:XJ , 它反映了由于引入X后,X对回归平方和的贡献,也等价 于引入X后残差平方和所减少的量,称其为/对 因变量y的方差贡献,故考虑检验统计量:(335)叱区血,必)ESS(X“X2,必,X
12、j/(N-/ 1)其中N为样本量,/是已引入回归方程的变量I三三个数,这时若有爲洛,则可以考虑将自变量/引 入回归方程,否则不能引入。实际上大于Fin的变量开始时可能同时有几上海财经大学经济信息管理系IS/SHUFEPage 7 of 48Unit33Stat.doc商务数据分析电子商务系列个,那么是否将它们都全部引入呢?实际编程序时并不是一起全部引入,而是选其最大的一个引入回归方程。关于剔除变量,如果己有/个变量被引入回归方程,不失一般性,设其为/兀,,X所对应的平方和分解公式为:TSS = RSSMX“X、XESSgXwXi、XJ(33.6)其中-2丿为了研究每个变量在回归方程中的作用,我
13、们来考虑分别删掉X, (i=l,2v./后相应III的平方和分解公式为:TSS = RSS(X、X“XH、X4、XJ + ESSgXwX“Xg、XJ (33.7)这时,回归平方和从RSS(X、X,、X,X)降为RSS(X|,X2,X_,X冲同时残差也发生相应的变化。 残差平 方和从ESS(X,X,Xi,X)增 加 到ESSgX,XXgX,对回归平方和的贡献,也等价于删除/后残差平方和所增加的量,同理可表示为:比=/?SS(XX2,X:,X/)_RSS(X|,X2,Xi,X田XJ= ESS(XX2y-,Xi_l,XM-Xl)-ESS(XX2i-,Xit-Xl)(33.8)同理,我们来构造检验统计
14、量:叱区儿,X”,xj(33.9)上海财经大学经济信息管理系IS/SHUFEPage 8 of 48Unit33Stat.doc商务数据分析电子商务系列显然,这时尺越小,贝!|说明乙在回归方程中起的作用(对回归方程的贡献)越小,也就是若 有恥则可以考虑将自变量X,从回归方程中剔除 掉,我们在编程序时,每次只剔除一个,因此, 我们每次选择最小的F, = nin(斤,F?,巧)来与F”进行比 较。若有F”,则可以不考虑剔除,而开始考虑引 入。四、逐步回归在使用过程中要注意的问题逐步回归在计算过程中,进入和剔除变量规 则的差别在例子中有可能得到说明。例如,可以 根据Fi统计量中MSE的自由度来使用不
15、同的Fin 和心。但是,往往并不使用这种提纯量,而是使用固定的F值,因为在搜索过程的重复检验中, 决不应小于最高可接受心,否则就有可能重复进 入和剔除一个自变量。并不可能得到精确的概率解释o最低可接受Fin自变量进入模型的顺序并不反映它们的重要程度。例如,第一个进入模型的最终却可能 被剔除。我们使用的逐步回归程序,在每个阶段 上都打印出偏相关系数。对于筛选变量来说,使上海财经大学经济信息管理系IS/SHUFEPage 9 of 48Unit33Stat.doc商务数据分析电子商务系列用这些相关系数与使用尺值是等价的,事实上, 有些程序就是使用偏相关系数来筛选变量的。进 入和剔除一个变量的F限不
16、必根据近似显著性水 平选定,但可以根据误差缩减量来描述性地确定。 例如,一个进入变量的F限2.0可以这样来说明: 变量一旦进入模型,那么,进入变量的边际误差 缩减量至少应该是剩余误差均方的二倍。逐步回归方法的一个局限是预先假定有单一 的最优X变量子集,从而来进行识别。正如前面 已经提到的,常常并没有唯一的最优子集。因此, 一些统计学家建议,求得逐步回归的解后,拟合 所有可能与逐步回归解的自变量个数相同的回归 模型,以研究是否存在更好的X变量子集。逐步回归方法的另一个缺点是当X变量高度 相关时,有时会得到不合理的“最优”子集。也 有人提出好几种其他寻找“最优”自变量子集的 自动搜索方法。我们这里
17、提一下其中的两种。但 这两种方法都还未被接受为逐步搜索方法。其中 之一为向前选元法,这种搜索方法只是逐步回归 方法的简化,略去了检验进入模型的变量是否应 被剔除这一步。其中之二为向后剔除法,这种搜上海财经大学经济信息管理系IS/SHUFEPage 10 of 48Unit33Stat.doc商务数据分析电子商务系列索方法与向前选元法相反。它从包括所有X变量 的模型开始,挑出尸值最小的那个变量。例如, 假定尢为值最小的那个变量,有:(33.10)比(乙,禺,兀,兀)ESS(X“X 空、XX)(N_k_)如果最小的斤值小于预定限,就剔除这个变量,然后拟合剩余的2个自变量的模型,挑选下 一个待剔除元
18、。重复这种过程,直至没有自变量 可以被剔除。因为向后剔除法是从最大可能模型 开始的,所以它比向前选元法需要更多的计算量。但是,向后剔除法有一个优点,它可以使使用者 明白含有许多变量模型的复杂性。五、stepwise逐步回归过程stepwise过程对逐步回归提供了九种方法。当你有许多自变量且想找出哪些自变量是该选入回 归模型时,stepwise是有用的。由于stepwise可以使你深入地了解自变量与 因变量或响应变量之间的关系,因此,它对考察 分析是很有帮助的。但是,stepwise并不能保证给 你“最好”的模型,甚至具有最大疋的模型也不一定是“最好”的,并且靠这些均值演变得来的上海财经大学经济
19、信息管理系IS/SHUFEPage 11 of 48Unit33Stat.doc商务数据分析电子商务系列模型没有一个可以保证它精确地描述了真实世界 的过程。stepwise与rsquare以及其他过程是不同的。square对所有自变量的组合找出疋,所以它可以指出具有最大R2的模型。而stepwise在挑选变 量时选择下面描述的方法,所以,当stepwise判 断模型时,它打印一份多个回归报告。1.stepwise过程提供的九种模型(1)。必(全回归模型)。没有对回归变量进行筛选, 建立y与全部自变量的全回归模型。(2)forward (向前选择)。向前选择技术以模型中 没有变量开始,对每个自变
20、量,forward计算反 映自变量对模型的贡献的F统计量。这些F统 计量与model语句中给岀的$胁1/口=水平上的 值相比较,如果F统计量的显著水平没有一个 比slentry =水平上(如果缺省slentry =这个参 数,则显著水平假设为0.50)的值大,则nvaM 停止。否则,forward在模型中加入具有最大F统 计量的变量,然后forward再计算这些变量的F 统计量直到剩下的变量都在模型的外面,再重复 估计过程。变量就这样一个接一个地进入模型直 上海财经大学经济信息管理系IS/SHUFEPage 12 of 48Unit33Stat.doc商务数据分析电子商务系列到剩下的变量没有一
21、个可以产生显著的F统计 量。一旦一个变量进入了模型,它就不再出去了。(3)backward (fnj后淘汰)。向后淘汰技术以计算含有全部自变量的模型的统计量为开始。然后变量 一个接一个地从模型中剔除,直到留在模型中的 所有变量产生的F统计量的显著水平在slstay= 水平上(如果缺省slstay=这个参数,则显著水 平假设为0.10)。在每一步,剔除对模型贡献最 小的变量。(4)stepwise (逐步回归,向前且向后)。逐步方法是向 前选择的修正。对已在模型中的变量,不一定必 须一直在模型中,这点与向前选择法是不同的。 stepwise按照向前选择方法选入变量后,还考察 模型中所包含的所有变
22、量并剔除使得F统计量 的显著水平不在血与=水平上的变量。只有在完 成检验和必要的剔除之后,其他变量才可再进入 模型。当模型外的变量没有一个使F统计量在 slentry=水平上显著且模型中的每个变量在 slstay=水平上显著,或加到模型中的变量是刚 刚剔除的变量时候,逐步处理便结束了。(5)ax/(具有对偶切换的向前选择)。最大A?改良技上海财经大学经济信息管理系IS/SHUFEPage 13 of 48Unit33Stat.doc商务数据分析电子商务系列术是占优势的逐步技术,它几乎与所有可能的回 归一样好。不像上面三种技术,这个方法不是落在单个模型上,而是试着找出最佳最佳二变量模型等等,但它
23、不能保证对每个量度 都能找到具有最大疋的模型。maxr方法先找出一个产生最大衣值的变量,然后再加入另一个次最大R2值的变量,从而形成 二变量的模型。形成二变量的模型之后,将模型 中的变量与模型外的变量相比较,以决定是否移 去一个变量而以另一个能生成更大R2值的变量 来代替。全部比较结束后,便得到了最佳二变量模型。依次往下,便得到最佳三变量模型等等。(6)tninr (具有对偶搜索的向前选择)。】:小R2增量法非常类似于加处厂只是选择准则为产生最小疋 增量。对模型中一个已知的变量数皿oxr和minr 通常产生同样的“最佳”模型,但是minr在每 步中考虑较多的模型。rsquare (疋选择法)。
24、按给定样本的M大小准则选择最优的自变量子集,但不能保证对总体或 其他样本而言是最优的。用户可以规定出现在子 集中自变量的最大和最小个数及被选择的每种上海财经大学经济信息管理系IS/SHUFEPage 14 of 48Unit33Stat.doc商务数据分析电子商务系列子集的个数。疋选择法总能够对所考虑变量的每 种变量个数找到具有最大R2的模型,但需要很 多的计算时间。(8) adjrsq (修正疋选择法)。该方法类似于rsquare 法,只是对于选择模型使用的准则为修正人2统计量。修正公式见(3227)式。(9) Mallows 的 q,统计量。 G统计量是由Mallows提出的作为选择模型的
25、判别式的变量。Cp是一个 误差平方总和的量度:ESSpMSE (N_2P)(33.11)其中,P是模型中包括截距项的参数个数,MSE是满模型时均方误差,ESSp是具有P个自变量(包括截距项)回归模型的误差平方和。作Cp 与P的曲线图,Matlows建议取Cp首次接近P 的地方的模型。2. proc stepwise过程控制语句stepwise过程一般由下列语句控制:proc stepwise data二数据集;model因变量=自变量/选项列表;weight变:fi ;by变最;上海财经大学经济信息管理系IS/SHUFEPage 15 of 48Unit33Stat.doc商务数据分析电子商务
26、系列stepwise至少需要一个 model语句。by语句 和weight语句可以放在任何地方。(1) model语句的/选项列表stepwise中可以有任意多个model语句。 model语句中的选项如下: noint不产生一般在模型中自动生成的 截距参数。=1 none请求全回归模型。forward或 请求向前选择法。 backward或b请求向后淘汰法。 stepwise请求逐步技术,这个任选项是预置的。 maxr一请求最大疋增量法。minr请求最小M增量法。 rsquare请求R2最大准则法。 adjrsq请求修正R2最大准则法。 cp请求Mallows的Cp统计量法。 slentry
27、=值指出向前选择和逐步技术中选择变量进入模型的显著水平。如果省略,那上海财经大学经济信息管理系IS/SHUFEPage 16 of 48Unit33Stat.doc商务数据分析电子商务系列么stepwise过程便对向前选择技术置slentry-0.5,对逐步技术置山加7=015。 slstay-i指出向后淘汰与逐步技术中变量留在模型里的显著水平。如果省略,则逐步 技术用0.15,向后淘汰技术用010。 include=n强迫头n个因变量总是在模型中。选择技术由model语句中其他变量来完 成。 starts s以含有model语句中头s个自变量的模型为开始,进行比较、选择过程。理所当然地,没有
28、一个被估计的模型含有不足s个的变此仅应用于maxr或minr模型。 Stop= S当它找到“最佳” S变量模型之 后,stepwise便停止。其中s是op的值,此仅 应用于maxr或minr模型。(2)其他语句直旳敬 weight语句用于指出含有观察4数的变量。分析中仅用具有weight变量正值的 观察。by语句指定的变量值来分组处理某数 据集。上海财经大学经济信息管理系IS/SHUFEPage 17 of 48Unit33Stat.doc商务数据分析电子商务系列六、实例分析例33.1 例32.2续对fitness数据进行逐步 回归分析。调用“g过程,model语句中的参数选项使用select
29、ion=stepwise,请求按逐步回归方法挑选自变量子集。程序如下:proc reg data= fitness ;model oxygen = age weight rstpulse maxpulse runpulse runtime/selectionFstepwise ;运行后,得到如表331所示的结果。逐步回归表331分析结果上海财经大学经济信息管理系IS/SHUFEPage 18 of 48Stepwise Procedure for Dependent Yariabl金 OXYGENStep 1 Variable RUNTIME Entered R-squarF1632. 900
30、09985632.9000998584.010. 0001Error29218. 481444997. 53384293Total30851. 38154484ParameterStandardType IIVariableEstimaErrorSum of SquaresFProbFINTERCEP82.421772683. 855303783443. 36654076457. 050. 0001RUNTIME3 310555360. 36119485632.9000998584.010. 0001Bounds on condition number:1Step 2 Variable AGE
31、 EnteredR-aquare = 0.76424693 C(p)=12. 22493455DFSum of SquaresMean SquareFProbFRegression2650. 66573237325.3328661845. 380. 0001Error23200. 715812477.16842187Total30851. 38154484ParameterStandardType IIVariableEstixnat*ErrorSum of SquaresFProbFINTERCEP88.462287495.372638851943. 41070877271.110. 000
32、1AGE-0.150365670.0955146817. 765632522. 480.1267RUNTIME-3.203950560. 35877488571.6775057979. 750. 0001Bounds on condition number: 1. 036941,4.147763Step 3 VariabU RUNPULSE Entered R-square = 0.81109446 C(p) = 6.82780371DFSum of SquaresMean SquareFProbFRtgrtoaion3690.55085627230.183618763& 640. 0001E
33、rror27160.830688575.95669217Total30851.38154484ParameterStandardType IIVariableEstimateErrorSum of SquaresFProbFINTERCEP111.7180644310.23508836709. 69013814119.140. 0001AGE-0. 256398260.0962289242.288674381.100. 0129RUNPULSE-0.130908700. 0505901139.885123906. 700. 0154RUNTIKE-2.825378670. 3582804137
34、0.4352860762.190. 0001Bounds on condition number: 1. 354763,11. 59745在输出结果报告中,提供了进入回归变量逐次改变后回归方差分析和拟合的信息。在报告的 最后部分,列出了用逐步回归法挑选自变量过上海财经大学经济信息管理系IS/SHUFEPage 19 of 48Unit33Stat.doc商务数据分析电子商务系列程,四个自变量按 runtime, age, runpulse, maxpulse先后次序进入回归模型。所有进入回归的变量在0.15的水平下是显著的,未进入回归的候选变量在0.15的水平下是不显著的。同时还概要地提供了每
35、个回归模型变化时的疋增加值、衣值、CP值、相应的F统计量、卩值。在逐步回归的每步细节中,还列出了条件指数的最小值:大值,以及每一个回归变量的类型2平方和。age变量进入模型后,疋值的增加值(Partial R29称为偏R2或部分R?)计算为(650.6657-632.9001) / 851.3815= 0.020867。如果按CP值选择最优子集,随着进入回归模型 中的自变量个数P从2增加到5个(包括截距), 相应 CP值从大到小为13.51976469、 12.224934556.82780371 和 4.76608569,按照 Mallows提出的回归模型最优自变量个数的选 择准则,CP=4
36、.76608569是最接近自变量个数P=5的模型。CP的计算公式见式(33.11),当P=5 时,CP=138.93001792/5.39197 - (31 - 2 X 5)= 4.76608569o因此,用逐步回归方法及CP值确认的拟合回归模型为:上海财经大学经济信息管理系IS/SHUFEPage 20 of 48Unit33Stat.doc商务数据分析电子商务系列oxygen 98.14788797 0.19773470 +Q.27 051297maxpulse Q.34810795runpulse 2.76757879runtime条件指数(condition number)为最大特征值
37、和每个特征值之比的平方根。我们看到,当模型 进入第四个自变量加。切“辰时,最大的条件指数 从较小的11.59745变成了较大的76.85135,说明 存在一定程度的共线性,根据前面例33.2的分析, 我们诊断这个共线性方程可能为runpulse maxpulse=Qo在向前、向后或逐步回归的变量选择过程中,都有一个判断是否可进入或剔除的显著水平,在 程序中是分别由model语句的选项slentry=和 必仪 =设定的,缺省的情况见表332。表33.2缺省的入选和剔除显著水平forwardbackwardstepwizeslentry0.500.15slstay0.100.15上海财经大学经济信
38、息管理系IS/SHUFEPage 21 of 48Unit33Stat.doc商务数据分析电子商务系列下面我们提供全部可能回归的程序,并且以衣值由大到小的排序输出。proc reg data= fitness ;model oxygen = age weight rstpulse oaxpulse runpulse runtime/selection= rsquare b ;在上述程序中,model语句的选项selection=rsquare,表示请求R2值最大法,选项b是表示要输出每种回归的回归系数。程序运行后,得到如表333所示的结果。表333用IV排序全部可能的变量数的逐步回归分析结果上
39、海财经大学经济信息管理系IS/SHUFEPage 22 of 48Unit33Stat.doc商务数据分析电子商务系列N = 31 Regreaaion Models for Dependent Variable: OXYGENParaneterNumber in Rpquare EstinatMModelroeptAGEWEIGHTRSTPULSEMAXPULSERUNPULSERUNTIME10.7433801082. 4218-3. 310610.1583834482. 4582-0. 206810.1199967059. 3325-0. 222510.0927765362. 2206-
40、0. 311410.0560459271. 2907-0.137610.0264884955. 4379-0.1041-20.7642469388. 4623-0.1504-3. 204020.7614238193. 088899-0. 0735-3.1402程序的输出包括所有只含一个变量的6种回归,含2个变量的15种回归总共有63种不同形式的回归模型。例如,含2个自变量按疋第 二个大值选择回归模型为,R2 =0.76142381,拟合 的回归模型为:oxygen=3.1402runtime93.0888 0.0735runpulse 若对每种变量个数,只要保留A?最大的两种情况,可在modt
41、l语句中加入选项best-2,即提交以下的程序:上海财经大学经济信息管理系IS/SHUFEPage 23 of 48Unit33Stat.doc商务数据分析电子商务系列 proc reg data= fitness ;model oxygen = age weight rstpulse maxpulse runpulse runtime/selection3 rsquare b best=2 ;run ;这一程序提供较为紧凑的输出报表,如表334所示的结果。表 33.4只保留疋最大两种情N =31Rereaaion Models for Dpndnt Variable: OXYGENParan
42、aterNxmbtr inR-aquareEotimatModelIntercwptAGEWEIGHT RSTPULSEMAXPULSERUNPULSERUNTIME10.7433801082.4218 -3. 310610.1583834482.4582 -0. 206820.7642469388. 4623-0.1504 -3. 204020.7614238193. 0888 -0. 0735-3.140230.81109446111.7-0.25649-0. 1309-2.825430.8099884480.900890. 3542-0.3751-2. 970240.8368181598
43、. 1479-0.1977 0. 2705-0.3481-2. 7676况的逐步回归分析结果通过上面的逐步回归分析,我们已经得到【归模型的自变量个数确定时的最优子集或次优子上海财经大学经济信息管理系IS/SHUFEPage 24 of 48Unit33Stat.doc商务数据分析电子商务系列集,但问题是我们到底应该选择几个自变量的回归模型呢?如表33.4中的3个自变量、4个自变量、5个自变量、6个自变量的回归模型中该选哪一个模型呢? 一种最简便确定回归模型的自变量个数的方法是Mallows的Cp方法。确定好模型的 自变量个数后,根据表334就很容易确定在这个固定自变量数下,最优的自变量组合和相
44、应的参数值估计。以下的程序是对所有可能的回归按Cp由小到大进行排序并保留其前5种,并绘制Cp图。goptions reset=global gunit=pct cback=white borderhtitle=6 htext=3 ftext=swissb colors=(back);title 9Cp plot with Reference Lines;prcc reg data= fitness ;model oxygen = age weight rstpulse maxpulse runpulse runtime /selection=cp adjrsq best=5 ;plot cp
45、* np /chocking=red cmallows=bluevaxis=0 to 15 by 2haxis=0 to 8 by 1;run ;Model语句中的selection=cp选项请求计算 Mallows的Cp统计量。选项adjrsq表示要显示每 种回归模型的统计量Adj-1?2o选项best=5表示保达式(注意统计量关键字母后的小圆点)表示上海财经大学经济信息管理系IS/SHUFEPage 25 of 48Unit33Stat.doc商务数据分析电子商务系列轴为Cp值,X轴为P值(P值包括截距项)。plot语句的选项chocking=red,表示画Cp=2P_Pfuii红色参考虚
46、线,其中P是子模型中含截距的参数个数,Pfuii是全模型中不含截距的参数个数。Hoching (1976)建议选择满足Cp2P-PfUii且CpWP的 模型。plot语句的选项cmallows=blue,表示画 4=沪蓝色参考实线,其中P是子模型中含截距的 参数个数。Mallows (1973 )建议考虑所有满足G较小且接近P的模型。这一程序的输出结果如表335和图331所示。表33.5按Cp由小到大进行排N = 31Regression Models for Dependent Variable: OXYGENC(p)R-squareAdjustedVariables in ModelInR
47、square4. 766090.836818150.81171325AGE MAXPULSE RUNPULSE RUNTIME5.000210. 848001810. 81760218AGE WEIGHT MAXPULSE RUNPULSE RUNTIME6. 752590 836903590.80428431AGE RSTPULSE MAXPULSE RUNPULSE RUNTIME(k R11M446序并保留其前5种逐步回归分析结果上海财经大学经济信息管理系IS/SHUFEPage 26 of 48Unit33Stat.doc商务数据分析电子商务系列Cp plot with Referen
48、ce LinesOXYGEN = 10224 -0.210ft AGE -0.0724 WEIGHT -0.0X8 RSTPUL9E +05047 MAXPUL9EPlot i i t CP*P CP = PCP = 2P - (P for full mod + 1图33.1带有Mallows和Hocking参考线的Cp散点图第三十四课从输出结果可看出,以Mallows 的建议为标准,age, maxpulse9runpulse和runtime四个变量进入回归模型时Cp最小(4.76609),且与P=4+l=5最接近,因为 5-4.766092X5-6=4o 而5.00021的模型满足要求,因
49、为5.00021 weight加入后,疋更大(0.848001810.83681815) o 不同的标准提 供不同的选择结果,这是常有的情况。非线性回归分析现实世界中严格的线性模型并不多见,它们或多或少都带有某种程度的近似;在不少情况下, 非线性模型可能更加符合实际。由于人们在传统 上常把“非线性”视为畏途,非线性回归的应用 在国内还不够普及。事实上,在计算机与统计软 件十分发达的令天,非线性回归的基本统计分析 已经与线性回归一样切实可行。在常见的软件包 中(诸如SAS、SPSS等等),人们已经可以像线 性回归一样,方便的对非线性回归进行统计分析。上海财经大学经济信息管理系IS/SHUFEPa
50、ge 28 of 48Unit33Stat.doc商务数据分析电子商务系列因此,在国内回归分析方法的应用中,已经到了“更上一层楼”,线性回归与非线性回归同时并重的时候。对变量间非线性相关问题的曲线拟合,处理的方法主要有:首先决定非线性模型的函数类型,对于其中可线性化问题则通过变量变换将 其线性化,从而归结为前面的多元线性 回归问题来解决。若实际问题的曲线类型不易确定时,由 于任意曲线皆可由多项式来逼近,故常可用多项式回归来拟合曲线。若变量间非线性关系式已知(多数未 知),且难以用变量变换法将其线性化, 则进行数值迭代的非线性回归分析。六、可变换成线性的非线性回归在实际问题中一些非线性回归模型可通过变 量变换的方法化为线性回归问题。例如,对非线 性回归模型(34.1)兀=S + 工仏 COS/X + bi sin 兀)+ t上海财经大学经济信息管理系IS/SHUFEPage 29 of 48Unit33Stat.doc商务数据分析电子商务系列即可作变换:xt = cos xt, x2t = sin xt, x3l = cos 2xt, x4t = sin 2x,将其化为多元线性回归模型。一般地,若非线 性模型的表达式为:X =久 +)+)+ + 仏(兀)(34.2)则可作变量变换:X: = g|g),X; = &2(兀),,心=g“b)(34.3)将其化为线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 一千根弦续写350字10篇范文
- 我的语文老师350字(12篇)
- 时尚的鸭子课件
- 小学生元宵节作文202514篇
- 纪检业务知识培训课件讲稿
- 早期报警实操培训知识课件
- 《新编商务应用文写作》第二章 习题参考答案
- 商业场地租赁合同解除协议
- 2025年无损检测资格证考试超声波无损检测工程师试卷
- 纪律处分条例课件教学
- 医疗数据共享
- 工贸行业可燃性粉尘作业场所工艺设施防爆技术指南(试行)
- 农业合作社线上线下营销方案
- 第1课时 化学方程式的意义及书写课件2024-2025学年人教版九年级化学
- 制药人职业素养培训
- 2024年白酒酿造技术师知识考试题库与答案
- HG∕T 4586-2014 化工用缠绕成型钢丝网骨架聚乙烯复合管
- DL∕T 1100.1-2018 电力系统的时间同步系统 第1部分:技术规范
- 2024阿克苏拜城县招聘社区工作者(30人)笔试备考题库及答案解析
- GB/T 22581-2024混流式水泵水轮机基本技术条件
- (完整版)12123交管学法减分考试题及答案
评论
0/150
提交评论