版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
spss多重线性回归逐步回归法操作和结果解释方法•浏览:16524•浏览:16524TablesMixedModels.CorrelateRegressionLoglinearScaleMu!tinonriialLegist<:,rNeuralNetworksClas-shyDimensionReductionReportsDescriptiveStatisticsTablesMixedModels.CorrelateRegressionLoglinearScaleMu!tinonriialLegist<:,rNeuralNetworksClas-shyDimensionReductionReportsDescriptiveStatisticsCjcnpareMeansGeneralLinearModelNonparametricTestsForecastingSurvivalstrnt.&:'wasle变量36.36.任1.97.19;•切,GeneralizedLinearMadeJs]BinaryLogistic...百度师傅最快的到家服务,最优质的电脑清灰!spss经常用到的一个回归方法是stepwise,也就是逐步回归,它指的是每次只纳入或者移除一个变量进入模型,这个方法虽然好用,但是最后可能出现几个模型都比较合适,你就要比较这几个模型的优劣,这是个麻烦事,这里就给大家简单的分析分析。方法/步骤1.打开spss以后,打开数据,这些都准备好了以后,我们开始拟合方程,在菜单栏上执行:analyze---regression---linear,打开回归拟合对话框闾PartialLeastSquare®.^.2.,我们将因变量放大dependent栏,将自变量都放到independent2.LiBear£egresai.«&^工业企业用地饷助胡"金属制造业用咆[mei.妒道辐、批赛企业用地...疹卷售业用地[retaiil就宾馆、擀洗Ik用地值一.rBlock1列Bqirtstffip...册何・Dependent::*li雀囹痈丽。徊洞HEthOd:By[,Pr&vjaus夕王业企业用地(indvslj质段届制造业用杷叩导阁割"这输、拂戡俭业用地|血t楣[旺日已口口nd巨nt[涅);Enter3.将method设置为stepwise,这就是逐步回归法4.点击ok按钮,开始输出拟合结果我们看到的第一个表格是变量进入和移除的情况,因为这个模型拟合的比较好,所以我们看变量只有进入没有移除,但大部分的时候变量是有进有出的,在移、,海i那欢En&red除的变量这一栏也应该有变量的、,海i那欢En&red■^7Stepwise(Cri^ria:移除的醐ft050.Pnoij^bility-ol-F-lQ-reniov^>=.1蜘业用删Stepwise(Gri^ria;业用删ProLahilit;-nf-F-ig-enter,050bPr孙部ili牛汗F-I(34eniavfiy.10D).Ste-Owis^(Criteria:Probability'of-F--l3'enter<=,Q5Q.Prohablli^-o^F-lt»-rem(yve整.10€).(Gril&ria:Profciahility-of-F-la-enter'<=.050.第二个表格是模型的概况,我们看到下图中标出来的四个参数,分别是负相关系数、决定系数、校正决定系数、随机误差的估计值,这些值(除了随机误差的估计值)都是越大表明模型的效果越好,根据比较,第四个模型应该是最好模型的概况随机误差复相关系数决定系数校正谀定毒数的估计值\J/ /^tactefSunwiary zModelRLtRSquireAdjtKted凡却型.Std.Errorof就切sq咋拒ii,6注.6692,sg&b.903.792\3,耐.@114画g.521.14*47方差分析表,四个模型都给出了方差分析的结果,这个表格可以检验是否所有偏回归系数全为0,sig值小于0.05可以证明模型的偏回归系数至少有一个不为零AMOVfl^SumolModel_Squ噩典UThlsGriSguareF洒1Hegression3.45fl13.45079S85000bPesidual1囊36.043Toial5.095392Regression4.09122.0^575329,■OODGP^idual37,027Total5.0953S3Regression4.2043140156.621,000dResidual89136.025Total5.095394Regression4.32441.09149.037.00DeResidual-77T35.022Total5.095的DepiI何entVarialite:E汰」-也:排放!。Pretficlors:(Conshnlj,罚!K、餐忙臼兀电e_Pr酒电si(Consfet^脚-餐鼬皿i■:•辎•批糕**岑您土PrMi雨尊tCon血商,宜布、辔仗敦周地-•/输・眦窟住业用地,工讪酿通雨地g参数的检验,这个表格给出了对偏回归系数和标准偏回归系数的检验,偏回归系数用于不同模型的比较,标准偏回归系数用于同一个模型的不同系数的检验,其值越大表明对因变量的影响越大。标准偏回偏1口1白系豹 攻缺亦bMocfel'"XUrKtandardi^d、CaeFFkientsStandandizedS&g.BStd.Error] (Cwstanft)蓟官、希枕业用地.147.010.042回1.B23I.+958.9Z7.001.DOD2 (ccmsana)瀚、翌慎业用地运都、掰发企业用地.ODD心明.001,WQ.5753.806十旧57.001曲0,00。3 仁西5品闵宾谊、金饮业用地远输・比发企处用增工ik洛业用境,134-OOB.0即,(B2,Ml.M0.MO.陈.449土54.1779-0K,就.005.039建搭、黄设世用她运输、批发企业用始工业企业用询零岳止用地.123,013.CDO-5.22^-05,031.002.300.000.(KQ1.073.翊-.Z21-.141■t.Ol-t5.934,00。.flOQ.利囱Depen问tliable;固洋15服排做里END经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。第三十三课 逐步回归分析一、 逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。在可能自变量的整个集合有40到60个,甚至更多的自变量的情况下,使用“最优”子集算法可能并不行得通。那么,逐步产生回归模型要含有的X变量子集的自动搜索方法,可能是有效的。逐步回归方法可能是应用最广泛的自动搜索方法。这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。从本质上说,这种方法在每一步增加或剔除一个X变量时,产生一系列回归模型。增加或剔除一个X变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F统计量来表示。无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的。通常在多元线性模型中,我们首先从专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对口选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。这样经若干步以后便得“最优”变量子集。逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。Efroymoson(1966)编的程序中,有两个F水平,记作%和马妒在每一步时,只有一个回归因子,比如说X,•,如果剔除它可能引起RSS的减少不超过残'差均方MSE(即ESS/(N-k-1))的Fout倍,则将它剔除;这就是在当前的回归模型中,用来检验=0的F比是小于或等于Fout.°Ut 1若剔除的变量需要选择,则就选择使RSS减少最少的那一个(或等价的选择F比最小的)。用这种方式如果没有变量被剔除,则开始引进一个回归因子,比如X.,如果引进它后使RSS的增加,至少是残差均方的FJ倍则将它引进。即若在当前模型加?.项后,为了检验j=0的F比,F>1时,则引进X,其次,若引进的变量需要选择,则选择F比最大的。程序按照上面的步骤开始拟合,当没有回归因子能够引进模型时,该过程停止。二、 变量选择的方法若在回归方程中增加自变量X,称为“引入”变量X,将已在回归方程中的自变量Xj从回归方程中删除,则称为“剔除”变量X。无论引入变量或剔除变量,都要利用F检验,将显著的变量引入回归方程,而将不显著的从回归方程中剔除。记引入变量F检验的临界值为F((进],剔除变量F检验的临界值为F"出),一般取F.>Fout,它的确定原则一般是对k个自变量的m个(m<k),对显著性水平切1=1,df2=的F分布表的值,记为F*,则取F^F叫=F*。一般来说,也可以直接取F,=Fou=2.0或2.5。当然,为了回归方程中还能够多进入一'些自变量,甚至也可以取为1.0或彳.5。变量增加法首先对全部k个自变量,分别对因变量y建立一元回归方程,并分别计算这k个一元回归方程的k个回归系数F检验值,记为{},选其最大的记为=max{},若有>尸扩则首先将*引入回归方程,不失一般性,设*就是X]。接着考虑X]分别与X2X3,...Xk与因变量y组成二元回归方程,对于这k-1个回归方程中X2,...,Xk的回归系数进行F检验,计算F值,并选其最大的F值,若>F,•疽则接着就将Xj引入回归方程,不失一般性,设X.就是x2。 " 7对已经引入回归方程的变量x1和X2,如同前面的方法做下去,直至所有未被引入方程的变量的F值均小于Fn时为止。这时的回归方程就是最终选定的回归方程。显然,这种增加法有一定的缺点,主要是,它不能反映后来变化的情况。因为对于某个自变量,它可能开始是显著的,即将其引入到回归方程,但是,随着以后其他自变量的引入,它也可能又变为不显著了,但是,并没有将其及时从回归方程中剔除掉。也就是增加变量法,只考虑引入而不考虑剔除。变量减少法与变量增加法相反,变量减少法是首先建立全部自变量X],x2,...,xk对因变量y的回归方程,然后对k个回归系数进行F检验,记求得的F值为{},选其最小的记为=min{},若有<F。相,则可以考虑将自变量X,从回归方程中剔除掉,不妨设X•.就取为*。 河再对X2,X3,...,Xk对因变量y建立的回归方程重复上述过程,取最小的F值为,若有<Fout,则将*•也从回归方程中剔除掉。不妨设*•就是X2。重复前面的做法,直至在回归方程中"的自变量F检验值均大于Fout,即没有变量可剔除为止。这时的回归方程就是最终的回归方程。这种减少法也有一个明显的缺点,就是一开始把全部变量都引入回归方程,这样计算量比较大。若对一些不重要的变量,一开始就不引入,这样就可以减少一些计算。变量增减法
前面的两种方法各有其特点,若自变量X],x2,...,l完全是独立的,则可结合这两种方法,但是,在实际的数据中,自变量X],x2,...,x.之间往往并不是独立的,而是有一定的相关性存在的,这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的贡献也会发生变化。因此一种很自然的想法是将前两种方法综合起来,也就是对每一个自变量,随着其对回归方程贡献的变化,它随时可能被引入回归方程或被剔除出去,最终的回归模型是在回归方程中的自变量均为显著,不在回归方程中的自变量均不显著。三、 引入变量和剔除变量的依据如果在某一步时,已有个变量被引入到回归方程中,不妨设为,即已得回归方程:并且有平方和分解式:(33.1)显然,回归平方和及残差平方和均与引入的变量相关。为了使其意义更清楚起见,将其分别设为RSS()及ESS()。下面我们来考虑,又有一个变量(l<i<被引入回归方程中,这时对于新的回归方程所对应的平方和分解式为:(33.2)TSS=RSS(,)ESS(,)当变量X.引入后,回归平方和从RSS()增加到RSS(,),而相应的残差平方和却从ESS()降到ESS(,),并有:(33.3)RSS(,)-RSS()=ESS()-ESS(,)记,它反映了由于引入后,对回归平方和的贡献,也等价于引入后残差平方量,称其为对因变量的方差贡献,故考虑检验统计量:,和所减少的(33.4)其中为样本量,是已引入回归方程的变量个数,这时若有,则可以考虑将自变量引入回归方程,否则不能引入。实际上大于F的变量开始时可能同时有几个,那么是否将它们都全部引入呢?实际编程序.n时并不是一起全部引入,而是选其最大的一个引入回归方程。关于剔除变量,如果已有个变量被引入回归方程,不失一般性,设其为,所对应的平方和分解公式为:(33.5)其中为了研究每个变量在回归方程中的作用,我们来考虑分别删掉X.(/=1,2,...,Z后相应的平方和分解公式为:(33.6)这时,回归平方和从降为,同时残差也发生相应的变化。残差平方和从增加到,对回归平方和的贡献,也等价于删除后残差平方和所增加的量,同理可表示为:(33.7)同理,我们来构造检验统计量:(33.8)(33.9)显然,这时■越小,则说明在回归方程中起的作用(对回归方程的贡献)越小,也就是若I有,则可以考虑将自变量从回归方程中剔除掉,我们在编程序时,每次只剔除一个,因此,我们每次选择最小的来与进行比较。若有则可以不考虑剔除,而开始考虑引入。四、逐步回归在使用过程中要注意的问题逐步回归在计算过程中,进入和剔除变量规则的差别在例子中有可能得到说明。例如,可以根据F.统计量中MSE的自由度来使用不同的Fin和。但是,往往并不使用这种提纯量,而是使用固定的F值,因为在搜索过程的重复检验中,并不可能得到精确的概率解释。最低可接受Fn决不应小于最高可接受,否则就有可能重复进入和剔除一个自变量。自变量进入模型的顺序并不反映它们的重要程度。例如,第一个进入模型的X1,最终却可能被剔除。我们使用的逐步回归程序,在每个阶段上都打印出偏相关系数。对于筛选变量来说,使用这些相关系数与使用F.值是等价的,事实上,有些程序就是使用偏相关系数来筛I选变量的。进入和剔除一个变量的F限不必根据近似显著性水平选定,但可以根据误差缩减量来描述性地确定。例如,一个进入变量的F限2.0可以这样来说明:变量一旦进入模型,那么,进入变量的边际误差缩减量至少应该是剩余误差均方的二倍。逐步回归方法的一个局限是预先假定有单一的最优X变量子集,从而来进行识别。正如前面已经提到的,常常并没有唯一的最优子集。因此,一些统计学家建议,求得逐步回归的解!后,拟合所有可能与逐步回归解的自变量个数相同的回归模型,以研究是否存在更好的X变量子集。逐步回归方法的另一个缺点是当X变量高度相关时,有时会得到不合理的“最优”子集。也有人提出好几种其他寻找“最优”自变量子集的自动搜索方法。我们这里提一下其中的两种。但这两种方法都还未被接受为逐步搜索方法。其中之一为向前选元法,这种搜索方法只是逐步回归方法的简化,略去了检验进入模型的变量是否应被剔除这一步。其中之二为向后剔除法,这种搜索方法与向前选元法相反。它从包括所有X变量的模型开始,挑出值最小的那个变量。例如,假定为值最小的那个变量,有:(33.10)如果最小的值小于预定限,就剔除这个变量,然后拟合剩余的个自变量的模型,挑选下一个待剔除元。重复这种过程,直至没有自变量可以被剔除。因为向后剔除法是从最大可能模型开始的,所以它比向前选元法需要更多的计算量。但是,向后剔除法有一个优点,它可以使使用者明白含有许多变量模型的复杂性。五、 stepwise逐步回归过程stepwise过程对逐步回归提供了九种方法。当你有许多自变量且想找出哪些自变量是该选入回归模型时,stepwise是有用的。由于stepwise可以使你深入地了解自变量与因变量或响应变量之间的关系,因此,它对考察分析是很有帮助的。但是,stepwise并不能保证给你“最好”的模型,甚至具有最大R2的模型也不一定是“最好”的,并且靠这些均值演变得来的模型没有一个可以保证它精确地描述了真实世界的过程。stepwise与rsquare以及其他过程是不同的。rsquare对所有自变量的组合找出R2,所以它可以指出具有最大R2的模型。而stepwise在挑选变量时选择下面描述的方法,所以,当stepwise判断模型时,它打印一份多个回归报告。1. stepwise过程提供的九种模型(1)none(全回归模型)。没有对回归变量进行筛选,建立与全部自变量的全回归模型。/brward(向前选择)。向前选择技术以模型中没有变量开始,对每个自变量,forward计算反映自变量对模型的贡献的F统计量。这些F统计量与model语句中给出的slentry=水平上的值相比较,如果F统计量的显著水平没有一个比slentry=水平上(如果缺省slentry=这个参数,则显著水平假设为0.50)的值大,则forward停止。否则,forward在模型中加入具有最大F统计量的变量,然后forward再计算这些变量的F统计量直到剩下的变量都在模型的外面,再重复估计过程。变量就这样一个接一个地进入模型直到剩下的变量没有一个可以产生显著的F统计量。一旦一个变量进入了模型,它就不再出去了。♦如成财d(向后淘汰)。向后淘汰技术以计算含有全部自变量的模型的统计量为开始。然后变量一个接一个地从模型中剔除,直到留在模型中的所有变量产生的F统计量的显著水平在slstay=水平上(如果缺省slstay=这个参数,则显著水平假设为0.10)。在每一步,剔除对模型贡献最小的变量。stepwise(逐步回归,向前且向后)。逐步方法是向前选择的修正。对已在模型中的变量,不一定必须一直在模型中,这点与向前选择法是不同的°stepw,se按照向前选择方法选入变量后,还考察模型中所包含的所有变量并剔除使得F统计量的显著水平不在slstay=水平上的变量。只有在完成检验和必要的剔除之后,其他变量才可再进入模型。当模型外的变量没有一个使F统计量在slentry=水平上显著且模型中的每个变量在slstay=水平上显著,或加到模型中的变量是刚刚剔除的变量时候,逐步处理便结束了。5(具有对偶切换的向前选择)。最大R2改良技术是占优势的逐步技术,它几乎与所有可能的回归一样好。不像上面三种技术,这个方法不是落在单个模型上,而是试着找出最佳一变量模型、最佳二变量模型等等,但它不能保证对每个量度都能找到具有最大R2的模型。maxr方法先找出一个产生最大R2值的变量,然后再加入另一个次最大R2值的变量,从而形成二变量的模型。形成二变量的模型之后,将模型中的变量与模型外的变量相比较,以决定是否移去一个变量而以另一个能生成更大R2值的变量来代替。全部比较结束后,便得到了最佳二变量模型。依次往下,便得到最佳三变量模型等等。mi^•(具有对偶搜索的向前选择)。最小R2增量法非常类似于maxr,只是选择准则为产生最小R2增量。对模型中一个已知的变量数,maxr和minr通常产生同样的“最佳”模型,但是minr在每步中考虑较多的模型。rsquare(R2选择法)。按给定样本的R2大小准则选择最优的自变量子集,但不能保证对总体或其他样本而言是最优的。用户可以规定出现在子集中自变量的最大和最小个数及被选择的每种子集的个数。R2选择法总能够对所考虑变量的每种变量个数找到具有最大R2的模型,但需要很多的计算时间。a^/rsq(修正R2选择法)。该方法类似于rsquare法,只是对于选择模型使用的准则为修正R2统计量。修正公式见(32.27)式。Mallows的q统计量。&统计量是由Mallows提出的作为选择模型的判别式的变量。Cp是一个误差平方总和的量度:(33.11)其中,P是模型中包括截距项的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东惠州博罗县招聘医疗卫生单位工作人员90人备考题库含答案详解(a卷)
- 2026河南郑州经纬科技实业股份有限公司招聘高端人才7人备考题库附答案详解(满分必刷)
- 2026江西南昌市劳动保障事务代理中心招聘外包工程技术人员备考题库附答案详解(夺分金卷)
- 2026江苏南通市海安经济技术开发区西场办事处招聘公益性岗位人员3人备考题库及完整答案详解一套
- 2025浙江金华市金投集团有限公司人员招聘情况笔试历年难易错考点试卷带答案解析
- 2026云南昆明市富民县卫健系统人才引进3人备考题库有答案详解
- 2025浙江温州市城市建设发展集团有限公司春季招聘15人笔试历年难易错考点试卷带答案解析
- 2026中银消费金融春季校园招聘37人备考题库附答案详解(典型题)
- 2026中核海洋核动力发展有限公司春季校园招聘备考题库附答案详解(培优)
- 2026四川成都市简阳市人力资源社会保障信息中心招聘编外工作人员6人备考题库含答案详解(能力提升)
- 更换引流袋技术操作
- 部编人教版小学4四年级《道德与法治》下册全册教案
- 歌词:半生雪(学生版)
- 2025高考数学一轮复习-7.6-利用空间向量求空间角、距离-专项训练【含解析】
- 《 大学生军事理论教程》全套教学课件
- 反推装置 (1)课件讲解
- 英文科技论文写作
- XX县群文阅读课题中期成果报告:县域性推进小学群文阅读教学实践研究中期研究成果报告课件
- LY/T 2271-2014造林树种与造林模式数据库结构规范
- GB/T 38658-20203.6 kV~40.5 kV交流金属封闭开关设备和控制设备型式试验有效性的延伸导则
- GB/T 19409-2013水(地)源热泵机组
评论
0/150
提交评论