




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、违抗大体假设的情形一、异方差产生的缘故在成立实际问题的回归分析模型时,常常会显现某一因素或一些因素随着说明变量观测值的转变而对被说明变量产生不同的阻碍,致使随机误差项产生不同的方差。即:var6)Wvar),当iw/时。利用平均数作为样本数据,也容易显现异方差性。因为正态散布的普遍性,许多经济变量之间的关系遵从正态散布。例如不同收入水平组的人数随收入增加呈正态散布。若是在以不同收入组的人平均数据作为样本时,由于每组中人数不同,观看误差也不同。一样来讲,人数多的收入组的人均数据较人数少的收入组人均数据具有较高的准确性。这不同的观看误差也会引发异方差性,且var6)随收入的增加呈先降后升的趋势。样
2、本数据为截面数据时容易显现异方差性。二、异方差性带来的问题当存在异方差性时,最小二乘估量量不在具有最小方差的优良性,参数向量6的方差大于在同方差条件下的方差,若是用一般最小二乘法估量参数,将显现低估方的真实方差的情形。将致使回归系数的t查验值高估,可能造本钱来不显著的某些回归系数变成显著。当存在异方差时,一般最小二乘法估量存在以下问题:一、参数估量值尽管是无偏的,但不是最小方差线性无偏估量。二、参数的显著性查验失效。3、回归方程的应用成效极不睬想。三、异方差性的查验一、残差图分析法残差图分析法是一种尽管、方便的分析方式。它以残差为纵坐标,以其他适宜的变量为横坐标画散点图。经常使用的横坐标有三种
3、选择:(1)以拟合值为横坐标;(2)以七(i=12,p)为横坐标;(3)以观测时刻或序号为横坐标。国5.6几种常见的残差分布示意图线性关系成立;(b)x加入二次方项;(c)存在异方差,需要改变x形式(d)残差与时刻t有关。可能遗漏变量或存在序列相关,需要引入变量。二、品级相关系数法品级相关系数乂称斯皮尔曼(Spearman)查验,是一种应用较普遍的方式。这种查验方式既可用于大样本,也能够用于小样本。进行品级相关系数查验通常有三个步骤:第一步,做y关于x的一般最小二乘回归,求出与的估量值,即6的值第二步,取c的绝对值,即|,把,和,1按递增或递减的顺序排列后分成品A级,按下式计算出品级相关系数:
4、4=1?y<2,其中,n为样本容量,4为对应于七和I的品级的差数。第三步,做品级相关系数的显著性查验。在n8的情形下,用下式对样本品级相关系数G进行t查验,查验统计量为:天'匕三,若是,<2伽-2)能够以为、卜-r;异方差性问题不存在,若是-2),说明七与|白|之间存在系统关系,异方差性问题存在。(在那个查验中,原假设为:不存在异方差性)3、实例1分析用一般最小二乘法成立储蓄与居民收入的回归方差,并画出残差散点图:诊断该问题是不是存在异方差性。数据如下所示:储蓄y264居民收入X8777天等级1残差,efl残差色|等级164-15d;225105921023-1190995
5、437-4161311050848-41612210979515-1010010711912623-1728940612747725255031349981749431142699900588155221046368981673011101195017663126636779185751314-11819196351419-525122221163155101001702228801628-121441578241271718-1116542560418117491400265001920-1118292767020128612200283002129-8612017274302227-525
6、210529560232211160028150241311121225032100251786424203250026251125703525027216361720335002830-241900360002931-2421003620030264162300382003124749用SPSS软件成立y对x的一般最小二乘回归,决定系数/二,回归标准差万二,回归方程为y=-64&124+0.084女,相关输出表如下:ModelSummary6ModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.955a.912.909a. Predi
7、ctors:(Constant),xb. DependentVariable:yANOVAbModelSumofSquaresdfMeanSquareFSig.1Regression1.000aResidual29Total30a.Predictors:(Constant),xANOVAbModelSumofSquaresdfMeanSquareFSig.1Regression1.000aResidual29Total30b.DependentVariable:yCoefficients®ModelUnstandardizedCoefficientsStandardizedCoeff
8、icientstSig.BStd.ErrorBeta1(Constant)X.085.005.955.000.000a.DependentVariable:y画出残差散点图如下所示:残差图600.0400.0*亚H200.0<>-±盲0.011-L'*'''1加(500010g0104)000250000000350004000045000-200.0三-400.0-600.0从残差图能够看出,误差项具有明显的异方差性,误差岁X的增加而增加。计算品级相关系数,依照所给的数据表,能够通过品级相关系数步骤判定误差项是不是存在异方差。实际操作当中
9、,能够用SPSS实现,输出结果如下所示:CorrelationsXabseSpearmarTsrhoxCorrelationCoefficient.685,Sig.(2-tailed).000N3131abseCorrelationCoefficient.685”Sig.(2-tailed).000N3131*.Correlationissignificantatthelevel(2-tailed).能够看出品级相关系数r产,p值二,以为残差绝对值I4与自变量七.显著相关,存在异方差。计算残差绝对值I4I与自变量工的相关性时采纳Spearman品级相关系数,而不采纳Pearson简单相关系数,
10、这是由于品级相关系数能够反映非线性相关的情形,而简单相关系数不能如实反映非线性相关的情形。品级相关系数能够如实反映单调递增或单调递减趋势的变量间的相关性,而简单相关系数值适宜衡量直线趋势变量间的向关系。四、一元加权最小二乘估量当研究的问题存在异方差性时,就不能用一般最小二乘法进行参数估量了。排除异方差性的方式通常有加权最小二乘法、Box-Cox变换法、方差稳固变换法。关于一元线性回归方程来讲,一般最小二乘法的离差平方和为:。(为力)=之(%一4%)2=之(必一为一/?闯2,其中每一个观测值的权数相/=1/=1同。在等方差的条件下,平方和的每一项的地位是相同的。但是,在异方差的条件下,平方和中的
11、每一项的地位是不同的,误差项方差点大的项,在平方和式子中的作用就偏大,因此一般最小二乘估量的回归线就被拉向方差大的项,而方差小的项的拟合程度就差。加权最小二乘估量的方式是在平方和中加入一个适当的权数吗,以调整各项在平方和中的作用。一元线性回归的加权最小二乘的离差平方和为:。(&,用)=£。一旦凹)2=力"(上-人笈力,其中1=11=1吗为给定的权数。利用加权最小二乘法时.,为了排除异方差性的阻碍,为了使各项的地位相同,观测值的权数应该是观测值误差项方差的倒数,即吗=4。误差项方差较大的观测值同意较小的权数,误差项方差较小的观测值同意较大的权数。在社会、经济研究中,常
12、常会碰到这种特色的权数,即误差项方差与x的愚函数不成比例,其中,m为待定的未知参数。现在权函数为:附=二。利用一元加权最小二乘估量对实例I进行改良,SPSS输出结果如下:ModelSummaryMultipleR.967RSquare.936AdjustedRSquare.934Std.ErroroftheEstimate.125Log-likelihoodFunctionValueANOVASumofSquaresdfMeanSquareFSig.Regression1.000Residual.45529.016Total30改良后的模型可决系数,F值都较之前的有所提高。加权最小二乘估量照顾
13、小残差项是以捐躯大残差项为代价的,当回归模型存在异方差时,加权最小二乘估量只是对一般最小二乘法估量的改良,这种改良有可能是细微的,不能明白得为加权最小二乘估量必然会取得与一般最小二乘估量截然不同的回归方程,或必然有大幅度的改良。另外,加权最小二乘以捐躯大方差项的拟合成效为代价改善了小方差项的拟合成效,这也并不老是研究者所需要的。在社会经济现象中,通常变量取值大时方差也大,在以经济总量为研究目标时,更关切的是变量取值大的项,而一般最小二乘恰好能知足那个要求。因此在如此的一些特定场合下,即使数据存在异方差,也仍然能够选择利用一般最小二乘估量。五、多元加权最小二乘估量多元线性回归有多个自变量,通常取
14、权数卬为某个自变量,.(j=l,2,-,p)的塞函数,即卬=叫,在玉,勺,这p个自变量中,应该选取哪个自变量,这只需计算每一个自变量勺与一般残差的品级相关系数,选取品级相关系数最大的自变量构造权函数。六、自相关性若是一个回归模型不知足cov6,J)。0,那么称为随机误差项之间存在自相关现象。那个地址的自相关现象不是指两个或两个以上的变量之间的相关关系,而指的是一个变量前后期数值之间存在的相关关系。七、自相关产生的背景和缘故产生序列自相关的背景及缘故通常有以下几个方面。一、遗漏关键变量时会产生序列的自相关性。二、经济变量的滞后性会给序列带来自相关性。3、采纳错误的回归函数形式也可能引发自相关性。
15、例如,假定某实际问题的正确回归函数应由指数形式y=4)exp0M+£)来表示,但无用了线性回归模型),=自+回x+U表示,这时,误差项,也会表现为自相关性。4、蛛网现象可能带来序列的自相关性。(经济学中的蛛网模型)五、因对数据加工整理而致使误差项之间产生自相关性。八、自相关性带来的问题当一个线性回归模型的随机误差项存在序列相关时.,就违抗了线性回归方程的大体假设,仍直接用一般最小二乘法估量未知参数,序列相关性会带来以下问题:一、参数估量值再也不具有最小方差线性无偏性二、均方误差MSE可能严峻低估误差项的方差。3、容易致使对t值评判太高,经常使用的F查验和t查验失效。4、当存在序列相关
16、性时,/仍然是/?的无偏估量量,但在任一特定的样本中,p可能严峻歪曲夕的真实情形,即最小二乘估量量对抽样波动变得超级灵敏。五、若是不加处置地运用一般最小二乘法估量模型参数,用此模型进行预测和进行结构分析将会带来较大的方差乃至错误的说明。九、自相关性的诊断一、图示法图示法是一种直观的诊断方式,它是把给定的回归模型直接用一般最小二乘法估量参数,求出残差项,,6f作为随机项巴的真实值的估量值,在刻画。,的散点图,依照4的相关性来判定随机顶4的序列相关性。(1)绘制与,的散点图。图a说明随机扰动项存在正的序列相关,图b说明随机扰动项存在负相关。(2)依照时刻顺序绘制回归残差项储的图形,若是随着t的转变
17、逐次有规律地转变,呈现锯齿形或循环形状的转变,可断言储存在相关,说明J存在着序列相关。若是的随着t的转变逐次转变并非断地改变符号,如以下图d所示,那么随机扰动项J存在负的序列相关,这种现象称为蛛网现象;若是与随着t的转变逐次转变并非频繁地改变符号,而是几个正的,后面随着儿个负的,那么说明随着扰动项与存在正的序列相关,如以下图c所示。eyMA3A5A7.oX/0V2V4y6、8(d)(c)二、自相关函数法n)eeI自相关函数的估量值为万二一,?作为自相关系数P的估量值与样百后本量有关,需要做统计显著性查验才能确信自相关性的存在,通常采纳DW查验代替对方的查验。3、DW查验DW查验是适用于小样本的
18、一种查验方式,而且DW查验只能用于查验随机扰动项具有一阶自回归形式的序列相关问题。加12(1-方),计算出DW值后,依照样本容量n和说明变量的数量k(包括常数项)查DW散布表,得出临界值人和九。<<<,误差项力,巧,邑间存在正相关;乙«%,不能判定是否有自相关;<<dv>误差项与,£2,,J间无自相关;<<dL,不能判定是否有自相关;dL<<,误差项与,与,,间存在负相关。需要注意的是,DW查验尽管有着普遍的应用,但也有明显的缺点和局限性:(1) DW查验有两个不能确信的区域,一旦DW值落在这两个区域,就无法判定。
19、这时只有增大样本容量或选取其他方式;(2) DW统计量的上、下界表要求Q15,这是因为样本若是再小,利用残差就很难对自相关的存在性做出比较正确的诊断;(3) DW查验不适应随机顶具有高阶序列相关的查验(只能判定一阶)。十、自相关问题的处置方式一、迭代法设一元线性回归模型的误差项存在一阶自相关K=&+夕+与(1)(2)七(4)=0"=1,2,bJ=s亿s=l,2,0"丰s(2)式说明误差项存在一阶自相关,(1)式说明知足关于随机扰动项的大体假设。因此回归模型(1)有:乂-1=00+仇儿_+与_1(3)将(3)式两头乘以p,在用(1)式减去乘以p的(3)式,那么有(K-
20、P>-)=(A-PA)+dU-)+(与-J-I)(4)在(4)式中,令y;=K-Qi,X=七一。",月=为(1一夕),p=p于是(4)能够变成了=月+月优+“(5)模型(5)式有独立随机误差项,知足线性回归模型的大体假设,用一般最小二乘法估量的参数估量量具有通常的优良性。由于自相关系数是未知的,需要对P作估量。01-1。卬,计算出p的估量值后,带入计算变换因变量乂和变换2自变量考,然后用(5)式做一般最小二乘回归。一阶自相关模型,通过上述变换,已经排除自相关,迭代法到此终止。若是查验说明误差项从不存在自相关,迭代法终止,若是查验说明误差项必存在自相关,那么对回归模型(5)式重复
21、用迭代法,那个进程可能要重复儿回,直至最终排除误差项自相关。二、差分法差分法确实是用增量数据代替原先的样本数据,将原先的回归模型变成差分形式的模型。一阶差分法通常适用于原模型存在较高程度的一阶自相关情形。(乂一)小)=(夕0-&)+4(七一七_|)+(储一£1)用增量表示为:“=夕4,+4以差分数据上和加;为样本的回归方程。差分以后的模型,通常不带有常数项,它是回归直线过原点的回归方程。一阶差分的应用条件是自相关系数p=l,在实际应用中,p接近1时,就能够够采纳差分法而不用迭代法。有两个缘故:第一,迭代法需要用样本估量自相关系数P,对P的估量误差会阻碍迭代法的利用效率;第二,
22、差分法比迭代法简单,在成立时序数据的回归方程时,更适应于用差分法。3、科克伦-澳特克(Cochrane-Orcutt)迭代法方式一中的迭代法近似取。,能够利用其他迭代法给出P的更精准的估量,最经常使用的是科克伦-澳特克迭代法。以一元线性回归为例,用方式一计算出的。和回归系数,由(1)式的回归方程从头计算残差,取得心得残差序列后就能够够计算出新的DW值,新的?值和回归系数,若是新的力与前一次迭代的Q相差很小,低于给定的界限,就停止迭代,不然继续下一步迭代。需要说明的是,迭代的起始步骤以为是从第o步开始的,确实是用(1)式做一般最小二乘回归,想让于以为0二0。如此方式一中的迭代事实上包括第o步和第
23、1步共两步迭代进程,也称为科克伦-澳特克两步法。4、普莱斯-温斯登(Prais-Winsten)迭代法当样本量较小时每一个样本值都是宝贵的,为此能够利用普莱斯-温斯登变换,对t=l,令甘=J1一夕后=、十万修,通过普莱斯-温斯登变换的迭代法就称为普莱斯-温斯登变换迭代法。十一、异样值与强阻碍点异样值分为两种情形,一种是关于因变量y异样,另一种是关于自变量x异样。一、关于因变量y的异样值在残差分析中,以为超过±33的残差为异样值。标准化残差:ZRJ=Z,a学生化残差:SREk,。标准化残差使残差具有可比性,ZREJ>3的相叫/1-%应观测值即判定为异样值,这简化了判定工作,可是没
24、有解决方差不等的问题。学生化残差那么进一步解决了方差不等的问题,比标准化残差乂有所改良。可是当观测数据中存在关于y的异样观测值时,一般残差、标准化残差、学生化残差这三种残差都再也不适用,这是由于异样值把回归线拉向自身,使异样值本身的残差减少,而其余观测值的残差增大,这时回归标准差S也会增大,因此用3d准那么不能正确分辨出异样值。解决那个问题的方式是改用删除误差。删除误差的构造思想是:在计算第i个观测值的残差时,用删除掉那个第i个观测值的其余nT个观测值拟合回归方程,计算出第i个观测值的删除拟合值"),那个删除拟合值与第i个值无关,不受第i个值是不是为异样值的阻碍,概念第i个观测值的删
25、除残差为:=),,.-品),删除残差e较一般残差更能如实反映第i个观测值的异样性。能够证明,上一进一步能够给出第i个观测值的删1-ha除学生化残差,记为SR%=SR%(-I3,在实际应用当中,能够_p_1SRE;直接利用软件计算出删除学生化残差SH与)的数值,SR与)|3的观测值即判定为异样值。二、关于自变量X的异样值有。(巧)=(1-%)b2,其中杠杆值也表示自变量的第i次观测值与自变量平均值之间的远近。较大的杠杆值的残差偏小,这是因为大杠杆值的观测点远离样本中心,能够把回归方程拉向自身,因此把杠杆值大的样本点称为强阻碍点。强阻碍点并非必然是y值的异样值点,因此强阻碍点并非总会对回归方程造成
26、不良阻碍。可是强阻碍点对回归成效通常有较强的阻碍,这是由于一下两个缘故:第一,在实际问题中,因变量与自变量的线性关系只是在必然的范围内成立,强阻碍点原先样本中心,因变量与自变量之间可能已再也不是线性函数关系,因此在选择回归函数的形式时,需偏重于强阻碍点;笫二,即便线性回归形式成立,可是强阻碍点远离样本中心,能够把回归方程拉向自身,使回归方程产生偏移。由于强阻碍点并非老是y的异样值点,因此不能单纯依照杠杆值的大小判定强阻碍点是不是异样,为此,引入库克距离,用来判定强阻碍点是不是为y的异样值点。库克距离的计算公式为:。=库克距离反映了杠杆值/队与残差6大小的一个综合效应。杠杆值的平均值为万=1寸%
27、=丝1,一个杠杆值大于2倍或3倍的彳就以为是大的。中心化的杠杆n仁n值血因此有中心化杠杆值%的平均值是二;%=£,关于库克聚类大小标准的初略判定是:。0.5时,以为不是异样值点;当口1时,以为是异样值点。十二、异样值实例分析序号V*6SRE,0)SR%chi.2125-832-1490220758436-34-38410011272535525-458-5296825342750276871201471648289611297121138105321400-697-83711751160464951041240-151-16913187-145-1611412219521615749
28、581613x,y是原始数据,其他的列能够通过SPSS取得。从表中能够看到,绝对值最大的删除学生化残差为SRE=,因此依照学生化残差诊断以为第15个数据为异样值。其中心化杠杆值C出二位于第三大,库克距离。户位于第一大。由于%='=2=0.13333,第15个数据4?=>22,因此从杠杆值看第15个数据是自n15变量的异样值,同时库克距离大于1,如此第15个数据为异样值的缘故是由自变量异样与因变量异样两个缘故一起引发的。(删除学生化残差诊断了由于因变量异样引发的异样值,杠杆值和库克距离诊断了由于自变量异样引发的异样值)诊断出异样值后,进一步判定引发异样值的缘故,通常由以下几种。异常
29、值原因异常值消除方法1.数据登记误差,存在抄写或录入的错误重新核实数据2.数据测量误差重新测量数据3.数据随机误差删除或重新观测异常值数据4.缺少重要自变量增加必要的自变量5.缺少观测数据增加观测数据,适当扩大自变量取值范围6.存在异方差采用加权线性回归7.模型选用错误,线性模型不适用改用非线性回归模型对引发异样值的不同缘故,需要采取不同的处置方式。对本例数据通过核实以为不存在记录误差和测量误差。删除第15组数据,用其余14组数据拟合回归方程,发觉第6组数据的三处学生化残差增加为,仍然存在异样值现象,因此以为异样值的缘故不是由于数据的随机误差。本例数据存在的是异方差,应该采纳加权最小二乘回归。
30、用SPSS计算出加权最小二乘回归的有关变量值如下所示。序号/x2y%SRE,eiSR%chtiD,125-890-1165220202336-93-110410014037165525-343-4296825342771584171201261398284574976276105321400-582-6771175116046458651240-199-22313187-143-2241412217518915749161179采纳最小二乘回归后,删除学生化残差的绝对值最大者为,库克距离都小于,说明数据没有异样值。说明用加权最小二乘法处置异方差性问题的有效性。十三、异方差问题查验异方差的方式尽
31、管不同,但都有一个一起的思路。各类查验是设法查验与的方差与说明变量勺的相关性,一样是通过J的估量量4来实现这些查验。若是与与某一勺之间存在相关性,那么模型存在异方差。需要注意的是,加权最小二乘估量并非能排除异方差,只是能够排除异方差的不良阻碍。当存在异方差时,一般最小二乘估量再也不具有最小方差线性无偏估量等好的性质,而加权最小二乘估量那么能够改良估量的性质。加权最小二乘估量对误差项方差小的项加一个大的权数,对误差项方差大的项加一个小的权数,因此增强了小方差项的地位,使离差平方和中各项的作用相同。若是把误差项加权,那么加权的误差项际,是等方差的。从残差图来看,一般最小二乘估量只能照顾到残差大的顶,而小残差项往往有整体的正偏或负偏。加权最小二乘估量的残差图,对大残差和小残差拟合得都好,大残差和小残差都没有整体的正偏或负偏。当模型存在异方差性时候,往往还考虑对因变量作变换,使得对变换事后的数据,误差方差能够近似相等,即方差比较稳固,通常称这种变换为方差稳固化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化学清洗工技能比武考核试卷及答案
- 汽车铸造生产线操作工抗压考核试卷及答案
- 高空外墙清洗员适应性考核试卷及答案
- 深入探讨Z世代消费习惯新消费品牌产品研发方向报告
- 炭素特种材料工工艺考核试卷及答案
- 2025年文化礼品定制市场品牌竞争与市场定位研究报告
- 人才测评技术的现状与发展趋势-洞察及研究
- 性能调控机制研究-洞察及研究
- 智慧农业平台的构建与运营模式创新-洞察及研究
- 大数据分析算法优化-洞察及研究
- NB-T+10131-2019水电工程水库区工程地质勘察规程
- 法律顾问服务投标方案(完整技术标)
- 民办非企业单位年度调查报告书
- 消化道出血护理新进展
- 【浅析机械自动化技术的发展现状及发展趋势8900字(论文)】
- 新材料引领创新创造的新驱动器
- MOOC 大学计算机-思维与应用-周口师范学院 中国大学慕课答案
- (2024年)TWI培训课件完整版
- 防火防烟分区与分隔防火分区
- 《测绘管理法律与法规》课件-测绘标准化
- 职高数学公式与定理表
评论
0/150
提交评论