线性回归理论_第1页
线性回归理论_第2页
线性回归理论_第3页
线性回归理论_第4页
线性回归理论_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

线性回归理论-CAL-FENGHAI.-(YICAI)-CompanyOnel第七章线性回归分析管理中经常要研究变量与变量之间的关系,并据以做出决策。前面介绍的检验可以确定两个变量之间是否存在着某种统计关系,但是如果检验说明两个变量之间存在着某种关系,我们还是不能说明它们之间究竟存在什么样的关系。本章介绍的回归分析能够确定两个变量之间的具体关系和这种关系的强度。回归分析以对一种变量同其他变量相互关系的过去的观察值为基础,并在某种精确度下,预测未知变量的值。社会经济现象中的许多变量之间存在着因果关系。这些变量之间的关系一般可以分为两类:一类是变量之间存在着完全确定的关系,即一个变量能被一个或若十个其他变量按某种规律唯一地确定,例如,在价格P确定的条件下,销售收入Y与所销售的产品数量之间的关系就是一种确定性的关系:Y=P・X。另一类是变量之间存在着某种程度的不确定关系。例如,粮食产量与施肥量之间的关系就属于这种关系。一般地说,施肥多产量就高,但是,即使是在相邻的地块,采用同样的种子,施相同的肥料,粮食产量仍会有所差异。统计上我们把这种不确定关系称为相关关系。确定性关系和相关关系之间往往没有严格的界限。由于测量误差等原因,确定性关系在实际中往往通过相关关系表现出来;另一方面,通过对事物内部发展变化规律的更深刻的认识,相关关系又可能转化为确定性关系。两个相关的变量之间的相关关系尽管是不确定的,但是我们可以通过对现象的不断观察,探索出它们之间的统计规律性。对这类统计规律性的研究就称为回归分析。回归分析研究的主要内容有:确定变量之间的相关关系和相关程度,建立回归模型,检验变量之间的相关程度,应用回归模型进行估计和预测等。第一节一元线性回归分析、问题的由来和一元线性回归模型例71。某地区的人均月收入与同期某种耐用消费品的销售额之间的统计资料如表71所示。现要求确定两者之间是否存在相关关系。表7-1年份1987198819891990199119921993199419951996人均收入1.61.82.33.03.43.84.54.85.25.4销售额(白力元)4.75.97.08.210.5121313.51415如果作一直角坐标系,以人均收入尤为横轴,销售额y.为纵轴,把表7-1中的数据画在这个坐标系上,我们可以看出两者的变化有近似于直线的关系,因此,可以用一元线性回归方程,以人均收入为自变量,以销售额为因变量来描述它们之间的关系。即:y.=a+bx+e (i-1,2,,n)其中:).是因变量Y的第i个观察值,乂「是自变量X的第i个观察值a与b是回归系数,n是样本容量,e.为对应于Y的第i个观察值的随机误差,这是一个随机变量。

在上述线性模型中,自变量X是个非随机变量,对于X的第i个观察值X,Y的观察值y是由两个部分所组成的:bx和e,前者是一个常数,i i ii后者是一个随机变量,所以也是一个随机变量。对于上述回归模型中的随机误差e要求满足如下的假设条件:i1、设。2、设。3、应当是服从正态分布的随机变量,即ei满足“正态性”的假e的均值为零,即E(e)1、设。2、设。3、i i ie的方差等于b2(e)=e2,这就是说,所有的e分布的方差都相i ii i同,即满足“共方差性”的假设。4、各个e,间相互独立,即对于任何两个随机误差e‘和e^(丰j)其协方差等于零,即:Cov(e『ej)=0,(主j))这称之为满足“独立性”的假设。综上所述,随机误差必须服从独立的相同分布。基于上述假定,随机变量的数学期望和方差分别是:E(y.)=a+bxb2(e)=e2由此:y~N(a+bx,e2)i ii这就意味着,当x=x时,y是一个服从正态分布的随机变量的某一个取值。如果不考虑式中的误差项:我们就得到简单的式子:y=a+bx这一式子称为Y对X的回归方程。依据这一方程在直角坐标系中所作的直线就称为回归直线。二、模型参数的估计和估计平均误差1、回归参数的估计回归模型中的参数。与b在一般情况下都是未知数,必须根据样本数据(X,y)来估计。确定参数a与b值的原则是要使得样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。为此,可以采用“最小二乘法”的办法来解决。对应于每一个X,,根据回归直线方程(7-1)可以求出一个言,它就是y,的一个估计值。估计值和观察值之间的偏差e=^y,-y.)。有n个观察值就有相应的n个偏差。要使模型的拟合状态最好,就是说要使n个偏差的总和最小。但为了计算方便起见,我们以误差的平方和最小为标准来确定回归模型。这就要求是个极小值。根据微积分中的极值定理,要使上式取极值,其对a与b所求的偏导数应为0,即经整理后可得:解上式,可得:于是,得到参数a与b的简单表达形式如下:求出参数a与b以后,就可以得到回归模型由此,只要给定了一个X.值,就可以根据回归模型求得一个y,来作为实际值y,的预测值。’ ^2、估计平均误差的计算对于给定的X,根据回归模型就可以求出y的预测值。但是用§来预测i i iy的精度如何,产生的误差有多大是统计上所关心的。统计上用估计平均误差这个指标来度量回归方程的可靠性,对回归方程进行评价。估计平均误差可以用第一章中所述的度量一组观察值的离差的方法来度量。但是这次估计平均误差是根据观察值与回归直线的偏离来计算的。一个回归模型的估计平均误差或剩余标准离差由下式定义:值得注意的是上式中分母是用(n-2)而不是(n-1)或n去除,这是因为n个观察值的数据点用于计算参数。与b时失去了2个自由度,还余下(n-2)个自由度。运用估计平均误差可以对回归方程的预测结果进行区间估计。若观察值围绕回归直线服从正态分布,且方差相等,则有68.27%的点落在土Se的范围内,有95.45%的点落在±2刘的范围内,有99.73%的点落在土35「的范围内。 " "三、回归模型的检验回归方程建立以后还需要检验变量之间是否确实存在线性相关关系,因为对回归参数的求解过程并不需要事先知道两个变量一定存在相关关系。对一元线性回归模型的统计检验包括两个内容:一是线性回归方程的显著性检验,二是对回归系数进行统计推断。下面我们分别讨论这两个问题。(一)线性回归方程的显著性检验1、方差分解回归分析中需要分析使用Y与X之间的线性相关关系的估计模型y=a+bx来估计y时所产生的误差和所减少的误差,这称为回归中的方差分析。若没有利用Y与X之间的相关关系来估计总体的均值,我们就会选择y的平均值y作为总体的估计值。由此而产生的误差是£(y-y)2,我i ii们称之为“总离差平方和”,记为SST。若利用Y与X之间的线性相关关系的估计模型去估计总体均值,则所产生的误差是:£(yi-yi)2,我们称之为残差平方和,记为SSE。为了说明SST与SSE之间的关系,我们对SST进行分解。若记SSR=£(y-y)SSE=£(y-y>ii ii则SST=SSR+SSE图7-1:三种误差之间的关系SSR反映了由于利用Y和X之间的线性回归模型y,・来估计Y的均值时,而不是简单地利用y来估计Y的均值时,使得总误差SST减少的部分,因此统计上称之为“可解释误差”。SSE是利用Y与X之间的线性回归模型来估计Y的均值时仍然存在的误差,因此称之为“不可解释误差”。于是,上式实际上就表示:总误差二可解释误差+不可解释误差图7-1直观地表示了三种误差之间的相互关系。2、相关分析对于任何给定的一组样本M.y.)(i=1,2,-n)都可以用最小二乘法建立起一个线性回归模型,相应地就可以得到一条回归直线。但是,这样的一条回归直线并不是总有意义的。只有当变量X与Y之间确实存在某种因果关系时,其回归直线才有意义。统计学中要确定变量X和Y之间是否确实存在线性相关,通常利用相关系数来检验。相关系数记作,或,2,它能够较精确地描述两个变量之间线性相关的密切程度。相关系数可以定义为可解释误差SSR和总误差SST之比,即:r2=SSR/SST=1-SSE/SST它反映了由于使用了Y与X之间线性回归模型来估计y,的均值而使离差平方和SST减少的程度,从而表明Y与X之间线性相关程度及拟合模型的优良程度。r2与SSR成正比。r越大,说明Y与X之间的线性相关程度越高,也就说明模型的拟合性能较优;r2越小,说明Y与X之间的线性相关程度越低,说明模型的拟合性能较差。当相关系数用r来表示时不仅可以测定Y与X之间的相关程度,而且也可以表示相关的方向。事实上,相关系数尸也可以定义为:从上述两个公式计算所得到的结果完全相同,意义也相同。但从尸2计算r时为:要确定r的符号,就需要利用以下的关系:由此可见,r与b同号,可以根据b的符号来决定r的符号。从r2的计算公式可以看出:r2总是界于0与1之间的,即0J2<1。如果宁.=y,则SST=SSR,SSE=0,此时,r2=1。这时称为完全线性相关,模型的拟合程度最优。用Y与X之间的线性回归模型来估计y,时的总离差和完全可以用SSR来解释。如果y.=y,则SST=SSE,SSR=0,因此,r2=0。这时,使用Y与X之间的线性回归模型没有能对任何的总离差平方和SST作出任何解释,说明Y与X之间事实上无线性相关,模型的拟合程度最差。对r的不同的具体值,Y与X之间的相关关系分析如下:1) 当r=1时,称为完全线性正相关;当r=-1时,称为完全线性负相关。2) 当0<|r|<1吐Y与X存在一定的线性相关。当r>0时称Y与X正相关。当r<0时称Y与X是负相关。一般地说,r2>0.9时,估计模型为"优";0.8<r2<0.9时,估计模型为"良";0.6<r2<0.8时,估计模型为”一般”。r2<05时估计模型为"差"。但是,要精确地说明两个变量是否确实具有线性相关关系,一般还需要作其他的一些检验。3、F检验法在一元线性回归模型中,若b=0,则X的变化不会引起Y的变化,即Y与X不具有线性相关关系。因此,线性回归方程的显著性检验可以通过回归方程的F检验来完成。我们提出H0:b=0,H1:b。0,则在H0成立,即Y与X之间不存在线性相关的条件下,统计量服从自由度为1,n-2的F分布。在给定了检验的显著性水平a以后,可由F分布表得到H0成立时的临界值F0,如果对于一组样本计算得出的统计量F的值大于尸o,则否定H0,即b。0,说明X与Y之间确定存在线性相关关系。° °因此,对回归方程的相关性检验可按下列步骤作F检验:1)提出假设H0:b=0,H1:b。0,2) 在H0成立时,统计量SSEn-2)~F1,n-2)对于给定的显著性水平a,查F分布表得到检验的临界值Fo。3) 对于一组样本计算SSR和SSE,并由此得到F值。4) 比较F与F的值,若F>F,则拒绝零假设。我们认为X与Y之间存在线性相关关系,否则接受H0,认为X与Y之间没有线性相关关系。4、t检验尽管相关系数,是对变量Y与x之间的线性关系密切程度的一个度量,但是相关系数尸是根据样本数据计算得到的,因而具有一定的随机性,样本容量越小,其随机性就越大。因此也需要通过样本相关系数,对总体的相关系数P作出推断。由于相关系数,的分布密度函数比较复杂,实际应用中需要对r作变换。令则统计量t服从t(n-2)分布。于是关于总体是否线性相关的问题就变成对总体相关系数P=0的假设检验,也就只要对统计量t进行t检验就行了。根据一组样本计算出上述t值,再根据问题所给定的显著性水平a和自由度n-2,查t分布表,找到相应的临界值t 。若a2表明t在统计上是显著的,即总体的两个变量间存在线性关系。否则就认为两个变量间不存在线性关系。5、DW检验回归模型中假设Cov(e「ej)=0,即随机项是独立的。这一假设是否成立,可以通过回归模型的误差序列是否相互独立来进行检验。若误差序列各项间相互独立,则序列各项之间没有相关关系。若序列各项之间有相关关系,误差序列不满足线性回归模型的基本假设,回归模型就不能表达变量Y与X之间的真实变动关系。D•W(Durbin-Watson)检验可以检验残差序列的相关性。其检验办法如下:1) 计算误差序列的d统计量(D・W值)d空匕一七M乙「i=2 'i=12) 根据给定的显著性水平a(通常为a=0.05或0.01),自变量个数k和样本数据个数n,查D、W表,得到d的下限值"和上限值叽。3) 判断。若d<d<4-d则残差序列无自相关,各项间相互独立;若0<d<d[或4-d]<d<4表明残差序列存在正自相关或负自相关,各项之间不相互独立,D-W检验未通过;若d]<d<d或4-d<d<4-d〔则无法断定是否存在自相关。线性回归模型产生残差序列自相关的原因有三种,第一是所选择的数学模型不适合,变量间不是线性关系而建立了线性模型。此时应进一步选择合适的数学模型。第二是模型中所包含的自变量数目不合适,或是遗漏了某些重要的影响因素,或是包含了不必要的其他因素。第三是序列中包含有很强的趋势分量。通常可以用迭代法或差分法进行修正。经济指标的时间序列常常存在自相关现象,这一点特别要注意。(二)关于回归系数b的统计推断由于样本不同,回归系数。与b的值也不同,因此。回归系数。和b也是随机变量。同时a和b是正态随机变量Y的线性组合,所以a和b也是服从于正态分布的随机变量。1.关于回归系数b的假设检验对正态随机变量b求数学期望和方差,可得一般情况下^2未知,需要用其无偏估计量S;来代替:根据t分布原理,样本统计量t=t-b)搭(b)服从于自由度为(n-2)的t分布。于是要检验回归参数b是否等于某一假设值b0的问题,也就转化为假设检验问题。检验的程序是; °设H°:b=bo,H]:b。bo,计算统计量t=(-bJ'S(b)判断原假设是否成立。当显著性水平为a时,查t分布表得ta和__. 2",若t,",或t<t侦,则拒绝H0,反之接受H0。2.b的置信区间根据抽样分布定理,可以确定b的置信区间。因为P(tg,<t<t《)=1-a所以,当置信度为1-a时,b的置信区间是第二节多元线性回归分析一、多元线性回归模型多元线性回归分析是研究一个因变量与多个自变量之间线性相关关系的统计分析方法。事实上,大量社会经济现象总是多个因素作用的结果。多元线性回归考虑到多个自变量对因变量的影响,能够更真实地反映现象之间的相互关系,因此在实践中应用更广。假设一个随机变量Y与m个非随机变量X之间存在线性相关关系,则它们之间的关系可以用以下的线性回归模型来表示:其中:Y是因变量,XjG=1,2,m)是自变量,P.G=0,1,2,...m)是模型的参数,称为偏相关系数。e是随机误差。对于上述模型中的非随机变量乂三.的第j个取值x〃,y的观察值r.由两部分组成:(P+Px+pX+・・邛’X)和。。前者是个常数,后者是个0 1 1 2 2 mmj随机变量,所以Y也是个随机变量。j与一元线性回归模型同样地,我们也必须假设多元线性回归模型中的误差项必须满足正态性、无偏性、共方差性和独立性的条件。假设e~N0),c2),贝e由此可见:Y〜N(p+PX+PX+.+PX,6)。TOC\o"1-5"\h\z0 1 1 2 2 mme二、参数估计多元线性回归模型的参数P[(=0,1,2,…m)及c2在一般情况下都是未知数,必须根据样本数据(y,尤,尤,…,尤)来估计。J1j2j mj回归参数P,(=0,1,2,…m)的估计方法还是"最小二乘法"。根据样本数据(y,x,x,…,x)来估计p(=0,1,2,…m)时使得产生残差的平方和J 1j2j mj1取极小值。为此,对Q分别求PIG=0,1,2,m)的偏导数,并令其等于零,由此,可以得到m+1个方程。'因书写较烦,不一一列出。若对于自变量X1,X2,…,X和因变量Y共有n组观察数据。xk表示自变量X,的第k次观察值:y,表示因变量Y的第i次观察值。 '△.令.则回归系数P(i=0,1,2,...m)可以由下列方程组求出:i常数项P0=y-£P,-X多元线性回归模型中的另一个常数是\的方差。2。因为多元线性回归模型中有m+1个回归参数要估计,所以。2的无偏估计量应当是:e三、多元回归中的方差分析和显著性检验与一元线性回归模型同样地,我们在得到多元线性回归模型以后也需要对模型中所包含的变量是否确实与因变量之间存在线性相关关系,以及回归模型的拟合效果如何进行分析检验。多元回归中的方差分析和显著性检验可分为几个部分,首先是对总离差平方和以及回归离差平方和进行分解,分别测定Y与m个自变量X之间总体上的相关程度.以及Y与某个或者若干个自变量X的相关程度,并分别引进多元相关系数和偏相关系数的概念。然后,用F检验进行总相关检验和偏相关的检验。在此基础上再进行残差分析。总离差平方和的分解和多元相关系数与一元线性回归时一样,我们也可以定义多元线性回归的总离差平方和SST,并把它分解为SSR和SSE两部分SST二£(Y-p)

=EG—y.)+£。-Y)与一元线性回归时一样我们也把上式记作SST=SSR+SSE其中:Y=B+px+BxH Px0 11j22j mmj根据上述分解式我们也可以定义多元相关系数”:SSRSST=eY-SSRSST=eY-Y-Y它反映了由于使用Y与m个X之间的线性回归模型用Y.来估计E七),而使总离差平方和SST减少的程度,从而表明了Y与X之间的线性相"关程度及拟合模型的优良程度.SSR越大,r越大,说明Y与X之间的线性相关程度越高,说明线性模型的拟合优度越高;反之SSR越小,r2越小,说明Y与m个X的线性相关度越低,即线性模型的拟合优度越低。r2的计算公式说明0<r2<1,若Y=Y,则SST=SSR,SSE=0,r2=1.说明用估计模型Y估计E(Y)解释了所有的总离差平方和SST,拟合值与实际值无差异,此时变量间完全线性相关。如果Y=Y,则SST=SSE,SSR=0,r2=1.说明回归模型Y估计Y不能解释任何的总离差平方和SST,拟合模型无效,说明变量间完全线性无关。在一元线性回归的情形r=±"2,但在多元线性回归的情形下,自变量的个数m>2时,回归系数的符号可能有正有负,难以确定,因此,我们规定多元相关系数总是为正的,即r=+52由此说明多元相关系数不能说明Y与K个X之间的线性相关方向,仅仅说明了它们之间的线性相关程度.(二)回归离差平方和与偏相关系数

在多元线性回归模型中,如果增加与Y相关的某个自变量X,则SSR随之增加,而SSE随之减少.因此,SSR还可以被进一步分解.例如,若原回归模型中只包括自变量x,x,…尤,若模型中增加了与丫相关的另一个自变量TOC\o"1-5"\h\z1 2kx^1以后,使SSR增加的那部分称为"x^1的净增回归平方和”,并定义为SSR(x/x,x,—x)。于是k+1 1 2kSSR(xx,x,…x)=SSR(x,x,…x)-SSR(x,x,—x)k+1'12k 12 k+1 12k=SSE(x,x,•••x)-SSE(x,x,…x)12k 12 k+1由此我们得出对于变量xk+1的偏相关系数的计算公式:它反映了把自变量x.H纳入模型以后使得原模型的残差平方和思t著m=K^^^'性9SSR(x,x,…x思t著m=K^^^'性9(三)多元回■型的F』蕾数作是否为零的假设检验也就

■对多元回归模型而言,对回归

■个回归方程的显著性检验是不

路显著性检验,也需要对回归模蕾数作是否为零的假设检验也就

■对多元回归模型而言,对回归

■个回归方程的显著性检验是不

路显著性检验,也需要对回归模等价于对整个回■,行了模型中各个系数分别■的显同的。因此,我们既需要州型中各个系数分^进^^^^性1、总相关的星.[对整个回归方程进行显著性检验通常采用F检验,即检验Y与K个X之间整体上是否存在显著的线性相关关系,此时检验的步骤如下:建立假设原假设H: = =…= =00 1 2 k备择假设H",不全为0(i=1,2,...,n)事实上,在所有的自变量X中,只要有一个X与Y之间存在显著线性相关,那么Y与K个X之间的相关系数就不等于0.反过来若Y与K个X之间的相关系数不是零,在K个&j中必有一个不为零。'计算检验统计量FF是两个平均离差平方和(方差)之比,可以证明如果H0正确,分子MSR的数学期望等于MSE的数学期望,^PE(MSR)=E(MSE)=咋0F服从自由度为K和(N-M-1油处分布。如果H为假,E(MSR)>E(MSE)。因此,如果H正确,F值将接近于1;如H0为假,。则F值将大大超过1。 °3)判断H0是否成立。当显著性水平确定为%自由度为K和N-K-1时,查F分布表得己。如果FNF,则拒绝H0。说明Y与K个X之间总的来说存在显著性相关,(接受H0。说明Y与K个乂之间不存在显著性相关。2、偏相关的F检验偏相关检验的目的在于检验新加入模型的X是否与Y存在显著的线性相关。通过总相关的F检验表明Y与3个自变量X在整体上存在显著的线性相关,但并不意味着各个X都与Y存在显著的线性相关,偏相关是检验在Y与(K-1)个X存在显著的线性相关的条件下,X是否与Y存在显著的线性相关,即X进入模型后对减少模型的残差平方和是否有显著的作用。K偏相关检验的步骤是:提出原假设H0:备择假设H: Q1 P上述假设也可写作H0:PK=0,H]:K^0计算检验统计量F:判断H0是否成立。当显著性水平为a时,查F分布表求出F(分子自由度为1,分母自由度为N-K-1)。如果FN写,则拒绝原假设,说明Y与X之间存在显著偏相关,反之,接受原假设:说明Y与Xk之间不存在显著偏相关。四、多元回归模型的残差分析前面关于回归模型的参数估计和检验都是建立在一系列的理论假设基础之上的,但是在实际问题中,总体的实际情况是否与基本假设相符还需要验证。此时最简单的方法就是残差散点图分析。1、 线性与非线性前面所讨论的回归模型都是假设r与x之间存在线性相关关系,然后应用样本数据建立起它们之间的线性回归模型的。但是如果总体中Y与x之间的相关关系并非是线性的,则模型的假设就不成立。应用模型来进彳行估计和预测就不可能得出有用的结果。要检验Y与x/间是否存在线性相关关系,可以用残差散点图来分析残差e=(r.-Y)的散布情况。我们以残差e为纵座标,以估计值Y为横座iJj i j标,在直角座标系上依次绘出点(Y,e)。分析观察点的散布情况。如果ji观察点随机地散布在横线e=0的周围,说明总体符合线性相关关系的假设是i正确的。如果观察点的散布显示一定的规律性或系统性,则说明总体变量不符合线性相关关系的假设。图7-2就是用来分析线性与非线性的一个残差散点图。如果总体变量不符合线性相关关系的假设则应根据具体情况重新建立模型。此时可考虑建立合适的非线性模型。对于某些非线性模型可以进行变量转换,转换成线性模型再重新进行估计。图7-2线性与非线性的残差散点图比较2、 共方差与异方差在建立线性回归模型时,我们假设随机误差e具有相同的方差,即共方差。我们也可以通过残差散点图来验证总体是否符合共方差性的假设。以残差e为纵座标,以估计值为横座标,在直角座标系上依次绘出点i(Y,e)。分析观察点的散布情况。如果观察点随机地散布横线e=0的周ji i围,说明总体基本符合共方差性的假设。如果观察点随的增大而扩散或聚集,说明总体不符合共方差性的假设。图7-3就是用来分析共方差与异方差的一个残差散点图。图7-3共方差与异方差的残差散点图比较如果总体出现异方差迹象就需要通过采用适当的变量转换可望使方差趋于稳定,再利用回归模型进行估计和预测。3、 独立与非独立回归模型还假设随机误差e之间相互独立,即Cov(e,e)=0(i。j)。我i ij们也可以通过残差散点图来验证总体是否符合独立性的假设。以残差e为纵座标,以估计值为横座标,在直角座标系上依次绘出点(?,e)。对于与Ji时间有关的样本数据则最好以时间t为横轴。分析观察点的散布情况。如果观察点随机地、无规则地散布在横线e=0的周围,说明总体基本符合独立性的假设。如果观察点在横线e=0的周围显示出周期性或趋势性的变化,则说i明总体不符合独立性的假设。图7-4就是用来分析独立与非独立的一个残差散点图。图7-4独立与非独立的残差散点图比较如残差散点图显示残差之间不独立,则可以寻求把合适的自变量加入模型以消除残差的非独立现象。如果这一办法仍无法消除残差间的非独立性,则可以采用“一价差分法”,做变量转换,然后重新估计模型的参数。4、 正态与非正态回归模型还假设随机误差e.服从正态分布。要检验总体残差是否满足正态分布的要求要通过建立标准残差乌=ej.;的直方图来检验。从理论上说,Ej应服从标准正态分布,即气~N(0,1)。所以应有近50%的Ej为正,50%的E为负;68%的E落在-1与+1之间,96%的E落在-2与+2之间。如果画出标准残差的直方图则应如图7-5的标准正态残差分布图所示。若这一条件满足就说明总体基本符合正态性的假设。如果样本的容量不大时,Ej在理论上应服从于自由度为(N-K-1)的t分布。所以,对应于(N-K-1)的t分布,如果有50%的值位于t和t之间,有95%的值位于t 和t之间,说明总体基本符合正态性2的假设5。 0'025爵75图7-5标准正态残差分布图5、 多重共线性在应用回归模型时,如果自变量中有两个或两个以上的自变量之间存在着线性或几乎完全线性相关的关系就会产生多重共线性现象。在多重共线性现象的情况下用最小二乘法估计模型的参数就会不稳定。此时当模型中增加或减少一个变量时已在模型中的变量的系数也会变化。在多重共线性现象较严重的情况下,解释回归参数估计量的含义就没有什么实际意义了,而且会引起误导或导致错误的结论。如果自变量完全线性相关,那么,其参数就成为不确定的了。当然,也不能要求自变量之间完全不相关,即相关系数为零。此时,变量为正交变量,这时就不必用复回归方法求参数了,每个参数&•可以用相应的自变量作简单回归来估计即可。事实上,这两种极端是很少遇到的。大多数情况下,自变量之间存在一定程度的相关关联。实际上在多重共线性现象不太严重时,并不会影响回归模型的估计和预测的准确性。解决多重共线性问题的方法是剔除一些重复变量重新进行估计。练习题7-1零售商为了解每周的广告费与销售额之间的关系,记录了如下统计资料:广告费X(万) 402025203050402050402550销售额Y(百万)385400395365475440490420560525480510画出散点图,并在Y对X回归为线性的假定下,用最小二乘法算出一元回归方程。7-2下表是经济发展水平不同的八个国家人均年能源消耗量(折合成标准煤,单位kg)和人均年国民生产总值的数据。试求(1) Y对X的线性回归方程;(2) 对所求方程作显著性检验(显著性水平为0.05)(3) 对人均年生产总值3000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论