Chapter1线性回归模型的OLS估计_第1页
Chapter1线性回归模型的OLS估计_第2页
Chapter1线性回归模型的OLS估计_第3页
Chapter1线性回归模型的OLS估计_第4页
Chapter1线性回归模型的OLS估计_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第1章线性回归模型考察多个自变量对一个因变量的影响。比如,施肥量、土质与农业产量的关系,受教育年数、工龄、性别对收入的影响,警察数量、下岗职工对城市犯罪率的影响等。以双变量为例。x1、x2对y存在影响,同时x1和x2之间也存在相关关系。如图所示。1.1模型设定假定变量yt与k个变量xtj,j=1,k,存在线性关系。多元线性回归模型表示为,1.1yt'0'_1x1t'',,,-kxkt.5ut代表其他影响其中yt是被解释变量(因变量),j是解释变量(自变量),ut是随机误差项,Pi,i=0,1,k是回归参数(通常未知)。这说明xjt,j=1,K,是yt的重要解释变

2、量。yt变化的随机因素。给定一个样本(yt,xt1,xt2,xtk),t=1,2,T,上述模型表示为,1x11xj1xk1俱、V21肌xj2xk2AB-+U2I-''小JTX)1V_'BV_aBV_Ix1TxjTxkT1rXk市R<Hkk巾XRtTX)1.2V2x11xj1xk1A1x12xj2xk2-I1X仃xjTxkTT(k1)1.3则(3.3)式可以写为,1.2 参数估计1.2.1 参数的点估计1 .最小二乘法(OLS)设残差平方和用Q表示,Q=?'?=(y-?)'(y?)=(y-X?)'(y-X?)=y'y?'X&#

3、39;y-y'X?'?'X'X?1.4=y'y-2y'X?'X'X?上式中,因为?'X'y是一个标量,所以有"X'y=y'X?。求Q对?'的一阶偏导数,并令其为言=_2X'y2X'X?=01.5j?化简得,X'y=X'X?假定1解释变量之间线性无关。Rank(X'X)=Rank(X)=K+11.6其中Rank()表示矩阵的秩。即解释变量之间彼此线性无关。如果假定1成立,可以直接得到B的最小二乘估计量?,?=(X'X)'X

4、9;y1.7?二X?表示y的拟合值,l?=y-X?表示残差项。拟合值和残差项经常表示为另外一种形式:quXX'X-X'yuPy1.8?=y_y=yPy=I-XX'X-X'y=IXX'X-X'(X3u)=X3uX3-XX'XX'u1.9二IXX'X-X'u=Mu其中,P=X(X'X尸X',称为映射矩阵。Py表示y对X回归的拟合值。M=IX(X'X户X,称为零化子矩阵。My表示y对X的残差项。因此,y总是可以表示为y=Py+My。可以证明,P和M都是对称哥等矩阵,即M=M',P=P

5、9;M2=M'M=M',P2=P'P=P'1.10且有PX=X,MX=01.11M+P=I,PM=0由正规方程组可得X'(y-X?)=0,即X'?=0。进而可得Y'?二?'X'?=0。即(Py)'My=y'P'My=y'PMy=01.2.2 FML定理接下来我们介绍OLS估计量的一个重要性质,即FML定理(FrischandWaugh(1933)、Lovell(1963)。这一定理体现了线性回归模型参数的经济含义。在虚拟变量等问题的处理中重要的应用。将所有的解释变量拆分为两部分。模型表述为:

6、y=X1B+X2&+u残差平方和为:Q=(y-X点-X2«)'(y-xi1-X2良)=y'y-y'(xi?i+x2?2)+(x*+x2?2)'(x1?+x2?2)=y'y-y'(x晚x2?2)(父x1'xe-2?2'x2'x1?ix2?2?2'x2')对应的正规方程组为:母=-X1'y2X1'X1?X1'X2?=0:Q=X2'y2X2'X2?X2'X1?=0;1.121.131.14二(X1'Xi)aX1'y(X1'X

7、i)X1'X2二(X1'Xi)aX1'(yX2?2)1.15由(1)式可得:由此可以看出,如果X1'X2=0,则"=(X1'X1),X1'y0即当X2与X1正交时,模型y=X1B+X2为+u与y=X1B+u的参数估计量是完全相同的。将(2.21)式带入正规方程(2)可得到解:1.16?27X2'I-X1X1'X1-X1'X2:X2'I-X1X1'X1-X1'y?=;X2'M1X2.广X2'M1y)其中,M1表示X1的零化矩阵,根据零化矩阵的性质,?=(X2'M1X2

8、(X2'M1y)二(X2'M1'M1X2)1(X2'M1'M1y)1.17=(?21?21(?21Uy1)其中,?21=M1X2表示X2对X1回归的残差项,?y1=My表示y对X1回归的残差项。由此得到如下定理。Frisch-Waugh定理:y=X"+X2&+u与M/=(M1X2)&+v得到相同的估计量和残差。即,y对X1、X2的回归方程中,X2的参数估计量等价于y对X1回归的残差项对X2对X1回归的残差项进行回归得到的参数估计量,二者的残差也是相同的。这一定理表明,多元回归模型y=X邛+X23+u中,回归参数2体现了排除“(p

9、artialout)X1影响后的净”影响。因此,但也称作褊回归系数”,体现了X2对y的净影响,称之为褊影响"(partialeffect)。也正是由于回归参数团体现了排除X1影响后的净”影响,因此把X1称作控制变量”。也就是说,虽然实际经济环境中,我们几乎不能控制X1的变化。但在多元回归模型中,色已经把X1的影响排除掉了,因此也理解为当其他条件不变的情况下“,X2对y的边际影响。对于如下结构关系:如果回归模型y=臭+gx+P/2+u,参数Pi的估计量不会显著,因为将X2的影响排除后,xi对y不存在任何影响。1.2.3 参数估计量的分布特征设真实的DGP为y=X10+u其中,旬为真实的

10、参数。如果模型设定准确的话,即y=XI+u我们来看参数估计量的统计特征。对于模型错误设定的情况,请参见本章“模型的设定分析”部分。1. 一致性设模型的参数为。,估计量为年。如果plim?n=e,则称1具有一致性。一致性意味着随着样本量的增加,参数估计量可以无限接近真实参数,即估计量的分布为真实参数那一点。也就是说,随着样本量的增加,我们可以对真实参数作出越来越精确的推断。一致性是对参数估计量的最低要求。如果估计误差与样本量没有关系,那么很难建立真实参数与参数估计量之间的关系。?=(X'X尸(X'y)=B+(X'X尸(X'u)=B+(N,X'X)(NX&#

11、39;u)1.18由假定Rank(X)=K和大数定律,样本均值的概率极限等于总体均值,可得:Plim(N-X'X)=E(X'X)三A,1.19Plim(N-X'u)=E(X'u)=0又由Slustky定理,Plim(N=X'X尸=A由此可得Plim?=B+A'0=31.202. ?的无偏性?的随机性来源于u的随机性,因此,将?写为关于u的表达式。?二(X'X/X'y=(X'X)1X'(XSu)=3o(X'X)X'u1.21即?是随机向量u的线性组合。如果X为确定性变量,则?的期望为:E(?)=的+E

12、(X'X)-X'u=3+(X'X)-X'E(u)=01.22因此,?是口的线性无偏估计量。但将X做为确定性变量过于简单。大多数情况下,X与y一样,具有明显的随机特征。假定2u关于X的条件期望为0。Eu|X=0。假定2也称作X具有严格外生性。具有两个基本含义。第一个含义是,u的无条件均值也为0。这一特征可以通过迭代期望公式直接导出。E(u|X)=0一E(u)=EE(u|X)=01.23第二个含义是,u与X以及X的任何函数正交,不相关。Eg(X)u-EEg(X)u|XI-Eg(X)E(u|X)=01.24Cov(g(X),u)=Eg(X)-E(g(X)u-E(u)=

13、E(X-E(X)u=Eg(X)-E(g(X)u=Eg(X)u£g(X)u=Eg(X)u-Eg(X)E(u)=0当g(X)=X时,u与X正交,u与X不相关。E(Xu|X)=XE(u|X)=0,E(Xu)=EE(Xu|X)=E(X)E(u|X)=0Cov(X,u)=E(X-E(X)(u-E(u)=E(X-E(X)u=EXu-E(X)E(u)=0?的条件期望为:E(7|X)=B0+E(X'X尸X'u|X=荏+(X'X尸X'E(u|X)=诙1.25当然,?的无条件期望为:E(?)=EE(?|X)|X=招1.26因此,?是用的线性无偏估计量,具有无偏性。与之相关

14、的另外一个较弱的假定是,ut关于Xt的条件期望为0。Eut|Xt=0o3. ?的有效性假定3随机误差项向量u是同方差、无序列相关的。即协方差矩阵为:,100”.2200Var(u|X)=仃21=cr21.27I。01JOLS估计量的方差矩阵为:Var(?|X)=Ed)(?-B0)'|X11=E(X'X)X'uu'X(X'X)|X1.2821=;(X'X)1其中,仃2(X'X)-1第i行第j列的元素表示第i个参数估计量和和第j个参数估计量的协方差。当i=j时(即对角线上的元素),表示第i个(包括常数项)参数估计量的标准差。高斯马尔科夫定理:

15、在假定13成立的条件下,OLS估计量是最有效的线性无偏估计量。即:设?是OLS估计量,3为其他无偏估计量,那么var(?|X)之var(3|X)°根据迭代期望公式,可以得到var(?)>var(3)。将线性回归模型中OLS估计量称之为最佳线性无偏估计量(BLUE)。4. 方差来源?的方差对于统计推断以及经济解释都是至关重要的。方差越大,说明估计量越不精确,因此参数的置信区间就越大,假设检验也就越不准确。假设关注变量X2,设DGP为y=X1Bi。+x2g0+u,模型设定为y=X1己+X2P2+u。根据FML定理,?2=x2,MiX2产x2,M1y1=X2,M1X2厂X2'

16、M1(X1B+X2,+u)二x2'M1X2-x2'M1X2-x2'M1U=2x2'M1X21x2'M1U其方差为:Var(马=E(x2'M1X2)1x2'Muu'Mx2(X2'M1x2)1-;:-;(X2'M1X2)1其中,(x2,M1X2)表示X2对X1回归的残差平方和。因此,方差也可以表述为:Var(?2)-(x2,Mj?)SSE2_(1_r22)sst1.29其中,SSE、R22表示X2对X1回归的残差平方和与可决系数,SST=£1(x2t-x2)表示X2的离差平方和。因此,国的方差来源于三部份:回

17、归标准差B2、解释变量之间的相关性、X2的波动。回归标准差2体现了模型中噪音的成分,噪音越多(62越大),那么解释变量的影响就越难以判断,估计量的就越不准确。2是一个总体概念,与样本无关。但它是未知的,在后面的章节推导出其无偏估计量。给定被解释变量y,要想降低"那就需要将更多的成分从随机扰动项中提取出来,方法只有一个:加入新的解释变量。但加入新的变量并不总是有效的,后面的章节还会详细地加以解释。Ri2体现了Xi与其他解释变量的线性相关程度。相关程度越高,Ri2就越高,var(再)就越大。当R,1时,var(?)一工这时,我们称之为多重共线性(multicollinearity)。当然

18、,如果部分解释变量之间存在多重共线性,不会影响其他的参数估计。比如,在下面的模型中:yt=P+MX1t+2X2t+飞X3t+ut如果X2t与刈高度相关,那么var(32)和var(肖)会比较大。但X2t与X3t的相关性对var(l?)没有影响。事实上,如果X1t、X2t都与X3t不相关,即R12一0,那么var(E)=C2/SST1,与X2t、X3t之间的相关性没有任何关系。因此,如果模型关注的是X1t,那么就没有必要在乎X2t、X3t之间的多重共线性问题。给定其他条件不变的情况下,Xi的离差平方和越大,?的方差越小。提高Xi的离差平方和的方法是增加样本容量。当样本容量不断增加时,离差平方和可

19、以无限大,可以有力地降低?的方差。ArthurGoldberger针对人们面临多重共线性问题的困扰提出了小样本问题(micronumerosity),参见Goldberger(1991)。1.2.4 区间估计我们已经知道了?的分布形式,如果进行区间估计的话,还需要估计仃2根据前文所述,u?=Mu。残差平方和为?'Q=(Mu)'Mu=u'M'Mu=u'Mu1.30则残差的方差估计量2s=?'?/(T-K-1)=u'Mu/(T-K-1)1.31因s2是一个标量,所以有E(?'?)=Etr(u'Mu)=Etr(Muu')

20、=trE(Muu')=trME(uu')=trM02I-c2trM-;.2trI-XX'X-X'-;.2tr(I)-trXX'X-X'1.32=:2N-trX'XX'X=c2(N-K-1)E?'Q/(N-K-1)=c2=;?2=0'Q/(N-K-1)其中tr()表示矩阵的迹。tr(I)=T,tr(X(X'X)-1X')=k+1。因为对于矩阵ABC有tr(ABC)=tr(BCA)=tr(CAB),所以tr(X(X'X)-1X')=tr(X'X)-1X'X)=tr(I)=

21、k+1。由此可见s2是CT衲无偏估计量。得到了?的方差估计量,就可以构建区间估计了。方法与第一章相同,此处不予赘述。1.2.5 残差的分布接下来我们进一步考察残差的特征。上面我们利用残差估计随机误差项的方差,后面很多统计检验都要利用残差。由?=Mu,E(0)=0Var(?)=E(03)=E(Muu'M')-;2M可以得到几个基本结论。(1)每个残差都是所有误差项的线性组合。因此,虽然u同方差、无序列相关,但I?是异方差、存在序列相关的。(2)Var(U?)=仃2(1-%)。因此,残差的方差小于随机误差项的方差。杠杆越高的观测值,残差的方差越小。与之相关联的另外两种残差为标准化残

22、差与学生化残差。标准化残差为e=a/(万飞i)学生化残差为=(?/(?)斤后。其中,的表示删除第i个观测值后误差项的标准差。1.2.6 标准化的回归系数参数估计量是有量纲的,因此不能直接比较不同解释变量的相对重要性。如果要比较不同变量的相对重要性,可以首先将所有的解释变量进行标准化,这样便将其转换为没有量纲的概念了。*Yt-y*xkt-'xk*ut-uVt,Xkt,Ut=s(Yt)s(Xt)s(Ut)然后利用标准化后的解释变量进行回归,*:*:*:*Yt=-o-iXit-rkXt-Ut标准化的回归系数P0,3,,消除了量纲,可以直接用于比较不同变量重要性。思考题:标准化的回归系数百,P

23、;,,P;与最初模型的回归系数aFo,,Pk)存在什么关系?例1.1考察CEO年薪方程Salarv=!::,o+I'iroe+Bsale+Faros+u其中,salary表示CEO年薪(千美元),roe为前三年的平均资产收益率(),sale表示公司销售额(百万美元),ros表示股票收益率()。(数据文件:ceosal)(1)计算OLS估计量、95%的置信区间。.regresssalaryroesaleros,level(95)noheader(2)计算残差、标准化残差、学生化残差;观察每个指标的描述指标.predictres,residual.predictres_std,rstand

24、ard.predictres_stu,rstudent.summresres_*例1.2估计工资收入方程,wage=:o+:educ+?exper+:3tenure+u其中,wage表示工资(千美元),educ表示接受教育的程度(年),exper表示工龄(年),tenure表示在现有岗位的任职时间(年)。(数据文件:wage1)(1)计算OLS估计量、99%的置信区间。.regresswageeducexperexpersqage,level(99)noheader(2)计算标准化的回归系数.regresswageeducexperexpersqage,betalevel(95)noheade

25、r1.3 模型检验1.3.1 拟合优度y的变化由两部分引起,是解释变量X=(x1,x2,,xk)(注意,X不包括常数项),二是随机误差项。那么解释变量与误差项对y的变化所作的贡献如何衡量呢?拟合优度即回归线对散点的拟合程度。回归线拟合散点的程度越好,则表明解释变量对y的解释能力就越强。1 .可决系数考虑如下两个模型:y二印.二不”kuy=pv模型中不包括X只有常数项时,Po的OLS估计量为y,残差为v?=y_y。将X纳入模型之后,得到的残差项为i?=y_?。由于X的加入,使得模型的误差项缩小了v?-QMy=»-(y2y?yJy这即是被X所解释的部分。因此,可以通过被X所解释的部分在y

26、的离差中所占比例来衡量X对y的解释能力。总离差平方和SST=£二(乂y)2=£:y;2yz二%+Ty2=y'y-Ty2,1.33回归平方和为SSR=£二(其-y)2=HJ2-2yZ二反+Ty2由回归直线的性质:y与,的均值相同,可得yZL?=Ty2,因此回归平方和又可以写为:2SSR=9'y-Ty21.34残差平方和为SSE=%t1(yt-夕)2=%t1a2=?1.35则有如下关系存在,SST=SSR+SSE1.36证明:y'y=?'X'X?+2?'X=p.+2?'X'G+?'Q?'?

27、由于X'd=0,因此y'y"?'X'X?'Q=pp?'?1.37y'y-Ty2邛x'X?'?=(yy-Ty2)u?'u?平方和除以它相应的自由度称为均方。回归均方定义为MSR=SSR/k,误差均方定义为MSE=SSE/(T-k-1)(即随机误差项的方差估计量)。2 .拟合优度R2计算P的变差占y的变差的比值是评价一个估计模型优劣的方法之一。多重可决系数定义如下:1.38_2SSRyy-Ty2R二二2JTSSTy'y-Ty2显然有0<R2<1。R2越接近1,估计的回归函数对样本点的拟合优

28、度越好,即解释变量对被解释变量的解释作用越强。23 .调整的拟合优度R对于给定的样本值%总离差平方和是固定不变的。但随着模型中解释变量个数的增加,残差平方和逐渐减小,因此可决系数R2逐渐增加。结论1:增加解释变量时,残差平方和的变化。在模型y=X3+u中加入新的解释变量z时,y=XB+z二+u的残差平方和为:U'U=C?'U?-(UzX'UzX)1.39其中,U表示y=XB+z二+u的残差平方和,U?表示y=XB+u的残差平方和,UzX表示z对X回归的残差平方和。证明:设y=Xp+z二九的回归结果为y=X0+zc毋。根据分块矩阵的估计公式,&=(X1'X

29、1产XJ(y-X2?2),可得:3=(X'X)-X'(y-zc)=?(X'X)-X'zc1.40因此,u=y-X(3-zc=y-X?X(X'X),X'zc-zc=。-1X(X'X),X'zc1.41=0-Mzc=Q-Qzxc新模型的残差平方和为:u'u=(QQzxc)'(Q-?zxc)uQ'Q2Q'Qzxcc20zx'U?zx1.42根据Frisch-Waugh定理,c=(z'Mz)-(z'My)=(?zx'Uzx)(Qzx'。)1.43即心0=c(?zx&#

30、39;?zx)。因此,u'uuf'Q-c2QzX'U?zX1.44结论2:增加解释变量时,可决系数的变化由上述结论,U'U=?-(Uzx'?)2/(?zx'Uzx)=?'?(1-。)1.45其中,r。表示控制变量X时y与z的偏相关系数。上式两边同时除以总离差平方和,可得r2=rX(i-rX)J1.46因此,当模型中加入新的解释变量的时候,模型的残差平方和总是递减的,可决系数总是递增的。为考虑模型中解释变量个数的变化对R2的影响,定义调整的多重可决系数R2如下,1.47=1-(T-1T-k-1)(1-R2)R21SSE/(T-k-1)1(T

31、1SST-SSR)一一SST/(T-1)一T_k_1"SST当在模型中增加解释变量时,SSE将减小,同时T-k-1也减小。从而使SSE的减小量得到一定补偿。通常R2的值比R2小。有时还会出现取负值的情况。增加新的解释变量时,R2可能会增加,也可能会降低。这取决于新的解释变量对y的解释能力。结论3:增加解释变量时,调整的可决系数的变化。如果新增加的变量的t统计量大于(小于)1,则模型的调整的可决系数会增加(下降)。24,非中心化的R当模型中没有常数项时,口的均值不一定为0,y与V的均值也不一定相同。因此,等式SST=SSR+SSE不一定成立,即总离差平方和(SST)不能分解为回归平方和

32、(SSR与残差平方和(SSE)两部分。这时R2可能会出现负值或者大于1的情况。这时可采用非中心化的拟合优度。我们知道,(2.44)式总是成立的,即y的平方和恰好分解为拟合值的平方和与残差平方和。定义非中心化的可决系数为:2yy(Py)'(Py)1(My),(My)Rj二二二1-1.48yyvVyy对比可决系数与非中心化的可决系数可以看出,如果模型中存在常数项,当y的均值为0时,二者是完全相同的。对y进行线性变换y*=by,则Ru2不变。即,y由以米为单位变为以厘米为单位,或者以公斤为单位变为以斤为单位不会改变Ru2。如果对y进行线T变换y*=al+y,则Ru2会发生相应的变化。aly=

33、P(aly)M(aly)=alPyMyR2qy(alPy)'(alPy)1(My)(My)RIIy'y(aly)'(aly)(aly)'(aly)X中不包括常数项。当a增加时,Ru2也随之增加。因此,当模型中包含常数项时,如果常数项比较大,则Ru2会比较高。但Ru2更多地是由常数项带来的,并没有直观的经济意义。因此,在解释模型的可决系数或非中心化的可决系数时,首先要明确Ru2的计算方法及其可能存在的问题,避免对模型的错误解读。例1.3计算例1.1的方差分析表及R2等指标。.regressceosalret例1.4计算例1.2的方差分析表及R2等指标。.regre

34、sswageeducexperexpersqage1.3.2整个方程的显著性检验假定4:随机误差项服从正态分布。当检验被解释变量yt与一组解释变量xi,X2,.,xk是否存在回归关系时,给出的零假设与备择假设分别是H0:Pi=匡=.=Pk=0;Hi:Pi,i=1,.,k不全为零。检验思路:无约束模型为:(a)yt=p0+pixit+隹X2t+Pkxkt+ut,受约束模型:如果原假设成立,那么模型(a)中的参数Pi,,Pk均不显著,模型(a)与模型(b)的残差平方和近似相等。如果备择假设成立,那么模型(a)中至少有一个变量是显著的,而模型(b)中的随机扰动项ut包含了这些显著性的变量,因此模型(

35、b)的残差平方和会明显高于模型(a)的残差平方和。模型(a)的残差平方和表示为SSEu(其中U表示没有约束(Unrestricted)SSE=£t£yt-良-固xit-gXt)2模型(b)的残差平方和表示为SS小(其中R表示带有约束(Restricted)SS&=":(yt0)2因此,可以根据残差项方差的变化来检验假设是否是正确的。如果(SSEr-SSEj)比较大(小),则倾向于拒绝(接受)原假设。正式的统计检验是通过构建如下F统计量来完成的。F(SSEr-SSEu)/k14c一SSEU/(T-k-i).、在H0成立条件下,有FF(k,Tk-i)由检验思路

36、可以看出,F统计量越大(小),我们越倾向于拒绝(接受)原假设。因此,这是右单端检验。检验可以临界值方法和构建p值的方法来完成。设检验水平为口,检验规则如下。1 .临界值法:若FMFo(k,T-kT),则接受H0;若F>Fa(Ktki),则拒绝H。2 .P值法:若P(x>F)>,“接受H0;若P(x>F)<场拒绝H0。拒绝H0意味着肯定有解释变量与yt存在回归关系。若F检验的结论是接受H°,则说明k个解释变量都不与yt存在回归关系。此时,假设检验应该到此为止。当F检验的结论是拒绝H0时,应该进一步做t检验,从而确定模型中哪些是重要解释变量,哪些是非重要解释

37、变量。检验统计量还可以写为另外一种形式。约束模型(b)中的po估计量为60=y,因此,其残差平方和又等于离差平方和SST。因此,F统计量又可以写为:1.50(SS号SSEU)/k(SSTSSEU)/kSSR/kSSEj/(T-k-1)-SSEj/(T-k-1)-SSEj/(T-k-1)其中,SSRU表示无约束模型的回归平方和。注:当模型中没有常数项时,Stata输出的R2为非中心化R2;而F统计量也是基于非中心化白向F统计量,即(SSR/k)/SSE/(n-k)。思考题:证明,在一元回归模型中,F统计量与t统计量存在关系:F=t2?1.3.3单个回归参数的约束检验当F检验才I绝Ho时,并不见得

38、每个解释变量都对yt有显著的解释作用(即不见得每个都是重要解释变量),所以还应对每个解释变量的系数进行显著性检验。检验统计量为:1.51结论:在基本假定14的条件下,上式中的t统计量服从(N-K-1)个自由度的t分布。证明:?,*令Zj=jNormal(0,1),由?Normal&仃2(X'X尸可知,zNormal(0,1)二2(X'X):tj二Z二zj.;?2/02U?;/2加卜k_1.521)如果(?'。/仃2)4N*),并且与Zj独立的话,就可以证明上述结论。_2_2ercr=1M-1.53根据概率统计中的两个基本结论:(1)如果向量XN(0,In),A为

39、哥等矩阵,则X'AX叫ank(A),即自由度为矩阵A的秩;(2)如果A为哥等矩阵,则Rank(A)=Trace(A)以及基本假定u-N(0,。21),可得:u'u/c2(2N工1)由M=I-X(X'X尸X'可得Trace(M尸N-K-1。因此,U?'G/仃2的自由度为N-K-1。'u及?=Mu,可得,cov(?|X)=E(X'X)4X'uu'M|X=X'X-IX'Euu'|XM=c2X'XX'I-XX'XX'=01.54综上所述,可得到结论:tj=(?jJjj虱?j)

40、t(N上)检验的判别方法与简单线性模型的完全相同,此处不予赘述。1.3.4线性约束检验与整个方程的显著性相类似,如果仅对其中部分变量的联合显著性进行检验,也可以按照相同的思路利用F检验来进行。将所有的解释变量分解为两部分,X1=(1,xi,X2,Xj)和X2=(XJ+1,)XK)o模型重新表述为:y=X1Bi+X2也+u1.55其中,共有K个变量,其中X1含有Ki个变量,X2含有K2个变量,K=Ki+K2。原假设与备择假设分别是H。:隹=0;Hi:色加。无约束模型为:y=X11+X2也+u受约束模型为:1.56y=X1向+u1.57如果原假设成立,则无约束模型的残差平方不能明显地提高模型的解释

41、能力;如果备择假设成立,能无约束模型应明显地降低受约束模型的残差平方和。F统计量为:匚(SS阜-SSEJ/K2(g-啕/F2ssEj/(t-k)(1-rR)/(t-K)1.58在Ho成立条件下,有F、F(K2,tkT)判断规则与整个方程的判断规则完全相同。例1.5在例1.2中,利用F统计量检验变量educ、tenure的联合显著性.testeducexper1.3.5 多个变量的显著性检验LM检验拉格朗日乘子检验是检验多个变量联合显著性的另外一种常用方法。其基本思路如下。在无约束模型中,随机扰动项u与X2不相关。如果原假设成立,利用受约束模型得到的残差项U与X2也不相关。但如果原假设不成立,利

42、用受约束模型得到的残差项U与X2就会出现高度相关。LM检验步骤如下。Stepl:回归受约束模型,提取残差项U;Step2:利用OLS方法回归辅助方程:U="X1+&2X2+v,记其拟合优度为R2;Step3:LM统计量(也称为得分统计量)为:LM=NR2煞2。需要注意的是,(1)在辅助回归方程中,虽然U与Xi是正交的,也要把Xi放在模型中;否则,检验统计量不再渐进服从卡方分布。(2)常数项包含在Xi中,如果Xi中不包含常数项,则R2采用非中心化的可决系数。事实上,因为U为0均值,因此,Xi包含常数项的时候,可决系数与非中心化的可决系数是相同的。1.3.6 线性约束的F检验线性

43、约束检验是指检验回归系数的某个或某几个线性组合。对于模型y=Xi向+X232+u原假设形式为:Ho:R3=q其中,R为J>K矩阵,J表示对K个参数的J个线性约束。对于上述原假设构建F统计量?'?/(N-K)结论:假定i4成立,如果原假设成立,则上述F统计量服从自由度为(J,N-K)的F分布。证明:将F统计量写为:i.591.60:N*)。现在只需要证明W(R?-q)'R(X'X>R'(R?-q)/JF一(R?-q)'n2R(X'X广R'(R?q)/J(?'?/二2)/(N-K)令w=(R?q)'仃2R(X

44、9;X).R'广(R?-q)。前文已经证明?'fi/cr2服从卡方分布,且与?'?/。2相互独立即可。令v=R?-q,如果原假设成立,则v=R?q=R?(R份=R(?份。其期望和方差分别为:E(v)=ER(?-加=0var(v)=Rvar(?-R'=仃2R(X'X)-R'根据结论:如果n维随机向量xN(内与,则(x-)'2-(x。工2(n),可得ww是?的函数,而?'Q/仃2是?的函数。前文已经证明,?与?是独立的。因此,w与综上所述,F=(R?q)'仃2R(X'X)-R'-(R?-q)/J(?'?

45、/二2)/(N-K)F。F(J,N&)°检验步骤如下。Stepl:根据上式计算F统计量。Step2:根据对应自由度的F分布查临界值Fcrit。Step3:如果F>Fcrit,则拒绝原假设;否则,接受原假设。实际上,前面的整个方程的显著性检验、部分参数的联合显著性检验、单个参数的显著性检验都是线性约束检验的特殊形式。比如,在模型lwage=住+Piexper+&educ+u检3四=0,即b10P0P1P2'=0检3=囚=0,即0101、1'=°0010120检3会口=良,即b1100P1P2=01个自由度的t分布的平方为1个自由度的卡方分

46、布,因此如果只有一个约束时,FFC1,n*)三t(i上)。因此,对于参数关系的单个约束也可以利用t检验来完成。例1.6教育(educ)和工作时间(tenure)的对工资的影响相同,即检验:P产隹。.testeduc=tenure工龄(exper)对工资没有影响,即检验:*=0。.testexper对上面两个假设进行联合检验,即检验:良=隹,23=0。.testeduc=tenureexper说明:与整个方程的显著性相类似,线性约束的F统计量也是通过比较受约束模型与无约束模型的残差平方和来构建。无约束模型:y=Xp+u受约束模型:y=Xp+u,s.tR(3=q对于受约束模型的OLS估计,最小化残

47、差平方和L(3入)=(y-X份'(y-X就+2入'(R3-q)1.61=2X(y-X3)+2R'入=0邮L目N=2(R3-q)=0利用分块矩阵求解,可得:/=?(X'X)-R'R(X'X)-R'-(R?-q)X=R'R(X'X/R'(R?-q)残差项为:u=y-X3=(y-X?)-(X3-X?)=GX(3-?)受约束模型的残差平方和为:u'u=?X(3-?)'?X(3-?)=?'U?(3-1)'X'X(3-?)_U?'U?由(2.71)式,B?=(X'X)R&

48、#39;R(X'X),R'(R?-q)(B-令X'X(3-1)=(R?-q)'R(X'X/R'(R?-q)故而可得无约束模型与受约束模型的残差平方和的差为:u'u-U?'?=(R?-q)'R(X'X),R'(R?-q)检验统计量为:(u'u-l?'l?)/J(R?-q)'R(X'X)R'r(R?-q)/J(R2-Ru2)/JF二=;U?'Q/(N-K)?'Q/(N-K)(1-R2)/(N-K)判别方法与整个方程的显著性检验相同。1.3.7 (非)线性约

49、束的Wald检验对于一般的参数约束(包括线性约束和非线性约束)的检验的另外一种常见的方法是Wald检验。原假设为:H0:c(0=qWald检验统计量为1wald=c(?)-qvarc(?)-qc(?)-q根据Delta方法(参见附录:概率统计),varc(?)-q=C(?)var(?)C(?)',其中,C(?)=%(1)/,?1.621.631.641.651.661.671.681.691.701.71因此,Wald统计量又可以写为:wald=c(?)q'(C(加ar(?)C(价fc(?)-q1.72结论:如果原假设成立,则Wald统计量渐进服从J个自由度的卡方分布,J表示约

50、束条件的个数。如果参数约束为线性形式,即H。:c(B)-q=R(3-q=0o则c(?)=一&?)/邙=rvarc(?)-q=Rvar(?)R'因此,Wald统计量为Jwald=R?-q'Rvar(?)R'R?-q事实上,F统计量与Wald统计量之间的关系是渐进等价的。F(R?-q)'R(X'X)R',(R?q)/J一U?'?/(N-K)_(R?-q)'。2R(X'X)R'(R?-q)=J;?2/二2由PlimW=。2,F与W*=1(R?-q)'c2R(X'X)AR'(R?-q)J具有

51、相同的极限分布。而Wald统计量中varR?-q=Rvar(?)R'=R1(X'XR',因此,JW*正是Wald统计量。也就是说,JF与Wald统计量都渐进服从J个自由度的卡方分布。例1.7在消费模型:const=P0+&inct+隹const-1+ut中,长期边际消费倾向MPC=民/(1我),利用数据估计模型,并检验MPC>1;H0:MPO1;H1:MPC<1约束形式为:c(份=,/(1一%);q=1c(?)-&?)/f?=i/(i42),i/(i-')2'Wald统计量为:1wald=c(?-q'C(?)var(?

52、)C(?)'c(?-q=?J(1身)一1(1/(1E)盘/(1-?2)2Cov(及艮)1/(1息),用/(1丹)2耳/(1仅2)1.regressconspgdppL.gdpp.testnl_bgdpp*(1-_bL.gdpp)=1可得:F=105.45,拒绝原假设。1.4模型的设定分析上面所分析的估计量的统计特征都是基于模型设定准确的前提。如果模型设定错误,那么会直接影响到参数估计量的统计分布特征。这里,我们介绍两种情形,过度设定和欠设定。1.1.1 过度设定如果模型的解释变量中加入了本来与y不相关的变量为,我们称之为过度设定(overspecify)。设真实DGP为_2-、y=X%

53、+u,uNIID(0,ctoI)但模型设定为:y=XB+Z丫血根据FML定理,3=X'MzX由X'Mzy=自+X'MzX-X'MzU期望值和方差分别为:E(3)=3Var(3)二E|(X'MZX)1X'MZuu'MZX(X'MZX尸=;:0(X'MZX)1如果模型设定正确,即y=XB+u,则其估计量的方差为Var(?)=o0(X'X)。由X'XX'MZX=X'(I-MZ)X=X'PZX=(PZX)'PZX可知,Var(Var(?)。即模型中加入多余的变量,不会影响参数估计量的

54、无偏性,但会影响有效性。除非PZX=0,即X与Z正交,则Var(份=Var(?)。但在一般情况下,解释变量会存在一定程度的相关。而且,加入的多余变量越多,则估计量的方差越大,越不准确。1.1.2 欠设定与过度设定相对应,如果把本来与y相关的变量排除在模型之外,那么我们称之为欠设定(underspecifying)。设真实DGP为y=X%+Z丫。丸,uNIID(0,裔I)模型设定为:y=X0uOLS估计量的期望为B=(X'X广X'y=(X'X广X'(XPo+Z丫。+u)=Bo+(X'X'X'Zyo+(X'X广X'uE(B)=

55、B0+(X'X广X'Z为参数估计量的偏差取决于两个因素,Z对X回归的系数以及Z对y的回归系数。Z对X的影响越大,或者Z对y的影响越大,都将导致参数估计量较大偏差。只有X'Z=0或=0时,参数估计量才具有无偏性。由于估计量是有偏的,用均方误差(MeanSquaredError)计算估计量的精确度。MSE(B)=EX3-30)(3-Po)'=Eg"E(B)E(B)-饱B_E(3E(9V=E3-E(B)BE(®E(B)一自E(B)一自=Var(B)E(B)在E(B)-在对于无偏估计量,均方误差等于方差。MSE(9二E|(3-,)(3-,)'

56、:=Var(9可以计算出,估计量的MSE为MSE(3)=仃2(X'X)-+(X'X)-X'Zn%'Z'X'(X'X)-相对于过度设定模型,欠设定模型的均方误差可能更有效、也可能非有效,取决于上述公式的第二部分的大小。例1.8利用蒙特卡罗模拟考察模型过度设定与欠设定对参数估计量的影响。假设DGP为y=10+2xi+5x2+u,其中,xi与X2的相关系数为0.6,uNIID(0,1)。模型1设定为y=IVBxi+P2X2+u,模型2设定为y=P0+Px1+u,模型3设定为y=p0+p1x+p2x2+p3x3+u。xi与x3的相关系数为0.1,

57、x2与x3的相关系数为0.3。每次生成200个观测值,模拟1000次,观察模型1、2、3的参数估计量的分布。(程序文件:spec.ado)simulateunder_b=(r(under_b)under_se=(r(under_se)c_b=(r(c_b)c_se=(r(c_se)over_b=(r(over_b)over_se=(r(over_se),reps(1000)nodots:spec.twoway(kdensityunder_b,lpattern(dot)(kdensityc_b,lpattern(solid)(kdensityover_b,lpattern(dash)1.5 异常

58、点检测异常点是指对估计量具有较大影响的观测值,即如果删除某个观测值会引起估计量的较大变化。删除第i个观测值后,参数估计量为:?u=(X(JX3尸x(J见口可以等价地表述为:2g=?_(1f)”(X'X尸Xil?。其中,hi=Xi(X'X广Xi',即映射矩阵的第i个对角元素,称为杠杆。因此,第i个观测值对估计量的影响取决于一个很关键的因素,即hi。hi介于0,1,且和为k+1。hi=TrX(X'X),X'=Tr(X'X)1X'X=k1如果一个观测值具有较大的杠杆,则它对估计量具有较大的潜在影响。同样地可以求出,删除第i个观测值的残差为:?(1=yiXi,上=(i-h)-u?4-&立=(i-h)'hi?DFITS(WelschandKuh,1977)、Cook距离(Cook,1977)和Welsch距离(Welsch,1982)、COVRATIO(Belsley,KuhandWelsch(1980)都是描述杠杆与残差平方之间关系的统计量。DFITSi=n/(1%),体现了用保留与删除第i个观测值的样本分别估计方程的拟合值的差异;Cook距离与Welsch距离体现了删除第i个观测值后系数向量之间的距离,21s(i)2Cook品目离Dj=丫DFITSi,Welsch品目离Di=DFIT

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论