最小二乘估计量的性质_第1页
最小二乘估计量的性质_第2页
最小二乘估计量的性质_第3页
最小二乘估计量的性质_第4页
最小二乘估计量的性质_第5页
免费预览已结束,剩余23页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三节最小二乘估计量的性质三大性质:线性特性、无偏性和最小偏差性一、 线性特性的含义线性特性是指 参数估计值1和马分别是观测值Yt或者是扰动项t的 线性组合,或者叫线性函数,也可以称之为可以用Yt或者是t来表示。 1、?2的线性特征证明(1)由之的计算公式可得:?xtytXt(Yt Y)XtYt Y xt2222XtXtXtXtYtXt22 YtXtXt需要指出的是,这里用到了1Xt(Xt X) Xt- XtnXt Xt 0因为Xt不全为零,可设bt 3,从而,bt不全为零,故?2bYt。这说明马是Yt的线性组Xt合。(2)因为丫 i 2Xt t,所以有2btYtbt 1 2Xt t1 bt

2、2 btXtbt t2 h t这说明马是t的线性组合。需要指出的是,这里用到了btXtXt22XtXt0以及xt xt XXt2Xt2XtxtX2Xt2 Xt"1XtX Xt-2Xt2、Z的线性特征证明(1)因为? Y马X,所以有1 Y2X1Y XbtYtnYtaYt这里,令a这说明?是丫的线性组合。(2)因为回归模型为Yt2Xtt,所以因为atYtatat1atXt2Xtattat1 Xbt nX1btatXtXbt XtXt XbtXt所以,at t这说明?是t的线性组合。至此,参数的线性特性证明完毕。问题参数估计值线性特性的深层次含义是什么?要根据被解释变量、随机扰动项和的随机

3、性来理解。无偏性的含义所谓无偏性是指估计值的均值等于真实值。 在这里,无偏性是指参数估计值1和2的期望值分别等于总体参数 1和2。其数学上要求是E ?11和 E 22。证明:根据参数估计值的线性特征,我们推导出:at所以有:相似地,三、最优性atat tbt tt E i Eat tE at ?E tbtE 2 Ebt tE bt ?E t(有的书本上直接称之为最小方差性)的含义最优性是指用最小二乘法得到的参数估计值?和?在各种线性无例L估计中得到的方差最小。根据上述的定义,我们可以任意假设?2是用其他方法得到的总体参数Z的一个线性无偏估计。因为?2具有线性特性,我们可以得到:?2 ctYtG

4、 i 2Xt tE ?2ECtY t E q 12Xtct E12Xt tct 1ct E 2XtctEt1Ctct 2E Xt 01ct2ctXt又因为?2是用其他方法得到的总体参数 马的一个无偏估计,所以有E,2所以由上述两个结果,可以得到:1ct2ctXt2上述式子要成立,必须同时满足两个条件,即c2 2c3 3c2 2c4 4ct 0 和 ctXt 1现在求?2的方差:var ?2varctYtE2EctYt E 1丫EctYtctY? 2c2E t2ct sE E2Ect tE G 1 c222Ec1 1c2 22ctYt EctYt2EctYtctE Ytct Yt Y? 222c

5、t t2ct tc1 1c2 2 c1 1c3 3t s因为根据假设条件(常数方差和非自相关,即var( t) E( t E( t)2 E ;:和cov( t, s) E ( t E( t)( s E( s) E ( t 0)( s 0) E( t s) 0所以,有?2var 2u2 ctbt2bt:ctbtbt2bt ct h?2方差的最后一项为2bt Ct btbtCtbt2XtXtct2-2XtXt12Ct Xt IXt12(Ct Xt X 1)Xt12CtXt X Ct 1Xt0这是因为Ct 0和 GXt 1因此,有 var ?2: Q bt 2: b;很明显,当Ct bt时,?2方差

6、最小,此时,最小值为var ?2: bt"而在此时,有?2CtYtbtYt72即两个估计值相等。因为?2的最小方差等于马的方差,即var ?2var马,因此,我们说,?在所有线性无偏估计中的方差最小,且最小方差为:2?22 uvar g ubt 2Xt同理,我们可以证明,?在所有线性无偏估计中的方差最小,且参数 估计值的方差为:2X2uuXtvar -12-nXto由此,说明,最小二乘估 计具有 BLUE(best linear unbiased estimation)性质。从而在统计学和计量经济学中得到广泛应用。第四节系数的显著性检验一、系数估计值的特性:1、根据系数估计值的线性特

7、性,我们知道系数估计值是Yt和t的线性组合。又因为Yt和t都服从正态分布,所以,我们可以自然得到两 点:一是系数估计值是随机变量(这里是在数学上再次予以证明) ; 二是系数估计值服从正态分布。从而,可以用随机变量的一些数字特 征来表示。通常,我们采用的是均值与方差。系数估计值的均值是多少呢?根据系数估计值的无偏性,我们知道,E ?i1, E42。、. ? 一?、这说明系数估计值1和这两个随机变量的数学期望(均值)分别等 于总体参数(实际值)。系数估计值的方差又是多少呢?我们得到了其方差,即有2u -2 xtO根据系数估计值的最小方差性的证明,2 X2? u t?2.var 1 2var 弓 u

8、 tn xt至此,我们可以用随机变量的数学期望和方差来刻画22X 两个随机变量的分布,即有:?1服从均值为1、方差为二一4的n Xt2正态分布;而2服从均值为2、方差为 T 的分布。用数学的语言Xt2u_2,2°Xt2 X 2可以描述为:? : N 1 -4和 : N n xt可以明显看出的是,在系数的描述中,方差中含有随机扰动项的 方差,其他我们可以得到。随机扰动项是总体回归模型中的误差项,无法得到,只能对其估计 二、随机误差项方差的估计因为总体回归模型为:Yt 1 2Xt t而样本回归模型为:Yt ?Xt q从形式上看,样本回归模型中的残差.可以看作随机扰动项t的估计值。进一步,

9、残差et的方差可以作为随机扰动项t的方差:的估计值。样本回归模型为:Yt ?马Xt q样本回归直线为:Y? ? ?2xt样本回归模型的左右两边减去样本回归直线的左右两边,可得:Yt Y?把这个式子重新安排一下,可以得到: e Y Y? Y Y Y? Y现在,重点要求的是et的两个部分,即 Y? Y和Y Y。这两 部分知道之后,才能求et的方差。对样本回归模型Y 2 ?2Xt et两边分别对t求和,再除以n, 有:2Xtet1n 1 nY11n1 n?2X出1n? 1,2net2XtetnXt -etn由前边的正规方程组,我们曾经知道,占八、线上,用数学的语言来讲,就有:X,Y在样本回归直马又,

10、因此,有2 Xt X AX对总体回归模型12Xtt两边分别对t求和,再除以n,有:Yt2Xt1n1n11 n1 n所以,Yt Y2 Xt X2Xt1 n1 X2Xtn-1n tn1nt -Y12X咱.可得,2X2xtt将两部分结合起来,现在,我们可以得到:etY Y? Y Y Y? YY? Y?2XtYtY2Xt可以得到:et22 xt一,(从这个式子我们可以看由什么呢?)至此,已经将残差与扰动项联系起来了。由此,我们可以得到:2etXt2Xt22Xtxtt进一步,有:Eet22 xtXttXt2E2EXt在这三项当中,有:2u_-2Xt所以,第一项为42E2X2?TX第二项为:2221e第三

11、项为:212EXtt2EXt2EXt2Ebt2E2Ebt t2Ebi 12EbiXi2Eh*EHx 2btXt212t2 tXt1X22EbtXsE2EbtXtbibtE1Xtt2 E bt t EXt2 2故有E2 et(n1) 2(n2)2,也就是说2et2 e(n 2)2如令s2eL ,(n 2)则意味着S2o这说明S2是2的无偏估计量。前面,我们已经求得?: N 1,2 X2u和 2 : NnXt2 u2,2Xt在?1和?的方差中都含有未知量2。这里,我们证明了 S2是2的无偏估计量,因此,可以用S22信作为2的估计值,这样,代入得到小的方差的估计值分别为:_222 SXt2S?2-和

12、 S?1nx 2S22XtS?1庐,S?2 后分别称为回归模型的标准差、 参数估计值?1和3的标准差。知道了估计值的方差估计值,就可以对参数进行显著性检验,也可以估计总体参数的置信区间。二 参数估计的显著性检验以上一节家庭消费支由和收入之间的关系的例子来说明,通过选取样本,我们得到了总体参数1和2的估计值分别为2和2。通过这个估计值,我们知道了家庭消费支由和 收入的具体数量关系。现在,需要知道的是,通过样本得到 的估计值能够正确地反映总体参数吗?这需要通过假设检 验来做由判断。1、 关于假设检验假设检验指利用样本得到的信息来判断总体是否具有 莫种制定的特征。例如:奥药品生产线上规定,每片药片的

13、 净重是400毫克,标准差是4毫克。今连续检查 20片药片, 平均药片重量为毫克。问药片的重量是否已经偏离了额定净 重值?假设:对总体分布特征的假设假设检验:根据样本信息来判断总体分布是否具有指定 的特征,这个过程叫假设检验。就家庭消费支由而言,我们关注的是家庭消费支由与收 入之间是否真的存在回归关系,也就是说我们关注总体参数1和2是否不等于零。因此,我们这里的假设是对总体参数的假设,我们这里的检验是对总体参数的假设检验,我们要运用的假设检验的工具是用样本工具得到的与?和?2有关的检验的工具。这就是用样本信息来推断总体。1、 对总体均值的假设检验 因为我们关注的是解释变量和被解释变量之间的关系

14、是否真实存在,因此,我们需要检验的是总体均值是否为零。对总体均值的假设检验可分三种情况:(1)总体服从正态分布,总体 方差已知,样本大小无限制(2)总体总体分布未知,总体 方差未知,大样本(3)总体服从正态分布,总体 方差未知,小样本我们这里符合的是 总体服从正态分布,总体 方差未知, 小样本。2、用什么来检验?(检验工具,统计量)我们已经知道,参数估计值满足:2 X21 : N 1,-4和马:Nn x22 T ,要尽可能利用关于?和2Xt的信息。将?和?由正态分布转化为标准正态分布统计量:Z 1 11 : N 01 和 Zvar 2,22 : N 0,1var马在这两个统计量中,var ?和

15、var 2我们都不知道,原因在于2:未知。但我们前边已经证明S2是:的无偏估计量。(n 2)2因此,对于大样本情况,我们可以用S2信代替:,进而求得var ?和var ?2以及S?1这样,Z r1;var ?N 01和 Z -=2=2= : N 0,1 可 以进一步转化 var Z为:Z -11 : N 01S?1和 Z 2 : N 01。S?2从而可以利用这两个统计量对 总体参数1和2进行检验。(什么含义)就是说,我们可以对比如2 进行检验。如何检验呢?就是考察我们算由来的统计量Z .2 20号是否服从 :?2正态分布。对于一元线性回归模型而言,我们关心的是解释变量能否解释被解释变量,在数学

16、上这表现为2 0是否成立。因此,我们可以进行下假设:零假设H0: 20备择假设Hi: 2 0在零假设条件下,Z日口服从标准正态分布, ;S?2' S?2我们用这个统计量进行检验。在一般情况下,样本容量不满足大样本条件,这时要用t统计量,所做的检验称之为t分布检验。这时t统计量为:?”2 行,其服从自由度为(n-2)的t分布S22. S?2关于t分布t分布的含义是随机变量落入一定区域的概率。给定显著性水平 和自由度(n-2),则t落入区间t;2(n 2),t ,2(n 2) 内的概率为:P t 2(n 2) t t 2(n 2)1t落在tin 2),t 2(n 2)区域之外的概率为,也可

17、以写作:P t t,2(n 2), 此式子等价于P t t ,.2(n 2)-和P t t 2(n 2)。见下图。-t (n-2)0t (n-2)很显然,如果计算由来的这时 t统计量为:tWn 2)(即t统计量小于临界值),则可以认为原假设成立,即2 0。反之,如果计算由来的这时 t统计量为:t/2(n 2),则可以认为备择假设成立,即 因此,我们通常的希望是 t统计量值大于临界值。t统计量 值我们可以根据样本计算由来,而临界值可以通过查表得到。问题:t值与P值的关系是什么?相应地,我们可以对总体参数值1进行检验。过程为:零假设为:H0: i 0备择假设为:H1: 2 0计算统计量t上 ,S2

18、1分布表,得由临界值t 2(n 2)。t.2(n 2),则拒绝零假设,接受备择假设,即认为三、总体参数的置信区间1、1的置信区间t 2(n 2) t t 2(n 2)111S?1代入概率公式,可得:P t 2(n 2)11S?1t 2(n 2)P t 2(n 2)S?1 t 2(n2)S?11P 彳 tin 2)S?t 2(n 2)S?11P 彳 t;2(n 2)S?1 彳 t,2(n 2)S?11用概率表述为:总体参数1在区间? t/2(n 2)S? , ? t .,2(n 2)S?内的概率为1。统计表述:区间 ? t.;2(n 2)S? , ? t,2(n 2)S4包含总体参数1的概率为1

19、。通常说,总体参数 1的1置信区间为:? t 2(n 2)S? , ? t 2(n 2)S? 112、相似地,总体参数2的1置信区间为:马 t ,.2(n 2)S2 , 2 t ,2(n 2)Sv由这两个区间,可以推断总体回归线所处的区域。四、决定系数(可决系数)评价回归直线对观察值拟合的好坏,拟合优度是一个重要的指标。显然,若观测点离回归直线近,则拟合程度好,反之,则拟合程度差。测量拟合优度的统计量是可决系数(决定系数)现由一个恒等式开始。Yt Y (Y? Y) (Yt Y?)这个式子把解释变量的总偏差 Yt Y分解成两部分:回归偏差 或者叫可解释偏差(y? Y)和残差(Y Yt)两部分之和

20、。可解释偏差是由样本回归直线决定的,残差则是随机的。显 然,由样本回归直线解释的部分越大,则残差越小,样本回 归直线与样本值的拟合优度就越好。而要从总体上反映样本 回归方程对所有样本点的拟合的好坏,必须求和,考虑到正 负抵消的问题,可以求平方和。总离差平方和:TSSYt Y 2回归平方和:essY? Y2残差平方和:RSSYt Y? 2现在推导三者之间的关系:Y;Y (Y? Y) (Y;Y?)-2c 一c 2Y; Y (Y? Y) (Y Y;)(Y? Y)2 (M Y?)2 2(Y? Y)( Y?)Y? Y 2Yt Y? 2 2(Y? Y)(Yt Y?)_ 22Y? YYt Y?这里有:2(Y

21、? Y)(Yt Y?)2? ?2Xt Yet2 ? et 2 ?2 etXt 2Y et0(会议正规方程组)所以有 Y Y 2 Y? Y2Yt Y?2。即:总离差平方和=回归平方和+残差平方和。用公式表示为:TSS=ESS+RSS, ESS表示可以由解释变量说明的 偏差部分,RSS表示可以由残差说明的偏差部分。显然,ESS在TSS中所占的比例越大,RSS所占的比例越小,则参数估计值的显著性越强,样本回归直线与样本观测值拟 合得越好。因此,可以用ESS在TSS中所占的比例说明回归直线与样本观测值的拟合程度。也即总离差中可以由回归方程 说明的部分。可决系数或拟合优度可以定义为:r2.ESS_Y?

22、YTSSY Y2可决系数的取值范围为:R2 0,1R2变化的含义是什么?四、相关分析1、 回归分析和相关分析的区别回归分析:性质、变量要求相关分析:相关关系,不是因果关系。变量要求不同2、 相关分析的分类:线性相关:直观上讲,样本点集中分布在一条直线附近。直线斜率为正,为正相关。直线斜率为负,则为负相关。非线性相关:样本点分布在一条曲线周围。3、 相关程度的度量一般用相关系数表示 X和Y的相关程度。总体相关系数定义为 xy二co-X,Y。 Vvar(X) Jvar( Y)总体相关系数的取值范围:总体相关系数与样本相关系数之间的关系。样本相关系数一般用 仅丫来表示,且定义:-xtytcov X,

23、YE X X Y Y一一一I I一I VV 一 ,/一 .11一.一 I&ar(X),var(Y)Je XX7T Je Y Y 2 _xtV; 4xn n这里有:行X Xyt=Y Y4、 相关分析与回归分析的关系这里特指在一元线性回归分析和简单相关分析中的关系。这里可决系数与相关系数有如下关系:iXy = R2 ,即 r = Vr2 o5、 计量回归分析的规范表达第五节 预测和预测区间关于预测预测对两种样本数据的作用。 对于时间序列数据的估计的 目的是预测。对截面数据估计的目的是为了推测未知数 据。预测是计量经济学的一项主要任务。一、预测的点估计首先回顾四个方程式总体回归模型:Y 12

24、Xt t总体回归直线:E Yt 12Xt样本回归模型:Y ?0 ?Xt et样本回归直线:Yt 7 Z”对于样本外的符合假定条件的一点X。而言,代入总体回归模型和总体回归直线,我们可以得到:Y)12X00 和 EY。2X0然而,由于1和2我们并不知道,因此,无从获得丫0和E Y。但是,利用样本回归直线,我们可以得到Yo的估计值Y0,即Y0? NX。,求期望有:E 丫02X0E?2X01 X0 E?22X0 E Y0这说明Y0是e Y)的无偏估计量同时,E Y E YoYo0 ,故E Y0Y0 ,这说明喝不是Yo的无偏估计量。Yo Yo 12X0Y0Z?Xo0可得:E Yo% E i2X002X

25、0E 1,22 Xo 0E 11 XoE 2'2E0这说明在多次观察中,Yo%平均值趋于零,从而以 喝作为Yo的估计中心是合理的、预测的区间估计 1、E Yo的置信区间2、Yo的置信区间先求E %的置信区间因为E %12X0 ,所以E Yo服从正态分布。求其置信区间的关键是求其与 %的偏差的方差。2var E Y) Y0E EYo Y0 E E丫。 Y其中,E E Yo丫,EYoEY00( Y0是E 丫0的无偏估计量)2所以,var E Yo Y0E E Y° Y0 ,进一步可以与为222var EYoY?oE EYoY?oE EY?oY?oEY?oEY?ovar Y?o进而

26、,var E Yo濡 E E Yo次2 ? VE 1122 Xo2X0Xo2E?2? Y12Xo2 2XoE ?1?22上式子中的第一项为:E ?1 2 E ?1E ?varX2-2- Xt上式子中的第二项为:_2-Xo2E?22Xo2E 2?7 2Xo varX 2 2Xo u2-Xt上式子中的第三项为:2XoE,11'22XoX u22xt将上述三项相加得到一 22 1Xo Xvar E Yo 品 U()nxt因为上式中,总体方差:可以用S2来代替从而可以得到E Yo%的方差估计值为:Var E Yo Y01 1XoVar 招S2(1 n 2X) Xt所以,根据E Yo%的分布,给

27、定显著性水平,使用t统计量,则有Pt 2n 2EY。Y? t 2n 21Var%Var Y?E YoY? t 2 n 2 Var Y? 1。这说明,E Yo的1 置信区间为:2、Yo的置信区间相似地,我们可以得到Yo品的方差估计值为2。1Xo XVar Yo Y0S2(1 1 -)nxt从而Yo的1 置信区间为:10.案例:用回归模型预测木材剩余物伊春林区位于黑龙江省东北部。全区有森林面积万公顷,木材蓄积量为亿nt森林覆盖 率为%是我国主要的木材工业基地之一。1999年伊春林区木材采伐量为 532万按此速度44年之后,1999年的蓄积量将被采伐一空。所以目前亟待调整木材采伐规划与方式,保 护森

28、林生态环境。为缓解森林资源危机,并解决部分职工就业问题,除了做好木材的深加工 外,还要充分利用木材剩余物生产林业产品,如纸浆、纸袋、纸板等。因此预测林区的年木 材剩余物是安排木材剩余物加工生产的一个关键环节。下面,利用一元线性回归模型预测林区每年的木材剩余物。显然引起木材剩余物变化的关键因素是年木材采伐量。给出伊春林区16个林业局1999年木材剩余物和年木材采伐量数据如表。散点图见图。 观测点近似服从线性关系。建立一元线性回归模型如下:yt =o +1 Xt + Ut表年剩余物yt和年木材采伐量xt数据林业局名年木材剩余物yt (万m3)年木材采伐量x (万川)乌伊岭东风新青红星五营上甘岭友好 翠峦 乌马河 美溪 大丰 南岔带岭 朗乡 桃山图 年剩余物yt和年木材采伐量xt散点图图 Eviews输出结果Eviews估计结果见图。建立Eviews数据文件的方法见附录 1。在已建立Eviews数据文 件的基础上,进行 OLS估计的操作步骤如下:打开工作文件,从主菜单上点击 Quick键,选Estimate Equation 功能。在出现的对话框中输入y c x。点击Ok键。立即会得到如图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论