前面讨论的简单随机抽样和分层抽样_第1页
前面讨论的简单随机抽样和分层抽样_第2页
前面讨论的简单随机抽样和分层抽样_第3页
前面讨论的简单随机抽样和分层抽样_第4页
前面讨论的简单随机抽样和分层抽样_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 前面讨论的简单随机抽样和分层抽样,我们所关心的参前面讨论的简单随机抽样和分层抽样,我们所关心的参数都是单指标的,给出的估计量也是线性形式。这一章我们数都是单指标的,给出的估计量也是线性形式。这一章我们将要讨论比较复杂的情况,我们关心的参数不再是单指标的将要讨论比较复杂的情况,我们关心的参数不再是单指标的而是两个或两个以上的指标。此时,遇到的统计量不再是线而是两个或两个以上的指标。此时,遇到的统计量不再是线性形式,往往呈现出非线性形式,比如两个变量之比,或呈性形式,往往呈现出非线性形式,比如两个变量之比,或呈现变量之间的回归关系。现变量之间的回归关系。第五章第五章 比估计与回归估计比估计与回归

2、估计 所谓回归关系就是变量之间的关系不是确定的,是带有所谓回归关系就是变量之间的关系不是确定的,是带有随机影响的。比如身高和体重的关系,身高增加时,一般来随机影响的。比如身高和体重的关系,身高增加时,一般来说,体重也会增加,但又不能说一定如此。要确定身高和体说,体重也会增加,但又不能说一定如此。要确定身高和体 1 1 概概 述述一、问题的提出一、问题的提出重的关系,一般用回归的方法。这类问题首先是由英国统计重的关系,一般用回归的方法。这类问题首先是由英国统计学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发现现儿子的身高有回到家族平均身高的

3、趋势儿子的身高有回到家族平均身高的趋势,因而,因而把所得关系把所得关系式称为回归方程式称为回归方程,于是回归的名词就沿用下来了。,于是回归的名词就沿用下来了。比估计与比例估计比估计与比例估计辅助变量:用来帮助主要指标估计的其他指标。辅助变量:用来帮助主要指标估计的其他指标。二、比估计与回归估计的作用与使用条件二、比估计与回归估计的作用与使用条件(一)作用:提高估计的精度(一)作用:提高估计的精度(二)使用条件(二)使用条件1.主要指标与辅助变量之间有良好的线性相关关系。主要指标与辅助变量之间有良好的线性相关关系。2.辅助变量的总体总量或均值是已知的辅助变量的总体总量或均值是已知的。2 2 比比

4、 估估 计计 设有一个二元变量的总体设有一个二元变量的总体 :(,)X Y1122(,),(,),(,)NNX YX YXY有有 4 个参数是我们所熟悉的:个参数是我们所熟悉的:XY、指标指标 的平均数的平均数XY、2211()1NXiiSXXN 2211()1NYiiSYYN 指标指标 的方差的方差XY、如果简单随机样本为如果简单随机样本为 ,则,则 及及 的估计为:的估计为:(,)(1,2, )iixyin (,)Cov X Y 在研究比估计之前,再引进一个新的参数在研究比估计之前,再引进一个新的参数变量之间变量之间的协方差:的协方差:11(,)()()1NiiiCov X YXXYYN

5、(5.1)XY、之间的之间的相关系数相关系数定义为:定义为:(,)()( )Cov X YVar XVar Y 1112211()()()()NiiiNNiiiiXXYYXXYY (5.2)11()()1nxyiiiSxxyyn (5.3)1112211()()()()niiinniiiixxyyxxyy (5.4)在讨论比估计之前,先考察总体的两个平均数之比,即在讨论比估计之前,先考察总体的两个平均数之比,即RYX 由于由于 分别是分别是 的无偏估计,的无偏估计, 的估计自然定义为的估计自然定义为,x yX Y, ,RRy x 假如假如 或或 已知,总体平均数已知,总体平均数 与总体总和与总

6、体总和 的比估计的比估计量定义为:量定义为:XXYYRyyyR XXXxx(5.5)RyyyR XXXxx(5.6)通常的比估计是指通常的比估计是指 (5.5) 式与式与 (5.6) 式,而式,而 则称为比值则称为比值 的的估计。估计。RR由由 (5.5) 式与式与 (5.6) 式可知,式可知, 与与 的习性主要依赖于估计量的习性主要依赖于估计量 ,因此在不少场合,我们常用,因此在不少场合,我们常用 来说明。来说明。RRRyRy 尽管尽管 分别是分别是 的无偏估计,由于的无偏估计,由于 的非线性形式,因的非线性形式,因此此 关于关于 是有偏的,从而是有偏的,从而 关于关于 也是有偏的。也是有偏

7、的。,x yX Y, ,RRR,RRyy ,Y Y一个合理的估计量,应该随着样本容量一个合理的估计量,应该随着样本容量 n 的增加,估计量的的增加,估计量的期望与参数之差应该越来越小并渐渐趋于零,即期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏渐近无偏”比估计是否渐近无偏呢?比估计是否渐近无偏呢?利用利用Taylor展开式,有展开式,有将比估计将比估计 表示为:表示为:Ry x (1)yyRxXxXX 21yyxXxXRxXXX 21yxXxXXXX (5.7)当当 n 相当大时,相当大时, 与与 相当接近,而相当接近,而 是常数,又是常数,又 是是 的的无偏估计,因此,实质上无偏估计,

8、因此,实质上 ,所以,所以 。xXXYy( )E RR Ry X (5.7)式的好处不单单告诉我们式的好处不单单告诉我们 这一事实,而且告这一事实,而且告诉了我们,当诉了我们,当 n 相当大时,相当大时, ,表明,表明 可以表示成可以表示成 的平均数,因此的平均数,因此 的分布可近似正态分布的分布可近似正态分布( )E RR Ry X R(1,2, )iy Xin R因此,可利用因此,可利用 近似标准正态分布获得近似标准正态分布获得 的置信区间的置信区间( )RRVar R R而而22221( )(2)YXXYfVar RSR SRSnX (5.8)另外另外2221()(2)RYXXYfVar

9、 ySR SRSn (5.9)2222(1)()(2)RYXXYNfVar ySR SRSn (5.10)公式公式(5.8)、(5.9)、(5.10)为我们提供了为我们提供了 的估计量的形式。具体计算时,只要将的估计量的形式。具体计算时,只要将 分别换为分别换为 即可。我们将由此得到的估计量分别记为:即可。我们将由此得到的估计量分别记为:( ),(),()RRVar R Var yVar y 22,XYXYSS SR22,XYXYss sR2)XYRs ( )v R 22221(YXfsR snx 2221(YXfsR sn 2)XYRs ()Rv y 2222(1)(YXNfsR sn 2)

10、XYRs ()Rv y 那么,那么, 的置信水平为的置信水平为 的置信区间分别为:的置信区间分别为:,R Y Y (1) ()Ruv y Ry( , )()Ruv y Ry()uv R R( )uv R R( , )(5.11) 下面说明比估计的优点。主要针对下面说明比估计的优点。主要针对 与与 来说明,因为来说明,因为它们仅相差一个常数因子,因此,只需讨论其中一个就可以。它们仅相差一个常数因子,因此,只需讨论其中一个就可以。RyRy 当当 n 充分大时,充分大时,2221()(2)RYXXYfVar ySR SRSn 21( )YfVar ySn 而而欲使欲使 ,仅需,仅需()( )RVar

11、 yVar y 2220XXYR SRS 或或2220XXYR SR S S 即即11222XXXYYYRSSXCSSYC (5.12)( , )()Ruv y Ry ()Ruv y Ry (5.12)表明,如果变量表明,如果变量X与与Y正相关,且相关程度非常密正相关,且相关程度非常密切的话,那么比估计的精度高于简单随机抽样的精度。如果切的话,那么比估计的精度高于简单随机抽样的精度。如果相关程度不那么密切(相关程度不那么密切( ),此时已知的),此时已知的X信息并信息并没有较多地提供没有较多地提供Y的信息,借助的信息,借助X来推断来推断 也许会也许会“帮倒忙帮倒忙”假如假如X与与Y是负相关,则

12、更不能采用比估计方法,此时应采用是负相关,则更不能采用比估计方法,此时应采用所谓乘积估计,即:所谓乘积估计,即:Y2XYCC 当当 n 充分大时,且满足:充分大时,且满足:1122XXYYSXCSYC (5.14),ppxyxyyyNXX (5.13)成立成立()( )RVar yVar y 例例5.1 某县小麦种植面积为某县小麦种植面积为218756亩,分布在亩,分布在N=576个村,为个村,为估计全县产量,随机无放回地抽取估计全县产量,随机无放回地抽取n=24个村,所得数据如下个村,所得数据如下123456789101112131415161718192021222324112.0129.

13、1208.2158.5110.2123.3157.7154.298.7112.7125.560.3302361608444298349416428258347351158105.780.5163.098.7137.8141.2152.5142.5136.7153.293.0179.8308217492280378386428390376432261483i村村i村村()iy产量吨产量吨()iy产量吨产量吨()ix面积亩面积亩( )ix面面积积 亩亩每个村有两个指标:每个村有两个指标:面积面积 和和产量产量 ,即:,即: ixiy(,)iixy经计算可得:经计算可得:364.625x 130.6

14、25y 21112.195xs 29498.505ys 3213.110 xys 218756X 218756379.7847576X 所以该县平均亩产小麦估计为:所以该县平均亩产小麦估计为:130.6250.358245()364.625yRx 吨吨 亩亩218756 0.35824578368.2()RyXR 吨吨采用比估计可得采用比估计可得 和和 分别为:分别为:Ry ()Rv y 2222(1)(yxNfsR sn 2)xyRs ()Rv y 385080 仅利用仅利用 数据估计该县小麦总产量数据估计该县小麦总产量 与估计量方差分别为:与估计量方差分别为:yY 576 130.6257

15、5240()yN y 吨吨22(1)( )14734359yNfv ysn 显然,显然, 的方差远远小于的方差远远小于 的方差。理由很清楚!小麦亩产的方差。理由很清楚!小麦亩产量与土地拥有量呈现正相关,且相关程度相当密切,因此,量与土地拥有量呈现正相关,且相关程度相当密切,因此,在抽样调查中对每个村了解有关产量和土地亩数,利用已知在抽样调查中对每个村了解有关产量和土地亩数,利用已知该县土地的固有已知数,能比较精确地推断总产量。事实上该县土地的固有已知数,能比较精确地推断总产量。事实上在实际操作中人们正是这样去做的!在实际操作中人们正是这样去做的!Ry y 现在来求总产量的现在来求总产量的95的

16、置信区间,首先的置信区间,首先置信区间为:置信区间为:()Ruv y Ry ( , )()Ruv y Ry ()620.55()Rv y 吨吨1.96u (77152,79584) 2 2 分层抽样中的比估计分层抽样中的比估计1、分别比估计、分别比估计 设总体分为设总体分为 k 层,第层,第 h 层的样本均值记为层的样本均值记为 ,在该层,在该层中中 与与 的比估计记为的比估计记为 ,又记,又记 和和 为第为第 h 层中指标层中指标 的平均数与总和,的平均数与总和, 与与 分别为该层中分别为该层中 的方差的方差和协方差,若和协方差,若 换为换为 , 换为换为 ,则显然表示该层样本,则显然表示该

17、层样本的方差和协方差。的方差和协方差。,hhyxhYhY ,RhRhyy hXhX X22,YhXhSSYXhS,Y XSs,Y X, y x我们可以得到有关总体我们可以得到有关总体 和和 的分别比估计为:的分别比估计为:YY 分层抽样中的比估计有两种:一是分层之后,先在各层分层抽样中的比估计有两种:一是分层之后,先在各层获得比估计,然后按层权平均得到总体参数估计;二是先对获得比估计,然后按层权平均得到总体参数估计;二是先对 作分层估计,然后再采用比估计方法。前者称为作分层估计,然后再采用比估计方法。前者称为分别比分别比估计估计,后者称为,后者称为联合比估计联合比估计。,Y X1111kkkh

18、hRShRhhhhhhhhhyyyW yWXXxNx (5.15)11kkhRSRShRhhhhyyN yXyx (5.16)由上节可知,各层中的由上节可知,各层中的 是是 的渐近无偏估计量,因此的渐近无偏估计量,因此 是是 的渐近无偏估计量:的渐近无偏估计量:Rhy hY Y RSy 各层的抽样又是独立进行的,由各层的抽样又是独立进行的,由(5.10)式,可以近似得到式,可以近似得到 的方差或均方误差,当各个的方差或均方误差,当各个 都相当大时:都相当大时:RSy hn1()()kRSRhhE yE yY (5.17)()()RSRSMSE yVar y 22221(1)(2)khhYhhX

19、hhYXhhhNfSR SR Sn (5.18)hhhYRX (5.17), (5.18)告诉我们,即使每层告诉我们,即使每层 相当大,但如果层数相当大,但如果层数k比较大,由于误差的积累,比较大,由于误差的积累, 产生的偏倚与误差可能相当产生的偏倚与误差可能相当大。大。hnRSy2、联合比估计、联合比估计而而 的相应(联合)比估计可以写成:的相应(联合)比估计可以写成:,Y Y 将将 分别进行分层估计,然后相比即得总体的两个分别进行分层估计,然后相比即得总体的两个指标平均数之比的估计:指标平均数之比的估计:,X YststcststyyRxx (5.19)stRccstyyR XXx (5.

20、20)stR cR cstyyNyXx (5.21) 为与分别比估计进行比较,我们讨论联合比估计的期为与分别比估计进行比较,我们讨论联合比估计的期望和方差。当望和方差。当 n 相当大时,有相当大时,有()()RcRcMSE yVar y 22221(1)(2)khhYhXhYXhhhNfSR SR Sn (5.23)RY X 其中其中 为总体的比值。为总体的比值。()R cEyY (5.22)(5.22)表明,表明, 是是 的渐近无偏估计,的渐近无偏估计,(5.23)与与(5.18)非常相非常相似,唯一不同的是在似,唯一不同的是在(5.18)中用的是各层的比值中用的是各层的比值 ,而,而(5.

21、23)中用的是总体的比值中用的是总体的比值 。Rcy Y hRR3、分别比估计与联合比估计的比较、分别比估计与联合比估计的比较()()RcRsVar yVar y 22221(1)()2()khhhXhhYXhhhNfRRSRR Sn (5.24)22221(1)()2()()khhhXhhhYhXhhXhhhNfRRSRRS SR Sn 仅就总体总和进行比较。如果各层的仅就总体总和进行比较。如果各层的 相当大,由相当大,由(5.18)和和(5.23)可得:可得:hn当对一切当对一切 h 有有 时,这两种估计方差相同,也就是说当时,这两种估计方差相同,也就是说当分层对比值并无多大意义情况下,谈

22、论分别比估计与联合比分层对比值并无多大意义情况下,谈论分别比估计与联合比估计孰优孰劣已经无多大意义。估计孰优孰劣已经无多大意义。hRR 然而,如果各层有自己的特色,然而,如果各层有自己的特色, 不可能在每一层均等不可能在每一层均等于于 ,此时倘若对每一层来说,此时倘若对每一层来说, 与与 之间的关系是比例之间的关系是比例关系,即关系,即 ,此时,此时 ,于是,于是(5.24)式内求式内求和式内每一项中括号内第二部分等于零,这样显然有和式内每一项中括号内第二部分等于零,这样显然有hRRhiYhiXhihiYkX hYhhXhSR S ()()RcRsVar yVar y 即即“分别比估计分别比估

23、计”比比“联合比估计联合比估计”精度高一些。其实,只要比精度高一些。其实,只要比估计非常有效,即对一切估计非常有效,即对一切 h , 时,这一项值相时,这一项值相对地就小,此时中括号中均以第一部分占主导地位,仍有对地就小,此时中括号中均以第一部分占主导地位,仍有()()RcRsVar yVar y 2hXYCC 当然,有些层的当然,有些层的 不是相当大,这种场合分别比估计的偏倚不是相当大,这种场合分别比估计的偏倚可能很大而使总的均方误差增大,于是我们宁可采用联合比可能很大而使总的均方误差增大,于是我们宁可采用联合比估计的方法。估计的方法。hn3 3 数值例子数值例子 例例5.2 某地区有某地区

24、有976个自然村,根据该地区的地貌将各村所属个自然村,根据该地区的地貌将各村所属耕地划为三种类型,各村按类型上报了耕地面积耕地划为三种类型,各村按类型上报了耕地面积 (以亩计算以亩计算)为核实这些上报数据,采用按比例分配的分层随机抽样方法为核实这些上报数据,采用按比例分配的分层随机抽样方法在每一种类型中抽取若干村进行实测核实,倘若以在每一种类型中抽取若干村进行实测核实,倘若以 X表示上表示上报数据,以报数据,以Y表示实测数据表示实测数据,抽样结果如下表抽样结果如下表:1h 2h 3h iii1iy1ix2iy3iy2ix3ix123456789101241 858 9611132 934 83

25、8 621 647 654 8481174 945 88411131031 792 586 609 599 82712345671030 93110391101 941 561 930 885 996 805 995 831 545 807 652 627 974149912001254 527 585 74111301140 952123456有关计算结果及其它数据如下表有关计算结果及其它数据如下表:hhNhWhX hnhyhxhhhyRx 2yhS2xhSyxhS976N 826800X 23n 933.6087y 847.7826x 1.101236yRx 257745yS 241146

26、xS 43051yxS 1234272972520.43750.30430.25823672002516002080001076873.4000933.28571034.3333856.0000837.7143845.83331.0203271.1140861.22285742064.93331221.571121470.66745710.88923294.90571846.96742055.66722692.42987713.867试对总体总和试对总体总和 (该地区实际耕地面积总和该地区实际耕地面积总和)用各种手法进行用各种手法进行估计估计.Y (1)简单随机抽样估计简单随机抽样估计 由于分

27、层抽样是在各层按比例分配进行的,因此可以将由于分层抽样是在各层按比例分配进行的,因此可以将23个村所得数据看作是从总体个村所得数据看作是从总体 976 个村中抽取的一个较合理个村中抽取的一个较合理的简单随机样本,上表中最后一行的数据都是基于这样的的简单随机样本,上表中最后一行的数据都是基于这样的“简单随机样本简单随机样本”而计算的。而计算的。976933.6087911202()yNy 亩亩为求精度,常用其标准差为求精度,常用其标准差()()()s yVar yNVar y 若用若用 ,则有,则有211( )()yVar ysnN 11()976()5774648324()23976s y 亩

28、亩然而我们的这些数据毕竟是从分层抽样而得到的,利用分层然而我们的这些数据毕竟是从分层抽样而得到的,利用分层估计真正的简单随机抽样的平均数的方差,可以借用一个近估计真正的简单随机抽样的平均数的方差,可以借用一个近似公式(用于按比例分配的分层抽样情况)也许更为精确:似公式(用于按比例分配的分层抽样情况)也许更为精确:21( )()(1)ystNnnv ysv yn Nn 221111()(1)kyhyhhNnnsW sn NnnN (5.25)( )( )976( )48351()s yNv yv y 亩亩此时此时97623231( )5774523(9761)23v y 11()(0.4375

29、42064.9330.3043 31221.5710.2582 121470.667)23976245.4235 两种算法的差距并不大。两种算法的差距并不大。(2)简单随机抽样比估计简单随机抽样比估计1.101236 826800910502()RyyXRXx 亩亩222(1)()(Ryxfs yNSR Sn 2)23095()xyRS 亩亩(3)分层随机抽样简单估计分层随机抽样简单估计1910780()ksthhhyN y 亩亩()()ststs yNv y 2111()khhhNW SnN 11976 ()(0.4375 42064.933 0.3043 31221.571 0.2582

30、121470.667)23976 48975( 亩亩)(4)分层随机抽样分别比估计分层随机抽样分别比估计1kRSRShhhyN yRX 367200 1.020327251600 1.114086208000 1.222857 909322() 亩亩22221(1)()(khhRSyhhxhhhNfs ysR sn 2)hyxhR s 15360() 亩亩(5)分层随机抽样联合比估计分层随机抽样联合比估计1ststcksthhhyyRxNx 9107801.1006908274631.100690 826800910050()RccyR X 亩亩22221(1)()(khhRcYhcxhhhN

31、fs ySR sn 2)cyxhR s 15936() 亩亩 从以上五种情况的结果分析,两种简单估计的精度较差从以上五种情况的结果分析,两种简单估计的精度较差因为他们没有充分利用已知的因为他们没有充分利用已知的 及及 的信息,三种比估计由的信息,三种比估计由于利用了于利用了 的信息,显然精度大大提高了。的信息,显然精度大大提高了。X xX 同时我们注意到分层随机抽样的两种比估计比起简单随同时我们注意到分层随机抽样的两种比估计比起简单随机抽样的比估计效果略好一些,这是因为在实际测量中已分机抽样的比估计效果略好一些,这是因为在实际测量中已分的三层的确有所区别。的三层的确有所区别。 最后我们指出,在

32、分层随机抽样中,分别比估计与联合最后我们指出,在分层随机抽样中,分别比估计与联合比估计有着几乎差不多的效果,这正是我们在正文中所阐述比估计有着几乎差不多的效果,这正是我们在正文中所阐述的理由,当每层抽样容量的理由,当每层抽样容量 不很大时,联合比估计不比分别不很大时,联合比估计不比分别比估计来的差。比估计来的差。hn 一个有趣的事实是对于一个有趣的事实是对于 的估计,恰好三个比估计比起的估计,恰好三个比估计比起两个简单估计要略低一些,由于随机性,当然我们不能指认两个简单估计要略低一些,由于随机性,当然我们不能指认到底哪一个估计比较接近事实,但是三种比估计统统略低会到底哪一个估计比较接近事实,但

33、是三种比估计统统略低会使我们产生这样一个想法:这是否会是由于比估计本身时有使我们产生这样一个想法:这是否会是由于比估计本身时有偏性而引起的呢?对于上面具体例子我们缺乏根据说它们偏偏性而引起的呢?对于上面具体例子我们缺乏根据说它们偏小了些。但是比估计的有偏性却在理论上是无法否认的事实小了些。但是比估计的有偏性却在理论上是无法否认的事实调查工作者与统计学家一直在设法尽力减少偏差,这称为估调查工作者与统计学家一直在设法尽力减少偏差,这称为估计量的计量的“纠偏纠偏”。Y 4 4 回归估计量回归估计量 前面讨论的比估计之所以能在精度方面获益匪浅,是因前面讨论的比估计之所以能在精度方面获益匪浅,是因为我们

34、充分利用了已知的辅助变量为我们充分利用了已知的辅助变量 X 的信息,而且这个辅助的信息,而且这个辅助变量变量 X 与我们所关心的变量与我们所关心的变量 Y 之间有着密切的关系,这种关之间有着密切的关系,这种关系越密切,对系越密切,对 Y 的某些指标的估计精度就越高。的某些指标的估计精度就越高。 现在假定变量现在假定变量Y与与X之间存在着线性回归关系(但不是通之间存在着线性回归关系(但不是通过原点),又假设过原点),又假设X的信息已知或部分已知,我们想利用的信息已知或部分已知,我们想利用X的的信息提高对信息提高对Y的估计精度。的估计精度。1、简单随机抽样情况、简单随机抽样情况 设从总体设从总体

35、中随机无放回的抽取样本中随机无放回的抽取样本 ,若变量,若变量 关于关于 的回归直线不通过的回归直线不通过原点,具有如下形式:原点,具有如下形式:( ,)1,2,iiY XiN (,)1,2,iiy xin iyix011,2,iiiyxin (5.26)iyiy的回归值的回归值 估计为估计为相应的,总体总和相应的,总体总和 的回归估计为:的回归估计为:Y这里这里 可以是一个设定的常数,也可以是估计得到的回归可以是一个设定的常数,也可以是估计得到的回归系数。例如,若设定系数。例如,若设定 ,则,则 即为简单估计量;即为简单估计量;若令若令 是一个估计量,则是一个估计量,则 0 tryy y x

36、 ()lryyyyXxXxx其中其中 是是 的估计量。为方便起见,记的估计量。为方便起见,记 ,我们可,我们可以用所有以用所有 N个个 的回归值的回归值 的平均值来估计总体平均数的平均值来估计总体平均数这样就得到这样就得到 的线性回归估计,倘若的线性回归估计,倘若 已知,有:已知,有:1 iyiyYXY1 1 即为比估计量。可见回归估计包含简单估计和比估计。即为比估计量。可见回归估计包含简单估计和比估计。1()iiyyxx (5.27)()lryyXx (5.28)lrlryNy (5.29)(1) 为设定常数的情形为设定常数的情形 这种情况在实际应用中是存在的。比如为同一目的进行这种情况在实

37、际应用中是存在的。比如为同一目的进行的调查已重复进行多次,将以前数据中的调查已重复进行多次,将以前数据中 关于关于 计算而得的计算而得的回归系数(倘若前几次该系数比较稳定在某一数值的话)直回归系数(倘若前几次该系数比较稳定在某一数值的话)直接作为最新调查的接作为最新调查的 设定值。设定值。 iYiX 首先研究这种简单回归估计值的期望。注意到首先研究这种简单回归估计值的期望。注意到 是是 的的无偏估计,无偏估计, 又是又是 的无偏估计,因此,有:的无偏估计,因此,有:yYxX()( )()lrE yE yE XxY (5.30)即回归估计量是总体平均数的无偏估计。即回归估计量是总体平均数的无偏估

38、计。 的方差可计算为:的方差可计算为:lry2221()(2)lrYXYXfVar ySSSn (5.32) 由由(5.30)以及以及(5.32)可知,无论可知,无论 是怎样的设定值,是怎样的设定值, 总总是是 的无偏估计,估计的精度与的无偏估计,估计的精度与 的设定值有关。的设定值有关。 lryY (5.32)式的右端实际上是式的右端实际上是 的二次三项式,又由于的二次三项式,又由于 前的系前的系数为数为 是个正数,因此,只要适当选取是个正数,因此,只要适当选取 就可使就可使 达达到最小值,利用高等数学的知识,可得使到最小值,利用高等数学的知识,可得使 达到最小达到最小值的值的 应为:应为:

39、2 2XS ()lrVar y ()lrVar y其中其中 为为 X 和和 Y 的相关系数,此时最小方差为:的相关系数,此时最小方差为: 22min1()(1)lrYfVar ySn (5.34)1min21()()()NiiiYNXiiYYXXSSXX (5.33)(2) 取样本回归系数的情形取样本回归系数的情形 如果如果 需要估计而定,估计的原则总是使需要估计而定,估计的原则总是使 达到最小达到最小 ()lrVar y根据根据(5.33)式的启发,自然取:式的启发,自然取:121()()()niiilniiyyxxxx (5.35)这实际上就是样本回归系数。利用这实际上就是样本回归系数。利

40、用 得到的回归,由于得到的回归,由于 是比值型随机变量,与比估计一样的理由,是比值型随机变量,与比估计一样的理由, 不可能是总不可能是总体平均数的无偏估计。但当体平均数的无偏估计。但当 n 相当大时,有下列近似结果:相当大时,有下列近似结果:l l lry1()()lrEyYOn (5.36)223 211()(1)()lrYfVar ySOnn (5.37) 因此,对简单随机抽样,当样本容量因此,对简单随机抽样,当样本容量 n 相当大时,回归相当大时,回归估计估计 (不管(不管 是否设定)的方差均近似地看作:是否设定)的方差均近似地看作:lry 221()(1)lrYfVar ySn 与简单

41、随机抽样时与简单随机抽样时 的简单估计的简单估计 的方差相比,只要的方差相比,只要 ,则回归估计一定优于简单估计。则回归估计一定优于简单估计。Yy0 至于至于 的情况,则表示的情况,则表示X与与Y没有任何线性关系,那么没有任何线性关系,那么用用X、Y的线性回归来估计的线性回归来估计 就相当于单纯依赖就相当于单纯依赖 去估计去估计0 YYiy 回归估计与简单随机抽样时的比估计相比孰优孰劣呢?回归估计与简单随机抽样时的比估计相比孰优孰劣呢?当当 n 相当大时,比估计的方差为:相当大时,比估计的方差为:2221()(2)RYXYXfVar ySR SR S Sn 欲使回归估计优于比估计,当且仅当:欲

42、使回归估计优于比估计,当且仅当:22222YXXYSR SR S S 即即2()0YXSRS 或或2min()0R (5.38)这是一个当然的不等式。一般情况总是回归估计优于比估计这是一个当然的不等式。一般情况总是回归估计优于比估计除非除非 ,此时这两种估计量效果几乎一样。,此时这两种估计量效果几乎一样。minR 回归估计量的上述性质都是在样本容量回归估计量的上述性质都是在样本容量 n 相当大时才成相当大时才成立,当立,当 n 偏小时容易产生较大偏倚,偏小时容易产生较大偏倚,(5.36)式中关于式中关于1/n的同的同阶无穷小这一项就蕴涵了这种可能性。阶无穷小这一项就蕴涵了这种可能性。 当当 n

43、 相当大时,相当大时, 或或 如何估计呢?如何估计呢?()lrMSE y()lrVar y由于这两个参数的主要部分都是由于这两个参数的主要部分都是 ,因此,要,因此,要给出估计,只要将给出估计,只要将 S 换为换为 s,X、Y 换为换为 x、y,N 换为换为 n即可即可221(1)YfSn 22(1)YS 形式上的估计可以写成形式上的估计可以写成22112211()()1()11()()niiniinniiiiixxyyyynxxyy 21222111()()()1()()niiniinniiiiixxyyyyxxyy 实质上是残差平方和,其自由度为实质上是残差平方和,其自由度为(n2),因此

44、得到,因此得到或或 的估计为:的估计为:()lrVar y()lrMSE y212211()()1()()(2)()niinilriniiixxyyfv yyyn nxx (5.39)2221(1)()(2)yxyxsfnsn ns 1221()()()niiyxilnxiixxyyssxx 为样本回归系数为样本回归系数21()(1)()(2)lrylyxfv ynssn n 故故例例5.3 (续例(续例5.1)使用回归估计继续讨论某县小麦亩产与总产)使用回归估计继续讨论某县小麦亩产与总产量问题。量问题。样本回归系数样本回归系数23213.1100.33839498.505yxlxss 小麦产

45、量的估计为小麦产量的估计为:()lrlyyXx 130.6250.3383 (379.7847364.625) 135.7535() 吨吨小麦总产量的估计为小麦总产量的估计为:976135.753578194()lrlryNy 吨吨2221()()(1)()(2)lrlrylyxfv yN v yNnssn n 349023 显见,回归估计比起比估计精度略高一点,但相差不大,它显见,回归估计比起比估计精度略高一点,但相差不大,它们比简单估计则要精确的多!们比简单估计则要精确的多!2、分层随机抽样情况、分层随机抽样情况 与比估计情形一样,在分层随机抽样中考虑两种形式的与比估计情形一样,在分层随机

46、抽样中考虑两种形式的回归估计:分别回归估计与联合回归估计。回归估计:分别回归估计与联合回归估计。(1)分别回归估计)分别回归估计 所谓分别回归估计,就是先在各层中对该层的平均数或所谓分别回归估计,就是先在各层中对该层的平均数或总和进行回归估计,然后再按层权平均或相加。总和进行回归估计,然后再按层权平均或相加。设第设第 h 层的样本平均数回归估计为层的样本平均数回归估计为 ,那么分别回归估计为,那么分别回归估计为lrhy其中其中 分别为第分别为第 h 层的样本均值、回归参数。层的样本均值、回归参数。hhhyx 、 、1()klrslrshhhhhhyN yN WyXx 1()khhhhhhNyX

47、x (5.41)11()kklrshlrhhhhhhhhyW yWyXx (5.40)当各层的当各层的 为预先设定时,那么这两个估计量都是无偏估为预先设定时,那么这两个估计量都是无偏估计量。又由于各层抽样都是相互独立的,由计量。又由于各层抽样都是相互独立的,由(5.31)式立即可式立即可得:得:h 222211()(2)nhlrshYhhXhhYXhhhfVar yWSSSn (5.42)并且当并且当 时,达到最小值:时,达到最小值:2(1,2, )hYXhXhSShk 22211(1)nhhYhhhhfWSn 2(1,2, )lrshYXhXhVar ySShk (5.43)121()()(

48、)hhnhihhihilhnhihiyyxxxx (5.44)22211()(1)khlrshYhhhhfVar yWSn (5.45)22211()(1)(1)(2)khlrshhyhhhhhfv yWnsrn n (5.46)若以若以 表示第表示第 h 层的相关系数,那么层的相关系数,那么 的估计为:的估计为:hr()lrsVar y当各层的当各层的 都比较大时:都比较大时:hn如果如果 需要利用样本来估计,还是采用最小二乘估计:需要利用样本来估计,还是采用最小二乘估计:h (2)联合回归估计)联合回归估计然后构造然后构造 与与 的联合回归估计:的联合回归估计:YY 联合回归估计是先对联合

49、回归估计是先对 与与 作分层估计:作分层估计:YX1ksthhhyW y 1ksthhhxW x 同样当同样当 事先给定时,它们是无偏估计,方差为:事先给定时,它们是无偏估计,方差为: 222211()(2)nhlrchYhXhYXhhhfVar yWSSSn (5.49)()lrcststyyXx (5.47)()lrclrcststyNyyXx (5.48)它在它在 取如下值时达到极小值取如下值时达到极小值 21min22111(1)(1)khhYXhhkkhhhhkhhhhXhhhWfSna BaWfSn (5.50)其中其中22(1)hhhXhhWfaSn 2YXhhXhSBS (5.

50、51)222minminmin11(2)()0kkhh hhhhhhhaBaB aaB (5.52)这里的这里的 恰好就是分别回归估计中的恰好就是分别回归估计中的 ,它使分别回归,它使分别回归(平均数)估计的方差达到最小。为比较分别回归估计与(平均数)估计的方差达到最小。为比较分别回归估计与联合回归估计之间的优劣,将联合回归估计之间的优劣,将 代入代入(5.49)式,再减去式,再减去(5.43)式右边,得到差为:式右边,得到差为:hBh min 直观上这是因为直观上这是因为“分别分别”方法比起方法比起“联合联合”方法更多地关心方法更多地关心到各层的指标与特征,只要分层有意义,也就是说所划分的到

51、各层的指标与特征,只要分层有意义,也就是说所划分的层各具有自己鲜明的特色,那么层各具有自己鲜明的特色,那么“分别分别”对各层过多的关注将对各层过多的关注将当然地得到精度上的回报。以回归估计来说,如果各层的回当然地得到精度上的回报。以回归估计来说,如果各层的回归系数相差很大,那么分别回归估计的效果将更加显著。归系数相差很大,那么分别回归估计的效果将更加显著。(5.52)式表明,若在分别回归估计中设定最优式表明,若在分别回归估计中设定最优 ,又在联合,又在联合回归估计中设定最优回归估计中设定最优 ,那么除非一切最优,那么除非一切最优 均等于均等于分别回归估计总是优于联合回归估计的。我们又一次谈到对

52、分别回归估计总是优于联合回归估计的。我们又一次谈到对于分层抽样来讲,于分层抽样来讲,“分别估计分别估计”总是优于总是优于“联合估计联合估计”。不管是。不管是比估计还是回归估计都是如此。比估计还是回归估计都是如此。h h min min 当当 必须根据样本来进行估计时,我们当然地取必须根据样本来进行估计时,我们当然地取 的的样本来估计:样本来估计:min 2112211(1)()()(1)(1)()(1)hhnkhhhihhihhihhlcnkhhhihhihhWfyyxxn nWfxxn n (5.53)如果样本量按比例分配,又用如果样本量按比例分配,又用 代替代替(5.53)式中的式中的 ,

53、则,则hn1hn 11211()()()hhnkhihhihhilcnkhihhiyyxxxx (5.54)2222minmin11()(2)nhlrchYhXhYXhhhfVar yWSSSn (5.55)lrcy的方差可以近似计算为:的方差可以近似计算为:它可用下式进行估计:它可用下式进行估计:222211()(2)nhlrchyhlcxhlcyxhhhfv yWsssn (5.56) 以上讨论都是建立在以上讨论都是建立在X、Y之间有较强烈回归关系的基之间有较强烈回归关系的基础之上,倘若在各层内回归规律性不是很强,则除非础之上,倘若在各层内回归规律性不是很强,则除非 均均相当大,否则也许还是采用联合估计比较稳妥一些。相当大,否则也许还是采用联合估计比较稳妥一些。hn 若各层的抽样容量若

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论