抽样调查教案-3分层随机抽样法_第1页
抽样调查教案-3分层随机抽样法_第2页
抽样调查教案-3分层随机抽样法_第3页
抽样调查教案-3分层随机抽样法_第4页
抽样调查教案-3分层随机抽样法_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第3章分层随机抽样在前面一章,我们介绍了简单随机抽样。应该说简单随机抽样在实际中具有 广泛的应用,尤其是在总体 N较小或者总体方差S2与任意局部方差基本相当 的 情况下,简单随机抽样的优势明显。然而,当总体单元数N较大或者总体各单元 之间差异较大时,采用简单随机抽样对总体指标进行估计通常会产生很大的误 差。例如,欲通过调查了解我国居民的人均年收入水平。这时总体是全国人口的13亿人,倘若采取简单随机抽样从中抽取 10万人入样,则需要将全国人口依次 编号,然后在113亿中生产10万个随机数,然后将这些随机数对应成具体某个人。显然这样做是不实际的,就算可以,由于某些人口较少的省市或民族的 样本量过小

2、,甚至没有样本点,从而降低了样本对总体的代表性。不仅如此,由 于类似的全国性调查总是需要地方政府的大力协调与配合,如果地方政府不能通 过此次调查获取辖区内的相关信息,达到一举两得的效果,那就勉为其难了。为了克服简单随机抽样上述缺陷和不足,本章引入一一分层随机抽样(Stratified sampling )。§ 3.1 定义与符号一、定义与符号(一)定义定义3.1层(类):如果一个包含N个基本单元的总体可以分成“不重不漏” 的L个子总体,即每个单元必属于且只属于其中一个子总体,则称这样的子总体为层(stratum )。设L个子总体所包含的单元数分别为 2,2,NL,即有:7 = Y1

3、,Y2 , ,丫N,Nh 二Yh1,丫h2, ,丫hNj , h = 1,2, ,L定义3.2分层抽样 又称为类型抽样或分类抽样,即抽样在每个层中独立进 行,总的样本由各层样本构成。定义3.3分层随机抽样若在每层中的抽样采用SRS这样得到的样本为 分层随机样本(stratified random sample)。即从第h层简单随机抽样nh个单元,构成第h层子样本。LLyh 二 yh1, yh2 , , yhni , y yh 二 y1, y2 , , yn , nnh11(二)分层的原因(1)当总体各单元差异比较大时,对参数估计误差比较大。将总体分层, 同一层中各单位差异小,从每一层中抽取构成

4、样本,这样样本就有代表性,可以 提高估计的精度;(2)可以同时对子总体进行参数估计;(3)便于依托各级管理机构进行组织和实施。(层内类似,层间差异)(三)符号说明用下标h表示层号(h =1,2,丄)。关于第h层子总体的记号如下单元总数:Nh , 样本单元数:nh,第i个单元标志值(观察值):yhi ,层权:WhNh抽样比fh二nhnjnu liqicai49njnu liqicai#1nhNh皿J,子样本均值:子总体均值:YhL幺=迟WhYh=罟 NhY?N h吕(3.1)子总体总量:NhYh八,Yhi二NhYh,子样本总量:h = NhVh(注意此说法)y子总体方差:1Nh1 nhs: =

5、z Mi Yh 2,子样本方差:s2(yhi Th )2N h 1 i 4nh 1 i 二yh = yhi, nh id§ 3.2简单估计量及其性质一、总体均值的估计(一)简单估计量的定义对于分层样本,对总体的均值估计是通过对各层的子总体均值估计,按层权加权平均得到的。因此总体均值Y估计量的公式为:(局部平均加权)njnu liqicai#njnu liqicai#根据简单随机抽样:_ 1 nh _ 2 yhyhi, Vh rNhVh,Shnh i=i1 nh2-1 Nhm/r分别是"NJ,Yh八£i =11 W2昨占:Th的估计量,而且它们都是无偏的则此时公式为

6、:必訂戎=丄£N h(3.2)njnu liqicai#njnu liqicai#(二)估计量的性质定理3.1对于一般的分层抽样,如果 Y是Y,的无偏估计(h=1,2,L),则YSt是Y的无偏估计定理3.2 Y?t的方差(均方误差)为:(3.3/3.4 )V(Y?J =£ Wh(Y?)h 4证明:由于各层抽样是 独立的,故上面两结论自然成立。#定理3.3对于分层随机抽样,yst是Y的无偏估计,yst的方差为:LL1 _ fv(yst)八 whv®)八 W2-s2(3.6/3.7)h 1h4nh乜丄 Wh2s" =Z WS-Z W(3.8/3.9)h 生

7、lnh Nh Jh z1 nhhd N证明:显然#定理3.4对于分层随机抽样,V(yst)的一个无偏估计为:LL 1 _ fV(yst ) = ' Wh v( yh)八 Whsh(3.10)h 壬hnhL ,z i 22 L wf sh L whs2=H Wh2s24(3.11/3.12 )h壬 Inh Nh 丿hm nhhA N证明:显然#二、总体总量的估计(一)简单估计量的定义LLY?t =NY?t =送 YhNhY?,h =1h =1t 二 Nyst(二)估计量的性质推论3.1 (1)对于一般的分层抽样,如果Z是Y的无偏估计(h=1,2,丄), 则Y?t是丫的无偏估计。Y?t的方

8、差(均方误差)为:v(Y?t) =n2v(YL) =£ v(Yh)h =1= N2Wh2V(?h NV(Yh)h :1h =1证明:显然#(2)对于分层随机抽样,Yt = Nyst是丫的无偏估计,Yt的方差为:V(YSt) = N2V(YSt)八 N;V(Yh)八 nJ_ fhJh 4nhhSh2证明:显然#(3)对于分层随机抽样,V(Y?t)的一个无偏估计为:NhV(yh)N2 1h 4h 4nhnjnu liqicai53证明:显然#例3.1调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据 经济及收入水平将居民划分为 4层,每层按简单随机抽样抽取10户,调查获得 数据如

9、下(单位:元),如表3.1。估计该地区居民奶制品年消费总支出及估计 的标准差。表3.1解:W1W2W3W413 3 4-WCT5E7W 令10ii1213M1516H18沖202122尊242£訪計囲押炖si豎吐.用艮户裁200他T50150PD D Dn.u2 豹130翻35$1 055&0沖11:1608 篦1 S4:3宦2昼1e闻斛虞I諾馆純 区堆 UdT-聞血 0:曇大值1W求和i-jft由上表,NN1200N2850N2400N2850N3_ 750N2850N41500N2850谓平均24的杠准i 4-4120中值 251豹密式 309L WC13-9 卅杆兀1R

10、-Qttft 0. 63fffi 27.5 中f直10價式衬推角如贾桃 佯丰方至 祥丰;J 出 £3018 1Q刃Q50240L0.U=2850,nh =10 , h =1,2,34,各层层权和抽样比为:0.07018 , f1:0.14035 , f20.26316 , f3:0.52632 , f4n110=St 1N1200n210=a:N2400n310_stN3750n4100.05 ,0.025 ,0.0133,N415000.0067。_ f N:(Nh nh)PhQh x I巴flwi) A3 in A.AHJZRd.i制E即百 qp仲a _ # K1Q匕.知14n

11、/ yE ES 耳 H._- * i-:各层的样本均值及样本方差为:1 " 2 1012yi =E yii =39.5 , s1 N2 Nhnh = Z (% yj2 賂 1624722,ni ym -1 yy? = 105,3 = 165 ,4 = 24 ,sf 2166.667, s2 8205.556, s2 193.333,因此估计奶制品年消费总支出为:4Y,Nhyh =200 39.5 400 105 750 165 1500 24h丄=209 650(元)估计量方差和标准差样本估计值为:441 _ fv(£t)= N2' Wh2vWh)八 Nh2-s2

12、: 5.39 108h 壬hmnhS(G)v(Y?t) : 23208 (元)95%勺置信区间为忆 土t s(Y?t ),即164162,255138.三、总体比例的估计(一) 简单估计量的定义L易知总体比例的估计为:Pst二"Wh Phh=!(二) 估计量的性质推论3.2 (1)对一般分层抽样,如果Ph是Ph的无偏估计(h=1,2,丄)则LPst是P的无偏估计,Pst的方差为:V (Pst)二 Wh2V (Ph)。h=l(2)对于分层随机抽样,Pst是P的无偏估计,注意到njnu liqicai55njnu liqicai#V(心騎晋及WNh,因此pst的方差为:njnu liqi

13、cai#njnu liqicai#(3.15)LV(Pst)八 Wh2V(Ph)二h=i丄 J N;(Nh - nh) PhQh N2 h# Nh -1nhnjnu liqicai#njnu liqicai#(3.17)njnu liqicai#P Qh八 Wh2(1 fh)h=1nhnjnu liqicai57njnu liqicai#(3)对于分层随机抽样,V(Pst)的一个无偏估计为:L2v(Pst)八 Wh v(Ph)h=1' W2(1 _ f:) Phqh h qnh -1(3.16)njnu liqicai#njnu liqicai#PhQhnh 1L八 Wh2(1_ fh

14、)h A例3. 2在例3.1的调查中,同时调查了居民户拥有家庭电脑的情况,获得 如下数据(单位:台)如表3.2。估计该地区居民用有家庭电脑的比例及估计的 标准差。表3.2njnu liqicai#解:由上表可得Pi= 0.2,P2=02,P3-04,P4 0.=(200 x 0.2 + 400 x 0.2 + 750 x 0.4 +1500 x 0.1) = 0.2 ,v(pj =(1 - fi)- : 0.0169,v(p2)=(1 - f2)- : 0.0173, 厲 一1n 2 -1v(P3)=(1- 彳3) : 0.0263,v(p4)= (1 - f4) : 0.0099 门3 1门

15、4 1因此,该地区居民拥有家庭电脑比例为:一41 4Pst 八 WhPhNh Ph2850h=tN h#V(Pst)N22' NhV(Ph) : 0.005 ,h 4s(Pst) : 0.07推论3.3关于某特征单元总数A的估计 类似 略§ 3.3比率估计量及其性质将比率估计的思想和技术用于分层估计随机样本时,有两种可行的办法,一种是对每层样本分别考虑比估计量,然后对各层的比估计量进行加权平均,此时得到的估计量称为分别估计量(separate ratio estimato)。另一种可行的办法是先 对两个指标先分别计算出分层估计,然后再构造比估计,这时得到的估计量称为联合比估计

16、(combined ratio estimato)一、分别比率估计因为比率估计是有偏估计,只有在大样本情况下,偏倚才会趋向于0,所以对分层随机抽样来说,如果采用分别比率估计,则同时要求各层样本量比较大。定义3.4总体均值Y和总体总量Y的分别比率估计量为:八Wh出XhXh(3.23)njnu liqicai#(3.24)L 八YRh h A定理3.5各层样本容量均较大时,估计是渐进无偏的,且mseR%):LV畝)、h=1Wh2(1-七h RjsXh -2RhSyhSxh(3.27)njnu liqicai#njnu liqicai#(3.39)IrY” 虫 吨 S:RfsXh -2RhhSyhS

17、xhhmnh_ _s(3.27) (3.39)分别由(2.39) (2.40。易得,其中 RY Xh,5 汇 Syh Sxh在对分别比率估计量的方差进行估计时,通常将sXh和s:h分别用s2h和s:h来估计;用rh (rh表示第h层Y与X的样本相关系数)来估计,&用R;二禺来 估计。分别比率估计需知道 Xh (每一层辅助变量的平均)。二、联合比率估计如果达不到每层样本量都比较大的要求,则使用联合比率估计效果可能更 好些,或Xh未知而知道X已知。njnu liqicai59定义3.5总体均值Y和总体总量Y的联合比率估计量为:?Rc竺X 二 RCXxst(3.40)YRc 4x =RCxx

18、st(3.41)LLyst = ' Wh y h、xst = ' Wh xh 分别是 Y、X 分层估计量;RC =h4hVstXst定理3.6联合比率估计是渐近无偏的,EYRc : YEyrc Y ,(3.42, 3.37)msetq:Nh(1- fh) s;hR2sXh -2RbSyhSxh(3.43, 3.44)MSE?Y):hTnh4爲 +R2sXh - 2RPhSyhSxh )(3.56,3.57)其中R=Y X -YX o事实上:L_由于 E xst八 WhE xh 八WhXh 二 X,故一般 xsX,而h4Yrc-丫二 x - Y XYst- Rxst :Yst-

19、販七Whyh- RxhXstXsth d因此 E Yrc -YE yst-Rxst =0,所以 E YrY oV(Yrc)=E(Yrc Yf 壯E(YstRxst)2L八Wh2h=1(1 fh)(syh +R2sXh -2RPhSyhSxh)(见(2.35, 2.39)之证明)nhnjnu liqicai#njnu liqicai#(令 Ghi 二丫怕-RXhi,则 Gh =Yh-RXh , h =1,2,,L,又令gst二Yst - Rxst,是G的分层简单估计量,则Egst二0 , _ _ _ 2 _ 2V(Yrc) : e Yst - R& i; = e gst ,V(YRc&q

20、uot;E(gst “V(gst) = z W2(_ fh)S:h,h =1nh21 Nh21 Nh2Sgh =- Gi -Gh = -丫忖-“ -RXhi-XhNh - I 1Nh - I 1二 S:h R2S:h _2R:hSyhSxh在对联合比率估计量的方差进行估计时,通常将sXh和s:h分别用Sh和s:h来估计;几用rh( rh表示第h层Y与X的样本相关系数)来估计,R用RC = Vst. 来估计。例3.3某市1996年对950家港口生产单位完成吞吐量进行了调查,1997年欲对全市港口生产单位完成吞吐量进行抽样调查。对港口生产单位按非国有(h =1)和国有(h = 2 )分为两层,单位

21、数分别为800和150家,分别在两层 中调查了 10家、15家港口生产单位,调查数据如表3.3试估计1997年全市港口 生产单位完成的吞吐量。解:表3.3h =1非国有h = 2国有合计nh, Nh10, 80015,15025,950Wh,fh0.8421,0.01250.157895, 0.11X h, X h171400, 214.25102900,686274300Xh,yh226.7,217.6655.6,688.22 2 sxh,syh8477.344,10704.7194665.26, 82541.89Syxh ,Rh9072.2,0.95985981071.51, 1.0497

22、251 按分别比率估计LYRS 八 Rhxh =0.959859X 171400+1.049X 102900=272536.5h母v(YRs)* 朗仆-心垃十萤sXh -2春乂山91938952.68 h =1nhs(YRs).v(YRs) =9588.482 按联合比率估计Xst八NhVhYst 1X 2 入八NhXhiYRc = Rx = 277310274300 二 271956.1279700v(YRc)拓E Nh(1 _人)9秫 +R2s:h _2Rs yxh )=86293698.84h4nhsO?J - v(YRc) =9289.44三、分别比估计与联合比估计的比较当每层的样本量

23、nh都比较大,总样本量n也比较大,此时分别比估计和联合 比估计都可以被采用,那么哪一种估计方式精度更高呢?下面对此比教一下。由( 3.27)( 3.44):L W2( 1一 fh )222V(lRc)- V(*s) - RR.2 Sxh2 R-RhhSyhSh(3.58)L=11h 二W2(1 - fh)R-RhR-Rh SXh-2 SyhSxh-RX(3.59)上 3(1一 fh)(R-Rh fsXh2(RRS:) h生nh注意(3.59)式:(1)当R-Rh=0 或 R-RhsXh-2 USyhSxh-RhS:=0 即Rh二 R 或:hRhSxh 时,二者相当。h2 Syh(2)当(R-R

24、h )式0 而 PhSyhSxh-&S: ) = 0时,此时每层的Yhi与是经过原 点的线性关系时,即Y与Xhi成比例(RhhSyhSxh/sXh二Syxh/S2h是第h层Y 对 X 的线性回归系数),2(R-&PhSyhSxh - &S2 )= 0,V(yRc) -V(yRs W2(1fh) R-R. 2S;h-0.hTnh这意味着分别比估计优于联合比估计。当每层比率Fh等于(或近似等于)层内回归系数Bh时,分别比估计优于联 合比估计。而要使得Fh= Bh,前提是一研究的主变量与辅助变量存在强线性关系;二是各层的样本容量nh比较大。显然一般比估计有效都要求前提一成立。

25、因此前提二有实质讨论意义。概言之,当各层的nh都比较大时,各层比率之间差异比较大(R-& - 0的 一种解释),此时分别比估计要优于联合比估计;而当某些层的 nh不够大时,或 者各层的比率差异较小(R=Rh成立),还是采用联合比估计更有效些。§ 3.4回归估计量及其性质一、分别回归估计 (separate regressi on estimator分别回归估计,就是先在各层中求出各层的回归系数,用回归估计量对各 层的均值或总量作出回归估计,然后对各层的均值加权来估计总体均值,或把各 层的总量相加来估计总体总量。定义3.6LL_yi rs= ' Wh yl r h= &

26、#39; Wh' h X h _ x(3.60,3.61)h 二h 二L_,W rs= Ny| rs= ' Nhyhh Xh -Xh I(3.62,3.64)1、当各层的回归系数B h为事先给定常数时 分别回归估计量是无偏的,其方差为:1 _ fV Ylrs 八 Wh2h S;h:h2S;h -2:hSxyh(3.65)h叫S且当 h = Bh厂,h = 1,2,,L,V ylrs达到最小,即Sxh(3.75)(3.76)VminVlrs 八 Wh2: '!2hnh2、通常了未知,用样本回归系数bh估计它,即Syxhbh厂sxh、yhi Vh 乂忖xhi =±

27、hi -xh2i m该估计是有偏的,其方差近似值njnu liqicai65(3.77)VyirsL 1 f八 Wh2s2hh)nh(3.78)nh1-2Ld _ fV yirs卜瓦Wh2二p'),方差的一个近似估计为: h4nhnjnu liqicai#njnu liqicai#二、联合回归估计(combined regression estimator定义3.7联合回归估计是先对Y和X采用分层估计,得到-进行回归估计(3.83)LLyst =嘉Whyh,亲戎=為WhXh,然后利用联合回归系数h 二h £ylrc =Vst X -XstYrc 二 Nyc 遅t: X -心(

28、3.86)1、当回归系数是事先给定的则该联合回归估计是无偏的,方差分别为(3.90)L 1 _ fV Frc 八 Wh h Syh©2hS xyh( 3.91)h 二nh证:令Gh丸X-Xh,则Gh =Y- )C-X .同时对于所抽取的样本,ghi =yhiX - Xhi,则G分层简单估计量为gsYsr : X -乂戎i=yirc.根据分 层简单估计量的方差计算公式,有L 21 _ 仁 2Vgst八 Wh2-丄s:h,hmnh1 Nh_ 2 1 Nh _ _其中盼百:二NX'-XXhiXXh1Nh_2YhiYh"X 肯 XhNh -1 ii -=S2l:, 2S 2

29、2 S#Sy hS x h 2 S x y h卄L 1 f(3.97)V Yrc=7 N1 Syf 2 ©2:S xyhh#nh并且,只要取1为L 2 1 - fn、Wh2nSB h 1nhBe =Z Wh2 1 _h 1nhnSyxh时,h 2Sxh(3.99)2Vmin% 八 Whhnh(3.106)注:如果令ah =Wh2 1一fS丄S;h,Bh 竽(每层的回归系数),这说明Be应是Bh niSxhL按权重ahv ah的一个加权平均。h=4作业:试推导该结论。2、当回归系数未知时取为Bc的样本估计值bnSyxh nh(3.107)njnu liqicai67h 2_ Sxh n

30、h此时联合回归估计量为渐近无偏,其近似方差及方差的估计值:(3.112)h nhV(%c )注 舛 °一 fh)(Syh+B:S;h-2BcSxyh )22 2SyhQ Sxh - 2bcSxyh(3.114)厂、V W2(1fh)v yirc h 叫三、分别回归估计与联合回归估计的比较为简单起见,我们只比较Vmin Ylrs与Vmin %c情形。2 1 - fhVminylrs可SXyh(4.49)njnu liqicai#njnu liqicai#1 - fhSnhSxh(Bh 二 Sxyh / SXh )_1 _ fVminVlrc八W?丄h叫Vminy Ire Vminyir

31、s Whh:计 BhSh B怎(ah = Wi仁 fhSxh / nh )2 2i ahBh -v ahBchh» ahB -2 ahB;' ahB;hhhf)=S ahB -2 Bd ah B。+迟 hI h 丿h=11h(Bc是Bh按权重aL'、ah的一个加权平均:h ABc = ' ahBh 二ah)h. h4ah Bh - 2 二 ahBh.h '、ahBc hnjnu liqicai69njnu liqicai#* ahB2 -2f ahBhBcahB;h. hh=ah Bh _ Bc- 0h上式表明,当、和B均取最优时,分别回归估计优于联合

32、回归估计,尤其 是当各层的回归系数相差较大时,分别回归估计的优越性就更加明显了。不过判断分别回归估计量好还是联合回归估计量好,没有一条严格不变通的 规则。一般来说,当回归系数需要由样本估计时,如果各层的样本量不太小,而 且各层的回归系数之间差异较大,采用分别回归估计比较适宜;如果各层的样本 量不太,而且各层的回归系数大致相等, 采用联合回归估计较为适宜;如果各层 的回归系数差别不是太大,而且并不是每层的样本量都相当大,联合回归可能更 保险些。例3.3 P96详见教材§ 3.5样本量在各层的分配若样本总量是n是固定,接下来的问题是如何把这n个样本合理地分配到各 层中去。在分层随机抽样中

33、,样本量在各层中的不同分配方式会对估计量的精度 产生一定的影响,这一方面由于层的大小规模不同或在总体中所占地位不同,另 一方面是因为各层的子总体方差 S:不同,所有这些都会影响估计量的精度。回忆分层估计中均值估计量方差的表达:Lv(y八Wh2hm1 - fh S2ShW:sWhS2(3.125)nhh ¥ nh上式可看出,只有等式右端第一项与各层的样本量 nh有关,该项同时还与Wfsf有关。那么nh的分配的遵循什么规则才能使 V(yj尽可能小呢?通常有以下几种分配思路:(1)常数分配;(2)与各层方差S"成比例分配;(3)与层权Wh成比 例分配;(4 )与WhSh成比例分配

34、。一些实际的研究表明:等额分配的效果相对 较差;与层内方差Sh2成比例分配适用于要求每层的估计量都达到相当的精度的情况;与层权Wh成比例的分配和与WhSh成比例的分配效果相对较好。在实际中 我们还有尽量避免单位调查费用比较高的层样本过多。此节我们主要讨论(3)(4)情形以及展开。一、比例分配(proporti onal allocati on )定义3.8在分层抽样中,若每层的样本量 nh都与层的大小Nh成比例,则称 这种分配为等比例分配或比例分配,也即每层的抽样比相同:fh 二匹二卫二 f 或匹二业二Wh,或 nh =nWh( h =12 ,L )( 3.126/7 )Nh NnN对于分层随

35、机抽样,这时样本均值 Y的估计是:LL nLy proph=jnY?rop1 Lnh1 n' yhi yn h生i生n i a二y (简单平均)= Nyprop 显八 fn fV(Vprop)八 Wh2v(%)Wh 匹h=11 - f L2WhSh n hd(3.128)(3.129)(3.131 )f S2 nL(记sWWhSh2为层内方差,各层方差的加权平均)h=1hm n 叫八Wh%八U八 h生njnu liqicai#njnu liqicai#总体比例P的估计是:1 上4” 2 NhPpw = P ' ah,注意到 S2h PhQh : PAn h丑Nh TV(p pr

36、opL NfPhQhh N h _'1L''Wh PhQhh =injnu liqicai#njnu liqicai#、最优分配(一)最优分配(optimum allocati on )njnu liqicai#定义3.10在分层随机抽样中,对于给定的费用,使估计量方差达到最小, 或对于给定的估计量方差,使得总费用达到最小的各层样本量的分配就是最优分 配。在实际调查项目中,费用函数可能是线形的,也可能是非线形的。为方便研 究,考虑简单线形费用函数(我们总是这样假设),总费用为:L定理3.7 C 二6nk, Co为与样本量无关的固定费用,Ch为第h层7中抽取一个单元的 平

37、均费用。则此时最优分配是:7 = yL WhSh_h 4、5NhSh(权重呛八"W®h): Ch h ChWhSh可见ncWh,Sh,nh二1/., ch。因此如果某一层单元数多,内部差异大,费用省,则该层样本量要多分一些L证明:仅5nk是与各层样本量nh有关的费用。我们的目标是同时权衡费k生用和方差两个指标,在方差给定时使得费用尽可能小,或在费用给定时使得方差 尽可能小。因此构造目标函数:CV =(C -Co)(V J WhSh) = (J Cknk)(V J WhSh)心 N心NL L=c (,赢)2k Ah=J注意到方差公式 V(Vst) J wh21 fhs2 =-

38、WSh-WhSh (3.125) hmhmhm N第三部分第一项与样本量在各层分配有关,用 V "表示,而第二项与样本分 配无关,可以看作是常数根据Cauchy-Schwarz不等式a:b:八._ ahbh 2:等号成立当且仅当bh 二常数,h 二1,2,令 ah =WhSh, bn = Mh,于是当 bh = K =常数, ahy “hah即nh = K,对所有h成立时,C V达到最小,求和即得J®*LWhShWhShNhSh_ . Chh 丄ch因此最优分配为:弓、L WhShhJ2, ,Lh 4 匸 chNhSh(3.134)最优分配表达式中的n是需要根据所要研究的问

39、题确定的:(1)研究目的:在给定方差V的情况下,使得费用最小此时需要把nh =K二h=h代入V(y表达式,通过计算可得2WhShLLLWhSh . ChL WhSh. Ch)L WhSh/、Ch)K = 七,将其代入n得到n =上旦2 2V 、WhSh /NV 、WhSh / Nh 4h=4(2) 研究目的:给定费用C使得方差最小此时需要把nh = K代入C的表达式中,通过计算可得WhShL_C - c°(C-c°)(E WhSh/丘)K二L -0,将其代入n得到n二 WhSh':ch二 WhSh . 5h=1h=1(二)奈曼最优分配 (Neyman 1934 &a

40、mp; Tschuprow1923 楚波罗)对于分层随机抽样,作为特例,如果每层抽样的单位费用相同,即5二c,h =1,2/丄,此时费用函数就变为C =co,cn (费用固定,不考虑费用因素), 此时分配 匹的表达式形式大大简化:n定理 3.8 Wh=M 二LNhSh ,h =1,2,丄。(3.145)二.Wh Sh二 N hShhWh W这种分配被称为Neymar分配。此时方差最小为:(3.145)代入(3.125)订LY1 LVmin(yst)= Z WhSh-書瓦 WhSh2(3.147)n g丿N hL(可以考虑用条件极值求解,在n = v nh约束下,求方差的极值,h =1;L N:

41、 S2-n)F =瓦+九(n1 +nLh4 N帀 0 ;r- 0, nL nh左nhh 2例3.4见教材P107现要进行家庭收入的调查。令n = 500,已知甲地某市共有甲乙两个地区,区共有20000户居民,乙地区共有50000户居民;甲地居民和乙地居民年收入标 准差估计分别为S =2500元,S2 =2000元,同时对甲地和乙地抽样的平均每户费用之比为2: 3,请分别计算在甲地和乙地进行 比例分配、一般最优分配(考虑费用因素)以及奈 曼分配(不考虑费用因素)的样本量。解:根据已知的数据,整理如下表 4.3hNhWhShChWhShWhSh Q Ch1200000.285725002714.2

42、857505.07632500000.7143200031428.5714824.7861合计700001.00002142.85711329.8624(1)按比例分配nW =500 0.2857 =142.86 : 143n2 二 nW2 =500 0.7143 =357.14 : 357(2) 一般最优分配W.S,“ =n JW:%=500189898'190h . chW2S2JCh824 79n2 二 n J -500310.102 : 310T WhSh1329.86hT :Ch(3) 奈曼分配n 2W1S1=500714.286166.67 : 167f “ c2142.8

43、57WhShh F1428.5712142.857=333.33 : 333W2S2n2 =n '、WhShh=1比较上面三组结果,一般最优分配在乙地所抽取的样本量是最小的。这是因为一般最优分配考虑了费用的因素, 在乙地抽样的单位平均费用较高,所以最优 的原则是适当增加甲地的样本量,减少乙地的样本量。将表中数据代入最小方差 公式(3.150),可以计算出奈曼分配下的估计量的最小方差。当然,这一方差也 可以将奈曼分配下的 厲和压直接代入估计量方差公式(3.125)得到。理论上二 者应该是一致的,但是因为计算各层样本量时有一些取整的过程, 所以可能二者 有出入。(三)某些层要求大于100%

44、由样的修正此时取该第i层样本量为n= Ni (即对该层100%入样),将剩下的未取到的n, -N,个样本数目按适当比例分配到其他各层中,其做法如下:不妨设计算结果显示:n1 N1,则令m = N1i in,(n - NJ L ,i -2送 WiSii =2若所有的m乞Ni,则分配完毕,否则,如n2N2,则取n2二2,山=(n_ 2,i _3Z WiSii =3如此重复,直至每一层样本量都不超过 Ni为止。此时:1 ( 1Vmin(yst-a 'WhSh -z 'WhS2,此处瓦'仅对ni兰Ni的层求和,n是 n I丿N这些层样本量的总数。此公式不在证明,但直观上可以理解

45、:因为对那些实施普 查的层来说,已经不存在所谓的抽样误差,自然需要从原来的公式中将它们舍弃。例3.5某总体分为4层,数据如下表,若n= 80,请问该如何进行奈曼最优分配?hNhShNhSh154002000210500500032001020004400208000合计61517000解:第一步:根据表中数据:500njnu liqicai75=80 竺0*917000N1S1比=n 4' NhShh 4而Ni =5,可见ni Ni,因此令n 1 = Ni = 5第二步:将n - ni =75个待分配的样本量按奈曼分配的原则分配到 2至4层。=75 遡=2515000N 2S2门2 =

46、(n -ni) 送 NhShh =2而 N2 =i0,可见 n2 - N2,因此再令 n i=Ni=5, n2 = N2=iO第三步:将n 一 ni 一 n2二65个待分配样本按奈曼分配原则分配到 3至4层。N3S33 3n3(n -ni - n?) 丁迟 NhShh =3=652000 =i3 :: N3 二 200i0000N 4S4n4 (n -ni -压)4二 N hShh=3=65 哋=52i0000:N 4 二 400第四步:确定各层样本量厲=5, n2 = i0,n3 = i3, n4 = 52_i:i第五步:Vmin(和盲WhSh I -S2WhSh20%。+400沢202-

47、丄色%。2656i56i56i5 6i5竺2026i5= 4.0676 0.4759 =3.59i7§ 3.6总样本量的确定分层随机抽样中总样本量的确定相对简单随机抽样来说要复杂。因为它不仅与调查精度要求、费用限制以及估计的统计量有关,而且还与如何分层以及各层 样本量的分配方式有关。一、估计总体均值时样本量的确定i 精度要求以v(yj的上限v的形式给出V 八 Wh2 w;sh / WhShh=4nh-Zhj 山 h 4 N(3.180)(1)确定的样本量分配nh二nwh, h =1,2,丄将nh二nwh代入(3.125)式得到V 二 w2sL J WhS2 1w2< 1=-LL

48、一2h 4 nh、Whs:可以解得:(3.182 )常令:n0二v 七 wS/n21 L止曲酣吋,则n =noLNV h吕' WhShnV'(3.183)(2)按比例分配Wh =Wh将 Wh 二 Wh 代入(3.24-1 )式,得 no住 WhSfV hdno(3.186)(3)奈曼分配Wh二严、WhShh T将whWhShLWhShh d代入(3.24-1 ) (3.24 )可得,2(S) WhShh母1 2V WhSfN h :ino1 L21 而:VSh(3.188)(4) 一般最优分配见第三节二(一)L_ L_h =1(3.189 )c WhSh .Ch)(7 WhSh

49、/.一 Ch) h ¥L2V 、WhSh / N2精度要求以对丫戎的绝对误差限d (在给定的置信水平1 -:下)的形式给出此时要求 Pyst Y 兰d )1a 二 pl.%-Y < d £i“,于是, Qjv(yst)严仏),令,d =u,即V®st) =d2/u:,以此置换1中各表达式的V即可得到相应的样本容量公式。(作业:请自己写出)3精度以对yst的相对误差限r (在给定的置信水平1-:下)的形式给出此时要求P ysY兰r'l-a二PQyst - Y兰rY )K1-a,相当于要求绝对 I 丫丿误差限d的形式给出:d二rY。以V(yJ二丄丫 置换

50、1中各表达式的V即可 lUo/2 丿得到相应的样本容量公式。(作业:请自己写出)值得注意的是,当精度要求是以对yst的相对误差限r的形式给出的,不仅需要 对Sh进行估计,还需要对Y进行估计。例3.7某工厂生产的机器供应全国219家用户,现在想请用户对该厂机器进行 评价。今把这些用户分成成本地区、本省外地区以及外省地区三层,相关资料见 表(其中5为在第h层中调查一个用户的平均费用):现在要求评分均值的估计 量的方差v(yj =0.1,同时要求费用最省(co = 0,且费用为线性形式)。求样 本量n及其在各层的分配,并计算出对应的最低费用。本地区本省外地区外省N =1122 =68N3 =39S2 = 2.25S; =3.24Sf = 3.24G =9c2 =25c = 36分析:从本例所要达到的目的看出,这个问题属于“对于给定的估计量方差, 使总费用达到最小”的一般最优分配问题,宜用(3.189 )式解:hWhSh応WhSh y/Ch_Wh Sh / J ChWhS:Wh10.51141.500032.30140.25571.15070.607520.31

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论