07 第七章 整群抽样_第1页
07 第七章 整群抽样_第2页
07 第七章 整群抽样_第3页
07 第七章 整群抽样_第4页
07 第七章 整群抽样_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

最新资料推荐第七章整群抽样第一节整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。确切地说,这种抽样组织形式应称为单级整群抽样。如果总体中的单元可以分成多级,则可以对前几级单元采用多阶抽样,而在最后一阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。本章只讨论单级整群抽样。设总体被划分为N群,第i群含有Mj个次级单元,全部总体次级抽样单元数记为M。,即M0=EMi。当诸叫都相等时,称为等群;否则,称为不等群。°采用整群抽样的两个理由:-抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;-从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。整群抽样包括两步:首先,总体被分为群;然后,在总体中抽取群的样本并访问群中的所有单元。如果总体单元是自然分成组或群的,创建一个这种关于群的抽样框并对它们进行抽样比创建总体中所有单元的名录框更为容易。或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而可以创建地域框。群的抽取可以采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。二群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。同分层抽样一样,整群抽样的前提是先要对总体进行分群。关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。因此,群间差异的大小直接影响到抽样误差的大小,而群内差异的大小则不影响抽样误差。在这里抽样单元是各个不同的群体,所以“群实际上是扩大了的总体单元”。所以,对于前一个问题,群的划分应该是:尽量扩大群内差异,而缩小群间差异。按此原则分群,则能保证每个群对总体都具有足够好的代表性。作为极端情况,假定各群之间总体单元的分布完全相同,即群间不存在任何差异,那么只需抽取一个群进行调查就能充分满足抽样估计精确度的要求,整群抽样的效率就很高。这就是说,整群抽样特别适合于群内差异大、而群间差异小的情况。这样,每个群都具有足够好的代表性。如果所有的群都相似,那么抽少数群就可获得相当好的精度;反之,若群内的单元比较相似,而群与群之间的差别较大,则整群抽样的效率就低。所以分群的原则使“群内差异大、群间差异小”与分层的原则使“层内差异小,层间差异大”是恰好相反的。然在使用自然群时,同一个群内的单元通常非常相似,从而导致这种抽样策略的效率比简单随机抽样低。下图直观表明了理想的分群与分层,其中同一字母表示观测值相近的单元。至于群的规模的选择,一是取决于精度与费用之间的平衡,二是从抽样实施的组织管理等因素来考虑。当相邻单元相似时,抽数量较多的小群比抽少量较大的群的统计效率高。然而,如果采用面访,样本的分布越广,调查的费用越高。这表明:群的规模选得大,则费用省而精度差;群的规模选得小,则精度高而费用大。所以,需要选择最优的群数量和大小,同时使总费用最小。这方面除了依靠实践经验外,还可对假定的方差函数与费用函数作理论上的最优选择。整群抽样可能有一些具体的困难。如果用地图作为地域框,可能很难决定某个住所是否在一个特定的群内。必须建立一个基本的原则以决定哪些单元在一个群内。例如,规定“住所属于它的正门所在的群”这么一条原则,就能解决大多数问题。如果一个住所似乎平等地跨越两个群,则采用掷硬币的方法来确定,以避免产生任何抽选的偏差。三、整群抽样的特点同其他抽样组织形式相比较,整群抽样具有如下特点:在大规模抽样调查中,常常没有或很难编制出包括总体所有次级单元在内的抽样框,而整群抽样则不需要编制庞大的抽样框。当总体单元自然聚合成群(例如:住户、学校)时,整群抽样比简单随机抽样或系统抽样更容易。在样本单元数相同的条件下,整群抽样与简单随机抽样相比,样本单元的分布相对较集中,虽然样本的代表性较差,但调查组织实施过程更加便利,同时还可以大大地节省调查费用。因此,实际工作中,在权衡费用和精度之后,有时宁可适当增加一些样本单元数,也采用整群抽样方法。如果对于调查变量而言,群内单元差异较大,而不同群的差异较小,整群抽样策略比简单随机抽样的统计效率更高。(例如为估计性别比采用按户的整群抽样)。整群抽样的随机性体现在群与群间不重叠,也无遗漏,群的抽选按概率确定。如果把每一个群看作一个单位,则整群抽样可以被理解为是一种特殊的简单随机抽样。整群抽样也是多阶段抽样的前提和基础。整群抽样有特殊的用途。有些现象的研究,如果直接调查作为基本单元的个体,很难说明问题,必须以一定范围所包括的基本单元为群体,进行整群抽样,才能满足调查的目的。如人口普查后的复查、要想估计出普查的差错率,只有通过对一定地理区域内的人口群体作全面调查才行。类似地诸如人口出生率、流动率等调查都需要采用整群抽样。整群抽样要求分群后各群所含次级单元数目应该确知,否则会给抽样推断带来不便。整群抽样的缺点有:-对调查变量,若群内单元有趋同性,则整群抽样的统计效率比简单随机抽样低,(这正是通常遇到的情况),但对此项效率的损失可通过增加群的抽取个数来弥补;-通常无法提前知道调查总样本量,因为在进行调查前,我们通常不知道一个群内到底有多少个单元;-调查的组织比其他方法复杂;-方差估计可能比简单随机抽样更为复杂。四、关于群大小的计量整群抽样中,如何有效地对群的大小进行计量,直接关系到抽样估计效率的高低。研究表明,对群的大小的最优计量尺度是各群在所研究标志上的标志总量大小。但在实际工作中,它是未知的。因此通常选择与所研究标志高度线性相关的另一辅助标志作为计量尺度。为此,要求掌握关于辅助标志的更进一步细致的资料,而这又会带来一系列新的问题,如增加工作量及费用等。所以,在整群抽样的实际应用中,经常选择以各群所含次级单元数的多少作为群大小的计量尺度。当各群所含次级单元数相等时,就称群的大小相等;当各群所含次级单元数不相等时,就称群的大小不相等。整群样本(图示)第二节等概率整群抽样的情形整群抽样中对群的抽取有多种方式,本节只讨论按简单随机抽样抽群,即等概率抽样,也称PPF抽样的情形,下节讨论不等概率的情形。一、预备知识(一)有关符号的涵义N为总体群数;M为各群所含次级单元数;七为第i群中第j个次级单元的观则值;(i=1,2,3…N;j=1,2,…M)NM为总体所含次级单元总数;nM为样本所含次级单元总数;匕二二七为第i群各次级单元观测值总和;j=1=Y■:M为第i群的均值;ii=^Y为总体各次级单元观测值总和;ii=1y=Xy为样本各次级单元观测值总和;ii=1My「N=YiN为总体各群的均值;i=1y=」「.:〃=y..n为样本各群的均值;i=1=Y/M=Y/NM=1LyJNM=工ILyjNM为总体均值;i=1i=1j=1y=y::M=^^YnM=X芸yjnM=y;nM为样本均值;y=y::M=^^YnMi=1j=1s2=IN^iXX(yij-Y)2为总体方差;i=1j=1'2=土£以(yj-职为样本方差;i=1j=1M1s;=n―1乙^^.-Y)2-n―1乙(Y.一Y)2为总体群间方差;i=1i=1S2=MX(Y-y)2=二X(Y-y)2为样本群间方差;bn—1.1in—1.1is(2=nm―1)XX(yjj-y)2为总体平均群内方差;1jTs^=nM^XX(y广Y"为样本平均群内方差;i=1j=1f=n为抽样比。N(二)群内、群间差异的定量刻划正如前面所分析的,整群抽样的精度在很大程度上取决于群内各次级单元间差异程度的大小。那么如何有效地对分群后各群内次级单元间的差异和各群之间的差异加以测定?也就是对群内差异和群间差异怎样做定量刻划?通常有两种不同的思路:1、离差平方和的分解一一群内方差与群间方差的测定先分析总体的情况:对于总体,y‘7.对Y离差的总平方和可作如下分解:XX(y—Y)2=XX(y—Y+Y—Y)2ijijiii=1j=1i=1j=1=XX(y-Y)2+Xm(^-Y)2i=1j=1i=1式中第一项为群内离差平方和,用其除以(N(M—1))即为平均群内方差,也可直接称之为群内方差,用S2表示,则:O注M(*-「)2s2=Mj"::<N(M—1)为自由度〉aN(M一1)式中的第二项为群间离差平方和,用其除以N-1即为群间方差,用%表示,则:XM(Y—Y)2MX(Y—Y)2

iiS2=-i=1=i=4bN—1N—1由此,依总体方差的定义及总体离差平方和分解可以得出:S2=―1—[(N-1)S2+N(M-1)S2]NM-1bo同理,可得样本的方差及其分解如下:s2=——i——[n(M-1)s2+(n-1)s2],nM-1obM建(七-匕)2S2=i=1~j=1on(M-1)£m(y-y)2mE(y-y)2ii=-4=1=i=n—1n—1需要注意的是,由于群的抽取是简单随机的,因此,可以证明s;与so分别是$;与S0的无偏估计。但从次级单元角度而言,样本并不是简单随机的,因此,S2不是S2的无偏估计。S2的一个无偏估计可构造如下p(N-1)s2+N(M-1)s2S2=boNM-1当N充分大时,另一方面,当n也足够大时,s2可看作是S2的近似无偏估计。2、群内相关系数群内相关系数是反映总体中群内各次级单元间相关程度的一个统计分析指标。是同一群内不同次级单元的观测值对总体均值离差乘积的平均与总体所有次级单元观测值对总体均值离差平方的平均之比,记作PCP=E(顼Y)(M)(j心CE(y〃-Y)2*M(y’j-Y)(y广Y)—i=1j<k(M-1)(NM-1)S2PC的取值在[「mJ〕范围内。当PC=0时,表明群完全是随机组成的。PC值愈大,表明群内的单元愈相似;PC值愈小,则群内单元的差异愈大。当PC<0时,表明这个差异比随机分组时群内的差异更大。PC也可用群间方差S2与群内方差吒表示,此时c_M(N-1)S2-(NM-1)S2〜S2-S2pC—(M-1)(NM-1)S2〜(M-1)S2或1NMS2S2pC-_(NM-1)S2〜_STS〜咋f:Cs2+(M-1)s2b①在实际应用中,当群的大小Mj不等时,可用平均群的大小M代替M,用上式估计pC.二、群的大小相等时(一)估计量整群抽样是以群为单位进行抽样,如果群的抽取是简单随机的,则当群的大小都相等时,可以将简单随机抽样理解为是一种特殊的整群抽样,特别当总体分群后的每个群都只包括一个次级单元时,整群抽样和简单随机抽样一致。因此,整群抽样的估计量可以比照简单随机抽样方式来构造。1、总体均值Y的估计由于总体均值Y=击£"N珏i=1j=1i=1是各群均值的平均,而y=M£芸七二1迈"i=1j=1J"i=1是样本各群均值的平均,所以根据简单随机抽样的基本思路可得此时总体均值的无偏估计量应为样本均值,即:铲=y=1£fn'i=12、总体总和Y的估计同理可得总体总和的无偏估计量为Y=NM•y=N£Y=Nynini=13、总体比例P的估计令侦i为第i群中具有所研究特性的次级单元数,则P*jM表示第i群中具有所研究特性的次级单元所占的比例,总体中具有所研究特性的次级单元所占的比例为P=NmLaL=NLp=1i=1如果是按简单随机抽样方式抽群,则有P的无偏估计量为P=p=1Lp=—乙n.]inM,]i(二)估计量的方差及其估计人_....△.由于群是按简单随机方法抽取的,因此,估计量Y,Y与P的方差及方差的无偏估计量可直接按第三章的方法构造,无需专门推导。结果如下:Il(y—y)2v(y)=上^—nM2N—11—f(NM—1)S2.[1+(M—1)pTOC\o"1-5"\h\z=•CnM2N—1(N"N—1,NM"NM—1)\o"CurrentDocument"R耳S2[1+(M—1)p]nMc-1—LS2nMbL(Y—y)2N•i=1L=Ns2nn—1nMbL(Y—Y)2v(Y)=N2M2•v(y)=N2(1—f)4—:N—1N2M(1—f)2S2nbL(Y—y)2V(Y)=n2m2•V(y)=n2(1-f).4inn—1nb

V(P)=1-f"P)2V(P)=nN-1£(P-P)i-4=1n一1三、群的大小不等时在许多情况下,总体各群的大小Mj是不完全相等,或完全不相等的。若各群的大小相差不大时,总体参数的估计量可按简单估计或比估计来确定:(一)简单估计如果群的抽取是简单随机的,则可将每个群的总和Yj看作是第i群的指标,于是总体总和Y=^Y的简单估计可依照简单随机抽样的情形来做,即:ii=1Y=N£丫=Nynji=1三-可以证明,Y是Y的无偏估计,其方差为:Y(Y—Y)2v(Y)=NI^2•___nN—1方差估计量为:,、£(y-QV(Y)=N2d一fi"<n—1A”人V(Y)为V(Y)无偏估计。有了总体总和的估计量,则可得出总体均值的无偏估计量为人、T——v=y「m-Ny-兰;oMM0其中Mo为总体各群次级单元之和=艺吃应事先已知,Mj为第,群所含次级单元i=1其中Mo为总体各群次级单元之和数;M为总体平均每群所含次级单元数,M=MJN估计量的方差为:艺(Y-Y)2N2(l-f)x,"nM2N-10黄(Y-Y)2i_L^1nM2N-1方差的估计量为:U(Y-y)2

N2(1—f)x"

nM2n-10_(1-f).勺•i=1nM2(Y-y)2

in—1(二)比估计当群的大小不等时,在对群进行简单随机抽样的情况下,Y-工Y/M,我们注意到ifii-1'i-1它同比率r=£y「£x〔形式上完全相同,只不过在这里是将各群的大小m/作为辅助i-1:i-1变量。因此,可采用比估计的方法得出有关参数的比估计量。按前面的论述,比估计量是有偏的,但当n充分大时,其偏差可以很小,近似无偏。所以,Y的近似无偏估计量为-Xy2mijii-1'i-1里一Y口的近似无偏估计量为R-M0Xy2mi:ii-1i-1当群的大小不等时,总体中具有某种特性的单元所占比例P-x侦」^M,(ai为第ii-1'i-1群具有某种特性的单元数),这与比率的形式仍然相同。因此也可用比估计的方法来构造出P的近似无偏估计量:Mi—p—XaRii-1根据比估计的原理,可相应推导出上述估计量的近似方差为:.1_f艺(匕-YM)2y(匕)"和.TN_1vNTOC\o"1-5"\h\zYM2(Y_Y)21_fii―•4-1nM2N_1=!^[S2+R2S2_2RS]nM2ymm^yN2(1-f)n1Lm2N2(1-f)n•-4=1N_1/(a_PM)2_i=1N_11fYM2(p—P)2=•-4=1nM2其方差估计量为:V(Y)RYM2(Y—i•-4=1nm29Y)2RV(Y)RYM2(Y—i•-4=1nm29Y)2R丈N2M2(1—f)=•i=1(m=1Ynm)ni=1=M2(Y—Y)2iiRNm2N2(1-f)

nYM2(Y—ii=Y)2R•-4=1n—1(当M=m)V(p)=y•RRnm2n—1从上面的分析来看,当群的大小不等时,简单估计量没有利用关于群大小M.的信息,i如果群的大小与群的研究指标之间具有较高的相关性,则简单估计的效率就不如比估计。只有当群大小Mi与群的研究指标间无关时,简单估计才比比估计效果好,但这种情况在实际问题中是很少见到的。第三节不等概率整群抽样的情形前面介绍的是按简单随机抽样方式抽取各群的整群抽样,即各个群不论大小如何,被抽到的概率都是相等的。如果群的大小悬殊很大,这样做就不大合适了。此时,可按群的大小比例采用不等概率抽样,即各个群被抽中的机会不尽相同,群大的,被抽到的机会大一些。不等概率抽样有放回的,也有不放回的。下面分两种情况分别加以讨论。(需要说明的是,不等概率抽样不仅可用于整群抽样,也可用于多阶抽样等其它抽样技术之中,本节只讨论整群抽样的情形。)一、放回的不等概率抽样不等概率抽样通常是按与群的大小成比例进行抽样。当采用放回(重复)抽样时,叫做PPS抽样(samplingwithprobabilityproportionaltosize)。(一)PPS抽样的入样概率和实施方法1、入样概率设总体由N个群组成,第i个群包含Mi个次级单元,按PPS抽样,抽到第i群的概率与该群的大小Mj成正比,即其概率为Zi=MjM°。有时,群的大小Mi只是约略知道或这个“大小”并不是用群所含的次级单元数来表示的,而是用其它有关尺度来计量。此时,设第i群的大小的计量尺度为M:,则有:Z=M7M'(M=歹M9i=1这时的PPS抽样也称作PPZ抽样。2、实施方法1)代码法(累计和法,由汉森一赫维茨提出)设N不太大,且Mi(或M:)都为整数,则赋于第i群Mj个代码,分别与各次级单元对应,由此可得到与总体所有次级单元一一对应的M°个代码。每次抽样产生一个[1,M°]之间的随机数字m,则代码m所在的群入样,重复抽样n次,就可抽到所需的n个群。PPS抽样时,群的代码如下表:群(i)群的大小(M)i累计Mi代码

代码法在N不太大时是适用的,但当N很大时,就很不方便。此时可用Lahiri(拉希里)1951年提出的方法。令M*=maxM}每次抽取一个范围内的随机数i及[1,M*]范围内的随机数m,若1<i<N1M.>m,则第,群入样;否则,重抽(i,m)。重复这一过程,直到抽够所需的〃个群。另外实际工作中也常采用各群单元累计等距抽样法,下一章中对此要专门进行介绍(见累计和等距抽样)。(二)PPS抽样的估计量对于PPS抽样,其估计量可按汉森一赫维茨1943年提出的方法构造。即YHHi=1myymy_YHHi=1TOC\o"1-5"\h\z\o"CurrentDocument"~nm=~nYii=1ii=1YHH=亍=1Xy

nYHHi=1三匕=其中YHH与Yhh分别为Y与Y的无偏估计。估计量的方差为:\o"CurrentDocument"人1VYMV_=V(Y)=—乙Zi(—-Y)2=i乙M(Y-Y)2i=1ii=1v(歹)=—v(Y)=^^Xm(Y-Y)2HHM2HHNMii00i=1方差的无偏估计量为:V(Y)=*X乌-Y)2=%X(YT)2,HHn(n-1).]ZHHn(n-1).1iV(伺)=3^7X(Y-y)2HHn(n一1)ii=1至此,已经讨论了当群的大小不等时,估计总体总和的三种方法,即:按等概率抽样时——堂的简单估计量Y、比估计量Y,以及PPS抽样时的估计量Y。科克伦曾对这三种方法RHH

的精度作过比较研究,结论是:如果当M,增大时,匕没有显示趋势或只有不大的趋势,则J'.__„Yr要比Y精确一些;如果Y卢吃无关,则Y较好;而y通常是比较精确的;当fpc较.q匕一大时,fpc项就给估计量Y和Y帮了忙。R二、不放回的不等概率抽样进行放回的不等概率抽样时,有的群可能被重复抽中,一旦被重复抽中将导致mi个单元重复,因此对样本的代表性影响较大,实际中通常都采用无放回的不等概率抽样。按不放回的不等概率抽样时,可以有几十种不同的情况(有人曾总结出了50种)。当n固定时,对不放回抽样,如果总体每个群的入样概率与其群的大小M,严格成比例,则称之为严格的^PS抽样。nPS抽样有多种类型。若群的抽取是用严格的兀PS抽样方法进行的,则Y的估计应该用霍维茨一汤普森(Horvitz-Thompson)方法。即:V(Y)=尤尤(兀兀—兀)(Y—2)2(n固定时)HT.1,.ijij兀.兀,I?(Y)=££曾j—兀ii(Y—L)2(n固定时)HT.1,兀.,兀.兀,Y是y的无偏估计;V(Y)是V(Y)的无偏估计,其中,兀为第i群和第j群同HTHTHTijM时入样的概率;兀j为第i群入样的概率,在n固定时,兀j=nZj=〃顽顶£1/1、—兀=—n(n—1)i=1j〉i0£兀=(n一1)兀ijii=1j也顶£1/1、—兀=—n(n—1)i=1j〉ii=1严格的兀PS抽样,不仅实施复杂,而且由于此时兀〃不易求得,故方差估计也很复杂.特别当n比较大时,有时简直是不可能实行的。只有当n=2时,严格的兀PS抽样才有一些比较简单且实用的方法。若用布鲁尔或德宾方法抽取n=2个群,群和分别为*,七,群的相对大小分别为z1,z2,则Y的估计为

兀兀一兀yyV(Y)=——(。一4)2B丸丸丸1212其中兀.=2z.——i,i=1,204n(1—z—z)兀12^-2123Z兀12(1—2z)(1—2z)[1+寸一—]121—2Z第四节设计效应和样本容量的确定在这里,我们只考虑群大小相等的情形。若群的大小不等,但相近,则用航代替M;若群的大小不等且差异较大,则可通过适当的拆拼,组成新的大小相近的群。一、设计效应仍用总体均值估计量的方差进行讨论,并且考虑等概率抽样的情形。由前面的分析可知,=—y的估计量y的方差为一1—f_,V(y)总丽S2[1+(M—1)PC]如果按简单随机抽样从总体中抽取nM个次级单元,则:1—f一Vr0=丽S2所以,整群抽样的设计效应为:1—f_,,DeffF.时1"TP」Vsrs(y)上fs2nMr1+(M一1)pC当pC>0时,Deff<1,则整群抽样的精度较简单随机抽样在相同样本量时要差一些。当pc<0时,Deff<1,则整群抽样的精度较相同样本量的简单随机抽样要高。可见,整群抽样的设计效应大小(即精度的好坏)主要取决于总体中群内各次级单元间相关程度(在此主要是离散的程度)的大小。这也进一步证明了分群时遵循前述分群原则是十分必要的。二、最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论