版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第七章 整群抽样第一节 整群抽样概述一、整群抽样的概念整群抽样是先将将总体各单元元划分成若干干群(组),然然后以群为单单位,从中随随机抽取一部部分群,对中中选群内的所所有单元进行行全面调查。确确切地说,这这种抽样组织织形式应称为为单级整群抽抽样。如果总体中的单单元可以分成成多级,则可可以对前几级级单元采用多多阶抽样,而而在最后一阶阶中对该阶抽抽样单元所包包含的全部个个体(最基本本单元)进行行调查,这种种抽样称作多多级整群抽样样。本章只讨讨论单级整群群抽样。设总体被划分为为群,第ii群含有ii个次级单元元,全部总体体次级抽样单单元数记为0,即0Mi。当诸i都相等时,称称为等群;否否则,称为不不等
2、群。采用整群抽样的的两个理由:- 抽选群能大大大降低数据据收集的费用用,当总体的的分布比较广广且调查采用用面访时更是是如此;- 从总体中直直接抽选个体体在实际中并并不总是可行行的(没有关关于个体的抽抽样框);有有时,抽选单单元组成群体体组更简便易易行(如整个个住户)。整群抽样包括两两步:首先,总总体被分为群群;然后,在在总体中抽取取群的样本并并访问群中的的所有单元。如果总体单元是是自然分成组组或群的,创创建一个这种种关于群的抽抽样框并对它它们进行抽样样比创建总体体中所有单元元的名录框更更为容易。或或者,无法得得到关于总体体中所有单元元的名录框,但但却有这些单单元分布地域域的地图,因因而可以创建
3、建地域框。群的抽取可以采采用简单随机机抽样、系统统抽样或PPPS抽样等各各种不同的方方法。二、群的划分问问题整群抽样策略的的统计效率取取决于群内单单元的相似程程度有多大,每每个群中有多多少单元,及及抽中群的数数量。同分层抽样一样样,整群抽样样的前提是先先要对总体进进行分群。关关于群的划分分,有两个问问题:一是如如何定义群,即即当群并非是是一个自然形形成的单位时时,确定每个个群的组成;二是如何确确定群的规模模即群的大小小。分层抽样是在各各层都进行随随机抽样,“层是缩小了了的总体”,抽样单元元仍然是总体体基本单元。这这决定了分层层的原则是:尽量缩小层层内差异,而而扩大层间差差异。而整群群抽样只是在
4、在各群之间抽抽取一部分群群进行调查,并并在抽中的群群内作全面调调查。因此,群群间差异的大大小直接影响响到抽样误差差的大小,而而群内差异的的大小则不影影响抽样误差差。在这里抽抽样单元是各各个不同的群群体,所以“群实际上是是扩大了的总总体单元”。所以,对于前前一个问题,群群的划分应该该是:尽量扩扩大群内差异异,而缩小群群间差异。按按此原则分群群,则能保证证每个群对总总体都具有足足够好的代表表性。作为极极端情况,假假定各群之间间总体单元的的分布完全相相同,即群间间不存在任何何差异,那么么只需抽取一一个群进行调调查就能充分分满足抽样估估计精确度的的要求,整群群抽样的效率率就很高。这这就是说,整整群抽样
5、特别别适合于群内内差异大、而而群间差异小小的情况。这这样,每个群群都具有足够够好的代表性性。如果所有的的群都相似,那那么抽少数群群就可获得相相当好的精度度;反之,若若群内的单元元比较相似,而而群与群之间间的差别较大大,则整群抽抽样的效率就就低。所以分群的的原则使“群内差异大大、群间差异异小”与分层的原原则使“层内差异小小,层间差异异大”是恰好相反反的。然在使使用自然群时时,同一个群群内的单元通通常非常相似似,从而导致致这种抽样策策略的效率比比简单随机抽抽样低。下图直观表明了了理想的分群群与分层,其其中同一字母母表示观测值值相近的单元元。至于群的规模的的选择,一是是取决于精度度与费用之间间的平衡
6、,二二是从抽样实实施的组织管管理等因素来来考虑。当相相邻单元相似似时,抽数量量较多的小群群比抽少量较较大的群的统统计效率高。然然而,如果采采用面访,样样本的分布越越广,调查的的费用越高。这这表明:群的的规模选得大大,则费用省省而精度差;群的规模选选得小,则精精度高而费用用大。所以,需要要选择最优的的群数量和大大小,同时使使总费用最小小。这方面除除了依靠实践践经验外,还还可对假定的的方差函数与与费用函数作作理论上的最最优选择。整群抽样可能有有一些具体的的困难。如果果用地图作为为地域框,可可能很难决定定某个住所是是否在一个特特定的群内。必必须建立一个个基本的原则则以决定哪些些单元在一个个群内。例如
7、如,规定“住所属于它它的正门所在在的群”这么一条原原则,就能解解决大多数问问题。如果一一个住所似乎乎平等地跨越越两个群,则则采用掷硬币币的方法来确确定,以避免免产生任何抽抽选的偏差。三、整群抽样的的特点同其他抽样组织织形式相比较较,整群抽样样具有如下特特点:在大规模抽抽样调查中,常常常没有或很很难编制出包包括总体所有有次级单元在在内的抽样框框,而整群抽抽样则不需要要编制庞大的的抽样框。当总体单元自然然聚合成群(例例如:住户、学学校)时,整整群抽样比简简单随机抽样样或系统抽样样更容易。在样本单元元数相同的条条件下,整群群抽样与简单单随机抽样相相比,样本单单元的分布相相对较集中,虽虽然样本的代代表
8、性较差,但但调查组织实实施过程更加加便利,同时时还可以大大大地节省调查查费用。因此此,实际工作作中,在权衡衡费用和精度度之后,有时时宁可适当增增加一些样本本单元数,也也采用整群抽抽样方法。如果对于调查变变量而言,群群内单元差异异较大,而不不同群的差异异较小,整群群抽样策略比比简单随机抽抽样的统计效效率更高。(例如为估计计性别比采用用按户的整群群抽样)。整群抽样的的随机性体现现在群与群间间不重叠,也也无遗漏,群群的抽选按概概率确定。如果把每一一个群看作一一个单位,则则整群抽样可可以被理解为为是一种特殊殊的简单随机机抽样。整群抽样也也是多阶段抽抽样的前提和和基础。整群抽样有有特殊的用途途。有些现象
9、象的研究,如如果直接调查查作为基本单单元的个体,很很难说明问题题,必须以一一定范围所包包括的基本单单元为群体,进进行整群抽样样,才能满足足调查的目的的。如人口普普查后的复查查、要想估计计出普查的差差错率,只有有通过对一定定地理区域内内的人口群体体作全面调查查才行。类似似地诸如人口口出生率、流流动率等调查查都需要采用用整群抽样。整群抽样要要求分群后各各群所含次级级单元数目应应该确知,否否则会给抽样样推断带来不不便。整群抽样的缺点点有:对调查变量,若若群内单元有有趋同性,则则整群抽样的的统计效率比比简单随机抽抽样低,(这这正是通常遇遇到的情况),但但对此项效率率的损失可通通过增加群的的抽取个数来来
10、弥补;通常无法提前知知道调查总样样本量,因为为在进行调查查前,我们通通常不知道一一个群内到底底有多少个单单元;调查的组织比其其他方法复杂杂;方差估计可能比比简单随机抽抽样更为复杂杂。四、关于群大小小的计量整群抽样中,如如何有效地对对群的大小进进行计量,直直接关系到抽抽样估计效率率的高低。研研究表明,对对群的大小的的最优计量尺尺度是各群在在所研究标志志上的标志总总量大小。但但在实际工作作中,它是未未知的。因此此通常选择与与所研究标志志高度线性相相关的另一辅辅助标志作为为计量尺度。为为此,要求掌掌握关于辅助助标志的更进进一步细致的的资料,而这这又会带来一一系列新的问问题,如增加加工作量及费费用等。
11、所以以,在整群抽抽样的实际应应用中,经常常选择以各群群所含次级单单元数的多少少作为群大小小的计量尺度度。当各群所所含次级单元元数相等时,就就称群的大小小相等;当各各群所含次级级单元数不相相等时,就称称群的大小不不相等。整群样本(图示示)第二节 等概率率整群抽样的的情形整群抽样中对群群的抽取有多多种方式,本本节只讨论按按简单随机抽抽样抽群,即即等概率抽样样,也称PPPF抽样的情情形,下节讨讨论不等概率率的情形。一、预备知识(一)有关符号号的涵义为总体群数;为为各群所含次次级单元数;为第群中第个次级级单元的观则则值;为总体所含次级级单元总数;为样本所含次级级单元总数;为第群各次级单单元观测值总总和
12、;为第群的均值;为总体各次级单单元观测值总总和;为样本各次级单单元观测值总总和;为总体体各群的均值值;为样本各群的均均值;为总体均值;为样本均值;为总体方差;为样本方差;为总体群间方差差;为样本群间方差差;为总体平均群内内方差;为样本平均群内内方差;为抽样比。(二)群内、群群间差异的定定量刻划正如前面所分析析的,整群抽抽样的精度在在很大程度上上取决于群内内各次级单元元间差异程度度的大小。那那么如何有效效地对分群后后各群内次级级单元间的差差异和各群之之间的差异加加以测定?也也就是对群内内差异和群间间差异怎样做做定量刻划?通常有两种种不同的思路路:、离差平方和和的分解群内方差与与群间方差的的测定先
13、分析总体的情情况:对于总体,对离离差的总平方方和可作如下下分解: 式中第一项为群群内离差平方方和,用其除除以即为平均均群内方差,也也可直接称之之为群内方差差,用表示,则则: 式中的第二项为为群间离差平平方和,用其其除以即为群群间方差,用用表示,则:由此,依总体方方差的定义及及总体离差平平方和分解可可以得出: 同理,可得样本本的方差及其其分解如下: 需要注意的是,由由于群的抽取取是简单随机机的,因此,可可以证明与分别是与的无偏估计计。但从次级级单元角度而而言,样本并并不是简单随随机的,因此此,不是的无偏估估计。的一个个无偏估计可可构造如下当N充分大时,另一方面,当也也足够大时,可看作是的近似无偏
14、估计。、群内相关系系数群内相关系数是是反映总体中中群内各次级级单元间相关关程度的一个个统计分析指指标。是同一一群内不同次次级单元的观观测值对总体体均值离差乘乘积的平均与与总体所有次次级单元观测测值对总体均均值离差平方方的平均之比比,记作 的取值在范围围内。当时,表表明群完全是是随机组成的的。值愈大,表表明群内的单单元愈相似;值愈小,则则群内单元的的差异愈大。当当时,表明这这个差异比随随机分组时群群内的差异更更大。也可用群间方差差与群内方差差表示,此时时或 在实际应用中,当当群的大小不不等时,可用用平均群的大大小代替,用上式式估计.二、群的大小相相等时(一)估计量整群抽样是以群群为单位进行行抽样
15、,如果果群的抽取是是简单随机的的,则当群的的大小都相等等时,可以将将简单随机抽抽样理解为是是一种特殊的的整群抽样,特特别当总体分分群后的每个个群都只包括括一个次级单单元时,整群群抽样和简单单随机抽样一一致。因此,整整群抽样的估估计量可以比比照简单随机机抽样方式来来构造。、总体均值的的估计由于总体均值是各群均值的平平均,而 是样本各群均值值的平均,所所以根据简单单随机抽样的的基本思路可可得此时总体体均值的无偏偏估计量应为为样本均值,即即:、总体总和的的估计同理可得总体总总和的无偏估估计量为 、总体比例例的估计令为第群中具有有所研究特性性的次级单元元数,则表示示第群中具有有所研究特性性的次级单元元
16、所占的比例例,总体中具具有所研究特特性的次级单单元所占的比比例为如果是按简单随随机抽样方式式抽群,则有有的无偏估计计量为(二)估计量的的方差及其估估计由于群是按简单单随机方法抽抽取的,因此此,估计量与与的方差及方方差的无偏估估计量可直接接按第三章的的方法构造,无无需专门推导导。结果如下下: 三、群的大小不不等时在许多情况下,总总体各群的大大小是不完全全相等,或完完全不相等的的。若各群的的大小相差不不大时,总体体参数的估计计量可按简单单估计或比估估计来确定:(一)简单估计计如果群的抽取是是简单随机的的,则可将每每个群的总和和看作是第群的的指标,于是是总体总和的的简单估计可可依照简单随随机抽样的情
17、情形来做,即即:可以证明,是的的无偏估计,其其方差为: 方差估计量为: 为无偏估计。有了总体总和的的估计量,则则可得出总体体均值的无偏偏估计量为 其中为总体各群群次级单元之之和, 应事事先已知,为为第群所含次次级单元数;为总体平均均每群所含次次级单元数,估计量的方差为: 方差的估计量为为: (二)比估计当群的大小不等等时,在对群群进行简单随随机抽样的情情况下,我们注意到到它同比率形形式上完全相相同,只不过过在这里是将将各群的大小小作为辅助变变量。因此,可可采用比估计计的方法得出出有关参数的的比估计量。按按前面的论述述,比估计量量是有偏的,但但当充分大时时,其偏差可可以很小,近近似无偏。所以,的
18、近似无无偏估计量为为的近似无偏估计计量为 当群的大小不等等时,总体中中具有某种特特性的单元所所占比例(为第群具有某某种特性的单单元数),这这与比率的形形式仍然相同同。因此也可可用比估计的的方法来构造造出的近似无无偏估计量:根据比估计的原原理,可相应应推导出上述述估计量的近近似方差为: 其方差估计量为为: (当)从上面的分析来来看,当群的的大小不等时时,简单估计计量没有利用用关于群大小小的信息,如如果群的大小小与群的研究究指标之间具具有较高的相相关性,则简简单估计的效效率就不如比比估计。只有有当群大小与与群的研究指指标间无关时时,简单估计计才比比估计计效果好,但但这种情况在在实际问题中中是很少见
19、到到的。第三节 不等等概率整群抽抽样的情形前面介绍的是按按简单随机抽抽样方式抽取取各群的整群群抽样,即各各个群不论大大小如何,被被抽到的概率率都是相等的的。如果群的的大小悬殊很很大,这样做做就不大合适适了。此时,可可按群的大小小比例采用不不等概率抽样样,即各个群群被抽中的机机会不尽相同同,群大的,被被抽到的机会会大一些。不不等概率抽样样有放回的,也也有不放回的的。下面分两两种情况分别别加以讨论。(需需要说明的是是,不等概率率抽样不仅可可用于整群抽抽样,也可用用于多阶抽样样等其它抽样样技术之中,本本节只讨论整整群抽样的情情形。)放回的不等概率率抽样不等概率抽样通通常是按与群群的大小成比比例进行抽
20、样样。当采用放放回(重复)抽抽样时,叫做做抽样(saamplinng witth proobabillity pproporrtionaal to size)。(一)抽样的入入样概率和实实施方法、入样概率设总体由个群组组成,第个群群包含个次级级单元,按抽抽样,抽到第第群的概率与与该群的大小小成正比,即即其概率为。有时,群的大小小只是约略知知道或这个“大小”并不是用群群所含的次级级单元数来表表示的,而是是用其它有关关尺度来计量量。此时,设设第群的大小小的计量尺度度为,则有: 这时的抽样也称称作抽样。、实施方法)代码法(累累计和法,由由汉森赫维茨提出出)设不太大,且(或或)都为整数数,则赋于第第群
21、个代码,分分别与各次级级单元对应,由由此可得到与与总体所有次次级单元一一一对应的个代代码。每次抽抽样产生一个个之间的随机机数字,则代代码所在的群群入样,重复复抽样次,就就可抽到所需需的个群。抽样时时,群的代码码如下表:群群的大小累计代 码)拉希里法代码法在不太大大时是适用的的,但当很大大时,就很不不方便。此时时可用Lahhiri(拉拉希里)19951年提出出的方法。令每次抽取一个个范围内的随随机数及范围内的随随机数,若,则第群入样样;否则,重重抽。重复这这一过程,直直到抽够所需需的个群。另外实际工作中中也常采用各各群单元累计计等距抽样法法,下一章中中对此要专门门进行介绍(见累计和等等距抽样)。
22、(二)抽样的估估计量对于抽样,其估估计量可按汉汉森赫维茨19943年提出出的方法构造造。即 故 其中与分别为与与的无偏估计计。估计量的方差为为:方差的无偏估计计量为:,至此,已经讨论论了当群的大大小不等时,估估计总体总和和的三种方法法,即:按等等概率抽样时时的简单估计计量、比估计计量,以及抽样时时的估计量。科科克伦曾对这这三种方法的的精度作过比比较研究,结结论是:如果果当增大时,没有有显示趋势或或只有不大的的趋势,则要要比精确一些些;如果与无关,则较好好;而通常是是比较精确的的;当较大时时,项就给估估计量和帮了忙。二、不放回的不不等概率抽样样进行放回的不等等概率抽样时时,有的群可可能被重复抽抽
23、中,一旦被被重复抽中将将导致个单元元重复,因此此对样本的代代表性影响较较大,实际中中通常都采用用无放回的不不等概率抽样样。按不放回的不等等概率抽样时时,可以有几几十种不同的的情况(有人人曾总结出了了50种)。当当固定时,对对不放回抽样样,如果总体体每个群的入入样概率与其其群的大小严严格成比例,则则称之为严格格的抽样。抽样有有多种类型。若群的抽取是用用严格的抽样样方法进行的的,则的估计计应该用霍维维茨汤普森森(Horvvitz-TThompsson)方法法。即:(固定时)(固定时)是的无偏估计;是的无偏估计计,其中,为为第群和第群同时时入样的概率率;为第群入样的的概率,在固固定时, 严格的抽样,
24、不不仅实施复杂杂,而且由于于此时不易求求得,故方差差估计也很复复杂.特别当当比较大时,有有时简直是不不可能实行的的。只有当时时,严格的抽抽样才有一些些比较简单且且实用的方法法。若用布鲁鲁尔或德宾方方法抽取个群群,群和分别别为,群的相对对大小分别为为,则的估计为为 其中 第四节 设计计效应和样本本容量的确定定在这里,我们只只考虑群大小小相等的情形形。若群的大大小不等,但但相近,则用用代替;若群的的大小不等且且差异较大,则则可通过适当当的拆拼,组组成新的大小小相近的群。一、设计效应仍用总体均值估估计量的方差差进行讨论,并并且考虑等概概率抽样的情情形。由前面面的分析可知知,的估计量量的方差为 如果按简单随随机抽样从总总体中抽取个个次级单元,则则: 所以,整群抽抽样的设计效效应为: 当时,,则则整群抽样的的精度较简单单随机抽样在在相同样本量量时要差一些些。当时,则整群群抽样的精度度较相同样本本量的简单随随机抽样要高高。可见,整群抽样样的设计效应应大小(即精精度的好坏)主主要取决于总总体中群内各各次级单元间间相关程度(在在此主要是离离散的程度)的的大小。这也也进一步证明明了分群时遵遵循前述分群群原则是十分分必要的。二、最佳群大小小的确定如果样本大小固固定,虽然
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商场解约合同范本
- 团购费退还协议书
- 土地合同解除协议
- 在厂猝死调解协议书
- 垫付运输合同范本
- 塔吊伤人赔偿协议书
- 夫妻代理记帐协议书
- 夫妻家务方面协议书
- 夫妻现金赠与协议书
- 夫妻陪伴协议书范本
- 2026年中国化工经济技术发展中心招聘备考题库完整答案详解
- 2026.05.01施行的中华人民共和国渔业法(2025修订)重点解读课件
- 高考移民合同范本
- 控告申诉业务竞赛试卷五含答案
- 2025考评员培训考试题(含答案)
- 制造费用课件
- 2026年公关危机舆情应对培训
- 2025至2030移动数字X射线系统产业市场深度调研及发展现状趋势与投资前景预测报告
- 2025重庆水务集团股份有限公司招聘64人笔试备考题库及答案解析(夺冠)
- 市场监管局价格监管课件
- GB/T 39367-2025体外诊断检测系统基于核酸扩增的病原微生物检测和鉴定程序实验室质量实践通则
评论
0/150
提交评论