被等概率抽样_第1页
被等概率抽样_第2页
被等概率抽样_第3页
被等概率抽样_第4页
被等概率抽样_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第六章不等概率抽样第一节不等概率抽样概述第二节放回不等概率抽样第三节不放回不等概率抽样2第一节不等概率抽样概述

一、不等概率抽样的必要性在简单随机抽样中,总体(或层)中的每个单元入样的概率都相等。如果总体中的每个单元在该总体中的地位(或重要性)相差不多,则这种基于等概率的抽样是理所当然的选择。等概率抽样不仅实施简单,而且相应的数据处理公式也简单。但是在许多实际问题中,我们还需要使用不等概率抽样(samplingwithunequalprobabilities)。3一种情况是调查的总体单元与抽样总体的单元可能不一致。另一种需要用到不等概率抽样的情况是,抽样单元在总体中所占的地位不一致。最重要的一种不等概率抽样乃是使每个单元入样的概率与该单元的大小成比例的抽样(samplingwithprobabilitiesproportionaltosizes,简称PPS抽样)。4第三种需用不等概率抽样的情况是为了改善估计量的特性。每个可能的样本若被抽的概率与样本中单元的辅助变量之和成正比的话,则按此进行不等概率抽样所得到的样本,用通常的比估计方法所得的估计量是无偏的。5总之,在实际工作中需要我们经常采用不等概率抽样。另外,从上面列举的情况也可看到,凡需使用不等概率抽样的场合,必须提供总体单元的某种辅助信息,例如每个单元的“大小”度量Mi或辅助变量Xi等。6二、不等概率抽样的主要分类不等概率抽样可按多种原则进行分类。鉴于不等概率抽样同时会带来目标量估计及其方差估计的复杂性,可分为放回抽样:每次在总体(或层)中按一定概率抽取一个单元,抽取后放回总体,再进行下一次抽样,每次抽样都是独立的。不放回抽样。其代价是:由于丧失了独立性,无论是抽样方法还是方差估计,都要比放回抽样繁复得多。7另一种分类是:视每次抽样(放回抽样的情形)概率或每个单元的入样概率(不放回抽样的情形)是否严格地与单元的大小成比例。另外,看样本量n是固定的还是随机的。最重要的情形乃是当n固定,且上述概率与单元大小严格成比例的不等概率抽样。以后我们将这种情形的放回抽样称为PPS抽样,称相应的不放回抽样为πPS抽样。8对于不放回抽样,按其样本单元抽取方式的不同又可分为以下几种方法:1.逐个抽取法。每次从尚未入样的单元中以一定概率抽取一个单元,这个概率通常与已经入样的单元有关,2.重抽法。以一定概率逐个进行放回抽样,若一旦抽到重复单元,则放弃所有已抽到的单元而重新抽取,直到抽到规定单元数且所有入样单元都不同为止。Back93.系统抽取法。将总体单元按某种顺序排列,且将规定的单元入样(或其倍数)累计起来,并确定抽样间隔,在这个范围内产生一个随机数以确定初始入样单元,然后按上述抽样间隔确定其余的样本单元。4.全样本方法。对每个可能样本规定一个被抽中的概率,按这个概率一次抽取整个样本。Back10三、不等概率抽样的特点不等概率抽样的主要优点是由于使用了辅助信息,提高了抽样策略的统计效率,与简单随机抽样甚至与分层抽样相比,能显著地减少抽样误差。11不等概率率抽样有有以下的的缺点::抽样框中中的所有有单元,,都要有有高质量量的、能能用作大大小度量量的辅助助信息;;抽样框的的创建比比简单随随机抽样样和系统统抽样成成本高,,更复杂杂,因为为需要度度量和存存储总体体中每一一个单元元的大小小;并非在任任何情况况下都能能使用,,因为并并不是每每一个总总体都有有稳定且且与主要要调查变变量相关关的有关关大小或或规模的的度量;;抽样及估估计(特特别对不不放回抽抽样)相相当复杂杂;当单元大大小度量量不准确确或不稳稳定时不不适用,,此时更更好的办办法是将将单元按按大小分分组并使使用分层层抽样。Back12第二节放回不等等概率抽抽样一、多项项抽样多项抽样样是一种种最简单单的不等等概率抽抽样。它它是从容容量为N的总体中中有放回回地进行行独立抽抽样,每每次抽样样中,使使抽到第第i个单元的的概率为为Zi,i=1,2,…,N,,,连连续抽n次,从而而抽到n个单元。。13若记为总总体中第第i个单元在在n次抽样中中被抽到到的次数数,显然然对每个个i都有:,,且。。作为为随机变变量(,,,,…),它的联合分布布即是以下的的多项分布::这就是多项抽抽样这个术语语的来源。14根据多项分布布的性质,有有当每个单元具具有一个说明明其大小或规规模的度度量时,每个个单元在每次次抽样中的入入样概率与单单元大小成比比例,称这种种特殊的多项项抽样为放回回的与大小成成比例的概率率抽样,简称称PPS抽样。15二、PPS抽样PPS抽样是与大小小(或规模))成比例的概概率抽样,是是一种使用辅辅助信息从而而使入样概率率不相等的抽抽样技术。如果总体单元元的大小或规规模变化很大大,且这些大大小是已知的的,这样的信信息就可以用用在抽样中,,以提高统计计效率。如果果单元大小的的度量是准确确的,而且所所研究的变量量与单元的大大小相关,PPS抽样能极大地地提高精度。。但如果大小小的度量不大大准确,最好好按大小分组组并使用分层层抽样。16PPS抽样的入样概概率。如上所所述,PPS抽样时可取为第i个单元的入样样概率,其中中是是总体中中所有单元的的“大小”之之和,为为第i个单元的大小小。17有时,关于单单元的大小只只是是约略知道或或这个“大小小”并不是用用单元所含的的次级单元数数来表示的,,而是用其它它有关尺度来来计量。此时时,设第i单元大小的计计量尺度为,,则有:这时的PPS抽样也称作PPZ抽样。18三、多项抽样样的实施方法法如何抽取一个个不等概率样样本呢?有三三种主要方法法:代码法、、系统法及随随机系统法。。以下的讨论论以PPS抽样为例,并并假定单元大大小皆为整数数。19(1)代码法(累计和法,随随机法或汉森森—赫维茨法)设N不太大,且((或))为第i单元大小的度度量,且为整整数,对总体体中的每个单单元计算累计计大小,得到到总体所有单单元代码的累累计和,,对总体体中每个单元元确定与它相相对应的代码码范围;在1到总的累计大大小范范围内抽取取一个随机数数,该随机数数相应的代码码范围中的单单元即为入样样单元。重复复上述步骤,,直到抽得n个单元为止。。20PPS抽样时,单元元的代码如下下表:21(2)拉希里法((二次抽样法法)代码法要将累累计计,在N不太大时是适适用的,但当当N很大时,就很很不方便。此此时可用Lahiri(拉希里)1951年提出的方法法。令每每次次抽取一个范范围内的随机机数及范围内的随机机数m,若,,则第第单元入入样;否则,重抽。。此时,第第i个单元的入样样概率与成成正比,,从而。。重重复这一过程程,直到抽够够所需的个个单元。。22(3)系统PPS抽样方法对总体中的每每个单元,计计算累计大小小;对总体中每个个单元确定与与它相对应的的代码范围;;确定抽样间隔隔k=总累计大小/n;在1和k的范围内确定定一个随机起起点r;与代码r,r+k,r+2k,…,r+(n-1)k所在范围相对对应的单元入入样。注意,当r+(n-1)k超过总累计大大小时,应使使用圆形系统统抽样中的模模余数法。23(4)随机系统抽抽样法在这种方法中中,名录在系系统抽样前要要进行随机排排序。如果完完全按原来的的排序,会把把一些可能的的样本排除在在外。在上面面介绍的系统统抽样的例子子中,不可能能把单元3和4同时抽入同一一个样本。把把名录重新随随机排列后会会增加潜在的的可能抽到的的样本数量。。实际上这些方方法都有些问问题。例如,,对系统抽样样法或随机系系统抽样法,,一个大小大大于抽样间隔隔的单元,就就有重复被抽抽中的可能。。只有把这些些大单元放入入单独的一个个层,并独立立地对它们进进行抽样,才才能克服这个个问题。另一一个问题是估估计值的抽样样方差估计比比较困难。24四、估计量对于多项抽样样,由于抽样样是不等概率率的,每个样样本单元的观观测值就不再再是“平等的的”,因此对对于总体参数数的估计与等等概率抽样不不同。汉森—赫维茨提出,,如果是是按按为为入样概概率的多项抽抽样抽得的样样本指标值,,相应的为,,则总体总总和Y的无偏估计量量如下:25且若n〉1,则的的无偏估计计量为26对于PPS抽样,,所以有其中是是第i个样本单元的的观测值,例例如商店的年年销售额,而而是该该单元的大小小,例如商店店的员工人数数,则即即是第i个商店人均年年销售额。对对n个取取平均即是是样本商业网网点人均年销销售额的平均均,将此数乘乘以,,即该地地所有商业网网点的员工总总数,即可获获得该地商业业销售总额的的估计。27举例:下表是某系统统全部N=36个单位上一年年职工人数及及当年职工人人数的数据,,以为单位大大小的度量,,对单位进行行PPS抽样,n=6,估计全系统统当年职工总总人数Y,并与简单随随机抽样做精精度比较。28第三节不放回不等概概率抽样一、包含概率率与πPS抽样放回不等概率率抽样实施简简单,数据处处理也不复杂杂,在不等概概率抽样中占占有一定的地地位。但是由由于放回抽样样有可能重复复抽到同一单单元,特别是是个别大单元元被重复抽到到的可能性比比较大,这就就在一定程度度上影响了样样本的代表性性,降低了抽抽样效率,也也不易被实际际工作者所接接受。即使在在相同样本量量下,放回抽抽样的精度比比不放回抽样样的差。因此此,我们仍有有必要研究不不放回不等概概率抽样。事实上,由于于不放回抽样样的样本不是是独立的,因因此无论是实实施还是数据据处理,特别别是方差估计计,都要比放放回的多项抽抽样复杂得多多。29在放回的不等等概率抽样中中,每个单元元的入样概率率起着关键作作用。在不放放回抽样中,,每个单元被被包含到样本本的概率也即即入样概率及及任意两个单单元都包含到到样本的概率率都起着十分分重要的作用用,它们通称称为包含概率率。对于固定的n包含概率满足足以下性质::(1)(2)(3)其中性质1是显然的。性性质2是对每个已在在样本中的单单元而言的,,固定了这个个特定单元,,总体中其它它N-1个单元在样本本中只可能有有n-1个单元,因此此其中最后一个个等式利用了了性质1。性质3则直接利用性性质2:与放回的PPS抽样类似,对对于不放回不不等概率抽样样,我们最感感兴趣的是与与单元元大小成成比例的情情形。若仍记,,则由性质质1有:以后我们将这这种不放回的的与单元大小小成比例的概概率抽样称为为πPS抽样。严格的πPS抽样实施起来来非常复杂。。事实上,只只有当n=2时,才有一些些简单且实用用的方法。在在不放回抽样样的情形,如如果抽选的单单元多于一个个,要使入样样概率与单元元大小成正比比以及对调查查估计值的误误差进行估计计都比较复杂杂。在用不放放回πPS抽样抽取多于于两个单元时时,情况就更更加复杂。实实际上,这仍仍是一个需要要进行认真研研究的问题。。除了实施方方面的原因外外,当n大时,的的计算也极极其困难,而而这对于方差差估计是不可可少的。二、霍维茨—汤普森估计量量及其性质对不放回的不不等概率抽样样,总体总和和Y的估计采用霍霍维茨(Horvitz)与汤普森((Thompson)提出的以下下估计量:注意这个估计计量与多项抽抽样的汉森—赫维茨估计量量非非常相似。。事实上,对对于πPS抽样,由于,,与与相应PPS抽样的完完全一致致。霍维茨—汤普森估计量量具有如下性性质:(1)若,,则则是Y的无偏估计,,且它的方差差为:当n固定时,又有有(2)若,,则是的的无偏估估计。又当n固定时,以下下的耶茨(Yates)—格伦迪(Grundy)—森(Sen)估计量也也是的的无偏估计::37三、n=2的严格πPS抽样对于πPS抽样,由于作作为总体总和和的霍维茨—汤普森估计量量的形式相当当简单,因此此就应用角度度来说,是否否便利主要在在于它的实施施方法以及的计算。当n=2时,有几种比比较实用的方方法(但在具具体应用中,,n=2并不是一个十十分严重的限限制)。这些些方法常用在在对总体分层层,在每层中中抽取两个样样本单元的情情况。38(1)布鲁尔(Brewer)方法该方法要求对对每个i,都满足,,即总体(层层)中的最大大单元必须小小于全部单元元大小总和的的1/2(若不然可以以将这个“特特大”单元作作为必调查的的单元)。两两个样本单元元采用逐个抽抽取法抽取::第一个单元元按与成比例的概率率抽取;第二二个单元则在在剩下的N-1个单元中按与与成比例的概概率抽取。39(2)德宾(Durbin)方法两个样本单元元仍用逐个抽抽取法抽取。。第一个样本本单元以概率率抽取,设抽抽到的是单元元i;第二个样本本单元则按与与成成比例的概率率抽取。由于此时的,,且与与布鲁鲁尔方法的相相等,因此德德宾方法与布布鲁尔方法实实际上是等价价的。应用德德宾方法也要要求对每个i,都满足。。40四、n>2的严格πPS抽样n>2的严格πPS抽样要比n=2的情况复杂得得多,即使可可以实现,的的计算也也相当复杂。。下面仅介绍绍三种方法。。(1)水野(Midzuno)方法这也是一种逐逐个抽取方法法,关键是第第一个样本单单元的抽取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论