分层抽样与分层随机抽样在抽样之前_第1页
分层抽样与分层随机抽样在抽样之前_第2页
分层抽样与分层随机抽样在抽样之前_第3页
分层抽样与分层随机抽样在抽样之前_第4页
分层抽样与分层随机抽样在抽样之前_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章分层抽样

本章要点

本章主要是对分层抽样理论包括抽样方式、估计量及其性质、样本量的确定及分配、分层抽样设计效果等进行系统全面地介绍。具体要求:①正确理解层、分层抽样以及分层随机抽样的涵义,分层抽样的特点及作用;②掌握分层抽样的参数估计量及其性质;③掌握分层抽样样本量的确定方法;④了解分层抽样的设计效果;⑤了解分层抽样其他有关理论问题,包括层权偏差、最优分配偏差、事后分层等。第一节抽样方式

第二节简单估计量及其性质

第三节样本量的分配

第四节样本量的确定

第五节分层抽样设计效果分析

第六节进一步讨论的问题

第一节抽样方式引:1.影响估计精度的因素是?2.简单随机抽样的缺陷?若总体单位之间差异较大,怎么办?一、分层抽样与分层随机抽样

在抽样之前,先将总体N个单元划分成L个互不重复的子总体,每个子总体称为层,它们的大小分别为,这L个层构成整个总体()。然后,在每个层中分别独立地进行抽样,这种抽样就是分层抽样。如果每层都是简单随机抽样,则称为分层随机抽样。

第一节抽样方式注:总体中的每个单位,一定并且只属于某一层,不能同时属于两层或不属于任何一层分层抽样得以实施的前提条件准备好关于层的抽样框分层是按照单位的某个特征或指标进行的二、分层抽样的特点(一)分层抽样可以提高参数估计的精度。(二)分层抽样不仅能对总体参数进行估计,而且能对各层(子总体)参数进行估计。(三)便于依托行政管理机构进行组织和实施,同时还可以根据各层的不同特点采用不同的抽样方式。(四)分层抽样样本在总体中分布更加均匀。三、层的划分原则(一)层内单元具有相同性质,通常按调查对象的不同类型进行划分。能够对每一类的目标量进行估计。(二)尽可能使层内单元的标志值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的。(三)既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。(四)为了抽样组织实施的方便,通常按行政管理机构设置进行分层。例如——对全国范围汽车运输的抽样调查调查目的:不仅要推算全国货运汽车完成的运量,还要推算不同经济成分货运汽车完成运量。分层方法:为了组织方便,先将货运汽车按省分层,由各省交通运输部门负责各省调查工作。为了满足子总体推算的需要,各省按照经济成分分层为提高抽样效率,再按吨位对汽车分层四、符号说明

设总体分为L层,下标h表示层号(h=1,2,…,L)。则关于第h层的记号如下:第h层总体单元数:(通常已知),且

第h层样本单元数:,且

第h层总体和样本第i个单元标志值(观察值):

层权:

第h层抽样比:

第h层总体均值:

第h层样本均值:

第h层总体总值:

第h层样本总值:

第h层总体方差

第h层样本方差:

第二节简单估计量及其性质一、总体均值的估计

(一)简单估计的定义(二)估计量的性质二、总体总值的估计

(一)简单估计的定义(二)估计量的性质三、总体比例的估计(一)简单估计的定义(二)估计量的性质在分层抽样中,对总体均值的估计是通过对各层的的估计,按层权加权平均得到的。公式为:

一、总体均值的估计

(一)简单估计量的定义如果得到的是分层随机样本,则总体均值的简单估计为:

N=100N1=60N2=40n1=5n2=5性质l

对于一般的分层抽样,如果是的无偏估计(h=1,2,…,L),则是的无偏估计。的方差为:

(二)估计量的性质

也就是说,在分层抽样中只要对各层估计是无偏的,则对总体的估计也是无偏的。因此,各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的推算也是无偏的

性质2

对于分层随机抽样,是的无偏估计,的方差为:

性质3

对于分层随机抽样,的一个无偏估计为:

二、总体总量的估计

(一)简单估计量的定义总体总量Y的估计为:

如果得到的是分层随机样本,则总体总量Y的简单估计为:

性质4

对于一般的分层抽样,如果是的无偏估计,则是Y的无偏估计。的方差为:

(二)估计量的性质性质5

对于分层随机抽样,的方差为:

性质6

对于分层随机抽样,的一个无偏估计为:

【例4.1】为调查某地区住户的平均家庭成员数,将该地区分成城市和乡村2层,每层按简单随机抽样抽取10户,调查所获得的数据如表4-1。请估计该地区住户的平均家庭成员数及其95%的置信区间。

95%的置信区间为,其中。经计算可得:平均家庭成员数的95%的置信区间为:(3.24,4.24)

三、总体比例的估计

(一)简单估计量的含义

记层比例为,层样本比例,其中与是第h层总体及样本中具有所考虑特征的单元数,则总体比例P的估计为:

第二节简单估计量及其性质第二节简单估计量及其性质

(二)估计量的性质

如果定义

则对总体比例的估计类似对总体均值的估计,这时具有同样的性质。

性质7

对于一般的分层抽样,如果是的无偏估计(h=1,2,…,L),则是P的无偏估计。的方差为:

第二节简单估计量及其性质性质8

对于分层随机抽样,是P的无偏估计,则:的方差为:

第二节简单估计量及其性质第二节简单估计量及其性质性质9

对于分层随机抽样,的一个无偏估计为:

第二节简单估计量及其性质【例4.2】对某地区的居民拥有家庭电脑的情况进行调查,以居民户为抽样单元,根据收入水平将居民户划分为四层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:台),如表4-3。估计该地区居民拥有家庭电脑的比例计估计的标准差。

第二节简单估计量及其性质解:由上表可得:第二节简单估计量及其性质因此,该地区居民拥有家庭电脑比例的估计为:估计量的方差为:第二节简单估计量及其性质估计量的标准差为:第三节样本量的分配

在分层抽样抽样中,若总样本量n一定时,还需研究各层应该分配多少样本量的问题,因为对总体参数进行估计时,估计量的方差不仅与各层的方差有关,还与各层所分配的样本量有关。实际工作中有不同的分配方法,既可以按各层单元数占总体单元数的比例分配,也可以采用使估计量总方差达到最小等几种方法进行样本量的分配一、比例分配比例分配指的是按各层单元数占总体单元数的比例进行分配,也就是按各层的层权进行分配,即总体比例P的估计是:

对于分层随机抽样,这时总体均值的估计值是:

总体中的任一个单元,不管它在哪一层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。

的方差为:

的方差为:

二、最优分配(一)最优分配

最优分配是指在分层随机抽样中,如何将样本量分配到各层,使得在总费用给定的条件下,估计量的方差达到最小;或在给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。如果我们考虑简单线性费用函数,总费用则这时的最优分配是:

由此得出下面的行为准则,如果某一层单元数较多,内部差异较大,费用比较省,则对这一层的样本量要多分配一些。

(二)Neyman(内曼)分配对于分层随机样本,作为特例,如果每层抽样的费用相同,即ch=c时,最优分配可简化为

这种分配称为Neyman分配。这时达到最小。

这种分配称为Neyman分配。这时达到最小。

【例4.3】对某地区的居民豆制品年消费支出进行调查,以居民户为抽样单元,根据收入水平将居民户划分为四层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),如表4-4。若按比例分配和Neyman分配时,各层的样本量应为多少?解:由上表,

各层的层权及抽样比为:

各层样本均值及方差为:

同理可得:

按比例分配时,各层的样本量为:

即各层的样本量分别为3,6,11,22

对于Neyman分配,根据前面对Wh及Sh的计算结果,得到:因此,按Neyman分配时,各层应分配的样本量为:

即,各层的样本量分别为3,7,23,7。

按最优分配时,有时抽样比较大,某个层的又比较大,则可能出现按最优分配计算的这个层的样本量超过的情况。实际工作中,如果第k层出现这种情况,最优分配是对这个层进行100%抽样,即取,然后,将剩下的样本量按最优分配各层。

(三)某些层要求大于100%抽样时的修正第四节样本量的确定

令,其中已经选定,于是当方差V给定时,一、一般公式得到确定样本量的一般公式为:

如果估计精度是以误差限的形式给出,则当按比例分配时,

实际工作中,n的计算可以分为两步:先计算然后进行修正:

当按Neyman分配时,

【例4.4】(续例4.3)如果要求在95%置信度下,相对误差不超过10%,则按比例分配和Neyman分配时,总样本量分别为多少?

解:当按比例分配时,由前面的计算结果,可以得到各层的在95%值信度时,对应的t=1.96。又

因此得到:

由此可以得到:

对n0进行修正,得到修正后的n:

当按Neyman分配时:

二、最优分配需要考虑费用时

在最优分配时,如果考虑费用为简单线性费用函数:

则:当方差V给定时,得到样本量为:

而当总费用C是给定时,有:

对其求和得到样本量为:

三、总体参数为P的情形当方差V给定时,如果都比较大,使得则按比例分配时总样本量为:

按Neyman分配时

计算样本量之前,需要对Ph作预估计。

【例4.5】(续例4.2)如果要求在95%置信度下,绝对误差不超过5%,则按比例分配和Neyman分配时,总样本量分别为多少?

解:在置信度95%时,对应的t=1.96,而绝对误差d=5%,因此

按比例分配时:可以得到

调整后的样本量为:

按Neyman分配时:

第五节分层抽样设计效果分析

我们将从理论上将分层随机抽样与简单随机抽样进行效果比较,即在相同样本量下,比较其估计量的方差大小。为比较分层随机抽样与简单随机抽样的精度,我们拟在样本量为比例分配的形式下讨论。

一、分层随机抽样与简单随机抽样的比较记简单随机抽样(对均值估计量)的方差为:

比例分配的分层随机抽样相应估计量的方差为:

根据总体单元指标的平方和分解可得:如果各层Nh都比较大,则:因而:两边乘(1-f)/n上式右边第二项是层间平方和,为非负,因此有:

方差差值为:这表明层平均数的差异愈大,分层的效果就愈好,若层平均数都相等,则分层与不分层效果相同。主要针对比例分配与内曼分配抽样效果进行比较分析。其中:二、分层随机抽样各种样本量分配方法之间的比较

实际工作中,除非各层的标准差相差很大,人们通常还是喜欢采用按比例分配的方式。结论:如果各层均值差异越大,则采用按比例分配的方式较好,而当各层的标准差相差很大时,则最优分配更好。第六节进一步讨论的问题一、层权误差对估计量的影响在分层抽样中,我们总是假定层权。如果未知且不能精确地估计时,将对估计量带来十分严重的影响。

设估计的权重为,因此实际采用的对总体均值的估计是:对于分层随机抽样,仍是的无偏估计,但:

因此,不是的无偏估计,且偏倚B为:该偏倚只依赖于的偏差,而与样本量n无关。因此,当考虑的均方误差时当n增加时,前一项虽然逐渐减少,但第二项保持不变,它不随着n的增大而减少,因而不再是一个可用的估计量。当n超过一定量时,分层估计量的均方误差就可能超过简单随机抽样的方差。因此,分层获得的精度上的得益会完全丧失。二、最优分配偏差对方差的影响

令是理论最优分配的样本量,而实际分配为,则,估计量的方差分别为:

因此,由于实际分配偏离了理论最优分配引起的方差增加为:

根据最优(奈曼)分配公式,知如果忽略有限总体修正系数fpc,因此,估计量方差的相对增加为:由于,因此上式右边即是的加权平均,它的上限是最大相对偏离值的平方。如果最大相对偏离g=50%,则方差最多增加25%;若最大相对偏离g=20%,则方差最多增加4%。所以在一般情形,由于最优分配偏差引起的方差增大是相当有限的。

三、层数确定

分层是为了提高抽样效率,这时就要考虑如何进行分层。按调查目标量进行分层当然是最好的,但我们在调查之前并不知道的值,因此,分层只能是通过与高度相关的辅助指标来进行。当辅助指标为定型变量时,分层是按自然层或单元类型划分的,层数是自然的。但当分层变量Xi为连续性定量变量时,层的划分则比较困难。常用的一种分层方法是确定层界的快速近似法,它是由戴伦纽斯(Dalenius)与霍捷斯(Hodges)提出的。其做法是将分层变量(例如xi)分布的累积平方根进行等分来获得最优分层,因此这种方法也称为累积平方根法。但当遇到运用累积平方根法进行分层时,就存在确定层数的问题。在实际工作中,因为要保证每个层有样本单元,因此层数不能超过样本量,如果要给出估计量方差的无偏估计,则每层至少2个样本单元,那么层数不能超过。通过对分层抽样与简单随机抽样的比较,我们知道前者比后者的精度高。因此人们设想是否对总体尽可能多地进行划分,使得层内差异降低,这时就要涉及层数增加时估计量方差的下降速度。

首先考虑以目标量本身作为分层指标。以最简单的情形为例,Y是区间d上的均匀分布,则总体方差,样本量为n的简单随机抽样简单估计量的方差为将总体分成大小相同的L层,并按比例分配样本量,即则但在工作中,本身未知,只能通过与高度相关的辅助指标来进行。这时估计量的方差可以分为两部分,一部分与层数有关,另一部分与层数无关,用模型表示:即,其中,是方差中受层数影响的部分,是不受层数影响的部分。因此,当层数增加到一定的时候,在精度上的收益将非常小。根据研究,除非Y与X的相关系数,层数一般不超过6为宜。四、多目标分层的样本量的确定

从最优分配角度来考虑多指标情形样本量的分配方法。本质上这些方法都是对不同指标最优分配结果的折衷。(一)

最优分配平均法在所考虑的所有目标中,选取最重要的k个,对每个指标j,计算最优分配的层样本量,然后计算它们的平均值:(二)查特吉(Chatterjee)法

考虑实际分配的样本量对每个目标偏离其最优分配引起的方差相对增加RVj:取极小化RVj的平均值的,结果为,(三)耶茨(Yates)法

将每个目标估计量的方差看作损失,考虑总的损失函数:

若费用函数仍是简单的线性形式:耶茨法的目标是极小化根据柯西-许瓦兹不等式,极小值当且仅当

时达到。若令则最优分配为:从而:

若令,对于分层抽样,我们一般在抽样之前将总体中的所有单元分好层,但在实际工作中,有时没有层的抽样框,或总体特别大来不及事先分层,或者几个变量都适合于分层,要进行事先的交叉分层比较困难,并且我们并不需要交叉分层后每个子层的估计,如,需要按年龄分层的结果,还需要按受教育程度分层的结果,但并不需要这两个指标的交叉结果。这时如果想利用分层抽样的优点,可以采用对样本的事后分层方法。五、事后分层

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论