




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章分层抽样第四章1第一节分层抽样概述第二节总体参数的估计第三节总样本量的分配第四节分层与提高精度第一节分层抽样概述2
第一节分层抽样概述分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),然后在各层内分别独立地进行抽样。由此所抽得的样本称之为分层样本。各层所抽的样本也是互相独立的。如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。由此所得到的样本称做分层随机样本。分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。以前只重视③,近年来,④和⑤引起了越来越多的关注。第一节分层抽样概述分层抽样是在抽样3分层抽样具有以下特点:①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。分层抽样具有以下特点:4⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。但对各层的估计缺乏精度保证。⑦分层抽样调查实施中的组织管理及数据收集和汇总处理可以分别在各层内独立地进行,因此较之简单随机抽样更方便。⑧分层抽样中,由于各层的抽样相互独立,互不影响,且各层间可能有显著的不同,因此,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,从而提高估计的精确度。⑨当总体有周期现象时,用分层比例抽样法可以减少抽样方差。⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。因5⑩分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用。同时,分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。满足下述条件时,分层在精度上会有很大的得益:①总体是由一些大小差异很大的单元组成的,即总体差异大;②分层后,每层所包含的总体单元数应是可知的,也即分层后各层的权重是确知的或可以精确估计的;③要调查的主要变量(标志)与单元的大小是密切相关的;④对单元的大小有很好的测量资料可用于分层,也即分层变量容易确定。⑩分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,6第二节总体参数的估计一、分层抽样相关符号说明在分层抽样中,先将含有个单位的总体分成分别含有个单位的层,这些层之间互不重复,且有:从每层中抽取一个子样本,而且抽样在各层中独立进行,若各层内样本量分别用表示,则将这些子样本合起来就是从总体中所抽取的一个样本。其样本容量显然满足:,对于分层抽样,经常使用下列一些符号:第层总体中的单位数;第层样本中的单位数;第层的总体总量;第层的样本总量;第层第个总体单元(单位)的取值;第层第个样本单元(单位)的取值;第二节总体参数的估计一、分层抽样相关符号说7第层的总体层权;第层的抽样比;第层的总体均值;第层的样本均值;第层的总体方差;第层的样本方差。=为总体总量;L表示分层的层数;h表示层的编号(h=1,2,3,…,L);
第层的总体层权;第层的抽样比;第层的总体均8二、估计量1、总体均值的估计量在分层抽样中,总体均值的估计量一般用表示,它是各层总体均值的估计量按层权的加权平均,即:如果得到的是分层随机样本,则总体均值的简单估计为:一般情况下:原因在于权数问题。在中,每层都有精确的权数。如果每层都有或,即,则完全相等于。这种情况称为按比例分配的分层抽样,各层的抽样比相同。二、估计量92、总体总和Y的估计量有了总体均值的估计量,就可推出总体总和的估计量:3、总体比例P的估计量按照总体均值估计量的公式,可推出总体比例(成数)P的估计量为:可以证明,在分层随机抽样中,是的无偏估计量,是的无偏估计量,是P的无偏估计量。2、总体总和Y的估计量10三、估计量的方差1、总体均值估计量的方差对于一般的分层抽样,由于各层的抽样是相互独立的,诸也相互独立,因此总体均值估计量的方差是总体各层均值估计量方差的加权平均,即式中是第h层总体均值估计量的方差。对于分层随机抽样,则有:
三、估计量的方差11可见,在分层抽样中,总体均值估计量的方差只与各层内的方差有关,而同层间方差无关。而总体方差又是由层内方差与层间方差两部分构成的。所以,估计量的方差小于总体方差。
2、总体总和估计量的方差有了总体均值估计量的方差,就可推导出总体总和估计量的方差:对于分层随机抽样,则有:可见,在分层抽样中,总体均值估计量的方差只与各层内的方差有关123、总体比例估计量的方差估计总体比例,当充分大时,有:对于分层随机抽样,则有:四、方差的估计量按上述方法确定估计量的方差时,要求各层的总体方差应事先已知,但实际工作中,各层的总体方差又常常是未知的,此时,一般可用对应的各层样本方差替代,以对估计量的方差作出估计。
3、总体比例估计量的方差13此时:与分别是与无偏估计。当用样本资料估计方差时,可将用替代,则得:是的无偏估计。
此时:14第三节总样本量的分配一、总样本量在各层间的分配在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。通常考虑:⑴精度和费用问题。即如何分配才能在费用一定时使总的精度和各层估计精度最高?⑵数据处理问题。即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了?⑶各层的容量大小问题。总样本量在各层间分配时可采用如下方法:(一)比例分配在分层抽样中,若各层的抽样比都相同,即,则称总样本量为按比例分配。此时:所以,因此。(应取整)第三节总样本量的分配一、总样本量在各层15比例分配时,总体中任一单元的入样概率都相等,都为。由此所得到的样本称为是自加权的或等加权的。在这种情况下:
即或为所有样本最基本单元观测值总和的一个常数倍。这样的估计量也称为自加权的。对于比例分配的分层随机抽样,其均值估计量的方差可以有以下比较简单的形式:(为常数)比例分配时,总体中任一单元的入样概率都相等,都为16若令为各层内方差的平均,则:当估计比例P时,同样有:
其中:
为各层内成数方差的平均。若令为各层内方差的平均,则:17(二)最优分配1、一般情形在分层随机抽样中,在给定的费用条件下,使估计量的方差达到最小,或在精度要求(常用方差表示)一定条件下,使总费用最小的各层样本量的分配称为最优分配。在分层随机抽样中,费用函数可能是简单线性的,也可能是其它复杂形式,这里主要考虑简单线性的费用函数:其中是固定费用,如组织宣传费、分层及编制抽样框的费用等,是在第h层抽取一个单元的平均费用,包括调查员报酬、旅差费、调查测试费等。(二)最优分配18根据前面的论述,在估计总体均值时,对给定的各层样本量nh,估计量的方差为:可见,第二项与样本量无关。考虑到
=
则在给定总费用下使估计量的方差最小,与在给定下使最小均等价于使
=根据前面的论述,在估计总体均值时,对给定的各层样本可见,第二19柯西—许瓦兹(Cauchy-Schwarz)不等式对于任意的,有:当且仅当(为常数)时,等号成立。柯西—许瓦兹(Cauchy-Schwarz)不等式20根据柯西—许瓦兹(Cauchy-Schwarz)不等式,有其中等号只有在以下情形时才成立(达到极小值):
(为常数),这意味着:则因此所以使达到极小的最优分配即为根据柯西—许瓦兹(Cauchy-Schwarz)不等式,有21即
可见,最优分配的结果既考虑了总体各层的差异,也同时考虑了总体各层内变异程度上的差异和各层内平均调查费用的差异。当层的容量愈大、层内变异程度愈大,层内每调查一个单元的费用愈小,则在该层中抽取的单元应愈多。(应取整)(应取整)222、特殊情形——内曼分配如果各层内每个单元的平均抽样费用相等,也即时,最优分配简化为:即(应取整)在内曼分配时,估计量所能达到的最小方差为:2、特殊情形——内曼分配233、某些层需要超过100%抽样时的修正若抽样比较大,而个别层的也很大,则按最优分配,一些层的有可能超过(即>1)。这时,可以对这些极端层进行100%抽样。然后将剩下的其余的层可用的样本量再按最优分配法在其它各层间重新进行分配。以内曼分配为例,其具体步骤如下:假定:,则令。对部分作内曼分配:
此时,若所有的(h≥2)则分配合理。否则,若有:,则3、某些层需要超过100%抽样时的修正24对部分再作内曼分配:若所有(h≥3),则分配合理。否则再重复上述过程,直到所有的为止。此时,最优分配所达到的估计量的最小方差公式也应修正为:
对部分再作内曼分配:254、估计p时的最优分配1)一般情形2)特殊情形——内曼分配4、估计p时的最优分配265、最优分配与比例分配的精度比较比例分配时估计量的方差为:而内曼分配时估计量的最小方差为:因此:若诸很接近,则比例分配与内曼分配的精度相差无己。只有当各层的相差较大时,最优分配比比例分配在精度上才有较大的得益。因此,在设计抽样方案时,可依已有的信息对各层的的离散程度加以分析,以决定是采用比例分配还最优分配。5、最优分配与比例分配的精度比较27(三)多指标时的分配一次抽样调查中调查项目(指标)可能不止一个。因此,往往总样本量对某个指标的最优分配不一定也是对其它指标的最优分配。这时,最简单的方法是利用比例分配,因为不仅它简单方便,而且对各指标大多能获得较为满意的结果。如果此时仍希望采用最优分配,则可按下述有关方法进行处理。实质上下列方法都是对不同指标最优分配的某种程度的折衷。1、平均法其基本思路是先在众多的指标中,选择最重要的K个,分别按最优分配原则计算出各层应分配的样本量,然后求其平均值:
(三)多指标时的分配282、查特吉(Chatterjee)折衷方法(1967)假设经过挑选后,有K个主要指标,为j个指标在第h层按最优分配的样本量,n为第h层应分配的样本量,查特吉提出折衷的办法是:3、耶茨(Yates)方法这种方法应用于有一个特定目的的调查,这种调查中由于估计量给定的误差所引起的损失是可以用钱或效用来衡量的。把总的预期损失L看作估计量的方差的线性函数,则可进一步经过变换,推导出结论:2、查特吉(Chatterjee)折衷方法(1967)29讨论:由于比例分配的样本是自加权的,因此,其估计量及其方差的确定形式都较最优分配时更为简便。但如果各层的因子之间差异很大时,最优分配将会比比例分配更为有效。然而,由于方差对于分配中发生的小的甚至是中等的变动并不敏感,因此,基什(L·Kish)认为在实际中①除非各层的因子之间有实质性的差异,一般不要采用最优分配。否则最优分配多出的效益可能会被加权和特别细致工作的额外花费所抵销。一般来说,要好几倍的差异才值得作最优分配。若的几个值大致相等,就要用比例分配。②最优分配往往不是估计比例值的经济方法,因为比例的标准差等于,它们对于0.1到0.9之间变动的值是不敏感的。③应用最优分配时,在实践上要避免使抽样比成为复杂的分数。④很多潜在的效益常常只需使用一些不同的抽样比就可以得到。有时,只用两个抽样比就可以取得大部分效益:对绝大多数元素采用一个低抽样比,而对一个只包含大元素的特殊层则采用一个高抽样比。有时,甚至可使这些特殊层能被当然地选入样本(即使其抽样比为1),以完全排除它对抽样误差的影响。讨论:由于比例分配的样本是自加权的,因此,其估计量及其方差的30二、总样本量的确定1、估计总体均值的情形设允许估计量的最大方差为V,对某种已确定的样本量分配原则,有:代入总体均值估计量的方差的计算公式,则有:于是对给定的V:二、总样本量的确定31当(比例分配)时当(内曼分配)时当各层抽样费用不同,而总费用给定时当(比例分配)时322、估计总体总和的情形同样的道理,可得出对给定的分配形式()有:当比例分配时当内曼分配时2、估计总体总和的情形333、估计总体比例的情形若较大,则,此时可进一步求出估计P时对给定的分配形式()有:比例分配时:内曼分配时:
3、估计总体比例的情形34第四节分层与提高精度一、分层随机抽样与简单随机抽样的精度比较分层样本与一个可比的简单随机样本相比,给出的均值估计或总值估计,几乎总是有较小的方差,然而,说任何一个分层样本都比一个简单随机样本给出较小的方差,这是不对的,当的值远离最优值时,分层抽样可能有较大的方差。事实上,当总的样本量为固定时,分层抽样也可能给出较大的方差。设为简单随机抽样的方差;为按比例分配的分层随机抽样的方差;为最优分配的分层随机抽样的方差。因为
第四节分层与提高精度一、分层随机抽样与简35又第四章分层抽样课件36两边同除N-1,由于均较大,可忽略,则所以所以两边同除N-1,由于均较大,可忽略,则37又因为其中:是的加权平均值,所以又因为38因此,当的项被忽略不计时,由可以看出,从简单随机抽样变成最优分配的分层抽样时,方差中有两个部分消失了。第一部分为是消除了层间均值的差异的影响的结果;第二部分为是消除了层间标准差的差异的影响的结果,反映了最优分配在方差上的差异。因此,当的项被忽略不计时,由39若含的项不忽略时,则式中当时,也即层间方差小于层内方差时按比例分层还会比简单随机抽样有更大方差。若含的项不忽略时,则40二、设计效应抽样方案不同,估计量的精度也会不同。基什于1965年提出了一个衡量抽样方案效果的量,称为设计效应,记作Deff。
Deff=
设计效应的主要作用有两个:评估比较复杂的抽样方案的效率和确定样本量。设计效应Deff中涉及的是简单随机抽样和复杂抽样的估计量的方差。事实上,抽样调查后获得的只是一个样本,因此,如何利用样本估计Deff就成为一个值得讨论的问题。对于一个复杂的抽样设计,问题的关键在于如何确定与复杂抽样样本量相同的简单随机抽样估计量的方差。
二、设计效应41在分层随机抽样中,由于所得的样本是分层随机样本,用样本方差估计总体方差未必无偏,所以不能用公式作为的无偏估计。此时的无偏估计量为:如果样本量按比例分配,则在分层随机抽样中,由于所得的样本是分层随机样本,用样本方差42三、层权误差的影响用分层样本估计时,估计量是以层权为权的加权平均。因此必须正确地掌握层权。若未知而又不能精确地估计,将对估计量的精度带来严重的影响。设真正的层权为,实际使用的为,则估计量于是所以,是有偏的,且偏倚不会随样本量n的增大而减小。此时估计量的方差:
三、层权误差的影响43四、分层标志的选择(1)如果具备调查标志的全面的过去资料(如上一次的普查资料),而且自那时以来的变化不太大时,可用调查标志本身的过去资料来分层;(2)尽量利用自然标志分层;(3)充分利用那些能决定调查标志数量差异的品质标志;(4)在多个可供选择的数量标志中,应选取那个与调查标志相关系数绝对值最大者;(5)同时使用几个标志进行重叠分层;(6)当同时掌握一个品质标志和一个数量标志的资料时,应优先选择按数量标志分层。以上只是就单项目分层抽样而言,而在实际应用中多项目分层抽样是比较常见的。四、分层标志的选择44多项目分层抽样的主要问题之一是如何兼顾各个项目抽样推断的需要,合理进行分层。第一种思路,是从多项需要推断的指标中,选取被认为是最重要的一项,然后根据该项指标调查推断的需要,选择合适的标志对总体进行分层。第二种思路,是当各项之间存在显著相关关系时,可选择其中任何项目的过去资料进行分层。第三种思路,是利用现成的品质标志和自然标志分层。第四种思路,是当各项目之间相关关系不明显时,最好采用多标志层叠分层(也叫做复分层)的方法,即先按某一主要项目的过去资料或相关标志分层,然后各层再按另一次要项目的过去资料或相关标志分小层……,直到按所有的(或若干重要的)项目分层。这种方法适合于大总体大样本的分层抽样。多项目分层抽样的主要问题之一是如何兼顾各个项目抽样推断的需要45五、层数的确定六、层界的确定分层抽样的L层由(L-1)个分界点所决定,所以最佳分层便是找到(L-1)个分界点,以使分层抽样的抽样方差在抽样方式、层数和样本量分配方式都为已定时达到最小。在比例分配中(设可忽略),能使方差为极小值的一组点也是使五、层数的确定46为极小值的最佳分界点。可以证明,满足该条件的第h和h+1层的最佳分界点为同理可得在最优分配的条件下,求第h和h+1层的最佳分界点的方程为然而,上述方程在实际中是无法求解的,因为和都同有关。因此,一些学者曾讨论提出过相关的近似求法,如戴伦纽斯和霍奇斯(DaleniusandHodges,1959年)的快速近似法,塞蒂(Sethi,1963年)的结合总体分布特征求解的方法等。
为极小值的最佳分界点。可以证明,满足该条件的第h和h+1层的47如果y和x有直线关系,则用比例分配按x求得的最佳分界点对y也为最佳;更进一步,如果y与x的回归是线性的,所有各层中的y与x高度相关,则用x分层同用y一样有效。设:其中E()=0对一切x和成立,且与x不相关。是在第h层内e的方差,则使达到最小值的x界限满足下列方程:其中,是h层内y与x的相关系数。如果y和x有直线关系,则用比例分配按x求得的最佳分界点对y也48七、抽样后分层分层抽样须先分层再抽样。如果在抽样前分层有困难,也可以在抽样后分层。事后分层是先在总体中抽一个容量为n的简单随机样本,再依样本中单元的某些特征进行分层,用估计,其中,,是样本中落入第h层的单元数,若落入某些层的样本单元数为0,可将层加以合并,使>0。是落入第h层的样本的均值。形式上与相同,但是随机变量,也具有随机性。可以证明:七、抽样后分层49
第四章分层抽样第四章50第一节分层抽样概述第二节总体参数的估计第三节总样本量的分配第四节分层与提高精度第一节分层抽样概述51
第一节分层抽样概述分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),然后在各层内分别独立地进行抽样。由此所抽得的样本称之为分层样本。各层所抽的样本也是互相独立的。如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。由此所得到的样本称做分层随机样本。分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。以前只重视③,近年来,④和⑤引起了越来越多的关注。第一节分层抽样概述分层抽样是在抽样52分层抽样具有以下特点:①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。分层抽样具有以下特点:53⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。但对各层的估计缺乏精度保证。⑦分层抽样调查实施中的组织管理及数据收集和汇总处理可以分别在各层内独立地进行,因此较之简单随机抽样更方便。⑧分层抽样中,由于各层的抽样相互独立,互不影响,且各层间可能有显著的不同,因此,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,从而提高估计的精确度。⑨当总体有周期现象时,用分层比例抽样法可以减少抽样方差。⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。因54⑩分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用。同时,分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。满足下述条件时,分层在精度上会有很大的得益:①总体是由一些大小差异很大的单元组成的,即总体差异大;②分层后,每层所包含的总体单元数应是可知的,也即分层后各层的权重是确知的或可以精确估计的;③要调查的主要变量(标志)与单元的大小是密切相关的;④对单元的大小有很好的测量资料可用于分层,也即分层变量容易确定。⑩分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,55第二节总体参数的估计一、分层抽样相关符号说明在分层抽样中,先将含有个单位的总体分成分别含有个单位的层,这些层之间互不重复,且有:从每层中抽取一个子样本,而且抽样在各层中独立进行,若各层内样本量分别用表示,则将这些子样本合起来就是从总体中所抽取的一个样本。其样本容量显然满足:,对于分层抽样,经常使用下列一些符号:第层总体中的单位数;第层样本中的单位数;第层的总体总量;第层的样本总量;第层第个总体单元(单位)的取值;第层第个样本单元(单位)的取值;第二节总体参数的估计一、分层抽样相关符号说56第层的总体层权;第层的抽样比;第层的总体均值;第层的样本均值;第层的总体方差;第层的样本方差。=为总体总量;L表示分层的层数;h表示层的编号(h=1,2,3,…,L);
第层的总体层权;第层的抽样比;第层的总体均57二、估计量1、总体均值的估计量在分层抽样中,总体均值的估计量一般用表示,它是各层总体均值的估计量按层权的加权平均,即:如果得到的是分层随机样本,则总体均值的简单估计为:一般情况下:原因在于权数问题。在中,每层都有精确的权数。如果每层都有或,即,则完全相等于。这种情况称为按比例分配的分层抽样,各层的抽样比相同。二、估计量582、总体总和Y的估计量有了总体均值的估计量,就可推出总体总和的估计量:3、总体比例P的估计量按照总体均值估计量的公式,可推出总体比例(成数)P的估计量为:可以证明,在分层随机抽样中,是的无偏估计量,是的无偏估计量,是P的无偏估计量。2、总体总和Y的估计量59三、估计量的方差1、总体均值估计量的方差对于一般的分层抽样,由于各层的抽样是相互独立的,诸也相互独立,因此总体均值估计量的方差是总体各层均值估计量方差的加权平均,即式中是第h层总体均值估计量的方差。对于分层随机抽样,则有:
三、估计量的方差60可见,在分层抽样中,总体均值估计量的方差只与各层内的方差有关,而同层间方差无关。而总体方差又是由层内方差与层间方差两部分构成的。所以,估计量的方差小于总体方差。
2、总体总和估计量的方差有了总体均值估计量的方差,就可推导出总体总和估计量的方差:对于分层随机抽样,则有:可见,在分层抽样中,总体均值估计量的方差只与各层内的方差有关613、总体比例估计量的方差估计总体比例,当充分大时,有:对于分层随机抽样,则有:四、方差的估计量按上述方法确定估计量的方差时,要求各层的总体方差应事先已知,但实际工作中,各层的总体方差又常常是未知的,此时,一般可用对应的各层样本方差替代,以对估计量的方差作出估计。
3、总体比例估计量的方差62此时:与分别是与无偏估计。当用样本资料估计方差时,可将用替代,则得:是的无偏估计。
此时:63第三节总样本量的分配一、总样本量在各层间的分配在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。通常考虑:⑴精度和费用问题。即如何分配才能在费用一定时使总的精度和各层估计精度最高?⑵数据处理问题。即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了?⑶各层的容量大小问题。总样本量在各层间分配时可采用如下方法:(一)比例分配在分层抽样中,若各层的抽样比都相同,即,则称总样本量为按比例分配。此时:所以,因此。(应取整)第三节总样本量的分配一、总样本量在各层64比例分配时,总体中任一单元的入样概率都相等,都为。由此所得到的样本称为是自加权的或等加权的。在这种情况下:
即或为所有样本最基本单元观测值总和的一个常数倍。这样的估计量也称为自加权的。对于比例分配的分层随机抽样,其均值估计量的方差可以有以下比较简单的形式:(为常数)比例分配时,总体中任一单元的入样概率都相等,都为65若令为各层内方差的平均,则:当估计比例P时,同样有:
其中:
为各层内成数方差的平均。若令为各层内方差的平均,则:66(二)最优分配1、一般情形在分层随机抽样中,在给定的费用条件下,使估计量的方差达到最小,或在精度要求(常用方差表示)一定条件下,使总费用最小的各层样本量的分配称为最优分配。在分层随机抽样中,费用函数可能是简单线性的,也可能是其它复杂形式,这里主要考虑简单线性的费用函数:其中是固定费用,如组织宣传费、分层及编制抽样框的费用等,是在第h层抽取一个单元的平均费用,包括调查员报酬、旅差费、调查测试费等。(二)最优分配67根据前面的论述,在估计总体均值时,对给定的各层样本量nh,估计量的方差为:可见,第二项与样本量无关。考虑到
=
则在给定总费用下使估计量的方差最小,与在给定下使最小均等价于使
=根据前面的论述,在估计总体均值时,对给定的各层样本可见,第二68柯西—许瓦兹(Cauchy-Schwarz)不等式对于任意的,有:当且仅当(为常数)时,等号成立。柯西—许瓦兹(Cauchy-Schwarz)不等式69根据柯西—许瓦兹(Cauchy-Schwarz)不等式,有其中等号只有在以下情形时才成立(达到极小值):
(为常数),这意味着:则因此所以使达到极小的最优分配即为根据柯西—许瓦兹(Cauchy-Schwarz)不等式,有70即
可见,最优分配的结果既考虑了总体各层的差异,也同时考虑了总体各层内变异程度上的差异和各层内平均调查费用的差异。当层的容量愈大、层内变异程度愈大,层内每调查一个单元的费用愈小,则在该层中抽取的单元应愈多。(应取整)(应取整)712、特殊情形——内曼分配如果各层内每个单元的平均抽样费用相等,也即时,最优分配简化为:即(应取整)在内曼分配时,估计量所能达到的最小方差为:2、特殊情形——内曼分配723、某些层需要超过100%抽样时的修正若抽样比较大,而个别层的也很大,则按最优分配,一些层的有可能超过(即>1)。这时,可以对这些极端层进行100%抽样。然后将剩下的其余的层可用的样本量再按最优分配法在其它各层间重新进行分配。以内曼分配为例,其具体步骤如下:假定:,则令。对部分作内曼分配:
此时,若所有的(h≥2)则分配合理。否则,若有:,则3、某些层需要超过100%抽样时的修正73对部分再作内曼分配:若所有(h≥3),则分配合理。否则再重复上述过程,直到所有的为止。此时,最优分配所达到的估计量的最小方差公式也应修正为:
对部分再作内曼分配:744、估计p时的最优分配1)一般情形2)特殊情形——内曼分配4、估计p时的最优分配755、最优分配与比例分配的精度比较比例分配时估计量的方差为:而内曼分配时估计量的最小方差为:因此:若诸很接近,则比例分配与内曼分配的精度相差无己。只有当各层的相差较大时,最优分配比比例分配在精度上才有较大的得益。因此,在设计抽样方案时,可依已有的信息对各层的的离散程度加以分析,以决定是采用比例分配还最优分配。5、最优分配与比例分配的精度比较76(三)多指标时的分配一次抽样调查中调查项目(指标)可能不止一个。因此,往往总样本量对某个指标的最优分配不一定也是对其它指标的最优分配。这时,最简单的方法是利用比例分配,因为不仅它简单方便,而且对各指标大多能获得较为满意的结果。如果此时仍希望采用最优分配,则可按下述有关方法进行处理。实质上下列方法都是对不同指标最优分配的某种程度的折衷。1、平均法其基本思路是先在众多的指标中,选择最重要的K个,分别按最优分配原则计算出各层应分配的样本量,然后求其平均值:
(三)多指标时的分配772、查特吉(Chatterjee)折衷方法(1967)假设经过挑选后,有K个主要指标,为j个指标在第h层按最优分配的样本量,n为第h层应分配的样本量,查特吉提出折衷的办法是:3、耶茨(Yates)方法这种方法应用于有一个特定目的的调查,这种调查中由于估计量给定的误差所引起的损失是可以用钱或效用来衡量的。把总的预期损失L看作估计量的方差的线性函数,则可进一步经过变换,推导出结论:2、查特吉(Chatterjee)折衷方法(1967)78讨论:由于比例分配的样本是自加权的,因此,其估计量及其方差的确定形式都较最优分配时更为简便。但如果各层的因子之间差异很大时,最优分配将会比比例分配更为有效。然而,由于方差对于分配中发生的小的甚至是中等的变动并不敏感,因此,基什(L·Kish)认为在实际中①除非各层的因子之间有实质性的差异,一般不要采用最优分配。否则最优分配多出的效益可能会被加权和特别细致工作的额外花费所抵销。一般来说,要好几倍的差异才值得作最优分配。若的几个值大致相等,就要用比例分配。②最优分配往往不是估计比例值的经济方法,因为比例的标准差等于,它们对于0.1到0.9之间变动的值是不敏感的。③应用最优分配时,在实践上要避免使抽样比成为复杂的分数。④很多潜在的效益常常只需使用一些不同的抽样比就可以得到。有时,只用两个抽样比就可以取得大部分效益:对绝大多数元素采用一个低抽样比,而对一个只包含大元素的特殊层则采用一个高抽样比。有时,甚至可使这些特殊层能被当然地选入样本(即使其抽样比为1),以完全排除它对抽样误差的影响。讨论:由于比例分配的样本是自加权的,因此,其估计量及其方差的79二、总样本量的确定1、估计总体均值的情形设允许估计量的最大方差为V,对某种已确定的样本量分配原则,有:代入总体均值估计量的方差的计算公式,则有:于是对给定的V:二、总样本量的确定80当(比例分配)时当(内曼分配)时当各层抽样费用不同,而总费用给定时当(比例分配)时812、估计总体总和的情形同样的道理,可得出对给定的分配形式()有:当比例分配时当内曼分配时2、估计总体总和的情形823、估计总体比例的情形若较大,则,此时可进一步求出估计P时对给定的分配形式()有:比例分配时:内曼分配时:
3、估计总体比例的情形83第四节分层与提高精度一、分层随机抽样与简单随机抽样的精度比较分层样本与一个可比的简单随机样本相比,给出的均值估计或总值估计,几乎总是有较小的方差,然而,说任何一个分层样本都比一个简单随机样本给出较小的方差,这是不对的,当的值远离最优值时,分层抽样可能有较大的方差。事实上,当总的样本量为固定时,分层抽样也可能给出较大的方差。设为简单随机抽样的方差;为按比例分配的分层随机抽样的方差;为最优分配的分层随机抽样的方差。因为
第四节分层与提高精度一、分层随机抽样与简84又第四章分层抽样课件85两边同除N-1,由于均较大,可忽略,则所以所以两边同除N-1,由于均较大,可忽略,则86又因为其中:是的加权平均值,所以又因为87因此,当的项被忽略不计时,由可以看出,从简单随机抽样变成最优分配的分层抽样时,方差中有两个部分消失了。第一部分为是消除了层间均值的差异的影响的结果;第二部分为是消除了层间标准差的差异的影响的结果,反映了最优分配在方差上的差异。因此,当的项被忽略不计时,由88若含的项不忽略时,则式中当时,也即层间方差小于层内方差时按比例分层还会比简单随机抽样有更大方差。若含的项不忽略时,则89二、设计效应抽样方案不同,估计量的精度也会不同。基什于1965年提出了一个衡量抽样方案效果的量,称为设计效应,记作Deff。
Deff=
设计效应的主要作用有两个:评估比较复杂的抽样方案的效率和确定样本量。设计效应Deff中涉及的是简单随机抽样和复杂抽样的估计量的方差。事实上,抽样调查后获得的只是一个样本,因此,如何利用样本估计Deff就成为一个值得讨论的问题。对于一个复杂的抽样设计,问题的关键在于如何确定与复杂抽样样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年药品管理法试题
- 绿色信贷对长江经济带碳排放的影响研究
- 轧钢企业经营管理方案
- 滨海文旅小镇一期工程可研及市政专项规划项目招标文件
- 2025至2030年中国生产制造系统行业投资前景及策略咨询报告
- 2025至2030年中国独节竿行业投资前景及策略咨询报告
- 2025至2030年中国点式玻璃幕墙爪行业投资前景及策略咨询报告
- 2025至2030年中国渐近滤光片行业投资前景及策略咨询报告
- 2025至2030年中国涂布干式复合机行业投资前景及策略咨询报告
- 2025至2030年中国汽车用活塞行业投资前景及策略咨询报告
- 精麻药品培训课件
- 中国粮食面试题库及答案
- 食品生产初级考试试题及答案
- 2025年全国中学生数学奥林匹克竞赛(预赛)模拟卷(全国高中数学联赛一试)(含解析)
- 统编版(2024)七年级下册历史期末复习全册知识点提纲详细版
- 综合新闻类报纸出版服务行业跨境出海战略研究报告
- 学校特色课程设计交流汇报
- 2025年新疆乌鲁木齐市天山区新疆生产建设兵团第一中学中考模拟预测数学试题
- 新时代六尺巷工作法时政复习-2025届高考政治二轮复习统编版
- 2025年辽宁省本溪市中考一模英语试题(含答案)
- 《物业管理师》三级测试题及参考答案
评论
0/150
提交评论