抽样技术-第三章.ppt_第1页
抽样技术-第三章.ppt_第2页
抽样技术-第三章.ppt_第3页
抽样技术-第三章.ppt_第4页
抽样技术-第三章.ppt_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章分层随机抽样,3.1概述3.2简单估计量及其性质3.3比率估计量及其性质3.4回归估计量及其性质3.5各层样本量的分配3.6总样本量的确定3.7分层抽样的其他方面,第一节概述,定义3.3分层随机抽样(stratifiedrandomsampling):如果每层中的抽样都是独立地按照简单随机抽样进行的,那么这样的分层抽样称为分层随机抽样,所得的样本称为分层随机样本(stratifiedrandomsample)。,二、作用,由于每层都进行抽样,这就可使样本在总体中分布更加均匀,从而具有更好的代表性。由于抽样在每一层中独立进行,所以一者允许各层选择不同的适合本层的抽样方法,二则可同时对各子总体(层)进行参数估计,而不单是对整个总体的参数进行估计。由于各层的总体方差因单元之间差异小而肯定小于整个总体的方差,而抽样精度与此成正比,所以分层抽样可以提高参数估计的精度。,三、符号,所有总体参数的估计量都采用下标“st”以示区别:,第二节简单估计量及其性质,一、对总体均值的估计分层样本,总体均值的估计分层随机样本,总体均值的简单估计,估计量的性质,性质1高管层人员总数N2=84名,该类职员进入公司时工资总额为X2=2541660元。经过分层随机抽样调查所得的数据如表35所示。请对上述数据分别按照分别比估计、联合比估计、分别回归估计、联合回归估计以及差估计方法对该公司当前职员工资总额Y做出估计,同时计算出各个估计量的精度。,五种估计方法结果比较,注意:此时的比估计和回归估计(回归系数采用样本回归系数进行估计)均为有偏估计,并且考虑到各层的样本量都不大,回归估计的偏倚有可能更大,所以此时采用比估计,特别是联合比估计会更保险。而差估计虽然标准差相对较大,但它却是无偏的,均方误差并不一定大,所以仍然有采用的价值。,3.4.4比率估计与回归估计小结,在分层随机抽样中,当辅助变量可加以利用时,为了提高估计量的精度,可以采用分别比估计、联合比估计、分别回归估计以及联合回归估计等估计方法。在比估计中,当各层样本量都较大时,分别比估计与联合比估计近似无偏;当某些层的样本量不够大,而总样本量较大时,联合比估计近似无偏。在回归估计中,少数情况下,回归系数可以是事先设定的常数,其估计量无偏;多数情况下,回归系数需利用样本回归系数进行估计,其估计有偏,但在大样本的情况下近似无偏。当Y与X高度相关时,分别比估计、联合比估计、分别回归估计以及联合回归估计等估计等产生的估计量都是有效的。,选择估计方法,大致需遵循的原则,在选择估计方法时,大致需遵循下面的原则:(1)由于分别估计(无论是分别比估计还是分别回归估计)要求各层的样本量都比较大,所以当某些层的样本量不够大时,建议采用联合估计(2)当回归系数需要由样本进行估计时,回归估计量是有偏的。在这种情况下,采取比估计尤其是联合比估计也许更保险(3)如果各层的样本量都比较大,同时每层的比估计或回归估计也比较有效(即h均比较大),而且各层的Rh之间(或h之间)差异较大,则此时分别估计优于联合估计,估计量的方差更小,(4)如果各层的样本量不大,而且各层的Rh之间(或h之间)差异较小,则采用联合估计较为适宜(5)如果各层的Rh之间(或h之间)差别不是太大,而且并不是每层的样本量都相当大,则联合估计可能更保险一些如果各层的回归系数都接近于1,则可以采用差估计。虽然有时差估计量的方差偏大,但由于它为无偏估计量,所以总的均方误差不一定大,第五节各层样本量的分配,确定样本量:总的样本量,各层样本量估计量的方差不仅与各层的方差有关,还和各层所分配的样本量有关。,实际工作中有不同的分配方法,可以按各层单元数占总体单元数的比例分配,也可以采用使估计量总方差达到最小、费用最小。,一、比例分配,按各层单元数占总体单元数的比例,也就是按各层的层权进行分配.对于分层随机抽样,这时总体均值的估计是,自加权,总体中的任一个单元,不管它在哪一个层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。,总体比例的估计是,二、最优分配,(一)最优分配在分层随机抽样中,如何将样本量分配到各层,使得总费用给定的条件下,估计量的方差达到最小,或给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。,定理3.7的证明,对所有层成立时,达到极小,常数,简单线性费用函数,总费用由此得出下面的行为准则,如果某一层单元数较多内部差异较大费用比较省则对这一层的样本量要多分配一些。,三Neyman(内曼)最优分配,如果每层抽样的费用相同,最优分配可简化为这种分配称为Neyman分配。这时,达到最小。,例3.4,某市有甲、乙两个地区,现要进行家庭收入的调查。令n=500,已知甲地区共有20000户居民,乙地区共有50000户居民;甲地居民和乙地居民年收入标准差估计分别为S1=2500,S2=2000;同时对甲地和乙地每户的平均抽样费用之比为23,请分别计算出在甲地和乙地进行比例分配、一般最优分配(考虑费用因素)以及内曼分配(不考虑费用因素)的样本量。,四、某些层要求大于100%抽样时的修正,按最优分配时,有时抽样比f较大,某个层的又比较大,则可能出现按最优分配计算的这个层的样本量超过的情况。实际工作中,如果第k层出现这种情况,最优分配是对这个层进行100%的抽样,即取,然后,将剩下的样本量按最优分配分到各层。,五、偏离最优分配时对精度的影响,例3.6,第六节总样本量的确定,令当方差给定时,当按比例分配时,实际工作中,n的计算可以分为两步,先计算:然后进行修正:,当按Neyman分配时,,2、精度要求是以的绝对误差限d(在给定的置信水平1-下)的形式给出的,3.精度要求以的相对误差限r(在给定的置信水平1-下)的形式给出,例3.7,二、总费用给定时总样本量的确定,给定V时,给定C时,第七节分层抽样的其他方面,一、多重分层定义当调查指标与两个或多个辅助变量x1,x2,都存在相关关系时,为了提高分层的效益,需要按每一个辅助变量进行分层,通常的做法是先按最主要的变量分成大层,在大层中再按第二主要变量分成子层,从而形成交叉分层。当存在多个分层变量时,这种分层方式即称为多重分层(multiplestratification)。,对于多重分层,当“子层”划分好以后,就要考虑样本量在各子层的分配问题。最简单常用的样本量分配方法是按照与每一子层大小成比例的原则进行分配。在多重分层中,有时会出现这样一个问题:当总样本量n相对于子层总数RC不够大时,会出现某些子层分配不到样本的情况。若nmax(R,C),则此时应当考虑重新确定分层变量或者不采用分层抽样,否则这种分层的效益是很难保证的。若nRC,同时还满足nmax(R,C),就可以考虑用试验设计的思想来进行样本量的分配。,二、事后分层,实际工作中,有时进行事先分层会存在一定的困难各层的抽样框无法得到几个变量都适合于分层,要进行事先的交叉分层比较困难,并且我们并不需要交叉分层后每个子层的估计一个单位到底属于哪一层要等到样本数据收集到以后才知道总体规模N太大,事先分层太费事等,事后分层技术要求层权Wh已知或者可以通过某种途径获得,当层权Wh未知而需要进行估计时,应当确保层权的估计值与实际的层权相差甚小,否则将达不到提高估计量精度的目的。同时,在使用事后分层技术时还应该注意“事后层”的数目不宜太多。,事后分层的具体实施办法,简单随机样本,事后分层落到第层的样本量nh,nh固定并都大于0的条件下,n足够大时,为无偏估计,第一项就是按比例分配分层抽样估计量的方差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论