基于双重抽样框的抽样估计方法研究.ppt_第1页
基于双重抽样框的抽样估计方法研究.ppt_第2页
基于双重抽样框的抽样估计方法研究.ppt_第3页
基于双重抽样框的抽样估计方法研究.ppt_第4页
基于双重抽样框的抽样估计方法研究.ppt_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于双重抽样框的抽样估计方法研究,内容摘要,随着经济社会的快速发展,抽样调查中调查对象的流动也日益频繁,传统的单一抽样框很难完整覆盖流动性的目标总体,如果一定要使单一抽样框实现完整覆盖,成本必定是高昂的,甚至由于编制过程漫长使抽样调查失去其时效性。有时采用两个不完整抽样框的组合可以实现对目标总体的完整覆盖。基于双重抽样框进行抽样调查,由于样本在两个抽样框中存在交叉,致使抽样估计甚是困难。基于此,本文将系统评述目前国外已有的各种双重抽样框估计方法,将这些方法分为分离抽样框估计和组合抽样框估计两类,并按照统一的模式比较各估计方法的功效,文章最后对我国采用双重抽样框调查进行展望。,讲稿目录,一、提出

2、问题 二、双重抽样框估计方法评述 三、估计方法的分类 四、估计方法的功效比较 五、对我国采用双重抽样框调查的展望,一、提出问题,1、传统的抽样调查理论,一般只基于单个抽样框进行抽样设计和估计量设计。如果基于单一的不完善抽样框进行抽样,依据所获样本数据对总体进行推断的效果将受到一定影响,势必产生抽样框偏差。 2、在抽样实践中,由于调查对象流动逐渐频繁,建设一个唯一的,完善的,能实时更新的抽样框(例如,调查单位名录)是十分困难的。有时,即便建成,也将可能付出巨大的成本,甚至花费漫长的时间,这显然不能发挥抽样调查节约调查成本、节省调查时间的优点。 3、随着调查手段的不断发展,很多较先进的调查方式逐渐

3、应用开来,例如,电话访问,网络调查等。采用这些先进的调查手段搜集数据可以更快速、更节省地获得统计数据,但是往往没有完全覆盖的抽样框,例如电话调查只能适用于拥有电话的被调查者,对于没有电话的被调查单位则无法实现连接,这使得我们仅依靠单一抽样框不能满足对总体的科学推断。,若在一项抽样调查中,采用两个抽样框,可以实现对目标总体的完整覆盖,并且从每个抽样框中抽取样本是彼此独立的,就称为双重抽样框调查。利用双重抽样框进行抽样,可以解决单一样框覆盖不全的缺陷,从而节省抽样框编制成本,提高抽样调查效率。 对于双重抽样框调查的抽样设计可以在每个抽样框中独立实施,各抽样模式之间既可相同也可各异。因此,双重框的抽

4、样设计本质就是对两个单一抽样框进行抽样设计。 一般情况下双重抽样框会出现总体单元的重叠现象。因此,在双重抽样框下的抽样估计问题较单一抽样框的情况要复杂很多。,国外学者Hartley(1962)最先对双重抽样框估计方法进行理论研究,提出了H估计量。随后,Lund(1968)对H估计量进行了改进,提出了方差更小的L估计量。Fuller and Burmeister(1972)在H估计量基础上,将双重框中重叠区域的总体规模信息引入估计量中,提出了有效性更好的F-B估计量。Bankier(1986),Kalton and Anderson(1986),Skinner(1991) 等人将双重框组合看成一

5、个单一抽样框,通过调整不同区域的权重系数来实现对总体信息的推断,分别提出了SF估计量。Skinner and Rao (1996) 为了解决估计量在复杂抽样设计下的不相合性,利用伪极大似然思想对原有估计量进行修正,导出了伪极大似然估计量。 国内对于双重抽样框调查的理论研究和实际应用并不多见。仅有少数几位学者对此进行了讨论。其中,金勇进教授(1996)对双重抽样框的概念进行了首次介绍;雷钦礼教授(2000)介绍了双重抽样框的抽样方法及筛选估计量的形式。,二、双重抽样框估计方法评述,图1 双重抽样框的一般结构,易知目标总体的变量总值可表示为:,(一)Hartley估计量 在双重抽样框估计理论领域,

6、Hartley有很大的贡献,做了不少开创性工作。最早提出了双重抽样框的总体总值估计量,即Hartley估计量(简称:H估计量)。其具体表达式为: 式中 是域a的总体总值估计量, 是域ab中来自A抽样框的总体总值估计量,同理可知 与 , 为权重系数,取值范围为:,由于从两个抽样框选取样本是相互独立的,所以来自A抽样框的统计量与来自B抽样框的统计量之间的协方差为0,即:,因此, H估计量的方差可表示为:,为了使估计量的方差取到最小值,权重的最优取值为:,点评:H估计量是最早提出的双重抽样框估计方法,为之后的估计方法铺垫了基石。但是,H估计量中的权重系数往往是未知,需要利用样本的信息对其进行估计,并

7、且要求所构造的估计量能够使H估计量的方差达到最小状态。从最优权重公式中可以看出,其数值取决于变量估计值之间的协方差。因此,H估计量的最终结果可能受到不同研究变量的影响,不同的研究变量,所得到的估计量各异。此外,H估计量还假定各域的总体规模已知。然而,在抽样实践中,我们往往很难准确获知各域的总体规模。,(二)Fuller Burmeister估计量,其中:,点评: F-B估计量是对H估计量的一种改进,将域总体规模信息视为未知,利用样本资料得到抽样框之间重叠区域的域总体规模估计值,并将该估计值添加到已有的H估计量中。显然,这一做法可以很好地解决重叠域总体规模信息难以获知的问题。 但是估计量中的权重

8、系数往往也是未知,就如同H估计量一样,需要利用其估计值对其进行替换。可知为了使能够令F-B估计量的方差达到最小,估计值计算公式中包含有变量估计量的协方差。因此,其结果取决于研究变量,不同的研究变量将可以得到不同的估计值,进而得到不一致的F-B估计量。,(三)伪极大似然(Pseudo-maximum likelihood)估计量 :,其中:,点评:PML估计量利用伪极大似然思想,对简单随机抽样设计下的改进F-B估计量进行拓展。使拓展后的估计量适用于复杂抽样设计的情形,并且满足一致性目标。可见,PML估计量在H估计量与F-B估计量基础上进了一大步。 但是,PML估计量中的权重系数不依赖于任何研究变

9、量,只与域规模的样本信息及抽样框规模的总体信息有关。因此,对于研究变量来说,未能利用足够多的辅助信息,可能导致有效性不足。,(四)单重框(Single Frame)估计量 :,其中:,点评:SF估计量从事后调整的角度进行估计量构造,不需要对抽样总体依据总体单元的抽样框归属进行分离,而是将多重抽样框组合看成一个不规范的抽样框(这里主要是存在重复单元的抽样框),在抽样估计中,通过权重系数调整,得到合理的估计量。 但是,权重系数的如何调整是这一方法的关键。如果每个单元都是自加权的,SF估计量就比较容易计算,在实际中有优越的可操作性,但自加权无法使估计量方差达到最小,也就是满足了易计算,便操作,但同时

10、浪费了精度。反之,如果每个单元不是自加权,SF估计量要求知道每个调查单元在任何抽样框中的权重(或者是包含概率),但在实际中,很难精确获取所有的权重系数。,三、估计方法的分类,(一)分离抽样框估计量 分离抽样框估计是一种比较传统的双重抽样框估计思路,即指在双重抽样框的抽样估计中,对抽样总体实施域分离,将抽样总体按照总体单元不同的抽样框归属情况分割成互不重叠的域,然后对各域分别进行估计,将得到的域估计信息汇总后才得到样本对总体的估计量。在图1中,按照总体单元归属不同抽样框情况,可以分割为4个域,即只属于一个抽样框的域和域,同时属于两个抽样框的域要看成是两个域的叠加,即来自抽样框的域和来自抽样框的域

11、。实际中这种分离只在估计量计算时考虑,而没有真正分割,因此,也可以认为是一种虚拟分离,分离的目的是为了依据不同的抽样框对各单位的抽样权重进行独立调整,得到最终的估计量。 H估计量与FB估计量均属于这样一种类型,在估计量中抽样权重根据每个抽样框的辅助信息独自调整。分离抽样框估计方法的优点是具有很强的灵活性,不必要求包含辅助信息的真实分离步骤,分离只是一种虚拟操作。且较容易适应多重抽样框的情况。,(二)组合抽样框估计量 组合抽样框估计量与分离抽样框估计量截然相反,无需对抽样总体按各单元的抽样框归属情况实施域分离,而是将抽样框组合起来进行抽样估计。它的核心思想是将两个抽样框看成是一个不完善的单一抽样

12、框(含有重叠部分),按照每个总体单元的入样概率调整其在推断总体中的权重,对于重叠部分的总体单元修正其入样概率以求得到对总体的合理估计。 在组合抽样框方法中,组合抽样权重可以调整为单重框的模式。SF估计量显然属于这种类型,PML估计量对于交叉区域并未进行分离,也可以看成是组合估计量。此外,当抽样设计为严格的简单随机抽样时改进的FB估计量与改进的H估计量(Lund所提出)也属于这种类型。组合抽样框估计量的弱点就是要事先知道重叠部分在两个抽样框中的包含概率,这在调查之前是不易获得。,其中 为权重系数向量, 为抽样框间的估计值差的向量, 其数值与权重系数无关。,四、估计方法的功效比较,统一化的估计公式

13、:,,,H估计量转换为:,同理,FB估计量可转换为:,另外两个估计量也可以转化为这一形式。,统一的渐近方差计算公式:,其中:,计算:,因为:,其中: 为正定阵。,因此,所有估计量中,FB估计量的渐近方差最小,功效最高。,结论:,五、对我国采用双重抽样框调查的展望,一方面,综合利用各类行政记录资料,可以建立多个名录抽样框。 在抽样调查实践中,可能存在多个可以利用的名录框。由于经济管理工作的需要,我国很多行政职能部门建立了自己独立的基本单位信息库,并以行政纪录的形式保存有关自然人或其他社会实体的相关信息。例如:工商管理部门的企业法人设立、变更和注销登记及个体企业(工商户)登记;民政部门的事业法人设

14、立、变更和注销登记;税务部门的纳税单位税务登记;劳动社会保障部门的社会保险登记和就业失业登记;公安部门的户籍登记等。但这些职能部门各自为政,信息资料相互间缺少共享,所建立的基本单位信息库一般仅限于内部使用。由于各部门对单位的认定标准不一,整合这些行政记录形成一个较完善的名录框难度较大。为了使抽样总体能够更大范围地覆盖目标总体,提高抽样调查的效率,可以考虑对各部门行政记录进行综合利用,建立多个名录抽样框。在抽样实践中,可以采用两个较大的抽样框,形成双重抽样框得以覆盖全部目标总体。,另一方面,全国范围内的区域框建设已经成为可能。 在国际上,往往是农业调查中采用名录框与区域框结合的双重抽样框体系。近年来,我国的航天技术已经取得了很大的发展,各类卫星

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论