第六章 二重抽样(抽样调查理论与方法_第1页
第六章 二重抽样(抽样调查理论与方法_第2页
第六章 二重抽样(抽样调查理论与方法_第3页
第六章 二重抽样(抽样调查理论与方法_第4页
第六章 二重抽样(抽样调查理论与方法_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,我们知道在进行抽样设计时,往往要求先掌握关于总体的一些知识。比如分层抽样时,必须知道各层的权重。又如进行比估计和回归估计时,必须事先知道辅助变量的总体总和或者均值。有时候,我们对这些知识一无所知,似乎不能利用一些好的抽样方法。其实不然,只要获取那些知识的代价并不算大,我们就可以先进行一次抽样,获得辅助信息的知识,然后再进行第二次抽样。第二次抽样就可以使用分层抽样或者比估计等方法了。这就是二重抽样。,第六章二重抽样,1二重抽样简述,很多情况就是如此,第一次抽样的实施是非常方便的。例如,进行上海市大学毕业生就业意愿调查时,试图将大学生按生源地分成本市和外地两层,但没有掌握来自本市或者外地学生的比例。这时,可以先进行一次抽样调查,而这次调查并不需要找学生本人,只要对各校学生花名册抽样即可,.,二重抽样也称为二相抽样。这种抽样的主要特点是先后进行二次抽样,每次抽取一个样本。实际进行时,两次抽样也可以是同时进行的,只是对样本中大多数个体或者单元仅调查一些简单的辅助信息,进行详细调查的只是这些样本中的一部分。,第一步抽样通常是从总体中抽取一个比较大的样本,称为第一重样本。对第一重样本的调查主要是获取有关总体的某些辅助信息,为下一步的第二重抽样估计提供条件。第二重抽样抽取的样本相对较小,对它的调查才是主要调查。通常这个第二重样本是从第一重样本中抽取的,也就是第一重样本的一个子样本,当然,它也可以从总体中独立抽取。本章中除第五节外,我们都限定第二重样本是从第一重样本中随机抽取的,并且进一步假定第一重抽样是简单随机抽样。,.,二重抽样的用途很多,以下对几个方面进行叙述。,当为了提高抽样效率,打算使用某些抽样或者估计方法,但又不知道某些必要的辅助信息时,二重抽样可以发挥很大作用。分层抽样需要事先将总体单元分成层,进行估计时需要知道层权,在构造比估计或回归估计时要求知道辅助变量的总体总和或均值。在缺少这种辅助信息的情况下,就可以使用二重抽样先抽一个大样本以获取这些信息,然后再对较小的第二重样本进行实际调查并利用第一重样本中所得信息改善估计量的精度。这里有一个费用问题,一般情况下,第一重抽样的费用应该是非常低廉的,由此而增加的费用可以通过提高估计量的精度而得到益处进行补偿,否则采用二重抽样就不值得了。,有时候,调查的总体只是一个大总体中的小总体,但我们对这个小总体却知之甚少,甚至连小总体的单元数都不知道。在这种情况下,就可以使用二重抽样,从总体单元中筛选主调查的对象。,.,例如,调查的总体是老年痴呆症患者的全体,它仅是老年人口中的一部分,一开始我们并不知道如何把这个总体从老年人口中区分出来进行调查。我们只能从老年人口中抽取一个样本,然后对这个样本中的老年痴呆症患者再进行抽样调查。又如,在一项办公自动化设备使用情况的调查中,要求调查单位的微机、复印机、传真机等办公设备的使用情况,但我们事先也不能确定哪家单位一定有这些设备。碰到类似这种情况,就可以使用二重抽样,先从总体中抽出一个大的样本来,进行相对比较简单的调查测试,筛选出满足条件的对象,从中再抽样进行主调查。,在大多数抽样调查中,调查的总体指标往往不是一个而是多个。不同的指标往往有不同的精度要求,调查的难易程度也不一样,它们并不需要相同的样本量。为了节约调查费用,对那些个体指标差异大的、精度要求高的指标,调查一个较大样本;而对指标值差异小或者估计精度要求较低的指标,可以仅调查一个较小的样本。,.,例如,在住户家庭开支调查中,对高档耐用消费品、旅游及婚丧嫁娶一类开支的调查就需要有较大的样本量,而对家庭日用品、粮食、油盐酱醋一类开支则仅需要较小的样本量。对这类调查若采用二重抽样既能保证精度,又节约了调查费用。,在一些连续定期进行的抽样调查中,同一单元不同时间的指标值往往存在着相关关系,利用这种相关关系采用回归估计可以提高精度。因此,在很多实际的抽样调查中,在后一次调查的样本中大部分单元是前一次调查样本的单元。如此处理,不仅可以提高精度,而且还可以节约费用,为调查工作带来很多方便。但是,样本又不能一直不变,因为长期使用同样的单元调查对象会产生厌倦情绪,或者样本的代表性发生问题,从而影响调查质量。为降低这种样本老化所带来的负面影响,通常采用样本轮换方法。二重抽样可以用来研究样本轮换中的某些问题。,.,2二重分层抽样,进行分层抽样时,必须首先按照某种方式把总体所有单元分成若干层,已知每一层的层权(该层单元占总体的比例)然后在各层中独立地进行抽样。如果对总体分层的情况不甚了解,但如果知道层权,也还可以使用事后分层技术。如果连层权都不知道,那么二重分层抽样或许是解决问题的一个好办法。所谓二重分层抽样就是说先对总体按简单随机方式进行第一重抽样,抽得一个大样本,把这个大样本看作是一个总体(子总体),对其进行分层,对这个子总体进行分层抽样。,二重分层抽样具体步骤如下:先从总体中抽出一个大样本,记作,按照某种标志,把它分成L层这种标志是易于观察的。第h层的第j个指标值记为,是这个大样本中第h层的单元数,有,(6.1),.,并且可以得到大样本中各层的层权:,根据第三章第四节百分数的估计,我们知道是总体层权的一个无偏估计。,(6.2),此时,我们仅是对大样本的很容易进行的分层标志或者某些辅助信息进行了观察,而对指标值的主调查并未进行。由于经费或者其它条件的限制,不能对大样本中的每一个指标值进行观察,而是把大样本作为总体看待,对它进行分层抽样。记抽得的样本为:,是从第h层中按简单随机抽样所得样本的第j个单元的指标值。,.,考虑对总体平均数的估计,记第一重样本的平均值为:,由第四章第一节的知识得知,下述从第二重样本中所得的估计量:,是第一重样本平均值的无偏估计,这里,是第h层的平均值。,(6.3),(6.4),.,由第三章第二节的知识得知,又是总体平均数的无偏估计。因此,也是的无偏估计。,二重分层抽样的总体平均数的估计量与分层抽样的估计量形式上基本一致。只是来自于对第一重样本的分层抽样,仅是总体层权的估计。因此,它的估计精度要比差一些。对的方差有下面近似的无偏估计量,要求。当两重抽样比都可忽略时有,(6.5),(6.6),.,例6.1某城市欲调查该市个体商业户全年的销售总额。已知该城市注册登记的个体商业户有8000户,由于他们之间经营规模大小差别较大,拟采用分层抽样,但又缺乏现成的分层资料,故采用了二重分层抽样方法。第一重样本量根据其自报的销售额可分为四层:第一层为3万元以下;第二层为310万元;第三层为1020万元;第四层为20万元以上然后在第一重样本分层的基础上,在各层中分别抽取第二重样本。,对这200户个体商业户作了详细的调查核实,取得有关数据整理成表61。试估计该城市全年个体商业户的销售总额及其抽样标准误差,.,.,二重比估计与二重回归估计的思想与二重分层估计的思想相类似。比估计与回归估计需要事先知道辅助变量X的平均数或总和。如果事先并不掌握辅助变量的平均数或者总和的信息,但辅助变量的观察要比调查的指标Y容易得多,那么就可以使用二重比估计或者二重回归估计。第一重抽样只观察辅助变量的值,获得均值或者总和的估计,然后在第二重抽样时应用比估计或者回归估计。为简单起见,本节仅讨论对总体平均数的估计。,3二重抽样的比估计与回归估计,1、二重比估计方法,由于涉及到两个指标,一个是主调查指标Y,另一个是辅助变量X,用数据对表示一个单元。先从总体中抽取一个大样本,记作:,.,是样本容量,仅对辅助变量X进行观察,计算样本均值,它是总体辅助变量平均数的无偏估计。,把该样本作为总体进行第二重简单随机抽样,样本容量,得样本:,第一个下标表示第二重抽样。分别计算辅助变量与主调查指标的样本均值,构造总体主调查指标平均数的比估计量:,(6.7),.,这里用记号表示,根据第五章第一节的讨论,我们知道当n足够大时,近似地等于,即是的渐近无偏估计。因此,而由第三章可知,是总体平均数的无偏估计。故,是总体平均数的渐近无偏估计。,二重比估计的方差的估计为:,(6.8),(6.9),(6.10),.,这里,和分别为第二重样本关于主调查指标、辅助变量的方差以及它们的协方差,即,(6.11),例6.2某县共有200个村,现要估计去年全县平均每村交售肉猪的头数。已知肉猪的交售头数与生猪年终存栏数之间有较高的相关性,而存栏头数的资料容易取得。采用二重比估计的方法,先抽取80个村作为第一重样本,得年终平均每村的生猪存栏数为1080头。然后在这80个村中又选了13个村作为第二重样本,分别统计了年终的存栏数和交售头数,资料见下表。,.,试估计该县去年全年平均每村交售肉猪的头数,并计算其标准差。,.,解:根据表中数据计算可得,而,于是计算可得每村平均交售肉猪头数的估计为,(头),.,二重比估计的方差的估计为:,于是交售头数平均数估计的标准差为(头),2、二重回归估计方法,沿用前一小节的符号,仅讨论为样本回归系数的情形。利用第二重样本估计回归系数,即,.,对总体平均数的二重抽样的回归估计量为:,(6.12),为第一重样本辅助变量的平均值,与分别是第二重样本辅助变量与主调查指标的平均值。,是总体平均数的渐近无偏估计,其方差的估计为:,(6.13),.,r是辅助变量X与主调查指标Y之间的相关系数的估计,即,(6.14),例6.3在前例中,改用二重回归估计来估计该县去年全年每村肉猪平均交售头数,并计算估计的标准差。,解:根据前例数据计算可得,.,(头),于是该县去年全年每村肉猪平均交售头数的二重回归估计,.,方差的估计为:,.,4二重抽样样本量的最优分配,在二重抽样中,先后必须进行两次抽样。第一重抽样抽取个单元,调查一些辅助信息,通常要容易一些,每个单元花费较少,因此往往比第二重样本容量n大得多。越大,观察辅助信息的单元越多,掌握辅助信息的可靠程度也就越高,对于改善第二重样本估计量的性质有很大帮助。但是,如果第一重抽样占用了较多的调查费用,可用于第二重抽样的费用少了,第二重样本容量n不能够适当的大,没有足够的费用调查足够多的单元,反过来也会影响主调查估计量的精确程度。因此,对于二重抽样来讲,有一个在两重抽样之间如何分配调查费用的问题。即如何确定与n,使在总调查费用固定时,估计量的方差最小,或在估计量的方差限定时,总费用最小。,.,1、二重分层样本量的最优分配,在二重分层抽样中,表示第一重样本容量,n表示第二重样本容量。先考虑在总费用固定的情况下,如何分配及n使得总体平均值的估计量方差最小。,定义费用函数为:,其中为第一重抽样每个单元的平均调查费用,而是第二重抽样中h层的每个单元的平均调查费用。,由于是随机的,即也是随机的,考虑总调查费用的期望值。,.,为总体的层权,所以总费用期望值为,而总费用期望值是固定的,所以,而总体平均数的二重分层估计的方差为:,(6.17),.,使得V达到最小的各层抽样比为:,代入(6.17)式,可解得。由,在第一层抽样后即可得以及。,(6.20),2、二重比估计与回归估计时样本的最优分配,对于二重比估计,总体平均数估计量的方差为:,设r是第二重样本容量n与第一重样本容量之间的比例,即,称r为抽样比。费用函数为:,(6.21),.,无论是总费用固定求方差最小,还是方差限定求总费用最小最佳抽样比都为:,(6.23),(6.22),如果总费用固定,代(6.23)式入(6.21)式;如果方差限定,则代(6.23)式入(6.22)式,都可以解得最优样本量分配以及n。,对于二重回归估计,总体

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论