




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章二阶与多阶抽样,二阶抽样与分层抽样、整群抽样的一个共同特点是:将总体分为若干个群;所不同的是:分层抽样是每个群内都进行抽样,整群抽样是抽若干个群再在群内普查,而二阶抽样则是抽若干个群再在群内抽样。因此,可将分层抽样与整群抽样看作是二阶抽样的特殊情况。,在整群抽样中,如果抽中的群内所含的次级单元个数相当地多,此时对该群作普查会感到“心有余而力不足”。特别当群内的次级单元差异不大,即比较大,这种情形下对群内所有的次级单元一一访问似乎完全没有必要,一个省时省钱又省力的念头会在调查者的头脑中油然而生,何不在抽到的群内再作一定方式的抽样呢?这种在选中的初级单元中再进行抽样的方法称为二阶抽样。倘若在抽取的次级单元中又包含许多更次一级的单元,在这些单元中继续抽样就自然地称为三阶抽样。,二阶与多阶抽样的优点:,1、它具有实施上的方便,比如在编制抽样框时那些没有被抽到的群或次一级群内的单元就没有必要也去编制抽样框。仅需对那些已抽中的单元才去准备下一级单元的抽样框,而且许多抽样调查常常采用行政系统及隶属单元,这给多阶抽样本身创造了有利的条件。,另外,多阶抽样方法可以用到关于散料的抽样。所谓散料是指连续松散的不易区分为个体或抽样单元的材料。例如,煤、粮食、水泥、化肥等原料的质量检测,此时抽样单元常常需要人为划分,一般取自然单位,诸如一公斤、一杯子等;而初级单元则为包装袋、一卡车、一个车皮等。这种数量众多的散料的质量检测采用二阶或多阶抽样也许是最有效的手段。为方便,本章主要讨论二阶抽样。,2、能够满足各级政府部门对抽样调查资料的需求。因为各级政府领导都关心全国和本地区、本部门的社会经济发展状况,希望抽样调查能同时满足全国性和地方性的需要。因而采用二阶或多阶抽样,在一定程度上能够满足各级政府、部门对调查资料的需求。,3、有利于减少抽样误差、提高抽样估计精度。这种抽样调查方法,可以使每个一阶样本单位分布比较均匀,具有很好的代表性;对于方差大的阶段多抽些样本单位以提高精度。,先作一些基本假设:,(1)初级单元中包含的次级单元个数同为M,因此在抽中的初级单元中再抽取的次级单元个数也相等,记为m。,1初级单元大小相等的二阶抽样,(2)两个阶段的抽样方法都是简单随机抽样。,(3)在抽中的若干初级单元中作第二阶抽样是相互独立进行的。,再引进一些必要的记号:,表示第初级单元中第个次级单元,表示样本中第初级单元中第个次级单元的观测值,第初级单元总和,第初级单元平均值,总体平均值,初级单元(群)内的方差,总体中初级单元(群)间方差,将改为,N改为n,M改为m,则为相应的样本指标值,第i群内次级单元间的方差记为:,显然有所有的平均数。,1、估计量及其方差,总体平均数的估计是用样本平均数进行估计的,容易证明,这个估计量是的无偏估计。,其方差为:,(9.1),其中,,总体总数的估计为:,方差的无偏估计为:,总体平均数95的置信区间为,总体总数95的置信区间为,例9.1:新华书店某柜台上月共用去发票70本,每本100张,现随机从中抽出10本,每本随机抽出15张发票,得到数据如下表:给出上月柜台营业总额的估计及其方差。,解:,N=70,n=10,M=100,m=15,故上月柜台营业总额的估计为157108.00元,标准差为元,营业总额95的置信区间为,2、最优抽样比,如果初级单元(或群)之间的旅行费用不占重要地位的话,常采用简单线性费用函数:,二阶抽样存在两次概率抽样,因而存在两个抽样比因此我们面临的问题是:(1)在总费用给定的条件下,如何确定与而使的方差达到最小;(2)在给定估计量的精度条件下,如何确定与以使总费用最小。,其中是基本费用,是每调查一个初级单元与次级单元所花费的费用。,(9.3),将方差表达成:,(9.4),于是,在固定C下极小化或在固定下极小化C均等价于使下式极小化:,其中:。但这里要求。,假如,表明群内差异明显地大于群间的差异,因此对于抽到的群来说,最好作全面调查才能保证样本的代表性,此时总使mM。,现考虑,(9.5),在(9.5)式中,由于都是常数,为使(9.5)达到最小,只要,(9.6),达到最小,这两个加项的乘积恰好为常数,因此只要这两项相等就可使Q达到最小,此时应取,一般地,不是整数,记为的最小整数部分,那么(为的小数部分,且)。,如果,则取,如果,则取,易见,对于的小数部分大于或等于0.5的情况,我们总取,这符合通常的“五入”规则,是否“四舍”?当时,就要看的最小整数部分的大小了。,由m的选取,代入(9.3)或(9.4)立即可以得到n的数值。,3、分层二阶抽样,所谓分层二阶抽样就是将总体分为k个层,在每层内进行二阶抽样。比如,一所大学有8个系,每个系有若干个班级,每班大约人数为40人,为了解学生的情况需要作一次抽样调查,在每个系都随机抽几个班,再在抽中的班级里抽取若干人的简单随机抽样,这就构成二阶分层抽样。,本节讨论的二阶分层抽样,假设在同一层内初级单元大小相等,但不同层可以不相等。设第h层含个初级单元,每个初级单元包含个次级单元,于是总体中共含有个次级单元。又假设在第h层按照简单随机抽样方法抽取个初级单元,在每个被抽中的初级单元中再抽取容量为的简单随机抽样。,设第h层中样本的(二阶抽样)平均数为,因此按照分层估计的技巧,总体的(按次级单元)平均数的分层二阶估计量为:,(9.8),其中为第h层(按次级单元)的层权:,(9.9),由于各层的抽样相互独立,而由二阶抽样的有关讨论,的方差及其方差估计是已知的,因此:,(9.11),(9.12),其中分别为第h层中的两个抽样比。,和是第h层中的群间和群内方差,与是第h层中样本的群间和群内方差。,显然,总体总和的分层二阶抽样估计为:,(9.13),其方差及其方差估计为:,在分层二阶抽样中当然也存在最优抽样比的问题,不过此时假定费用函数一般应当与“层”有关系:,(9.14),固定费用C而使方差达到最小或方差有一定精度要求下使费用达到最小,此时的最优选择为:,(9.15),其中总假设对所有的h,都有。,2初级单元大小不等的二阶抽样,在实践中,除少数情况外,初级单元的大小不一定相等当然理想一些的情况,我们在分群时就注意到先将单元按照大小分层,使得同一层中初级单元大小相等,然后利用上面所讲的分层二阶抽样的办法来做。只可惜在实际操作中,分层分群常常有一些“自然”形式,例如从行政系统划分等。因此,我们只能面对初级单元大小不等的情形,由于初级单元大小不一样,合理的手段是对初级单元采用不等概率抽样。,先给出一些相关的记号:,表示第初级单元中第个次级单元,第初级单元总和,第初级单元平均值,总体总和,总体平均数(按次级单元),总体平均数(按初级单元),第i初级单元内方差,1、只抽取一个初级单元情形(n=1),先考虑从N个初级单元中随机选取1个以推断总体.这种情形看起来似乎很特殊,但在生活中也不少见,例如在随机地选的一个班级中抽取几个人进行考试以测试全年级的教育质量。只选取1个单元,仍有等概率与不等概率之分.,(1)等概率抽取初级单元,考虑对总体平均数的估计.,首先使用抽中的初级单元中的样本平均数对进行估计,(9.16),对第i初级单元来讲,由盒子模型可知,是的无偏估计。由于第i个抽样单元是等概率抽取,相当于从盒子中等可能抽取一次,那么所得之数一定是这个盒子平均数的无偏估计,即,而,那么不是的无偏估计,而是有偏估计!,因此,对只能求均方误差:,作为的有偏估计,的均方误差由三部分构成:一是由偏倚引起的平方和,这就是(9.17)式右边的第一项;二是按初级单元(此时初级单元的特征指标当然只能是其平均数)而计算的总体方差,(9.17)式右边的第二项恰好体现出这一点;最后一部分是初级单元中次级单元的方差平方和,这恰好是(9.17)式右边的第三项。,从的表达式可以看出,其第一项和第二项都与的选择没有任何关系,倘若要尽力减少误差,目标自然注意到第三项,然而第三部分是无法知道且也是无法估计的,因为既然我们只选取一个初级单元,又如何能估计所有的呢?,由于是二阶抽样,也不可能取。在一般情况下,为了方便起见,常采用选取常数,不管取到哪一个初级单元,总抽预先指定好的样本容量,要不,取与成一定的比例比较合理一些。,不是的无偏估计这一缺陷是由“等可能”抽取而引起的,这时候每一个有着同等重要的地位而由于初级单元大小不同,在的构造中显然不是有着同等地位的,这个事实使我们找到了一个弥补“等可能”所引起缺陷的办法,那就是在构造估计量时考虑被抽到的初级单元的大小作为“权”:,(9.18),其中表示所有初级单元的平均大小。这个估计的意义很清楚,它的乘以成为第i个初级单元内总和的估计,再乘以N成为总体总和的估计,这个估计除以作为的估计量是合理的。,(9.19),(9.20),的方差为:,应当指出,对弥补的只是“期望”或“平均”上的偏倚,至于在精度上是否获益则很难定。例如,倘若各个初级单元的平均数比较稳定,而相距较大,引起前的系数的差异较大,这种场合下比起来变化范围显然大得多,效果就比较差。,(2)不等概率抽取初级单元,用等概率方法抽取初级单元对于大小不等的初级单元情形显然不太合理,精度较差是可想而知的。一般地,我们采用的不等概率抽取法有如下几种:,按概率抽取到第i个初级单元,此时构造的估计量为:,(9.21),(9.22),即是的无偏估计量。,(9.23),抽取概率按预先指定的一组概率来实施,构造估计量为:,(9.24),(9.25),即是的无偏估计量。,(9.26),抽取方式与相同,但构造的关于的估计量为:,(9.27),此时,每个具有权,因此,(9.28),一般地,因此是有偏估计。其均方误差为:,(9.29),Cochran构造了一个虚拟总体(N3)进行抽样以对上述五种方法进行比较:,例9.2Cochran(1977),N=3初级单元(大小不等)的虚拟总体,取,上表中最后一列的MSE是比较优劣的关键,尽管是无偏估计,但是效果最差。同样是无偏估计,的效果最好。,这两个事实也表明了“无偏性”对于估计量的误差判断并非是决定性的,有时为了使均方误差小一些,人们宁可放弃无偏性,作为有偏估计其效果几乎不亚于。注意到、三种方法都是不等概率抽样,与除了不同外其余均相同,由于与差异不大,因此的效果相对也就比较好。而对于,尽管与相同,但对其估计量“刻意”要求无偏却引起了均方误差的很不理想!,2、抽取个初级单元情形,两个以上的初级单元里进行第二阶抽样,合理的基本假定是在不同的初级单元内的抽样过程相互之间独立。为方便起见,仍像以前一样假定第二阶抽样为简单随机抽样,在这一小段讨论中,我们主要考虑总体总和的估计。,(1)初级单元按多项抽样方法抽取,显然,对第i个初级单元的总和可自然地找到无偏估计,以这些代替的话,那么整群抽样中的HansenHurwitz型估计无疑为提供了无偏估计:,(9.30),其方差为:,(9.31),其中,(2)初级单元按简单随机抽取方式抽取,由于二阶抽样都是采用简单随机抽样形式,于是可对总体总和采用一个最为简单的估计形式:,(9.32),由于与是与的无偏估计,因此也是的无偏估计。,其方差为:,(9.33),方差的无偏估计为:,(9.34),其中,这类简单估计虽然形式简单,而且结构也容易为人们接受,同时又是总体的无偏估计,但是它的效果并不理想,方差显得较大。,(3)按不放回不等概率抽取初级单元,如果抽取到的第i个初级单元的总和估计为(简单随机抽样下的无偏估计),那么由第六章第二节易知,总体总和的二阶估计可采用如下形式的HorvitzThompson估计量。,现在考虑初级单元是按不放回不等概率抽取,而第二阶抽取仍为在抽取的初级单元中实行简单随机抽样。那么在第一阶抽样中就存在包含概率。,(9.35),由于或是的无偏估计,又是的无偏估计,所以是的无偏估计。,其方差为:,(9.38),其中,方差的无偏估计为:,(9.39),其中,3三阶及多阶抽样,将有关二阶抽样的一些公式与估计推广到三阶乃至更高阶的情况是很现实的,其实基本上是依样画葫芦,只不过在符号与计算方面更为复杂些,尤其是对于各级单元大小都相等时更是如此,下面以三阶为例。,1、各级单元大小均相等时的三阶抽样,设总体中含有N个初级单元,每个初级单元包含M个次级单元,而每一个次级单元均包含K个三级单元。各阶的抽样容量分别为n、m、k,引进一些必要的记号:,表示第初级单元中第个次级单元里第个三级单元,第初级单元中第次级单元总体平均数,第初级单元中第次级单元样本平均数,第初级单元总体平均数,第初级单元样本平均数,总体平均数,样本平均数,如果三阶抽样均为简单随机抽样,则有以下结论:,即是总体平均数的无偏估计。,其中,(9.42),2、多阶抽样中不等概率抽样的应用,一般地,各级单元大小常常并不相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 代谢产物抗菌谱研究-洞察及研究
- 缓释制剂开发-第1篇-洞察及研究
- 山西省吕梁市石楼县部分学校2024-2025学年八年级下学期第一次月考生物试题(含答案)
- 部门领导安全培训课件
- 广西钦州市第四中学2025-2026学年高三上学期开学考试生物试卷(含答案)
- 2024-2025学年辽宁省朝阳一中联盟校九年级(上)期末数学试卷(部分答案不完整)
- 边防军人课件
- 安乃近滴鼻液与传统疗法比较-洞察及研究
- 车队驾驶员安全培训会议课件
- 基于区块链技术的交直流压分设备跨境认证与溯源机制创新研究
- 佛教协会会议室管理制度
- 传音控股在线测评题
- GB/T 44139.2-2024睡袋的要求第2部分:原材料性能
- JT-T-496-2018公路地下通信管道高密度聚乙烯硅芯塑料管
- 2022年中国大唐集团有限公司招聘考试试题及答案
- 危重患者的抢救制度
- GB/T 18910.41-2024液晶显示器件第4-1部分:彩色矩阵液晶显示模块基本额定值和特性
- 打扫卫生的社会实践报告
- 小学《道德与法治课程标准2022版》测试题
- 信贷审计培训课件
- 服装陈列课件
评论
0/150
提交评论