第章不等概率抽样

上传人：闯*** IP属地：广东上传时间：2020-04-05 格式：PPT 页数：96 大小：695.50KB 积分：25 举报 版权申诉

已阅读5页，还剩91页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

非概率等概率不等概每个单元入样的概率第五章不等概抽样例 O Brienetal 1995 对Philadelphia地区的病人进行抽样目的是了解病人对于医疗服务的偏好目标总体是这一区域的所有注册的医院的病人总共有294家医院 27652个床位抽样以前研究人员只知道床位数不知道病人数等概率的抽取样本医院的缺点首先可能医院中愿意接受CPR治疗的病人数量会正比于医院床位的数量采用等概简单估计量可能会有大的方差其次自加权的等概率样本可能难于管理可能仅仅为了调查一两个病人就需要去一家医院并且合理分配调查人员的工作负担也是比较困难的第三调查成本在调查开始的时候是未知的一个40家医院的样本可能包括了主要的大的医院这会导致比预计更大的成本其他办法调查人员还可以采用与医院病床数量成比例的方法抽取57个医院然后从每个样本医院中抽取30个简单随机样本床位如果病人数等于床位数并且医院实际的床位数和抽样时依据的病床数据一致每个病人是否有相同的入样概率而且成本在调查实施前是已知的因为每个访员在每个医院访问的病人数量是相同的而且总体总量的方差可能更小分层抽样抽样选择概率小的单位会有较高的权数采用不等概率抽样来减少抽样方差而不采用清晰的分层采用不同的概率来选择初级样本单元并且在估计中采用不同的权数来进行弥补抽样的关键是每个样本的选择概率是已知的 5 1不等概抽样一不等概抽样的必要性在简单随机抽样中总体或层中的每个单元入样的概率都相等如果总体中的每个单元在该总体中的地位或重要性相差不多则这种基于等概率的抽样是理所当然的选择等概率抽样不仅实施简单而且相应的数据处理公式也简单但是在许多实际问题中我们还需要使用不等概抽样 samplingwithunequalprobabilities 二不等概率抽样的适用场合一种情况是调查的总体单元与抽样总体的单元可能不一致另一种需要用到不等概抽样的情况是抽样单元在总体中所占的地位不一致最重要的一种不等概抽样乃是使每个单元入样的概率与该单元的大小成比例的抽样 samplingwithprobabilitiesproportionaltosizes 简称PPS抽样二不等概率抽样的适用场合第三种需用不等概率抽样的情况是为了改善估计量的特性每个可能的样本若被抽的概率与样本中单元的辅助变量之和成正比的话则按此进行不等概抽样所得到的样本用通常的比估计方法所得的估计量是无偏的 9 总之在实际工作中需要我们经常采用不等概率抽样另外从上面列举的情况也可看到凡需使用不等概抽样的场合必须提供总体单元的某种辅助信息例如每个单元的大小度量Mi或辅助变量Xi等 10 三不等概抽样的主要分类不等概抽样可按多种原则进行分类鉴于不等概抽样同时会带来目标量估计及其方差估计的复杂性可分为放回抽样每次在总体或层中按一定概率抽取一个单元抽取后放回总体再进行下一次抽样每次抽样都是独立的不放回抽样其代价是由于丧失了独立性无论是抽样方法还是方差估计都要比放回抽样繁复得多 11 另一种分类是视每次抽样放回抽样的情形概率或每个单元的入样概率不放回抽样的情形是否严格地与单元的大小成比例另外看样本量n是固定的还是随机的最重要的情形乃是当n固定且上述概率与单元大小严格成比例的不等概率抽样以后我们将这种情形的放回抽样称为PPS抽样称相应的不放回抽样为 PS抽样 12 对于不放回抽样按其样本单元抽取方式的不同又可分为以下几种方法 1 逐个抽取法每次从尚未入样的单元中以一定概率抽取一个单元这个概率通常与已经入样的单元有关 2 重抽法以一定概率逐个进行放回抽样若一旦抽到重复单元则放弃所有已抽到的单元而重新抽取直到抽到规定单元数且所有入样单元都不同为止 Back 13 3 系统抽取法将总体单元按某种顺序排列且将规定的单元入样或其倍数累计起来并确定抽样间隔在这个范围内产生一个随机数以确定初始入样单元然后按上述抽样间隔确定其余的样本单元 4 全样本方法对每个可能样本规定一个被抽中的概率按这个概率一次抽取整个样本 Back 四不等概抽样的特点不等概抽样的主要优点是由于使用了辅助信息提高了抽样策略的统计效率与简单随机抽样甚至与分层抽样相比能显著地减少抽样误差不等概抽样有以下的缺点 1 抽样框中的所有单元都要有高质量的能用作大小度量的辅助信息 2 抽样框的创建比简单随机抽样和系统抽样成本高更复杂因为需要度量和存储总体中每一个单元的大小 3 并非在任何情况下都能使用因为并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的度量 4 抽样及估计特别对不放回抽样相当复杂 5 当单元大小度量不准确或不稳定时不适用此时更好的办法是将单元按大小分组并使用分层抽样 5 2放回不等概抽样一多项抽样与PPS抽样 1 多项抽样这种放回的不等概率抽样为何又叫多项抽样 2 PPS抽样 19 2 PPS抽样PPS抽样是与大小或规模成比例的概率抽样是一种使用辅助信息从而使入样概率不相等的抽样技术如果总体单元的大小或规模变化很大且这些大小是已知的这样的信息就可以用在抽样中以提高统计效率如果单元大小的度量是准确的而且所研究的变量与单元的大小相关 PPS抽样能极大地提高精度但如果大小的度量不大准确最好按大小分组并使用分层抽样 20 PPS抽样的入样概率如上所述 PPS抽样时可取为第i个单元的入样概率其中是总体中所有单元的大小之和为第i个单元的大小 21 二多项抽样的实施方法如何抽取一个不等概率样本呢有三种主要方法代码法系统法及随机系统法以下的讨论以PPS抽样为例并假定单元大小皆为整数 22 1 代码法累计和法随机法或汉森赫维茨法设N不太大且为第i单元大小的度量且为整数对总体中的每个单元计算累计大小得到总体所有单元代码的累计和对总体中每个单元确定与它相对应的代码范围在1到总的累计大小范围内抽取一个随机数该随机数相应的代码范围中的单元即为入样单元重复上述步骤直到抽得n个单元为止 23 PPS抽样时单元的代码如下表 24 2 拉希里法二次抽样法代码法要将累计在N不太大时是适用的但当N很大时就很不方便此时可用Lahiri 拉希里 1951年提出的方法令每次抽取一个范围内的随机数及范围内的随机数m 若则第单元入样否则重抽此时第i个单元的入样概率与成正比从而重复这一过程直到抽够所需的个单元 2 拉希里法二次抽取法 26 3 系统PPS抽样方法对总体中的每个单元计算累计大小对总体中每个单元确定与它相对应的代码范围确定抽样间隔k 总累计大小 n 在1和k的范围内确定一个随机起点r 与代码r r k r 2k r n 1 k所在范围相对应的单元入样注意当r n 1 k超过总累计大小时应使用圆形系统抽样中的模余数法 27 4 随机系统抽样法在这种方法中名录在系统抽样前要进行随机排序如果完全按原来的排序会把一些可能的样本排除在外在上面介绍的系统抽样的例子中不可能把单元3和4同时抽入同一个样本把名录重新随机排列后会增加潜在的可能抽到的样本数量实际上这些方法都有些问题例如对系统抽样法或随机系统抽样法一个大小大于抽样间隔的单元就有重复被抽中的可能只有把这些大单元放入单独的一个层并独立地对它们进行抽样才能克服这个问题另一个问题是估计值的抽样方差估计比较困难 28 三 Hansen Hurwitz估计量及其性质对于多项抽样由于抽样是不等概率的每个样本单元的观测值就不再是平等的因此对于总体参数的估计与等概率抽样不同汉森赫维茨提出如果是按为入样概率的多项抽样抽得的样本指标值相应的为则总体总和Y的无偏估计量如下 29 且若n 1 则的无偏估计量为 30 对于PPS抽样所以有其中是第i个样本单元的观测值例如商店的年销售额而是该单元的大小例如商店的员工人数则即是第i个商店人均年销售额对n个取平均即是样本商业网点人均年销售额的平均将此数乘以即该地所有商业网点的员工总数即可获得该地商业销售总额的估计三 Hansen Hurwitz估计量及其性质 32 举例下表是某系统全部N 36个单位上一年职工人数及当年职工人数的数据以为单位大小的度量对单位进行PPS抽样 n 6 估计全系统当年职工总人数Y 并与简单随机抽样做精度比较某系统各单位上一年与当年职工人数某系统各单位上一年与当年职工人数某系统各单位上一年与当年职工人数某系统各单位上一年与当年职工人数某系统各单位上一年与当年职工人数解对单位进行PPS抽样根据公式 Y的汉森赫维茨估计的理论方差为而若对单位进行简单随机抽样同样样本量时Y的简单估计的方差可计算如下因此在此例中 PPS抽样的设计效应为可见对PPS抽样估计量的精度提高非常显著在实际中当然是未知的只有抽样才能观测到下面列出4组PPS样本分别计算Y的估计量并作方差估计 4组样本抽得的单位号码如下样本I 4 10 23 11 13 3 样本II 1 34 18 11 29 8 样本III 12 10 36 4 24 4 样本IV 14 4 18 11 34 对每个样本计算Y的估计量记为为方便起见令则计算结果列在下表中对前面表的总体进行n 6的PPS抽样的结果注意到不同样本计算的估计量的值相差不大说明它的方差并不大但方差估计量的稳定性较差表中列出的只是标准差的估计其中原因之一是样本量还不够大例1 某部门要了解所属8500家生产企业当月完成的利润该部门手头已有一份去年各企业完成产量的报告将其汇总得到所属企业去年完成的产量为3676万吨考虑到时间紧准备采用抽样调查来推算当月完成的利润根据经验企业的产量和利润相关性比较强且企业的特点是规模和管理水平差异比较大通常大企业的管理水平较高些因此采用以与去年产量成比例的PPS抽样从所属企业中抽出一个样本量为30的样本 757087 元 174118 相对误差相对误差达到20 时所需样本量有放回不等概整群抽样四按与群大小Mi成比例的PPS抽样抽取群例2 某公司分8个部门共有职工12950人各部门职工数如下按与职工数成比例的概率抽3个部门 1 随机数为2011 7972 10281 问抽中哪几个部门 2 若三个部门的职工病假天数依次为4320 4160 5790 估计该公司每个职工平均病假天数及标准差解 5 3多阶段有放回不等概抽样一对初级单元进行放回不等概率抽样时总体总和Y的估计第一阶抽样按放回不等概率抽样多项抽样抽取初级元第二阶抽样并没有作出特别的规定只要初级单元指标Yi的估计是无偏的自加权情形第一阶抽样按放回不等概率抽样抽取初级单元第二阶抽样都抽取m个自加权情形第一阶抽样按PPS抽样抽取初级单元第二阶抽样按简单随机抽样抽取次级单元都抽取m个实际工作中对于各级单元大小不相等时多阶抽样自加权通常的做法是除了最后一阶采用等概率抽样放回的或不放回的均可前几阶均采用PPS抽样并且自第二阶开始每一阶的样本量都相同即mi m kj k 则样本是自加权的其估计量的形式非常简单总体总和的估计为的方差估计为二各级单元大小不相等时多阶抽样的总样本量及最优样本量的配置二阶自加权情形第一阶抽样按PPS抽样抽取初级单元第二阶抽样按简单随机抽样抽取次级单元都抽取m个这时多阶抽样的总样本量可以这样确定 1 根据简单随机抽样时应抽样本量2 再乘以设计效应deff获得多阶抽样与简单随机抽样相比其效率比较低 deff应该大于1 实际工作中可取deff的经验数据不同项目的deff不同例某调查公司接受了一项关于全国城市成年居民人均奶制品消费支出及每天至少喝一杯鲜奶的人数的比例情况的调查确定抽样范围为全国地级及以上城市中的成年居民成年居民指年满18周岁以上的居民第一步确定抽样方法调查公司决定采用多阶抽样方法进行方案设计调查的最小单元为成年居民确定调查的各个阶为城市街道居委会居民户在居民户中利用二维随机表 Kish随机表的简化抽取成年居民第二步确定样本量及各阶样本量的配置按简单随机抽样时在95 置信度下绝对误差为5 取使方差达到最大时的消费奶制品的居民比例为50 则全国样本量应为根据以往调查的经验估计回答率b 80 因此调整样本量为多阶抽样的效率比简单随机抽样的效率低这里取设计效应deff 3 2 则在全国范围内应调查的样本居民为各阶的样本量配置为初级单元 20个城市二级单元每个样本市内抽4个街道共80个街道三级单元每个样本街道内抽2个居委会共160个居委会四级单元每个样本居委会内抽10个居民户 1600个居户在样本居民户内利用二维随机表抽1名成年居民第三步确定抽样方法第一阶在全国城市中按与人口数成比例的放回的不等概抽样即PPS抽样第二阶和第三阶分别按与人口数成比例的不等概等距抽样以第二阶为例在某个被抽中的样本城市中将其所属的街道编号搜集各街道的人口数赋予每个街道与其人口相同的代码数根据该市总人口数除以样本量4 确定抽样间距然后对代码进行随机起点的等距抽样则被抽中代码所在的街道为样本街道第四阶分别在每个样本居委会中按等距抽样抽出10个民户即根据居委会拥有的居民户数除以样本量10得到抽样距然后随机起点等距抽样在每个样本居民户中调查员按二维随机表抽取1名成年居民二维随机表的使用方法如下 1 随机号的确定应事先在随机表的第一行数字上选好一个数字并划上一个圈被圈好的这个数字就是这份问卷的随机号随机号的选择一般由小到大或循环给出可以根据便于操作又保证实现随机的原则选择确定随机号的适当方法 2 选出被访者将所有符合基本要求的家庭成员按年龄从大到小的顺序列入随机表中以事先做好的随机号为纵坐标以最小家庭成员为横坐标交叉处对应的数字即为被访者的序号例如某受访户的随机号确定为4 该户中家庭成员符合本次调查要求的共有4人将这4人的基本情况按年龄从大到小的顺序填入下面的二维随机表中序号姓名性别年龄1234567891011121肖明男531111111111112汪红女522112121212213肖晓波男233211322131234肖晓玲女2141322314324155412341235426 7 8 9 10 11 12 表中序号为4的列与年龄最小的家庭成员肖晓玲所在的第4行交叉的数字是2 因此第2号家庭成员汪红为被访者第四步推算方法记各样本城市的80位样本居民中每天至少喝一杯鲜奶的人数为ai 则各样本城市每天至少喝一杯鲜奶的人数所占比例为全国1600名居民组成的样本中每天至少喝一杯鲜奶的总人数为则成年居民每天至少喝一杯鲜奶的人数所占比例为的方差的估计为我国劳动力调查约调查60万人其中城镇40万农村20万以全国为总体各省市区独立实施抽样可采用分层两阶整群抽样分层三阶整群抽样分层四阶整群抽样 1 分层四阶整群抽样 1 对县级单元县县级市或市辖区按照人口和劳动力等特征分层在第一阶段采用PPS在每一层抽取县级单位 2 对抽中的县级单位采用PPS抽取乡级单位街道镇或乡 3 对抽中的乡级单位采用PPS抽取村级单位居委会或村委会 4 对抽中的村级单位系统抽样抽取调查小区由30个最相邻的住址组成抽中的小区调查其全部住户及家庭成员 2 分层三阶整群抽样 1 对乡级单元按照城乡及人口和劳动力等特征分层在第一阶段采用PPS在每一层抽取乡级单位 2 对抽中的乡级单位采用PPS抽取村级单位 3 对抽中的村级单位系统抽样抽取调查小区抽中的小区调查其全部住户及家庭成员 3 分层两阶整群抽样 1 对村级单元按照城乡及人口和劳动力等特征分层在第一阶段采用PPS在每一层抽取村级单位 2 对抽中的村级单位采用系统抽样抽取调查小区抽中的小区调查其全部住户及家庭成员 70 5 4不放回不等概率抽样一包含概率与 PS抽样放回不等概率抽样实施简单数据处理也不复杂在不等概率抽样中占有一定的地位但是由于放回抽样有可能重复抽到同一单元特别是个别大单元被重复抽到的可能性比较大这就在一定程度上影响了样本的代表性降低了抽样效率也不易被实际工作者所接受即使在相同样本量下放回抽样的精度比不放回抽样的差因此我们仍有必要研究不放回不等概率抽样事实上由于不放回抽样的样本不是独立的因此无论是实施还是数据处理特别是方差估计都要比放回的多项抽样复杂得多 71 在放回的不等概率抽样中每个单元的入样概率起着关键作用在不放回抽样中每个单元被包含到样本的概率也即入样概率及任意两个单元都包含到样本的概率都起着十分重要的作用它们通称为包含概率对于固定的n包含概率满足以下性质 1 2 3 其中性质1是显然的性质2是对每个已在样本中的单元而言的固定了这个特定单元总体中其它N 1个单元在样本中只可能有n 1个单元因此其中最后一个等式利用了性质1 性质3则直接利用性质2 与放回的PPS抽样类似对于不放回不等概率抽样我们最感兴趣的是与单元大小成比例的情形若仍记则由性质1有以后我们将这种不放回的与单元大小成比例的概率抽样称为 PS抽样严格的 PS抽样实施起来非常复杂事实上只有当n 2时才有一些简单且实用的方法在不放回抽样的情形如果抽选的单元多于一个要使入样概率与单元大小成正比以及对调查估计值的误差进行估计都比较复杂在用不放回 PS抽样抽取多于两个单元时情况就更加复杂实际上这仍是一个需要进行认真研究的问题除了实施方面的原因外当n大时的计算也极其困难而这对于方差估计是不可少的二霍维茨汤普森估计量及其性质对不放回的不等概率抽样总体总和Y的估计采用霍维茨 Horvitz 与汤普森 Thompson 提出的以下估计量注意这个估计量与多项抽样的汉森赫维茨估计量非常相似事实上对于 PS抽样由于与相应PPS抽样的完全一致霍维茨汤普森估计量具有如下性质 1 若则是Y的无偏估计且它的方差为当n固定时又有 2 若则是的无偏估计又当n固定时以下的耶茨 Yates 格伦迪 Grundy 森 Sen 估计量也是的无偏估计不放回的不等概率整群抽样当固定时对不放回抽样如果总体每个群的入样概率与其群的大小严格成比例则称之为严格的抽样若群的抽取是用严格的抽样方法进行的则的估计应该用霍维茨汤普森方法 Horvitz Thompson n固定时 n固定时两阶段不放回的不等概抽样设总体由N个一阶单元组成第i个一阶单元包含个二阶单元第一阶段抽样是不放回的不等概率抽样为第i个一阶单元入样的概率为第i和第j个一阶单元同时入样的概率第二阶段是简单随机抽样此时总体总和可采用以下形式估计可以证明是Y的无偏估计量其方差为方差的一个无偏估计量为 83 三 n 2的严格 PS抽样对于 PS抽样由于作为总体总和的霍维茨汤普森估计量的形式相当简单因此就应用角度来说是否便利主要在于它的实施方法以及的计算当n 2时有几种比较实用的方法但在具体应用中 n 2并不是一个十分严重的限制这些方法常用在对总体分层在每层中抽取两个样本单元的情况 84 1 布鲁尔 Brewer 方法该方法要求对每个i 都满足即总体层中的最大单元必须小于全部单元大小总和的1 2 若不然可以将这个特大单元作为必调查的单元两个样本单元采用逐个抽取法抽取第一个单元按与成比例的概率抽取第二个单元则在剩下的N 1个单元中按与成比例的概率抽取 85 2 德宾 Durbin 方法两个样本单元仍用逐个抽取法抽取第一个样本单元以概率抽取设抽到的是单元i 第二个样本单元则按与成比例的概率抽取由于此时的且与布鲁尔方法的相等因此德宾方法与布鲁尔方法实际上是等价的应用德宾方法也要求对每个i 都满足 86 四 n 2的严格 PS抽样n 2的严格 PS抽样要比n 2的情况复杂得多即使可以实现的计算也相当复杂下面仅介绍三种方法 1 水野 Midzuno 方法这也是一种逐个抽取方法关键是第一个样本单元的抽取它是以概率抽取的在

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第章不等概率抽样

文档简介

温馨提示

最新文档

评论

第章 不等概率抽样

文档简介

温馨提示

最新文档

评论

相关文档

第章不等概率抽样