




已阅读5页,还剩91页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
非概率 等概率 不等概 每个单元入样的概率 第五章不等概抽样 例 O Brienetal 1995 对Philadelphia地区的病人进行抽样 目的是了解病人对于医疗服务的偏好 目标总体是这一区域的所有注册的医院的病人 总共有294家医院 27652个床位 抽样以前 研究人员只知道床位数 不知道病人数 等概率的抽取样本医院的缺点 首先 可能医院中愿意接受CPR治疗的病人数量会正比于医院床位的数量 采用等概简单估计量可能会有大的方差 其次 自加权的等概率样本可能难于管理 可能仅仅为了调查一两个病人就需要去一家医院 并且合理分配调查人员的工作负担也是比较困难的 第三 调查成本在调查开始的时候是未知的 一个40家医院的样本可能包括了主要的大的医院 这会导致比预计更大的成本 其他办法 调查人员还可以采用与医院病床数量成比例的方法抽取57个医院 然后从每个样本医院中抽取30个简单随机样本床位 如果病人数等于床位数 并且医院实际的床位数和抽样时依据的病床数据一致 每个病人是否有相同的入样概率 而且成本在调查实施前是已知的 因为每个访员在每个医院访问的病人数量是相同的 而且 总体总量的方差可能更小 分层抽样 抽样选择概率小的单位会有较高的权数 采用不等概率抽样来减少抽样方差而不采用清晰的分层 采用不同的概率来选择初级样本单元 并且在估计中采用不同的权数来进行弥补 抽样的关键是每个样本的选择概率是已知的 5 1不等概抽样 一 不等概抽样的必要性 在简单随机抽样中 总体 或层 中的每个单元入样的概率都相等 如果总体中的每个单元在该总体中的地位 或重要性 相差不多 则这种基于等概率的抽样是理所当然的选择 等概率抽样不仅实施简单 而且相应的数据处理公式也简单 但是在许多实际问题中 我们还需要使用不等概抽样 samplingwithunequalprobabilities 二 不等概率抽样的适用场合 一种情况是调查的总体单元与抽样总体的单元可能不一致 另一种需要用到不等概抽样的情况是 抽样单元在总体中所占的地位不一致 最重要的一种不等概抽样乃是使每个单元入样的概率与该单元的大小成比例的抽样 samplingwithprobabilitiesproportionaltosizes 简称PPS抽样 二 不等概率抽样的适用场合 第三种需用不等概率抽样的情况是为了改善估计量的特性 每个可能的样本若被抽的概率与样本中单元的辅助变量之和成正比的话 则按此进行不等概抽样所得到的样本 用通常的比估计方法所得的估计量是无偏的 9 总之 在实际工作中需要我们经常采用不等概率抽样 另外 从上面列举的情况也可看到 凡需使用不等概抽样的场合 必须提供总体单元的某种辅助信息 例如每个单元的 大小 度量Mi或辅助变量Xi等 10 三 不等概抽样的主要分类 不等概抽样可按多种原则进行分类 鉴于不等概抽样同时会带来目标量估计及其方差估计的复杂性 可分为放回抽样 每次在总体 或层 中按一定概率抽取一个单元 抽取后放回总体 再进行下一次抽样 每次抽样都是独立的 不放回抽样 其代价是 由于丧失了独立性 无论是抽样方法还是方差估计 都要比放回抽样繁复得多 11 另一种分类是 视每次抽样 放回抽样的情形 概率或每个单元的入样概率 不放回抽样的情形 是否严格地与单元的大小成比例 另外 看样本量n是固定的还是随机的 最重要的情形乃是当n固定 且上述概率与单元大小严格成比例的不等概率抽样 以后我们将这种情形的放回抽样称为PPS抽样 称相应的不放回抽样为 PS抽样 12 对于不放回抽样 按其样本单元抽取方式的不同又可分为以下几种方法 1 逐个抽取法 每次从尚未入样的单元中以一定概率抽取一个单元 这个概率通常与已经入样的单元有关 2 重抽法 以一定概率逐个进行放回抽样 若一旦抽到重复单元 则放弃所有已抽到的单元而重新抽取 直到抽到规定单元数且所有入样单元都不同为止 Back 13 3 系统抽取法 将总体单元按某种顺序排列 且将规定的单元入样 或其倍数 累计起来 并确定抽样间隔 在这个范围内产生一个随机数以确定初始入样单元 然后按上述抽样间隔确定其余的样本单元 4 全样本方法 对每个可能样本规定一个被抽中的概率 按这个概率一次抽取整个样本 Back 四 不等概抽样的特点不等概抽样的主要优点是 由于使用了辅助信息 提高了抽样策略的统计效率 与简单随机抽样甚至与分层抽样相比 能显著地减少抽样误差 不等概抽样有以下的缺点 1 抽样框中的所有单元 都要有高质量的 能用作大小度量的辅助信息 2 抽样框的创建比简单随机抽样和系统抽样成本高 更复杂 因为需要度量和存储总体中每一个单元的大小 3 并非在任何情况下都能使用 因为并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的度量 4 抽样及估计 特别对不放回抽样 相当复杂 5 当单元大小度量不准确或不稳定时不适用 此时更好的办法是将单元按大小分组并使用分层抽样 5 2放回不等概抽样 一 多项抽样与PPS抽样 1 多项抽样 这种放回的不等概率抽样为何又叫多项抽样 2 PPS抽样 19 2 PPS抽样PPS抽样是与大小 或规模 成比例的概率抽样 是一种使用辅助信息从而使入样概率不相等的抽样技术 如果总体单元的大小或规模变化很大 且这些大小是已知的 这样的信息就可以用在抽样中 以提高统计效率 如果单元大小的度量是准确的 而且所研究的变量与单元的大小相关 PPS抽样能极大地提高精度 但如果大小的度量不大准确 最好按大小分组并使用分层抽样 20 PPS抽样的入样概率 如上所述 PPS抽样时可取为第i个单元的入样概率 其中是总体中所有单元的 大小 之和 为第i个单元的大小 21 二 多项抽样的实施方法如何抽取一个不等概率样本呢 有三种主要方法 代码法 系统法及随机系统法 以下的讨论以PPS抽样为例 并假定单元大小皆为整数 22 1 代码法 累计和法 随机法或汉森 赫维茨法 设N不太大 且为第i单元大小的度量 且为整数 对总体中的每个单元计算累计大小 得到总体所有单元代码的累计和 对总体中每个单元确定与它相对应的代码范围 在1到总的累计大小范围内抽取一个随机数 该随机数相应的代码范围中的单元即为入样单元 重复上述步骤 直到抽得n个单元为止 23 PPS抽样时 单元的代码如下表 24 2 拉希里法 二次抽样法 代码法要将累计 在N不太大时是适用的 但当N很大时 就很不方便 此时可用Lahiri 拉希里 1951年提出的方法 令每次抽取一个范围内的随机数及范围内的随机数m 若 则第单元入样 否则 重抽 此时 第i个单元的入样概率与成正比 从而 重复这一过程 直到抽够所需的个单元 2 拉希里法 二次抽取法 26 3 系统PPS抽样方法对总体中的每个单元 计算累计大小 对总体中每个单元确定与它相对应的代码范围 确定抽样间隔k 总累计大小 n 在1和k的范围内确定一个随机起点r 与代码r r k r 2k r n 1 k所在范围相对应的单元入样 注意 当r n 1 k超过总累计大小时 应使用圆形系统抽样中的模余数法 27 4 随机系统抽样法在这种方法中 名录在系统抽样前要进行随机排序 如果完全按原来的排序 会把一些可能的样本排除在外 在上面介绍的系统抽样的例子中 不可能把单元3和4同时抽入同一个样本 把名录重新随机排列后会增加潜在的可能抽到的样本数量 实际上这些方法都有些问题 例如 对系统抽样法或随机系统抽样法 一个大小大于抽样间隔的单元 就有重复被抽中的可能 只有把这些大单元放入单独的一个层 并独立地对它们进行抽样 才能克服这个问题 另一个问题是估计值的抽样方差估计比较困难 28 三 Hansen Hurwitz估计量及其性质 对于多项抽样 由于抽样是不等概率的 每个样本单元的观测值就不再是 平等的 因此对于总体参数的估计与等概率抽样不同 汉森 赫维茨提出 如果是按为入样概率的多项抽样抽得的样本指标值 相应的为 则总体总和Y的无偏估计量如下 29 且若n 1 则的无偏估计量为 30 对于PPS抽样 所以有其中是第i个样本单元的观测值 例如商店的年销售额 而是该单元的大小 例如商店的员工人数 则即是第i个商店人均年销售额 对n个取平均即是样本商业网点人均年销售额的平均 将此数乘以 即该地所有商业网点的员工总数 即可获得该地商业销售总额的估计 三 Hansen Hurwitz估计量及其性质 32 举例 下表是某系统全部N 36个单位上一年职工人数及当年职工人数的数据 以为单位大小的度量 对单位进行PPS抽样 n 6 估计全系统当年职工总人数Y 并与简单随机抽样做精度比较 某系统各单位上一年与当年职工人数 某系统各单位上一年与当年职工人数 某系统各单位上一年与当年职工人数 某系统各单位上一年与当年职工人数 某系统各单位上一年与当年职工人数 解 对单位进行PPS抽样 根据公式 Y的汉森 赫维茨估计的理论方差为 而若对单位进行简单随机抽样 同样样本量时Y的简单估计的方差可计算如下 因此在此例中 PPS抽样的设计效应为 可见对PPS抽样 估计量的精度提高非常显著 在实际中当然是未知的 只有抽样才能观测到 下面列出4组PPS样本 分别计算Y的估计量并作方差估计 4组样本抽得的单位号码如下 样本I 4 10 23 11 13 3 样本II 1 34 18 11 29 8 样本III 12 10 36 4 24 4 样本IV 14 4 18 11 34 对每个样本 计算Y的估计量 记为 为方便起见 令则计算结果列在下表中 对前面表的总体进行n 6的PPS抽样的结果 注意到不同样本计算的估计量的值相差不大 说明它的方差并不大 但方差估计量的稳定性较差 表中列出的只是标准差的估计 其中原因之一是样本量还不够大 例1 某部门要了解所属8500家生产企业当月完成的利润 该部门手头已有一份去年各企业完成产量的报告 将其汇总得到所属企业去年完成的产量为3676万吨 考虑到时间紧 准备采用抽样调查来推算当月完成的利润 根据经验 企业的产量和利润相关性比较强 且企业的特点是规模和管理水平差异比较大 通常大企业的管理水平较高些 因此采用以与去年产量成比例的PPS抽样 从所属企业中抽出一个样本量为30的样本 757087 元 174118 相对误差 相对误差达到20 时所需样本量 有放回不等概整群抽样 四 按与群大小Mi成比例的PPS抽样抽取群 例2 某公司分8个部门 共有职工12950人 各部门职工数如下 按与职工数成比例的概率抽3个部门 1 随机数为2011 7972 10281 问抽中哪几个部门 2 若三个部门的职工病假天数依次为4320 4160 5790 估计该公司每个职工平均病假天数及标准差 解 5 3多阶段有放回不等概抽样 一 对初级单元进行放回不等概率抽样时 总体总和Y的估计第一阶抽样按放回不等概率抽样 多项抽样 抽取初级元 第二阶抽样并没有作出特别的规定 只要初级单元指标Yi的估计是无偏的 自加权情形 第一阶抽样按放回不等概率抽样抽取初级单元 第二阶抽样都抽取m个 自加权情形 第一阶抽样按PPS抽样抽取初级单元 第二阶抽样按简单随机抽样抽取次级单元 都抽取m个 实际工作中 对于各级单元大小不相等时多阶抽样 自加权通常的做法是 除了最后一阶采用等概率抽样 放回的或不放回的均可 前几阶均采用PPS抽样 并且自第二阶开始 每一阶的样本量都相同 即mi m kj k 则样本是自加权的 其估计量的形式非常简单 总体总和的估计为的方差估计为 二 各级单元大小不相等时 多阶抽样的总样本量及最优样本量的配置二阶自加权情形 第一阶抽样按PPS抽样抽取初级单元 第二阶抽样按简单随机抽样抽取次级单元 都抽取m个 这时 多阶抽样的总样本量可以这样确定 1 根据简单随机抽样时应抽样本量2 再乘以设计效应deff获得 多阶抽样与简单随机抽样相比其效率比较低 deff应该大于1 实际工作中 可取deff的经验数据 不同项目的deff不同 例 某调查公司接受了一项关于全国城市成年居民人均奶制品消费支出及每天至少喝一杯鲜奶的人数的比例情况的调查 确定抽样范围为全国地级及以上城市中的成年居民 成年居民指年满18周岁以上的居民 第一步 确定抽样方法 调查公司决定采用多阶抽样方法进行方案设计 调查的最小单元为成年居民 确定调查的各个阶为城市 街道 居委会 居民户 在居民户中利用二维随机表 Kish随机表的简化 抽取成年居民 第二步 确定样本量及各阶样本量的配置 按简单随机抽样时 在95 置信度下 绝对误差为5 取使方差达到最大时的消费奶制品的居民比例为50 则全国样本量应为 根据以往调查的经验 估计回答率b 80 因此调整样本量为 多阶抽样的效率比简单随机抽样的效率低 这里取设计效应deff 3 2 则在全国范围内应调查的样本居民为 各阶的样本量配置为 初级单元 20个城市 二级单元 每个样本市内抽4个街道 共80个街道 三级单元 每个样本街道内抽2个居委会 共160个居委会 四级单元 每个样本居委会内抽10个居民户 1600个居户 在样本居民户内 利用二维随机表抽1名成年居民 第三步 确定抽样方法 第一阶 在全国城市中按与人口数成比例的放回的不等概抽样 即PPS抽样 第二阶和第三阶分别按与人口数成比例的不等概等距抽样 以第二阶为例 在某个被抽中的样本城市中 将其所属的街道编号 搜集各街道的人口数 赋予每个街道与其人口相同的代码数 根据该市总人口数除以样本量4 确定抽样间距 然后对代码进行随机起点的等距抽样 则被抽中代码所在的街道为样本街道 第四阶 分别在每个样本居委会中 按等距抽样抽出10个民户 即根据居委会拥有的居民户数除以样本量10得到抽样距 然后随机起点等距抽样 在每个样本居民户中 调查员按二维随机表抽取1名成年居民 二维随机表的使用方法如下 1 随机号的确定 应事先在随机表的第一行数字上 选好一个数字 并划上一个圈 被圈好的这个数字就是这份问卷的随机号 随机号的选择一般由小到大或循环给出 可以根据便于操作又保证实现随机的原则 选择确定随机号的适当方法 2 选出被访者 将所有符合基本要求的家庭成员按年龄从大到小的顺序列入随机表中 以事先做好的随机号为纵坐标 以最小家庭成员为横坐标 交叉处对应的数字即为被访者的序号 例如 某受访户的随机号确定为4 该户中家庭成员符合本次调查要求的共有4人 将这4人的基本情况按年龄从大到小的顺序填入下面的二维随机表中 序号姓名性别年龄1234567891011121肖明男531111111111112汪红女522112121212213肖晓波男233211322131234肖晓玲女2141322314324155412341235426 7 8 9 10 11 12 表中 序号为4的列与年龄最小的家庭成员肖晓玲所在的第4行交叉的数字是2 因此 第2号家庭成员汪红为被访者 第四步 推算方法 记各样本城市的80位样本居民中 每天至少喝一杯鲜奶的人数为ai 则各样本城市每天至少喝一杯鲜奶的人数所占比例为 全国1600名居民组成的样本中 每天至少喝一杯鲜奶的总人数为 则成年居民每天至少喝一杯鲜奶的人数所占比例为 的方差的估计为 我国劳动力调查约调查60万人 其中城镇40万 农村20万 以全国为总体 各省市区独立实施抽样 可采用 分层两阶整群抽样 分层三阶整群抽样 分层四阶整群抽样 1 分层四阶整群抽样 1 对县级单元 县 县级市或市辖区 按照人口和劳动力等特征分层 在第一阶段采用PPS在每一层抽取县级单位 2 对抽中的县级单位 采用PPS抽取乡级单位 街道 镇或乡 3 对抽中的乡级单位 采用PPS抽取村级单位 居委会或村委会 4 对抽中的村级单位 系统抽样抽取调查小区 由30个最相邻的住址组成 抽中的小区调查其全部住户及家庭成员 2 分层三阶整群抽样 1 对乡级单元按照城乡及人口和劳动力等特征分层 在第一阶段采用PPS在每一层抽取乡级单位 2 对抽中的乡级单位 采用PPS抽取村级单位 3 对抽中的村级单位 系统抽样抽取调查小区 抽中的小区调查其全部住户及家庭成员 3 分层两阶整群抽样 1 对村级单元按照城乡及人口和劳动力等特征分层 在第一阶段采用PPS在每一层抽取村级单位 2 对抽中的村级单位 采用系统抽样抽取调查小区 抽中的小区调查其全部住户及家庭成员 70 5 4不放回不等概率抽样 一 包含概率与 PS抽样放回不等概率抽样实施简单 数据处理也不复杂 在不等概率抽样中占有一定的地位 但是由于放回抽样有可能重复抽到同一单元 特别是个别大单元被重复抽到的可能性比较大 这就在一定程度上影响了样本的代表性 降低了抽样效率 也不易被实际工作者所接受 即使在相同样本量下 放回抽样的精度比不放回抽样的差 因此 我们仍有必要研究不放回不等概率抽样 事实上 由于不放回抽样的样本不是独立的 因此无论是实施还是数据处理 特别是方差估计 都要比放回的多项抽样复杂得多 71 在放回的不等概率抽样中 每个单元的入样概率起着关键作用 在不放回抽样中 每个单元被包含到样本的概率也即入样概率及任意两个单元都包含到样本的概率都起着十分重要的作用 它们通称为包含概率 对于固定的n包含概率满足以下性质 1 2 3 其中性质1是显然的 性质2是对每个已在样本中的单元而言的 固定了这个特定单元 总体中其它N 1个单元在样本中只可能有n 1个单元 因此其中最后一个等式利用了性质1 性质3则直接利用性质2 与放回的PPS抽样类似 对于不放回不等概率抽样 我们最感兴趣的是与单元大小成比例的情形 若仍记 则由性质1有 以后我们将这种不放回的与单元大小成比例的概率抽样称为 PS抽样 严格的 PS抽样实施起来非常复杂 事实上 只有当n 2时 才有一些简单且实用的方法 在不放回抽样的情形 如果抽选的单元多于一个 要使入样概率与单元大小成正比以及对调查估计值的误差进行估计都比较复杂 在用不放回 PS抽样抽取多于两个单元时 情况就更加复杂 实际上 这仍是一个需要进行认真研究的问题 除了实施方面的原因外 当n大时 的计算也极其困难 而这对于方差估计是不可少的 二 霍维茨 汤普森估计量及其性质对不放回的不等概率抽样 总体总和Y的估计采用霍维茨 Horvitz 与汤普森 Thompson 提出的以下估计量 注意这个估计量与多项抽样的汉森 赫维茨估计量非常相似 事实上 对于 PS抽样 由于 与相应PPS抽样的完全一致 霍维茨 汤普森估计量具有如下性质 1 若 则是Y的无偏估计 且它的方差为 当n固定时 又有 2 若 则是的无偏估计 又当n固定时 以下的耶茨 Yates 格伦迪 Grundy 森 Sen 估计量也是的无偏估计 不放回的不等概率整群抽样 当固定时 对不放回抽样 如果总体每个群的入样概率与其群的大小严格成比例 则称之为严格的抽样 若群的抽取是用严格的抽样方法进行的 则的估计应该用霍维茨 汤普森方法 Horvitz Thompson n固定时 n固定时 两阶段不放回的不等概抽样设总体由N个一阶单元组成 第i个一阶单元包含个二阶单元 第一阶段抽样是不放回的不等概率抽样 为第i个一阶单元入样的概率 为第i和第j个一阶单元同时入样的概率 第二阶段是简单随机抽样 此时 总体总和可采用以下形式估计 可以证明是Y的无偏估计量 其方差为 方差的一个无偏估计量为 83 三 n 2的严格 PS抽样对于 PS抽样 由于作为总体总和的霍维茨 汤普森估计量的形式相当简单 因此就应用角度来说 是否便利主要在于它的实施方法以及的计算 当n 2时 有几种比较实用的方法 但在具体应用中 n 2并不是一个十分严重的限制 这些方法常用在对总体分层 在每层中抽取两个样本单元的情况 84 1 布鲁尔 Brewer 方法该方法要求对每个i 都满足 即总体 层 中的最大单元必须小于全部单元大小总和的1 2 若不然可以将这个 特大 单元作为必调查的单元 两个样本单元采用逐个抽取法抽取 第一个单元按与成比例的概率抽取 第二个单元则在剩下的N 1个单元中按与成比例的概率抽取 85 2 德宾 Durbin 方法两个样本单元仍用逐个抽取法抽取 第一个样本单元以概率抽取 设抽到的是单元i 第二个样本单元则按与成比例的概率抽取 由于此时的 且与布鲁尔方法的相等 因此德宾方法与布鲁尔方法实际上是等价的 应用德宾方法也要求对每个i 都满足 86 四 n 2的严格 PS抽样n 2的严格 PS抽样要比n 2的情况复杂得多 即使可以实现 的计算也相当复杂 下面仅介绍三种方法 1 水野 Midzuno 方法这也是一种逐个抽取方法 关键是第一个样本单元的抽取 它是以概率抽取的 在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水电维修工岗位培训知识课件
- 安全培训师知识储备课件
- 安全总监题库查询及答案解析
- 初级会计从业考试链接及答案解析
- 2025年国家开放大学《西方美术史》期末考试备考试题及答案解析
- 2025年学校营养餐自查报告范文
- 2025年国际经济法自学考试真题解析与答案
- 2025年环保知识竞赛多项选择题及答案
- 2025年河南省商丘市继续教育公需科目试题及答案
- 2025年国家开放大学(电大)《市场营销原理》期末考试备考试题及答案解析
- GB/T 30774-2014密封胶粘连性的测定
- (外研版2019)高考英语一轮单元复习课件必修1 Unit 1A new start(含详解)
- 幼儿成长档案电子通用版
- Linux操作系统课件(完整版)
- 短视频:策划+拍摄+制作+运营课件(完整版)
- 首都师范大学本科生重修课程自学申请表
- 第四章路面施工.ppt
- mr9270s文件包中文说明书
- 中国酒文化(课堂PPT)
- HIV-1病毒载量测定及质量保证指南
- Wiley数据库使用方法(课堂PPT)
评论
0/150
提交评论