样本量的确定.ppt_第1页
样本量的确定.ppt_第2页
样本量的确定.ppt_第3页
样本量的确定.ppt_第4页
样本量的确定.ppt_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

样本量的确定 北京广播学院新闻传播学院调查统计研究所 二零零一年五月 沈浩 本讲主要内容 如何计算简单随机抽样的样本量确定如何实现分层抽样中各层样本单位数的分配 样本容量的确定 样本量 费用 精度 函数 确定样本容量 需要处理好预定的精度与现有经费 同时也要考虑资源和时间等限制条件 最终的样本量确定是在上述因素之间的权衡关系 分层抽样分配样本的标准 总的样本容量事先确定估计值要求达到的精度预先给定 影响调查样本容量的因素 调查估计值所希望达到的精度调查估计值所能允许的误差 估计量的抽样方差较小 估计值是精确的估计值的精度越高 所需的样本容量就越大影响精度的因素也同样影响着样本容量的大小所研究指标在总体中的变异程度总体的大小样本设计和所使用的估计量无回答率 客户提供的经费能支持多大容量的样本整个调查持续的时间有多长调查需要多少访员能招聘到的访员有多少 除了估计值的精度以外 调查实际操作的限制条件也许是影响样本容量的最大因素 1 给定精度水平下样本容量的确定 样本容量的大小与调查估计值所要求的精度紧密相关 数据是通过抽样而不是普查收集的 就会产生抽样误差 精度是由抽样方差来测量的 随着样本容量的增加 调查估计值的精度也会不断提高 标准误差误差界限变异系数 抽样方差的几种计量方法 抽样调查中样本容量的确定 也经常会使用一种或多种这样的计量方法来对精度进行说明 非抽样误差 非抽样误差会对调查估计值的精度产生显著的影响非抽样误差的大小与样本容量的大小却没有很大的关系确定样本容量 就不必将这些误差作为影响因素加以考虑为确保调查结果的准确性 应该消除非抽样误差 至少应尽可能使之最小化 由于我们将在某一给定误差界限下 阐述样本容量确定的过程 所以有必要复习一下置信区间的概念 对于具有正态分布的估计量来说 95 的置信区间意味着在同样的条件下 反复抽样100次所得的100个样本中 有95个样本的估计值所确定的区间包含总体真值 这个区间以样本的估计值为中心 半径为1 96倍的标准误差 置信区间 2 误差界限 误差界限是标准误差的倍数标准误差是估计量抽样方差的平方根乘数因子取决于在调查估计中所希望达到的置信水平 或称置信度 对于估计值t 在给定其标准误差 t的情况下 置信区间的公式可以表示为 t z tt z t 这里z t是误差界限 z是对应于某一置信水平的标准正态分布的分位点值该z值可从标准正态分布表中查得 大多数统计学教材中都附有这样的统计表 常用的z值包括 对于90 的置信度 对应的z值为1 64对于95 的置信度 对应的z值为1 96对于99 的置信度 对应的z值为2 56 3 多大的抽样方差是可接受的 调查估计值能容忍多大的不确定性 常用的95 的置信度 5 的误差界限对我们的调查目标是否适宜估计值是否需要更高 或更低 精度如果调查结果将用于进行一项有重大意义或有较大风险的决策 那么 估计值可能需要较高的精度 如果我们只是简单地希望取得所研究总体某个特征的感性认识 那么 稍低一点的精度就可以满足要求了 多大抽样方差是可以接受 是否需要对调查的子总体 或称作域 进行估计 调查结果可能需要包括一些细分的数据这些数据称为子总体估计值 或域估计值 为使数据满足调查要求 应该确定合适的精度与调查估计值有关的抽样方差有多大 对于不同的子总体 对精度的要求可能有所不同例如 在一次全国范围的抽样调查中 对国家层次的数据 调查主办者可能需要 3 的误差界限 但对于省级层次的估计值 5 的误差界限可能就可以满足要求 而对于省级以下层次的估计值 10 的误差界限可能就足够了 在这种情况下 通常对每个研究域都进行分层 并单独计算各层的样本容量将各个研究域中所有层的样本容量相加 便得到了调查所需的总样本容量 调查估计值有关的抽样方差有多大 为达到调查结果要求的精度 最小的调查估计值是什么 假设我们进行比例估计 其中 一些指标的比例可能是P 50 或更高 但是其它指标的比例则可能较低 如P 5 或者P 10 事实上 P可以是P 0到P 1 0之间的任一数值 在确定调查估计值所需的精度时 应该考虑当某个既定精度达到时所得的最小估计值 如果最小的估计值是P 5 那么误差界限就应该小于5 例如 某公司决定 如果公司所在的地区中 至少有P 4 的人群对某一种产品存在需求 那么该公司就决定生产这种产品 因此 该公司的市场调研部准备对当地的居民一项调查 以便估计他们在这种产品上的消费需求 对于P 4 5 水平左右的调查估计值就不太合适 应规定更小的误差界限 如小于或等于 0 01 0 02等 这时候置信区间应该是 0 05 0 01 或 0 05 0 02 Table1样本容量和在P 0 5时运用简单随机抽样估计P值得到的误差界限 最佳的解决办法 不应为追求最小的误差界限而选择最大可能的样本可以接受一个较大的误差界限 同时有效地利用现有资源在此基础上 获得具有相对较高精度的估计结果采用一个较小的样本而不是大样本而节省下来的费用 可以用来修正其它影响调查结果精度的因素例如减少无回答率 如回访拒答者 实施小型的试点调查 培训访员 等等 这样做可能更有效率 4 总体的变异程度 调查总体中 我们所研究的项目或指标 对于不同的个人 住户或企业 得到的估计结果可能会有很大的不同 虽然我们不能控制这种变异性 但它的大小却影响到了给定精度水平下 研究项目所必需的样本容量 我们来看假设有一个首次开展的调查 试图估计对某企业提供的服务持满意态度的顾客比例 对 顾客满意 这一指标 设置两个可能的值 满意或者不满意 表2列出了持满意和不满意态度的顾客可能占的比例的组合 要精确地测量总体中具有高度变异性或不经常出现的特征是很困难的 要对这样的变量提供精确的估计值 需要较大的样本容量 当研究的特征具有最大的变异程度时 调查需要的样本容量也最大 对于只取两个值的特征 则当这两个值在总体中以50 50的比例出现时 特征的变异程度最大 总体的变异程度 如果所研究特征的真实变异程度大于确定样本容量时我们估计的变异程度 那么 调查估计值的精度就会低于期望的精度 相反 如果所研究特征的真实变异程度与我们所估计的变异程度相比要小 那么 与调查目标所要求的估计值相比 抽样调查得到的估计值会更加精确 确保达到调查要求的精度 对某一特征的总体变异程度进行保守估计如果事先不知道调查中要测量特征变异程度的数据 假定研究特征具有最大的变异程度对于只有两个可能取值的变量 应该假设总体中该变量的变异程度为两个取值50 50平分 建议在计算所需样本容量 多个测量的指标 抽样调查时 测量指标 或称项目 特征 通常不止一个 有时数目是很大的每个指标的变异程度可能都不相同对某一指标来说足够大的样本 对变异程度较大的另一个指标来说可能就有些偏小为确保样本容量对所有的研究指标都足够大 应该根据具有最大变异程度或被认为最重要的那个指标 确定样本容量 5 总体的大小 总体所起的作用视它规模的大小而有所差异小规模总体的大小将起重要作用对于中等规模的总体 其作用中等重要大总体的规模对样本容量确定则不起作用 在样本容量确定的过程中 表3 显示了不同规模的总体在P 0 5时 使用简单随机抽样 且以误差界限为0 05 置信度为95 的标准估计P所需的样本容量 对于小规模总体 通常必须调查较大比例的样本 以取得所期望的精度 因此 实际操作中 对小规模总体经常采用普查而不是抽样调查 计算样本容量时 通常假定采用的抽样方式为简单随机抽样 SRS 所以 如果样本容量计算公式假定为简单随机抽样 6 样本设计和估计量 分层抽样得到的估计值通常比相同规模的简单随机抽样更精确 或者至少一样精确 整群抽样得到的估计值 其精度通常低于使用同一估计量进行估计时的简单随机抽样的估计值的精度 设计效果因子 一般来说 当样本容量的计算公式假定为简单随机抽样SRS 但使用的是更复杂的选样方式时 达到既定精度所需的样本容量应该乘以设计效果因子 设计效果 对于同样规模的样本容量 给定样本设计下估计量的抽样方差对简单随机抽样估计量的抽样方差的比率 对于简单随机抽样设计 设计效果 1对于分层抽样设计 设计效果 1对于整群抽样设计 设计效果 1 7 回答率 所有的调查都会遇到无回答的困扰即 由于某些原因 不能获得被抽中样本单位的信息当一个被调查单位的所有或几乎所有的数据都缺失时 我们就称之为完全无回答 或称单位无回答 某次调查的回答率是用调查得到的有效问卷数占预期样本容量的一个百分比来表示的完全无回答会减少有效样本的数量 从而会增加抽样误差 并进而降低估计值的精度 例如 如果初始样本容量是400 而通过上述途径估计的回答率为75 那么选择的样本容量就应该为 根据预计的回答率调整样本容量 一个最简单的例子没有无回答的简单随机抽样样本容量的计算公式 简单随机抽样下 通常使用误差界限和估计量的标准误来确定所需的样本容量 在无放回简单随机抽样情况下总体均值估计量的标准误差的表达式 其中 S是总体的标准差 如果误差界限设为e 那么 解n 得 这里Z是对应于某一置信水平的标准正态分布的分位点值 其中 总体方差S2是最不容易得到的 通常需要根据过去对类似总体所做的研究作近似计算 为确定n 需要知道 期望的误差界限e置信水平对应的标准正态分布的分位点值Z总体规模N总体方差S2 求比例样本容量的确定 下面用一个例子 说明估计比例问题时样本容量的确定过程 在这一例子中 所需的精度是根据误差界限确定的 所研究的指标取两个值 即P和1 P 在这种情况下 对于大总体 且估计量服从正态分布时 P的总体方差为 若总体真值已知 那么直接将它代入上面的等式就可以得到样本容量若总体真值未知 而且也没有以前的信息可以利用 那么可以P 0 5用 因为这时的方差最大 可以求得一个比较保守的样本容量 计算比例估计样本容量的详细步骤 先计算初始样本容量 然后根据总体的大小 设计效果和回答率分别对它进行调整 最后求得最终的样本容量 第1步 计算初始样本容量 注意 公式 1 使用了有限总体校正因子n N 对总体规模进行校正 如果忽略这个因子 初始样本容量n1就可以按下列公式计算 如果e和P都不用比例表示 而用百分数表示 n1的计算公式同样成立 第2步 使用下列等式对总体的大小进行调整 第3步 设计效果调整样本容量 如果样本设计不是采用简单随机抽样 那么可以使用下列公式 即用抽样设计效果对样本容量进行调整 其中 是设计效果 并且有 在简单随机抽样设计下 B 1 在分层抽样设计下 B 1 在整群抽样设计下 B 1 根据无回答再次进行调整 以确定最终的样本容量n 其中 r 估计的回答率 第4步 无回答调整样本容量 样本容量确定的例子 下面用实例说明样本容量的计算过程 例1 某杂志出版商希望得到读者对该杂志综合满意程度的估计值 通过邮寄调查 出版商可以联系到所有的2500个订户 但是 由于时间的限制 出版商决定使用简单随机抽样进行电话调查 请问应访问多少个读者 如果真实的总体比例落在总体比例的样本估计值的 0 10范围内 则该出版商将感到满意 换句话说 误差界限e为0 10 出版商希望调查估计值的置信度为95 这就意味着20次抽样中只有1次 所得的样本估计值确定的置信区间不包含总体真值P 而且 Z 1 96 使用简单随机抽样SRS 估计回答率为65 即r 0 65 由于事先没有关于顾客满意度真实比例P的可利用的信息 因此 我们假定方差取最大的情况 即假设P 0 5 假设 样本容量的计算步骤 第1步 计算初始样本容量n1 注意 随着P趋向0 50 P 1 P 的值将达到最大值 因此选择P 0 5 可得到最保守的n1的估计值 第2步 调整初始样本容量 将总体的大小这一影响样本容量确定的因素也考虑进来 记住 这一步只适于小规模总体以及中等规模的总体 第3步 根据抽样设计效果来调整样本容量 对这个例子来说 由于假设使用简单随机抽样设计 所以取B 1 第4步 根据无回答情况进行调整确定最终的样本容量n 例2 现准备实施一项民意调查 以决定赞成建立一个公园的居民的比例 总体由所有在两个城市和一个农村地区居住的 年龄在18岁及以上的居民组成 通过从每个城市或农村中各抽取一个简单随机样本 可以得到一个分层随机样本 问每一层需要多大的样本容量 总体的单位数为657 500总体在各层的分布情况如下 所需要的样本容量取决于调查对数据的具体要求 为此 可以考虑以下两个方案 方案一 假设不需要得到各个层估计值的精度 而且如果整个地区的估计值达到95 的置信度 5 的误差界限 就认为估计值足够可靠了 由于没有整个地区赞成建立省级公园居民比例的真值 所以我们假设P 0 5 预计回答率为50 计算过程如下 第1步 计算初始样本容量n 第2步 计算初步修正的样本容量n2 注意 如果n1 N可以忽略不计 则可取n2 n1 第3步 根据设计效果 再次进行调整n3 对于分层随机抽样 通常B 1 但这里 由于没有可利用的B的估计值 因此 取B 1得到保守 即更大 的样本容量 第4步 根据无回答情况确定最终的样本容量n 即根据该方案 调查所需的样本容量为768 方案二 假设对每一层 都要求得到误差界限为0 05 置信度为95 的估计结果 那么就需要单独计算各层的样本容量 即将每一层作为一个总体 估计调查所需的样本容量 计算之前 考虑到城市1和城市2是大总体 因而可以认为 对它们来说 总体的大小对样本容量的确定没有影响 由此 如果第1 2层中的取值与案例1相同 就可以认为这两层需要的样本容量都是768 然而 对于农村地区 由于总体是小规模的 因此总体的大小对该层样本容量的确定会产生一定的影响 计算步骤如下 城市1 由于 可以认为 所以 城市2 因为城市2也是一个大城市 所以 同样可以忽略有限总体校正因子对样本容量的影响 农村地区 因此 方案2所需的总样本容量为768 768 732 2 268 比较方案2的总样本容量2 268和方案1的样本容量768 可以发现方案2的样本容量几乎是方案1样本容量的3倍之大 换句话说 如果仅仅需要得到包含所有层的整个总体的估计值 那么要求的样本容量将大大小于需要分别对各层进行估计时所需的样本容量 因为对各层分别进行估计时 需要确保使每一层的样本容量都足够大 两种方案比较 例2清楚地说明了要求对各研究域分别进行估计时 审查每一层精度要求的重要性 但如果调查涉及到许多研究域 这一要求可能会使总的样本容量显著增大 并可能导致样本容量超出调查研究者的预算和现有资源的承受能力 一般来说 要求估计的研究域越多 所需要的样本容量也就越大 因此 可能需要在精度与费用之间进行折衷 以保证估计的误差在可接受的范围之内 通过增大每一层估计值的允许误差 或合并其中两个或多个域 就可以使精度和费用达成权衡 分层抽样的样本分配 决定分层抽样效率的一个重要因素是样本单位在层间的分配方式 分层抽样设计 主要理由 使抽样方案的效率高于简单随机抽样或系统抽样 确保对要进行分析的特定研究域有足够的样本量 以便进行分析 避免抽到一个 差的 样本 采用分层抽样时 总体被分为同质的 互不重叠的几个子总体 层 然后 在每一个层中独立地抽取样本 可以使用任何一种抽样方法来对每个层进行抽样 从比较简单的方法如简单随机抽样 系统抽样 到较复杂的方法如概率与大小成比例的抽样 PPS 整群抽样 多阶段抽样或多相抽样 包含N个单位的总体 被分成大小分别为 N1 N2 NL的L个互不重叠的子总体 层 其中 N N1 N2 NL 从每层中分别独立抽取一个样本 各层内样本容量分别为nh h 1 2 L 其中 n n1 n2 nL 分层抽样分配样本的标准 固定样本容量 先确定总的样本容量 然后再在层间分配样本 固定变异系数 先根据预定的精度 确定每层所需样本容量 然后将各层的样本容量加总得到总的样本容量 固定样本容量 第一步 确定总的样本容量n第二步 计算分配给第h层的样本比例ahah nh n0 ah 1且第三步 计算第h层的样本容量nh nah 给定变异系数C下总样本容量n的计算 Nh是第h层单位总数Sh2是第h层单位yi的真实方差C是Y的总体变异系数Y是总体总值的真值ah是分配给第h层的样本比例 分配方法 按比例分配不按比例分配 按比例分配 每一层的样本容量nh与该层的总体规模Nh的比例相同 即各层的抽样比fh nh Nh是相同的 并等于总的抽样比n N 层的规模越大 分配的样本容量越就越多 例2方案1中 计算总样本容量 768 按比例分配方法的各层样本容量确定如下 第一步 计算各层的分配因子ah 城市1城市2农村 第二步 计算各层样本容量nh 城市1城市2农村 各层抽样比相等 均为0 0012 得到一个自加权的样本设计 不按比例分配 采用不按比例分配方案时 各层之间的抽样比不相同 Y 比例分配平方根N 比例分配平方根Y 比例分配最优分配内曼最优分配层方差相等最优分配 Y 比例分配 每层的分配因子ah等于该层规模度量与总体规模度量的比率 在总体估计值Y是规模度量时使用 平方根N 比例分配 当考虑各层估计值需要较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论