样本量的确定.ppt

上传人：x*** IP属地：河南上传时间：2020-02-17 格式：PPT 页数：88 大小：353.50KB 积分：20 举报 版权申诉

已阅读5页，还剩83页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

样本量的确定北京广播学院新闻传播学院调查统计研究所二零零一年五月沈浩本讲主要内容如何计算简单随机抽样的样本量确定如何实现分层抽样中各层样本单位数的分配样本容量的确定样本量费用精度函数确定样本容量需要处理好预定的精度与现有经费同时也要考虑资源和时间等限制条件最终的样本量确定是在上述因素之间的权衡关系分层抽样分配样本的标准总的样本容量事先确定估计值要求达到的精度预先给定影响调查样本容量的因素调查估计值所希望达到的精度调查估计值所能允许的误差估计量的抽样方差较小估计值是精确的估计值的精度越高所需的样本容量就越大影响精度的因素也同样影响着样本容量的大小所研究指标在总体中的变异程度总体的大小样本设计和所使用的估计量无回答率客户提供的经费能支持多大容量的样本整个调查持续的时间有多长调查需要多少访员能招聘到的访员有多少除了估计值的精度以外调查实际操作的限制条件也许是影响样本容量的最大因素 1 给定精度水平下样本容量的确定样本容量的大小与调查估计值所要求的精度紧密相关数据是通过抽样而不是普查收集的就会产生抽样误差精度是由抽样方差来测量的随着样本容量的增加调查估计值的精度也会不断提高标准误差误差界限变异系数抽样方差的几种计量方法抽样调查中样本容量的确定也经常会使用一种或多种这样的计量方法来对精度进行说明非抽样误差非抽样误差会对调查估计值的精度产生显著的影响非抽样误差的大小与样本容量的大小却没有很大的关系确定样本容量就不必将这些误差作为影响因素加以考虑为确保调查结果的准确性应该消除非抽样误差至少应尽可能使之最小化由于我们将在某一给定误差界限下阐述样本容量确定的过程所以有必要复习一下置信区间的概念对于具有正态分布的估计量来说 95 的置信区间意味着在同样的条件下反复抽样100次所得的100个样本中有95个样本的估计值所确定的区间包含总体真值这个区间以样本的估计值为中心半径为1 96倍的标准误差置信区间 2 误差界限误差界限是标准误差的倍数标准误差是估计量抽样方差的平方根乘数因子取决于在调查估计中所希望达到的置信水平或称置信度对于估计值t 在给定其标准误差 t的情况下置信区间的公式可以表示为 t z tt z t 这里z t是误差界限 z是对应于某一置信水平的标准正态分布的分位点值该z值可从标准正态分布表中查得大多数统计学教材中都附有这样的统计表常用的z值包括对于90 的置信度对应的z值为1 64对于95 的置信度对应的z值为1 96对于99 的置信度对应的z值为2 56 3 多大的抽样方差是可接受的调查估计值能容忍多大的不确定性常用的95 的置信度 5 的误差界限对我们的调查目标是否适宜估计值是否需要更高或更低精度如果调查结果将用于进行一项有重大意义或有较大风险的决策那么估计值可能需要较高的精度如果我们只是简单地希望取得所研究总体某个特征的感性认识那么稍低一点的精度就可以满足要求了多大抽样方差是可以接受是否需要对调查的子总体或称作域进行估计调查结果可能需要包括一些细分的数据这些数据称为子总体估计值或域估计值为使数据满足调查要求应该确定合适的精度与调查估计值有关的抽样方差有多大对于不同的子总体对精度的要求可能有所不同例如在一次全国范围的抽样调查中对国家层次的数据调查主办者可能需要 3 的误差界限但对于省级层次的估计值 5 的误差界限可能就可以满足要求而对于省级以下层次的估计值 10 的误差界限可能就足够了在这种情况下通常对每个研究域都进行分层并单独计算各层的样本容量将各个研究域中所有层的样本容量相加便得到了调查所需的总样本容量调查估计值有关的抽样方差有多大为达到调查结果要求的精度最小的调查估计值是什么假设我们进行比例估计其中一些指标的比例可能是P 50 或更高但是其它指标的比例则可能较低如P 5 或者P 10 事实上 P可以是P 0到P 1 0之间的任一数值在确定调查估计值所需的精度时应该考虑当某个既定精度达到时所得的最小估计值如果最小的估计值是P 5 那么误差界限就应该小于5 例如某公司决定如果公司所在的地区中至少有P 4 的人群对某一种产品存在需求那么该公司就决定生产这种产品因此该公司的市场调研部准备对当地的居民一项调查以便估计他们在这种产品上的消费需求对于P 4 5 水平左右的调查估计值就不太合适应规定更小的误差界限如小于或等于 0 01 0 02等这时候置信区间应该是 0 05 0 01 或 0 05 0 02 Table1样本容量和在P 0 5时运用简单随机抽样估计P值得到的误差界限最佳的解决办法不应为追求最小的误差界限而选择最大可能的样本可以接受一个较大的误差界限同时有效地利用现有资源在此基础上获得具有相对较高精度的估计结果采用一个较小的样本而不是大样本而节省下来的费用可以用来修正其它影响调查结果精度的因素例如减少无回答率如回访拒答者实施小型的试点调查培训访员等等这样做可能更有效率 4 总体的变异程度调查总体中我们所研究的项目或指标对于不同的个人住户或企业得到的估计结果可能会有很大的不同虽然我们不能控制这种变异性但它的大小却影响到了给定精度水平下研究项目所必需的样本容量我们来看假设有一个首次开展的调查试图估计对某企业提供的服务持满意态度的顾客比例对顾客满意这一指标设置两个可能的值满意或者不满意表2列出了持满意和不满意态度的顾客可能占的比例的组合要精确地测量总体中具有高度变异性或不经常出现的特征是很困难的要对这样的变量提供精确的估计值需要较大的样本容量当研究的特征具有最大的变异程度时调查需要的样本容量也最大对于只取两个值的特征则当这两个值在总体中以50 50的比例出现时特征的变异程度最大总体的变异程度如果所研究特征的真实变异程度大于确定样本容量时我们估计的变异程度那么调查估计值的精度就会低于期望的精度相反如果所研究特征的真实变异程度与我们所估计的变异程度相比要小那么与调查目标所要求的估计值相比抽样调查得到的估计值会更加精确确保达到调查要求的精度对某一特征的总体变异程度进行保守估计如果事先不知道调查中要测量特征变异程度的数据假定研究特征具有最大的变异程度对于只有两个可能取值的变量应该假设总体中该变量的变异程度为两个取值50 50平分建议在计算所需样本容量多个测量的指标抽样调查时测量指标或称项目特征通常不止一个有时数目是很大的每个指标的变异程度可能都不相同对某一指标来说足够大的样本对变异程度较大的另一个指标来说可能就有些偏小为确保样本容量对所有的研究指标都足够大应该根据具有最大变异程度或被认为最重要的那个指标确定样本容量 5 总体的大小总体所起的作用视它规模的大小而有所差异小规模总体的大小将起重要作用对于中等规模的总体其作用中等重要大总体的规模对样本容量确定则不起作用在样本容量确定的过程中表3 显示了不同规模的总体在P 0 5时使用简单随机抽样且以误差界限为0 05 置信度为95 的标准估计P所需的样本容量对于小规模总体通常必须调查较大比例的样本以取得所期望的精度因此实际操作中对小规模总体经常采用普查而不是抽样调查计算样本容量时通常假定采用的抽样方式为简单随机抽样 SRS 所以如果样本容量计算公式假定为简单随机抽样 6 样本设计和估计量分层抽样得到的估计值通常比相同规模的简单随机抽样更精确或者至少一样精确整群抽样得到的估计值其精度通常低于使用同一估计量进行估计时的简单随机抽样的估计值的精度设计效果因子一般来说当样本容量的计算公式假定为简单随机抽样SRS 但使用的是更复杂的选样方式时达到既定精度所需的样本容量应该乘以设计效果因子设计效果对于同样规模的样本容量给定样本设计下估计量的抽样方差对简单随机抽样估计量的抽样方差的比率对于简单随机抽样设计设计效果 1对于分层抽样设计设计效果 1对于整群抽样设计设计效果 1 7 回答率所有的调查都会遇到无回答的困扰即由于某些原因不能获得被抽中样本单位的信息当一个被调查单位的所有或几乎所有的数据都缺失时我们就称之为完全无回答或称单位无回答某次调查的回答率是用调查得到的有效问卷数占预期样本容量的一个百分比来表示的完全无回答会减少有效样本的数量从而会增加抽样误差并进而降低估计值的精度例如如果初始样本容量是400 而通过上述途径估计的回答率为75 那么选择的样本容量就应该为根据预计的回答率调整样本容量一个最简单的例子没有无回答的简单随机抽样样本容量的计算公式简单随机抽样下通常使用误差界限和估计量的标准误来确定所需的样本容量在无放回简单随机抽样情况下总体均值估计量的标准误差的表达式其中 S是总体的标准差如果误差界限设为e 那么解n 得这里Z是对应于某一置信水平的标准正态分布的分位点值其中总体方差S2是最不容易得到的通常需要根据过去对类似总体所做的研究作近似计算为确定n 需要知道期望的误差界限e置信水平对应的标准正态分布的分位点值Z总体规模N总体方差S2 求比例样本容量的确定下面用一个例子说明估计比例问题时样本容量的确定过程在这一例子中所需的精度是根据误差界限确定的所研究的指标取两个值即P和1 P 在这种情况下对于大总体且估计量服从正态分布时 P的总体方差为若总体真值已知那么直接将它代入上面的等式就可以得到样本容量若总体真值未知而且也没有以前的信息可以利用那么可以P 0 5用因为这时的方差最大可以求得一个比较保守的样本容量计算比例估计样本容量的详细步骤先计算初始样本容量然后根据总体的大小设计效果和回答率分别对它进行调整最后求得最终的样本容量第1步计算初始样本容量注意公式 1 使用了有限总体校正因子n N 对总体规模进行校正如果忽略这个因子初始样本容量n1就可以按下列公式计算如果e和P都不用比例表示而用百分数表示 n1的计算公式同样成立第2步使用下列等式对总体的大小进行调整第3步设计效果调整样本容量如果样本设计不是采用简单随机抽样那么可以使用下列公式即用抽样设计效果对样本容量进行调整其中是设计效果并且有在简单随机抽样设计下 B 1 在分层抽样设计下 B 1 在整群抽样设计下 B 1 根据无回答再次进行调整以确定最终的样本容量n 其中 r 估计的回答率第4步无回答调整样本容量样本容量确定的例子下面用实例说明样本容量的计算过程例1 某杂志出版商希望得到读者对该杂志综合满意程度的估计值通过邮寄调查出版商可以联系到所有的2500个订户但是由于时间的限制出版商决定使用简单随机抽样进行电话调查请问应访问多少个读者如果真实的总体比例落在总体比例的样本估计值的 0 10范围内则该出版商将感到满意换句话说误差界限e为0 10 出版商希望调查估计值的置信度为95 这就意味着20次抽样中只有1次所得的样本估计值确定的置信区间不包含总体真值P 而且 Z 1 96 使用简单随机抽样SRS 估计回答率为65 即r 0 65 由于事先没有关于顾客满意度真实比例P的可利用的信息因此我们假定方差取最大的情况即假设P 0 5 假设样本容量的计算步骤第1步计算初始样本容量n1 注意随着P趋向0 50 P 1 P 的值将达到最大值因此选择P 0 5 可得到最保守的n1的估计值第2步调整初始样本容量将总体的大小这一影响样本容量确定的因素也考虑进来记住这一步只适于小规模总体以及中等规模的总体第3步根据抽样设计效果来调整样本容量对这个例子来说由于假设使用简单随机抽样设计所以取B 1 第4步根据无回答情况进行调整确定最终的样本容量n 例2 现准备实施一项民意调查以决定赞成建立一个公园的居民的比例总体由所有在两个城市和一个农村地区居住的年龄在18岁及以上的居民组成通过从每个城市或农村中各抽取一个简单随机样本可以得到一个分层随机样本问每一层需要多大的样本容量总体的单位数为657 500总体在各层的分布情况如下所需要的样本容量取决于调查对数据的具体要求为此可以考虑以下两个方案方案一假设不需要得到各个层估计值的精度而且如果整个地区的估计值达到95 的置信度 5 的误差界限就认为估计值足够可靠了由于没有整个地区赞成建立省级公园居民比例的真值所以我们假设P 0 5 预计回答率为50 计算过程如下第1步计算初始样本容量n 第2步计算初步修正的样本容量n2 注意如果n1 N可以忽略不计则可取n2 n1 第3步根据设计效果再次进行调整n3 对于分层随机抽样通常B 1 但这里由于没有可利用的B的估计值因此取B 1得到保守即更大的样本容量第4步根据无回答情况确定最终的样本容量n 即根据该方案调查所需的样本容量为768 方案二假设对每一层都要求得到误差界限为0 05 置信度为95 的估计结果那么就需要单独计算各层的样本容量即将每一层作为一个总体估计调查所需的样本容量计算之前考虑到城市1和城市2是大总体因而可以认为对它们来说总体的大小对样本容量的确定没有影响由此如果第1 2层中的取值与案例1相同就可以认为这两层需要的样本容量都是768 然而对于农村地区由于总体是小规模的因此总体的大小对该层样本容量的确定会产生一定的影响计算步骤如下城市1 由于可以认为所以城市2 因为城市2也是一个大城市所以同样可以忽略有限总体校正因子对样本容量的影响农村地区因此方案2所需的总样本容量为768 768 732 2 268 比较方案2的总样本容量2 268和方案1的样本容量768 可以发现方案2的样本容量几乎是方案1样本容量的3倍之大换句话说如果仅仅需要得到包含所有层的整个总体的估计值那么要求的样本容量将大大小于需要分别对各层进行估计时所需的样本容量因为对各层分别进行估计时需要确保使每一层的样本容量都足够大两种方案比较例2清楚地说明了要求对各研究域分别进行估计时审查每一层精度要求的重要性但如果调查涉及到许多研究域这一要求可能会使总的样本容量显著增大并可能导致样本容量超出调查研究者的预算和现有资源的承受能力一般来说要求估计的研究域越多所需要的样本容量也就越大因此可能需要在精度与费用之间进行折衷以保证估计的误差在可接受的范围之内通过增大每一层估计值的允许误差或合并其中两个或多个域就可以使精度和费用达成权衡分层抽样的样本分配决定分层抽样效率的一个重要因素是样本单位在层间的分配方式分层抽样设计主要理由使抽样方案的效率高于简单随机抽样或系统抽样确保对要进行分析的特定研究域有足够的样本量以便进行分析避免抽到一个差的样本采用分层抽样时总体被分为同质的互不重叠的几个子总体层然后在每一个层中独立地抽取样本可以使用任何一种抽样方法来对每个层进行抽样从比较简单的方法如简单随机抽样系统抽样到较复杂的方法如概率与大小成比例的抽样 PPS 整群抽样多阶段抽样或多相抽样包含N个单位的总体被分成大小分别为 N1 N2 NL的L个互不重叠的子总体层其中 N N1 N2 NL 从每层中分别独立抽取一个样本各层内样本容量分别为nh h 1 2 L 其中 n n1 n2 nL 分层抽样分配样本的标准固定样本容量先确定总的样本容量然后再在层间分配样本固定变异系数先根据预定的精度确定每层所需样本容量然后将各层的样本容量加总得到总的样本容量固定样本容量第一步确定总的样本容量n第二步计算分配给第h层的样本比例ahah nh n0 ah 1且第三步计算第h层的样本容量nh nah 给定变异系数C下总样本容量n的计算 Nh是第h层单位总数Sh2是第h层单位yi的真实方差C是Y的总体变异系数Y是总体总值的真值ah是分配给第h层的样本比例分配方法按比例分配不按比例分配按比例分配每一层的样本容量nh与该层的总体规模Nh的比例相同即各层的抽样比fh nh Nh是相同的并等于总的抽样比n N 层的规模越大分配的样本容量越就越多例2方案1中计算总样本容量 768 按比例分配方法的各层样本容量确定如下第一步计算各层的分配因子ah 城市1城市2农村第二步计算各层样本容量nh 城市1城市2农村各层抽样比相等均为0 0012 得到一个自加权的样本设计不按比例分配采用不按比例分配方案时各层之间的抽样比不相同 Y 比例分配平方根N 比例分配平方根Y 比例分配最优分配内曼最优分配层方差相等最优分配 Y 比例分配每层的分配因子ah等于该层规模度量与总体规模度量的比率在总体估计值Y是规模度量时使用平方根N 比例分配当考虑各层估计值需要较

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

样本量的确定.ppt

文档简介

温馨提示

最新文档

评论

样本量的确定.ppt

文档简介

温馨提示

最新文档

评论

相关文档