样本量的确定PPT课件_第1页
样本量的确定PPT课件_第2页
样本量的确定PPT课件_第3页
样本量的确定PPT课件_第4页
样本量的确定PPT课件_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.1,确定样本大小,北京广播大学新闻通讯员调查统计研究所,2001年5月,沈浩,2,本主要指导用,简单随机抽样计算方法,分层抽样中确定各层抽样单位数分配方法,3、样品容量确定、样品容量=成本准确度(函数)、样品容量确定、预定准确度和现有资金处理、资源和时间等限制、最终样品大小确定是上述因素之间的权衡。4,分层样品分配样品标准,总样品容量预先确定满足预期要求的准确度预先确定,5,影响调查样本容量的因素,预测值希望达到的准确性调查估算允许的错误调查。估计量的样本方差较小,估计量的准确度越高,所需样本容量对精度影响很大的因素也会影响样本容量的大小,研究指标的总体大小样本设计和使用估计量的无响应率。6、在整个调查期间,客户提供的费用能支持多大容量的样本,除了估计值的准确性外,调查实际工作的限制可能是影响样本容量的最大因素。7,1。在给定的准确度水平下,样品容量的确定与调查估算值所需的准确度密切相关,如果通过采样而不是传感器收集数据,则会发生采样错误。精度由取样方差测量。随着样品容量的增加,调查估算的准确度也不断提高。8,经常使用标准误差极限变化系数、采样方差的几种测量方法、采样调查的样本容量确定、这些测量方法中的一种或多种来说明准确度。9,非采样误差,非采样误差对调查估算值的准确度有显着影响。无论非采样错误的大小和采样容量的大小如何,都可以确定采样容量。不把这些错误当作影响因素,为了确保调查结果的准确性,必须消除非取样错误,至少要尽量减少。10.我们将说明在给定的错误限制下确定样本容量的过程,因此,需要审查置信区间概念。在具有正态分布的估计中,95%置信区间在相同条件下重复采样100次的100个采样中,由95个采样的估计值确定的区间包含整体true值,该区间是以采样的估计值为中心半径为1.96倍的标准误差。置信区间,11,2。误差限制,误差限制是标准误差的倍数。标准误差是估计量采样方差的平方根乘数系数。取决于您希望在调查估计中实现的信任级别(或可靠性)。12,对于估计值t,在给定标准误差t的情况下,置信区间的公式为(t-ZT ZT,其中ZT是误差限制,Z是对应于置信水平的标准正态分布的子位置值。此z值可以在大多数统计教科书中包含的标准正态分布表中找到。13,典型的z值为:对于90%置信度,相应的z值为1.64,对于95%置信度,相应的z值为1.96,对于99%置信度,相应的z值为2.56,14,3。允许抽样方差的大小,调查估计值能容忍多大的不确定性?即可从workspace页面中移除物件。常用的95%可靠性,5%误差限制是我们的调查目标是否需要更高或更低的准确度,如果调查结果用于做出重大意义或风险更大的决定,估计值可能需要更高的准确度。如果我们只想得到对我们单纯研究的整体特征的感性理解,可以用稍低的准确度满足要求。15,允许多少采样方差,需要估计调查的子整体(或称域)?调查结果可能需要称为子整体估计(或域估计)的粒度数据。要使数据满足调查要求,必须确定其准确性与调查估计值有多大差距。16,精度的要求可能因子整体而异。例如,在国家一级的抽样调查中,对于国家一级的数据,调查组织者可能需要3%的误差限度。但是,对于地方水平的估计,5%的误差限度可以满足要求。以低于地方水平的估计,10%的误差限度就足够了。17,在这种情况下,通常分层每个研究域,分别计算每个层的样本容量,将每个研究域中所有层的样本容量合计,调查所需的总样本容量,18,与调查估计值相关的样本方差有多大,满足调查结果要求的准确性的最低调查估计值是多少?假设我们做比例估计。其中某些指标的比率大于P=50%,而其他指标的比率可能更低(例如P=5%或P=10%事实,P=0到P=1.0之间)。在确定调查估计值所需的准确度时,应考虑到达到确定精度时得到的最小估计值。如果最小估计值为P=5%,则错误限制必须小于5%。19例:一家公司决定,如果该地区的P=4%以上对产品有需求,则生产产品。所以该公司的市场调查部门准备对当地居民进行调查,估计消费者对该产品的需求。P=4%5%左右的调查估计值不合适,必须指定小于或等于0.01、0.02的较小错误限制。置信区间必须为(0.050.01)或(0.050.02)。20,Table1采样容量,P=0.5使用简单随机采样估计P可以达到的错误限制。21,最优解,为了追求最小误差边界,不能选择最大可能的样本。在接受大错误边界的同时,有效地利用现有资源,可以获得精度相对高的预期结果。使用较小的样品代替较大的样品,从而产生节省的成本。修改影响调查结果准确性的其他因素(如拒绝回答者、进行小规模试点调查、培训采访人员等)可能会更有效率。22,4。整个变异,整个调查过程中,我们研究的项目或指标可能因个别、家庭或企业而异。不能控制这些可变性,但其大小会影响在给定详细程度下研究项目所需样本的容量。23,假设本公司为了估计对某企业提供的服务满意的顾客比例,首次进行了调查。为客户满意度量表设置两个可能的值:满意或不满意。24,表2列出了满意或不满意的客户可能占据的比例组合,以及。25在整体上很难准确测量非常可变或不常出现的特性。需要更大的样本容量才能为这些变量提供准确的估计值。调查的特征具有最大的变异程度,调查所需的样本容量也最大。对于只有两个值的要素,当两个值在整个范围内以50-50的比率显示时,要素的变化最大。,总体变异程度,26,如果正在研究的特征的实际变异大于我们在确定样本容量时估算的变异程度,则调查估算值的准确度将低于预期的准确度。相反,如果正在研究的特征的实际变异水平小于我们估计的变异程度,抽样调查的估计将比调查对象所需的估计更准确。27,确保调查要求的正确性,保守地估计特征的总体变异程度调查中,如果事先不知道测量特征变异程度的数据,则假设研究特征的变异最大,对于只有两个可能值的变量,整体上应假定该变量的变异程度为两个值的50-50平分值。所需的示例容量,28,多个测量的指标,抽样调查时测量指标(或项目、特征)通常多于一个,在某些情况下,每个数字大的指标的变化程度可能不同,对于某个指标,样本大小足够大,其他变化幅度大的指标,样本容量可以足够小,足以大于所有研究指标。必须根据最大的变异或认为最重要的指标确定样品容量。29,5。整体大小,整体效果取决于大小。小型整体大小对整个中等大小起着重要作用。中等大小整体大小对确定采样容量没有影响。在样品容量确定过程中。30,表3:使用不同大小的完整P=0.5的简单随机采样。在误差限制为0.05,置信度为95%的标准中,估计p所需的样品容量。31、对于小规模群体,通常需要调查大比例的样品,以确保所需的准确度。因此,在实际运营中,经常采用普查,而不是对小规模总括进行抽样调查。32,假设采样容量计算中常用的采样方法为简单随机采样(SRS)。因此,假设样品容量计算公式为简单随机抽样。6 .样品设计和估计,分层采样通常会产生比相同大小的简单随机采样更准确或至少相同的估计。一般来说,在估计相同的估计值时,准确度低于简单随机抽样的估计值的总体抽样结果值,33,设计效果因素,通常假定采样容量的计算公式为简单随机采样SRS,但是,使用更复杂的采样方法时,需要将达到确定精度所需的采样容量乘以设计效果因素。设计效果=在相同大小的样本容量下,根据给定样本设计的估计量的采样分布与简单随机抽样估计量的采样分布之比。对于简单随机采样设计,设计效果=1对于分层采样设计,设计效果1对于完整采样设计,设计效果1。34,7。回应率,所有调查由于特定原因无法获取有关正在抽中的抽样单位的信息如果调查单位中的所有或几乎所有数据都丢失,则称为全部无回应(或单位无回应)的调查的回应率将减少抽样数,从而增加抽样误差并减少估计的准确度。35例如,如果初始抽样容量为400,通过上述路径预测的回应率为75%,则选择的抽样容量应为:根据预期响应率调整样本容量。36,在最简单的例子中,无响应简单随机抽样容量的计算公式,简单随机抽样通常使用误差限制和估计量的标准误差来确定所需的抽样容量。37,不重新放,整体平均估计的标准误差的表达式。其中s表示总体标准偏差,38,如果误差范围设置为e:解决方案n,路得:其中z是对应于信任级别的标准正态分布的子位置值。,39,其中,总体方差S2最不容易得到,通常需要基于对相似总体的历史研究进行近似计算。为了确定n,对应于所需误差极限e信任级别的标准正态分布的子位置值z全大小n总体方差S2,40,确定比例样本容量,使用以下示例说明在估计比例问题时确定样本容量的过程。在此范例中,所需的精确度是根据错误限制确定的,正在研究的指标取两个值:P和1-P。在这种情况下,对于整个总体,如果估计遵循正态分布,则p的总体方差为:41,如果整个阵值已知,则直接将其添加到上述等式中即可获得样本容量。如果整体真值未知,且以前的信息不可用,则使用P=0.5。此时,由于方差最大,可以获得相对保守的采样容量。42,可以计算按比例估算的样本容量的详细步长,首先计算初始样本容量,然后根据总体大小、设计效果和响应率分别使用,步骤43,步骤1:初始样本容量计算,注意公式(1)使用有限整体修正系数n/N修正整体大小。如果忽略此系数,则初始采样容量n1将显示e和p(不含比率),并且以百分比表示,则n1的方程式也计算如下:步骤、44、步骤2:使用以下等式调整整体大小,步骤45,3:如果使用设计效果调整采样容量,并且采样设计不使用简单随机采样,则可以使用以下公式调整采样容量:其中是设计效果,而是:简单随机采样设计,B=1,分层采样设计,B1,群集采样设计下的B1。46,根据无响应重新调整以确定最终样品容量n。其中r=预期回应率。步骤4:无样本容量调整,47,示例容量确定示例,示例容量计算过程示例如下:范例1。一家杂志发行人希望得到读者对该杂志综合满意度的估计。出版社可以通过邮件调查联系2500名订户。但是由于时间限制,出版社决定进行使用简单随机抽样的电话调查。需要访问多少读者?48,如果实际总费率在总比例的样本估计值0.10范围内,则相应的出版商将满意。也就是说,错误限制e为0.10。出版商希望以95%的预期可靠性调查预期。也就是说,在20个样本中,仅1次,由结果样本估计确定的置信区间不包含全部真值p,Z=1.96。使用简单随机采样SRS。预计答复率为65%。也就是r=0.65。客户满意度实际百分比P的可用信息事先不存在,因此假设方差最大,即P=0.5。假设,49,采样容量的计算阶段,步骤1:计算初始采样容量n1,随着p (1-p)值增加到0.50趋势,P(1-P)的值将达到最大值,因此选择P=0.5将得到最保守的n1的估计值。步骤50,2:调整初始采样容量,同时考虑总体大小影响采样容量确定的因素。(请记住,此步骤仅适用于较小的整体和中等规模的整体),步骤51,3:根据样品设计效果调整样品容量。此范例假定使用简单随机取样设计,因此需要B=1。步骤52,4:最终采样容量n,53、范例2。目前,将进行决定赞成建立公园的居民比例的舆论调查。由两个城市和一个农村地区所有18岁以上的居民组成。在每个城市或农村地区,可以抽取简单的随机样本,得到分层的随机样本。每层需要多少样品容量?54,整个单位657,500分布在各个层次,如下所示:所需的示例容量取决于数据的特定要求,为此,可以考虑以下两种方案:,55,方案1,假定无需获得每层估计值的准确性,如果整个区域的估计值达到95%的置信度,5%的误差限制,则认为估计值是足够可靠的。因为没有赞成建立地方公园居民比率的整个地区的真价,所以假设P=0.5,回答率预计为50%。56,计算过程如下:步骤1:计算初始样本容量n,步骤57,2:初步修正样本容量N2计算(注意:如果n1/N可以忽略,则优选n2=n1),步骤58,3:根据设计效果再次调整n3;对于分层随机采样,通常为B1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论