抽样估计与样本量确定.ppt_第1页
抽样估计与样本量确定.ppt_第2页
抽样估计与样本量确定.ppt_第3页
抽样估计与样本量确定.ppt_第4页
抽样估计与样本量确定.ppt_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,101引言,估计就是根据从样本中收集的信息对总体未知量进行推断的过程。抽样估计涉及的重要问题:一个样本单元的设计权数问题。抽样估计,包括总体总量、均值和比例以及抽样误差的估计。样本量的确定构成抽样设计程序的重要步骤和内容。同时,样本量的确定与样本估计值的精度密不可分。,2,102加权及权数调整,设计权数设计权数是指每个样本单元所代表的调查总体的单元数,它是由抽样设计所决定的,通常以wd表示。确定设计权数是估计的第一步。加权估计设计权数其实就是样本单元的入样概率的倒数。假如入样概率是1/10,那么每个入选样本代表总体中的10个单元,此时设计权数即为10。不同样本单元的设计权数可能不同,这取决于抽样设计。因此,加权估计应区分等概率抽样的加权和不等概率抽样的加权。,3,等概率抽样的加权,当每个单元都有相同的入样概率时,所有样本单元的设计权数都相同,这种抽样就是自加权设计。SRS抽样和SYS抽样都属于自加权设计,比例分层抽样也是自加权设计。另外,PPS等也可以设计为一个自加权抽样。对于自加权抽样设计,如果无需对权数调整,则在计算比例、均值等估计量时可将其忽略,对总值估计也仅需将样本总值乘上某个倍数。(例P215),4,不等概率抽样的加权,自加权设计并不总是可行的。如,在使用分层抽样进行一个全国调查时,可能需要采用纽曼分层。当所采用的抽样设计不是等概率时,正确地使用设计权数就显得尤为重要。例102有关各层总体数和样本数资料见表10-1。对于这项调查,被调查者的设计权数是多少呢?,5,设计权数的调整,上述等概率抽样的加权和不等概率抽样的加权都是加权的基本形式。权数估计常会遇到更真实和复杂的情况:考虑无回答的情况,然后对权数做出调整;考虑来自其他渠道的、更具权威性的某些辅助信息,将它们合并到权数中。,6,对无回答的权数调整,单元无回答是指一个样本单元几乎所有的数据都缺失。简单的处理办法是忽略它。然而,如果发现忽略单元无回答是不适当的,则应该对权数进行调整。即,设计权数无回答调整因子=无回答的调整权数无回答调整因子是原样本单元的权数和与给出回答的单元的权数和的比值。对于自加权设计,该比值可用原样本的单元数与给出回答的单元数的比值来表示。无回答权数调整应区分两种不同情况:等概率抽样不等概率抽样,7,对无回答的权数调整(SRS),例103从一个N=100人的总体中抽取一个n25人的简单随机样本。记回答单元的数量为nr,结果显示只有20个人提供了所需的信息。那么,此时无回答的调整权数是多少?,步骤1:计算设计权数。入样概率p为:P=n/N=25/100=1/4故,每个样本单元的设计权数为4。步骤2:计算无回答调整因子。由于在n25人中只有nr=20人提供了所需的信息,最终样本量应为20。假定回答单元不仅能代表回答单元且能代表无回答单元,计算无回答调整因子为:n/nr=25/20=1.25步骤3:计算无回答的调整权数。无回答的调整权数wnr等于设计权数与无回答调整因子的乘积:,8,对无回答的权数调整(STR),例104对于一项公共交通系统调查,总体由1100人组成,并按城乡分为两个层。分层及样本数据如表10-2所示。那么,回答者的权数是多少?,表10-2公交系统调查的分层数据,步骤1:各层的设计权数为:城市层wd,1N1/n1=5农村层wd,2N2/n2=2步骤2:调整以弥补无回答。各层的无回答调整因子计算如下:城市层:n1/nr,1=200/150=1.33农村层:n2/nr,2=50/40=1.25步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:城市层:农村层:,9,使用辅助信息调整权数,为什么要使用辅助信息来调整权数呢?首先,使调查的估计值与已知总体总值相匹配。例如,使用最新的人口普查数据来调整估计值,以确保这些估计值(如年龄、性别分布等)的一致性。二是为了提高估计值的精度。将辅助信息与抽样设计相结合,将有助于提高估计的精度。要想在调查设计阶段使用辅助信息,抽样框中的所有单元都必须具备这个辅助信息。否则,就只能在数据收集上来后,在估计阶段利用辅助信息提高估计值的精度。,10,使用辅助信息调整权数,例105为得到某公司职员是否有吸烟习惯的信息,进行了一项调查。从N=780人的名录中抽出了一个n=100人的简单随机样本。在收集有关吸烟习惯信息时,收集了每个回答者的年龄和性别情况,且100人都做出了回答,由此得到样本数据的分布如表10-3所示:,表10-5利用辅助信息对抽样调查估计值的调整,表10-3某公司吸烟习惯抽样调查数据,表10-4根据某公司吸烟习惯抽样计算的估计值,11,103抽样分布与抽样误差,抽样调查的目的是要对总体做出推断。了解统计推断的理论基础,首先注意区分三种不同性质的分布:总体分布样本分布抽样分布同时,特别注意总体分布与抽样分布的关系。,12,三种不同性质的分布,总体分布:总体各单位的观察值所形成的频数分布,总体分布通常是未知的。样本分布:一个样本中各个观察值所形成的频数分布就叫做样本分布。当样本容量n逐渐增大时,样本分布逐渐接近总体的分布。抽样分布:样本统计量的抽样分布,是指在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。抽样分布是一种理论分布。抽样分布提供了样本统计量长远而稳定的信息,是进行推断的理论基础。,表10-6各种分布的均值、比例和标准差的符号表示,13,样本均值的抽样分布,样本均值的抽样分布,是指在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布。例106设一个总体,含有4个元素,即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。则总体分布如图10-1。现在从总体中有放回地抽取n2的简单随机样本,则样本均值的抽样分布如图10-2。,14,均值抽样分布的规律,15,样本比例的抽样分布,样本比例的抽样分布,是在重复抽取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布。比较样本比例的分布与总体分布,得出如下结论:当样本容量足够大时,样本比例的抽样分布近似地服从正态分布,样本比例的数学期望等于总体比例,即E(p)=;在重复抽样条件下,样本比例的方差为总体方差的1/n,即样本比例的中心极限定理设从比例为、方差为2的一个任意总体中随机抽取容量为n的样本,当n足够大(n30)时,样本比例的抽样分布近似服从比例为、方差为(1-)/n的正态分布。,16,正态分布及标准值Z,正态分布有以下几个重要特征:正态曲线呈钟形,曲线下的面积等于1,表明它包括了所有的调查结果。在正态曲线下任意两个变量值之间的面积,等于在这一范围内随机抽取一个观察对象的概率。例如,任意抽取一个样本单元,IQ分数落在55-145之间的概率是99.72%,即图10-3中正态曲线下55-145之间的面积。所有的正态分布在平均数1个标准差之间的面积相同,都占曲线下方面积的6826。这是正态分布的比例性,为统计推断提供了基础。一个正态分布的特殊性由其平均数和标准差决定。,17,标准正态分布,标准正态分布是一种平均值等于0、标准差等于1的正态分布(如图10-4)。研究者可以将任何正态变量X转换为标准正态变量值(标准值)Z。计算方法就是,用将要进行转换的值中减去均值,然后再除以标准差。即求出标准值Z之后,就可以查阅正态分布表(附录B-2),得到Z值的标准正态分布曲线下的面积(概率)。,式中,x变量值;平均数的假设或预期值;变量的标准差。,18,104参数估计,参数估计就是根据从样本中收集的信息对总体参数进行推断的过程。样本估计量(如样本均值、比例等)都是随机变量,在具有特定概率(抽样)分布的样本之间有所变化。参数估计就是根据推断理论所阐明的抽样分布与总体分布之间的关系,由样本统计量的具体值估计总体参数(如总体均值、比例和方差等)。参数估计有两种估计方法:点估计区间估计,19,总体参数的点估计,点估计就是用样本的估计量直接作为总体参数的估计值。例如,用样本均值直接作为总体均值的估计,或者用两个样本均值之差直接作为总体均值之差的估计。点估计是容易做到的,但是,点估计没有给出估计值接近总体参数程度的信息。当样本均值与总体均值不完全相同时,样本均值与实际总体均值就存在着差距,形成抽样误差。,20,总体参数的区间估计,区间估计:在点估计的基础上,对总体参数的区间或范围进行估计。区间估计不仅要说明区间大小,还要说明点估计值在区间内的概率,即置信度。置信度是一个百分比,用来说明结果正确的长期概率。被估计的区间则被称为置信区间。根据样本统计量的抽样分布理论,总体参数的区间范围是在一定的概率度下,由样本统计量加减抽样误差而得到。,21,总体均值的区间估计,在SRS抽样情况下,样本统计量的抽样分布均服从正态分布。可使用正态分布统计量Z来描述总体均值的区间估计,将总体均值区间估计表达为:,=,在上式中,代表一定置信度下的Z值。注意,应除以2,以便确定均值的每一边所包含曲线下区域的百分比。代表样本均值的标准误,当未知,用S来估计,样本均值的标准误:当已知,样本均值的标准误的估计公式:,22,总体均值的区间估计,t-分布若调查从总体中随机抽取一个很小样本(n30),则样本均值的抽样分布服从自由度为(n-1)的t-分布(较正态分布平坦和分散)。随着自由度增大,t分布也逐渐趋于正态分布。在上述假设条件下,使用t分布统计量(附录B-3)来估计总体均值的置信区间。,t分布条件下总体均值置信区间的估计方法与正态分布条件下非常类似,只是查t分布表需要考虑自由度为(n-1)。,统计量t(n-1),总体置信区间=,2019/12/13,23,可编辑,24,总体均值的区间估计例题,例107某银行收集到由36信用卡用户组成的随机样本,得到各用户年龄(周岁)数据如下23,35,39,27,36,44;36,42,46,43,31,33,42,53,45,54,47,24,34,28,39,36,44,40,39,49,38,34,48,50,34,39,45,48,45,32。试建立信用卡用户年龄90%的置信区间。,25,总体比例的区间估计,总体比例的区间估计假定总体服从二项分布。二项分布是指重复进行n次试验,出现“成功”的次数的概率分布。总体比例的抽样分布仍然可以由正态分布来近似,即适用中心极限定理。使用正态分布统计量Z来描述总体比例的区间估计,将总体比例区间估计表达如下:,=p,在上式中,代表一定置信度下的Z值。注意,应除以2,以便确定比例的每一边所包含曲线下区域的百分比。代表样本比例的标准误,当未知,样本比例的标准误的估计式:当已知,样本比例的标准误的估计式:,26,总体比例的区间估计例题,例108某商业公司想要估计经常光顾其大型购物中心中女性所占的比例,随机地抽取了400名经常性顾客,发现其中260名为女性。试以95%的置信水平估计经常光顾该大型购物中心中女性比例的置信区间。,27,总体方差的区间估计,在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布,构成样本方差的抽样分布。对于来自正态总体的简单随机样本,则(n-1)倍的样本方差与总体方差的比值的抽样分布服从自由度为(n-1)的2分布,即,2(n-1),2分布的特性总体方差的区间估计提供了理论依据。当总体服从正态分布时,总体方差2的点估计量为s2。借助2分布表(附录B-4)可以查得21-/2和2/2分布曲线下的面积(概率)。然后,可以给出总体方差在1-置信水平下的区间估计:,28,105样本量的确定,样本量的确定问题,首先涉及对总体参数估计值的精度要求,同时也涉及与各种运作限制(如可获得的预算、资源和时间)之间的平衡问题。理论上,总体参数估计的精度取决于抽样误差和非抽样误差两类误差的大小。但是,确定样本量是为控制抽样误差,而不是对非抽样误差进行控制,进而提高对总体估计的精度。,29,估计精度与样本量的关系,总体参数的置信区间可以描述为:总体参数=总体参数的估计值抽样误差的范围显然,估计精度取决于抽样误差大小。假设用E来定义抽样误差范围,则当简单随机选择一个容量足够大(n30)的样本时,样本均值的抽样误差范围可以表示为:抽样误差的范围是估计量标准误的倍数,乘数因子取决于在调查估计中所希望达到的置信水平。在放回(重复)的SRS抽样条件下,假设回答率为100%,则样本均值的标准误公式可用来解释估计精度与样本量之间的基本关系:,E,30,估计精度与样本量,无论是重复抽样还是不重复抽样,抽样误差的大小(即估计精度)与样本量紧密相关:随着样本量的增加,对应估计量的抽样标准差就会不断减小,调查估计的精度则会不断提高。同理,当要求不断提高调查估计值的精度要求时,所需样本量也会不断增加。样本量要根据估计所要求的精度来计算和确定。下面的讨论分为两部分:对初始样本量的确定及考虑复杂情况的考虑及对初始样本量的调整,31,初始样本量的确定,1给定总体均值估计精度下确定初始样本量初始样本量基于以下假定:抽样采用放回的SRS抽样,并且调查回答率为100%。,样本均值的标准误表示为:抽样误差范围表示为:E从上式中解得样本量n:从公式看出,样本容量n与置信系数和总体方差成正比,与边际误差成反比。为确定样本量n,需要知道允许的抽样误差范围E、与给定置信水平相对应的标准值Z、总体方差估计2。,32,初始样本量的确定,2给定比例估计精度下确定初始样本量初始样本量基于以下假定:抽样采用放回的SRS抽样,并且调查回答率为100%。,样本比例的标准误表示为:抽样误差范围表示为:E从上式中解得样本量n:从公式看出,样本容量n与置信系数和总体方差成正比,与边际误差成反比。为确定样本量n,需要知道允许的抽样误差范围E、与给定置信水平相对应的标准值Z、总体比例。,33,对样本量基本公式的应用考虑,在确定初始样本量的公式中,抽样误差范围假定已知。但在实践中,如何确定调查估计的精度水平(抽样误差范围),却是一个值得思考的问题。1多大的抽样误差对调研目标而言可以接受常用95的置信度、6的抽样误差范围对客户的调查目标是否适宜,估计值是否需要更高或者更低的精度?2是否需要对调查总体中的子总体(域)进行估计例如,对一项全国性抽样调查而言,主办者可能要求对全国估计的抽样误差范围为3;但是对于省级估计值,抽样误差范围可能确定为5;而对于地市的估计值,10的抽样误差范围就足够了。,34,对样本量基本公式的应用考虑,3相对于调查估计值的抽样误差应该多大为宜例如,政府要决定是否执行为某种使用人数较少的语种提供服务的新政策,假定做出决定的前提,是至少有5%的人群对这一语种存在需求。在这里,p005就是要确定的最小估计值。相对于该估计值,必须规定更小的抽样误差范围,如001(即,置信区间为005001)。4精度要求的实际含义是什么随着样本量的增加,估计值的精度也将提高。然而,精度的得益并不与样本量的增加成正比。如表10-10中描述的例子。,表10-10简单随机抽样估计比例P的样本量与抽样误差范围(当P=05),35,关于确定样本量的现实复杂考虑,在确定样本量基本公式之外,又有一些现实因素影响调查估计量的精度,进而影响样本量。这些因素主要包括总体指标的变异程度总体大小,样本设计和所用的估计量以及回答率,36,关于确定样本量的现实复杂考虑,1总体的变异程度随着调查总体中所研究指标的实际变异程度的增加,样本量也必须随之增大,以满足估计的精度要求。为确保达到调查要求的精度,在计算样本量时,建议对某一指标的总体变异程度采取保守估计,即假定研究指标具有最大的变异程度。例如,对于二元变量,应该假定总体中该变量的变异程度为50-50对半平分,即假定p=05。为确保样本量对所有的研究指标都足够大,应该根据最大变异程度或被认为最重要的指标来确定样本量。,37,关于确定样本量的现实复杂考虑,2总体大小在基本公式中,样本量的确定似乎与总体大小没有关系。因为当时假定在大总体中进行有放回的重复抽样,抽样总体的影响被忽略掉了。然而,在调研实践中,总体单元数量可能是有限的,而且可能采取非重复抽样,这时总体大小对样本容量的影响就应该被考虑进来了。,在样本不放回的非重复抽样条件下样本均值的标准误表示为:抽样误差范围表示为:E从上式中解得样本量:,在样本不放回的非重复抽样条件下样本比例的标准误:抽样误差范围表示为:E从上式中解得样本量:,38,关于确定样本量的现实复杂考虑,3样本设计和估计量当使用复杂的样本设计时,估计值可能比SRS精确。当估计值更精确时,称所采用的样本设计更为有效。因此,实际抽样时必须考虑实际所用抽样设计的效率,并对初始样本量做出调整。即,在SRS抽样的样本量计算公式基础上乘以一个设计效应因子。设计效应(Deff)是指在给定抽样设计下估计值的抽样方差,与相等样本量下的简单随机抽样的估计值的抽样方差之比。,设某一抽样设计样本估计值的方差为,同等样本量的SRS设计的样本估计值的方差为,则抽样设计效应:Deff=显然,对于简单随机抽样设计,Deff=1;若Deff1,表明实际使用的抽样设计的效率高于简单随机抽样;若Deff1,表明实际使用的抽样设计的效率低于简单随机抽样。特定抽样设计所需的样本量(n1)调整为:n1=n0Deff,39,关于确定样本量的现实复杂考虑,4调查的回答率调查回答率是指调查回收的有效问卷数占计划访问的样本数量的百分比。在执行抽样过程中,会出现无效问卷,这意味着计划样本量中的一部分无法产生有效数据,并导致估计精度的降低。为达到估计精度的要求,调研机构需要根据预计的回答率调整样本量的大小,根据预计的回答率确定一个较大的样本。预计的回答率是依据对同一总体的小范围的试点调查或者过去类似的调查得到的。假设理论上确定的样本量为nt,预计回答率为r,则调整后的样本量n1就表示为:n1nt/r,40,基于现实考虑的样本量的计算,以比例估计为例说明计算样本量的详细步骤如下:第1步:计算初始样本量设允许的抽样误差范围为E,与给定置信水平相对应的标准值为Z,总体比例为。则初始样本量n0计算为:第2步:根据总体大小对初始样本量进行调整(两种方法)一是在方差估计中直接考虑总体大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论