已阅读5页,还剩74页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章估计和样本容量的确定Chapter8EstimationandSamplesizedetermination,本章研究概率抽样的估计问题,不涉及非概率抽样的估计问题。概率抽样估计原理是每个样本单元不仅代表自己,而且还代表被凋查总体中那些没有进入样本的单元。估计就是根据从样本中收集的信息,对总体未知量进行推断的过程。它可以帮助我们依据样本信息推断总体。本章还介绍了样本容量的确定。,本章包括以下四个部分:,一是如何计算样本中每个回答单元的权数(包括权数的调整值);二是如何计算不同数据类型(定性数据和定量数据)各种统计量(总量、均值和比例)的估计值(实际是点估计);三是如何计算抽样误差和区间估计。四是如何确定样本容量。,HowtocomputetheweighofeachrespondingunitHowtoproduceestimatesofdifferentstatisticsfordifferenttypesofdataHowtoevaluatethesamplingerrorforeachestimatebasedontheelectedsample,一、加权weighing,估计的第一步,就是给每个样本单元或样本中的每个回答单元赋予一个权数。设计权数是每个样本单元所代表的调查总体的单元数,它由抽样设计所决定,其实就是样本单元的入样概率的倒数。,等概率抽样的加权Weightingforequalprobabilitysampledesigns,自加权设计的概念。自加权就是所有样本单元的设计权数相同。如简单随机抽样、系统抽样。对于分层抽样,如果按各层的大小等比例分配样本而且各个层内都使用简单随机抽样,那么它也是自加权设计。,举例说明自加权设计。,例7.1:一个由N=1000个人构成的总体被划分为两个层:第一层由N1=400名男性组成,第二层由N2=600名女性组成。从中抽取样本量为n=250的一个样本,将样本等比例地分配给各层,使得两层的抽样比都等于n/N=1/4。,此时,设计权数是多少?对于男性层,入样概率p1为:,对于女性层,入样概率p2为:,这样,每个人都有相同的入样概率1/4,设计权数w皆等于4。,不等概率抽样设计的加权Weightingforunequalprobabilitysampledesigns,当采用的抽样方法不是等概率抽样时,正确地使用设计权数就显得尤为重要。举例说明不等概率抽样设计的加权。,例7.2对于一项公共交通系统调查,总体由1100人组成,并按城乡分为两个层。城市层N1=1000,农村层N2=100。抽取一个n=250的样本:城市层n1=200,农村层n2=50。层总体大小样本量城市N1=1000n1=200农村N2=100n2=50,各层的权数是层单元入样概率的倒数:城市层:农村层:,对无回答的权数调整Weighadjustmentfornonresponse,(1)无问答主要有两种类型:项目无回答:指被调查者虽然接受调查,但是仅仅回答了问卷的一部分。因而不能得到某些项目的信息。在这种情况下,最常用的处理方法就是对缺失数据作插补。插补就是在审核过程中用于解决辨别出来的数据缺失、无效与不一致等问题的过程。,Allsurveysuffersfromnon-response.Thisreferstothesituationwhereinformationfromsampledunitsisunavailableforsomereason.Itmaybethattheunitsselectedinthesampledidnotprovidealloftherequestedinformationorthatsomeoftheprovidedinformationwasunusable,单元无回答:是指一个样本单元所有或几乎所有的数据都缺失。单元无回答的产生,可能是由于被调查者拒绝参加,或者无法联系,或者无法找到被调查者的住所,或者调查效果无效。这里主要研究单元无回答。,(2)无回答的处理办法处理无回答的最简单的办法是忽略它。Theeasiestwaytodealwithnonresponseistoignoreit.如果发现忽略单元无回答是不适当的,最常用的办法是对权数进行调整。无回答者的设计权数需要在回答者间进行重新分配,通常的做法是用一个无回答调整因子乘以设计权数,由此得到无回答的调整权数。,(3)无回答调整因子Nonresponseweightadjustmentfactor无回答调整因子是原样本单元的权数和与给出回答的单元的权数和的比值。,(4)举例说明无回答调整权数的计算对于自加权设计,这个比值也可以用原样本的单元数与回答单元数的比值(回答率的倒数)来表示。,例7.3从一个N=100人的总体中抽取一个n=25人的简单随机样本。结果只有20个人提供了所需的信息。求无回答的调整权数?,步骤1:计算设计权数:入样概率p为:每个样本单元的设计权数为4。,步骤2:对无回答的设计权数进行调整。由于在n=25人中只有nr=20人提供了所需的信息此时无回答调整因子为:,步骤3:计算无回答的调整权数。无回答的调整权数wnr等于设计权数与无回答调整因子的乘积:,于是对数据文件中的每一条记录应赋予权数5。不同子总体往往具有不同的回答率,应对这些子总体分别进行无回答调整。,例7.2(续)如果在例7.2中回答情况如下:城市层中nr,1=150,农村层nr,2=40,层总体大小样本量回答数量城市N1=1000n1=200nr,1=150农村N2=100n2=50nr,2=40,步骤1:各层的设计权数为:城市层wd,1=5,农村层wd,2=2步骤2:各层的无回答调整因子计算如下:城市层:农村层:,步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:城市层:农村层:,辅助信息的使用Useofauxiliaryinformation,(1)使用辅助信息的两个原因:一是使调查的估计值与已知的总体的真值,或者与从另一调查所得的估计值相匹配;二是为了提高估计值的精度。,(2)如何使用辅助信息改进估计量。1)事后分层:在数据收集后,可以利用数据收集的结果,选用其中合适的变量对收集到的样本进行分层,从而对样本的权数进行调整。举例说明如何应用事后分层改进估计量。,例7.4为得到某公司职员是否有吸烟习惯的信息,进行了一项调查。从N=78人的名录中抽出了一个n=25人的简单随机样本。在设计阶段,没有可用于分层的辅助信息。在收集关于吸烟习惯的信息的同时,收集了每个回答者的年龄和性别情况。总共有nr=15个人作了回答,样本数据的分布为:回答者数量男性女性总计吸烟的人数178总人数312nr=15,1.每个回答者的权数以及对无回答的调整计算如下:设计权数是入样概率的倒数:,假定样本中每个被调查者作出回答的概率都是相同的,用调查的总人数除以回答者的总人数,得无回答调整因子:,无回答调整权数wnr即为设计权数与无回答调整因子的乘积:,2.利用无回答的调整权数,可得到如下估计值:调查的估计值男性女性总计吸烟人数5.236.441.6总人数15.662.478.0吸烟者的比例0.330.590.53,通过无回答调整权数,我们估计出该公司约有16名男性职员和62名女性职员,而且男女的吸烟比例不同。假定调查完成后,我们得到了如下辅助信息:该公司共有42名男性职员和36名女性职员。那么,通过调查所得的估计值(16名男性职员和62名女性职员)与真值之间就存在着明显的差异。,3.对样本进行抽样后分层,计算事后分层权数。事后分层权数wpst是(事后)层的辅助变量总和除以该层的回答单元的数量所得的商。在本例中,男性的事后分层权数为:女性的事后分层权数为:,当使用新权数时,估计值为:事后分层估计值男性女性总计吸烟人数142135总人数423678吸烟者的比例0.330.590.45,此时,男性和女性人数的估计值与该公司男性和女性的实际人数一致。注意在每个事后分层的层中吸烟者的比例并没有改变,但总体吸烟者比例的估计发生了改变。在实际中,对每个事后层都计算一个因无回答引起的调整因子,这个因子即总体中各事后层的单元数量N与其事后分层所得的估计值之比(后者用无回答的调整权数进行估计)。,本例事后分层调整因子为:男性:女性:,将这个调整因子应用到无回答调整权数时,就可以得到与前面相同的最终事后分层权数:男性:女性:,等概率抽样设计的比例、平均数与总量的估计Estimatingproportions,averages,andtotalsforequalprobabilitysampledesigns,对自加权抽样设计,所有样本单元的最终权数是相等的。因此,计算比例或均值的估计值时,就可以将权数忽略。对总体总量的估计,只需要用同一个设计权数将样本总值放大即可。但是在实际中通常需要根据无回答或事后分层进行调整。,例7.5a下面所列的样本数据中,所有回答单元都有相同的最终权数5。数据中有一个定量变量(年龄)和两个定性变量(性别和婚姻状况),对两个定性变量取值的编码如下:性别:婚姻状况:1=男性1=已婚2=女性2=单身回答者的各项样本记录如下:,回答者年龄性别婚姻状况权数12911523211534522541612553022563821574311581521592212510491251139225124222513532151418115152621516762151748115181521519242152065215,1)对总体或总体中某个域的总量估计:Estimatesoftotalsforthewholepopulationorforspecifiedsubgroupofthepopulation,总体中男性总数的估计值为样本中男性的总数乘以公共的无回答调整权数wnr:总体中单身女性总数的估计值为样本中单身女性的总数乘以公共的无回答调整权数wnr:,2)如果忽略权数,对总体的比例和平均数的估计如下:Estimatesofproportionsandaveragesforthewholepopulation,总体中男性所占比例的估计值即是样本中男性所占的比例:总体中平均年龄的估计值即是样本的平均年龄:,3)对总体中的域的比例和均值的估计:Estimatesofproportionsandaveragesfordomainsofthepopulation,总体中单身女性所占比例的估计值,即样本中婚姻状况回答为“单身”的女性在所有女性样本中所占的比例为:,总体中男性平均年龄的估计值即为样本中男性的平均年龄:,不等概率抽样设计的比例、平均数与总量的估计Estimatingproportions,averages,andtotalsforunequalprobabilitysampledesigns,在估计过程中,正确使用最终权数不仅对计算不等概率抽样设计的估计值非常重要,而且对于当最终(经调整后的)权数不全相等时,计算自加权设计的估计值也非常重要。,例7.6:,使用分层抽样从总体中抽取了一个n=10个农场的样本,所有10个农场都给出了回答,因此无需对无回答作调整。已经计算出最终权数,现在需要依据下面的数据计算估计值(农场类型中的C表示作物农场,L表示家畜农场)。,层权数农场类型收入(元)15.67C7500015.67L1500015.67C12500015.67C6700015.67L8000015.67C40000216.50C30000216.50C14000216.50L48000216.50C22000,总体农场总数的估计值为:家畜农场总数的估计值为:,家畜农场所占比例的估计值为:总体中所有农场总收入的估计值为:,总体中所有农场的平均收入的估计值为:家畜农场总收入的估计值为:,家畜农场平均收入的估计值为:,主要介绍了两方面内容:一是如何计算某一概率样本的样本量;二是如何在分层抽样中对各层样本单元数进行分配。,四、样本量的确定Samplesizedetermination,一、样本量的确定,由计算误差范围(极限误差)的公式:,可推出计算样本量的公式:,影响调查样本量大小的因素主要有两个:一是调查估计值所希望达到的精度,也就是调查估计值所能允许的误差;二是调查实际操作的限制条件,如经费、时间等。Thesamplesizedeterminationinvolvesbalancingtheprecisionrequirementsoftheestimateswithvariousoperationalconstrainssuchasavailablebudget,resourcesandtime.,2影响精度的因素Factorsaffectingprecisionthereforeaffectthesamplesize,andincludethefollowing:,(1)总体的变异程度大;(2)总体的大小;(3)样本设计方式和所用的估计量;(4)调查的回答率的高低。ThevariabilityofthecharacteristicofinterestinthepopulationThesizeofthepopulationThesampledesignandestimatorusedTheresponserate,总体大小,在样本量确定过程中,总体所起的作用因它的大小而有所差异。对于小规模总体,它起着重要作用;对于中等规模的总体,其作用中等;而大总体对样本量影响的作用很小。,例如:用简单随机抽样估计P,要求在置信度为95%下误差限为0.05所需的样本量(p=0.05),样本设计和估计量Sampledesignandestimator,一般来说,当样本量采用简单随机抽样的计算公式,而实际使用的是更复杂的抽样方式时,为达到给定精度所需的样本量,应该在此基础上乘以一个称为设计效应因子。,设计效应是对于相等的样本量,给定样本设计估计量的抽样方差对简单随机抽样估计量的抽样方差的比率。ThedesigneffectistheratioofthesamplingvarianceoftheestimateunderagivendesigntothesamplingvarianceoftheestimateunderanSRSdesignofthesamesamplesize.,简单随机抽样设计,设计效应等于1;分层抽样设计,设计效应一般小于等于1;整群或多阶抽样设计,设计效应一般大于等于1。Thedesigneffect=1forsimplerandomsampledesignandusuallythedesigneffect=1foraclustersampledesign若过去相同或相似主题的调查所用的抽样设计与我们计划实施的抽样设计相同或相似,就能得到当前调查主要变量设计效应的估计值。我们也可以从试调查中得到设计效应的估计值。,调查的回答率Surveyresponserate,需要根据预计的回答率调整样本量的大小,根据预计的回答率确定一个较大的样本才可能达到精度要求。,样本量的计算步骤Samplesizeformulae,1)对于简单随机抽样,对平均值估计的样本量计算:第1步:计算初始样本量,第2步:对总体大小进行调整:第3步:如果抽样设计不是简单随机抽样,则用下面公式对样本量进行调整:其中,B是设计效应。,第4步:根据无回答再次进行调整,以确定最终的样本量:其中,r为预计的回答率。,对于简单随机抽样,对比例估计的样本量的计算步骤:因为在比例估计中,样本的方差变为:于是第一步计算公式变为:,若在以往调查中可得总体比例的一个较好估计,那么直接将它代入上面的公式就可以得到所需的样本量;否则可以用p=0.5,因为这时总体的方差最大。,从第二步到第四步,与前面对平均值估计的步骤完全一样。,例准备实施一项民意调查,以测定赞成建立一个省级公园的居民的比例。总体由所有在两个城市和一个农村地区居住的成年人组成。通过从每个城市及农村中各抽取一个简单随机样本,得到一个分层随机样本。问每一层需要多大的样本量?,总体大小即总人口数为657500人,总体在各层的分布情况如下:,所
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026湖南长沙市芙蓉区定王台街道社区卫生服务中心招聘2人备考题库及一套答案详解
- 2026陕西韩城市人力资源和社会保障局高层次人才校园招聘34人备考题库及一套完整答案详解
- 川南幼儿师范高等专科学校2026年普通高校助学助管员招聘备考题库(39人)及一套答案详解
- 2026浙江杭州市保俶塔实验学校招聘初中实验员(非事业)1人备考题库完整参考答案详解
- 2026四川内江市消防救援局社会招聘59人备考题库及完整答案详解一套
- 2026云南楚雄高新区投资控股集团招聘5人备考题库参考答案详解
- 2026中国华电集团有限公司浙江公司校园招聘备考题库(第三批)及答案详解一套
- 2026广西来宾市合山市统计局商调事业单位人员1人备考题库及参考答案详解
- 2026广东韶关南雄市教师招聘及选聘42人备考题库(编制招聘19人选聘23人)及参考答案详解一套
- 2026青纺联(枣庄)纤维科技有限公司招聘备考题库及完整答案详解一套
- 2026年全国高考语文(全国Ⅰ卷)真题及答案
- 2023年1月浙江英语首考读后续写课件-2024届高三英语二轮复习
- 2024年贵州省贵阳市中考生物地理试题(含答案解析)
- JT-T-1202-2018城市公共汽电车场站配置规范
- 课题评审活动策划方案
- 防汛责任人培训课件
- 借支单模板完
- 温州市中考:《科学》2023年考试真题和参考答案
- “以字行腔”在中国民族声乐教学中的实践与运用
- 旅游政策与法规第3版李海峰课后参考答案
- 反恐C-TPAT程序文件整套(通用)
评论
0/150
提交评论