市场调查 估计ppt课件.ppt_第1页
市场调查 估计ppt课件.ppt_第2页
市场调查 估计ppt课件.ppt_第3页
市场调查 估计ppt课件.ppt_第4页
市场调查 估计ppt课件.ppt_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章估计和样本容量的确定Chapter8EstimationandSamplesizedetermination 本章研究概率抽样的估计问题 不涉及非概率抽样的估计问题 概率抽样估计原理是每个样本单元不仅代表自己 而且还代表被凋查总体中那些没有进入样本的单元 估计就是根据从样本中收集的信息 对总体未知量进行推断的过程 它可以帮助我们依据样本信息推断总体 本章还介绍了样本容量的确定 1 本章包括以下四个部分 一是如何计算样本中每个回答单元的权数 包括权数的调整值 二是如何计算不同数据类型 定性数据和定量数据 各种统计量 总量 均值和比例 的估计值 实际是点估计 三是如何计算抽样误差和区间估计 四是如何确定样本容量 2 HowtocomputetheweighofeachrespondingunitHowtoproduceestimatesofdifferentstatisticsfordifferenttypesofdataHowtoevaluatethesamplingerrorforeachestimatebasedontheelectedsample 3 一 加权weighing 估计的第一步 就是给每个样本单元或样本中的每个回答单元赋予一个权数 设计权数是每个样本单元所代表的调查总体的单元数 它由抽样设计所决定 其实就是样本单元的入样概率的倒数 4 等概率抽样的加权Weightingforequalprobabilitysampledesigns 自加权设计的概念 自加权就是所有样本单元的设计权数相同 如简单随机抽样 系统抽样 对于分层抽样 如果按各层的大小等比例分配样本而且各个层内都使用简单随机抽样 那么它也是自加权设计 5 举例说明自加权设计 例7 1 一个由N 1000个人构成的总体被划分为两个层 第一层由N1 400名男性组成 第二层由N2 600名女性组成 从中抽取样本量为n 250的一个样本 将样本等比例地分配给各层 使得两层的抽样比都等于n N 1 4 6 此时 设计权数是多少 对于男性层 入样概率p1为 7 对于女性层 入样概率p2为 8 这样 每个人都有相同的入样概率1 4 设计权数w皆等于4 9 不等概率抽样设计的加权Weightingforunequalprobabilitysampledesigns 当采用的抽样方法不是等概率抽样时 正确地使用设计权数就显得尤为重要 举例说明不等概率抽样设计的加权 10 例7 2对于一项公共交通系统调查 总体由1100人组成 并按城乡分为两个层 城市层N1 1000 农村层N2 100 抽取一个n 250的样本 城市层n1 200 农村层n2 50 层总体大小样本量城市N1 1000n1 200农村N2 100n2 50 11 各层的权数是层单元入样概率的倒数 城市层 农村层 12 对无回答的权数调整Weighadjustmentfornonresponse 1 无问答主要有两种类型 项目无回答 指被调查者虽然接受调查 但是仅仅回答了问卷的一部分 因而不能得到某些项目的信息 在这种情况下 最常用的处理方法就是对缺失数据作插补 插补就是在审核过程中用于解决辨别出来的数据缺失 无效与不一致等问题的过程 13 Allsurveysuffersfromnon response Thisreferstothesituationwhereinformationfromsampledunitsisunavailableforsomereason Itmaybethattheunitsselectedinthesampledidnotprovidealloftherequestedinformationorthatsomeoftheprovidedinformationwasunusable 14 单元无回答 是指一个样本单元所有或几乎所有的数据都缺失 单元无回答的产生 可能是由于被调查者拒绝参加 或者无法联系 或者无法找到被调查者的住所 或者调查效果无效 这里主要研究单元无回答 15 2 无回答的处理办法处理无回答的最简单的办法是忽略它 Theeasiestwaytodealwithnonresponseistoignoreit 如果发现忽略单元无回答是不适当的 最常用的办法是对权数进行调整 无回答者的设计权数需要在回答者间进行重新分配 通常的做法是用一个无回答调整因子乘以设计权数 由此得到无回答的调整权数 16 3 无回答调整因子Nonresponseweightadjustmentfactor无回答调整因子是原样本单元的权数和与给出回答的单元的权数和的比值 17 4 举例说明无回答调整权数的计算对于自加权设计 这个比值也可以用原样本的单元数与回答单元数的比值 回答率的倒数 来表示 18 例7 3从一个N 100人的总体中抽取一个n 25人的简单随机样本 结果只有20个人提供了所需的信息 求无回答的调整权数 19 步骤1 计算设计权数 入样概率p为 每个样本单元的设计权数为4 20 步骤2 对无回答的设计权数进行调整 由于在n 25人中只有nr 20人提供了所需的信息此时无回答调整因子为 21 步骤3 计算无回答的调整权数 无回答的调整权数wnr等于设计权数与无回答调整因子的乘积 22 于是对数据文件中的每一条记录应赋予权数5 不同子总体往往具有不同的回答率 应对这些子总体分别进行无回答调整 23 例7 2 续 如果在例7 2中回答情况如下 城市层中nr 1 150 农村层nr 2 40 层总体大小样本量回答数量城市N1 1000n1 200nr 1 150农村N2 100n2 50nr 2 40 24 步骤1 各层的设计权数为 城市层wd 1 5 农村层wd 2 2步骤2 各层的无回答调整因子计算如下 城市层 农村层 25 步骤3 无回答的调整权数等于设计权数与无回答调整因子的乘积 城市层 农村层 26 辅助信息的使用Useofauxiliaryinformation 1 使用辅助信息的两个原因 一是使调查的估计值与已知的总体的真值 或者与从另一调查所得的估计值相匹配 二是为了提高估计值的精度 27 2 如何使用辅助信息改进估计量 1 事后分层 在数据收集后 可以利用数据收集的结果 选用其中合适的变量对收集到的样本进行分层 从而对样本的权数进行调整 举例说明如何应用事后分层改进估计量 28 例7 4为得到某公司职员是否有吸烟习惯的信息 进行了一项调查 从N 78人的名录中抽出了一个n 25人的简单随机样本 在设计阶段 没有可用于分层的辅助信息 在收集关于吸烟习惯的信息的同时 收集了每个回答者的年龄和性别情况 总共有nr 15个人作了回答 样本数据的分布为 回答者数量男性女性总计吸烟的人数178总人数312nr 15 29 1 每个回答者的权数以及对无回答的调整计算如下 设计权数是入样概率的倒数 30 假定样本中每个被调查者作出回答的概率都是相同的 用调查的总人数除以回答者的总人数 得无回答调整因子 31 无回答调整权数wnr即为设计权数与无回答调整因子的乘积 32 2 利用无回答的调整权数 可得到如下估计值 调查的估计值男性女性总计吸烟人数5 236 441 6总人数15 662 478 0吸烟者的比例0 330 590 53 33 通过无回答调整权数 我们估计出该公司约有16名男性职员和62名女性职员 而且男女的吸烟比例不同 假定调查完成后 我们得到了如下辅助信息 该公司共有42名男性职员和36名女性职员 那么 通过调查所得的估计值 16名男性职员和62名女性职员 与真值之间就存在着明显的差异 34 3 对样本进行抽样后分层 计算事后分层权数 事后分层权数wpst是 事后 层的辅助变量总和除以该层的回答单元的数量所得的商 在本例中 男性的事后分层权数为 女性的事后分层权数为 35 当使用新权数时 估计值为 事后分层估计值男性女性总计吸烟人数142135总人数423678吸烟者的比例0 330 590 45 36 此时 男性和女性人数的估计值与该公司男性和女性的实际人数一致 注意在每个事后分层的层中吸烟者的比例并没有改变 但总体吸烟者比例的估计发生了改变 在实际中 对每个事后层都计算一个因无回答引起的调整因子 这个因子即总体中各事后层的单元数量N与其事后分层所得的估计值之比 后者用无回答的调整权数进行估计 37 本例事后分层调整因子为 男性 女性 38 将这个调整因子应用到无回答调整权数时 就可以得到与前面相同的最终事后分层权数 男性 女性 39 等概率抽样设计的比例 平均数与总量的估计Estimatingproportions averages andtotalsforequalprobabilitysampledesigns 对自加权抽样设计 所有样本单元的最终权数是相等的 因此 计算比例或均值的估计值时 就可以将权数忽略 对总体总量的估计 只需要用同一个设计权数将样本总值放大即可 但是在实际中通常需要根据无回答或事后分层进行调整 40 例7 5a下面所列的样本数据中 所有回答单元都有相同的最终权数5 数据中有一个定量变量 年龄 和两个定性变量 性别和婚姻状况 对两个定性变量取值的编码如下 性别 婚姻状况 1 男性1 已婚2 女性2 单身回答者的各项样本记录如下 41 回答者年龄性别婚姻状况权数12911523211534522541612553022563821574311581521592212510491251139225124222513532151418115152621516762151748115181521519242152065215 42 1 对总体或总体中某个域的总量估计 Estimatesoftotalsforthewholepopulationorforspecifiedsubgroupofthepopulation 总体中男性总数的估计值为样本中男性的总数乘以公共的无回答调整权数wnr 总体中单身女性总数的估计值为样本中单身女性的总数乘以公共的无回答调整权数wnr 43 2 如果忽略权数 对总体的比例和平均数的估计如下 Estimatesofproportionsandaveragesforthewholepopulation 总体中男性所占比例的估计值即是样本中男性所占的比例 总体中平均年龄的估计值即是样本的平均年龄 44 3 对总体中的域的比例和均值的估计 Estimatesofproportionsandaveragesfordomainsofthepopulation 总体中单身女性所占比例的估计值 即样本中婚姻状况回答为 单身 的女性在所有女性样本中所占的比例为 45 总体中男性平均年龄的估计值即为样本中男性的平均年龄 46 不等概率抽样设计的比例 平均数与总量的估计Estimatingproportions averages andtotalsforunequalprobabilitysampledesigns 在估计过程中 正确使用最终权数不仅对计算不等概率抽样设计的估计值非常重要 而且对于当最终 经调整后的 权数不全相等时 计算自加权设计的估计值也非常重要 47 例7 6 使用分层抽样从总体中抽取了一个n 10个农场的样本 所有10个农场都给出了回答 因此无需对无回答作调整 已经计算出最终权数 现在需要依据下面的数据计算估计值 农场类型中的C表示作物农场 L表示家畜农场 48 层权数农场类型收入 元 15 67C7500015 67L1500015 67C12500015 67C6700015 67L8000015 67C40000216 50C30000216 50C14000216 50L48000216 50C22000 49 总体农场总数的估计值为 家畜农场总数的估计值为 50 家畜农场所占比例的估计值为 总体中所有农场总收入的估计值为 51 总体中所有农场的平均收入的估计值为 家畜农场总收入的估计值为 52 家畜农场平均收入的估计值为 53 主要介绍了两方面内容 一是如何计算某一概率样本的样本量 二是如何在分层抽样中对各层样本单元数进行分配 四 样本量的确定Samplesizedetermination 54 一 样本量的确定 由计算误差范围 极限误差 的公式 55 可推出计算样本量的公式 56 影响调查样本量大小的因素主要有两个 一是调查估计值所希望达到的精度 也就是调查估计值所能允许的误差 二是调查实际操作的限制条件 如经费 时间等 Thesamplesizedeterminationinvolvesbalancingtheprecisionrequirementsoftheestimateswithvariousoperationalconstrainssuchasavailablebudget resourcesandtime 57 2 影响精度的因素Factorsaffectingprecisionthereforeaffectthesamplesize andincludethefollowing 1 总体的变异程度大 2 总体的大小 3 样本设计方式和所用的估计量 4 调查的回答率的高低 ThevariabilityofthecharacteristicofinterestinthepopulationThesizeofthepopulationThesampledesignandestimatorusedTheresponserate 58 总体大小 在样本量确定过程中 总体所起的作用因它的大小而有所差异 对于小规模总体 它起着重要作用 对于中等规模的总体 其作用中等 而大总体对样本量影响的作用很小 59 例如 用简单随机抽样估计P 要求在置信度为95 下误差限为0 05所需的样本量 p 0 05 60 样本设计和估计量Sampledesignandestimator 一般来说 当样本量采用简单随机抽样的计算公式 而实际使用的是更复杂的抽样方式时 为达到给定精度所需的样本量 应该在此基础上乘以一个称为设计效应因子 61 设计效应是对于相等的样本量 给定样本设计估计量的抽样方差对简单随机抽样估计量的抽样方差的比率 ThedesigneffectistheratioofthesamplingvarianceoftheestimateunderagivendesigntothesamplingvarianceoftheestimateunderanSRSdesignofthesamesamplesize 62 简单随机抽样设计 设计效应等于1 分层抽样设计 设计效应一般小于等于1 整群或多阶抽样设计 设计效应一般大于等于1 Thedesigneffect 1forsimplerandomsampledesignandusuallythedesigneffect 1foraclustersampledesign若过去相同或相似主题的调查所用的抽样设计与我们计划实施的抽样设计相同或相似 就能得到当前调查主要变量设计效应的估计值 我们也可以从试调查中得到设计效应的估计值 63 调查的回答率Surveyresponserate 需要根据预计的回答率调整样本量的大小 根据预计的回答率确定一个较大的样本才可能达到精度要求 64 样本量的计算步骤Samplesizeformulae 1 对于简单随机抽样 对平均值估计的样本量计算 第1步 计算初始样本量 65 第2步 对总体大小进行调整 第3步 如果抽样设计不是简单随机抽样 则用下面公式对样本量进行调整 其中 B是设计效应 66 第4步 根据无回答再次进行调整 以确定最终的样本量 其中 r为预计的回答率 67 对于简单随机抽样 对比例估计的样本量的计算步骤 因为在比例估计中 样本的方差变为 于是第一步计算公式变为 68 若在以往调查中可得总体比例的一个较好估计 那么直接将它代入上面的公式就可以得到所需的样本量 否则可以用p 0 5 因为这时总体的方差最大 69 从第二步到第四步 与前面对平均值估计的步骤完全一样 70 例准备实施一项民意调查 以测定赞成建立一个省级公园的居民的比例 总体由所有在两个城市和一个农村地区居住的成年人组成 通过从每个城市及农村中各抽取一个简单随机样本 得到一个分层随机样本 问每一层需要多大的样本量 71 总体大小即总人口数为657500人 总体在各层的分布情况如下 72 所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论