




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第11章 调查中的非抽样误差 (non-sampling error),抽样误差 非抽样误差 抽样框误差 无回答误差 计量误差,本章结构,11.1 引言 11.2 抽样框误差 11.3 无回答误差(补充敏感问题调查) 11.4 计量误差 11.5 离群值的检测和处理,学习目标,理解调查中的误差来源 掌握抽样框误差的类型及不完善抽样框的使用 掌握无回答误差的来源、影响及弥补措施 掌握敏感性问题调查模型 了解计量误差的来源,11.1 引言,一、概念 抽样误差(sampling error)是由于样本的随机性引起的样本统计量的数值与总体目标量真值之间的差异。它随着样本容量的增大而减小。 非抽样误差(non-sampling error)是指除了抽样误差之外,由于其他各种原因而引起的误差,是所有调查都可能存在的误差。,非抽样误差的特点,1、具有普遍性,由于它不是由于样本的随机性带来的,因而它不随样本容量的增大而减小; 2、非抽样误差的存在往往造成估计量的有偏(如:无回答); 3、具有隐蔽性,难以识别或测定; 4、产生原因复杂。,非抽样误差的产生,1、可能在调查及抽样设计阶段产生,如:问卷设计不合理造成词义含糊;抽样设计中抽样框不完善(这是一个重要原因);抽样设计中使用了不准确的辅助信息等等; 2、可能在数据采集阶段产生,如:无法找到被调查者或被调查者不在家或者不愿意接受调查(无回答是数据收集阶段产生非抽样误差的主要原因); 3、可能产生在数据处理与分析阶段,如:对数据的审核、整理、编码及录入引起误差。,非抽样误差的分类,按照来源、性质分三类: (1)抽样框误差抽样框不完善; (2)无回答误差没有从调查单元获得调查结果,造成数据的缺失; (3)计量误差所获得的数据与其真值之间不一致。,11.2 抽样框误差,一、概念: 1、抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。 2、理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。 3、现实中完善的抽样框往往难以得到,二、抽样框误差的类型及影响,(一)类型 1、丢失目标总体单元(少或漏),这种误差不易被察觉,可能造成总量估计偏低,均值估计有偏; 2、包含非目标总体单元(多),容易造成总量估计偏高,但比较容易察觉; 3、复合连接(重复),指抽样框中的单元与目标总体单元不完全一一对应,一个抽样框单元与多个目标单元连接或一个目标单元与多个抽样框单元连接,如:入户调查中常出现的一门多户或一户多个住处等等; 4、不正确的辅助信息,有些抽样如分层臭氧、比率估计和回归估计等等需要辅助信息,若信息不完全或不正确就会影响抽样效果。,(二)对抽样框的一些基本认识,1、建立抽样框事先要做好充分的研究和资料搜集 2、抽样框的维护、使用需要不断总结与研讨 3、有些不完善的抽样框还可以使用,但是需要一定的财力、人力来修补、调整; 4、抽样框误差有时会被解释成其他形式的误差,(三)抽样框误差的影响,只对丢失目标总体单元的抽样框引起的误差进行分析: 1、对总体总和的估计 (1)总体总和的真值 (2)总体总和的样本估计值 (3)偏倚 (4)相对偏倚,分析,1、总体总和和估计的相对偏倚取决于r和 W0两个因素。 2、r=1即丢失单元均值与抽样框单元均值相等时,相对偏倚为- W0 3、r1,相对偏倚的绝对值也小于W0 的绝对值。,2、对均值估计的影响,(1)在抽样框存在丢失单元时,均值的估计为: (2)估计量的偏倚为: (3)相对偏倚为:,分析,1、r=1,丢失单元均值和抽样单元均值相同时,估计量是目标变量的无偏估计; 2、 偏倚状况随着r的变化而变化。 r1估计偏低,r1估计偏高。,三、不完善抽样框的使用,(一)实行连接 在调查方案设计阶段制定一定的规则,使没有包含在抽样框中的目标单元与包含在抽样框中的单元相连接。 如:对不在抽样框中的学生与被抽中的学生实行连接 (二)惟一连接 对于抽样框中存在的复合连接,在方案设计中规定只有唯一的单元被抽中。,(三)使用多个抽样框 设样本来自A、B两个抽样框,两个抽样框的单元总数分别为NA,NB,目标总体被分成三个部分:区域a、区域b、区域ab 1、利用抽样框A的样本对区域a、区域ab进行事后分层的总和估计为: 2、利用抽样框B的样本对区域b、区域ab进行事后分层的总和估计为:,3、目标总体的总和估计为: 其中WA,WB为适当的权数,且WA+WB=1 4、估计量的方差近似表达为: 其中,、分别为重叠部分的单元占抽样框单元的比例:,5、结合调查费用来确定各抽样框的样本量na、nb和权数WA 总费用函数为: 在总费用给定的条件下使总方差最小的最优抽样比为: 权数分别为:,11.3 无回答误差,一、概念 1、无回答误差是指在调查中由于各种原因,调查人员没有能够从入选样本的单元获得所需要的信息,由于数据缺失而造成的估计量的偏误。 2、无回答从内容来看分为单元无回答和项目无回答。所谓单元无回答是指被调查单元没有参与或拒绝接受调查而造成数据缺失;项目无回答指被调查者虽然接受了调查但是有些项目没有回答。 3、无回答从性质上分为有意无回答和无意无回答。有意无回答往往是因为对内容反感或涉及个人隐私不愿意回答,它对数据质量产生很大的影响;而无意无回答往往是被调查者生病、不在家或很忙无法接受调查。,二、无回答产生的原因及影响,在数据收集过程中都可能产生无回答误差: 1、查找阶段由于地址不详或已经搬迁而无法找到被调查者,调查者不熟悉地址等等; 2、接触阶段被调查者由于客观原因无法接受调查或由于主观原因不愿意接受调查; 3、采访阶段,被调查者对于某些问题不愿意提供答案或调查人员粗心遗漏一些项目或调查中断等等。,将总体分为“回答层”和“无回答层” 1、总体均值为: 2、从总体中抽取容量为n的简单随机样本,n1来自“回答层”,n0来自“无回答层”,则 用来作为总体均值的估计的偏倚为: 相对偏倚为:,将总体分为“回答层”和“无回答层”,对总体总量估计带来的偏倚为: 说明:1、总量估计的相对偏倚与均值估计的相对偏倚相等,但绝对偏倚是均值估计绝对偏倚的N倍; 2、导致无回答偏倚的因素有两个:“回答层” 与“无回答层”之间数量的差异 及无回答率R0 3、如果无回答单元与回答单元目标变量的数量特征没有明显的差异,则无回答可以看成是由于随机原因所致,不会造成偏倚,而如果两者不一致,差异越大偏倚就越大。,三、降低无回答的措施,1、问卷设计合理,激起被调查者的兴趣 2、利用调查组织者的权威性扩大影响、激发参与意识 3、选择合适的调查员,做好调查前的培训 4、对调查过程进行监控 5、采用奖励措施 6、再次调查,一般对被调查者要尝试三次仍不成功才可以将其放弃 7、替换被调查单元,替换原则应该是调查设计时就规定好的; 8、对敏感性问题采用随机化回答技术,四、对存在无回答数据的调整(了解),(一)在抽样调整 是指在第一次无回答的单元中随机抽取一个子样本,通过更加细致、更充分的工作获得该子样本的数据作为无回答层的代表值,然后将第一次调查中的回答层与第二次无回答层调查所得数据结合起来对总体参数进行估计的方法。,(二)加权调整 即通过给每个回答数据赋以不同的权数然后进行数据处理,从而调整由于无回答引起的偏差。 (三)相关推估法 主要用于项目无回答时。思路是寻找与无回答问题变量有关联的其他调查问题变量,利用调查数据建立起变量之间的回归方程,对项目无回答变量值进行推估。 (四)插补调整 是指在数据整理阶段利用调查结果,采用一定的方式为无回答的缺失值确定一个合理的估计值,插补到原缺失数据的位置上。 实际中一般涌均值插补。,补充:敏感性问题调查与随机化回答技术,1、敏感性问题(sensitive question)是指所调查的内容涉及私人机密而不愿意或不便于公开表态或陈述的问题,如:社会上的卖淫嫖娼、赌博吸毒、偷税漏税、婚前性行为等等。 2、随机化回答(randomized response)的基本特征是被调查者对所调查问题采取随机回答的方式,避免在没有任何保护的情况下直接回答敏感性问题,从而既保护了被调查者的隐私和机密,又取得了真实的资料。,沃纳随机化回答模型,该模型是由沃纳(S.L.Warner)首先提出的。被调查者对两个与敏感性特征有关的问题给出肯定或否定的答案,问题经常以下面的形式出现: 问题1:你具有特征A吗?(如:问题1:你在考试中曾作过弊,对吗?) 问题2:你具有特征 吗?(问题2:你在考试中不曾作过弊,对吗?) 设计一个随机化装置使两个问题出现的概率比为P:(1-P); 但只有被调查者才知道自己回答的是哪个问题.,具体操作,1、在一密闭的容器中放入两种颜色不同(红色和白色),但大小、形状和重量完全相同的球,红球和白球的比例为P:(1-P)(球的比例事先设定),抽到红球如实回答1,抽到白球如实回答2。 2、如果n个被调查者中共有m个回答“是”,那么,敏感性问题1回答“是”的比例可以按照条件概率得到。,沃纳模型的估计量,例题,某高校教务处采用沃纳随机化回答技术欲调查某学期期末考试作弊人数的真实比例。设计中直接提“你在期末考试中作过弊,对吗?”问题的比例为P=3/4,样本量n=200,调查结果回答“是”的人数为60人,请估计曾经作过弊的人数的比例,并给出90%的置信区间。,西蒙斯随机化回答模型 (无关问题的随机化回答模型),西蒙斯(W.R.Simmons)在沃纳模型基础上进行改进,将第二个问题改为与所调查的敏感性问题完全无关的另外一个非敏感性问题.两个问题的一般陈述为: 问题1:你具有特征A吗?(特征A为敏感性) 问题2:你具有特征B吗?(特征B为非敏感性) 其中:具有特征的真实比例 为未知的,而特征B的比例 是设计时已知的,两个问题在随机化回答中出现的比例假设仍为p:(1-p),其中p已知。,例如:问题1:你在期末考试中曾作过弊,对吗? 问题2:你父亲的生肖属牛,对吗?( ) 在n个被调查者中,有m个人回答“是”,那么:,例题,例某社会学研究所欲调查已婚男子瞒着妻子存私房钱的情况,利用西蒙斯模型对随机抽出的800个已婚男子进行调查,设计的两个问题是: 问题:你是否存私房钱? 问题:你的阳历生日日期是奇数,对吗?,解:n=800,m=420,p=0.5,采用随机化回答技术应注意的问题,1、要使被调查者充分理解调查方法,特别是让他们明白,他回答的是哪个问题别人并不知晓,事前可以让他抽取几次,以便确信盒子中有不同颜色的球。 2、所提的问题必须简单明了,防止不同的理解,在调查之前就应该明确问题的含义。 如:你的生日在五月,对吗?(阴历和阳历) 3、在应用西蒙斯模型时,无关问题的选择特别重要,一定要有隐蔽性,即:调查人员无从猜测被调查者的答案,否则就失去意义。 (如:你的身份证号码最后一位是奇数吗?这个问题就不好),11.4 计量误差,一、概念: 计量误差是指由于种种原因导致的调查中的数据与其真值不一致。 二、原因 1、设计不周引起的误差 2、被调查者误差 3、调查者误差 4、其他误差(测量工具、编码、录入),其中,被调查者误差分为两类: (1)无意识误差 主要表现为回忆误差,是对被调查的内容记忆不清而回答失真,无意识误差还包括“倾向性数字”。 (2)有意识误差 大多是由于问题的敏感或其他因素使回答具有某种倾向性。如:对收入、学历、职称等回答会偏高,对应纳税额会偏低。 无意识误差可以看成是随机的,不会带来估计偏倚,但有意识误差存在倾向性,会带来估计偏倚。,减少计量误差的措施,1、调查设计方面 方案的设计人员一定要经验丰富、素质高 2、现场准备方面 对调查人员的招聘、培训和管理都要规范 3、数据结果的审核方面 要细致的审核数据的完整性、一致性和有效性,11.5 离群值的检测和处理,一、概念 离群值是调查数据集中的极端值和其他数据明显不一致的观测值。 离群值可以分为单变量离群值和多变量离群值。 二、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年网络接口适配器合作协议书
- 工作假期旅游特殊证明(5篇)
- 农村畜牧养殖技术指导协议
- IT服务行业技术支持工作经验证明(7篇)
- 企业级软件开发维护合作协议
- 农村家庭土地承包经营合同
- 零售行业年度收入证明(6篇)
- 快递配送时间保障协议
- 工程建筑资料承包包干合同
- IT行业在职员工信息真实性证明(5篇)
- 2025年山东省济南市莱芜区中考一模地理试卷(原卷版+解析版)
- 测绘地理信息科技创新与成果转化作业指导书
- 2025春季学期国开电大专科《政治学原理》一平台在线形考(形考任务四)试题及答案
- SCI论文写作与投稿 第2版-课件 14-SCI论文投稿与发表
- 快速血糖监测操作
- 动漫游戏与衍生品开发作业指导书
- 毕业设计(论文)-垂直循环立体车库机械设计
- 医院会计考核试题及答案
- 十字相乘法(最终版)
- 2025年山西万家寨水务控股集团限公司公开招聘工作人员48人自考难、易点模拟试卷(共500题附带答案详解)
- 广东东软学院《英语语法I》2023-2024学年第二学期期末试卷
评论
0/150
提交评论