版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
调查中的非抽样误差第一页,共四十一页,编辑于2023年,星期一本章结构11.1引言11.2抽样框误差11.3无回答误差(补充敏感问题调查)11.4计量误差11.5离群值的检测和处理第二页,共四十一页,编辑于2023年,星期一学习目标理解调查中的误差来源掌握抽样框误差的类型及不完善抽样框的使用掌握无回答误差的来源、影响及弥补措施掌握敏感性问题调查模型了解计量误差的来源第三页,共四十一页,编辑于2023年,星期一11.1引言一、概念抽样误差(samplingerror)是由于样本的随机性引起的样本统计量的数值与总体目标量真值之间的差异。它随着样本容量的增大而减小。非抽样误差(non-samplingerror)是指除了抽样误差之外,由于其他各种原因而引起的误差,是所有调查都可能存在的误差。第四页,共四十一页,编辑于2023年,星期一非抽样误差的特点1、具有普遍性,由于它不是由于样本的随机性带来的,因而它不随样本容量的增大而减小;2、非抽样误差的存在往往造成估计量的有偏(如:无回答);3、具有隐蔽性,难以识别或测定;4、产生原因复杂。第五页,共四十一页,编辑于2023年,星期一非抽样误差的产生1、可能在调查及抽样设计阶段产生,如:问卷设计不合理造成词义含糊;抽样设计中抽样框不完善(这是一个重要原因);抽样设计中使用了不准确的辅助信息等等;2、可能在数据采集阶段产生,如:无法找到被调查者或被调查者不在家或者不愿意接受调查(无回答是数据收集阶段产生非抽样误差的主要原因);3、可能产生在数据处理与分析阶段,如:对数据的审核、整理、编码及录入引起误差。第六页,共四十一页,编辑于2023年,星期一非抽样误差的分类按照来源、性质分三类:(1)抽样框误差——抽样框不完善;(2)无回答误差——没有从调查单元获得调查结果,造成数据的缺失;(3)计量误差——所获得的数据与其真值之间不一致。第七页,共四十一页,编辑于2023年,星期一11.2抽样框误差一、概念:1、抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。2、理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。3、现实中完善的抽样框往往难以得到第八页,共四十一页,编辑于2023年,星期一二、抽样框误差的类型及影响(一)类型1、丢失目标总体单元(少或漏),这种误差不易被察觉,可能造成总量估计偏低,均值估计有偏;2、包含非目标总体单元(多),容易造成总量估计偏高,但比较容易察觉;3、复合连接(重复),指抽样框中的单元与目标总体单元不完全一一对应,一个抽样框单元与多个目标单元连接或一个目标单元与多个抽样框单元连接,如:入户调查中常出现的一门多户或一户多个住处等等;4、不正确的辅助信息,有些抽样如分层臭氧、比率估计和回归估计等等需要辅助信息,若信息不完全或不正确就会影响抽样效果。第九页,共四十一页,编辑于2023年,星期一(二)对抽样框的一些基本认识1、建立抽样框事先要做好充分的研究和资料搜集2、抽样框的维护、使用需要不断总结与研讨3、有些不完善的抽样框还可以使用,但是需要一定的财力、人力来修补、调整;4、抽样框误差有时会被解释成其他形式的误差第十页,共四十一页,编辑于2023年,星期一(三)抽样框误差的影响只对丢失目标总体单元的抽样框引起的误差进行分析:1、对总体总和的估计(1)总体总和的真值(2)总体总和的样本估计值(3)偏倚(4)相对偏倚第十一页,共四十一页,编辑于2023年,星期一分析1、总体总和和估计的相对偏倚取决于r和W0两个因素。2、r=1即丢失单元均值与抽样框单元均值相等时,相对偏倚为-W03、r<1,相对偏倚的绝对值也小于W0的绝对值。第十二页,共四十一页,编辑于2023年,星期一2、对均值估计的影响(1)在抽样框存在丢失单元时,均值的估计为:(2)估计量的偏倚为:(3)相对偏倚为:第十三页,共四十一页,编辑于2023年,星期一分析1、r=1,丢失单元均值和抽样单元均值相同时,估计量是目标变量的无偏估计;2、偏倚状况随着r的变化而变化。r>1估计偏低,r<1估计偏高。第十四页,共四十一页,编辑于2023年,星期一三、不完善抽样框的使用(一)实行连接在调查方案设计阶段制定一定的规则,使没有包含在抽样框中的目标单元与包含在抽样框中的单元相连接。如:对不在抽样框中的学生与被抽中的学生实行连接(二)惟一连接对于抽样框中存在的复合连接,在方案设计中规定只有唯一的单元被抽中。第十五页,共四十一页,编辑于2023年,星期一(三)使用多个抽样框设样本来自A、B两个抽样框,两个抽样框的单元总数分别为NA,NB,目标总体被分成三个部分:区域a、区域b、区域ab1、利用抽样框A的样本对区域a、区域ab进行事后分层的总和估计为:2、利用抽样框B的样本对区域b、区域ab进行事后分层的总和估计为:第十六页,共四十一页,编辑于2023年,星期一3、目标总体的总和估计为:其中WA,WB为适当的权数,且WA+WB=14、估计量的方差近似表达为:其中,α、β分别为重叠部分的单元占抽样框单元的比例:第十七页,共四十一页,编辑于2023年,星期一5、结合调查费用来确定各抽样框的样本量na、nb和权数WA总费用函数为:在总费用给定的条件下使总方差最小的最优抽样比为:权数分别为:第十八页,共四十一页,编辑于2023年,星期一11.3无回答误差一、概念1、无回答误差是指在调查中由于各种原因,调查人员没有能够从入选样本的单元获得所需要的信息,由于数据缺失而造成的估计量的偏误。2、无回答从内容来看分为单元无回答和项目无回答。所谓单元无回答是指被调查单元没有参与或拒绝接受调查而造成数据缺失;项目无回答指被调查者虽然接受了调查但是有些项目没有回答。3、无回答从性质上分为有意无回答和无意无回答。有意无回答往往是因为对内容反感或涉及个人隐私不愿意回答,它对数据质量产生很大的影响;而无意无回答往往是被调查者生病、不在家或很忙无法接受调查。第十九页,共四十一页,编辑于2023年,星期一二、无回答产生的原因及影响在数据收集过程中都可能产生无回答误差:1、查找阶段由于地址不详或已经搬迁而无法找到被调查者,调查者不熟悉地址等等;2、接触阶段被调查者由于客观原因无法接受调查或由于主观原因不愿意接受调查;3、采访阶段,被调查者对于某些问题不愿意提供答案或调查人员粗心遗漏一些项目或调查中断等等。第二十页,共四十一页,编辑于2023年,星期一将总体分为“回答层”和“无回答层”1、总体均值为:2、从总体中抽取容量为n的简单随机样本,n1来自“回答层”,n0来自“无回答层”,则用来作为总体均值的估计的偏倚为:相对偏倚为:第二十一页,共四十一页,编辑于2023年,星期一将总体分为“回答层”和“无回答层”,对总体总量估计带来的偏倚为:说明:1、总量估计的相对偏倚与均值估计的相对偏倚相等,但绝对偏倚是均值估计绝对偏倚的N倍;2、导致无回答偏倚的因素有两个:“回答层”与“无回答层”之间数量的差异及无回答率R03、如果无回答单元与回答单元目标变量的数量特征没有明显的差异,则无回答可以看成是由于随机原因所致,不会造成偏倚,而如果两者不一致,差异越大偏倚就越大。第二十二页,共四十一页,编辑于2023年,星期一三、降低无回答的措施1、问卷设计合理,激起被调查者的兴趣2、利用调查组织者的权威性扩大影响、激发参与意识3、选择合适的调查员,做好调查前的培训4、对调查过程进行监控5、采用奖励措施6、再次调查,一般对被调查者要尝试三次仍不成功才可以将其放弃7、替换被调查单元,替换原则应该是调查设计时就规定好的;8、对敏感性问题采用随机化回答技术第二十三页,共四十一页,编辑于2023年,星期一四、对存在无回答数据的调整(了解)(一)在抽样调整是指在第一次无回答的单元中随机抽取一个子样本,通过更加细致、更充分的工作获得该子样本的数据作为无回答层的代表值,然后将第一次调查中的回答层与第二次无回答层调查所得数据结合起来对总体参数进行估计的方法。第二十四页,共四十一页,编辑于2023年,星期一(二)加权调整即通过给每个回答数据赋以不同的权数然后进行数据处理,从而调整由于无回答引起的偏差。(三)相关推估法主要用于项目无回答时。思路是寻找与无回答问题变量有关联的其他调查问题变量,利用调查数据建立起变量之间的回归方程,对项目无回答变量值进行推估。(四)插补调整是指在数据整理阶段利用调查结果,采用一定的方式为无回答的缺失值确定一个合理的估计值,插补到原缺失数据的位置上。实际中一般涌均值插补。第二十五页,共四十一页,编辑于2023年,星期一补充:敏感性问题调查与随机化回答技术1、敏感性问题(sensitivequestion)是指所调查的内容涉及私人机密而不愿意或不便于公开表态或陈述的问题,如:社会上的卖淫嫖娼、赌博吸毒、偷税漏税、婚前性行为等等。2、随机化回答(randomizedresponse)的基本特征是被调查者对所调查问题采取随机回答的方式,避免在没有任何保护的情况下直接回答敏感性问题,从而既保护了被调查者的隐私和机密,又取得了真实的资料。第二十六页,共四十一页,编辑于2023年,星期一沃纳随机化回答模型该模型是由沃纳(S.L.Warner)首先提出的。被调查者对两个与敏感性特征有关的问题给出肯定或否定的答案,问题经常以下面的形式出现:问题1:你具有特征A吗?(如:问题1:你在考试中曾作过弊,对吗?)问题2:你具有特征吗?(问题2:你在考试中不曾作过弊,对吗?)设计一个随机化装置使两个问题出现的概率比为P:(1-P);但只有被调查者才知道自己回答的是哪个问题.第二十七页,共四十一页,编辑于2023年,星期一具体操作1、在一密闭的容器中放入两种颜色不同(红色和白色),但大小、形状和重量完全相同的球,红球和白球的比例为P:(1-P)(球的比例事先设定),抽到红球如实回答1,抽到白球如实回答2。2、如果n个被调查者中共有m个回答“是”,那么,敏感性问题1回答“是”的比例π可以按照条件概率得到。第二十八页,共四十一页,编辑于2023年,星期一沃纳模型的估计量第二十九页,共四十一页,编辑于2023年,星期一例题某高校教务处采用沃纳随机化回答技术欲调查某学期期末考试作弊人数的真实比例。设计中直接提“你在期末考试中作过弊,对吗?”问题的比例为P=3/4,样本量n=200,调查结果回答“是”的人数为60人,请估计曾经作过弊的人数的比例,并给出90%的置信区间。第三十页,共四十一页,编辑于2023年,星期一西蒙斯随机化回答模型
(无关问题的随机化回答模型)西蒙斯(W.R.Simmons)在沃纳模型基础上进行改进,将第二个问题改为与所调查的敏感性问题完全无关的另外一个非敏感性问题.两个问题的一般陈述为:问题1:你具有特征A吗?(特征A为敏感性)问题2:你具有特征B吗?(特征B为非敏感性)其中:具有特征的真实比例为未知的,而特征B的比例是设计时已知的,两个问题在随机化回答中出现的比例假设仍为p:(1-p),其中p已知。第三十一页,共四十一页,编辑于2023年,星期一例如:问题1:你在期末考试中曾作过弊,对吗?问题2:你父亲的生肖属牛,对吗?()在n个被调查者中,有m个人回答“是”,那么:第三十二页,共四十一页,编辑于2023年,星期一例题[例]某社会学研究所欲调查已婚男子瞒着妻子存私房钱的情况,利用西蒙斯模型对随机抽出的800个已婚男子进行调查,设计的两个问题是:问题Ⅰ:你是否存私房钱?问题Ⅱ:你的阳历生日日期是奇数,对吗?第三十三页,共四十一页,编辑于2023年,星期一解:n=800,m=420,p=0.5,第三十四页,共四十一页,编辑于2023年,星期一采用随机化回答技术应注意的问题1、要使被调查者充分理解调查方法,特别是让他们明白,他回答的是哪个问题别人并不知晓,事前可以让他抽取几次,以便确信盒子中有不同颜色的球。2、所提的问题必须简单明了,防止不同的理解,在调查之前就应该明确问题的含义。如:你的生日在五月,对吗?(阴历和阳历)3、在应用西蒙斯模型时,无关问题的选择特别重要,一定要有隐蔽性,即:调查人员无从猜测被调查者的答案,否则就失去意义。(如:你的身份证号码最后一位是奇数吗?这个问题就不好)第三十五页,共四十一页,编辑于2023年,星期一11.4计量误差一、概念:计量误差是指由于种种原因导致的调查中的数据与其真值不一致。二、原因1、设计不周引起的误差2、被调查者误差3、调查者误差4、其他误差(测量工具、编码、录入)第三十六页,共四十一页,编辑于2023年,星期一其中,被调查者误差分为两类:(1)无意识误差主要表现为回忆误差,是对被调查的内容记忆不清而回答失真,无意识误差还包括“倾向性数字”。(2)有意识误差大多是由于问题的敏感或其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025 学年成都市小学五年级美术期中模拟试卷及答案
- 高中语文必修上册同步练习 含答案3.2哦,香雪
- 2025年高考物理文化试题及答案
- 江西省2025年公务员考试行测真题解析卷
- 2025年沈阳水务招聘试题及答案
- 2025年化学安全常识试题及答案
- 2025年二甲评审院感应知应会试题及答案(共200题)
- 湖北省公务员2025年行测判断推理冲刺卷
- 2025年初中二年级道德与法治上学期法律常识试卷
- 2025年商业综合体租赁代理合同
- 搅拌车作业安全管理制度
- 生产安全生产事故案例
- 2025护理教学计划
- 2025至2030中国废铅行业发展趋势分析与未来投资战略咨询研究报告
- 网点负责人考试题库考点
- 2025年呼和浩特天骄航空有限公司招聘笔试冲刺题(带答案解析)
- 结直肠癌导致急性肠梗阻外科治疗中国专家共识(2025版)课件
- 辅助改方时方向继电器电路识读穆中华60课件
- 东方航空民航招飞面试常见问题及答案
- 英语第二册(五年制高职) 课件 Unit5 Social Rules
- 2025年三方询价单合同模板
评论
0/150
提交评论