调查中的非抽样误差.ppt_第1页
调查中的非抽样误差.ppt_第2页
调查中的非抽样误差.ppt_第3页
调查中的非抽样误差.ppt_第4页
调查中的非抽样误差.ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第11章调查中的非采样误差(non-sampling error)、采样误差非采样误差抽样框误差无响应误差测量误差、牙齿章节结构、11.1介绍11.2抽样框误差11.3无响应误差(调查补充敏感问题)11.4测量误差11.5以上的检测和处理、学习目标调查中的误差随着样品容量的增加而减少。“非取样错误”(non-sampling error)是由于各种原因(取样错误除外)而导致的错误,所有调查中都可能存在。不是由于非采样误差的特征,1,普遍性,样品的随机性引起的,因此不会随着样品容量的增加而减少。2、非采样误差的存在往往导致估计量的偏转(例如没有回答)。3、隐瞒、识别或决定困难。4、发生原因复杂。

2、非取样误差的发生,1,可能发生在调查和取样设计阶段。例如,问卷设计不合理,会导致意义的模糊。抽样设计的样品箱不完美(这是重要的原因)。样例设计使用了不准确的辅助信息等。2.这可能发生在数据采集阶段,例如找不到响应者、响应者不在家或不希望调查(没有在数据收集阶段未采样错误的主要原因)。3、可能发生在数据处理和分析阶段(例如,数据审阅、清理、编码和输入错误发生)。根据非取样误差的分类、来源、性质分为三类茄子。(1)样品箱误差样品箱不完美。(2)无响应错误调查单位未取得调查结果,导致数据遗漏。(3)测量误差获得的数据与实际值不一致。11.2示例框错误,1,概念:1,示例框是将示例单元提取到整个单元的

3、名册或地图等的框架的基础。2、理想样品箱(也称为样品整体)必须与正在研究的现象的整体(目标整体)一致,但实际上,由于整个样品和目标往往不一致,因此产生的误差是样品箱误差。3.在现实中,完美的样品盒往往很难得到。第二,样品箱误差的类型和影响,(1)类型1,损失目标整体单位(小或漏),这种误差不易察觉,总量估计值低,平均值偏。2,包括非对象整体单位(多数),总量估计高,但比较容易注意到。3、复合连接(重复),这意味着示例框中的单元与目标总体单位不完全匹配。示例长方体单位与多个目标单位相关联,或一个目标单位与多个示例长方体单位相关联。例如,门户调查中经常出现的多个家具或一个家庭的多个住所。4.不准确

4、的辅助信息、部分样品(例如分层吴尊、比率估计、回归估计等)需要辅助信息,如果信息不完整或不准确,可能会影响取样效果。(2)对样品箱的一些茄子基本理解,1,在构建样品箱之前,充分研究和数据采集2,样品箱的维护,使用要求持续总结和讨论3,一些不完整的样品箱也可以使用,但需要一定的财力、人力。4.示例框误差有时被解释为其他形式的误差。(3)只分析了样品箱误差的影响,由于缺少目标整体单位的样品箱造成的误差。1,总计的估计(1)总计的实际值(2)总计的样例估计(3)偏置(4) 2,r=1,缺少的单元平均值等于采样框单元平均值时,相对偏移为-W0 3,R1,相对偏移的绝对值小于W0的绝对值。,2,对平均估

5、计的影响,(1)如果样本框中缺少单元,则平均估计为(2)估计量的偏向为(3)相对偏向为,分析,1,r=1,如果缺少单元平均值等于样本单元平均值,则为2,r的变化的偏置状态。R1估计值低,R1估计值高。第三,使用不完整的示例框,(1)实现在调查方案设计阶段设置特定规则的连接,以便示例框中不包含的目标单位与示例框中包含的单位相关联。示例:对于不在示例框中的学生和正在提取的学生连接(2)唯一连接示例框中的复合连接,只能提取架构设计的唯一单位。(3)使用多个示例框设置两个示例框中的示例:a,b。两个示例框的单位总数分别为NA、NB,目标共分为三部分。使用地区a、地区b、地区ab 1、抽样框a的抽样,将

6、地区a、地区ab的后分层合计估计为2,目标的总合计估计为:WA、WB是相应的权重,WA WB=1 4,估计量的方差大致表示为:其中每个重叠部分的单位与采样框单位的比率、5、调查成本相结合,以确定每个采样框的采样量na、nb和权重WA总成本。11.3无应答误差,1,概念1,无应答误差意味着在调查中,由于多种茄子原因,调查人员无法从抽样的单位获取所需信息。数据不足引起的估计量的误差。2.从无响应内容上分为单位无响应、项目无响应等。“单元无响应”(unit no access)是指被调查部门未参与或拒绝调查而导致数据丢失。项目舞台答案意味着被调查者接受了调查,但部分项目没有回答。3.无答案从特性上分

7、为故意无答案和无意识无答案。故意不回答的原因是不愿意回答对内容的反感或隐私,对数据质量有很大影响。大卫亚设,“美国电视电视剧”,英语)无心回答的话,往往是受访者生病、不在家或忙得无法接受调查的情况。2 .无响应的原因和影响在数据收集过程中可能会发生无响应误差。1、由于地址不详或转移,找不到调查者。调查者对地址不熟悉。2.接触阶段受访者因客观原因不能接受调查,或因主观原因不希望调查。3.在采访阶段,受访者不愿意提供特定问题的答案,或调查人员不慎遗漏了部分项目或调查中断等。整体除以“响应层”和“无响应层”1,整体平均值为:2,从总容量中提取N的简单随机样本,n1在“响应层”中,n0在“无响应层”中

8、,作为整体平均值使用的估计偏向是相对偏向。2.如果“回答层”和“阶段回答层”的数量差异和无回答率R0 3,无回答单位和回答单位目标变量的数量特征没有明显的差异,则无回答可以看作是随机的原因,不会引起偏向,如果二者不一致,差异越大,偏向就越大。,3,为了减少没有回应的措施,1,问卷设计合理。要引起调查者的兴趣,利用调查组织者的权威扩大影响力,刺激参与意识3,选择适当的调查人员,搞好调查前培训4,监控调查过程,监控5,采取赔偿措施6,重新调查,一般要尝试3次调查者。8、对敏感问题使用随机响应技术、4、对无响应数据存在的曹征(理解)、(1)采样调整是指从第一无响应单元随机抽取子样本。通过更细致、充分

9、的操作,获取牙齿子样本的数据作为无响应层次的代表性值,然后获取第一调查的响应层次和第二无响应层次,(2)权重调整徐璐为每个响应数据分配不同的权重,然后执行数据处理,以调整无响应引起的偏差。(c)相关估计法主要用于项目无响应时。寻找与无回应问题变数相关联的其他调查问题变数,使用调查资料建立变数之间的回归方程式,并估算项目无回应变数的值。(4)插值调整是指在数据清理阶段,利用调查结果确定对无响应缺失值的合理估计,并在原始缺失数据的位置进行插值。实际上一般来说,平均插值汹涌。补充:敏感问题调查和随机回答技术,1,敏感问题2。随机回答的基本特征是,调查者通过随机回答调查的问题的方式,保护被调查者的隐私

10、和机密,避免直接回答敏感问题,从而获得实际资料。华纳(S.L.Warner)首先提出的随机响应模型。受访者对与敏感特性相关的两个茄子问题提出肯定或否定的答案,问题经常以以下形式出现:问题1:你有特征A吗?例如:问题1:你考试作弊过,对吗?问题2:你有特征吗?问题2:你考试没有作弊,是吗?)设计随机化装置,以将出现两个茄子问题的概率设置为P:(1-P)。但是只有回答者才能知道自己回答了什么问题。具体操作,1,将两种茄子颜色(红色,白色)放入密封容器,但大小、形状、重量完全相同的球,红球和白球的比例为P 3360 (1-P)(球的比例已预先设定),2.n名被调查者中,如果m名回答“是”,那么敏感性

11、问题1牙齿回答“是”的比率可以按条件概率标准获得。华纳模型的估计,案例,某高校教务处想使用华纳随机化响应技术调查一学期期末考试作弊数量的实际比例。在设计中,“你在期末考试中作弊过,对吗?”直接提到。“问题比率为P=3/4,样本量n=200,调查结果回答“是”的人数为60人。请估计作弊的人的比例,给我90%的置信区间。西蒙斯在随机回答模型(与问题无关的随机回答模型)、西蒙斯(W.R.Simmons)的基础上进行了改进,并将第二个问题改为另一个完全与调查敏感问题无关的不敏感问题。对两个茄子问题的一般陈述是问题1:你有特征A吗?问题2:你有特征B吗?(特征B不敏感)其中,特征的实际比率未知,特征B的

12、比率在设计时已知,对随机回答中出现的两个茄子问题的比率假设仍然为P3360 (1-P)。其中P是已知的。例:问题1:你在期末考试期间作弊过,对吗?问题2:你爸爸的属相是牛,对吗?()N名被调查者中有M人回答“是”。那么:是的,一家社会研究所想调查已婚男人欺骗妻子存私房钱的情况,并利用西蒙斯模型随机挑选的800名已婚男人。设计的两个茄子问题是:你存私房钱吗?是。问:你的阳历生日日期是奇数。对吧?解决方案:n=800,m=420,p=0.5,使用随机响应技术需要注意的问题1 2。提出的问题要简单明了,防止其他理解,在调查之前明确问题的意义。例如:你的生日是五月吧?阴历和阳历)3,应用西蒙斯模型时,

13、无关问题的选择尤为重要,必须具有隐蔽性。(。也就是说,调查人员无法推测答复者的答案。否则就会失去意义。(例如:你的身份证号码最后是奇数吗?牙齿问题不好),11.4测量误差,1,概念:测量误差意味着由多种茄子原因引起的正在调查的数据与实际值不一致。第二,原因1,由于设计疏忽而产生的误差2,调查者误差3,调查者误差4,其他误差(测量工具、编码、输入)中的调查者误差分为两个茄子类别(2),意识误差大部分是由于问题的敏感性或其他因素,所以回答有某种倾向性。对收入、学历、职称等的回答将会很高,相应的税额将会很低。无意识误差可以看作是随机的,不会带来估计偏差,但有意识误差有倾向性,会带来估计偏差。减少测量误差的措施,1,调查设计方面的设计师必须在经验、素质2、现场准备方面规范调查人员的招聘、教育和管理。3、数据结果审计方面,精细审计数据的完整性、一致性和有效性,11.5以上值检测和处理,1、概念异常值偏差值可以分为单变量偏差值和多变量偏差值。第二,原因1,被调查者回答数据中有错误2,调查者记录

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论