喀什师范学院笔记抽样调查的原理与方法第十章抽样调查中的非抽样误差.ppt_第1页
喀什师范学院笔记抽样调查的原理与方法第十章抽样调查中的非抽样误差.ppt_第2页
喀什师范学院笔记抽样调查的原理与方法第十章抽样调查中的非抽样误差.ppt_第3页
喀什师范学院笔记抽样调查的原理与方法第十章抽样调查中的非抽样误差.ppt_第4页
喀什师范学院笔记抽样调查的原理与方法第十章抽样调查中的非抽样误差.ppt_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章 非抽样误差,经济与管理类 统计学系列教材,本章要点,本章对非抽样误差的构成和各种非抽样误差的影响进行分析。具体要求: 正确理解非抽样误差的涵义、来源和特点; 对抽样框误差、无回答误差和计量误差的成因及其对抽样的影响有比较系统的理解; 掌握控制非抽样误差的基本思想。,第一节 非抽样误差构成,一、非抽样误差的来源,非抽样误差就是由抽样误差以外因素引起的,因样本观察数据非同质、或残缺、或不真实而产生的误差。 为了使非抽样误差问题简单化,我们可以按照抽样调查的过程来考察其来源。 抽样方案设计阶段 数据收集阶段 数据处理阶段,在抽样方案设计阶段,非抽样误差的来源: (1)抽样框的编制与准备不够充分完善; (2)问卷设计不够科学合理。 在数据收集阶段,非抽样误差的来源: (1)调查数据的残缺; (2)调查数据的错误。 在数据处理阶段,非抽样误差存在于对调查资料的整理、分组、计算、编码和计算机录入等过程中,是一种工作上的差错。,把上述三个阶段的各种非抽样误差加以归纳,可以概括为抽样框误差、无回答误差和计量误差三类。,其中计量误差包括抽样方案设计阶段有缺陷的问卷设计、数据收集阶段有错误的调查数据和数据处理阶段工作上的差错所带来的误差,也就是调查性误差。,二、非抽样误差的特点,非特有性 :为非抽样调查所特有; 非一致性 :使抽样估计结果产生偏差 ,并且样本越大产生偏差的可能性越大; 难测定性 :难以对其进行描述和测定,具有很强的隐蔽性; 难评价性 :非抽样误差的存在使得对抽样效果的评价与衡量复杂化; 全过程性 :存在于抽样调查的所有阶段。,第二节 抽样框误差分析,一、抽样框误差的成因,丢失目标总体中的单位:覆盖不足,丢失单位,使总体总值的估计值偏低; 包含非目标总体单位:过涵盖,空名单,异质单位; 如果在抽样框中同时出现“丢失单位”和“异质单位”,那么也许可能会相互抵消一部分,形成“净涵盖误差”。 复合联接 :目标总体中的一个调查单位与抽样框中的多个抽样单位相联接,或抽样框中的一个抽样单位与目标总体中的多个调查单位相联接; 不够准确或不够完善的辅助信息; 抽样框陈旧,即抽样框老化;,二、抽样框误差的影响,(一)丢失单位的影响 在假定不存在其他原因的抽样框误差时,丢失单位对抽样效果的影响主要取决于两个方面:丢失单位的分布特征和丢失单位数所占的比重。其中,对总体均值的估计只与前者有关,而对总体总值的估计则与两者都有关。,(1)丢失单位是目标总体中的一个随机样本,具有与目标总体相同的期望与方差,则其对总体均值的估计影响不大,但对总体总值的估计会低估。,(2)丢失的单位是特殊群体,不具有与目标总体相同的期望与方差,那么对目标总体总值、均值的估计会产生偏差。,偏差率为:,目标总体总值估计量的偏差为:,(二)包含异质单位的影响,如果是目标总体总值的估计,则其估计量偏差和偏差率分别为:,很显然,这时的偏差或偏差率都是正的,即若抽样框中包含了异质单位必定会使目标总体总值的估计偏高。,均值估计量方差会被高估或低估,总值估计量方差则一定是高估,即:,如果在调查中异质单位可以被识别并被予以剔除的,可以把目标总体看成抽样框中的一个子总体或域。异质单位的标志值就取0。,在调查中剔除异质单位会增加估计量的方差,原因在于它使实际的样本容量变小了。增加的量为:,(三)复合联接的影响,(四)不正确辅助信息的影响,重在预防 积极补救 心理准备,第三节 无回答误差分析,一、无回答误差的成因,(一)无回答的含义 无回答(Nonresponse)是指未能取得所要搜集资料的一种现象,它包括两种情况: 个体无回答和项目无回答。 个体无回答也称全无回答,是指被调查者没有接受调查、造成整张问卷出现空白的 现象; 项目无回答也称部分无回答,是指被调查者回答了问卷中的部分调查项目未能回答其它调查项目的现象。 不论是个体无回答还是项目无回答,都将导致调查数据残缺不全,从而最终影响估计结果,降低估计精度或可靠程度。因无回答而造成的估计误差,就称为无回答误差。,(二)无回答的成因,1、遗漏了被调查者; 2、被调查者地址不详; 3、调查内容未达被调查者; 4、被调查者拒绝回答; 5、回答不准确或不知如何回答; 6、忘记回答。 以上各种原因,有的属于客观性,有的则属于主观性;有的属于有意识,有的则属于无意识;有的属于调查人员方,有的则属于被调查者方。,二、无回答误差的影响,为了测定无回答对抽样的影响,先把总体分为两层:回答层与无回答层。 就调查项目而言,如果无回答不是故意造成的(即与调查内容无直接关系),且无回答现象不集中于某类特殊单位组成的群体,那么就可以认为这种无回答是由随机因素引起的,这时无回答对抽样的影响是因实际有效的样本容量减少而使估计量方差增大,但却不会造成估计量偏差。估计量方差增大的程度取决于无回答率。如果无回答是故意造成的(即与调查内容直接有关),或无回答现象集中于某类特殊的群体,那么无回答层与回答层之间就存在明显的非随机性差异,这时,无回答对抽样效果的影响,除了会增加估计量方差外,还会带来较严重的估计量偏差。,如果在调查中出现 个无回答、 个有回答( + = ),那么当总体无回答层与回答层之间无差异时,估计量方差就变为: = 从而估计量方差增大的量为: = = = 其中 = = 1 为样本无回答率。,估计量方差增大的程度则为: 1= 在这种情况下,为了达到抽样方案所规定的抽样估计效果,就需要增加样本容量。如果总体无回答率为 = ,那么样本容量应该确定为 = 。,如果令 = 为总体回答率, + =1,总体中回答层与无回答层的均值分别为 和 ,样本中回答层的均值为 ,那么当以 来估计总体均值 时,就会有偏差为: E( ) = = ( + ) = ( ),偏差率为: = 其中 = 为回答层均值与无回答层均值之比。 不难发现, 越接近于1(即无回答率越高), 越远离于1(即回答层与无回答层之间的均值差异越大),那么估计量的偏差就会越大,偏差率就会越高,估计结果就越不准确、越不可信。,还要注意的一个问题是,虽然从理论上讲无回答会使估计量方差增大(即 ),但在实际上却难以得到客观的反映,因为我们所能计算的只是 (此处的 是总体中的回答层方差,未知时要以样本方差 估计)。这样, 与 相比,当 时就会高估,当 时就会低估。 与 相比,则还有一个回答率的问题,因为 =,所以当 时估计量方差高估,当 , 那么当 =1时,必然会有 = , 估计量方差低估或高估的现象也就自然会消除。可见,提高回答率是消除无回答影响的关键所在。,三、无回答误差的控制,(一)事前准备充分,争取尽量高的首 次回答率; (二)搞清无回答的原因,有针对性地 进行复调查; (三)必要时,对无回答者进行替; (四)对于一些敏感性问题,可以采用随 机化回答技术(沃纳模型,西蒙斯模型,格林伯格模型等); (五)当无回答不可避免时,可采用一些专门技术来调整估计结果,以减少估计偏差。,具体的调整方法技术有以下几种: 1.汉森与赫维茨(Hansen and Hurwitz,1946)方法。 2.复制估算法。 3.加权调整法。,1.汉森与赫维茨(Hansen and Hurwitz,1946)方法。,这种方法是先对抽中的被调查者进行邮寄(问卷)调查,然后从那些无回答者中抽选出一个子样本进行访问调查并尽量取得完整资料,最后把邮寄调查结果与子样本访问调查结果综合起来得出总体指标的估计值。 这种方法的优点是比多次复调查法节省费用,且估计量无偏、估计精度容易掌握和控制,因此当子样本的个体资料能全部取得时比较适用。但所花的时间较长,且要保证取得子样本的完整资料也不容易。,设 为首次邮寄调查的样本容量, 为回答者数, 为无回答者数, = + 。 为从 中随机抽取的子样本容量。 为与 相对应的均值, 为与 相对应的均值,那么当令 = , = 时,总体均值 的无偏估计量为: = +,该估计量的方差为: V( ) = + 其中 = , = , = , 为总体中无回答者数, 为总体方差, 为无回答层方差。 这个估计过程事实上是双重分层抽样估计过程,所不同的是回答层作了全面调查。,如果设为 首次邮寄调查的单位平均费用, 为回收问卷进行数据处理的单位平均费用, 为对子样本进行调查并数据处理的单位平均费用,那么总调查费用函数为: = + +,当 既定时,使估计量方差达到最小的 和 为: = = 若V( )事先已定,则使总费用 达到最小 的可由下式给出: =,2.复制估算法,这种方法是当无回答出现时,用其它已有的数据来顶替无回答的缺失数据,进而对总体作出估计。用来顶替的数据可以从同次调查的回答者数据中抽选,也可以从以前的同类调查数据中选取或推算而得。在实践中最常用的是从同次调查已取得的数据中随机抽取。 复制估算法的特点是,当顶替数据与无回答缺失数据充分接近时(这就要求与这两者数据相对应的单位来自于同一类别,具有相似的特征),能有效减少估计偏差,但却会增大估计量方差(均方误差)。因此,如果我们能对总体进行分层且适当增大样本容量,那么复制估算法就能很好地解决无回答偏差问题,且保证有较高的估计精度。这种方法尤其适用于“项目无回答”。,Hansen等人曾给出当顶替数据从回答数据中随机抽取时的复制估计量及其方差。总体均值估计量为(此处表达方式作了改变): = 其中 从 个已知数据中随机抽取。当 0.5 时,每个已知数据最多被抽取一次,当 0.5 时则可能被抽取两次。,当 0.5 时,该估计量的方差为: V( ) = 1+ 当 0.5 时,该估计量的方差为: V( ) = 1+ 不难发现,它们都比直接以回答层均值 去估计总体均值 时的估计量方差 V( )= 更大。,3.加权调整法,这种方法是通过一定的权数对调查中的回答数据进行加权来达到对数据进行调整、减少因无回答造成的估计偏差的目的。权数由调查中的回答概率来确定,一般是该概率的倒数。即回答概率大的赋予较小的权,回答概率小的赋予较大的权,从而使估计量的偏差得到一些纠正。具体的加权调整法又有Politz Simmons调整法、加权组调整法和事后分层调整法等,限于篇幅,不再展开详述。,第四节 计量误差分析,一、计量误差的成因,计量误差(Errors of Measurement)是指样本结果(如样本均值,样本方差)与实际情况(真实的样本均值,样本方差)不一致而产生的误差。这种误差可能存在于调查过程中,也可能存在于整理和计算过程中,主要就是任何调查都可能产生的调查性误差。这种误差是由人有意或无意所造成的,且会随调查范围的增大而增加产生的可能性。具体原因如下:,(一)因设计不完善引起的计量误差; (二)调查员原因引起的计量误差; (三)被调查者原因引起的计量误差; (四)其他原因引起的计量误差。,(一)因设计不完善引起的计量误差 一是问卷设计不完善,包括用词不准确;问句具有诱导性或倾向性;问句排列顺序欠妥;调查内容不完整(尤其是缺了重要的项目);调查变量选择有误;问句的切入点不准确;问句给被调查者预备的回答空间不合理;问句的语气太软或太强;问卷的长度太冗长等原因。 二是设计的抽样程序有偏,使样本结构非随机地与总体结构不符。 三是估计量的构造有问题,主要是该加权的未加权,不该加权的却加权,从而产生偏差。,(二)调查员原因引起的计量误差,一是调查员责任心不强、工作粗心,使观察结果不准或登记、填写、计算发生差错。 二是调查员在调查时偷工减料,不按规定操作,用其他数据来代替调查数据。 三是调查员本身弄虚作假,由自己来伪造填写调查表。 四是调查员业务水平不够高,在观察或测量时难以搞准数据。 这些误差成因,有的是无意识的,有的则是故意的。,(三)被调查者原因引起的计量误差,一是被调查者对调查内容的理解(包括问句的含义等)有误。 二是被调查者对于需要回忆才能回答的问题,可能存在记忆差错。 三是被调查者对于调查中的一些相似或者相近内容无法准确区分而出现回答差错。 四是被调查者接受调查时心境不佳、身体不适、家中很忙或有急事和意外,使调查质量受到影响。 五是被调查者对调查不感兴趣而敷衍了事。 六是被调查者为了不让他人知道实情而故意提供不真实的数据(有的夸大,如文化程度、高雅文化消费支出、公益捐款及工作业绩等;有的缩小,如收入、烟酒消费量及工作过程等)。 七是被调查者为了保持同一调查内容在不同时间上的一致性或家庭成员回答口径的一致性而提供相同但不真实的数据。,(四)其他原因引起的计量误差 如计量工具不准确、计算机编码及输入错误、资料整理中的归类错误等。,二、计量误差的影响,计量误差存在于调查单位之中。如果设 为被观测单位的真实值, 为其观测值,那么当 时,就存在计量误差,若以 表示之,可得计量误差模型为: = + 其中 0或 0。,1、 如果调查单位的计量误差是随机出现的,那么总正差与总负差大致相等,即E( )= E( ),也即E( )= 0 。这时,计量误差的存在不会改变估计量的偏差性,但会改变估计量方差的大小。 设 为总体均值,E( )= ,那么有: = + = + 2 ( )+ E = E +E( )+2E ( ),由于E( )= 0,E( )=E = V( ),故 MSE( )= V( )+ V( ) +2E ( ) 其中E ( )为调查单位计量误差与真实离差之间的协方差。,当样本容量为 时,无计量误差的总体均值估计量方差为: ( )= 有计量误差的估计量方差(均方误差)为: MSE( )= (1 ) 即: MSE( )= ( )+ V( )+ 2E ( ) ,若2E ( )+ V( )0,那么MSE( )V( ), MSE( ) ( ),即估计量方差被高估了。不论是高估还是低估,估计效果都不能得到真实的反映。,2 、如果调查单位的计量误差不是随机出现、而是存在一定的系统性,那么就会正差大于负差,这时计量误差就变成为估计量的计量偏差, 即E ( ) E( )= ,从而计量误差的存在既改变了估计量的偏差性,也改变了估计量方差的大小。在这种情况下,我们可以得到: = E( )+ E( )-u E = E + MSE( )= V( )+ 其中V( )为有计量误差时的观测值的估计量方差。,注意到E( ) 0,E( ) V( ),可得: ( )= V( )+ E( )+2E ( ) 如果 E( )+2E ( ) ,则V( ) ( ),估计量方差低估。如果相反,则估计量方差高估。非随机性的计量误差越严重,估计量方差低估或高估的程度就越强。,三、计量误差的控制,(一)精心设计; (二)对调查员要严格要求,精心挑选,加强培训; (三)在每次调查中,都要对被调查者作耐心的宣传说服工作; (四)加强统计执法,规范统计调查活动; (五)要合理确定调查时间、调查方式和调查周期; (六)必要的检查和调整; (七)控制计量工具或技术设备原因的误差; (八)对最后的估计结果要进行必要的质量检查。,必要的检查和调整: 对于一些重要的统计调查,要通过必要的方法和手段对调查数据进行检查,以发现各种计量误差(尤其是有意识的误差),并通过检查结果来调整对总体的估计,提高估计的精度和可靠度。检查的方法一般是,从容量为n的样本中抽取一个容量为 的子样本(0 1),对其进行更细致、更认真的复查,取得尽量准确的数据。如果发现子样本的原调查数据存在计量误差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论