(应用数学专业论文)抽样调查中无回答偏差的调整.pdf_第1页
(应用数学专业论文)抽样调查中无回答偏差的调整.pdf_第2页
(应用数学专业论文)抽样调查中无回答偏差的调整.pdf_第3页
(应用数学专业论文)抽样调查中无回答偏差的调整.pdf_第4页
(应用数学专业论文)抽样调查中无回答偏差的调整.pdf_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在抽样调查中,无回答是经常遇到的也是比较难处理的问题之一,它的出现直接影 响着估计的精度,调查中的无回答也一直是困扰调查统计工作者的一个问题虽然国际 统计界对无回答问题已经进行了大量的研究,但是我国目前对调查中的无回答问题的 研究尚未引起足够的重视,基本上只停留在对国外文献的介绍及一些只针对个案的零 散的研究上,缺乏较为系统的理论研究和有效的处理方法,鉴于此,本文从无回答偏 差调整出发,试图对无回答做初步的理论分析和探讨 首先,系统的阐述了调查中无回答的有关概念和造成无回答的原因,并从确定论 和随机论两种观点出发,较详细的分析了“无回答”对估计量的统计影响提出了本文 调整偏差的思路 其次,对国内外处理单位无回答和项目无回答的方法进行了较全面系统的分析和 评价,并针对实际调查中由于回答者和无回答者之间具有不同的数量特征,提出了一 种新的替代方法,使得替代值更接近于真值,从而达到调整偏差的目的 最后,在分析传统的二重抽样法的基础上提出一种新的处理无回答的方法,对无 回答层进行分解,利用分层的二重抽样法,有针对性的进行二次抽样,来提高回答率 并给出了在一定费用下使得方差最小的最优解 关键词 关键词:抽样调查,无回答,二重抽样 a b s t r a c t a b s t r a c t t h e q u e s t i o no fn o n r e s p o n s eo f t e na p p e a r si ns u r v e ys a m p l i n g ,a n di so n eo ft h ed i f - f i c u l tp r o b l e mt od e a lw i t h i t se m e r g e n c ed i r e c t l ya f f e c t ss u r v e yp r e c i s i o n n o n - r e s a o n s e i sa l s oaq u e s t i o nt h a tp u z z l e st h ei n v e s t i g a t i o ns t a t i s t i c i a n a l t h o u g ht h ef o r e i g ns c h o l - a r so fs t a t i s t i c sh a v ea l r e a d yd oag r e a td e a lo fr e s e a r c ho nt h eq u e s t i o no fn o r e s p o n s e , t h ec u r r e n tr e s e a r c ho nt h i si s s u ei no u rc o u n t r yi ss t i l ln o ta t t r a c t e de n o u g ha t t e n t i o n d o m e s t i cr e s e a r c ho nt h i si s s u eo n l yo ff o r e i g nl i t e r a t u r ea n dc a s es t u d yo fs p o r a d i c ,s o t h er e s e a r c ho fn o n - r e s a o n s el a c km o r es y s t e m a t i ct h e o r ya n de f f e c t i v em e t h o d st od e a l w i t h i nt h ev i e wo ft h i s ,t h i sp a p e rf r o mt h ea d j u s t m e n to fn o n - r e s p o n s eb i a s ,t r yt od o t h ei n i t i a lt h e o r e t i c a la n a l y s i sa n dd i s c u s s i o no nt h eq u e s t i o no fn o n - r e s p o n s e f i r s t ,t h ea u t h o rs y s t e m a t i c a l l yd e s c r i b e dt h ec o n c e p to fn o n r e s ”p o n s ei ni n v e s t i g a t e s a m p l i n g ,a sw e l la st h er e a s o nf o rt h en o n r e s p o n s e ,a n df r o mt w op o i n tv i e wo ft h e d e t e r m i n i s t i cv i e wa n ds t o c h a s t i cv i e wm a d ead e t a i l e da n a l y s i so ft h es t a t i s t i c a li m p a c t o nt h ee s t i m a t o ra b o u tn o n - r e s p o n s e s e c o n d ,f o rt h em e t h o d sa th o m ea n da b r o a dt od e a lw i t ht h ei t e mn o n - r e s ) o n s e a n du n i tn o n r e s p o n s e ,t h ea u t h o rc o n d u c t e dac o m p r e h e n s i v ea n a l y s i sa n ds t s t e m a t i c e v a l u a t i o n t h e r ea r es o m ed i f f e r e n tq u a n t i t yc h a r a c t e r i s t i c sb e t w e e nr e s 2 a o n s ea n dn o n - r e s p o n s ei na c t u a ls u r v e y , an e wi m p u t a t i o nm e t h o di sp r o p o s e dt om a k et h ei m p u t a t i o n v a l u ec l o s et h er e a lv a l u e ,a n da d j u s tt h ei m p u t a t i o nb i a s a tl a s t ,b a s e do nt h ea n a l y s i so ft h et r a d i t i o n a ld o u b l es a m p l i n gm e t h o d ,an e w m e t h o di sp r e s e n t e dt od e a lw i t ht h eq u e s t i o no fn o n - r e s p o n s e ,t h i sm e t h o dd e c o m p o s e t h er e s p o n s el a y e r ,u s i n gs t r a t i f i c a t i o nd o u b l es a m p l i n g ,f o rw h i c hd ot oi m p r o v et h e r e s p o n s er a t e t h eo p t i c a ls o l u t i o ni sg i v e nu n d e rac e r t a i nc o s to fm a k i n gt h es m a l l e s t v a n a n c e s u r v e ys a m p l i n g ,n o n r e s p o n s e ,d o u b l es a m p l i n g i i i 知识产权声明和独创性声明 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。本 人授权西北大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以 采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时,授权中国科学技术 信息研究所等机构将本学位论文收录到中国学位论文全文数据库。 保密论文待解密后适用本声明。 学位论文作者签名:盔 :! :! 垫:手匕导教师签名:霪必 协7 年乡月弓日加夕年6 月;日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经 发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 学位论文作者签名:墨门堪1 砷罗年6 月;日 西北大学硕士学位论文 第一章绪论弟一早三百t 匕 1 1“无回答 的定义及分类 在抽样调查中,由于各种原因而无法获得某个总体或样本分析单元的回 答,这些原因可能是被调查者不在家,没有返回的问卷、拒访、问卷表格 中一项或多项缺失无法访问样本等,以致于无法从某些选定的样本单元中 获取足够有价值的数据,称这类问题为无回答( n o n r e s p o n s e ) 也称不回答或 无影响,关于无回答不同的研究者曾用不同的词汇进行表述,一些研究者 者( z a r k o v i c h1 9 6 6 ;f o r d ,1 9 7 6 ;k a l t o n ,1 9 8 3 ;) 称为缺失数据( m i s s i n gd a t a ) , 还有一些研究者称为不完全数据( i n c o m p l e t ed a t a ) ,无访问( n o n i n t e r v i e w ) 或 未完成( u n f i n i s h e d ) 总之,赖以取得可靠性结论的数据不是足以支持调查研 究,就往往会得到不全面甚至错误的结论对于没有一套完美的方法来评估统计 信息的信度( r e l i a b l i t y ) ,效度( v a l i d i t y ) ,这是一个“令人惭愧的缺憾 【1 】 无回答误差是一种重要的非抽样误差,对调查数据的质量起着重要的影响,是抽 样中不可忽视的问题,根据无回答产生的原因,可以对其进行不同的分类 就调查内容而言,无回答可分为单位无回答和项目无回答项目无回答是指 被调查者虽然接受了调查但是仅仅回答了问卷的一部分,因而不能得到某些项 目的信息单元无回答是指一个样本单元所有或几乎所有的或关键数据缺失 就调查客体而言,无回答又可分为有意识无回答和无意识无回答两种,前 者是由于受访者( 受查者) 对调查本身反感或由于安全原因不接受调查,或因调 查内容涉及敏感性问题或个人隐私而拒绝回答后者则一般与调查内容无关,例 如受访者( 受查者) 不在家或正在生病,无法接受调查,或由于粗心漏掉某些问 题,从而造成无回答,有意识造成的无回答影响比无意识无回答的影响大得多, 倾向于回答单元层和不回答单元层的数量特征( 指标水平) 往往存在较大差异, 因此有意识无回答不仅减少有效样本量,造成估计量方差增大,更为严重的是造 成估计偏差过大,而无意识无回答则可以看成是随机的,一般只会造成由于有效 样本量减小而引起的方差增加,而不会带来估计量的偏差 1 第一章绪论 1 2“无回答 的原因 关于调查中为什么会出现无回答,人们用来说明这些原因的术语有所不 同【2 l ,这些不同的术语与被调查单元的类型和在调查中人们所采用的搜集数 据方式有关为了说明,考虑两个调查,一个是住户调查,一个是医院的调查 “没在家”是前项调查中经常见到的现象,后项调查中不会出现而“经研究拒 绝参与调查则是后者而不是前者的理由数据搜集方法同样影响无回答在访 问调查和和拨号的电话调查中,“没在家 可能是这两种方法经常见到的共同原 因,然而“无法找到地址”只能是前者的原因,而“一直占线”则是后者的原 因尽管在术语上有各种各样的差别,大多数原因还是能够被归入下面的几种类 型之中 在分类之前要说明几点,首先,下面讨论的无回答原因主要是针对单位无回 答而不是项目无回答,因为项目无回答的原因太多,除了拒绝回答以外,其他 原因也很难得知当然单位无回答和项目无回答有联系,单位无回答就是所有的 项目都无回答单位回答中的项目无回答的理由和单位无回答中的项目无回答的 理由一起构成了个别问卷项目无回答的所有理由的集合第二,在给出的分类无 回答的原因在多阶段或多相抽样中完成汇编是可能适合一种以上类型的单位第 三,下面建议的大部分分类只适用于横断面( 或“一次 ) 调查,其中对每一个 被调查者访问不超过一次,或多轮长期中的个别轮 1 不合格那些判断为调查范围以外的单元( 不是目标总体的成员,因此如 果被选中,则不应该包括在内) 联合起来作为构成不参加的一类,但即使归入这 一类,计算无回答率时分母中也不应包括他们例如在住户调查中,发现被抽中 的寓所单元已拆除或无人居住,或暂时居住也属于范围之外,象那些位于抽选区 段以外的寓所,由于错误被列入了抽样框 2 未征寻是指那些单位,对它们的寻找是不成功的,因此不能取得 联系在住户调查中未征寻的典型例子是,调查人员登门时,被调查者不 在家对于这种情况,人们使用的术语不同c o c h r a n ( 1 9 7 7 ) ,d e m i n g ( 1 9 5 3 ) k i s h ( 1 9 6 5 ) 以及p o l i z e 和s i m m o n s ( 1 9 4 9 ) 称这种原因为“不在家 ,b i r n b a u m 和s i r k e n ( 1 9 5 0 ) 称之为“无法联系刀d e i g h t o n 等人( 1 9 7 8 ) 使用了“无法接 2 西北大学硕士学位论文 触 这个类似的词汇美国普查局( 1 9 7 5 ) 把这种现象称为“外出”k e n d a l l 和k a l t o n ( 1 9 7 2 ) 把离家又进一步划分为“长期离家 和“短期离家”并认为只 有短期离家才属于未征寻范畴d u r b i n ( 1 9 6 5 ) 曾建议对这种人专门增加一项为 “无法查找 3 征寻失败在单元无回答的情况下,是指调查人员与被调查者已取 得联系,但是被调查者没有接受调查,或者在项目无回答的情况下,即在调 查中被调查者对调查问卷中某些项目的问题没有回答这种类型是指样本中 的被调查者不愿意参加调查,这意味着被调查者经过思考后决定不参加,不 参加的原因多种多样,包括担心对调查者不感兴趣,心情烦躁或没有时间 这种不参与的类型通常被称为“拒绝 这个词d u r b i n ( 1 9 5 4 ) ,k i s h ( 1 9 6 5 ) m o s e r 和k a l t o n ( 1 9 7 2 ) 使用“拒绝这个词,d e m i n g ( 1 9 5 3 ) 又把拒绝分为“暂时拒 绝”和“永久拒绝”暂时拒绝是指虽然经调查人员说服,被调查者最后可能参 与调查,c o c h r a n ( 1 9 7 7 ) ,e r i c s o n ( 1 9 6 7 ) ,和k i s h ( 1 9 6 5 ) 把这种情况称为“难啃 的硬核 在邮寄调查中,美国普查局( 1 9 7 5 ) 曾把“没有返回的问卷 归入拒绝 类,尽管有些被调查者并非故意拒绝,因为他们可能没有收到问卷,或因为他们 的问卷在返回之前遗失 4 没有参与调查的条件这是调查人员被调查者取得联系,但被调查者没有 接受调查,其原因是被调查者不具有参于调查的客观条件例如由于身体上,感情 上或语言方面的障碍 5 其他原因除了上面四种类型以外,造成无回答的其它原因统统归入此类 这一类无回答是属于被调查者有回答能力,却没能够从他们那里获得回答的类 型k i s h ( 1 9 6 5 ) 和d e i g h t o n 等人( 1 9 7 8 ) 曾提出“丢失调查表”就属于这种 类型的一个例子这种类型中也包括调查是无群的“部分回答,部分参与,调查 中断 ,从而使得一个或多个问题项缺失的情况 1 3“无回答的两种观点 关于无回答通常有两种观点1 2 】,一种观点被称为无回答的“确定论 ,它假 定总体所有单元有p i = 0 或a = 1 ;另一种观点被称为“随机论 ,它假定所有 3 第一章绪论 的总体单位有0 p i 1 无回答的确定论假定,如果总体单元被选入样本,他们或者来自于回答层 ( p i = 1 ) ,或者来自于无回答层i = o ) ,对于每个总体成员他们如果被抽中后能 否成为回答者的不确定性不在考虑,每个总体单元都被看作是已经标上了“回 答 或“无回答 的标签,或在调查前已指定为回答或无回答的子总体因此能 否回答已在事先确定每个总体单元如果被选中,则肯定回答或肯定无回答 从历史上看,早期关于无回答的研究虽然不是全部;但是很多都采用了 确定论观点例如,h a n s e n 和h u r w i t z ( 1 9 4 6 ) 在他们关于用双重或二阶段抽 样解决无回答的,具有里程碑意义的论文中使用了确定论观点他们假定总 体n 包含两个互斥和互补的部分,一个是】,这部分是肯定回答的,另一个 是n 0 = n 一l ,这部分是肯定不回答的假定1 和o 是已确定的数量,从n 中抽取容量为n 的的样本他们定义样本中的回答数量为n l = 坠1 尼r 表 示被抽选为样本后提供有用数据的单元,亿1 是个变量,但它取决于抽样的随机 性,而不包括回答的随机性另外的早期文献( 如b i r b a u m 和s i r k e n ,1 9 5 0 ) 对无 回答做出了与h a n s e n 和h u r w i t z 同样的假定e r i c s o n ( 1 9 6 7 ) ,s i n g h 和s e d r a n k ( 1 9 7 8 b ) ,应用贝叶斯方法对于无回答者的子抽样r a o ( 1 9 6 8 ) 1 3 在存在抽样框误 差的条件下,采用双重抽样解决无回答问题,s r i n a t h ( 1 9 7 1 ) 又把无回答子抽样 的思想推广到无回答进行多次访问的每一次联系,等等;这些都是持确定论观点 者在h a n s e n 和h u r w i t e 的著作之后近期进一步发展的例子 在无回答随机论的观点下,统计推断必须考虑由于回答的随机性所带来的额 外的不确定因素就像估计量的均方误的不同成份反映了样本抽选中的随机机制 一样,在无回答的随机论的观点下,计量时,估计量的均方误也包含由于误 回答所产生的单独误差成份 p o l i t z 和s i m m o n s ( 1 9 4 9 ) 是把无回答视为机会事件的先驱者之一,他们( 以 更早的h a r t e l y 的思想) 提出了一个估计量,在这个估计量中使用了对个体单 元回答概率的粗糙估计,用它作为对无回答进行补救的一种措施在这种情况 下,p l 被认为与t 直接有关,t t 是被调查者在接受调查前5 天中,如果采访员 在同一时间登门,就可能见到的频率因此,对p i 的估计解释了定位工作对回答 的可能性但它没能说明征寻和数据搜集对无回答的影响p o l i t z s i m m o n s 估计 4 西北大学硕士学位论文 量对无回答的补救是通过加权方式实现的,即对于礼1 中每个样本观测值,用其 估计的回答概率的倒数加权,鼽的方式表现为p i = t i + 1 ,对阢进行估计的前提 是,回答的可能性取决于采访员如何找到访问者用这种方法估计阢就已经假 定p i 0 ,因为对那些没有回答机会的单元被证实为无回答者影响就永远无法找 到 早期运用随机论观点的另一个人是d e m i n g 4 ( 1 9 5 3 :7 4 7 ) ,他证明了多次 访问的作用按照调查将在8 次尝试中获得完全成功的平均比例,他把总 体分为6 层根据p o l i t z s i m m o u s 对p i 的估计,估计量阢将取不同的值 ( p i = 0 8 ,1 8 ,2 8 ,4 8 ,6 8 ,8 8 ) 另一个早期谈及随机论观点的是d a l e n i u s ( 1 9 6 1 :4 ) ,在讨论降低无回答影响时他建议,根据每个人在不同时点上恰巧在家 的状态建立一套概率考虑到这种回答倾向建议调查决策时应考虑,对于有较 大鼽值的总体单元,使用较大的抽样比,以最大限度低提高回答率 随机论观点的一个主要局限通常涉及对p i 进行估计的困难例如d a l e n i u s ( 1 9 8 3 ) 指出,当阢常常部分地由环境解释,而环境对回答可能性所带来的 影响无法量化,或由于外部因素对数据( m ) 和辅助变量( x ) ,期望人们要求 以纯为出发点常常是不合理的因为不同的环境将会贡献给鼽不同的水平按 照这种看法,例如根据对x 假设的关系如果调查环境,如调查员的个人品性, 能力,或进行调查的时间在样本各单元之间有所不同 尽管确定论和随机论两种观点之间也有联系,但目前的研究还没有能够指出 那一种观点更为恰当随机论观点认为,确定论观点过于局限,是对现实的简单 化( c o c h r a n1 9 7 7 :3 6 0 ) ,而确定论者认为,如果对纯缺乏限制,就会在分析中 产生问题,例如要对仇进行估计,这种争论看来还要继续下去,直到我们对调 查中究竟是什么造成回答或无回答有了全面、透彻的了解为止与概率抽样程序 中的随机性不同,在那里使用随机机制抽选样本的含义十分清晰,而此处r 的 随机行为必须假定此外,抽选样本时总体中每个单元的入选概率在抽样前原则 上可以确定,因此调查者可以掌握,而对于无回答问题,要准确才知道在定位, 征寻和数据搜集过程中能够获得成功的概率是不可能的依照我们目前的理解水 平,回答概率只能靠猜测或估计无论无回答的那种观点,对下面的看法都是认 同的,即被调查对象是否参与调查与调查人员在定位,征寻和数据搜集方面的工 5 第一章绪论 作质量有密切的关系被选中的单位对调查研究的认知程度同样重要例如,即 便持“确定论观点的人也认为,回答与无回答的子总体范围将取决于这样一些 因素,象数据搜集方式( 邮寄问卷、电话调查或访问调查) ,重复访问次数,调 查员的个人素质,进行调查的内容,以及样本单元的不同人口统计的特征( 如年 龄) 同样,“随机论观点也是如此,忍的结果和的取值也将取决于上面这 些同样的特征 1 4“无回答”的统计影响 无回答对调查结果产生严重影响主要表现在:( 一) 当被调查者有意地拒绝 调查时,这些拒绝回答者的态度及其研究变量的数量特征与回答者存在差异仅依 据回答者的数据对总体进行推断就会导致有偏估计( 二) 被调查者并无有意地 拒绝调查,但却集中于某个群体之中,使得样本的构成与总体构成不同,调查 中缺少了某些类型的代表样本,影响到整个样本的结构,由此产生无回答偏差 ( 三) 由于比预期的要少的单元进行了回答,有效样本数量减少,从而使抽样方 差增大 在确定论中,为了分析无回答的影响,可以假定总体有两个层组成【2 ,4 1 一 个是“回答层 另一个是“无回答层 设n ,1 ,2 分别为总体单元数,回答 层单元数和无回答层单元数,肌= 惫为总体回答率,= 皿n 为总体无回答1 率,矿1 和嚣分别是回答层和无回答层的均值,则总体均值 y = w x y l + y 2 从总体中抽取容量为n 的简单随机样本,n 】来自回答层,礼2 来自无回答 层,根据回答单元计算出样本的均值雪l ,它是回答层均值的无偏估计, 即e ( 雪1 ) = 一y 1 ,于是用雪l 作为总体真值p 的估计量其偏差为 偏差( 雪1 ) = e ( 雪1 ) 一歹= y 1 一( 肌y 1 + w 2 y 2 ) = ( 矿1 一_ 2 ) 有此可以看出,导致无回答的原因主要来自两个方面:一个是回答层和无回 答层之间的数量差异:一个是无回答率w 2 如果调查项目对回答层和无回答层没 有影响,即均值相同,e = - 2 ,这样估计均值就不存在偏差可是现实中,两 6 西北大学硕士学位论文 层的均值通常是不同的当两层之间的差别为常数时,无回答率w 2 越高,其偏 差越大,因此降低无回答率对减少估计量的偏差是十分重要的 在随机论中,为了分析无回答的影响,引入设计变量和回答变量1 5 】,记调查 总体为u = 巩,觇,) 为第i 个单元,共有n 个单元总体变量记为:y = h ,蚝,y ) ,m 是阢对应的的指标,设计变量记为d = d 1 ,d 2 o n 这 里 , 功: 1 当被选入样本 i o当u f 未被选入样本 回答变量记为r = r i r 2 r n 尼: 1 当地被选入样本会提供有用数据 l 0 当u i 被选入样本不会提供有用的数据 另外,与每一个总体单元阢相联系的量是p i = e ( 尼) = p r i = 1 ) ,即阢 如果被选入样本时回答的概率 已简单随机抽样为例,分析当样本单元数据缺失时估计产生的偏差, 以样本的均值雪估计总体均值y 利用引进的设计变量d ,样本均值可 表示为:可= 磊1 墨ld i y i 考虑无回答状态时,单位阢的调查数据可表示 为m = r i m + ( 1 一r i ) 磊,其中磊的值取决于尼的值,当尼= 1 时,即 回答时磊= 0 ,当忍= 0 ,即无回答时,五为无回答数据的替补值总体 中一个单元阢,当调查而无回答时,即d i = 1 且忍= 0 ,用五替代会出 现无回答的偏差,将这个偏差的期望即b i = e ( 磊一k ) 则样本均值可表示 为可= 五1 墨1d i 或,假定设计变量d 与回答变量r 是相互独立的,估计偏差记 为 1 b ( 可) = e ( f f ) 一可= 面1 ( 1 一p i ) b 。i = 1 其中 p i = e ( r i ) = 1 p 尼= 1 ) + 0 p 尼= o = p r i = 1 ) 7 第一章绪论 可以看出,偏差的大小依赖总体中单元回答概率p i 和替代值产生的偏差所以 要减小偏差,一方面是通过精心组织调查,尽可能地降低无回答的概率1 一p i , 另一方面是选择确定的替代值使替代偏差鼠小,即使替代值尽可能接近真值 综上,在确定论中,可以通过提高回答率来减小估计量的偏差,在随机论 中,可以采用恰当的抽样方案,选取更为接近真值的替代值,达到减小偏差的目 的本文就从这两方面出发,试图对调整无回答偏差做进一步探讨 1 5本文的主要工作 本文的研究工作主要包括以下几个方面的内容: 1 分析了国内外常用的处理无回答的方法,利用分层的二重抽样理论,提 出了一种新的替代方法 2 在分析传统的二重抽样法的基础上,提出了对无回答层根据其无回答的 原因进行分层,对无回答层有针对性进行二重抽样,以最大限度的提高回答率, 达到减小偏差的目的并根据分层的二重抽样理论,给出了一定费用下使得方差 最小的最优解 本文的章节安排如下: 第一章:系统的阐述了抽样调查中无回答问题有关的概念并从确定论和随 机论两种观点出发较详细地分析了“无回答 对估计量的统计影响 第二章:介绍了单位无回答预防和调整方法 第三章:介绍了项目无回答的调整方法,并给出了较为全面的评价,提出了 一种新的替代方法 第四章:详细的分析了无回答的二重抽样法,提出分层的二重抽样法,并且 给出了最优解 8 西北大学硕士学位论文 第二章单位无回答的处理方法 在现实中,无回答的产生一般都不是随机的,而是有系统性的,这样无回答 层和回答层之间的差异就不可避免,国内外的许多有关调查已证明了这一点因 此,如何解决无回答问题,减少无回答对抽样所造成的影响,就成了一件十分重 要的工作处理单位无回答的最好办法就是一开始就予以重视,做好预防,以免 问题过大但是当无回答不可避免时,就要进行各种补救,以减少不回答带来的 偏差许多学者对无回答的事后补救都做了很多研究 6 - - 1 1 2 1无回答的预防措施 ( 1 ) 问卷设计应具有吸引力,这样才能引起访问者( 受查者) 参与的兴 趣,而且问卷不能太长,这样容易使人产生厌烦心理,从而影响调查质量 ( 2 ) 严格选择调查员,要选择那些有高度责任心和较强人际交往能力的人 担任调查员而且调查员的身份最好能与受访者接近,比如大学生、居民委员会 成员、下岗职工都是理想的非专职调查员的人选 ( 3 ) 加强对调查员的培训培训分为三个方面:一是调查内容、意义的讲 解,保证他们对问卷的理解不出太大偏差;二是访谈技巧的提高;三是责任心的 培养 ( 4 ) 事先通知在调查员接触到访问者之前,先进行一定的沟通,比如打 电话等,以消除受访者的疑虑,然后再进行正式的访问,将会极大地降低拒访 率 ( 5 ) 奖励措施调查需要花费受访者的时间和精力,因此应当给予适当的奖 励可以采用物质和非物质激励手段,如对邮寄采用抽奖的方式对入户调查采用 赠送小礼品的方式,对集体单元进行调查提供最后的调查报告或汇总结果等非物 质奖励方式 ( 6 ) 多次访问无回答产生的原因包括调查客体当时不在家,或不方便 ( 生病或有事) 或对调查不感兴趣有疑虑等对这些情形如果在第一轮调查完成 之后,针对不同原因,隔些时候再次访问或多次访问常常能够使调查获得成功 9 第二章单位无回答的处理方法 如针对受访者不在家的情况,可设法了解其何时在家,再次登门调查而对一些 不明白原因的拒访,可以改变调查方式,如对邮寄调查的无回答者,除了再次邮 寄调查问卷外,可以用电话提醒或改用电话调查但是多次访问也有局限性,如 增加调查费用,使整个调查周期延长等因此要根据不同的调查情况,采用不同 的措施 ( 7 ) 替换被调查单元对于放弃的无回答者,需要抽取替换单元,以使接 受调查样本单元数不低于原设计要求替换样本单元应遵循一些基本原则:替代 者与被替代者用属于同一类型,他们具有某些相同的或相似的特征;替换的程序 应在调查实施前就确定,不能在发生无回答时有调查措施确保对无回答继续追踪 的努力 2 2 多次访问 为了减小偏差,提高回答率,进行多次访问是一种很有效的方法多次访 问1 2 ,1 1 是从无回答者中进行审慎的新尝试,以求获得回答,它是减少无回答比 例的最常用和最成功的方法,尤其适用于不在家的情形设总体有n 个单位, 根据找到被调查对象的概率将总体分为r 组,计蚴f 为第i 次访问找到第j 组的 一个被调查对象的概率( 设叫巧 0 ) ,p ,为总体中属于第j 组比例,u j 为第j 组某指标的均值,矾j 表在总体共i 次访问中所找到的第j 组中被调查对象有关 指标的均值,假定e ( 叻) = u j ,则该指标总体均值u = ;:l p j u j 对所抽选的 样本,经过第i 次访问之后,可以划分为r + 1 组,样本属于第1 组并被调查 者;样本属于第2 组并被调查者,以此类推,直到样本属于第r 组并被调查 者,对于样本中的第r + 1 组,则由第i 次访问后尚未被调查者组成,粗略地, 可以认为这r + 1 组的人数( m l ,l r t 2 ,m 件1 ) 服从多项分布,而譬;m j = m 为调查方案确定调查的样本总数,7 2 i 一;:1m j 表示在第i 次访问过程中被调 查过的总人数,那么随机变量啦服从成功概率为;:1w i j p j ,试验次数共n 的 二项分布,它的期望应为e ( n i ) = n ;:1 w i j p j ,而当固定时,第j 组的调 查数u = 1 ,2 ,7 ) 又服从成功概率为w j p j ;:1w i j p j 的多项分布,于是 1 0 西北大学硕士学位论文 有e ( m f f n i ) = n ;:i w 。i 面? p j 万,以蟊表示第i 次访问后回答单元的均值,则 e c 黔e c 学,= 甓署= 警訾氧 结果与r t i 无关,故e ( g i ) = 砒,则回答造成的样本均值中偏差总量是 b = e ( g i ) 一u = 砚一u = 鬻一p j u j 显然,若总体中各单位的回答概率相同即w i j = w ( 常数) ,b = 0 ,这表 明这种情况下无回答不会造成估计量的系统偏差采用多次访问,访问的次数越 多,获取样本值越多,偏差就越小,但实际调查中,访问次数受到调查费用和调 杏误差要求及时间等因素的限制,所以确定访问次数应综合考虑这此因素 2 3 加权调整法 对于调查中的缺失数据,如果不采用补救措施,就有可能产生估计偏差,加 权调整法1 2 ,1 2 1 是通过一定的权数对调查中的回答数据进行加权达到对数据进行 调整,减少因无回答造成估计偏差的目的权数由调查中的回答概率来确定,一 般是该概率的倒数,即回答概率大的赋予较小的权,回答概率小的赋予较大的 权,从而使估计量的偏差得到一些纠正设从总体n 中随机抽取容量为l l 的样 本,估计量矿= n 暇饥是无偏的,这里m 是第i 个样本单元的权数;若令7 i 为第i 个单元的入样概率,在样本单元全部回答情况下,权数形= 町1 ,它反 映了第i 个样本单元在估计中作用有设只为第i 个单元的回答概率,尸= 1 表示一定回答,p = 0 表示一定不回答,现实中,只是一个随机变量,被调 查者是否回答取决于多种因素设回答概率期望值e ( r 7 r i ) = 只,即第i 个 单元被选中后回答概率为只在调查中,由于无回答的存在,只能用n 1 个 回答单元的信息对总体参数进行估计,因此估计量9 = nm 协就需要修正 为y + = mw y i ,其中w = ( 死只) - 1 是对无回答数据进行调整的权数,即用 回答单元的回答概率来解释调查中的无回答 为了进行调整,需要掌握样本单元的回答概率由于只未知,所以就需要 对只进行合理的估计,对只的估计方法又有很多种,所以就形成了不同的调 整方法 】1 第二章单位无回答的处理方法 2 4 p o l i t z s i m m o n s 方法 最早的调整方法之一是有p o l i t z 和s i m m o n s ( 1 9 4 9 ) 提出的【2 ,1 3 l ,但其思想 源于h a r t l e y ( 1 9 4 6 ) 这种方法假定无回答与受访者( 受查者) 在家的概率有关, 设在调查时间中受访者( 受查者) 在家的频率为p ,则在估计变量的总体均值 时,以p 作为回答概率的估计值,并使用其倒数来加权 假定访问是每周除周日以外的其余6 日晚上进行,对每个样本户进行一次访 问,在访问时顺便问到受访者( 受查者) 前5 个晚上( 不包括星期日) 是否在 家令t i 为前5 个晚上在家并可接受调查的天数,于是p i = ( t i + 1 ) 6 就是其在 家概率的一个估计将第一次调查的样本按在家频率p 分成6 组,各组的样本量 为n t ( t = 0 ,1 ,2 ,3 ,4 ,5 ) ,第t 组的观测值的均值为甄,则总体均值的估计为 雪i t n t p t一( t4 - 1 y t n t p ty t n t l)乙乙l 艺, 秒s t2 r 一。r 一 n t p tn d c t + 1 ) 这个估计量的分子分母都是随机变量,是一个比率型的估计量,其方差的计算相 当复杂 d e sr a j 对此进行了改进 1 3 ,1 4 】,提出了另一个估计量,设抽取一个容量为n 的样本,第i 个样本观测值为饥,其抽取概率为只,则调整后的值魏为 巍= 罟如果调查户回答 奶= 0 如果调查用户无回答 于是总体均值矿的估计量为 y = = 1 魏 礼一: 假设第i 个单元在s 天中有j 天在家,则在家概率的估计值为a = j s ,其概率 为 啦援。( 1 一硝- j ) 因此,对一个具体单元来说,巍的期望值为: 纺j = l ( 吾) 。( ;二 ) 硝。( 1 一鼽) 扣歹2 詈( 1 一醛) 1 2 西北大学硕士学位论文 其中q i = 1 一p i e ( 巍) = 专壹i = 1m ( 1 一口;) = 矿一专娄口;玑 e ( 可) = 歹一专爵玑 歹是一个略为有偏的估计量,偏差为专g ;犰 其方差为 晡k 1 晦,= 志娄c 巍一三静 这种方法的优点是节省调查时间,所以在仅允许访问一次或强调调查速度的 情况下,这种方法是不错的选择,但是这种方法的缺点也是显然易见的,首先, 这种方法只考虑受访者由于不在家而产生的无回答,并对此进行修正却没有考 虑其他主观原因而产生的无回答;其次,这种方法无法体现拒绝调查的受访者的 实际回答概率为0 的这种情况,同样对于连续6 天都没有取得联系的受访着, 也无法估计其权数,简单加权只会增加偏差;最后,对复杂分析也将使费用增 加,这会在某种程度上抵消了其取代多次访问的优势 研究结果表明,对第一次访问数据进行加权调整后的结果与多次访问相比 较,效果并不理想,而对三次访问后的数据进行加权后,其效果则有明显的改 进,因此,在今后的数据调查中,如果条件允许,建议把该方法与多次访问的方 法相结合,尤其是当多次访问后的无回答造成偏差比较大时,加权调整会使偏差 减小 2 5 加权组调整法 加权组调整法【1 2 ,1 5 】对样本进行分组的过程类似与分层,是指把容量为n 的 样本划分为h 个互不重叠的子集,把这些子集称为调整组,用下标h 表示通 过划分使得组内各单元的目标变量k 值尽可能相近,并设组内所有单元的回答 概率相同因为过程类似于对样本进行分层,因而需要足够的进行分层的辅助信 息 1 3 第二章单位无回答的处理方法 加权组调整中所使用只的估计量,是组内经过加权的回答率对任何样本概 率,有眠= 7 r 五1 ,这里w h i 是第h 组中第i 个样本的未经调整的权数,r i 的 估计量为: 眠 掣= 等 ( 2 1 ) i 式中,n 1 为第h 组中的样本量;亿1 ,l 第h 组中回答单元的个数;群;) 为第h 组 第i 个单元回答概率的估计值 于是经过加权组调整的权数为: 嘲= 器h i 一甓w h i 仁2 , ) , 显然,如果没有无回答,磁;= 1 ,调整后和调整前的权数没有什么区别如 果存在无回答,群; i 经调整后的回答数据的权数增大了, 可以理解为无回答单位的信息分摊到回答单元身上了,如果采用等概率抽样设 计,即丌肮= 昔对所有的h = 1 ,2 ,h 都成立,则磺= 灿n h 令a h = 监n 是 第h 组在总体中所占的比例,通常m 未知,需要进行估计,i 的估计值为: i- , 鑫 = 音杀一 ( 2 3 ) k i 令y 1 = 每f 为第h 组中回答层的总体均值,则y l l 估计值为: 一三 r l h = 哥广 ( 2 4 ) i 站黔 :赣 5 , i = lr fw j ? , 西北大学硕士学位论文 2 6事后分层调整 事后分层调整【1 2 ,1 6 1 的基本思路与加权调整相似,也是通过分层原则使组内 单元目标量y 值尽可能地相似,两者的主要区别在于:在加权组调整中,组内 的划分是依据抽样框提供的辅助信息,在调查实施前进行的,而事后分层中的层 的划分则是在调查实施后进行的,主要是因为用于分层的辅助信息在调查前没有 掌握无法进行分层用于分层的变量,通常包括问卷之中,为进行分层提供依据 事后分层特别适用于调查中项目无回答的情况,在这种情况下,虽然一些单位目 标量的数据缺失,但被调查者回答了问卷的另一部分问题,研究人员掌握了用于 分层的信息同时,在事后分层中的单位数m 是已知的 简单的事后分层只考虑了项目无回答,若要考虑单位无回答,则可以考虑把 事后分层与加权组调整结合起来即首先采用加权组调整,使单位无回答的情况 得到处理,然后把调查数据按所需的标准再一次划分,进行事后分层调整解决项 目无回答 在正常情况下,对第h 层进行事后分层调整的系数为 m 口,l2 瓦一 i ( 2 6 ) 在等概率抽样设计中,调整可以简化为c t h = 鲁嚣,在等比例抽样中,由于 有等= 等,因而a h = 1 ,这是全部被调查单位都给出回答的情况由于回答 单位的作用相同,就不存在调整问题,反之,如果出现无回答,调查数据产生 于几1 而不是1 1 ,就需要将( 1 ) 式改写为: 日t , , x 。 m i o := 与警l ( 2 7 ) i 式( 2 6 ) 分母中的罂1 i 被( 2 7 ) 中的瞽i 所代替 由加权组调整已得到叫;= 豁代入( 2 7 ) 式得 m 苎n h 嘲m 州i 2 菘蕃万 q 8 ) 第二章单位无回答的处理方法 由于叫;) 中已经反映了有关回答概率磁;的信息,所以( 2 8 ) 式分子的 位置上,用磐取代了( 2 7 ) 式同样位置上的昝此时完成了第一轮调整 按下来事后分层调整为叫;= o 蠢叫;,于是总体均值估计可以写成: 多p s = 善h 雪h = 一1 三h 卷= 需 c 2 9 , 多p s = 砌h = 。黑= 号怎; ( 2 9 ) = 1 h = l 一” rr 仇n ? 7 与( 2 5 ) 相比看出,上式中的估计量增加了一个调整过程 加权调整法是建立自划分调整单元的基础上的,调整单元划分的越多,每个 单元内包含的样本越少,单元内样本越相似,越有利于减少估计量的偏差;因此 利用加权法调整偏差,要掌握一定量的辅助信息,以便对样本单元进行更好的分 层,使得层内各单元的y 值尽可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论