（计算数学专业论文）信息采集中无应答误差的理论分析研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-07 格式：PDF 页数：49 大小：1.80MB 积分：10.8 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

f 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。一i1 = ；r，签名：至1 1i ：基日期：孑o p 年6 月o 日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 虢j 山建导师繇显超日期：p 年石月口日 q 摘要摘要在当今这个信息社会，信息的大量爆发和迅速传播，使得人们不得不在浩瀚的信息海洋中甄别出有价值的信息，并将这些信息转化为生存和发展的动能。随着信息化的进程，信息采集已经成为获取可靠信息的必要途径和各行各业的一项重要工作。在信息采集中，经常遇到的一个棘手的问题就是无应答，而无应答直接影响着信息采集的精确度，是掌控信息质量的关键因素之一。但是，在目前的相关文献中几乎很少有这方面的理论研究和解决策略。源于此，本文首次大胆将概率统计的理论方法应用于处理信息采集中的无应答问题，以提高信息采集的可靠性和精确度。从如何控制无应答误差出发，本文详细阐述了无应答的相关概念、成因和国内外的研究背景，通过建立模型，对无应答问题的统计影响展开了具体的分析，从事前预防和事后补救两个方面提出了对无应答误差进行处理的方法。就单位无应答和项目无应答，分别介绍了有效提高应答率的预防措施和减小误差的补救方法。针对应答者和无应答者之间的数量差异，对加权调整法和替补法作了详尽的系统研究。同时，基于常规的二级抽样理论，提出了一种新的二级抽样法，这种新方法是将回归分析与二级抽样相结合，用来解决无应答问题，提高了估计精度，节约了信息采集的费用。关键词：信息采集，无应答，调整法，替补法，二级抽样法 q _ 、 a b s t r a c t a b s t r a c t i n t o d a y si n f o r m a t i o ns o c i e t y , t h ec o n s i d e r a b l eo u t b r e a ka n dr a p i ds p r e a do f i n f o r m a t i o nm a k ep e o p l eh a v et od i s c e r nt h ev a l u a b l ei n f o r m a t i o ni nt h ev a s ts e ao f i n f o r m a t i o n ，a n dt r a n s f o r mt h ei n f o r m a t i o ni n t o k i n e t i ce n e r g yf o rs u r v i v a l a n d d e v e l o p m e n t w i t ht h ep r o c e s so fi n f o r m a t i o n i z a t i o n ，i n f o r m a t i o nc o l l e c t i o nh a s b e c o m ea l le s s e n t i a la c c e s st or e l i a b l ei n f o r m a t i o na n di m p o r t a n tw o r kf o ra l lw a l k so f l i f e i ni n f o r m a t i o nc o l l e c t i o n ，o n eo f t e ne n c o u n t e r sat h o r n yp r o b l e mw h i c hi sn o r e s p o n s e ，i td i r e c t l yi n f l u e n c e st h ep r e c i s i o no fs t a t i s t i c a li n f e r e n c e ，a n di t i sak e y f a c t o ri nt h ec o n t r o lo fi n f o r m a t i o nq u a l i t y h o w e v e r , t h e r ea r ef e wt h e o r e t i c a lr e s e a r c h a n dp r o b l e m s o l v i n gs t r a t e g i e si nr e l a t e db i b l i o g r a p h i e s t h e r e f o r e ，t h i st h e s i sf i r s t b r a v e l yp r o p o s e st h ea p p r o a c h e st ot h et h e o r yo fp r o b a b i l i t ya n ds t a t i s t i c sa p p l y i n gt o t h ep r o c e s so ft h ei n f o r m a t i o nc o l l e c t e di nt h en o n - r e s p o n s e ，t oi m p r o v et h er e l i a b i l i t y o ft h ei n f o r m a t i o nc o l l e c t i o na n da c c u r a c y s t a r t i n gf r o mh o w t oc o n t r o lt h i sn o n r e s p o n s ee r r o r , t h i st h e s i se l a b o r a t e so n n o n r e s p o n s e sc o n c e p t s ， c a u s e sa n dr e s e a r c hb a c k g r o u n da th o m ea n da b r o a d t h r o u g ht h ee s t a b l i s h m e n to fm o d e l s ，t h i st h e s i sm a k e sas p e c i f i ca n a l y s i so ft h e s t a t i s t i c a li n f l u e n c eo fn o n r e s p o n s e ，a n df r o mt w oa s p e c t so fp r e v e n t i o na n dr e m e d y p u t sf o r w a r dt h em e t h o d st od e a l 、析也n o n - r e s p o n s e o nt h eu n i tn o n r e s p o n s ea n d i t e m n o n r e s p o n s e ，t h i st h e s i s i n t r o d u c e s r e s p e c t i v e l yp r e v e n t i o nm e t h o d s f o r i m p r o v i n gr e s p o n s er a t ea n dr e m e d i a lm e t h o d sf o rr e d u c i n ge r r o r s i nt e r m so ft h e q u a n t i t a t i v ed i f f e r e n c eb e t w e e nr e s p o n d e r sa n dn o n - r e s p o n d e r s ，t h i st h e s i sm a k e sa d e t a i l e da n ds y s t e m a t i c a lr e s e a r c ho nt h ew e i g h t e da d j u s t m e n tm e t h o d sa n dt h e s u b s t i t u t i o nm e t h o d s m e a n w h i l e ，b a s e do nt h er o u t i n ed o u b l es a m p l i n gt h e o r y , t h e t h e s i sh a sp r o p o s e dan e wd o u b l es a m p l i n gm e t h o d ，t h i sn e wm e t h o di st h ec o m b i n a t i o n o fr e g r e s s i o na n a l y s i sa n dd o u b l es a m p l i n g ，w h i c hc a ns o l v et h en o n r e s p o n s e ， i m p r o v e 也ee s t i m a t i o na c c u r a c ya n d s a v et h ei n f o r m a t i o nc o l l e c t i o nc o s t s k e y w o r d s ：i n f o r m a t i o nc o l l e c t i o n , n o n - r e s p o n s e ，a 由u s t m e n tm e t h o d ，s u b s t i t u t i o n m e t h o d ，d o u b l es a m p l i n g 目录第一章绪论目录 1 1 无应答误差的概念、种类及其产生的原因1 1 1 1 无应答误差的概念1 1 1 2 无应答的种类2 1 1 3 无应答的起因3 1 2 无应答研究现状与研究前景4 1 2 1 研究背景- 。4 1 2 2 无应答误差理论研究的发展历程5 1 2 3 无应答误差理论研究的前景。6 1 3 本文的主要工作7 第二章无应答的统计影响8 2 1 无应答的量化8 2 2 无应答偏差模型9 2 3 无应答的确定论和随机论观点1 1 2 3 1 无应答的确定论1 1 2 3 2 无应答的随机论1 2 2 3 3 无应答随机论观点的发展1 3 2 4 参数估计中无应答的确定性和随机性影响。1 3 第三章有效预防无应答误差的途径1 6 3 1 单元无应答的预防途径1 6 3 2 项目无应答的预防途径1 7 第四章修补无应答误差的方法1 9 4 1 单位无应答的调整方法。1 9 4 1 1p o l i t z s i m m o m s 方法1 9 4 1 2 加权组调整法2 1 4 1 3 事后分层调整法2 3 4 2 项目无应答的替补方法。2 5 i l l 目录 4 2 1 热层替补。2 6 4 2 2 均值替补2 7 4 2 3 比率或回归替补2 8 4 3 无应答的二级抽样法2 9 4 3 1 二级抽样法2 9 4 3 2 改进的二级抽样法。3 2 4 3 2 1 一种新的二级抽样法3 2 4 3 2 2 贝叶斯二级抽样法3 4 第五章总结。3 6 参考文献。3 7 j l i 【谢3 9 i v 第一章绪论 1 1 无应答误差的概念、种类及其产生的原因 1 1 1 无应答误差的概念在当今这个信息化的社会，信息的大爆炸，使得各行各业对统计数据的需求急剧上升，对数据质量的要求也愈来愈严格。因此，进行统计调查采集信息日益成为人们所关注的一个独特的课题。但是，由于种种原因，在信息采集过程中调查采集的结果和实际情况之间往往不可避免的存在一些差异，这就是调查误差。信息采集过程中抽样调查的误差通常分为两类：抽样误差和非抽样误差。抽样误差又叫随机误差，是用样本统计量去估计总体参数时，因为有意识地只研究了总体的一部分，从而在结果中出现的误差。是由抽样的随机性而引起的一种样本对总体的代表性误差。抽样误差是抽样调查本身所固有的，无法消除的，但可以对其进行数量上的估计，也可以通过调整样本容量或改进抽样方法来加以控制。非抽样误差又叫系统误差，是信息采集者在调查时没有获得正确有效的信息而引起的误差。一般认为是在信息采集工作中，因为某些错误或不足( 如不正确的定义、不恰当的调查问卷、不完善的操作等) 而导致了非抽样误差。与抽样误差相比，非抽样误差具有难以预测和非随机性的特点，其大小又直接影响着信息数据的质量和利用效益。因此，有效地控制非抽样误差是提高调查信息可靠程度的重要手段之一。非抽样误差的来源比较复杂，主要有抽样框未能不重不漏地包含所有抽样单元导致的抽样框误差，调查测量不准确引致的计量误差，还有无应答误差等u 1 。信息采集过程中经常遇到的一个最明显的问题是：不能从所有的样本单位及问卷中的所有问题获得需要的数据，这类问题被称为“无应答”。这是抽样调查活动中信息采集的不足之处，它不仅与调查设计有关，而且严重地影响到了统计分析，并引起了普遍的关注。在把信息采集作为重要工作内容的行业中，掀起了关于无应答的研究热潮。对无应答误差的定义，研究者们有不同的描述：科克伦和基什称为“无回答”，福特、卡尔顿和金勇进称为“缺少数据”，麦多称为“不完全数据。由于无应答误差主要产生于数据资料的采集阶段，因此习惯上使用“无电子科技大学硕士学位论文应答是比较合理的。无应答误差是指由于无应答现象的发生而导致采集到的信息与现象真实值之间的差数。无应答误差是一种重要的非抽样误差，从很大程度上影响着信息的质量，这在抽样调查中是不可小觑的。依据无应答内容及产生的原因，可以对无应答误差进行不同的分类。 1 1 2 无应答的种类 1 就内容而言可分为单位无应答和项目无应答单位无应答表现为选入样本的信息采集单位，没有向信息采集员提供相关资料，交了一份空白的答卷。如在信息采集时，要么由于信息采集对象临时有事不在采集现场；信息采集对象搬迁、地址不详或信息采集员不熟悉地址等原因无法找到信息采集对象；要么由于信息采集对象对该调查没有兴趣、不愿意接受调查访问等，即便能找到信息采集对象但是仍然得不到所要的资料。项目无应答是指信息采集对象虽然接受了调查，但对其中的一些信息采集项目没有回答，问卷中出现空缺致使某些问题的回答不全，或虽然做出了相应的回答，但却提供了没有实际意义的信息。如由于信息采集者粗心大意在提问和记录的过程中遗漏了某些项目，信息采集对象对某些问题不愿意回答，还有一些项目可能存在无意识的或有意识的人为的错误等。这样，或多或少地，项目无应答总还是有一些信息的，而单位无应答没有一点样本单位的信息。 2 就信息采集对象而言可分为有意识无应答和无意识无应答有意识无应答常常与调查及调查内容有关，是信息采集对象从主观上排斥调查。如信息采集对象本身不愿意被打搅，对调查内容漠不关心，因而不接受调查；或因调查主题涉及敏感性问题或个人隐私而不愿意回答等。无意识无应答则不存在主观上的因素，而且通常与调查内容无关，是由于其它原因造成的，如信息采集对象不在现场、很忙没时间或正在出差客观上无法接受调查；或填写问卷时由于不仔细漏掉某些问题从而造成项目无应答。从对估计量产生的影响来看，两者都减少了有效样本量，增大了估计量方差，而有意识无应答更糟糕的是造成了估计偏倚过大，无意识无应答则不会。不管从哪方面来看，任何种类的无应答，对采集到的数据的质量都有影响，使样本中应答者与无应答者之间产生系统性差异，从而引起估计量偏倚。 2 第一章绪论 1 1 3 无应答的起因采集信息时为什么会出现无应答，这是国内外研究者普遍关心的，并就此做了不少研究工作。无应答通常发生在数据的收集阶段，产生的原因是多方面的： 1 信息采集方案设计方面设计调查方案需要大量地综合各方面的相关信息，设计不恰当极易引起单位无应答，在设计时应该充分考虑采集对象、采集内容、采集时间和方法等方方面面的因素。信息采集对象的“不恰当”，一种情况是信息采集对象中包括了调查范围以外的单位，如针对在校大学生的调查有可能把已经毕业( 或退学) 的学生纳入抽样框；另一种情况是把应调查的单位排斥在调查样本之外，即在确定调查对象名单时可能漏掉某些单位。采集内容的“不恰当”，如采集内容中包括了信息采集对象不愿回答或因不能理解而无法回答的问题。采集时间或采集方法的不恰当，如采集时间选在了信息采集对象不在或很忙的时候，用面对面的询问形式采集敏感性问题方面的信息等。 2 当今社会环境方面因为一般的信息采集大都遵从信息采集对象自愿的原则，特别是在如今这个开放的市场经济时代，如果依靠政府凭借其权威和行政措施强行调控，反而容易引起信息采集对象的反感和抵触，增大无应答率。同时，社会环境的复杂使得人与人之间的相互信任感减弱，不信任和戒备是引起无应答的重要因素。另外，随着社会环境的变迁，信息采集对象的家庭住址和工作单位的变动也变得频繁起来，这样常常无法及时准确地查找到信息采集对象。 3 信息采集员方面在信息采集中，信息采集员与信息采集对象之间建立起良好的信任和沟通关系是进行信息采集的前提，也是采集到的信息质量的保证。信息采集员的人品、身份、年龄、性别及态度、衣着、谈吐等都是影响取得信息采集对象信任的因素。实际工作中，为了节省费用或者节约时间，一些调查组织者倾向于聘用兼职的信息采集员，这些兼职的信息采集员极可能缺乏人际交往经验、责任感、职业道德和吃苦耐劳的精神，上任之前又往往没有得到正规的培训，导致其没有具备信息采集方面的必要的素质。信息采集员经验的缺乏和工作不够耐心细致也是无应答产生的主要原因。 4 信息采集对象方面由于住所的变动或工作的不稳定使得找到信息采集对象越来越困难；社会发 3 电子科技大学硕士学位论文展中出现的各种不良因素也使得信息采集对象的防备心理日益增强。当调查涉及个人隐私、敏感问题或商业机密等时，出于种种顾虑和个人前途、安全等的担心，人们往往保持沉默，不愿意回答；而对需要花费时间进行回忆的问题，或者是风俗、民族习惯及本人忌讳的问题，同样会产生无应答。如果信息采集项目很复杂、很难，或者超出了信息采集对象的实际认知能力和水平，或者涉及信息采集对象不熟悉、不了解的内容，都会造成无应答。而当调查项目模棱两可、含混不清，或者调查项目已经过时了，也会造成无应答。信息采集对象虽然已经做出了应答，但因理解有误，提供的信息是无用的或错误的；信息采集对象故意虚报、瞒报数据，在数据检查和整理过程中，发现的一些有明显不合乎逻辑的数据，这些数据不能使用，应将这些数据予以剔除，这些都将产生无应答。 5 其它方面这里谈及的无应答是：信息采集对象有应答能力，却没有从他们那里获得有效的信息。如在邮寄调查中，邮件损毁或丢失。在调查中如遇特殊情况或突发事件中断调查等，都会产生一个或多个问题的项目无应答。 1 2 无应答研究现状与研究前景 1 2 1 研究背景信息是监控、预测和分析的依据，是决策的直接参考。无论是传统行业还是新兴行业，乃至个人，对信息的需求越来越多，依赖性也越来越大。信息在现代社会扮演着越来越重要的角色。随着信息化的进程，信息采集已经成为获取可靠信息的必要途径，同时正逐渐成为各行各业( 如电子、交通、航空、教育等) 的一项重要工作。在信息采集中，经常遇到的一个棘手的问题就是无应答，而无应答直接影响着信息采集的精确度，是掌控信息质量的关键因素之一。在相关文献中几乎很少有这方面的理论研究和解决策略。目前，尽管一些国家的信息采集机构，要么通过某些权利和行政手段( 如统计法规、开介绍信) 提高应答率，要么通过精心设计问卷、选取恰当的采集方法、挑选和培训信息采集员( 如为获得信息采集对象的认同，选取女性采集员) 等途径事先预防无应答的发生。但是，在汇总处理无应答数据时，很多信息采集机构很少做任何事后补救工作，往往不是直接删掉就是不理会。而且，在信息采集的 4 调查报告中，一般都很难看到“无应答率等相关技术指标的说明或阐释。因此，在信息采集中，为了提高采集到的信息的质量，对无应答问题展开系统的研究，是进行信息采集的一个首要任务。 1 2 2 无应答误差理论研究的发展历程对无应答问题的研究，我国起步较晚，相关的文献综述也不多见。然而，在国外，对该问题的理论研究形成得比较早。1 9 1 5 年，在抽样调查领域颇有威望的 b o w l e y 率先提出了无应答问题，自此以来，关于无应答问题的理论研究已经经历了三个时期。一、初创萌芽时期( 1 9 1 5 年至上世纪4 0 年代) 期间，研究者围绕无应答问题展开了初步的理论研究。b o w l e y ( 1 9 1 5 ) 提出信息采集结果的不确定性或误差，受到四种可能来源的影响，一是错误的信息，二是不严格的、不恰当的、或被错误表述的定义和标准，三是不合理的样本，四是用样本估计总体时计算错误的可能性盥1 。其中前面两项属于非抽样误差领域。 1 9 2 6 年b o w l e y 又一次着重强调从源头切断各种误差的必要性。随后，在1 9 4 4 年， d e m i n g 将影响调查误差的因素进行了更广泛的分类，也涵盖了1 9 9 5 年金勇进概括的来自于无应答的误差因素。这些让人们认识到了控制无应答问题的重要性。二、专项研究时期( 上世纪4 0 年代中后期至上世纪7 0 年代末) 这一阶段是专题理论和方法研究时期。研究者分别从事先预防和事后补救两个方面，有针对性地提出了控制无应答误差的传统方法。从理论层面上来说，控制无应答误差最便捷最有力的措施是事先预防。研究早期，无应答误差的事先预防引起了普遍的关注。s h ( 1 9 6 5 ) 、w a r w i c k - l i n i n g e r ( 1 9 7 5 ) 、m o s t d l e r ( 1 9 7 8 ) 先后深入地研究了提高无应答率的方法。k e r n a n ( 1 9 7 1 ) 、 d e m i n g ( 1 9 7 8 ) 、d i l l m a l l ( 1 9 7 2 ) 和d u n c a n ( 1 9 7 9 ) 对不同的邮寄方式及随后的提醒进行了探讨。d o h r e n w e n d ( 1 9 7 0 ) ，f e r b e r 和s u d m a n ( 1 9 7 4 ) ，c h r o m y 和h o r v i t z ( 1 9 7 8 ) ，g u n n 和r h o d e s ( 1 9 8 1 ) 则致力于研究奖励措施提高无应答率。从应用层面来看，尽管事先预防能减少无应答的发生，但是现实中错综复杂的因素导致事先预防并不能完全消除无应答。当无应答不可避免地发生时，无应答的事后补救工作成为了研究的中心。对于单位无应答的补救大多采用加权处理法。最早的加权处理法是p o l i m s i m m o n s 处理法( 1 9 4 6 ) ，该方法依据信息采集对象在同一时间可接受调查的在家天数进行加权。很多学者从不同的角度阐释了权电子科技大学硕士学位论文数：h a n s e n 和h u r w i t z ( 1 9 4 3 ) 以样本采集率的倒数为权数；h o r v i t z 和t h o m p s o n ( 1 9 5 2 ) 则以单位被采集概率的倒数为权数。沿袭早期的观点，研究者不断将加权法进行了改进和完善。对于项目无应答的补救则多采用替补法。主要有热层替补、冷层替补、均值替补及模型替补等方法。h a n s e l l 和h u r w i t z ( 1 9 4 6 ) 提出的二级抽样法也是极好的处理方法。三、蓬勃发展时期( 上世纪8 0 年代初至今) 这一时期，由m a d o w 等( 1 9 8 3 ) 、m a d o w 和o l k i n ( 1 9 8 3 ) 、k a l t o n ( 1 9 8 3 ) 、 c o x 和c o h e n ( 1 9 8 5 ) 等人组成的美国“不完全数据研究小组及其他研究者对无应答的理论方法进行了系统的总结，并形成了文字，涌现出许多以多重插补法为标志的处理无应答问题的文献。如k a l t o n ，g r a h a m ( 1 9 8 3 ) 在( ( c o m p e n s a t i n gf o r m i s s i n gs u r v e yd a t a ) ) 中对无应答问题及处理无应答的加权法和替代法进行了详细的阐述b 1 。r u b i n ，d o n a l db ( 1 9 8 7 ) 的调查中的多重插补法则是关于多重插补法的思想和理论框架的介绍h 1 。在 0 ，因为对那些没有应答机会的单位被证实为无应答者的影响就永远无法找到。早期运用随机论观点的另一个人是d c m i n g ( 1 9 5 3 ：7 4 7 ) 1 ，他证明了多次访问的作用。按照调查将在8 次尝试中获得完全成功的平均比例，他把总体分为6 层。根据p o l i t z s i m m o u s 对p ，的估计，估计量p ，将取不同的值( p ，= o 8 ，1 8 ，2 8 ， 4 8 ，6 8 ，8 8 ) 。另一个早期谈及随机论观点的是d a l c n i u s ( 1 9 6 1 ：4 ) ，在讨论降低无回答影响时他建议，根据每个人在不同时点上恰巧在家的状态建立一套概率。考虑到这种回答倾向建议调查决策时应考虑，对于有较大p ，值的总体单位，使用较大的抽样比，以最大限度提高应答率。随机论的观点在现代比较流行。第一，因为对于每个总体单位而言是建立在变量尺的条件上的，应将r 视为随机变量，那么确定论就发展成为随机论的一个 1 2 第二章无应答的统计影响条件形式。第二，因为关于总体参数的先验假定意味着被研究总体的质量是随机的而不是固定的，在处理无应答时，把足融入不同的误差模型中，随机变量置的结果被表现为随机过程的结果，这样将随机论和贝叶斯方法在模型中结合使用，从而会取得更好的效果。 2 3 3 无应答随机论观点的发展随机论观点最大的缺陷在于估计p ，时的困难。例如d m e n i u s ( 1 9 8 3 b ) n 2 1 指出，当p ；常常部分地由调查环境解释，而调查环境对回答可能性所带来的影响无法量化，或由于外部因素对数据( z ) 和辅助变量( x ，) ，期望人们要求以p ，为出发点常常是不合理的。因为不同的环境将会贡献给p ，不同的水平。按照这种看法，例如根据对x ，假设的关系，如果调查环境( 如调查员的个人品性、能力) ，或进行调查的时间在样本各单元之间有所不同，那么，p ；也将随之有所不同。虽然所有的推论都会有一些条件限制，但是寻找更合理的方法来估计p ，仍然是研究者们不懈的追求。继c a s s e l 提出拟合一条与x ：有关的简单线性模型作为估计基础的思路后，a s t i n m o l m ( 1 9 7 2 ) 、c h a p m a n ( 1 9 7 6 ) 又假定涉及因变量尼和独立变量x ，的模型是线性可加的；s 锄d a l 一h u i ( 1 9 8 1 ) 通过拟合模型来估计p ，时表明：如果应答模型或超级总体模型是正确的，对总体均值和总量的估计将是无偏的( 对总体进行反复抽样) ，但对模型中假定条件的成立仍缺乏足够的证明。此外， a n d e r s o n ( 1 9 7 9 ) 建议在控制调查外部环境的条件下估计p ；，假设把样本分为日个格，每个格中p ，相同，这样只需较少地对p ，进行估计，就可以简化推论过程。总之，在大多数方法中，采用p ，的估计值而不用实际值，对调查中估计量的均方差将产生多大的影响仍不得而知，有待进一步的研究。 2 4 参数估计中无应答的确定性和随机性影响抽样调查的目的是对总体参数进行估计。无应答将会影响到参数的估计，并且其影响又是变化的，这种变化主要取决于用确定论还是随机论观点来看待无应答。例如根据p l a t e k ( 1 9 7 7 ) 晦m 3 1 的研究，在总量估计中，无应答的随机性和确定性影响可见一斑。在不考虑抽样误差和其他非抽样误差影响的情况下，对总体【，进行完全计数， _ 得到对应于总体单位u ，的真实测量值e ，并用它来估计总量y = y 巧。假定调查 1 3 电子科技大学硕士学位论文经历了定位征寻和信息搜集两个步骤，已经对有问题的信息进行了推算和整理( 替代) 。当总体中没有e 的相关信息( 由第i 个单位提供的) 时，就用一个估计量z ，来替代。则根据随机论的观点，第f 个单位的标志值是一个随机变量，可表示为：，】；= r z + ( 1 一r f ) z f 在总体单位中，无应答替代z ，的随机误差占。，是相互独立的，记为： f = z f e 利用随机误差占o f ，对总体单位进行简单替代所产生的偏差和方差可以定义为：偏差b o f = e ( s o f ) 方差仃0 2 f = 砌乞( 气f ) 其中，符号t ( ) 和砌乞( ) 表示通过多次使用替代方法得到的期望和方差。又因为当被选中并应答时，r i = 1 ；当u ，为被选中无应答时，r f = 0 ，所以有： e ，( 尺f ) = p f 玩0 ( r i ) = p f ( 1 一p f ) 其中符号e ，( ) 和玩0 ( ) 表示在调查中，通过多次使用定位和征寻步骤得到的期望和方差。由r ，的独立性，p l a t e k 等给出了总量y 的估计量】，的方差表达式： y ：yz j _ _ i = o nn v a r ( r ) = p ，( 1 - p ，) 碥+ ( 1 - p ，) 仃未 i - - oi = 0 经分析推论出，在上述方差公式等号右边，由于无应答的随机性导致了第一项的发生，而第二项则由替代值z ，的随机差异所引起。设p ，= p ( f = 1 ，2 ，n ) ，若曰。，和仃未确定，当p = 0 5 时，第一项取得极大值；当p = 0 ( 所有单位都不应答) 或p = 1 ( 都应答) 时，第一项取得极小值。另一方面，第二项在p = 0 时取到极大值，在p = 1 时取极小值。这时候，根据无应答确定论观点，在总体单位中，对应于n 。( 无应答单位个数) 有p ，= 0 ，对应于l = 一n o ( 应答单位个数) 有p ，= 1 ，于是方差公式中第一项消失，则估计量y 的方差简化为：v a r ( y ) = 仃町2 。 i = o 在随机论观点的条件下，y 的偏差是：偏差( y ) = ( 1 - p ，) b 0 f i = 0 由此可见，y 的偏差仅与应答率p ，和替代值z ，有关。若在估计总量】，时，只 1 4 第二章无应答的统计影响运用应答数据，而忽视无应答单位的缺失数据，不进行替补( z ，= 0 ) ，则： t 8 9 ! ( d = 一( 1 - p ，) l 同样地，在确定论观点的条件下，有偏差( 】，) = 战，及偏差( 】，) = 一i 或者，偏差( p ) = 金召。，= n o ( z 。一y o ) = n ( 1 一 ) ( 艺。一一y o ) ，其中，乞。= 芝z ，佩，a 是应答率。如果z ，= e ，即用应答单位的均值作为每个无应答单位的替代值，则有如下的经验公式：偏差( y ) = n ( 1 一 ) ( 墨一k ) 该公式直观地告诉我们，可以从两个方面来减小无应答偏差，一是完善信息采集措施以提高应答率五，二是选择一个好的替代方法以降低替代偏差z k ，也就是使替代值尽可能的接近无应答的真实值。另外，也可以看出，如果应答单位是总体中的一个随机子集，因为我们期望替代偏差一y o = 0 ，则无应答偏差随之变为0 ，于是估计量】，的偏差等于0 。但是许多的研究表明，应答者是类非典型的总体成员，很容易受到调查的激励而做出应答，与无应答者显示出特征上的不同。在替代时，如果无应答的替代值z ，从整体上不比z 差，即l 石一r o l _ 矾， ( 4 1 ) 当p 一，= 1 时，不存在无应答，说明调整之后和调整之前的权数几乎没有差别。 ( 2 ) 当p h i 既，说明通过调整增大了应答数据的权数。不妨这样解释，由于无应答的出现，使得无应答单位本身无法提供信息，其信息被分散到应答单位身上。因此，应答单位在估计中发挥了更大的作用。另外，如果采用等概率抽样设计，即= 号对所有的乃_ l ，2 ，h ，f _ 1 ，2 ，z a 都成立，则筹：鱼。仃用。= 等表示第h 组在总体中所占的比重，由于n h 的未知，通常需要对。，v 进行估计，其估计值为：，、胪彳一 ( 4 2 ) 一一再用y l 2 专f 表示第五组中应答层的总体均值，墨o y l 的估计值为：，】，l = 立l 一 ( 4 3 ) 月l 既，由式( 4 1 ) ，( 4 2 ) 。( 4 3 ) 可以得出总体均值估计为：，、。呒，y 舡一y w c = n “k y - 萨气拈1 ，但 h = li = i 下标w c 表示加权绍调整。在采用简单随机抽样抽选最初样本的特殊情况下，公。：瓯：鱼，多一= 死= 羔i = 1 鱼n l h ，并且略= 斋，其中“。= 等。于是第四章修补无应答误差的方法当日= 1 时，争眦= 一y 。= 善鲁。k a l t 。n ( 1 9 8 3 ) 把这种加权组调整称为样本加权调整。其偏差和方差分别是：偏差( 争孵) ：羔。九。( _ 。一歹。) 赫，：薹笺二薹笠二丛兰! 汪4 ，其中，s 五是在第五个单元在所有应答单位的方差，歹：兰。可。由偏差公式( 4 4 ) 可知，构造同质性调整单元的重要性。假如在每个单元中各个单位完全同质，应答单位和无应答单位有相同的】，值，即y t = y o h ，由此得知】，雠将是无偏的。 4 1 3 事后分层调整法与加权组调整法类似地，事后分层调整法n 6 3 也是通过将包含应答单位和无应答单位的样本划分为互不重叠的层( 调整单元) ，并且同一层内的单位应具有同质性，不同层间的单位具有异质性，可以假定层内的应答概率相等。这样就能够通过调整每层内的抽样权数降低估计量的抽样方差( h a n s e n ，1 9 5 3 a ) 。这种层的划分与加权组调整法对组的划分在时间上有差异。在加权组调整法中，依据抽样框提供的辅助信息，在信息采集实施前进行组的划分。而在事后分层调整法中，由于在信息采集前不能得到用于分层的辅助信息，因此层的划分只能够在信息采集实施后进行。一般地，对第h 层采用事后分层调整计算的权数为。呒，口 = 旦一，呒，其中n 。表示第h 层中的单位总数，n = n h 。在等概率抽样设计中，可以将调整权数简化为口。= 旦等。在增加第h 层中 n 。v 矗。矾。“7 ( 4 6 ) 再由事后分层调整法将略调整为呀，且嘴= 口。略是用于分析的最后的联合权数。于是总体均值估计可以写成：缸跏。曾1h 等：罄 7 ，其中，。：翌。这样采用事后分层调整，使得单元间经过加权的相对频其中，。= i 导- 。这样采用事后分层调整，使得单元间经过加权的相对频既；数的分布精确地等同于这些单元在总体中的相对频数的分布。假定每个调整单元中的应答单位都可以被看作是最初抽选的一个简单随机子样本，则偏差( 争殿) ：偏差( 多耽) ：兰。九。( f 。一歹。) 堕 = 略第四章修补无应答误差的方法，、1 ( 卜。) s 五胁( y e s ) = v a r ( y w c ) 一旦石广 h 。( _ t 一一可s ) 2 + 生生一万式中7 s ：兰。歹叭 h = l 尘二显然，与y w c 一样，无应答偏差y e s 能够被降低的程度，仍然取决于单元中应尘尘答单位和无应答单位均值的差异程度。由于y 愿和y w c 的偏差相等，并且方差公式中作为减项的中括号内的值为正数，所以y e s 的方差和均方误差总是小于y w c 的方差和均方误差。这说明应用到相同调整单元中的事后分层和加权组调整在改进估计方面相互补充，将两种调整方法结合起来使用比单独使用效果要更好一些。加权组调整法和事后分层调整法除了实施的时间不同以外，另一个重要的区别是，加权组调整法从应答者和无应答者两方面出发，需要他们提供两项信息，一项是用来划分调整单元的变量的测度，一项是未经调整的权数呒，。而事后分层只需要应答者方面的对。的一个客观测度和调整单元变量的测度。两者的相同点是都要对调整单元进行划分，都希望将相同或相似的单位划分到同一组内，以减少估计量的偏差。一般地，划分的调整单元的数量越多可以更加有效地减少偏差，但同时，将造成被调整的样本权数中变异的增大，从而导致增大估计量方差。因此，在根据变量的信息构造调整单元时，要充分考虑这些变量与主要研究变量】，的高度相关，而y 与应答概率又有密切的联系。 4 2 项目无

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算数学专业论文）信息采集中无应答误差的理论分析研究.pdf

文档简介

温馨提示

最新文档

评论

（计算数学专业论文）信息采集中无应答误差的理论分析研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档