




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
调查中无回答问题理论研究的前沿面蒋妍 ABSTRACTThis paper summarizes the classical research and advanced research of nonresponse both in China and overseas. It divides the former research into three phases: dissemination (19151940s), special topic research (1940s1970s) and rapid development (1980s ), and gives separate comment on the theoretical research in the mainland of China, Taiwan and overseas.关键词:无回答;加权法;插补法;多重插补法;辅助信息一、 问题的提出目前,中国大陆调查中存在着日益严重的无回答问题,几乎所有的调查公司都面临着这一尖锐问题,然而却并没有引起从业者及理论研究者的足够重视。一个突出的表现是,不论是在官方机构还是民间机构的调查报告中,都常常缺少关于“无回答率”等技术指标的解释说明。尽管官方调查机构或一些大型规范并注重数据质量的商业调查公司,可以凭借其权威性,或者通过一些行政措施(如开介绍信)提高回答率,或者在调查方法的选取、问卷的设计、访问员的挑选和培训(如选取女性访问员已获得受访者的认同)等方面采取事前预防的方法降低无回答率,但是目前就无回答数据的调整处理(即事后补救)方面,大陆的调查机构基本上没有做任何工作。绝大多数调查机构要么是采取了“弃之不理”的策略,例如,简单地删除缺失值或有缺失值的单位,要么干脆持有“视而不见”的态度。因此,有必要对这一问题结合中国的实际进行系统的研究,而展开研究的第一步,需要对国内外无回答问题的研究现状进行综述。二、 无回答问题理论研究的三个阶段尽管我国目前仍然少有关于无回答问题的学术文献,但是国外理论界对这一问题较早就开始了研究。对抽样方法做出很大贡献的Bowley于1915年最先提出无回答问题,至今关于统计调查中无回答问题的理论研究大致可划分为三个阶段。(一) 宣传期(1915年20世纪40年代)这一时期,有关学者开始了对无回答问题的初步研究,并强调处理无回答问题的重要性。Bowley(1915)指出一项社会状况调查结果的不确定性或误差的四方面来源,其中两项可归入非抽样误差范畴;1926年又进一步强调控制各种误差源的必要性。随后,Deming(1944)很好地概括了评价和控制调查误差时所应考虑的因素,包括产生于无回答的偏差因素(金勇进,1995)。(二) 专题研究期(20世纪40年代中后期20世纪70年代末)这一时期许多学者对无回答问题进行了大量的专题研究,提出了无回答处理补救的经典方法。要减少调查中的无回答,主要应从事前预防和事后补救两方面入手。从理论上讲,事前预防也许是处理无回答最简便且有效的方法。对无回答问题的研究,早期学者也较多地关注无回答的事前预防方法和措施。Kish(1965)、Warwick-Lininger(1975)、Mosteller(1978)等都对提高无回答率的措施进行过广泛的讨论。Deming(1953),Dubin(1954),以及后来的Thomsen和Siring(1983)采用不同的方法来决定访问调查中理想的尝试次数。Dohrenwend(1970),Ferber和Sudman(1974),Chromy和Horvitz(1978),Gunn和Rhodes(1981)都曾研究过激励方法对改善无回答率的效果。但是人们逐步认识到,现实中由于种种原因和条件的限制,这种事先预防的方法并不能使问题得到完全解决。因此,无回答的事后补救方法越来越受到重视,很多学者进行了大量深入的理论和实证研究。早期关于无回答加权调整法的具有里程碑意义的文献主要有:Deming和 Stephan(1940)提出事后分层重复多变量逐一加权(Raking)的方式;Hansen和Hurwitz(1943)提出按照样本抽取率的倒数加权;Politz和Simmons(1949)提出了经典的Politz-Simmons调整法,是按照回答者在相同时间内在家并可接受调查的天数进行加权;Horvitz和Thompson(1952)提出按照单位被抽中概率的倒数加权。后期各种推陈出新的加权方法基本上是承袭早期的这些观念而来的。加权法主要用于单位无回答的补救处理,而对于项目无回答的补救处理则多采用插补法 也有人称为“替代法”、“估算法”等。这一阶段陆续提出了均值插补、热卡插补、冷卡插补、回归插补和模型插补等方法,许多学者对这些方法进行了广泛讨论和改进。Nordbotten(1963)和Chapman(1976)探讨了冷卡法在周期性调查的作用。Sonquist(1971)、Chapman(1976)、Oh和Scheuren(1980)、Ford(1983)、Rizvi(1983)、Sande(1979,1982,1983)等都对热卡插补法进行过讨论和改进。Kalton和Kish(1984)、Sande(1979,1982)在热卡法的基础上提出了数值分类的距离函数匹配法,以避免回归插补和热卡插补法的困境。此外,Hansen和Hurwitz(1946)提出了以传统的统计推论为基础的双重抽样法,后来的Zarkovich(1966)、Cochran(1977)、Rao(1968、1973)、Rao和Hughes(1983)等都对此进行了广泛讨论。以Rao(1972)、Singh(1978)等人为代表,在70年代开始出现大量文献探讨贝叶斯方法在无回答处理中的应用。(三) 迅速发展期(20世纪80年代初今)这一时期,出现了一批对无回答方法理论进行系统总结的专著,并且,以Rubin提出多重插补法为标志,涌现出众多关于无回答多重插补的文献。此外,大量先进统计方法在无回答研究领域的应用,带动了这一领域蓬勃发展,使其成为抽样理论界的热点问题之一。近20年来对无回答调查数据进行调整的统计方法取得了重大突破。20世纪70年代末,Dempster、Laird和Rubin(1977)提出一种有效估计不完全数据算法EM算法。EM算法不仅是一种有效的计算工具,它还根本性地改变了统计学家对无回答的看法。正是基于这一算法,Rubin在80年代初期的一系列论文中提出了多重插补法,其基本的理论架构整理在Rubin(1987)的一本著作中。此后在此基础上又不断出现关于该法的改进和应用的文献。一些关于无回答问题研究的经典论著主要也出现在这一时期。这一时期对无回答问题研究的经典性论著有:Graham Kalton(1983)在Compensating for Missing Survey Data中介绍了无回答问题,特别是处理无回答的加权法和替代法。Donald B. Rubin(1987)在调查中的多重插补法中系统归纳了其经典的多重插补法的思想和理论框架。Robert M. Groves(1989)在Survey Errors and Survey Cost中对无回答率进行了介绍和测算,并提出了相应的统计模型。这里需要特别指出的是,由Madow等(1983)、Madow和Olkin(1983)、Kalton(1983)、Cox和Cohen(1985)等人组成的美国“不完全数据研究小组”对无回答问题理论研究的卓越贡献(Lessler和Kalsbeek,1992),其一套三册的论著不仅涵盖了无回答的基本理论、方法创新和比较研究、案例研究和实证分析的方方面面,而且论述精辟深入。进入20世纪90年代,较少有学者提出关于无回答处理的全新思想和方法,大多数学者或者进行了理论的总结归纳,或者提出了方法的改进、比较研究和应用实证研究等。前者的典型代表是Judith T. Lessler和William D. Kalsbeek(1992),在调查中的非抽样误差中对无回答的产生背景、统计影响和处理方法等进行了总结归纳。该书的一个重要贡献就是对50年来有关非抽样误差的已有研究作了一个系统的总结和综合。三、 无回答问题理论研究的前沿面以上分阶段对无回答理论80多年来的研究进行了归纳总结,下面则分别对国外、中国台湾、中国大陆等无回答理论研究的学术前沿进行评述。(一) 国外无回答问题的前沿研究透视近期国外关于无回答问题的前沿性研究,可以从已有无回答处理方法的改进和扩展、方法的比较研究以及应用研究等三方面进行。1 已有方法的改进和扩展以往对无回答的假设比较简单,现在则考虑范围推广,例如,以往多是针对可忽略无回答问题,目前有许多学者研究不可忽略的无回答问题。Forster和 Smith(1998)提出了对不可忽略的定类无回答数据的模型推断法(Model-Based Inference for Categorical Survey Data Subject to Non-Ignorable Nonresponse)。Ghosh-Dastidar和Madhumita(1999)对多重替代法进行扩展,提出了MEMI法(Multiple edit/multiple imputation),在该方法中既能反映无回答,也能计量其误差。Maren K. Olsen(1998)在Multiple Imputation for Multivariate Missing-data Problems中提出了多变量缺失值的多重替代法,并进行了实际应用。Montaquila,Jill Marie(1998)提出方差估计的新方法,并利用模拟数据对其方法进行了验证。Heeringa和Steven George(2000)探讨了EM算法(Expectation-Maximization)和Gibbs sampler算法的应用,并对其特性研究和方法进行比较。Scharfstein、Rotnitzky和Robins(1999)利用半参数回归模型对不可忽略的无回答进行了调整。目前,关于辅助信息的应用也是一个讨论焦点和研究前沿。Thomsen和Ann Marit Kleive Holmoy(1998)根据挪威统计局的经验,提出利用管理档案系统的信息可以提高调查数据的质量。R. Wang、J. Sedransk和J. H. Jinn(1992)提出在存在缺失值的情况下对二手数据进行分析。此外,Rubin(1991)还使用贝叶斯LOGISITIC回归对普查样本的行业代码进行多重替代。2 方法的比较研究典型的如Roderick和Little等(1986)利用美国普查局CPS 即现时人口调查(Current Population Survey)。的收入数据进行了热卡插补和回归插补的效果比较研究。Michael、Lucy Wesley(1999)利用QOL 即生活质量(Quality of Life)调查数据,在不同的无回答条件下对各种插补法进行了比较。Hegmin-Younger等(1998)在分析大学生入学成绩与入学后成绩的关系时对总均值插补法(MO)、分层均值插补法(MC)、热卡法(RC)和回归插补法(RG)等进行了比较研究。3 应用研究伴随着理论的发展,无回答调整方法的应用领域在不断推广,尤其是近十多年来呈现蓬勃发展的趋势。Zanutto、Elaine Louise(1998)提出基于跟踪访问(follow-up)、管理记录(administrative records)和配对替代(matched substitutes)的模型,将替代法推广应用到单位无回答。Wang-N Robins-JM(1998)将多重替代法应用到大样本调查。Gelman-A King-G Liu-CH(1998)将多重替代法从单一调查推广到多个调查中。此外,随着调查技术应用领域的推广,讨论无回答问题的领域也越来越广泛,诸如医药、教育、生物等领域经常能见到有关于无回答的探讨。例如,S.C.CHOI和I.L.LU(1995)讨论了临床实验中非随机缺失值的影响。 (二) 中国台湾无回答问题的前沿研究相对于中国大陆而言,台湾学者对于统计调查中无回答 台湾有关无回答的一些术语表述与大陆略有不同,更多地采用“缺失值”、“遗漏值”等。处理方法的研究比较重视,相关的著作和论文也较多。刘义周(1984)探讨了产生无回答的原因,并提出在理论及实务上应采取的对策。黄毅志(1997)在抽样调查中访问失败的问题之探讨以台湾地区社会变迁调查为例作说明中对访问失败问题进行的实证研究。翁彰佑和程尔观(1991)针对不同插补法对统计量的影响等加以研究,并利用实例证明其研究结论。刘长萱和蔡政丰(1997)则利用插补法原理进行不完整取样设计,并做实例研究,进一步拓宽了插补法的应用领域。陈信木、林佳莹(1997)在调查资料之缺失值的处置以热卡插补法为例中,提到若干缺失值的处置方法,并进行了实例研究。李泰明、郑宇庭和谢邦昌(1999)采用Gibbs Sampler的随机模拟过程解决了多重插补中的抽样问题,结合蒙特卡罗EM算法提出一个一般化的解决方法,并应用实例证明其适用性。目前,台湾学者已将统计调查处理缺失值的方法列入基本的“抽样调查”教科书中,并不断有专文探讨理论上及实务上应注意的事项。如郑光甫及韦瑞(1998)在抽样方法理论与实务中,探讨处理无回答的调整及插补法等。赵民德及谢邦昌(1999)在探索真相抽样理论与实务一书中,详细介绍了无回答的调整和插补方法,尤其对多重插补法进行了重点介绍。(三) 中国大陆无回答问题的前沿研究中国大陆目前有关调查中的无回答问题的研究,不论是从理论的探讨上还是从实务的处理上看,都远不及国外甚至中国台湾的发展如此有规模。在极为有限的关于无回答研究的学术文献中,较有代表性的有:金勇进(1995)在研究非抽样误差时,介绍了无回答误差的基本理论,对无回答误差及其预防和补救措施进行了考察和分析,并结合大陆统计调查的实践对中国大陆的无回答问题进行了探索性研究。JIAN-HUA ZHU(1996)利用80年代中国大陆的14个实际案例数据,用Logistic回归模型分析无回答的影响因素,结果被调查者的性别、年龄、教育程度、职业等10个因素通过显著性检验。此外,金勇进(1998)探讨了处理缺失数据中对辅助信息的利用问题;金勇进和朱琳(1999)结合具体案例,对几种插补方法进行了比较研究和实证分析。 四、 主要结论1 近20年来,调查中无回答问题的应用面越来越广泛,越来越多的领域,如医学、生物、教育等领域开始关注无回答处理问题;同时,在无回答问题处理方法的研究中,所运用的统计方法越来越多,也越来越新。2 国外关于调查中无
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村新能源市场2025年技术创新与能源互联网研究报告
- 2025年新能源商用车辆在环卫设施清洁中的应用场景及市场前景报告
- 保险行业数字化理赔服务在信用保险中的信用风险监测报告
- 2025年生物质能广告宣传合规与技术创新案例分析报告
- 2025年智慧工厂射频识别(RFID)技术在供应链管理中的应用案例分析报告
- 安全教育培训纳入刑法课件
- 共享民宿项目在2025年共享经济浪潮中的可行性研究评估报告
- 教育行业质量评估与认证体系在学生法治教育中的实践探索报告
- 2025风力发电设备制造行业:技术创新与新能源产业融合报告
- 2025-2026学年六年级英语上册辽师大版期末模拟测试卷三(含答案)
- 2024年中级注册安全工程师《金属非金属矿山安全》真题及答案
- 《血小板功能检测》课件
- 人教版(2024)七年级下册英语Unit 5 Here and Now 教案
- 公司志编纂工作方案
- 抗战胜利70周年主题班会教案
- 2025年保安证考试沟通能力试题及答案
- 2025年禁毒社工考试试题及答案
- T-CTSS 90-2024 茶叶碳足迹核算方法
- 劳动合同法全文(2024年版)
- 餐饮服务与数字化运营 习题及答案 项目三
- 《空调基础知识》课件
评论
0/150
提交评论