我国抽样调查应用与研究的现状及问题云南大学_第1页
我国抽样调查应用与研究的现状及问题云南大学_第2页
我国抽样调查应用与研究的现状及问题云南大学_第3页
我国抽样调查应用与研究的现状及问题云南大学_第4页
我国抽样调查应用与研究的现状及问题云南大学_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2006-10-16,AMSS,1,我国抽样调查应用与研究的现状及问题,冯士雍(中国科学院 数学与系统科学研究院),2006-10-16,AMSS,2,提纲,什么是抽样调查 应用与研究概况 存在的主要问题 若干研究课题,2006-10-16,AMSS,3,一、什么是抽样调查,按一定程序从所研究对象(总体)中抽取一部分(样本)进行调查,获取数据,并以此对总体的一定目标量作出估计。,2006-10-16,AMSS,4,普查与抽样调查,普查(全面调查): 从总体的所有单元中收集信息; 抽样调查: 仅从总体中的一部分(通常是很小的一部分)单元中收集信息。,2006-10-16,AMSS,5,我国统计调查体系,以必要的周期性普查为基础;以经常性的抽样调查为主体;辅之以重点调查、科学推算和有限的全面报表综合运用,2006-10-16,AMSS,6,抽样调查的优点,在充分满足所需信息质量的前提下,提供一种更快、更节省的方法。相对于普查来说,由于规模小,因而更容易对调查过程进行监控,被调查者的心理压力也小。 一项经科学设计并严格实施的抽样调查完全有可能获得比全面调查(普查)更为准确、更为可靠的结果。,2006-10-16,AMSS,7,三种基本统计推断框架,基于抽样设计的随机化推断基于模型假设的模型化推断模型辅助推断,2006-10-16,AMSS,8,有限总体上的抽样设计,总体U:样本S : U 的一个子集研究变量、辅助变量及协变量。 研究变量:待调查的指标变量,调查前对任意单元都未知 辅助变量:在调查前对任意单元都已知,是一种设计信息。 协变量:只知道部分信息,如相关的总体总量等,调查时只对样本搜集有关信息,但不是推断对象。,2006-10-16,AMSS,9,抽样设计与包含概率,一阶包含概率 :单元 k 被抽中的概率;一阶包含概率全为正的抽样设计称为概率抽样设计。二阶包含概率 :单元 k 与 l 都被抽中的概率。 二阶包含概率全为正的设计能有效地构造估计量方差的无偏估计。,2006-10-16,AMSS,10,可测抽样设计,一、二阶包含概率全为正的抽样设计;经典的抽样设计大多是可测的;系统抽样设计是不可测的。,2006-10-16,AMSS,11,不等概率抽样,利用辅助变量的不等概率抽样有很高的效率,例如PPS抽样。Hanif & Brewer总结了50多种不放回不等概率抽样方法。n=2的抽样应用最为广泛。n2的抽样方法应用相对较少。惟一例外的是系统抽样,但它的方差估计仍是需要研究的问题。,2006-10-16,AMSS,12,随机化推断(基于抽样设计),总体中各单元的指标值被认为是固定不变的,随机性仅在于样本的选取,推断的合理性和总体结构无关。随机化推断框架的基本性质是抽样和推断都不依赖总体模型,是模型自由的。,2006-10-16,AMSS,13,总体总量的H-T估计,2006-10-16,AMSS,14,H-T估计的方差估计,其中,2006-10-16,AMSS,15,复杂样本的方差估计,1)随机组方法2)平衡半样本方法3)刀切法与自助法4)泰勒级数法 相关软件SUDAAN,PC CARP,WESVAR,VPLXT等。,2006-10-16,AMSS,16,模型化推断,有限总体的研究指标值是某个随机模型(超总体)的一个具体实现,推断目标是有限总体参数,推断建立在模型的基础上。,2006-10-16,AMSS,17,超总体回归模型,其中 是固定的设计变量,随机误差 相互独立,且,2006-10-16,AMSS,18,总体总量估计:,是回归系数 的广义最小二乘估计。估计以模型预报为基础,只和样本单元及其观测值有关,而不依赖抽样设计。,2006-10-16,AMSS,19,模型辅助推断,随机化推断的一种形式,利用模型构造有限总体参数的广义回归估计:Cassel等 (1976) 是回归系数的估计组成的行向量。,2006-10-16,AMSS,20,如何抽到一个“好”样本,用好的抽样方法用好的估计方法 用好的抽样策略 关键: 辅助信息(变量)的充分利用,2006-10-16,AMSS,21,比(率)估计:对辅助变量X,2006-10-16,AMSS,22,回归估计: 对辅助变量X,2006-10-16,AMSS,23,二、我国抽样调查 应用与研究概况,统计部门(国家及地方统计局)其他政府部门与学术机构专业调查与咨询机构(公司),2006-10-16,AMSS,24,统计部门承担的抽样调查项目列举,人口变动情况调查;城市与农村住户调查;农产量调查;规模以下工业调查;限额以下批发零售业餐饮业调查,2006-10-16,AMSS,25,统计部门承担的抽样调查特点与优势,已形成一套完整的体系与制度(经常性)有专门的调查队伍 城调队、农调队、企调队可充分利用普查(周期性) 及其它统计资料,2006-10-16,AMSS,26,政府其他部门与学术机构 组织与承担的部分项目,卫生部 流行病学调查 (高血压病、结核 病、牙病等) 5岁以下儿童死亡情况调查 国家卫生服务总调查国家计生委 妇女生育力调查,2006-10-16,AMSS,27,交通部 公路、水路交通运输量调查环境保护总局 粮食农药污染调查全国科协 公众科学素养调查,2006-10-16,AMSS,28,全国妇联 妇女社会地位调查教育部与国家语委 语言与文字使用情况调查,2006-10-16,AMSS,29,政府其他部门与学术机构组织项目的特点,目的明确,了解总体基本情况通常是一次性的,一般周期较长设计较有特色样本量较大,精度要求较高,2006-10-16,AMSS,30,专业调查咨询机构(调查公司等),电视收视率调查电视观众(电台听众)行为调查报刊阅读调查市场营销(消费行为)调查社会热点调查,2006-10-16,AMSS,31,专业调查咨询机构 组织项目的特点,目的明确,基本了解总体情况讲究时效与成本,对样本量多有限制总体上,实施过程中对调查监督力度大而严格部分项目设计要求不甚规范,质量相差悬殊回答率较低,拒访率较高,2006-10-16,AMSS,32,三、我国抽样调查应用 与研究中的主要问题,对样本代表性的理解与认识使用按有关标识排队系统抽样的局限性数据处理(估计)方法如何满足多层次需要问题关于多主题与多目标抽样非抽样误差特别是计量误差的控制,2006-10-16,AMSS,33,1.对样本代表性的理解与认识,过分强调样本结构、样本均值与总体结构、总体均值的 一致性 对所谓“样本代表性检验”的质疑,2006-10-16,AMSS,34,历史的回顾,抽样调查发端于1985年,在第五届ISI大会上,挪威第一任统计局长凯尔提出: “用代表性样本调查方法来代替全面调查” 的建议。,2006-10-16,AMSS,35,凯尔的观点,一个良好的,也即对总体有代表性的样本应该是总体的一个缩影。 样本各种平均性的指标应该与总体相应的指标十分接近。 “代表性抽样”(或称目的抽样),2006-10-16,AMSS,36,奈曼的理论,采用概率(随机)抽样而不是代表性抽样。在对总体有所了解的情况下,使用分层抽样可以提高精度。,2006-10-16,AMSS,37,2.使用按有关标识排队系统抽样的局限性,效果显著,但缺点也突出: 不能进行有效的方差估计 不能用于多指标问题的抽样,2006-10-16,AMSS,38,替代方法,将排队标识作为辅助变量,应用PPS抽样; 对等概率样本使用比估计或回归估计。,2006-10-16,AMSS,39,3.数据处理(估计)方法,目标量的估计(及其方差估计)与抽样设计不配套例如: 不是自加权样本用自加权的公式 不是随机排列的系统抽样的方差估计用简单随机抽样的方差估计等,2006-10-16,AMSS,40,4.如何满足多层次需要,中国国情 分级管理体制, 各级政府都管经济解决途径 分层(事先分层与抽样后分层) 样本追加策略,2006-10-16,AMSS,41,关于样本追加策略的研究,以全国、省两级为例:全国样本:为估计全国目标量的样本省级追加样本:为估计省目标量,在落在本省的全国样本基础上追加的样本,2006-10-16,AMSS,42,需要解决的关键技术问题,样本追加方法 下级目标量的估计及方差估计方法 利用追加样本进一步提高上级目标 量估计的精度,2006-10-16,AMSS,43,应用,中国妇女社会地位调查限额以下批发零售贸易业、餐饮业抽样调查,2006-10-16,AMSS,44,5. 关于多主题与多目标抽样,问题提出的背景:分级管理体制不同目标变量在总体分布的特异性与不均匀性认识的误区:“经典的抽样调查理论只能针对一个目标变量观测值,无法解决将多个目标变量同时纳入抽样设计过程并且满足各目标变量推算的问题。”,2006-10-16,AMSS,45,解决方法,使用不同辅助变量的 比估计或回归估计使用二相或多相抽样使用MPPS抽样,2006-10-16,AMSS,46,MPPS 抽样,多目标与规模成比例的概率抽样由 Jeffrey T.Bailey & Phillip S.Kott 提出在农调队系统中已得到应用,2006-10-16,AMSS,47,6.非抽样误差分析及处理,抽样框误差,由不完善的抽样框引起的误差; 无回答误差,由于种种原因没有能够对被抽出样本单元或某些调查的项目进行计量(得到回答),从而没有获得有关这些单元或项目的信息;计量误差,调查所获得的数据与调查项目的真值之间不一致而产生的误差。,2006-10-16,AMSS,48,抽样框误差,1)覆盖不全:丢失目标总体单元。它使总体总量的估计偏低,同时也会造成对均值估计的偏倚。处理方法:一是将丢失单元与抽样总体单元实行某种形式的联接方式以及采用辅助抽样框(利用辅助抽样框重新构造一个较为完善的新的抽样框);二是使用多重抽样框。,2006-10-16,AMSS,49,2)过覆盖:包含非目标总体单元,造成总体总量估计的偏高。3)复合连接:抽样框中的单元与目标总体单元不完全是一对一对应而是存在一对多或多对一的现象。4)辅助信息不完全或不正确。,2006-10-16,AMSS,50,无回答误差,由于种种原因没有能够对被抽中的样本单元的全部或部分进行回答,从而没有获得有关这些单元的全部或部分数据。 单元无回答 项目无回答,2006-10-16,AMSS,51,某调查公司统计的拒访率,2006-10-16,AMSS,52,无回答的影响,造成估计的偏倚 增加估计量的方差 加大调查的成本,2006-10-16,AMSS,53,单元无回答及加权调整,逆概率加权法 (Inverse probability weighting,IPW) 类加权法(Cell weighting) 梳理法(Raking) 校准法(Calibration),2006-10-16,AMSS,54,项目无回答及插补技术,给缺失数据一些替代值,得到“完全数据”,然后按对完全数据的统计方法处理。,2006-10-16,AMSS,55,主要插补方法,单一插补多重插补 几何插补,2006-10-16,AMSS,56,插补的意义和特点,允许使用标准的完全数据分析方法防止舍弃不完全记录造成的信息丢失减少无回答的偏倚对所有项目使用同一权重,2006-10-16,AMSS,57,单一插补,对每个缺失值,从其预测分布中取一个值作为插补值。早期常用的插补方法:推理插补、均值插补、热平台插补、冷平台插补、最近邻插补、比率/回归插补等近期发展了EM算法、贝叶斯自助法及近似贝叶斯自助法等 。,2006-10-16,AMSS,58,随机插补,对由确定性的方法得出插补值,加上从某个适宜的分布或模型产出的一个残差作为最后的插补值,即为随机插补。随机插补能更好地保持数据集的频数结构,保持比确定性插补方法更真实的变异性。,2006-10-16,AMSS,59,单一插补的缺点,不能反映对无回答所服从的分布 方差按标准方法估计偏小,2006-10-16,AMSS,60,多重插补,观测数据,缺失数据,插补数据1,插补数据2,插补数据m,完全数据1,完全数据2,完全数据m,参数的整体推断,2006-10-16,AMSS,61,多重插补的优点,1. 保持了单一插补的基本优点2. 能反映由缺失导致的附加变异,较真实表现数据分布,增加了估计的有效性3. 可对无回答的不同模型下推断的敏感性进行直接研究,2006-10-16,AMSS,62,构建多组插补值的方法,回归预测法倾向得分法MCMC方法(数据扩充算法),2006-10-16,AMSS,63,几何插补,从数据的几何结构来研究缺失数据的插补。主要方法: Dear主成分(DPC)方法奇异值分解法迭代的最小二乘插补,2006-10-16,AMSS,64,计量误差,观测数据与其真值之间的差异造成的误差,是非抽样误差中不可避免、也是最难处理的一种。,2006-10-16,AMSS,65,计量误差产生原因,被调查者方面体制方面:调查点的固定与不可更换性设计方面:调查表过于繁复,指标解释不清。实施方面:缺乏严格的质量保证措施。人为原因:对数据的人为干预,2006-10-16,AMSS,66,对计量误差的研究首先需要对计量误差进行量化。数值型的计量误差对调查估计影响的最简单模型是考虑计量中的固定偏差 。对于有偏计量的数值化研究可通过收集样本单元其它准确或无偏的计量来进行,这通常在子样本的基础上实施操作。,2006-10-16,AMSS,67,对于分类数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论