我国抽样调查应用与研究的现状及问题云南大学ppt课件_第1页
我国抽样调查应用与研究的现状及问题云南大学ppt课件_第2页
我国抽样调查应用与研究的现状及问题云南大学ppt课件_第3页
我国抽样调查应用与研究的现状及问题云南大学ppt课件_第4页
我国抽样调查应用与研究的现状及问题云南大学ppt课件_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2006-10-16AMSS1 我国抽样调查应用与 研究的现状及问题 冯士雍 (中国科学院 数学与系统科学研究院 ) 2006-10-16AMSS2 提纲 n 什么是抽样调查 n 应用与研究概况 n 存在的主要问题 n 若干研究课题 2006-10-16AMSS3 一、什么是抽样调查 按一定程序从所研究对象( 总体)中抽取一部分(样本) 进行调查,获取数据,并以此 对总体的一定目标量作出估计 。 2006-10-16AMSS4 普查与抽样调查 普查(全面调查): 从总体的所 有单元中收集信息; 抽样调查: 仅从总体中的一部分 (通常是很小的一部分)单元 中收集信息。 2006-10-16AMSS5 我国统计调查体系 n以必要的周期性普查为基础; n以经常性的抽样调查为主体; n辅之以重点调查、科学推算和有 限的全面报表综合运用 2006-10-16AMSS6 抽样调查的优点 n在充分满足所需信息质量的前提下,提 供一种更快、更节省的方法。 n相对于普查来说,由于规模小,因而更 容易对调查过程进行监控,被调查者的 心理压力也小。 一项经科学设计并严格实施的抽样调 查完全有可能获得比全面调查(普查) 更为准确、更为可靠的结果。 2006-10-16AMSS7 三种基本统计推断框架 n基于抽样设计的随机化推断 n基于模型假设的模型化推断 n模型辅助推断 2006-10-16AMSS8 有限总体上的抽样设计 n总体U: n样本S : U 的一个子集 研究变量、辅助变量及协变量。 n 研究变量:待调查的指标变量,调查前对任意 单元都未知 n 辅助变量:在调查前对任意单元都已知,是 一种设计信息。 n 协变量:只知道部分信息,如相关的总体总 量等,调查时只对样本搜集有关信息,但不是 推断对象。 2006-10-16AMSS9 抽样设计与包含概率 n一阶包含概率 :单元 k 被抽中的概率 ;一阶包含概率全为正的抽样设计称为概 率抽样设计。 n二阶包含概率 :单元 k 与 l 都被抽中 的概率。 二阶包含概率全为正的设计能有效地构造 估计量方差的无偏估计。 2006-10-16AMSS10 可测抽样设计 n一、二阶包含概率全为正的抽样 设计; n经典的抽样设计大多是可测的; n系统抽样设计是不可测的。 2006-10-16AMSS11 不等概率抽样 n利用辅助变量的不等概率抽样有很高的 效率,例如PPS抽样。 nHanif & Brewer总结了50多种不放 回不等概率抽样方法。 nn=2的抽样应用最为广泛。n2的抽样 方法应用相对较少。惟一例外的是系统 抽样,但它的方差估计仍是需要研究的 问题。 2006-10-16AMSS12 随机化推断(基于抽样设计) n总体中各单元的指标值被认为是固 定不变的,随机性仅在于样本的选 取,推断的合理性和总体结构无关 。 n随机化推断框架的基本性质是抽样 和推断都不依赖总体模型,是模型 自由的。 2006-10-16AMSS13 总体总量的H-T估计 2006-10-16AMSS14 H-T估计的方差估计 其中 2006-10-16AMSS15 复杂样本的方差估计 1)随机组方法 2)平衡半样本方法 3)刀切法与自助法 4)泰勒级数法 相关软件SUDAAN,PC CARP, WESVAR,VPLXT等。 2006-10-16AMSS16 模型化推断 n有限总体的研究指标值是某 个随机模型(超总体)的一个 具体实现,推断目标是有限 总体参数,推断建立在模型 的基础上。 2006-10-16AMSS17 超总体回归模型 其中 是固定的设计变量,随机误差 相互独立,且 2006-10-16AMSS18 总体总量估计: 是回归系数 的广义最小二乘估计。 估计以模型预报为基础,只和样本单元及 其观测值有关,而不依赖抽样设计。 2006-10-16AMSS19 模型辅助推断 随机化推断的一种形式,利用模型构造 有限总体参数的广义回归估计:Cassel等 (1976) 是回归系数的估计组成的行向量。 2006-10-16AMSS20 如何抽到一个“好”样本 n用好的抽样方法 n用好的估计方法 用好的抽样策略 关键: 辅助信息(变量)的充分利用 2006-10-16AMSS21 n比(率)估计:对辅助变量X 2006-10-16AMSS22 n回归估计: 对辅助变量X 2006-10-16AMSS23 二、我国抽样调查 应用与研究概况 n统计部门(国家及地方统计局) n其他政府部门与学术机构 n专业调查与咨询机构(公司) 2006-10-16AMSS24 统计部门承担的抽样调查 项目列举 n人口变动情况调查; n城市与农村住户调查; n农产量调查; n规模以下工业调查; n限额以下批发零售业餐饮业调查 2006-10-16AMSS25 统计部门承担的抽样调查 特点与优势 n已形成一套完整的体系与制度( 经常性) n有专门的调查队伍 城调队、农调队、企调队 n可充分利用普查(周期性) 及其它统计资料 2006-10-16AMSS26 政府其他部门与学术机构 组织与承担的部分项目 n卫生部 流行病学调查 (高血压病、结核 病、牙病等) 5岁以下儿童死亡情况调查 国家卫生服务总调查 n国家计生委 妇女生育力调查 2006-10-16AMSS27 n交通部 公路、水路交通运输量调查 n环境保护总局 粮食农药污染调查 n全国科协 公众科学素养调查 2006-10-16AMSS28 n全国妇联 妇女社会地位调查 n教育部与国家语委 语言与文字使用情况调查 2006-10-16AMSS29 政府其他部门与学术机构 组织项目的特点 n目的明确,了解总体基本情况 n通常是一次性的,一般周期较长 n设计较有特色 n样本量较大,精度要求较高 2006-10-16AMSS30 专业调查咨询机构 (调查公司等) n电视收视率调查 n电视观众(电台听众)行为调查 n报刊阅读调查 n市场营销(消费行为)调查 n社会热点调查 2006-10-16AMSS31 专业调查咨询机构 组织项目的特点 n目的明确,基本了解总体情况 n讲究时效与成本,对样本量多有限制 n总体上,实施过程中对调查监督力度大 而严格 n部分项目设计要求不甚规范,质量相差 悬殊 n回答率较低,拒访率较高 2006-10-16AMSS32 三、我国抽样调查应用 与研究中的主要问题 n对样本代表性的理解与认识 n使用按有关标识排队系统抽样的局限性 n数据处理(估计)方法 n如何满足多层次需要问题 n关于多主题与多目标抽样 n非抽样误差特别是计量误差的控制 2006-10-16AMSS33 1.对样本代表性的理解与认识 n过分强调样本结构、样本均值与总体 结构、总体均值的 一致性 n对所谓“样本代表性检验”的质疑 2006-10-16AMSS34 历史的回顾 抽样调查发端于1985年, 在第五届ISI大会上,挪威 第一任统计局长凯尔提出: “用代表性样本调查方法 来代替全面调查” 的建议。 2006-10-16AMSS35 凯尔的观点 一个良好的,也即对总体有代表性 的样本应该是总体的一个缩影。 样本各种平均性的指标应该与总体相 应的指标十分接近。 “代表性抽样”(或称目的抽样) 2006-10-16AMSS36 奈曼的理论 采用概率(随机)抽样而不 是代表性抽样。在对总体有 所了解的情况下,使用分层 抽样可以提高精度。 2006-10-16AMSS37 2.使用按有关标识排队 系统抽样的局限性 效果显著,但缺点也突出: 不能进行有效的方差估计 不能用于多指标问题的抽样 2006-10-16AMSS38 替代方法 将排队标识作为辅助变量,应用 PPS抽样; 对等概率样本使用比估计或回归 估计。 2006-10-16AMSS39 3.数据处理(估计)方法 n目标量的估计(及其方差估计) 与抽样设计不配套 例如: 不是自加权样本用自加权的公式 不是随机排列的系统抽样的方差 估计用简单随机抽样的方差估计等 2006-10-16AMSS40 4.如何满足多层次需要 n中国国情 分级管理体制, 各级政府都管经济 n解决途径 分层(事先分层与抽样后分层) 样本追加策略 2006-10-16AMSS41 关于样本追加策略的研究 以全国、省两级为例: n全国样本:为估计全国目标量的样本 n省级追加样本:为估计省目标量,在 落在本省的全国样本基础上追加的样 本 2006-10-16AMSS42 需要解决的关键技术问题 样本追加方法 下级目标量的估计及方差估计方法 利用追加样本进一步提高上级目标 量估计的精度 2006-10-16AMSS43 应用 n中国妇女社会地位调查 n限额以下批发零售贸易业、餐饮业抽 样调查 2006-10-16AMSS44 5. 关于多主题与多目标抽样 问题提出的背景: n分级管理体制 n不同目标变量在总体分布的特异性与不 均匀性 n认识的误区:“经典的抽样调查理论只能 针对一个目标变量观测值,无法解决将 多个目标变量同时纳入抽样设计过程并 且满足各目标变量推算的问题。” 2006-10-16AMSS45 解决方法 n使用不同辅助变量的 比估计或回归估计 n使用二相或多相抽样 n使用MPPS抽样 2006-10-16AMSS46 MPPS 抽样 多目标与规模成比例的概率抽样 由 Jeffrey T.Bailey & Phillip S.Kott 提出 在农调队系统中已得到应用 2006-10-16AMSS47 6.非抽样误差分析及处理 n 抽样框误差,由不完善的抽样框引起 的误差; n 无回答误差,由于种种原因没有能够 对被抽出样本单元或某些调查的项目进 行计量(得到回答),从而没有获得有 关这些单元或项目的信息; n计量误差,调查所获得的数据与调查项 目的真值之间不一致而产生的误差。 2006-10-16AMSS48 抽样框误差 1)覆盖不全:丢失目标总体单元。它 使总体总量的估计偏低,同时也会造 成对均值估计的偏倚。 处理方法:一是将丢失单元与抽样总 体单元实行某种形式的联接方式以及 采用辅助抽样框(利用辅助抽样框重 新构造一个较为完善的新的抽样框) ;二是使用多重抽样框。 2006-10-16AMSS49 2)过覆盖:包含非目标总体单元, 造成总体总量估计的偏高。 3)复合连接:抽样框中的单元与目 标总体单元不完全是一对一对应而 是存在一对多或多对一的现象。 4)辅助信息不完全或不正确。 2006-10-16AMSS50 无回答误差 由于种种原因没有能够对被抽中的 样本单元的全部或部分进行回答,从 而没有获得有关这些单元的全部或部 分数据。 单元无回答 项目无回答 2006-10-16AMSS51 某调查公司统计的拒访率 地区类型 第一次接触 拒访率 不考虑门 禁等实际 拒访率 电话调查的 一般拒访率 省会以上大城市80%60%50% 广东、浙江等 发达省份 90%70%75% 西部地区60%50%40% 农村地区40%30%30% 2006-10-16AMSS52 无回答的影响 造成估计的偏倚 增加估计量的方差 加大调查的成本 2006-10-16AMSS53 单元无回答及加权调整 逆概率加权法 (Inverse probability weighting,IPW) 类加权法(Cell weighting) 梳理法(Raking) 校准法(Calibration) 2006-10-16AMSS54 项目无回答及插补技术 给缺失数据一些替代值, 得到“完全数据”,然后按对 完全数据的统计方法处理。 2006-10-16AMSS55 主要插补方法 n单一插补 n多重插补 n几何插补 2006-10-16AMSS56 插补的意义和特点 n允许使用标准的完全数据分析方法 n防止舍弃不完全记录造成的信息丢 失 n减少无回答的偏倚 n对所有项目使用同一权重 2006-10-16AMSS57 单一插补 n对每个缺失值,从其预测分布中取 一个值作为插补值。 n早期常用的插补方法:推理插补、 均值插补、热平台插补、冷平台插 补、最近邻插补、比率/回归插补等 n近期发展了EM算法、贝叶斯自助法 及近似贝叶斯自助法等 。 2006-10-16AMSS58 随机插补 n对由确定性的方法得出插补值,加 上从某个适宜的分布或模型产出的 一个残差作为最后的插补值,即为 随机插补。 n随机插补能更好地保持数据集的频 数结构,保持比确定性插补方法更 真实的变异性。 2006-10-16AMSS59 单一插补的缺点 n 不能反映对无回答所服从的 分布 n方差按标准方法估计偏小 2006-10-16AMSS60 多重插补 观 测 数 据 缺 失 数 据 插补数据1 插补数据2 插补数据m 完全数据1 完全数据2 完全数据m 参 数 的 整 体 推 断 2006-10-16AMSS61 多重插补的优点 1. 保持了单一插补的基本优点 2. 能反映由缺失导致的附加变异, 较真实表现数据分布,增加了估计 的有效性 3. 可对无回答的不同模型下推断的 敏感性进行直接研究 2006-10-16AMSS62 构建多组插补值的方法 n回归预测法 n倾向得分法 nMCMC方法(数据扩充算法) 2006-10-16AMSS63 几何插补 从数据的几何结构来研究缺失 数据的插补。 主要方法: n Dear主成分(DPC)方法 n奇异值分解法 n迭代的最小二乘插补 2006-10-16AMSS64 计量误差 观测数据与其真值之间的差 异造成的误差,是非抽样误 差中不可避免、也是最难处 理的一种。 2006-10-16AMSS65 计量误差产生原因 n被调查者方面 n体制方面:调查点的固定与不可更换性 n设计方面:调查表过于繁复,指标解释 不清。 n实施方面:缺乏严格的质量保证措施。 n人为原因:对数据的人为干预 2006-10-16AMSS66 n对计量误差的研究首先需要对计量 误差进行量化。 n数值型的计量误差对调查估计影响 的最简单模型是考虑计量中的固定 偏差 。 n对于有偏计量的数值化研究可通过 收集样本单元其它准确或无偏的计 量来进行,这通常在子样本的基础 上实施操作。 2006

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论