抽样设计的理论与方法.ppt_第1页
抽样设计的理论与方法.ppt_第2页
抽样设计的理论与方法.ppt_第3页
抽样设计的理论与方法.ppt_第4页
抽样设计的理论与方法.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,抽样设计的理论与方法,中国科学院 数学与系统科学研究院 杨 军 联系方式: ,2,报告提纲,首先简单介绍调查的基本概念和主要组成部分,以对抽样调查有个总体认识 讲述抽样调查中的抽样设计,包括各种抽样设计与相应的估计方法以及辅助信息的利用,重点是简单随机抽样、分层抽样、整群抽样、系统抽样、多相抽样 参考文献,3,一、调查的主要组成部分,调查概述 调查设计 数据的收集方法 调查问卷设计 抽样方法 抽样估计 样本量的确定 数据收集的实施 数据处理 数据发布与数据分析,4,调查概述,调查指使用明确的概念、方法和程序,以有组织、有条理的方式,从一个总体的部分或所有单元中收集感兴趣的指标信息,并将这些信息综合编辑成有用的简要形式的所有活动。 调查的重要性。调查是认识客观世界的一种手段,通过调查获取信息,了解现状,进行管理决策和预测。 调查的任务。科学地反映客观情况,为解决问题、制定政策或策略提供依据,调查是为决策服务。,调查设计,调查前准备,调查的实施,调查的 分析与报告,5,调查设计,调查目标的确定 调查方法的选择 抽样设计的有关问题 调查中各种误差及其控制,6,1、邮寄调查:被调查者在没有访员协助下完成问卷。 2、人员面访:由调查人员协助完成问卷。 3、电话访问:访员通过电话协助被调查者完成问卷。 4、网络调查:调查者利用网络进行调查。,数据的收集方法,7,调查问卷设计,问卷的作用与设计原则 问卷结构与问题类型 问卷设计的技巧 问卷的度量方法,8,问卷的开发程序,向用户和调查对象咨询,参考以前相同主题的问卷,草拟问题,审议、测试和修改问卷,试点调查和问卷的定稿,9,抽样方法,什么是抽样 抽样是通过抽取总体中的部分单元,收集这些单元的信息,用来 对总体进行推断的一种手段 非概率抽样 概率抽样,10,抽样估计,抽样估计的基本原理 加权 总体均值、比例及总量的简单估计 辅助信息的使用 调查估计量的抽样误差估计,11,样本量的确定,影响样本量的因素: 估计值要求的精度;提供的经费能支持多大的样本;调查的时间要求;需要和能招聘到多少调查人员等。,12,数据收集的实施,数据收集是调查中收集每一个被抽中的 单元个体数据的过程。 必要的公关工作 调查前的准备 数据收集过程 调查过程及调查质量的控制,13,数据处理,数据处理的简要过程 1、全面核查问卷上的数据 2、对问卷上的回答进行编码 3、将数据录入计算机 4、详细审核、插补 5、进行离群值的检测 6、将数据储存在数据库中,14,数据处理,数据处理的简要过程 1、全面核查问卷上的数据 2、对问卷上的回答进行编码 3、将数据录入计算机 4、详细审核、插补 5、进行离群值的检测 6、将数据储存在数据库中,15,数据发布与数据分析,调查报告 统计表和统计图 数据分析 保密和泄密控制,16,抽样设计的理论和方法,抽样调查中的一些基本概念 总体和样本:总体是指研究对象的全体,它是由研究对象中的单元组成的。总体中单元的数目称作总体容量;样本是指抽样时按照抽样的规则所抽中的那部分单元所组成的集合。,总体,抽取样本,推断总体,样本,17,研究的目标参数: 总体总量、总体均值、总体比例的估计及其相应的方差估计 入样概率与抽样比 入样概率是指某个总体单元被选入样本的概率 抽样比:指样本量 n 与总体的容量N的比例 下面介绍主要抽样方法与相应的估计方法:,18,(一)简单随机抽样,定义:设总体中有N个单元,不加条件从中随机抽取n个单元为样本,每个单元都有同样的概率被抽中的抽样方法。 总体总量和总体均值 (1) 与 (2),19,样本均值 (3) 总体均值和总量的估计 (4) (5),20,估计量的方差 (6) 而 (7) 估计量的方差估计 (8) (9),21,简单随机抽样的特点,优点: (1)比较容易理解和掌握;(2)抽样框不需要其他辅助信息;(3)理论上比较成熟,有现成的方差估计公式。 缺点: (1)没有利用辅助信息;(2)样本分散,面访费用较高;(3)有可能抽到较差的样本;(4)抽选大样本比较费时,22,(二)分层抽样,定义:在抽样之前将总体分为同质的、互不重叠的若干子总体,也称为层。然后在每一个层独立地随机抽取样本。 分层抽样示意图,23,首先介绍分层抽样的的一些符号: 用下标h表示层的编号 用 分别表示总体和样本中第h层第i个单元指标值; 用 表示h层的层权 用 表示h层的抽样比 分别表示h层(总体)均值与样本均值;,24,分别为h层的(层内)方差和样本方差 下面介绍分层抽样适用的场合和优点 1)在调查中不仅需要对总体进行参数估计,也需要对层的参数进行估计。 2)使样本更具代表性。 3)便于组织管理和数据汇总 4)对不同层可以按照不同情况和条件,具体采用不同的抽样方法。 5)分层抽样可以提高估计量的精度 估计量及其性质,25,总体均值的估计 (10) 对分层随机抽样,有如下简单估计 (11) 总体总和的简单估计为 (12) 无偏性:如果层的估计具有无偏性,分层的总体总量和总体均值的估计具有无偏性。 对分层随机抽样, 的一个无偏估计为,26,(13) 分层抽样的缺点: (1)对抽样框的要求比较高,必须有分层的辅助信息; (2)收集或编制抽样框的费用比较高; (3)若调查变量与分层的变量不相关,效率可能降低; (4)估计值的计算比简单随机抽样复杂,27,比估计和回归估计利用辅助信息,比估计和回归估计主要是利用辅助变量来 提高估计精度 比估计及其基本性质 如果 之间大致呈正比例关系,采用比估计量 对简单随机抽样,总体均值和总量的比估计量为 (14) (15) 有时候,调查的目的是要估计总体 与 的比值:,28,(16) 对它的估计为 (17) 基本性质 对于简单随机抽样,当样本量大时,29,对于实际问题的方差估计,仍用样本估计,用 (18) 估计 。 对分层抽样,比估计有分别比和联合比两种形式。 回归估计及其基本性质 对简单随机抽样,总体均值的回归估计定义为 (19) 若回归系数设定,则回归估计为无偏估计,且其方差 估计可表示为 (20) 如回归系数为1,称为差估计量。,30,如回归估计量采用样本回归系数 (21) 则总体均值的回归估计量为 (22) 基本性质: 当样本量较大时,将相应的样本估计量代入上式,得 相应的样本估计。 对分层抽样,有相应的分别回归估计和联合回归估计。,31,(三)与单元大小成比例的概率抽样,1、定义:根据单元的大小不同,入样概率不同的一种不等概率抽样。如农场的大小不同,其抽选概率可以根据面积大小成比例,也可以按人数多少成比例。用英文的字头简称为PPS抽样。 2、优缺点:优点是当研究的变量与单元大小有关时,由于使用了辅助信息,可以提高抽样效率。但缺点是对抽样框需要有高质量的抽样框,成本较高;对于单元大小不相关的变量就不适用;估计量的抽样方差估计比较复杂。,32,pps抽样是一种特殊的不等概率抽样,对放回地不等 概率抽样,介绍Hansen-Hurvitz估计量。 若 是按 的入样概率进行的多项抽样 抽取的样本指标值,相应的 值为 。 则总体总和的估计(Hansen-Hurvitz估计)为 (23) 是无偏的,且有方差估计 (24) 对不放回地不等概率抽样,采用Horvitz-Thompson 估计量,33,(四)整群抽样 1、定义:由若干个有联系的基本单元组成的集合称为群,抽样时以群为抽样单元的抽样方法就称为整群抽样。 整群抽样示意图:,黄色为总体 红色为群 白点为基本单元,34,整群抽样的优点: (1)能大大减低收集数据的费用;(2)当总体单元 自然形成的群时,容易取得抽样框,抽样也更容易; (3)当群内单元差异大,而不同群之间的差异小时, 可以提高效率。 缺点: (1)若群内个单元有趋同性,效率将会降低;(2) 通常无法预先知道总样本量,因为不知道群内有多少 单元;(3)方差估计比简单随机抽样更为复杂 可以综合利用分层和整群抽样技术,采取分层整群抽 样,比如人体尺寸调查,采用分层提高样本代表性, 采用整群抽样,便于数据的收集。,35,总体,(五)多阶抽样 定义:它是由两个或更多个连续的阶段抽取样本的方法。 多阶抽样示意图:,第一阶样本,最终样本,36,优点: (1)当群具有同质性时,多阶抽样的效率高于 整群抽样;(2)样本的分布比简单随机抽样集 中,采用面访可以节约时间和费用;(3)不需 要整个总体单元的名录框,只要群的名录框和抽 中群的单元名录框。 缺点: (1)效率不如简单随机抽样;(2)通常不能提 前知道最终的样本量;(3)调查的组织较整群 抽样复杂;(4)估计值与抽样方差的计算较为复杂。,37,定义:又称等距抽样,对研究的总体按一定 的顺序排列,每隔一定的间隔抽取一个单元 的抽样方法。 抽选方法:设总体单元数为N,要抽n个单元 为样本,先计算抽样间隔k=N/n,在1到k之间 抽取一个随机起点r,则被抽中单元的顺序位 置是:r,r+k,r+2k,。当N不能被n整除时, 采用圆形系统抽样方法。,(六)系统抽样,38,2、系统抽样的优点 (1)没有抽样框时可代替简单随机抽样方法简单;(2)不需要辅助的抽样框信息;(3)样本的分布比较好;估计值容易计算。 3、系统抽样的缺点 (1)若抽样间隔与总体的某种周期性变化一致,会得一个差的样本;(2)不使用辅助信息使抽样效率不高;(3)使用概念框时,不能预先知道样本量;(4)没有一个无偏的方差估计量;(5)当N不能被n整除时会得到样本量不同的样本。 我们国家的国家统计局的调查多采用系统抽样,它便于操作。,39,定义:在同一个抽样框内,先抽一个大样本, 收集基本的信息,然后在这个大样本中再抽 一个子样本,收集调查的详细信息。 多相抽样示意图:,(七)多相抽样,。,。,第一相样本,第二相样本,。,40,优点: (1)利用了第一相样本的信息,能显著提高估计 值的精度;(2)适用于某些调查指标的数据收集 费用特别高或给被调查者带来较重负担的情况。 缺点: (1)整个调查的时间要长;(2)调查费用要比 较高;(3)调查的组织比较复杂;(4)估计值 和抽样误差的计算会相当复杂。,41,主要的抽样方法,大致就有上述几种,在 实际中采用哪种抽样设计,要根据具体情 况,灵活掌握,当然也可以组合起来使用。 抽样方案和参数估计是一体的,所以在抽 样设计时要考虑到后续的数据处理。,42,参考书目,冯士雍,施锡辁. 抽样调查理论、方法与实践. 上海科学技术出版社,1996. 冯士雍,倪加勋,邹国华. 抽样调查理论与方法, 中国统计出版,1998. 加拿大统计局调查技能项目组编,中国国家统计局调查技能项目组译,冯士雍(审校).调查技能教程,中国统计出版社, 2002. 赵民德,谢邦昌. 探索真相,中国统计出版,2001. 胡健颖,孙山泽,抽样调查的理论和方法,北京大学出版社,2000. 柯惠新,丁立宏,市场调查与分析,中国统计出版社,2000. 梁小筠,祝大平.抽样调查的方法和原理,华东师范大学出版社,1994.,43,我的一些工作:,一、可靠性方面 1.Dan Yu and Jun yang, Storage reliability evaluation of complex repairable system, Proceeding of East Asian Symposium on Statistics, 2002.11。 2、杨军,于丹. 一种基于可用度的装备贮存模型及其应用,系统 工程理论与实践,2004.7。 3、杨军,于丹.修如旧模型中贮存系统备件量的计算及其置信区 间,中国科学院研究生院学报,2004.10。 4、于丹,杨军.复杂系统贮存可靠性综合评估,中国电子学会论 文集可靠性分会第十二届学术年会论文选,2004.10。,44,5、Jun Yang(speaker), Dan Yu. One kind of Composite Repairable Model and its Availability Fiducial Inference,The Joint Meeting of CSPS and IMS 2005.7。 6、杨军,于丹.一种可修系统贮存模型及其可用度Fiducial推断, 系统科学与数学,2004年接受。 7、杨军,冯士雍,于丹.可修系统的一种复合贮存模型及其可用度 估计,工程数学学报,已录用。 8、杨军,于丹.修如新模型中贮存系统备件量的计算及其置信上 限,应用概率统计,一审通过(二审中)。 二、抽样调查(缺失数据) 9、杨军,冯士雍.抽样调查中缺失数据的插补方法,应用概率统 计,已投。 10、杨军,姜健.随机变量和模型及其实证研究,数理统计与管 理,已投。,45,11、Jun Yang.Two kinds of noniterative computing methods for Bayes posteriors,to be submited. 12、杨军.比例bootstrap

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论