z-CH10其他-DS-非抽样误差.ppt_第1页
z-CH10其他-DS-非抽样误差.ppt_第2页
z-CH10其他-DS-非抽样误差.ppt_第3页
z-CH10其他-DS-非抽样误差.ppt_第4页
z-CH10其他-DS-非抽样误差.ppt_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/7/14,统计学硕士专业必选课2学分,1,CH10其他,二重抽样DS 非抽样误差 2课时,2019/7/14,统计学硕士专业必选课2学分,2,二重抽样,DS:Double Sampling P210,2019/7/14,统计学硕士专业必选课2学分,3,DS在抽样方法体系中的地位,DS是抽样设计的一种辅助技术 前面介绍的抽样技术,大都需要事先了解一些关于总体的信息,比如 Str:需要事先已知Wh 比率、回归估计:需要事先已知辅助变量的总体总值X或总体均值X 但在很多情况下,这些资料在调查前无法预知 典型的DS主要解决这类问题,基本做法是:,N,n,n,nn 对其实施简单的调查 目的:获取总体相关信息,进行主调查,第一重样本,第二重样本,2019/7/14,统计学硕士专业必选课2学分,4,DS的内容体系,DS的一般问题 DS的定义、作用、与2S的区别等 典型的DS的应用 为分层抽样进行的DS 为比率估计进行的DS 为回归估计进行的DS (一)抽样方法 (二)估计量及性质 (三)最优样本量n、n的配置,2019/7/14,统计学硕士专业必选课2学分,5,DS的一般问题,2019/7/14,统计学硕士专业必选课2学分,6,一、定义,(一)含义 二重抽样,也称二相或两相抽样、双重随机抽样或复式抽样等(two-phase sampling) 主要特点: 抽样分两步进行 一般的做法: 先从总体N个单元中抽取一个较大的样本n,称为第一重(相)样本(the first phase sample),通过对第一重样本的调查、估计,以获取关于总体的结构或辅助变量等的有关信息,为进一步的抽样估计提供条件 再进行第二重(相)抽样,第二重样本量n相对较小,但是第二重抽样调查才是主调查,通过对第二相样本(the second phase sample) 的调查估计推断总体指标 由于样本是分两次抽取的,因此称作二重抽样,2019/7/14,统计学硕士专业必选课2学分,7,(二)两种做法-1,DS要先后抽取两个样本 根据第二重样本的抽取方式不同,有两种不同的DS: 1、一般地,第二重样本是第一重样本的子样本 一般DS:先从总体N个单元中随机抽取一个较大的样本n,搜集到某些总体背景资料,然后从n中随机抽取一个较小的样本n,搜集到调查研究的资料,最后结合起来估计总体目标量 这种做法的特点: 第一相样本和第二重样本不相互独立。第二重样本完全落于第一相样本之中,受第一相样本的制约 能节省费用、节约人力、物力等 实际工作中进行DS,一般都采用这种方式,2019/7/14,统计学硕士专业必选课2学分,8,(二)两种做法-2,2、第二重样本在总体中随机抽取 这种做法的特点: 一、二重样本相互独立。第二重样本可能完全落于第一重样本之中,也可能完全落于第一重样本之外,或第二重样本部分来自第一重样本。第二次抽样的结果不受第一次抽样的影响,是完全随机地来自总体各个部分 显然,DS可以推广到多次抽取样本,然后结合起来对总体的有关标志值进行估计,这就是多重抽样或多相抽样,2019/7/14,统计学硕士专业必选课2学分,9,举例,例如,北京市为迎接2008年奥运会,欲对体育场馆的营业状况进行抽样调查 鉴于不同场馆功能和面积差异较大,拟采用分层抽样,但缺乏分层资料 所以,先随机抽选一个较大的样本n,对该样本仅进行分层变量的调查,费用相对较低 然后利用调查获得的分层资料,对n进行分层,计算层权作为总体层权的估计,并分层抽取较小样本n,对该小样本进行正式调查 这就是DS,2019/7/14,统计学硕士专业必选课2学分,10,二、DS与2S,DS与2S,在名称上很容易引起混淆,实际上二者有明显的不同 (一)联系 二者的抽样都是两步抽样,因而在估计推断原理上也是一致的,2019/7/14,统计学硕士专业必选课2学分,11,DS的估计推断原理,与2S相同,其中 E2、V2固定PSU时对第二阶抽样求均值和方差 E1、V1对第一阶抽样求均值和方差,2019/7/14,统计学硕士专业必选课2学分,12,两个阶段抽取的所有可能样本的估计量的期望,对某一固定的第一阶段样本中,所有可能抽出的二阶样本的平均,所有可能抽出的第一阶样本的平均,2019/7/14,统计学硕士专业必选课2学分,13,定性理解:两个阶段的随机抽样均可能带来抽样误差 2S的方差由两部分构成:一部分是第一阶段的方差V1;另一部分是第二阶段方差的均值,2019/7/14,统计学硕士专业必选课2学分,14,归纳:DS和2S的区别,基本区别:二者抽选方法不同。进一步引申为: 1、两步的抽样单元有差异 2S:两个阶段抽样单元不同,第一阶段针对PU抽,第二阶段针对BU抽 DS:两步抽样单元相同,都是针对BU来抽 2、两步所需的抽样框不同 2S:两个阶段抽样框不同,第一阶段需要总体PU的抽样框;第二阶段需要中选的PU的BU抽样框 DS:两步抽样框相同,都是关于总体BU的抽样框 3、两步抽样的目的不同 2S:第一阶段是过渡,不作调查;第二阶段进行调查推断 DS:对n进行简单调查,获取总体相关信息;对n进行主调查推断,2019/7/14,统计学硕士专业必选课2学分,15,DS与2S举例对比,研究目的:某城市想对居民户做一次消费情况调查 方案1:只有一份总户册,而且已知各住户在研究的问题上有比较大的差异,希望采用str提高样本的代表性,但是没有任何分类信息。为此,调查时先取一个大样本调查分层信息,再利用分层信息从中str抽取小样本进行详细调查 这是DS 方案2:如果没有总户册,但有居委会名册,抽样时先抽取居委会,再从抽中的居委会包含的住户中抽取住户,对其进行调查 这是2S,2019/7/14,统计学硕士专业必选课2学分,16,三、二重抽样的作用,2019/7/14,统计学硕士专业必选课2学分,17,(一)有助于筛选主调查对象,1、在某些调查中,调查对象只是总体中的一部分,且与其他单元混在一起,难以区分。比如: 对某品牌化妆品的用户进行入户调查,调查前并不知道某住户是否属调查对象 在一项办公自动化设备调查中,要求有各调查单元的微机、复印机与传真机等办公自动化设备的使用情况,但是事先并不知道哪些单位有这些设备 这时,就可以采用DS: 先从总体中抽取一个大样本,通过相对比较简单的调查测试,筛选出满足条件的对象,再从中抽取小样本进行主调查,2019/7/14,统计学硕士专业必选课2学分,18,(一)有助于筛选主调查对象(续),2、DS经常用于了解陌生总体(对总体信息一无所知)内在结构或分布的大致情况,从而为抽样方式和方法的选择提供依据 对陌生总体,如果计划以后要对其进行经常性抽样调查,那么为了选择最佳的抽样方式方法,就需要事先对总体的内在构成或分布情况有所了解 通过对总体中一个较大样本n的简单调查,得出关于总体内在结构或分布的结论,以后再从该大样本中按合适的抽样方式方法抽取一个较小的样本n,对总体的各种指标做出推断估计,2019/7/14,统计学硕士专业必选课2学分,19,(二)节约调查费用,对于大规模的多目标调查,由于各单元间的差异或对目标量估计的精度要求不同,往往需要不同的样本量。比如: 在城市居民住户调查中,对家用耐用品、旅游开支等指标的调查,要达到一定的精度需要较大的样本量;而对家庭日用品、粮食、油盐酱醋开支等指标的调查,由于其差别较小,要达到同样的精度,样本量不必很大 这时可以采用DS,先抽取一个大样本,对差异较大的项目或精度要求比较高的项目进行调查,然后再抽一个较小的样本,对差异较小的项目进行调查,则可在保证一定精度的前提下节约调查费用 我国人口普查中长短表的使用就类似DS,2019/7/14,统计学硕士专业必选课2学分,20,(三)提高抽样效率-典型的DS,许多抽样技术都需要利用已有的辅助信息来提高抽样效率。比如: str推断的前提是总体各单位能按分层标志进行归类并事先已知Wh,而Wh往往事先未知,比如,一个学校的校外兼职教师的人数及比重等。这时,可采用DS,先抽取一个大样本n,按分层标志进行分层,估计出各层单位数的多少,从而估计Wh;然后按str从该大样本中抽取一个较小的样本n,对总体数量特征作出分层估计 比率估计和回归估计都需要X的总体均值或总值,这些往往事先未知。此时,就可以通过大样本估计出X的均值或总值,然后再抽取一个小样本进行比率估计或回归估计,这就是DS,2019/7/14,统计学硕士专业必选课2学分,21,(四)可用于研究样本轮换中的某些问题,许多调查需要经常性地定时进行,如农产量调查、城市居民住户调查等,需要对同一总体进行连续抽样 在连续抽样中,利用固定样本不同时间的指标值之间的相关性可以提高估计的精度 但是长期使用固定样本单元,则会由于样本疲劳或样本老化的现象而影响调查的质量,这时则可以采用样本轮换(sample rotation)的方法以提高估计精度 在样本轮换问题的研究中DS方法体现了很好的应用价值,2019/7/14,统计学硕士专业必选课2学分,22,(五)降低无回答偏倚,高无回答率及其递增的趋势一直困扰着调查行业 在对无回答的补救方法中,DS方法受到广泛的关注 基本思想: 再抽样,即对最初的无回答再进行一次随机抽样,对该子样本用更细致、更艰巨的努力去获得其数据,用第一次样本的回答数据和第二次样本数据进行估计,以消除无回答的偏倚影响,改善对总体的估计效果 无回答的二重抽样方法经常用于邮寄调查,因为邮寄调查的回答率低,并且通过更多的加倍努力(电话或访问)可以从无回答子样本中得到较高的回答百分比,2019/7/14,统计学硕士专业必选课2学分,23,DS的其他应用,具有破坏性的检验 大规模统计调查后的复查 估计总体的分布 等等,2019/7/14,统计学硕士专业必选课2学分,24,注意:DS的投入产出问题,当然,DS方法技术的应用,也有个投入产出的问题 衡量DS是否经济,有两个标准: 1、当在第二重抽样中因采用分层技术、比率估计法或回归估计法使抽样估计精度的提高,大于因第一相抽样所增加的费用时, DS是值得的 2、第二重样本因采用了分层技术、比率估计法或回归估计法而得到的抽样估计精度,应优于直接按第一相样本进行srs、简单估计的精度,2019/7/14,统计学硕士专业必选课2学分,25,典型的DS的抽样方法,2019/7/14,统计学硕士专业必选课2学分,26,为分层的DS,2019/7/14,统计学硕士专业必选课2学分,27,为分层的DS的抽样方法,第一步:从总体的N个单元中srs抽取第一重样本n 根据已知的分层标志将第一重样本分层,层权为 是总体层权Wh的无偏估计 第二步:利用str,从第一重样本中抽取第二重样本n,各层样本单元数分别为nh,2019/7/14,统计学硕士专业必选课2学分,28,均值估计量及其性质 (P212 10.810.11),估计量的性质: 无偏性 方差 方差的近似无偏估计,2019/7/14,统计学硕士专业必选课2学分,29,例:为分层的DS,某银行要调查其客户的资产情况。已知该银行的客户数为8000,针对客户规模差异较大的特点,拟采用分层抽样。但缺乏分层资料 拟用DS方法解决: 第一重样本量n=1000,根据其自报的资产情况可分为4层:300万元以下,300-1000万元,1000-2000万元,2000万元以上 第二重样本量n=200,各层抽取单元数分别为80,60,40,20。对这200个客户进行详细的调查,资料如下表。 要求:估计该银行所有客户的资产总额及其抽样标准误差,表 某银行客户样本数据计算表,(百万元),(百万元),(百万元),2019/7/14,统计学硕士专业必选课2学分,31,二重分层抽样样本量的最优分配,在实际应用中,要确定最优的n和fhD,需要对总体事先有一定的了解,估计出,2019/7/14,统计学硕士专业必选课2学分,32,为比率估计的DS,2019/7/14,统计学硕士专业必选课2学分,33,DS比率估计的抽样方法,第一步:从总体的N个单元中srs抽取第一重样本n 调查辅助变量x的信息,并计算其均值 用 估计总体均值,是无偏估计 第二步:从第一重样本中抽取第二重样本n 对于第二重样本,观测目标变量y与辅助变量x,并获得其样本均值,构造比率估计,2019/7/14,统计学硕士专业必选课2学分,34,均值估计量及其性质 (P213 10.1210.14),估计量的性质: 渐近无偏 方差 方差的近似无偏估计,2019/7/14,统计学硕士专业必选课2学分,35,举例:为比率估计的DS,某住宅小区共有200个住户,现欲估计小区住户家庭月平均收入的平均水平 家庭收入的数据不易调查,而家庭支出的资料相对容易获取,而且家庭月平均收入与家庭月平均支出之间高度相关,因此拟以家庭支出为辅助变量的比率估计法 先随机抽取100个住户作为第一重样本,调查家庭月平均支出,结果100个家庭的平均月支出为1500元 然后从这100个住户中随机抽选10户作为第二重样本,调查家庭月平均收入和家庭月平均支出,资料如下表 试估计该小区家庭月平均收入,并计算估计标准差,表 某小区样本住户家庭收支数据(单位:元),(元),2019/7/14,统计学硕士专业必选课2学分,37,二重抽样比率估计样本量的最优分配,先对总体事先估计出 代入f的公式估计f 再代入n的公式,估计n 反推f=n/n,得到n,2019/7/14,统计学硕士专业必选课2学分,38,为回归估计的DS,2019/7/14,统计学硕士专业必选课2学分,39,DS回归估计的抽样方法,第一步:从总体的N个单元中srs抽取第一重样本n 调查辅助变量x的信息,并计算其均值 用 估计总体均值,是无偏估计 第二步:从第一重样本中抽取第二重样本n 对于第二重样本,观测目标变量y与辅助变量x,并获得其样本均值及样本回归系数,构造回归估计,2019/7/14,统计学硕士专业必选课2学分,40,均值估计量及其性质(P214 10.1510.17),估计量的性质: 渐近无偏 方差 方差的近似无偏估计,2019/7/14,统计学硕士专业必选课2学分,41,二重抽样回归估计时样本量的最优分配,先对总体事先估计出 代入f的公式估计f 再代入n的公式,估计n 反推f=n/n,得到n,2019/7/14,统计学硕士专业必选课2学分,42,非抽样误差,P226,2019/7/14,统计学硕士专业必选课2学分,43,非抽样误差的来源,按抽样调查的过程考察其来源(P227): 抽样方案设计阶段 1、抽样框的编制与准备不够充分完善 2、问卷设计不够科学合理 数据搜集阶段 调查数据的残缺和错误 数据处理阶段 对调查资料的整理、分组、计算、编码和计算机录入过程中的差错 归纳三个阶段的非抽样误差: 抽样框误差、无回答误差和计量误差,2019/7/14,统计学硕士专业必选课2学分,44,非抽样误差的特点(与抽样误差相比),非特有性: 不是抽样调查特有的,任何调查方式(包括全面调查)都会存在非抽样误差 非一致性: 往往带来系统性偏差,不随n的增大而减小,反而可能会增大 难测定性: 这种误差在每次抽样中是否存在、存在的类型和严重程度等,都难以描述和测定 难评价性: 因为难以测定,所以难以评价其大小及影响 全过程性: 其可能存在于抽样调查的所有阶段,而不像抽样误差那样只存在于取样和估计阶段,2019/7/14,统计学硕士专业必选课2学分,45,抽样框误差的成因P229,丢失目标总体单元“涵盖不足” 后果:总体总值的估计值偏低;这种丢失无法从样本或抽样框本身中被发现,所以威胁性较大 包

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论