第1部分 抽样设计.doc_第1页
第1部分 抽样设计.doc_第2页
第1部分 抽样设计.doc_第3页
第1部分 抽样设计.doc_第4页
第1部分 抽样设计.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1部分 抽样设计第1节 概述一、作用与特点1定义按照某种随机原则和程序,从总体中抽取一部分单位,通过对这一部分单位进行调查的到的信息,达到对总体情况进行了解或对总体有关情况的估计。2作用(1)数据来源(2)对已有数据进行调整、验证。3特点(1)节省费用(2)调查时间短,时效快(3)有助于提高原始数据的质量(4)存在抽样误差,但可以计算并控制二、基本概念1总体与样本总体:调查对象的全体(注意:调查总体与目标总体)样本:从总体中按一定的原则或程序抽出的部分个体组成的集合2总体参数与样本统计量3抽样框:供抽样所用的所有调查单位的名单4总体分布与抽样分布(1)总体分布:总体中个元素的观察值所形成的分布(2)样本分布:样本中观察值所形成的分布(3)抽样分布:样本统计量的抽样分布(4)样本均值的抽样分布与总体分布之间的关系:总体分布正态分布非正态分布非正态分布正态分布正态分布小样本大样本小样本大样本三、概率抽样与非概率抽样1概率抽样:(1)定义:按照随机原则抽取样本,也称随机抽样。也就是在抽取样本时,排除主观上有意识的挑选,总体中每个单元都有一定的机会被抽中。(2)分类:等概率抽样和不等概率抽样(3)特点:可以用样本数据对总体参数进行估计,但操作相对复杂。2非概率抽样(1)定义:根据有关判断有意识的挑选,或者根据方便、快捷的原则抽取。(2)特点:操作简便,时效快,效率低,但理论上不具备对总体进行推断的依据。第2节 概率抽样方式一、简单随机抽样。1定义:从总体N个单元中,随机抽取n个单元构成样本2放回和不放回简单随机抽样3随机化程序实现方法(1)抽签法(2)随机数表法(3)计算机抽取(4)永久随机数法4特点:单元入样概率相同,操作计算简单。二、分层抽样1定义:将总体按照一定的原则分成若干子总体,每个子总体称作层,在每个层内分别抽取样本。2原理:先对层进行估计,然后加权汇总。3分层原则:层内差异小,层间差异大。4特点(1)能提高估计效率(2)同时对总体和子总体进行估计三、整群抽样1定义:将总体按照一定原则分成若干群,抽样直接抽取群,对抽中的群进行全面调查。2分群原则:群内差异大,群间差异小。3特点(1)实施方便,可节约费用和时间(2)不需要总体所有单元的名单(3)如果群内差异小,群间差异大,则估计精度差四、系统抽样1定义:将总体按照某种顺序排列,在规定的范围内随机抽取起始单位,然后按照一定规则确定其他样本单位。(最简单的方法:等距抽样)2特点(1)操作简便;(2)当时,样本均值为有偏估计量;(3)方差估计复杂。3注意问题:周期性变化的总体五、多阶段抽样1定义:首先从总体中采用随机方法抽取若干个小总体(初级单元),再在抽中的初级单元中随机抽取若干个单元,这种抽样方法称作二阶段抽样。2大范围调查中通常采用二阶段抽样的原因(1)缺少包括所有总体单位的抽样框;(2)可以节省调查的人财物力。六、其他抽样方法1多重抽样(二重抽样、双相抽样)2不等概率抽样(抽样、抽样)3双重抽样框抽样第3节 非概率抽样方式一、采用非概率抽样的原因1客观条件(调查经费)限制;2时间要求紧;3调查人员有丰富的积累;4不需要进行区间估计。二、方便抽样1定义:按照方便的原则抽取样本,如拦截式调查2特点(1)操作简便,节省经费;(2)不能用于样本推断总体,不适合于描述性研究和因果关系研究,但适合于探索性研究。三、判断抽样1定义:抽取样本时,由调查人员依据对实际情况了解和经验,人为确定样本单位,或有了解情况的专家圈定样本。2类型:平均型、众数型、特殊型(典型调查)3特点(1)简便、快捷、节省费用,符合调查目的和特殊需要;(2)可以了解总体的数量特征和对问题深入分析;(3)不能对总体进行参数估计。四、配额抽样1定义:将总体中的各单位按照一定的标准化分为若干个类别,将样本数额分配到个类别中,在规定的数额内,由调查人员任意抽选样本。2配额抽样与分层抽样的异同(1)相同之处:二者都是先将总体分层,然后在各层中抽取样本;(2)不同之处:配额抽样在各层内采用判断、方便等非概率抽样方式,因此不能对总体进行估计;分层抽样在各层内随机抽取样本,因此可以对总体进行估计。3特点:不需要抽样框,又能保证样本结构与总体结构保持一致。五、自愿样本1定义:样本由自愿接受调查的单位所组成。2特点(1)样本集中于某些特定的群体;(2)样本结构具有独特性,通常与总体结构相去甚远,因而结果不能反映总体情况;(3)组织方便,成本低廉。第4节 抽样中的误差问题一、描述误差的概念1估计量方差(1)估计量:设某个总体待估参数为,在概率抽样条件下,用样本数据计算出一个统计量作为总体参数的估计,把称作的一个估计量。(2)估计量方差:(3)作用:描述估计精度。2偏差(1)定义:如果反复进行抽样,其所有可能样本估计量的均值(数学期望)与总体参数的之间的离差,即。(2)偏差与估计量方差的区别偏差是系统性误差,而估计量方差是随机误差,没有系统性;估计量方差随着样本量的增大而减小,而大多数偏差(少数有偏估计量除外)并不随着样本量的增大而减小。(3)结论对于无偏估计量采用有偏估计量,无论怎样提高样本量,都不能提高估计精度。3均方误差(1)定义:估计量方差和偏差的平方之和。(2)对于无偏估计量:二、抽样误差1定义:由于抽样的随机性产生的,用样本统计量估计总体参数时产生的误差。2描述方法:(估计量的标准差,也称抽样标准差)3影响抽样误差的因素(1)总体的分布状况;(2)样本量;(3)抽样方式和估计方法。4特点:可以计算并控制,但不能消除。5控制方法(1)选择适当的抽样方法;(2)确定充分的样本量;(3)加强对抽样调查组织的领导,提高抽样调查工作质量。三、非抽样误差1定义:由于抽样框中的单元放回或者遗漏、部分调查对象不回答或者原始数据不准确等原因造成的误差,主要包括抽样框误差、无回答误差、调查员误差、受访者误差等。2抽样框误差:调查总体与目标总体不完全吻合(涵盖不全和过涵盖)。3无回答误差(1)单位无回答:若无回答率过高,需要补调查;(2)项目无回答:需插补。4调查员误差(解释误差)5受访者误差(理解、记忆误差或者有意隐瞒)6其他:测量工具误差、数据编码和录入错误等。五、误差问题小结1从性质上看:估计量方差、偏差、均访误差。2从类型上看:抽样误差和非抽样误差。第5节 参数估计方法一、参数估计方法1参数估计:用样本统计量去总体参数。2估计量:用来估计总体参数的统计量的名称,称为估计量。3方法分类(1)点估计:用样本估计量的值直接作为总体参数的估计值,称为点估计(2)区间估计:在点估计的基础上,给出总体参数估计的一个范围,称作区间估计。4评价估计量的标准:无偏性、有效性、一致性。二、总体均值的区间估计1点估计:用样本均值估计总体均值。其中,用样本均值是总体均值的无偏估计,即。2放回抽样的区间估计绝对误差(也称极限误差、边际误差) 相对误差 区间估计 ()在总体方差未知时,可以采用样本方差计算极限误差。3不放回抽样的区间估计绝对误差 相对误差 区间估计 ()例3.1 某种零件的长度服从正态分布,从某天生产的一批零件中按放回抽样的方法随机抽取9个,测得其平均长度为21.4cm。已知总体的标准差为0.15cm。试估计该批零件的平均长度的95%的置信区间。解:已知,置信水平95%,对应的,则该批零件的平均长度的置信区间为(21.302,21.498)例3.2 在某天生产的500袋食品中,按不放回抽样方法随机抽取25袋进行检查,测得平均每袋的重量为996g。已知该种袋装食品的重量服从正态分布,且标准差为20g。试估计该种食品平均重量的置信区间,置信水平为95%。解:已知,置信水平95%, ,则该种食品的平均重量的置信区间为(988.35,1003.65)。三、对总体比例的估计1点估计:用样本比例估计总体比例。其中,用样本均值是总体均值的无偏估计,即。2放回抽样的区间估计绝对误差 相对误差 区间估计 ()3不放回抽样的区间估计绝对误差 相对误差 区间估计 ()例3.3 某城市想要顾及下岗职工中女性所占的比例,采用放回抽样方法随机抽取了100名下岗职工,其中65人为女性,试以95%的置信水平估计该城市下岗职工中女性比例的置信区间。解:已知, 根据样本数据计算的样本比例为,则于是该城市下岗职工中女性比例的置信区间为(55.65%,74.35%)。例3.4 某企业共有职工1000人。企业准备实行一项改革,在职工中征求意见,采取不放回抽样方法速记抽取200人作为样本,调查结果显示,有150人表示赞成该改革,50人反对。试以95%的置信水平确定赞成改革的人数比例的区间。解:已知, 根据样本数据计算的样本比例为,则于是该城市下岗职工中女性比例的置信区间为(69.63%,80.37%)。第6节 样本量确定问题一、影响样本量的因素1精度:绝对误差与相对误差2总体离散程度3无回答情况4经费制约二、确定样本量的方法1非概率抽样:根据经验判断2概率抽样(简单随机抽样)(1)对总体均值的估计放回抽样,不放回抽样(2)对总体比例的估计放回抽样,不放回抽样说明:由于是以开口向下,以0.5位对称轴的抛物线,因此(当P=0.5时),因此在P=0.5时取得保守估计量;当P不能取到0.5时,P越靠近对称轴,最终算得的样本量越保守。例3.5 续例3.2 假定要求极限误差不得超过5g,试求所需的样本量。解:已知, ,则所需的样本量 所以要想实现极限误差不超过5g,采用放回抽样需要的样本量是32,不放回抽样需要的样本量是31。例3.6 续例3.4 假定估计赞成改革的人数的比例在80%左右,要求极限误差不得超过4%,试求所需的样本量。解:已知, , 所以要想实现极限误差不超过4%,采用放回抽样需要的样本量是385人,不放回抽样需要的样本量是627人。三、样本量与设计效应1设计效应(deff):对相同的样本量,其他方式的估计量方差与不放回简单随机抽样的估计量方差的比值。2在能计算出不放回简单随机抽样样本量()的条件下,利用设计效应计算其他抽样方式的样本量()四、对无回答问题的处理最终样本量 ,其中是回答率。练习1某大学为了解学生每天上网的时间,在全校7500名学生中抽取36人,调查他们的上网时间,得到样本的平均上网时间为3.32小时,标准差为1.61小时。置信水平95%。(1)分别计算采用放回抽样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论