版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、抽样技术第一篇概述第一章抽样调查概论第一节抽样调查的概念一什么是抽样调查(一)什么是抽样调查抽样调查(survey sampling),也称样本调查,是非全面调查中的一种重要方法,它是按一定程序从所研究对象的全体(总体)中抽取一部分(样本),进行调查或观察,获取资料,并以此对总体的一定目标量(参数)做出推断(例如估计)。本课程所指抽样调查为概率抽样。(二)与非概率抽样比较1非概率抽样是用主观的(非随机的)方法从总体中抽选单元,是一种快速、简易且节省的从总体中选取样本单元的方法。由于非概率抽样抽取样本有倾向性与偏差且没有一个抽样框,不可能计算出各个单元的入样概率。从而无法得到总体目标量的可靠估计
2、值及其抽样误差估计值。优点:快速简便;费用相对较低不需要抽样框;对探索性研究和调查的设计开发很有用。缺点:为了对总体进行推断,需要对样本的代表性做很强的假定;不可能得到可靠的估计值以及抽样误差估计值。2非概率抽样的种类随意抽样;自愿抽样;判断抽样;配额抽样。3判断抽样由专家有目的地抽选有代表性的样本。它适用于探索性研究,如:抽选参加焦点座谈或深入访谈的人,但不宜用在试调查中。4配额抽样这是最常见的一种非概率抽样。抽样要从各个子总体中选取特定数量的单元(配额)。优点:所抽取样本结构接近总体结构,提高样本代表性,调查单位少缺点:难以估计误差,无法排除主观因素影响(三)抽样调查以概率论和随机原则为依
3、据来选取样本,不受调查者主观因素的影响从而充分保证了样本的代表性。(1)在调查单位的选取上,遵循随机原则1随机原则:并不是随便,随机有严格的科学含义,可以用概率来描述,也不等同于等概率原则。等概率抽取是随机抽取,但随机抽取并不限定必须是等概率抽取。一般要求总体中每个单元均有一个非零的概率被抽中。2抽取样本单元要按照给定的入样概率通过一定的随机化程序来实现。3估计总体参数,要考虑入样概率。4随机原则的实施,并不排斥采取不同的抽样方式。(2)调查功能:以样本的数量特征去推断总体的数量特征。(3)推断手段即以部分推断总体是以概率估计的方法对总体的数量特征进行估计和判断。(4)在推断理论上,以大数定律
4、和中心极限定理为依据。1. 大数定律2. 中心极限定理(5)推断效果:抽样误差可以计算并加以控制第二章 基本概念第一节 总体与样本一总体的概念总体就是我们研究也即进行调查对象的全体。总体可分为有限总体和无限总体,在本书中一般看成有限的总体。二抽样单元与抽样框(一)抽样单元:将总体划分成互不重迭又穷尽的有限多个部分,每一部分称为抽样单元。 (二)复杂总体可以分成多级单元:初级单元次级单元三级单元直至基本抽样单元。(三)抽样框:包含所有抽样单元的名单或清册。(1)抽样框可以有多种形式:名单抽样框、区域抽样框、时间表抽样框等。(2)抽样框的类型有:名录框和区域框。名录框是由总体中所有的单元组成的目录
5、;区域框是由许多地理区域构成的抽样框。在下列两种情况下,适合采用区域框:1)调查具有地理性质。2)没有合适的目录框,需要借助区域框来构造目录框。三总体指标(一)总体指标1总体总量:即总体总量指标。2总体均值:在抽样中总体均值一般为数值平均数,一般指算术平均数。3总体成数:总体中具有某种特征的个体在全体中的比例,常用百分数来表示。4总体中两个指标的总和或均值之比值。(二)表示方法指标y的值为Y1,Y2,Y3,YN,x的值为X1,X2,X3,XN。1总体总量:Y=X=2总体均值:=3若Y只能取两个值:1(第i个单元具有某个特定的特征);0 (否则)。总体单位总数为N,则具有某种特征单元总数AY =
6、 ,所以,总体成数P=。4比值R=四样本的概念1样本是总体的一部分,是由总体中按一定程序抽得的那部分个体或抽样单元组成的。(1)入样单元:每个被抽中单元称为入样单元(2)样本量n:样本中包含的抽样单元数n称为样本量(3)抽样比f=n/N:样本量n对总体总单元数N的比称为抽样比2抽样方法与方式:抽样可逐个抽,也可一次性抽取n个,称全样本方法。逐个抽:放回抽样(回置抽样、不重复抽样)不放回抽样(不回置抽样、重复抽样) 全样本抽样也是不放回抽样第二节 几种基本的抽样方法一简单随机抽样简单随机抽样是直接从总体的N各单位中完全随机的抽取n个单位,并是总体中的每个单位都有同等被抽中概率的抽样组织形式。二分
7、层抽样将总体按一定的原则分成若干个子总体,每个子总体称为层,在每个层内进行抽样,不同层的抽样相互独立,这种抽样称分层抽样。三整群抽样将总体中的各个单元归并成数量较少而规模较大的单元(群),对抽中的群调查器重每一个较小的单元,没抽中的群则不需要进行任何调查。四二阶与多阶抽样1二阶抽样:如果对每个被抽中的一级单元的所有二级单元再抽样,称二阶抽样2三阶抽样和多阶抽样:如对抽中的二级单元再抽样,调查部分三级单元,称三阶抽样,以此定义多阶抽样。五系统抽样将总体中的单元都按一定顺序排列,在规定的范围内随机的抽取一个单元作为初始单元,然后按一套事先确定好的规则确定其他样本单元。第三节 误差与精度的表示方法一
8、 抽样调查中的误差来源(一)非抽样误差1调查误差:调查所得数据与(样本)单元真值不一致所造成的误差。2系统性误差:由于非随机因素造成样本代表性不足而产生的误差。调查误差和系统性误差合称偏差,即非抽样误差,非抽样误差不能通过多抽样就可以控制。(二)抽样误差由于抽样造成的误差,即在遵循随机抽样的原则下,由于用样本估计总体而产生的误差。抽样误差在概率抽样中虽然是不可避免的,但却是能够计量和可以控制的,通常样本量愈大,则抽样误差愈小。在实际应用中,抽样误差又有以下几种形式:1实际抽样误差2抽样平均误差或抽样标准误:是反映抽样误差大小一般水平的指标。是所有可能样本离散程度的均值。(1)理论上的抽样标准误
9、(抽样平均误差):从理论上说,对于固定的总体和样本容量,在相同的抽样方法下,抽样标准误(抽样平均误差)是一个唯一确定的值。(2)实践上的抽样标准误(抽样平均误差):但从实践上看,一般总体参数本身未知,也不可能列出所有可能样本的样本指标。从这个意义上看,抽样标准误(抽样平均误差)又是一个随机变量,随样本不同而有不同的估计值。(3)影响抽样标准误(抽样平均误差)的因素:抽样标准误(抽样平均误差)受总体内部差异程度、样本容量、抽样方法、抽样组织形式、估计总体参数的方法等的影响。3抽样极限误差:是指以样本统计量估计总体参数时所允许的最大误差范围,也即在一次抽样推断时,样本统计量可允许的最高值或最低值与
10、总体参数之差的绝对值。二均方误差、方差与偏倚(一)均方误差、方差与偏倚1均方误差MSE(mean square error)均方误差是实际误差平方的均值,也就是所有可能样本实际误差平方的均值(期望) MSE()=E(-)2,均方误差可以分解成以下两部分:MSE()= E-E()2+ E()-22方差V()E-E()23偏倚 B2() E()-24均方误差、方差与偏倚的关系均方误差 = 方差 偏倚的平方MSE()= V()+ B2()5方差的平方根称为标准差,6估计量的标准差也称标准误差或标准误 (二)估计量1无偏估计量:偏倚为零的估计量,对无偏估计量,均方误差等于方差2相合(一致)估计量:当n
11、趋近于无穷大,n依概率收敛于,即与是相合(一致)估计量。3可用估计量:当n趋近于无穷大,B()趋近于零的速度比均方误差平方根趋近于零的速度更快,即B()是比均方误差平方根更高阶的无穷小。是可用估计量,也即,当n趋近于无穷大,得精度主要取决于它的方差V()或标准差S()。4有效估计量:同样样本量下方差更小或者说设计效应更高的估计量。三误差限与置信度1置信度为的绝对误差限d满足:或相对误差限r满足:,1-,置信度一般取:90%、95%等。2误差限与估计量的标准差之间的关系(1)抽样调查中常用估计量在大样本时是渐进正态的 (2)如果估计量是可用的,因此,如果是标准正态分布的双侧分位数 (3)如果估计
12、量是无偏的,估计量的变异系数CV(coefficient of variation),也叫估计量的相对误差:四精度与费用1精度取决于抽样误差大小。2影响估计量方差的最重要因素是样本量,而样本量直接与费用相关。3最优设计为费用一定、精度最高,或一定精度、费用最小。第四节 抽样调查的一般程序一抽样方案设计 1保证实现抽样随机原则2最大抽样效果原则二调查与推断1调查单位名录、调查方法确定等。2优良的估计量应该符合:无偏性、一致性、有效性。3抽样估计方法确定三检查1准确性检查 2代表性检查第二篇 基本的抽样方法第一章 简单随机抽样第一节 概述一简单随机抽样的概念1简单随机抽样的定义:简单随机抽样也叫纯
13、随机抽样,完全随机抽样。简单随机抽样是直接从总体的N各单位中完全随机的抽取n个单位,并是总体中的每个单位都有同等被抽中概率的抽样组织形式。简单随机抽样是最符合随机原则而又最基本、最简单的抽样组织形式。有重复抽样和不重复抽样两种形式。本书中,一般为不放回的简单随机抽样。2严格意义上的简单随机抽样是指不放回抽样。3简单随机抽样还有一个优点,就是其简单估计量是自加权的(重复抽样也是)。 二简单随机抽样的实施方法1抽签法(或摇珠法在摇珠机中盛有标号1N的同样大小的球,每次滚出一球,其号码即为样本单位)2随机数表法或随机数骰子(色子)(1)随机数骰子(色子)(2)随机数表:随机数表应用广泛,随机指一个两
14、位数,在向右读一个两位数,以前一个数为行,后一个数为列位置的数为起点,顺序选取。(3)N的最高位数值较小时的一般处理方法:如果N的最高位数值较小,一般作如下处理:取M>N的适当整数。M可取2×10m-1,2.5×10m-1,5×10m-1(若取3×10m-1,则9×10m-1以上的数,都要舍弃),如果从随机数表(随机数骰子也可这样处理)读取得随机数R0>N,则取R0除以M的余数R(如R<N)为抽中单元号码,如果R0<N,则直接采用。三简单随机抽样的地位和作用(一)简单随机抽样的地位简单随机抽样是其他抽样方法的基础,理论成
15、熟、效率较高。(二)简单随机抽样的缺点1简单随机抽样需要完整的抽样框2样本点分散第二节 总体均值与总量的简单估计一简单估计及其无偏性1总体均值:总体总量 2用样本均值估计总体均值,即简单估计总体均值的简单估计 总体总量的简单估计 3样本均值是总体均值的无偏估计二估计量的方差1总体方差:2的方差:31f称为有限总体修正系数,记fpc。当f0,1f1,则V()与样本量n成反比,n愈大4,V()愈小。4总体总量的估计量方差 三估计量的方差估计1为了估计估计量的方差,必须对总体方差进行估计。2样本方差是总体方差的无偏估计。E(s2) = S23估计量的方差估计4总体均值的置信度为1的近似置信区间为:第
16、三节 总体比例(成数)的简单估计一概述1总体成数是指总体中具有某种特定特征的单元在总体中所占的比例。2令总体单元的指标Yi,设总体中具有该种特征的单元数为A,则: ,Q=1P二估计量及其性质1抽取样本量为n的简单随机样本,则:2样本成数是总体成数的无偏估计。E(p)=P , E(Np)=A3估计量的方差4估计量方差的估计样本方差是总体方差的无偏估计:5区间估计尽管a=np服从超几何分布,当N大时,a近似服从二项分布,当n大时,a又近似服从正态分布。(1)二项分布的正态近似置信区间:(2)由于二项分布是离散分布,正态分布是连续分布,进行连续性修正后,近似置信区间为:第四节 样本量的确定一确定样本
17、量的原则与主要考虑因素(一)确定样本量的重要性1样本容量与估计量方差呈反比。2样本方差不仅依赖于样本容量,而且也依赖于样本设计,在复杂的设计中,样本方差还于其他因素相关。(二)样本设计时主要考虑因素1调查目的通常要求几个不同统计量,要求相互冲突的处理。2非抽样误差的影响。3合适的样本量。(三)确定样本量的原则1在考虑费用的前提下如果费用限制很大,则根据费用确定样本量。CT=c0 cn,其中:c0为固定费用,c为调查每一单位变动费用,则: n = ( CT c0 ) ÷ c2如果费用限制小,则根据给定的精度要求,求得所需要的最低样本量。3实际调查中的处理。二估计总体均值或总量时样本量的
18、确定方法1给定精度要求为估计量方差上限V。2给定精度要求为估计量的绝对误差限d。3给定精度要求为估计量的相对误差限r。4给定精度要求为估计量变异系数上限C。三估计总体比例时样本量的确定方法1给定精度要求为估计量方差上限V。2给定精度要求为估计量的绝对误差限d。3给定精度要求为估计量的相对误差限r。4给定精度要求为估计量变异系数上限C。四设计效率(一)放回简单随机抽样的估计量及性质1放回简单随机抽样。每次从总体中等概率的抽取一个单元,经过观测后放回总体中,接着抽下一个,直到抽够为止,这就是放回简单随机抽样。2放回简单随机抽样与不放回简单随机抽样的区别。放回简单随机抽样每次抽样时,总体的结构不变,
19、因此不同次的抽样是相互独立的,这是它与不放回简单随机抽样的区别之处。3放回简单随机抽样的估计量、估计量性质及估计量方差:4估计量方差的估计 , (二)设计效应与样本量的确定1设计效应(design effect,简记为deff)设计效应是指一个特定的抽样设计(包括抽样方法以及对总体参数的估计方法)估计量方差对同样样本量下(不放回)简单随机抽样的(简单)估计量方差之比。即:2设计效应值越大,表明这种抽样设计的效率越低。3放回简单随机抽样的设计效应为: , , 可见,放回简单随机抽样的效率不如放回简单随机抽样。4设计效应可以用于确定样本量第二章 分层随机抽样第一节概述一分层抽样和分层随机抽样的概念
20、(一)分层抽样1层的概念:如果总体可以分成互不重叠且穷尽的若干个子总体,即每个单元必属于且仅属于一个子总体,称这样的子总体为层。2分层抽样和分层样本:如果抽样在每一层中独立进行,总的样本由各层样本组成,根据各层样本汇总对总体参数作出估计。这种抽样称为分层抽样。所得的样本称为分层样本。(二)分层随机抽样和分层随机样本:如果每层中的抽样都按简单随机抽样进行,那么,抽样就称为分层随机抽样,所得的样本就成为分层随机样本。(三)分层抽样的步骤1把总体分层。2在每一层中选样本。3计算总体的合并估计量。4体的方差估计。二层抽样的特点和使用场合(一)特点:1由于分层抽样是在各层中进行的,因此,各层样本除汇总后
21、可用于总体参数的估计外,还可用于对层的参数进行估计。2实施灵活,便于组织,数据处理简单。各层可以采用不同的方法抽样。层间汇总方式又非常简单。3由于分层样本分别抽自各层,样本分布更加均匀。4能较大的提高调查的精度,可用于降低样本估计量的方差。(二)适用场合:1总体简单随机抽样框无法编制,或难以编制;2总体各部分特点不同;3总体分布不均匀或差异大,为降低方差。三记号1总体分为L层,以h表示层的编号,h=1,2,L。第h层的单元数为Nh,Wh = Nh/N,层权,也是已知的。2Yhi,yhi分别为h层总体和样本中的第i个单元的指标值。3第h层总体(样本)均值。4第h层总量及样本总量。5第h层抽样比为
22、:第二节简单估计量及其性质一对总体均值与总量的估计(一)对总体均值与总量的估计1对一般分层抽样: ,2对分层随机抽样:(二)分层随机抽样估计量的性质1总体均值的简单估计量:(1)样本均值是总体均值的无偏估计:(2)估计量的方差(3)估计量方差的估计:2总体总量的简单估计量例:某市进行家庭收入调查,分城镇和农村居民两部分进行抽样,抽样均按简单随机抽样进行,求全市年平均户收入的估计及其90%的置信区间。解: 计算层权:W1=N1/N=0.137,W2=N2/N=0.863。: 二对总体比例(成数)的估计1层比例:Ph=Ah/Nh , Qh=1Ph层样本比例:ph=ah/nh , qh=1ph2总体
23、成数P的无偏估计为,3估计量方差的估计估计量方差的一个无偏估计为:4总体具有某种特征单元总数A的估计量及方差为:例:某单位为调查某种职业病的情况,将单位职工按工龄分三层,工龄在20年以上为第一层,工龄在10年以上,20年以下为第二层,工龄在10年以下为第三层,各层抽样均采取简单随机抽样,抽样调查资料及计算如下:层别NhnhahphWhfh第一层第二层第三层 200 500 380 50115100 39 60 170.78 0.52170.170.18520.46300.35190.250.23 0.2632合计10802651161.00求该单位该种职业病患病率P的估计及其95%的置信区间。
24、解:由表中数据计算得:第三节各层样本量的分配一样本量分配对精度的影响例:某总体分三层,其层权及层标准差见下表。现进行分层抽样,总样本量为300,考虑四种不同的样本量分配,并计算出各种分配下总体均值估计量的方差,资料及计算见下表: h Wh Sh 常数分配 与Sh2成正比 与W h成正比 与W h S h成正比1230.20.30.5203034100100100 49110141 60 90150 40 901703.863.113.093.00(一)常数分配的适用场合和缺点(二)各层样本量nh与层方差Sh2成正比(三)各层样本量nh与层权W h成正比(四)本量nh与层方差和层标准差的乘积成正
25、比二比例分配1分层抽样中,每层样本量都与层的大小呈正比例,即:。这种分配为比例分配,其比例常数为抽样比。2比例分配的分层随机抽样是一种等概率抽样。3比例分配的分层随机抽样的简单估计是自加权的。4估计值(1)总体均值的估计:总体均值的估计等于样本均值。(2)总体总量的估计(3)估计量的方差 , (4)成数估计量三最优分配1线性费用函数下最优分配的定义:最优分配是指在分层随机抽样中,对于给定的费用,使估计量的方差达到最小或对给定的估计量方差,使总费用最小的各层样本量的分配。2线性费用函数下最优分配:主要考虑线性费用函数,给定总费用C下极小化V或给定V下极小化总费用C,等价于。也就是说,层愈大,层内
26、变异愈大,该层平均单元抽样费用愈低,则在该层中抽样应愈多。3不考虑费用的最优分配,也叫奈曼分配。如各层抽样费用相等或相差不大,或者不考虑费用,则最优分配为:1934年由奈曼重新给出,因此,这种形式的最优分配常被称为奈曼分配。最小方差为:4估计总体比例P情形(一)一般最优分配(二)奈曼分配四有关分层中获得有效样本或提高样本效率的实际方法。(一)分层(二)分层标志(三)误差(四)最优分层的应用(五)按比例抽样的效益。例:某市进行家庭收入调查,分城镇居民及农村两层进行简单随机抽样固定样本量为n=550,调查资料及计算如下表。试求城镇与农村两层比例分配与奈曼分配的样本量。如不考虑费用因素,最优分配的结
27、果有何变化? h N W S c W SW S / c 1 2 23560148420 0.137 0.863 3000 2500 1 2 411.02157.5 411.01525.6 合计171980 12568.51936.6解:(1)比例分配(2)最优分配(3)奈曼分配第四节样本总量的确定一影响样本总量的因素1分层随机抽样样本总量决定于估计量精度和总费用限制。2估计量精度和费用。3讨论样本量,必须先确定样本量的分配形式。二估计总体均值的情形(一)给定的精度要求为V方差上限。(二)若精度要求是对估计量的绝对误差限(在一定的置信度下)形式给出的。(三)若精度要求是对估计量的相对误差限形式给
28、出的。同(一)一样,(二)、(三)也可以分别推算比例分配下、奈曼分配下和最优分配下的样本量公式,只要把比例关系代入即可。三估计总体总量的情形(一)给定的精度要求为V方差上限。(二)若精度要求是对估计量的绝对误差限(在一定的置信度下)形式给出的。(三)若精度要求是对估计量的相对误差限形式给出的。四估计总体比例的情形(一)给定的精度要求为V方差上限。(二)若精度要求是对估计量的绝对误差限(在一定的置信度下)形式给出的。(三)若精度要求是对估计量的相对误差限形式给出的五给定总费用时样本量的确定第五节 分层随机抽样效果分析一与简单随机抽样的比较1简单随机抽样对均值估计量的方差2以比例分配作为分层随机抽
29、样的代表,对均值估计量的方差3比较结果4结论(1)若所有的层单元数都比较大,比例分配的分层随机抽样的方差小于简单随机抽样的方差。(2)两者方差的差值为差值愈大,则效果(分层)愈好,也即层平均数的差异愈大,分层的效果越好;层平均数相等,分层无效果。可见,由于分层抽样中,层间差异不进入分层随机抽样的方差,其精度才高于简单随机抽样。(3)若不忽略的差异,则有可能出现分层抽样精度低于简单随机抽样精度的情形,即使样本量分配合理,也有可能发生。(4)一般而言,在满足下列情况时,简单随机抽样效果好,但此情形少见。二最优分配在精度上的改进1最优分配以奈曼分配为例。与比例分配的分层随机抽样比较,2结论:与比例分
30、配的分层随机抽样比较,最优分配在精度上的改进多少(得益大小)取决于各层标准差的差异大小,差异越大,得益越多,效果越好。但是在实际工作中,由于进行分配时,对各层标准差采用的是估计值,估计本身也不一定十分精确,因此,除非层标准差差异十分明显,一般还是采用比例分配。第三章 不等概率抽样第一节 概述一不等概率抽样的必要性及优点1抽样的必要性(1)如果总体单元的差异不是很大,等概率的方法简单合理。(2)如果总体单元的差异很大,也即总体方差大的情况,等概率的方法效果不一定好,可采取分层抽样或采取不等概率的方法。2不等概率抽样的适用情况(1)需要估计总体总量但总体单元规模相差很大(2)抽样审计(3)不能直接
31、对基本单元抽样3不等概率抽样的优点(1)优点是可以大大提高估计的精度,减少抽样误差(2)必须利用已知辅助变量确定入样概率才能实施二不等概率抽样的主要分类1按抽样过程中被抽到单元是否放回分为放回抽样和不放回抽样两类。2按抽取概率是否严格的与单元大小成比例分类。3不放回抽样的分类(1)逐个抽取法:每次从所有尚未入样的单元中以一定概率抽取一个单元,直至抽到规定数目为止。(2)重抽法:以一定概率逐个放回抽,直到抽到规定单元数且所有入样单元都不同(一旦抽到重复单元,放弃所有已抽到单元,全部重抽)。(3)系统抽取法第二节 放回不等概率抽样一多项抽样与PPS抽样1多项抽样设总体包含N个单元,对其进行放回抽样
32、,在每次抽样中,抽到第i个单元的概率为:。独立地进行这样的抽样n次,共抽到n个单元(有可能重复),则称这种不等概率抽样为多项抽样(multinomialsampling)。这就是多项抽样这个术语的来源。2PPS抽样此时每个单元在每次抽样中的入样概率与单元大小成比例,这种特殊的多项抽样为放回的与大小成比例的概率抽样(samplingwith probability proportional to size),简称PPS抽样。二实施方法1代码法也叫汉森赫维茨(HansenHurwitz)法,也叫累计法。先把每个单元的大小或规模转换为整数,然后从第一个单元开始累计,直至最后一个单元,这样在累计单元总
33、数中,每个总体单元都有不同的一组代码,在1累计单元总数Mo中抽取随机数m,则m所对应的单元即为此次抽样被抽中单元,重复n次即获得n个样本单元。例:设某总体有N=10个单元,欲用多项抽样从中抽取n=5个单元,入样概率及代码如下:iZiMi累计Mi代码123456789100.080.100.170.060.240.090.050.070.040.10 81017 624 9 5 7 410 8 18 35 41 65 74 79 86 9010018918193536414265667475798086879091100合计1.00Mo=100在1,100范围内产生5个随机数,04、73、25、
34、49、82,则第1、第6、第3、第5、第8个单元即为抽中单元。注意:单元愈大,代码愈多,入样概率愈大。2拉希里法此法不需要求单位大小累计值:(1)从1到N中随机抽取i。(2)再从(1,Mmax)中抽取随机数m,Mmax为N个单位大小Mi中的最大值或大于极大值的某个易取的数。(3)若mMi,则i单元入样。(4)若m>Mi,则重抽一组(i,m)拉希里法的优点是:不用列出各单位的累计值;只需知道所有单位大小的极大值,也不必先知道全部单位的大小。由于拉希里法在各单位大小差异较大,尤其是极大值偏离各单位平均大小较多(远大于平均水平)时,无效抽样多,效率低,因此有改进方法:分裂法(把过大单位分成两个
35、或两个以上的单位,再实施抽样)和最佳概率法3选择当N小且(或)n大时,用累计法;当N大且(或)n小时,则用拉希里法。第三节 不放回不等概率抽样一包含概率与PS抽样1包含概率2PS抽样二估计量及性质第四章 整群及多阶抽样第一节 概述(一)多阶抽样的定义1二阶抽样设总体由N个初级单元组成,每个初级单元又由若干个二级(次级)单元,若在总体中按一定方法抽取m个初级单元,对每个被抽中的初级单元再抽取若干二级单元进行调查,则这种抽样称为二阶抽样,或二级抽样(two-stagesampling)。从总体中抽取初级单元称为第一阶抽样;从每个被抽中的初级单元再抽取二级单元,称为第二阶抽样。2多阶抽样每个二级单元
36、又由更小的三级单元组成,那么在第二阶抽样后,若对每个被抽中的二级单元中的三级单元再进行抽样,则这种抽样称为三阶抽样,或三级抽样。若对每个被抽中的二级单元不再进行抽样,调查其中的每个三级单元,则称为二阶整群抽样。以此类推,可以定义更高阶的多阶抽样(multi-stage sampling)或多阶整群抽样(multi-stage cluster sampling)。(二)多阶抽样的特点和应用1多阶抽样的特点(1)优点:样本点相对集中,实施方便,每个基本单元调查费用低;充分发挥抽样的效率;抽样框可分级准备,应用方便。(2)缺点:抽样阶数越多,抽样误差越大。2多阶抽样的应用(1)基本单位数多且分散的总
37、体,编制抽样框较困难或难以直接抽取到所需样本单元。(2)需要掌握各级单位情况的情形(3)散料的抽样第二节 单阶整群抽样一单阶整群抽样的概念1单阶整群抽样如果总体中所有较小的基本单元可以某种形式组成数量较少但规模较大的单元初级抽样单元,这样,在总体中按一定方式抽取若干初级单元,调查每个被抽中的初级单元中所包含的全部次级单元,则这种抽样称为整群抽样,也称集团抽样。这里的初级单元就是群(cluster)。2群的划分:单阶整群抽样的群可以是自然形成的,也可以是人为划分的。注意:每个抽样元素(基本单元)只能唯一地划归为一个抽样单元(初级抽样单元);但初级抽样单元和次级单元会随研究目的的不同而不同,如研究
38、住户特征,以街区为群,每个寓所为基本抽样单元,如研究家庭购物情况,就可能以人为基本单元,而以寓所为群。3单阶整群抽样的分类单阶整群抽样按群中元素的数量(群的大小或容量)是否相等分为等群抽样和不等群抽样。二单阶整群抽样的特点及使用场合(一)特点1整群抽样的随机性体现在群与群之间不重叠,群的抽选按概率(随机原则确定;如果把每一个群看成一个单位,整群抽样就是以群为单位的纯随机抽样(等概率时)。2整群抽样对于群而言是抽样调查,而对于被抽中的群,群内是全面调查;所以误差取决于群间差异。3优点是便于组织实施,节省人力、时间等。4缺点是相同样本量下抽样误差较大;一般采取多抽小单位,以减少方差整群抽样一般抽取
39、每个基本单元(元素)花费低(列抽样框及寻找单元费用低)、但方差较大(群内单元虽不规则但往往具有同质性),统计分析花费较高。(二)适用场合1编制抽样框上的便利2总体基本单位分布广泛3调查目的本身需求第三节 群大小相等情形,对群进行简单随机抽样时的估计量及其方差一记号Yij为总体第i群中的第j个小单元(次级单元或基本抽样单元)的指标值,i=1,2,N;j=1,2,M。yij为样本中第i群中的第j个小单元的指标值,i=1,2,n;j=1,2,M。f=n/N为抽样比。1总体(样本)群和:2总体(样本)群平均数:3总体(样本)平均群和:4总体(样本)均值:5总体(样本)总方差:6总体(样本)群间方差:7
40、总体(样本)群内方差:二估计量及其性质1估计量及其性质(1)样本平均群和是总体平均群和的无偏估计(2)样本均值是总体均值的无偏估计2估计量的方差:3估计量方差的估计样本群间方差是总体群间方差的无偏估计:4总体方差的估计样本群内方差是总体群内方差的无偏估计样本群间方差是总体群间方差的无偏估计样本总方差不是总体总方差的无偏估计如果N很大,则:5总体总和Y=NM的估计量及其方差可由上述结果直接推出。三群内相关系数与设计效应1群内相关系数:同一群内不同小单元的指标值对总体均值的离差乘积的期望值与总体中所有小单元指标值对总体均值离差平方的期望值之比。用群间方差和总方差表示的群内相关系数:当N大时,上式可
41、写成用群间方差和群内方差表示的群内相关系数:2如何用群内相关系数估计和表示估计量方差,3设计效应(1)简单随机抽样直接从总体中抽取nM个单元样本均值的估计量方差(2)整群抽样的总体均值的估计量方差(3)设计效应可见,同样样本量下,整群抽样方差为简单随机抽样方差的倍。4群内相关系数的取值与设计效应(1)设计效应deff(2)群内相关系数的取值范围若Sw2=0,则:=1若群内方差=群间方差=总方差,则:=1/(1NM)0若群内方差大于总方差,取值为负,<0当Sb2=0,极小值为:=所以,的取值范围为,1。(3)群内相关系数的取值与设计效应当0<1,deff>1整群抽样效率低于简单
42、随机抽样当<0,deff<1整群抽样效率高于简单随机抽样四整群抽样效率分析由于整群抽样常常是由于抽样框易于编制或样本点集中等原因而实施的,群内小单元一般都有些相似,即0<1的情况较为常见,因此,我们说一般整群抽样效率低于简单随机抽样。五群大小相等,估计总体比例的整群抽样估计总体比例的整群抽样和估计均值不同,不论群大小相等还是不相等,一般均采用简单随机抽样,但估计方法不同。1估计量:简单估计样本均值:样本均值是总体均值的无偏估计:E(p)=P2估计量的方差:3估计量方差的估计估计量方差的一个无偏估计为:第四节群大小不等的一般情形一不等群等概率整群抽样不等群等概率整群抽样估计总体
43、均值时,可采用多种方法进行估计。1估计量2估计量的方差3估计量方差的估计二重复的不等群不等概率整群抽样1.PPS抽样2.估计量及其性质三不重复不等概率抽样1PS抽样2估计量及其性质第五节 初级单元大小相等时的二阶抽样一记号1总体(样本)指标值2第一阶段及第二阶段抽样比 3总体(样本)初级单元的指标和4总体(样本)第i个初级单元指标按次级单元的平均数5总体(样本)按次级单元的平均数6总体(样本)初级单元间的方差7总体(样本)初级单元内的方差二总体均值的估计量及其性质1估计量如果每一阶抽样都是简单随机的,且对每个初级单元,第二阶抽样是相互独立的,则样本均值是总体均值的无偏估计。2估计量的方差:3估
44、计量方差的估计三总体比例的估计1估计量2估计量的方差3估计量方差的估计第五章 系统抽样第一节概述一系统抽样的定义及实施方法(一)系统抽样的定义: (systematic sampling)也称机械抽样,它是将总体中的单元按某种顺序排列,在规定的范围内随机抽取起始单元,然后按一套规则确定其他样本单元的一种抽样方法。是广义的定义,总体的排列可以是一维的,也可以是二维的,起始单元可以是一组也可以是一个,抽取可以是等概率或不等概率的。系统抽样一般是不放回的。(二)等距抽样:等距抽样是在总体N个单位按某一标志排队后,每隔相等的距离抽取一个单位的系统抽样。1等距抽样的分类等距抽样按排队标志大体可分无关标志
45、排队等距抽样和有关标志排队等距抽样两种。(1)无关标志排队等距抽样:排队标志与调查标志没什么必然的联系。无关标志的等距抽样,等同于从一个随机总体中抽取样本,即纯随机抽样,但操作上要简单得多。(2)有关标志排队等距抽样:即排列标志与调查标志密切相关,如调查标志本身的过去资料或另一相关指标。有关标志可以提高抽样估计精度。(3)时间标志排队等距抽样:是按时间先后顺序进行等距抽样,时间标志可以是有关标志,也可以是无关标志。2等距抽样的一般实施方法(1)直线法:把总体中的N个单元按直线排列时,N=nk时,在1k中随机抽取一个整数r,r为起始单元,然后,每隔k个单元抽取一个单元为样本单元,直至抽至r+(n
46、-1)k号单元,正好n个样本单元。 K为抽样间距。(2)圆形系统抽样:将总体单元排成首尾相接的圆形,在1N范围内随机抽取整数r为起始单元编号,然后每隔间距k(k为抽样间距)抽取样本单元,直到抽足n个单元为止,即使Nnk,样本量也不随起始值而变化,也是严格等概率的。(3)平面二维系统抽样:N=nk,k=lm,将总体划分成n个格子,每个格子的长度为l,宽度为m,随机抽取一对随机整数(i,j)il,jm,以(i,j)的单元为抽取得样本单元。以上抽取方式对无关标志较好,对有关标志等距抽样而言,有一个缺点,如果总体按由小到大(或由大到小)顺序排列,在第一段中抽到偏低(或偏高)的标志值起始单元,则以后n-
47、1个单元均偏低或偏高,从而使样本均值偏低或偏高,最终造成样本均值偏离总体均值。1不等概率等距抽样:等距抽样一般是等概率的抽样,但如果排队标志和调查单元不是一一对应的,则也会出现不等概率(三)特点及局限性(1)特点:1简便易行2便于检查3精度与排列标志及指标变化状况相关(2)局限性:1无偏估计量不好找2方差估计很困难3不恰当的抽样会造成偏差很大第二节等概率系统抽样等距抽样一估计量及其性质(一)N=nk的情形:样本均值是总体均值的无偏估计(二)Nnk的情形1.估计量有偏2.估计量的改造(1)采用圆形系统抽样法(2)改变抽取起始单元方法:在1N范围内抽取随机数,用该数除以k的余数为起始单位(3)构造
48、估计量直接对估计量加以改造,构造无偏估计量。二估计量方差的不同表示形式1估计量方差定义式2用样本(群)内方差表示3用样本内相关系数表示4用层的有关参数表示第三节 等概率系统抽样的方差估计一方差估计的形式(一)纯随机抽样估计方法1纯随机抽样估计方法2线性总体方差估计的校正(1)N=nk的情形(2)Nnk的情形(二)分层抽样估计法1合并层:设n为偶数,将样本观测值按顺序两两分成一组,共n/2个层,i=1,2,n/2,即每层有2k个单元,Nh=2k,nh=2。则:,第i组两个观测值的(样本)方差估计为:(y2i-y2i-1)2/2.从而得到方差估计为:2连续差:从第二个样本观测值起,将每个样本观测值
49、与前一个组成一组,共n-1组,i=1,2,n-1,即每层有2k个单元,Nh=2k,nh=2。则:第i组两个观测值的(样本)方差估计为:(y2i-y2i-1)2/2.从而得到方差估计为:(三)其他估计方法1多起点系统抽样法(MSSS):将样本量为n的系统样本分成m个子样本独立的抽取(重复或不重复),每个仍用系统(等距)抽样,样本量为n=n/m,抽样间距为k= mk,每个子样本的起始值独立抽取。在重复抽样的情况下,样本单元也有可能重复。2交叉子样本法(随机组法):将样本量为n(n=mn)抽样间距为k(k=k/m)的系统样本分成m个系统子样本,每个子样本样本量为n,间隔为k。这样的子样本相互不独立,
50、v5不是无偏的。二各种估计量的比较及适用场合v1适用于总体单元排列随机的情形。v3 v4适用范围较广,适用于随机排列、线性趋势及呈周期性变化的总体,因此,在不知道总体单元排列规律时,应选择v3 v4为方差估计量,尤其是线性趋势总体,方差估计更为接近实际。当总体单元比较小时v3更为适用。v5也适用于各类总体,但实施不方便,抽取的子样本数也不能太多,对于线性趋势总体和自相关总体效果也不是很好。第四节 不等概率系统抽样一PS系统抽样及其实施方法1不等概率系统抽样2PS抽样3PS系统抽样实施方法第五节 系统抽样的其他问题一周期性总体的等距抽样1周期性总体2周期性总体的等距抽样二分层等距抽样和等距分层抽
51、样1分层等距抽样2等距分层抽样第三篇估计方法第六章比估计与回归估计第一节 概述一问题的提出1估计比值R:比值中的分子和分母都要从样本中得出。2利用辅助信息: 在有辅助信息的情况下,利用这些信息,提高对主要指标的估计精度。辅助信息可以是本次调查中相关指标的资料,也可以是以前的数据或变量关系资料。二比估计与回归估计的作用及使用条件1比估计与回归估计的作用:(1)提高精度(2)充分利用辅助信息2比估计与回归估计的使用条件(1)调查主要指标与辅助变量之间有良好的线性正相关关系(2)辅助变量的总体总量或均值已知。第二节 比估计一定义及基本性质(一)定义1比估计:也叫比估计量,是指以下三个估计量。 , ,
52、 2比估计是有偏的(二)基本性质1样本量足够大,比估计量为近似无偏估计。2估计量方差:(1)定义式:(2)计算式(3)将比值估计量和方差分别乘以适当的常数倍,由此得到相应的总体均值和总体总量的比估计量及估计量的方差二方差估计及置信限(一)方差估计:注意:(二)置信区间估计1在一定条件下,可用正态分布构造:,2一般情况下的置信区间的精确估计3一般情况下的置信区间估计(和1正态分布构造的区间一样):当n很大时:(一)比估计与简单估计比较1比估计与简单估计效率比较通过deff比较其设计效应2结论:第三节 回归估计一定义1应用条件:Yi与Xi成线性关系2定义:简单随机抽样下,总体均值与总量的线性回归估计量定义为:。其中,可以是实现设定的常数,也可以是从样本中计算得到的某一特定统计量,如样本回归系数。3差估计量:若=1,回归估计量也称差估计量。4回归估
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全国安全合理用药培训课件
- 全员消防安全培训周期课件
- 全员安全教育培训制度课件
- 人工智能核心模块解析
- 重塑医患关系的时代意义
- 全县消防安全大培训课件
- 领导安全考核指南讲解
- 医患关系未来趋势预判
- 景区安全管理清单讲解
- 医患关系案例素材库
- 2025下半年贵州遵义市市直事业单位选调56人考试笔试参考题库附答案解析
- 【MOOC】3D工程图学-华中科技大学 中国大学慕课MOOC答案
- 美国黄石国家公园地质奇观与野生动物
- 2023年上海市中考英语复习(3年中考真题+1年模考题)含详解 阅读理解
- 华为的储能方案
- Python期末测试试卷(A卷)(解析版)
- 《中外学前教育史》复习考试题库(带答案)
- 超星尔雅学习通2020《二十四史名篇导读》章节测试答案 (完整版)
- SAP 各模块表逻辑关系图详解
- 淘金客股票培训教程完整版中
- 航天航空企业介绍工作汇报总结计划PPT模板
评论
0/150
提交评论