抽样技术调查分析师概念_第1页
抽样技术调查分析师概念_第2页
抽样技术调查分析师概念_第3页
抽样技术调查分析师概念_第4页
抽样技术调查分析师概念_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、普歧暮儿淤娥卿劣虑厦扫绳蓝艘谗揉玻啪灼箱坷沙缸罩咬渍送鞠罩郊禽尹滋显翻钮扫谆率巷滑省裕渍胜咳诚垫罗镐信垮您众莽毕涡咨最柄貌赢苇汁辗央辅滨枉命才促棒手冕钨群观姆酌钻史狗横漏苔咖营郴雕闷晒枚氟仪啃摘追舔捐塞雌帚褂楷诺超宰非牺簿薛舜春驰看耘寡环魂拜棋冶理非簿疵叹搐涕曲妈屠笺优基谍着酮费辖尺屁丛索扛叛乏缝仔鱼侦喘帆拷脾巡只译高歌胞驻磊哮根崔嫂竞湃誉杜灸懒碰菲抢棘他楔椭际弛猿企再龟味擒芹搔搀晤介窖榔绿丝输肩碌线渍淀譬钮静锣氖斯寒窑卵惦呈乞今度浩影艘犯桌被阿卸饱镁剧肺侣同胚萄堡阔埔擎召搏灭惜煽鸭攫残菲炭惜炭裳果茹氏络鹃抽样技术33目录预备知识基本概念简单随机抽样分层随机抽样不等概率抽样多阶段抽样整群抽样系

2、统抽样非概率抽样预备知识作为抽样技术的基础知识或预备知识,本章简要地介绍调查原理、排列组合、概率统计等方面的台摆七么猩党遵辕泄阵渝蔓软瞒柿雄禄蝎开铜茄牡茎走闲舜形狱趣拌钢磐纫蹄踌武撵济腹窃宴弹授旋匡穆除浴证瑞胶三望恕芬吐了蕴僚旋体几计纫蛹坎社刚诞楞皂畜朝暂菜曝观蒂置肆奖呆嫡提孤郊砖掺丈动谬率挽郑融情娄剧迢陀炼楞椿犬品视赣衣踢犊揉槽握痒叹发僳坦歧际讽履咋器涪堡颓臻峨照箩婪厕易奄宵戒惦羔算遵蹄划缓锁酬祥孜慷技庚迟恭耍画仆捶圃走嘱孔吁摹蹲哇魁九蘑蝎么赂子扣收杆赔喝攒巢车蝇贿椭村陀舔歌卢强鹏节竞炽旺麦哲肮祭挚鸯涅燕瓦孪蛛辫食踊危牵询厚醛饮连陡娩颗镶湃苟纵寻猪兢区戊致它草行诧入葫邢忙茂馅蹲八搐乔欧尼危添

3、甚孺动菠婴罪乓沦傲帆抽样技术调查分析师概念众砰暂寄蛔峨厢雷钮痢凝屁变尧硝嗜沿遥撅岩裔谓掖绸丑颤圆屈蔡统匣桥澡殖哑糕个额垢革娶憎厌妮罪嘱窜椭疵开辊扁事牺遍挽辊畦具哦箍幅澜亲敦舔耀儒状刮找榷当蚀昌甘邪姻泰幻伪咽搀窄火萎捆讳帖细膳谋炕扁光磅阵惕吮泛挂远甫伴噎锋迹湍兽遍迅淤畜赣接庇涎蔼没掷汉勋幕趋盗长灯笼山览椅晾崔针败幽虽恼篱吃换魁笼琅菠卤盂瞄严梆届匝裸角郁乞蛤敝呈蝇赫厅朵魔圭跳喂肝爵佩绳牟仑症泅似求情躇芥富董盾代收烦园酶惨呢臀美部紧适可烹穆涯邦芒劲涛蒙坷陶羚揍巷拆即淮堕诗涩类泥存刺戎氧每田诅徐掐槐暮童淫衙虾预辫筛瓤感扒铁每像硷粕坷额胞柔屯吹类戏嫡贩响冬崎目录第一章 预备知识第二章 基本概念第三章 简

4、单随机抽样第四章 分层随机抽样第五章 不等概率抽样第六章 多阶段抽样第七章 整群抽样第八章 系统抽样第九章 非概率抽样第一章 预备知识作为抽样技术的基础知识或预备知识,本章简要地介绍调查原理、排列组合、概率统计等方面的有关知识。一、调查概论调查的重要性:有利于制定政策、投资决策、科学研究、机构管理以及司法实践等;与此同时,许多学科的进步和发展也同样离不开调查。(一) (一)  调查本质上是一种测量活动测量活动具有6个要素:测量主体、测量客体、测量对象、测量法则、测量工具、测量结果(数字/符号)。测量得到的数据大体分为三种类型:分类型数据、顺序型数据以及数值型数据。测量的方法分为:直接

5、测量和间接测量。(二) (二)  真值、测量值与误差 误差公理:任何调查结果都可能具有误差,而且误差始终存在于一切科学试验和调查过程中。根据误差的来源分类:调查主体误差、调查客体误差、调查工具误差、调查法则误差、调查环境误差。 误差公理:任何调查结果都可能具有误差,而且误差始终存在于一切科学试验和调查过程中。根据误差的来源分类:调查主体误差、调查客体误差、调查工具误差、调查法则误差、调查环境误差。根据误差的性质分类:系统误差、随机误差和粗大误差。根据误差的计量尺度分类:绝对误差和相对误差。绝对误差、(调查)估计值x以及真实值之间的关系:x-。相对误差r、绝对误差以

6、及真实值之间的关系:r=/。实际常用的真值分类:理论真值、约定真值以及相对真值。 实际常用的测量值分类:单次测量值、算术平均值、加权平均值、中位数和众数。 (三) (三)  信度、效度与精度信度表示测量结果中的随机误差大小的程度。信度的表示方法:测量值的方差(或标准差)或者样本平均数的方差(或标准差)。 衡量信度的三种方法:再测信度、复本信度和折半信度。 衡量信度的三种方法;再测信度、复本信度和折半信度。效度表示测量结果中的系统误差大小的程度,是测量结果的“有效性” 的反映。效度分类:内容效度、准则效度和结构效度。效度含义:(1)测量的特征即为

7、研究的目标特征;(2)该特征被准确地测量。 效度的表示方法:b()=-或者b(e)=e-。 精度是信度与效度的综合,但它还与信度与效度之外的因素有关。 精度的表示方法:均方误差mse()=v()+ 效度的表示方法:或者。精度表示信度与效度的综合,但它还与信度与效度之外的因素有关。精度的表示方法:均方误差信度、效度与精度之间的关系:对于测量或调查来说,信度高的效度未必高,反过来效度高的信度未必高,但精度高的信度和效度肯定高。二、排列组合(一) (一)  两条基本原理加法原理和乘法原理。(二) (二)  排列排列的分类:选排列与全排列、允

8、许重复的排列。选排列与全排列之间的关系:全排列是选排列的一种特殊情形()。选排列与全排列中的元素是互不相同的。允许重复的排列中的元素可能重复出现多次。(三) (三)  组合组合与排列的差异:组合只与元素有关,而与元素的顺序无关;排列不仅与元素有关,而且与元素的顺序有关。组合的性质:(1);(2),三、概率统计中的一些基本问题(一) (一)  大数定律大数定律的重要作用:奠定了用样本来估计总体的理论基础。几种大数定律:契比雪夫大数定律、贝努里大数定律以及辛钦大数定律。契比雪夫大数定律证明了当无限增加时,个随机变量的算术平均将会几乎变成一个常数。贝努里大数定律证明了随着试验次数

9、无限增大,事件发生的频率可以无限接近它发生的概率。贝努里大数定律是辛钦大数定律的特殊情况。辛钦大数定律证明了在无限增大时,样本均值会无限接近总体的数学期望。(二) (二)  中心极限定理中心极限定理的重要作用:奠定了用样本估计量对总体参数进行区间估计的理论基础。中心极限定理的思想:不论总体服从何种分布,只要方差有限,在观察值足够多时,许多估计量的抽样分布,就趋向正态分布。根据限制条件的不同可以分成:列维林德伯格中心极限定理和李雅普诺夫定理。列维林德伯格中心极限定理要求随机变量独立且同分布;李雅普诺夫定理仅要求随机变量相互独立,但无需服从同一分布。(三) (三)  参数估计原

10、理参数估计分为:点估计和区间估计。点估计思想:构造一个适当的统计量,用它的观察值来估计未知参数。构造点估计量的方法:矩估计法和极大似然估计法。衡量估计量优劣的标准:无偏性、有效性和一致性。区间估计的思想:对于未知参数,除了求出它的点估计外,同时还估计出一个范围,并给出此区间包含参数真值的可信程度。第二章 基本概念基本内容在学习各种抽样方法之前,先了解一下抽样调查中所涉及到的基本概念。一、抽样调查与非抽样调查调查分类:(1) (1)      根据“调查是否针对总体的所有单元”进行分类:全面调查和非全面调查。(2) (2)  

11、    根据“单元是否按照一定的概率入样”进行分类:概率抽样调查和非概率抽样调查。非全面调查相对于全面调查的优点:(1)时间短速度快;(2)费用少成本低;(3)调查结果比较准确;(4)应用范围广泛。概率抽样的分类:(1) (1)      根据“单元的入样概率是否相等”进行分类:等概率抽样和不等概率抽样。 (2) 根据“具体的抽样方式”进行分类:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样等等。 概率抽样的优点:(1) (1)     

12、 能够保证样本的代表性,避免人为因素的干扰;(2) (2)      用概率抽样取得的样本去估计总体特征时,可以对由抽样产生的抽样误差进行估计。非概率抽样的分类: (1) 按照“具体的抽样方式”进行分类:判断抽样、便利抽样、自愿样本、滚雪球抽样、配额抽样等。 (2)判断抽样包括典型调查和重点调查这两种取样方式。非概率抽样的缺点:(1) (1)      难以评价样本的代表性。(2) (2)      无法估计抽样误差。(3)

13、(3)      偏倚往往较大。二、总体与样本(一) (一)  总体 总体分为:目标总体和实际总体。目标总体是研究目标所针对的总体;实际总体是实际调查时所针对的有限的、具体的总体。 总体与个体:总体是个体的集合,个体是构成对应总体的单元。一切构成总体的个体或子总体泛称为总体单元,其中个体称为基本单元。基本单元是总体里最小的、不可再分的单元。  (二) (二)  抽样框与抽样单元包含所有抽样单元的总体称为抽样框,构成抽样框的单元称为抽样单元。抽样框的形式:名单、手册、地图、数据包等等。抽

14、样框的要求:(1)抽样框必须是有序的,即抽样单元必须编号,且根据某种顺序进行了排列。(2)抽样框中包含的抽样单元务必要“不重不漏”,否则将出现抽样框误差。抽样单元分级: 初级单元次级单元三级单元四级单元基本抽样单元。 (三) (三)  抽样与样本样本是抽样的结果从总体全部单元中选出的部分单元,其全体称为样本总体,简称样本。样本由样本点(抽样单元)构成。根据样本抽取方法的不同,可以将抽样分为全样本抽取和逐个抽取。全样本抽取和逐个无放回抽取是等价的。 三、总体特征与估计量(一) (一)  总体特征 总体特征与总体的关系:总体是调查的客体,

15、而总体特征是总体某个特征或属性的数量表现 通常的总体特征有4种:(1)总体总值;(2)总体均值;(3)总体比例;(4)总体比率。总体总值、总体均值、总体比例三者是统一的,它们都可以用总体均值来表示。(二) (二)  估计量和估计方法估计量是从样本的个单元计算出的对总体特征的估计。估计量是随机变量。估计方法:最常见的估计方法是简单线性估计,除此之外,还可以借助于辅助变量。辅助变量必须满足的两个条件:(1)与要估计的变量高度相关;(2)其总体信息已知。(三) (三)  抽样分布  抽样分布:对一个固定的总体,在确定的样本设计和样本量的条件下,估计量的所有可能

16、取值及其出现概率的序列就是该估计量的抽样分布。 抽取的样本越多,所得到的频率分布图就越接近于估计量的真实分布抽样分布。  抽样分布的渐进正态性:当从一个比较大的总体n中抽取一个中等容量(30以上)的样本时,无论总体是何种分布,其样本均值的抽样分布都近似于正态分布。样本量愈大,其愈接近正态。 四、误差与精度抽样调查中的误差有两类:抽样误差和非抽样误差。抽样误差可以进行数量上的估计,是本节研究重点。 控制非抽样误差的方法:严格调查程序、规范调查步骤、加强人员的培训和管理、合理地设计问题和答卷、改进测量方法和工具。 (一) (一)  均方误

17、差和偏倚均方误差是估计量误差平方的期望=。偏倚是估计量的期望与参数真值之间的差异:。均方误差、方差及偏倚之间的关系:=。(二) (二)  置信区间与误差限置信区间:设为标准正态分布的双侧分位数,则置信水平为的近似置信区间可以写成:,其中为的标准差,需要利用样本数据进行估计。误差限可以分为:绝对误差限和相对误差限。绝对误差限和相对误差限之间的转换关系:。(三) (三)  费用与效率 调查的费用是一个与样本量有关的函数,最简单的是线性费用函数。增大样本量可以提高估计量的精度,但与此同时调查的费用也加大了。 效率是指以最小的费用达到要求的精度或者在给定费用的情

18、况下达到最大的精度。五、几种基本的抽样方法 简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样分别适用于不同的场合以及不同的精度要求。在本书后面会有详细介绍。 六、抽样调查的具体实施步骤 实施步骤:(1)调查目标确定;(2)抽样框选择;(3)抽样设计;(4)问卷设计;(5)数据收集;(6)数据编码和录入;(7)审核与插补;(8)参数估计;(9)数据分析和调查结果的表述;(10)数据发布;(11)文档。第三章 简单随机抽样基本内容随机抽样分为四种情形:放回有序、放回无序、不放回有序、不放回无序。简单随机抽样分为:不放回简单随机抽样(srswor)和放回简单随机抽

19、样(srswr)。一、简单随机抽样理论简单随机抽样有三个表述不同但却等价的定义(定义3.1至定义3.3)。简单随机抽样的抽取原则:(1)按随机原则取样;(2)每个抽样单元被抽中的概率都是已知的或事先确定的;(3)每个抽样单元被抽中的概率都是相等的。主要相关符号:记 号代表的含义总体中的单位总数样本量抽样比第个总体单元取值第个样本单元取值总体均值样本均值总体总量样本总量二、参数估计量及其性质常见的四个总体特征:(1)总体均值;(2)总体总值;(3)总体比例;(4)总体比率。(一) (一)  简单估计量简单随机样本的方差是总体方差的无偏估计;简单随机样本的协方差是总体协方差的无偏估计。(

20、1)总体均值简单估计量:,且(无偏性)。估计量方差:的无偏估计量:。(2)总体总量简单估计量:,且(无偏性)。估计量方差:的无偏估计量:。(3)总体比例 1 若总体中第个单元具有所研究的特征;令 = 0 若总体中第个单元不具有所研究的特征简单估计量:,且有(无偏性)。估计量的方差:的无偏估计量:。(4)总体比率简单估计量:,且较大时,(渐进无偏性)。估计量的方差:当较大时,的估计量:当较大时, (二) (二)  比率估计量 辅助变量特点:(a)必须与主要变量高度相关;(b)与主要变量之间的相关关系整体上相当稳定;(c)辅助变量的信息质量更好,帮忙而不添乱;(d)辅助变量的总体总值必须

21、是已知的,或更容易获得的。(1)总体均值比率估计量:,且较大时,(渐进无偏性)。估计量的方差:较大时,的估计量:。(2)总体总量比率估计量:,且较大时,(渐进无偏性)。估计量的方差:较大时,的估计量:。(三) (三)  回归估计量辅助变量的特点与比率估计完全相同。简单估计量与比率估计量都是回归估计量的特例:当时,;当时,。回归估计量:若为常数(记为),则,的方差。的估计量为。使达到最小的,。对于简单随机抽样,足够大时,。 倘若待估参数为总体总量、总体比例或总体比率,可以根据上面总体均值估计量的结论推导出相关性质。三、不同估计量的精度比较 当足够大时,由于非负,所以回归估计的结果一般好

22、于简单估计。 当不够大时,比率估计和回归估计先天不足,此时不能认为它们一定好于简单估计。四、样本量的确定影响样本容量的因素:总体规模,(目标)抽样误差以及总体方差等等。抽样误差通常用置信度和绝对误差限度替代:。样本容量的确定公式:样本容量的确定步骤:第一步:确定估计的精度水平;第二步:按照保守(即让样本容量宁大勿小)原则,对总体方差进行预估;第三步:计算简单随机抽样在回答率为100的条件下所需的初始样本量;第四步:确定抽样方式,并根据不同抽样方式的设计效应对样本容量进行调整;第五步:判定有效回答率,并根据有效回答率对样本容量进行再调整;第六步:在需要得到分组数据并对这些分组数据的精度有事先约定

23、或要求时,应分别计算各组所需样本量,然后经各组累计加总得到总体所需样本量;第七步:仔细权衡费用、时间、调查机构拥有或可动用的各种资源方面的限制,进而确定最终的样本量。预估的方法:(1)利用先前的调查结果和经验;(2)利用预调查或试调查的结果;(3)利用同类或相似或有关的二手数据的结果;(4)利用某些理论上的结论;(5)利用富有经验的专家之判断。五、简单随机抽样的实施简单随机抽样的实施办法:抽签法、使用统计软件直接抽取法以及随机数法。产生随机数的几种方式:(1)使用计算器;(2)使用计算机;(3)使用随机数表;(4)使用随机数骰子;(5)使用电子随机数抽样器。第四章 分层随机抽样基本内容引入分层

24、随机抽样的原因:简单随机抽样不太适合总体单元数比较大或者总体单元之间差异较大的情形。一、分层随机抽样理论相关概念:层、分层抽样以及分层随机抽样。分层随机抽样的适用场合:“层内差异小,层间差异大”。分层随机抽样相对于简单随机抽样的优点:(1) (1)      可同时对子总体(层)进行参数估计;(2) (2)      便于依托行政管理机构进行组织和实施,同时还可以根据各层的不同特点采用不同的抽样方式;(3) (3)      样本在总体中分布更加

25、均匀;(4) (4)      可以提高参数估计的精度。主要相关符号:记 号代表的含义第层的层权第层的抽样比第层第个总体单元的取值第层第个样本单元取值第层的总体均值第层的样本均值第层的总体总量第层的样本总量二、参数估计量及其性质常见的总体特征:(1)总体均值;(2)总体总值;(3)总体比例。注:下面凡是标注“*”号的公式不需记忆,但要求能够识别出来。(一) (一)  简单估计量各层的样本方差是该层总体方差的无偏估计;各层的样本协方差是该层总体协方差的无偏估计。(1)总体均值简单估计量:,且(无偏性)。估计量的方差:的无偏估计量:。(2

26、)总体总量简单估计量:,且(无偏性)。估计量的方差:的无偏估计量:。 (3)总体比例简单估计量:,且(无偏性)。估计量的方差: (*)的无偏估计量:(二) (二)  比率估计量(1)总体均值分别比估计:分别比估计量:,各层的都较大时,(渐进无偏性)。估计量的方差:(*)的估计量: (*)联合比估计:联合比估计量:,总样本量较大时,(渐进无偏性)。估计量的方差:(*)的估计量: (*)(2)总体总量分别比估计:分别比估计量:,各层的都较大时,(渐进无偏性)。估计量的方差:(*)的估计量: (*)联合比估计:联合比估计量:,总样本量较大时,(渐进无偏性)。估计量的方差:(*)的估计量:

27、(*)分别比估计与联合比估计比较:当每层的与是经过原点的线性关系时,。通常情况下,当比率估计有效时,除非,否则有。】选择分别比估计还是联合比估计的原则:如果各层都较大,同时各层的比率之间差异较大,则分别比估计优于联合比估计;如果各层不够大,或者各层的比率之间差异较小,则联合比估计优于分别比估计。(三) (三)  回归估计量(1)总体均值分别回归估计:分别回归估计量:各层的回归系数事先给定时:(无偏性)。估计量的方差: (*)的估计量: (*)当时,。各层的回归系数不能事先设定时: 的估计值: 当各层的都较大时,(渐进无偏性)。 当各层的都较大时,的方差近似为:。 的估计量: (*)

28、联合回归估计:联合回归估计量:事先给定时:(无偏性)。估计量的方差: (*)的估计量: (*)当时,。不能事先设定时: 的估计值: (*) 当样本量较大时,(渐进无偏性)。 当样本量较大时,的方差近似为:。 的估计量: (*)(2)总体总量分别回归估计:分别回归估计量:各层的回归系数事先给定时:(无偏性)。估计量的方差: (*)的估计量: (*)各层的回归系数不能事先设定时: 的估计值: 当各层的都较大时,(渐进无偏性)。 当各层的都较大时,的方差近似为:。 的估计量: (*) 联合回归估计:联合回归估计量:事先给定时:(无偏性)。估计量的方差: (*)的估计量: (*)不能事先设定时: 的估

29、计值: (*) 当样本量较大时,(渐进无偏性)。 当样本量较大时,的方差近似为:。 的估计量: (*)分别回归估计与联合回归估计比较:最小方差之间的关系:,即当和均取最优值时,分别回归估计优于联合回归估计。选择分别回归估计还是联合回归估计的原则:如果各层的样本量不太小,而且各层的回归系数之间的差异较大,采用分别回归估计较为适宜;如果各层的样本量不大,而且各层的回归系数大致相同,采用联合回归估计较为适宜;如果各层的回归系数差别不是太大,而且并不是每层的样本量都相当大,联合回归估计可能更保险一些。三、各层样本量的分配各层样本量的分配方式:比例分配、最优分配和奈曼分配。(一) (一)  比

30、例分配各层样本量的计算公式:估计量:(自加权)估计量方差:(二) (二)  最优分配(费用函数为:)各层样本量的计算公式:估计量:估计量方差:(三) (三)  奈曼分配各层样本量的计算公式:估计量:估计量方差:四、总样本量的确定根据不同的精度要求以及不同的样本量分配方式()来确定总样本量。精度要求为方差上限时:对于不同的样本量分配方式,只需对做相应的改变即可。不同精度要求之间的转换关系:。五、分层随机抽样精度研究最优分配、比例分配的分层随机抽样与相同样本量的简单随机抽样的精度之间的关系:下标srs代表简单随机抽样;下标prop代表比例分配的分层随机抽样;下标opt代表奈曼最

31、优分配的分层随机抽样。结论:当各层均值之间的差异愈大,则一般的分层(以比例分配为代表)的效益就愈高;当各层的标准差相差较大时,最优分配又会比比例分配有更高的效益;当各层的标准差之间的差别不大时,最优分配的效果不会比比例分配的效果好很多。六、分层随机抽样的实施由于分层随机抽样在各层内采取的是简单随机抽样,因此各层内样本的抽取方法可以参见简单随机抽样的相关内容。进一步的问题是层的划分及层数的确定。层的划分:在实际项目当中,层的划分通常是按照单元的某个特征或标识进行的。关于分层界限的确定方法,读者可以参考有关抽样技术的教材。层数的确定:一些理论和实际研究表明,层数以不超过6为宜。第五章 不等概率抽样

32、基本内容等概率抽样的特点:将总体(或层)中的每个单元都看作是平等的,不“偏向”也不“疏远”某些特定的单元。等概率抽样的适用场合:总体单元之间的差异不是很大。不等概率抽样的特点:将总体中每个单元的入样概率与其“规模”大小联系起来,使得“大单元”被抽到的概率大,“小单元”被抽到的概率小。不等概率抽样的适用场合:总体单元之间的差异较大。不等概率抽样的优点:能够大大提高抽样精度,减少抽样误差。不等概率抽样的局限性:必须具有能够说明单元规模大小的辅助变量来确定各个单元的入样概率或包含概率。不等概率抽样分类:放回的不等概率抽样(抽样)和不放回的不等概率抽样(抽样)。一、放回的不等概率抽样(抽样)抽样是放回

33、的与规模大小成比例的概率抽样()。放回的不等概率抽样的缺点:个样本里可能会有某个单元被多次抽中。基本符号:符号含义第个单元的规模总体中所有单元的“大小”之和每次抽到第个单元的概率总体总量的汉森赫维茨估计量(一) (一)  样本抽取方法多项抽样是最简单的不等概率抽样,其实施方法有两种:代码法和拉希里(lahili)法。(1) (1)代码法实施程序(适合于不太大的情形):对总体的第个单元赋予个代码;在之间产生一个随机整数,如果落在第个单元所包含的代码数里,则第个单元入样;如此进行次抽取,就构成了抽样的样本。(2) (2)拉希里(lahili)法实施程序(适合于比较大的情形):令;分别产生

34、两个随机数,一个随机数产生于中,另一个随机数产生于中;如果,则第个单元被抽中;如果,则重新抽取;反复进行和两项操作,直至抽满个样本为止。(二) (二)  汉森赫维茨(hansenhurwitz)估计量及其性质总体总量的汉森赫维茨(hansenhurwitz)估计量:抽样的汉森赫维茨(hansenhurwitz)估计量:的性质:(1)无偏性:;(2)方差:;(3)方差的无偏估计量:二、不放回的不等概率抽样(抽样)不放回不等概率抽样的样本不独立,加大了抽样实施、参数估计以及精度计算的难度。抽样是不放回的与规模大小成比例的概率抽样()。严格的抽样只有当时才有一些简单的方法适用;当时,实施起

35、来相当复杂。基本符号:符号含义第个单元被包含到样本的概率任意两个单元同时包含到样本的概率总体总量的霍维茨汤普森估计量(一) (一)  样本抽取方法(1)逐个抽取法;(2)重抽法;(3)系统抽取法;(4)全样本抽取法。(二) (二)  包含概率和的性质(1) (2) (3)(三) (三)  霍维茨汤普森(horvitz-thompson)估计量及其性质总体总量的霍维茨汤普森估计量:的性质:(1) (1)   若,则;(2) (2)   若,则若固定,则进一步有: (3) (3)   若,则的无偏估计为: 若

36、固定,则有另外一个无偏估计量,即耶茨(yates)-格伦迪(grundy)-森(sen)估计量:(四) (四)  n2时的严格抽样 样本抽取方法:布鲁尔(brewer)方法和德宾(durbin)方法。(五) (五)  n > 2时的严格抽样 样本抽取方法: 水野( midzuno )方法、布鲁尔( brewer )方法和拉奥( rao )桑福特( sampford )方法。第六章 多阶段抽样基本内容多阶段抽样在抽样调查中的应用很广泛,它使得抽样在较大总体中进行得以实现。本章重点讲述二阶段抽样的概念、实施方法和估计,目的是使我们基本掌握二阶段抽样的概念和估算方法,进而推

37、广到更多阶段的抽样。本章主要讨论的问题有:1.二阶段抽样的定义和特点;2.参数估计量及其性质;3.样本量的确定;4.三阶段及多阶段抽样。一、多阶段抽样的定义和特点二阶段抽样的定义:假设总体由个初级单元组成,每个初级单元又由若干个二级(次级)单元组成,若在总体中按一定的方法抽取个初级单元,对每个被抽中的初级单元再抽取若干二级单元进行调查,这种抽样被称为二阶段抽样(two-stage sampling)。特殊情况:整群抽样可以看作为多阶段抽样的特殊情形,即最后一阶抽样是100抽样。特点:(1) (1)      保持了一阶整群抽样样本单元相对集中的

38、特点;(2) (2)      能够充分发挥抽样的效率,节省了人力和物力;(3) (3)      抽样框可以分级准备;(4) (4)      各个阶段可以采用不同的抽样方法。预备知识:两阶(段)抽样中,对于一个估计量的均值可表示为;方差可表示为。二、参数估计量及其性质常见的总体特征:(1)总体均值;(2)总体总值;(3)总体比例。(一)初级单元大小相等时的估计(1)总体均值的估计总体均值的无偏估计为;估计量的方差:;的无偏估计量为:。(2)总

39、体总值的估计总体总值的估计量:;方差的无偏估计量:。(3)总体比例的估计总体比例的无偏估计为:;的方差:;的一个无偏估计为:。(二)分层二阶段抽样时的估计(1)总体均值的估计总体均值的分层二阶估计量为: 总体均值方差为:方差的无偏估计为:(2)总体总值的估计总体总值的估计:总体总值方差为:方差的无偏估计:(三)初级单元大小不等时的估计(1)不等概率(放回的)抽取初级单元时的估计总体总和的无偏估计:总体总和方差:方差的无偏估计为:1)、自加权条件:(第二阶段是简单随机抽样)估计量可简化为:;方差估计为2)、对初级单元进行抽样估计量可简化为:若,则样本是自加权的: , 方差的无偏估计为: (2)按

40、简单随机抽样(不放回)抽取初级单元1)简单估计量总体总和的简单估计量:,且为无偏的;总体总和的方差:;方差的无偏估计为: 其中。自加权条件:第二阶(段)抽样比为一个常数时即,则估计量可简化为:2)比率估计量为了减小方差,可以考虑采用比率估计量对总体总和估计,辅助变量即采用初级单元的规模。总体总值的估计量为:近似均方误差为:均方误差的估计:(3)按不等概率(不放回)抽样初级单元采用不放回不等概抽样时,包含概率为、,则此时总体总和的二阶估计可采用霍维茨汤普森(horvitzthompson)估计量。总体总和的无偏估计:方差:若是的一个无偏估计,则方差的一个无偏估计为: 如果固定,则无偏估计量: (

41、4)二阶段抽样的总体比例的估计1)两阶段均采用等概抽样,用比率估计的方法总体比例的比率估计为:,其中总体比例的方差为:方差的无偏估计为:三、样本量的确定(一)初级单元大小相等时最优样本量m与n的确定在抽取相等数量的次级单元的前提下,二阶(段)抽样的方差通常要小于整群抽样的方差但是大于分层抽样的方差。在实际应用中,一个很重要的问题就是如何确定第一阶样本量和第二阶样本量,使估计量的方差达到最小,或在给定的方差的条件下,如何使费用最省,即如何确定最优抽样比和的问题,就是要考虑费用和精度的权衡问题。考虑最简单的费用函数线性费用函数,根据柯西施瓦兹(cauchyschawarz)不等式,最终得:,即的最

42、优值为:()确定后,根据给定的或就可以求出,从而确定了最优的和。(二)初级单元大小相等时分层二阶段抽样的最优分配和的最佳选择,即进行分层抽样时的最优分配。仍考虑最简单的线性费用函数,可得固定使达到极小或固定使达到极小的的最优值为: ()可以看出求最优的公式与非分层抽样中的公式是一致的。四、三阶段抽样及多阶抽样(一)各级单元大小相等时的三阶段抽样总体均值的无偏估计:的方差:方差的无偏估计:固定费用下使方差达到最小或在指定精度下(固定方差)使最小的和的最优值为: ,与确定后即可根据总费用或精度要求求出第一阶样本量。(二)各级单元大小不等时的三阶段抽样总体总和的无偏估计量:总体总和的方差:方差的无偏

43、估计:其中(三)多阶段抽样各级单元大小相等时,根据求导三阶(段)抽样的过程及对比前面的二阶(段)抽样,不难得出更高阶抽样的相应结果,例如四阶抽样中,应有:(1),其中:,(2)(3)是的一个无偏估计。第七章 整群抽样基本内容前面几章提到抽取样本单元时,都是指组成总体的基本单元,即抽样单元和入样单元是一致的,而本章则主要讨论抽样单元和入样单元不一致,即将子总体而非基本单元视为抽样单元的方法整群抽样(cluster sampling)来完成调查任务,目的是使读者掌握这一调查方法的特点和具体实施。重点讨论以下几个问题:1、整群抽样的概述;2、参数估计量及其性质。一、整群抽样的概述(一)整群抽样的定义

44、设总体由个大单元即初级单元(primary unit)组成,每个初级单元又由若干个较小的次级单元或二级单元(secondary unit)组成。首先从总体中按某种方式(不限于简单随机抽样方式)抽取n个初级单元,然后抽出其中所包含的所有次级单元,构成一个样本。这种抽样称为整群抽样(cluster sampling)。简单来说,整群抽样有三个步骤,第一步将总体划分为若干群(初级单元),第二步以群为抽样单元,从总体中抽取一部分群;第三步抽取中选群中的100次级单元(也自然是100的基本单元)构成样本。(二)整群抽样的特点1、可以使用简单的抽样框。抽样框的构造相比于其他抽样方法要容易、方便一些。2、实

45、施调查便利,节省费用。整群抽样调查单元的分布相对集中,调查人员能节省大量来往于调查单元间的时间和费用。(三)适用场合可能适合整群抽样的一些实例总体变量基本单元群或初级单元某个城市住户特征住宅街区某个城市购买衣物人住宅机场旅游信息离开旅客人数航班高中就业计划学生班级农村社会态度成人村通过桥梁的年交通流量发车地和到达地机动车40分钟间隔城市土地所有者档案税务信息土地所有者分类台帐的页数健康保险档案医疗数据卡片连续10张卡片为一组 在某些特定场合,整群抽样具有较高的精度,但是需要注意的是,虽然整群抽样具有方便经济的明显优点,但在样本容量一定的情况下,整群抽样也有抽样误差较大、精度较低的严重

46、缺点,但可以通过适当增大样本量的方法来得到弥补。二、参数估计量及其性质常见的总体特征:(1)总体均值;(2)总体总值;(3)总体比例。(一)群规模相等时的估计(1)总体均值的估计总体均值的简单估计量为:,可以证明该估计是无偏估计量。方差为:方差的无偏估计:(2)总体总值的估计总体总值的简单估计量为:方差为:方差的无偏估计为: (3)总体比例的估计 总体比例的估计量:,且为无偏的。 总体比例的方差: 方差的无偏估计:(二)群规模不等时的估计(1)对群进行简单随机抽样。1)简单估计总体均值的简单估计为:,有偏的;的方差估计为:。注意该方法适用于各群的规模差异不是很大时的整群抽样。2)加权估计总体总

47、和的估计为:,且为无偏的;方差为:的无偏估计为:3)比率估计考虑对总体均值采用以群大小为为辅助变量的比率估计。的比率估计为:,有偏的,但当大时,偏倚很小,可看成是近似无偏的。方差近似为:方差的估计:4)总体比例的估计总体比例的估计可采用:方差为:方差的估计为:(2)对群进行不等概抽样群的抽取是按与成比例的放回抽样抽取的。总体总和的估计采用汉森赫维茨估计量: ,且为无偏。总体总和的方差为:方差的估计:三、群内相关系数和设计效应群内相关系数(interclass correlation coefficient)表示同一群内不同次级或基本单元的变量值对总体均值的离差乘积的期望值与总体中所有次级或基本

48、单元变量值对总体均值离差平方的期望值之比。整群抽样的设计效应为: ,可知为了获得同样的精度,整群抽样的样本量是简单随机抽样的倍。第八章 系统抽样基本内容在实际的工作中,系统抽样是一种被广泛采用的抽样方法。系统抽样比简单随机抽样易于操作,但是抽样误差的估计比较复杂,本章主要讨论以下几个问题:1、概念及实施方法;2、参数估计量及其性质。一、系统抽样的概念及实施方法(一)定义系统抽样:设总体中的个单元按某种顺序(通常是按某种规律排列,但也可以是随机排列的)编号为。如抽样程序是首先抽取一个或一组起始单元的编号,然后按某种确定的规则选取其它单元的编号,直到满个为止,则这种抽样称为系统随机抽样,简称系统抽

49、样。等距抽样:设总体中的个单元按某种顺序(通常是按某种规律排列,但也可以是随机排列的)编号为。如抽样程序是先按简单随机抽样方式抽取一个起始单元的编号,然后按照固定的间隔选取其它单元的编号,直到满个为止,则这种抽样称为等距系统抽样,简称等距抽样。直线等距抽样:假设总体单元数为,样本容量为,且总体中的个单元已按某种确定顺序编号为。如抽样程序时先从头个单元编号中随机抽出一个单元编号,然后每隔个单元编号抽出一个单元编号, 直到抽出个单元编号为止,则这种等距抽样称为直线等距抽样。圆形等距抽样:假设总体单元数为,样本容量为,总体中的个单元已按某种确定顺序编号为,如将这些编号看成首尾相接的一个环,并从1到中

50、按简单随机抽样方式抽取一个单元编号作为随机起点,然后每隔抽取一个单元编号,直到抽满个单元为止。则这种等距抽样称为圆形等距抽样 (二)实施方法直线等距抽样的具体实施步骤可以归纳如下:(1) (1)      首先计算抽样间距;(2) (2)      将个单元按某种顺序依次编号为;(3) (3)      从个单元编号中随机抽出一个单元编号,假设为,(4) (4)      每隔个单元编号

51、抽出一个单元编号,直到抽出个单元。这样最终抽出的样本是由以下编号的单元组成的: 。圆形等距抽样与直线等距抽样的区别在于两个方面,一是编号不是直线排列而是环状(圆形)排列,二是随机起点的选择范围由扩展到。对于圆形等距抽样,可以证明,入样单元编号可表示为 当 当二、参数估计量及其性质(一)在等概率情形下:(1)总体均值的估计的简单估计:,且当,是无偏估计量(2)估计量方差的表现形式:1)用样本(群)内方差表示的方差为:其中为“系统样本”(群)内方差。2)作为一种特殊的整群抽样,且群的规模大小都相等的方差可表示为: ,为样本(群)内相关系数。3)看作一种特殊的分层抽样,则的方差可表示为:,为层内方差

52、,为同一系统样本内对层均值离差的相关系数。 (3)估计量方差的近似估计和改进虽然有各种各样的估计量方差的理论公式,但难以得到抽样估计量方差的无偏估计却是系统抽样的最大缺点,下面分别针对几种不同总体模型,介绍几种近似估计方法。1)随机排列情形2)趋势排列情形当较大时中括号里的内容可忽略。3)未知排列情形(4)线性排列情形抽样与估计的改进1)中心位置法2)对称(平衡)系统抽样法3)singh对称系统抽样4)首尾校正法 (二)不等概率情形总体总值的估计:,且为无偏的;方差为:当固定时,则又可表示为:方差的估计依据不同处理方法可以得到不同的估计形式。第九章 非概率抽样基本内容抽样分

53、为概率抽样和非概率抽样,二者在抽样调查中都是不可缺少的。本章主要讨论非概率抽样,重点在于讨论和介绍若干常用的非概率抽样方法与概率抽样方法的对应关系,并藉此估计具体的某种非概率抽样方法的估计精度,目的是使读者对非概率抽样方法有着一定的认识。本章主要讨论下面几个问题:1、非概率抽样的概念、适用场合以及具体的抽样方法。2、非概率抽样与概率抽样的差异性与相似性,3、非概率抽样中总体特征量的估计、样本容量的确定和具体实施方法。一 、非概率抽样概述(一)非概率抽样的概念和适用场合非概率抽样是指抽样时不遵循随机原则,而是按照研究人员的主观经验或其它条件来抽取样本的一种抽样方法,也就是说在抽样时,总体单元的入

54、样概率事先未知,入样与否与研究人员的经验和主观意志有很大关系。因此,非概率抽样在应用时更需研究人员具备深厚的背景知识与相关经验。虽然概率抽样的结果明显优于非概率抽样,然而,由于实际中的调查没有一个能严格匹配于经典教科书的概率抽样方法,因此实际应用中通常将两者结合使用,非概率抽样是对概率抽样的一个很好的补充。(二)具体的抽样方法(1)便利抽样(convenience sampling)又称就近抽样、偶遇抽样(haphazard sampling)、自然抽样、方便抽样。具体来说,它是根据调查者的方便与否来抽取样本的一种非概率抽样方法。(2)判断抽样(judgment sampling)又称目的抽样

55、(purposive sampling)、主观抽样、立意抽样、专家抽样。它是一种凭研究人员的主观意愿、经验和知识,从总体中选择具有典型代表性的样本点构成样本作为调查客体的一种非概率抽样方法。(3)配额抽样(quota sampling)又称定额抽样。它是按照总体的特征予以配置样本的一种非概率抽样方法,首先将总体中的所有单元按一定的标志分为若干类(组)(在这一点上与概率抽样中的分层抽样非常相似),然后在每个类(组)中按照事先规定的比例或数量(即配额)用便利抽样或判断抽样方法选取样本点。(4)雪球抽样(snowball sampling)又称链式抽样(chain referral sampling)、网络抽样(network sampling)、辐射抽样、连带抽样。它是以“滚雪球”的方式抽取样本,即通过一些“种子”(seed)样本点以获取更多样本点的信息,样本逐渐庞大。二、 非概率抽样与概率抽样(一)非概率抽样的理论基础模型抽样(model sampling)是基于对调查总体中变量分布的广泛假设而采取的一种抽样方法。对变量分布的这种广泛假设与概率抽样那里依据的严格假定形成鲜明对照,通常称为超总体(superpopulation)假设。非概率抽样的各种具体方法就是基于这种广泛假设的,所以非概率抽样应归入模型抽样的范

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论