抽样技术期末知识点(附考点大题)_第1页
抽样技术期末知识点(附考点大题)_第2页
抽样技术期末知识点(附考点大题)_第3页
抽样技术期末知识点(附考点大题)_第4页
抽样技术期末知识点(附考点大题)_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选优质文档-倾情为你奉上抽样期末知识点汇总一 绪论(一)抽样调查抽样调查是指非全面调查的总称。只要是从研究的对象中抽取部分单位加以调查,用来说明全体,就统称为抽样调查。(广义)选样方法:非概率抽样&概率抽样1. 非概率抽样抽样方法:目的抽样、判断抽样、任意抽样、方便抽样、配额抽样(盖洛普民意测验、自愿样本原因:(1)受客观条件限制,无法进行严格的随机抽样。(2)为了快速获得调查结果。(3)在调查对象不确定,或无法确定的情况下采用,例如,对某一突发(偶然)事件进行现场调查等。(4)总体各单位间离散程度不大,且调查员具有丰富的调查经验时。优点:成本低,而且容易完成;缺点:不能对估计的精度

2、作出客观、准确的说明。2. 概率抽样(狭义抽样调查)按照概率统计的原理,从研究的总体中按随机原则来抽选样本,通过对样本的调查获取数据,以此来对总体的特征作出估计推断;对推断中可能出现的抽样误差可以从概率的意义上加以控制。特点:(1)对于一个具体的调查,要求总体中的每一个 单元都有一个已知的非零概率被抽中。(2)抽取样本的方法必须是随机的。(3)根据样本来计算估计值的方法,应符合抽样的方法确定合适的估计量。(4)能够以一定的概率控制抽样误差的范围。概率抽样:等概率抽样&不等概率抽样(二)抽样调查的常用概念1. 目标总体:可简称为总体,是指所要研究对象的全体,或者说是希望从中获取信息的总体

3、,它是由研究对象中所有性质相同的个体所组成,组成总体的各个个体称作总体单元或单位。 2.抽样总体:指从中抽取样本的总体。3.抽样框:抽样总体的具体表现。通常抽样框是一份包含所有抽样单元的名单。4.总体参数:总体的特征。5. 统计量(估计量):样本观察值的函数。6.抽样误差:由于抽样的非全面性和随机性所引起的偶然性误差。7.非抽样误差:由随机抽样的偶然性因素以外的原因所引起的误差。8.抽样误差表现形式:抽样实际误差、抽样标准误和抽样极限误差。9. 抽样标准误(S),抽样方差(V),V=S210.偏差:样本估计量的数学期望与总体真值间的离差,。11.均方误差:。12.精确度:每次抽样结果之间差别大

4、小13.精度:估计量的抽样标准误差或方差与待估计参数之比。14.可靠性:置信度(1-a)15.抽样效率:两个抽样方案在样本量相同的情况下的抽样方差之比。16.设计效果:17. 1-f称为有限总体校正系数(finite population correction,简记为fpc),当抽样比f很小时,1-f就接近于1,这样抽样比对的精度就没有直接影响;一般地,当抽样比小于5%,甚至小于10%时,fpc可以忽略不计,即认为1-f为1;事实上略去fpc的影响是使高了一些18.抽样调查步骤确定调研问题抽样方案设计问卷设计 实施调查过程 数据处理分析撰写调查报告二 简单随机抽样SRS(一)定义:从容量为N的

5、总体中抽取一个容量为n的样本,若所有可能的个样本中的每一个被抽到的概率都相等,即每个可能样本被抽中的概率均为,这种抽样方法称为不放回的简单随机抽样,简称简单随机抽样,所得的样本称为不放回的简单随机样本,简称简单随机样本(二)实施方法:将总体中的单元依次从1到N进行编号,然后利用抽签法或随机数法来进行简单随机抽样。(三)优点:简单直观。在抽样框完整时,可以直接从中抽选样本,由于抽选的概率相同,用样本统计量对目标量进行估计及计算抽样误差都比较方便。(四)局限性:它要求将包括所有总体单元的名单作为抽样框,当N很大时,构造这样的抽样框并不容易;根据这种方法抽出的单元很分散,给实施调查增加了困难;这种方

6、法没有利用其他辅助信息以提高估计的效率。所以在规模较大的调查中,很少直接采用简单随机抽样,一般是把这种方法与其他抽样方法结合在起使用。(五)估计总体指标样本指标(1)总体均值对于简单随机抽样,的无偏估计。即对于简单随机抽样,(,)(2)总体总量()对于简单随机抽样,(3)总体比例设,总体中有A个单元具有这个特征,即,总体中具有某种特征的单元在总体中所占的比例P即是Y的均值:;总体方差为:,由于的取值为0或1 ,所以,即.相应地,样本比例为,样本方差为p为P的简单估计,且为无偏估计,即p的方差为在大样本条件下,利用正态分布可得P的置信度为1-的近似置信区间为 (六)样本量的确定费用函数:,其中为

7、总费用,为固定费用,为每调查一个样本单元所需的费用。绝对误差限:相对误差限: 其中(七)简单随机抽样估计总体均值或总体总量时样本量的确定:(1)精度要求:估计量的方差上限为V,如果,则样本量直接取,否则对进行修正,取。(2)精度要求:估计量的绝对误差为d,则, (3)精度要求:估计量的相对误差为r,则,(4)精度要求:估计量的变异系数上限为C,则(5)估计总体比例时样本量的确定:设,则三分层随机抽样(一)定义:如果抽样在每个层中独立进行,总的样本由各层样本构成,这种抽样方法称为分层抽样。若在每层中的抽样采用SRS,这样的分层抽样称为分层随机抽样。(二)原则:同一层内差异小,不同层间差异大。(三

8、)分层原因:当总体各单元差异比较大时,对参数估计误差比较大。将总体分层,同一层中各单位差异小,从每一层中抽取构成样本,这样样本就有代表性,可以提高估计的精度;可以同时对子总体进行参数估计;便于依托各级管理机构进行组织和实施。(四)优点:分层样本代表性好;可总体参数估计,也可对层参数估计;实施灵活方便;提高估计精度。(五)分层随机抽样总体均值:无偏估计:(六)分层随机抽样总体总值:(七)分层随机抽样总体比例:(八)分别比估计(对每层样本分别考虑比估计量,然后对各层的比估计量进行加权平均)(九)联合比估计(先对两个指标先分别计算出分层估计,然后再构造比估计)(十)分别比估计与联合比估计的比较1.当

9、各层nh的都比较大时,各层比率Rh之间差异比较大,此时分别比估计要优于联合比估计;2.当某些层nh的不够大时,或者各层的比率Rh差异较小,还是采用联合比估计更有效些。3.分别比估计需要知道各层的子总体辅助变量信息,而联合比估计只需要知道总体辅助变量的信息。(十一)样本量在各层的分配1.层大小差不多,且没有任何关于层的其他信息2. 层大小有差异,且每层的方差不大3.每层估计量达到相同精度4.最优分配:(十二)总样本量的确定1. 调查目标是估计总体均值估计总体均值估计总体总值(1)常数分配 (2)比例分配 (2)比例分配 (3)Neyman分配 (3)Neyman分配 (4)最优分配(4)最优分配

10、2. 调查目标是总体比例P将Sh2=PhQh置换前面估计总体均值结果3. 四整群抽样(一)定义:整群抽样是将总体划分为若干群,然后以群为抽样单元,从样本中随机抽取一部分群,对选中的群的所有基本单元进行调查的一种抽样技术。目的主要是扩大抽样单位,简化组织工作。(二)特点:抽样框的编制简单;实施便利,节省费用;抽样误差相对较大。发挥整群抽样的优势,因为其省时省力,每个单元的平均调查费用比较少,故可通过增大样本量的方法弥补精度的损失。(三)群的划分:尽量扩大群内差异,而缩小群间差异。这样,每个群都具有足够好的代表性。所以分群的原则使“群内差异大、群间差异小”与分层的原则使“层内差异小,层间差异大”是

11、恰好相反的。(四)群的规模:组成群的单元的数量。其选择一是取决于精度与费用之间的平衡,二是从抽样实施的组织管理等因素来考虑。(五)等概率整群抽样的情形(群规模相等)1、总体均值的估计 2、总体总和的估计 3、总体比例的估计 (六)设计效应仍用总体均值估计量的方差进行讨论,并且考虑等概率抽样的情形。由前面的分析可知,的估计量的方差为如果按简单随机抽样从总体中抽取个次级单元,则:所以,整群抽样的设计效应为: 当时,,则整群抽样的精度较简单随机抽样在相同样本量时要差。当时,则整群抽样的精度较相同样本量的简单随机抽样要高。若令为简单随机抽样的样本量,则=x,即可达到整群抽样nM户样本量相同的估计精度。

12、四多阶段抽样(一)定义:在总体各单位(初级单位PSU)中抽取样本单位,在抽中的初级单位中再抽取若干个第二级单位(SSU),在抽中的第二级单位中再抽取若干个第三级单位,直至从最后一级单位中抽取所要调查的基本单位的抽样组织形式,就叫做多阶段抽样。(二)特点:便于组织抽样;可以使抽样方式更加灵活和多样化;能够提高估计精度;可以提高抽样的经济效益;可以为各级机构提供相应的信息。 (三)适用范围:在社会研究中,当总体的规模特别大,或者总体分布的范围特别广时,研究者一般采取多阶段抽样的方法来抽取样本。(四)基本假定:初级单元中所包含的次级单元数目相同,均为M,因此从抽中的初级单元中再抽取的次级单元个数也相

13、同,为m;两个阶段的抽样方法都是简单随机抽样;在抽中的初级单元中作第二阶抽样是相互独立进行的。(五)分层抽样、整群抽样、二阶抽样的共同点及区别共同点:都将总体分为若干子总体(层、群)区别:分层抽样对总体中每个子总体(层)都进行抽样;整群抽样对总体中被抽中的若干个子总体(群)进行普查;  二阶抽样对总体中被抽中的若干个子总体(群)再进行抽样。(六)二阶抽样的效率通常情况下,二阶抽样的设计效应大于1。这说明二阶抽样的效率要低于简单抽样,但是由于二阶抽样有着样本分布集中,可以省时、省力和省费用的优点,因此从这个意义来讲,二阶抽样的效率就不一定低于简单随机抽样了。二阶抽样效率通常低于分层抽样

14、。二阶抽样的效率有时低于整群抽样,有时高于整群抽样。(七)估计第一阶段和第二阶段的抽样比: 初级单元间的方差: 初级单元内的方差: 1.总体均值: 2. 五不等概抽样(一)定义: 如果总体中每个单元进入样本的可能性是不相等的,则这种随机抽样方式就称为不等概率随机抽样,简称不等概率抽样。(二)特点:将总体中每个单元的入样概率与其“规模”大小联系起来,使得“大单元”被抽到的概率大,“小单元”被抽到的概率小。(三)优点:能够大大提高抽样精度,减少抽样误差。(四)局限性:必须具有能够说明单元规模大小的辅助变量来确定各个单元的入样概率或包含概率。(五)适用场合:总体单元之间的差异较大。(六)分类抽样容量

15、 n固定时,单元入样的概率(不放回抽样)或每次抽样的概率(有放回抽样)与单元的大小严格成比例。这种情况下的有放回抽样称为PPS抽样,不放回抽样称为PS抽样。代码法(汉森赫维茨(Hansen-Hurwitz)法)拉希里(Lahiri)法(二次抽取法)PPS抽样:有放回抽样规模累积等距抽选法Brewer(布鲁尔)方法(1963)Durbin(德宾)方法(1967)PS抽样:不放回抽样代码法:它适合于N不太大的情形。假定所有Mi为整数(若不然也可以乘以一个倍数M0,使一切Mi= M0Zi成为整数),对于具有整数Mi的第i个单元赋予一个与Mi相等的代码数。每次抽样前,先在整数1,2,M0里面随机等可能

16、地选取一个整数,设为m,若代码m属于第j个单元拥有的代码数,则第j个单元入样。这个过程重复n次,得到n个单元入样(当然存在重复的可能),构成了pps样本。(七)汉森赫维茨 (Hansen-Hurwitz)估计量(总量估计) 六系统抽样(Systematic sampling)(一)定义:又称为等距抽样、机械抽样。按照这种抽样方法,从总体中抽取第一个样本点(随机起点),然后按某种固定的顺序和规律依次抽取其余的样本点,最终构成样本。(二)优点:样本分布比较均匀,在现实生活中比较容易接受;样本单位抽取简便,有很高适用价值;简便易行,简化抽样手续。(三)缺点:如果单元的排列存在周期性的变化,而抽样者对

17、此缺乏了解或处理经验,抽取的样本可能代表性很差。系统抽样的方差很复杂,对估计带来很大困难。有时估计量是有偏的。抽样误差计算上比较复杂。(四)特点:系统抽样只需要抽取一个样本单位,然后按照某种规律,顺次地得到整个样本。(五)抽样一般方法:1.直线等距抽样假设总体单元数为N,样本容量为n,N=nk。在1-k中随机抽出一个单元编号,然后每隔k个单元编号抽取一个单元编号,直到抽出n个单元编号为止。 2.循环等距抽样(适用于k不为整数)抽样间距 k取最接近 N/n的整数 ,从1N中随机抽取一个随机起点作为起始单元 ,然后每隔 k个抽取一个,直到抽取满n个为止。如果序号大于 N时,将其减去 N得到的在1

18、N中的号码入选。 (六)抽样方法改进1. 中心位置法起点不是随机取,而是直接取第一阶段的k个单元中处于中间位置的单元。K奇数,r=(k+1)/2;k偶数 ,r=k/2或r=k/2+1。虽然可以提高精度,但对于一定顺序排列的总体,样本是确定的,失去了随机性。尤其对同样问题进行连续性调查,样本老化,会带来较大不利影响。2. 对称系统抽样当N=nk且n为偶数时,将总体分为n/2组,每组含有2k个单元,在各段内随机抽取与两端等距地两个单元作为样本,一端靠近低端,一端靠近高端。假设随机起点为i(1ik),入样单元: (七) 等概系统抽样(即等距抽样)估计量的性质1.的估计量均值 当N=nK,为的无偏估计

19、量,当NnK,为的有偏估计量。2.的估计量方差 反映sy与SRS关系的方差计算公式:,又有= (1)令(系统样本内方差)则将代入(1)式便有:,得:系统抽样优于简单随机抽样的条件为: 即,所当:,就是,sy效率高于SRS。当总体单元的排列顺序与要研究的总体特征总量的大小高度相关,不管是正相关还是负相关,则系统抽样更接近于分层抽样;当总体单元的排列顺序与要研究的总体特征变量的大小相关程度极低时,则系统抽样更接近于简单随机抽样;当总体单元的排列顺序与要研究的总体特征变量的大小相关程度介乎于两者之间,则很难知道系统抽样到底与其他三种抽样方式的哪一种更相似。附:考试范围抽样技术期末复习提纲第一章 绪论

20、1、了解抽样调查的意义、特点、发展历史、应用及分类组织。2、理解和掌握总体、样本、抽样框、样本可能数目的基本概念。3、理解和掌握概率抽样与非概率抽样的区别,抽样误差与非抽样误差的区别与联系等。4、系统地掌握和熟练地应用统计量的抽样分布、抽样误差的计算、抽样估计的方法和步骤、抽样设计效果的评价等问题。第二章 简单随机抽样1、理解简单随机抽样的概念、地位和特点。2、熟练地掌握简单随机抽样的具体方法、总体均值、总量、比例的估计方法以及样本容量的确定方法等并能够熟练应用。3、熟练掌握比率估计的构造定义。第三章 分层随机抽样1、理解分层抽样的概念与特点。2、熟练掌握分层抽样的原则、特点、估计的方法。3、

21、深入理解分层抽样中总样本量在各层间分配的方法。4、了解分层随机样本中的比率估计的构造。第四章 整群抽样与多阶段抽样1、了解整群抽样的原则、特点、适用场合。2、掌握群规模相等时整群抽样的方法及对总体指标的估计方法。3、理解抽样效果与样本容量的分析确定方法,分清整群抽样与分层随机抽样的区别。4、了解多阶段抽样的原则、特点及适用场合。5、了解初级单元相等时两阶段抽样中对总体指标的估计方法。第五章 不等概抽样1、理解并掌握不等概率抽样的意义、特点、实施方法。2、熟练掌握PPS抽样条件下估计量及其误差计算。3、了解不放回不等概抽样的概念。第六章 系统抽样1、理解和掌握等距抽样的特点与实施方法。2、熟练掌

22、握总体单元随机排列情形,总体参数的估计以及估计量方差的估计方法。附:练习题简单随机抽样:为调查某5443户城镇居民服装消费情况,采用简单随机不重复抽样调查了36户进行调查,得到平均消费支出元,试根据此估计:(1)该地区居民服装消费支出总额,并给出置信水平为95%的置信区间。(2)如果希望服装平均消费支出的相对误差限不超过5%,则样本量至少应为多少?解: 区间为: 根据题中相关数据可得户,由此可得户。要满足相应的精度要求,至少得抽922户做样本。 简单随机抽样(比例):某地区10000名群众,现欲估计在拥有本科学历及以上的群众所占的比例,随机不重复抽取了300名群众进行调查,得到,试估计该地区群众拥有本科以上学历的比例,并以正态分布近似给出其95%的置信区间。解: 所以本科生中暑假参加培训班的95%的置信区间为:分层随机抽样:对某地区171 980户居

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论