抽样调查概述_第1页
抽样调查概述_第2页
抽样调查概述_第3页
抽样调查概述_第4页
抽样调查概述_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章 抽样调查概述第一节 抽样调查的意义和特点抽样调查是现代统计调查中最常用的基本方法之一。一、抽样调查的概念关于抽样调查的定义大体上可以区分成广义和狭义两种,广义的抽样调查包括非概率抽样与概率抽样,狭义概念仅指概率抽样。狭义的抽样调查是按照一定的程序和方法,从所要研究现象的总体中根据随机原则抽取一部分单位组成样本,通过对样本的调查,获得样本资料,计算出有关的样本指标(统计量),依一整套专门的方法据以对相应的总体指标(参数)作出估计和推算,并有效控制抽样误差的一种统计方法。随机原则。随机并非“随意” ;随机原则不等于等概率原则;随机原则一般要求总体中每个单元均有一个非零的概率被抽中;抽样概率对总体参数的估计有影响。随机原则是抽样调查所必须遵循的基本原则。二、抽样调查的特点首先,按随机原则抽选调查单位是抽样调查的一大特色。其次,可以用样本资料推断总体资料是抽样调查的又一基本特征。其三,抽样调查的速度快、周期短、精度高。其四,在抽样推断之前可以计算和控制抽样误差。其五,抽样技术灵活多样。其六,抽样调查的应用十分广泛。最后,同其他调查方式相比,抽样调查的技术性更强。三、抽样调查的作用抽样的方法不仅对统计推断、统计检验以及统计决策等理论的发展产生了直接的影响,而且还构成了其他应用性学科如计量经济学、管理会计学等的方法论基础。其一,抽样调查能够解决全面调查所无法解决的现象的调查问题。 (1)产品质量的破坏性检验。 (2)无限总体的调查。(3)包括未来时序的总体。其二,抽样调查适用于对理论上可以作全面调查,而实际上又难以组织全面调查的现象进行调查。其三,抽样调查对于时效性要求较高、同时又可以不作全面调查的现象的调查有着特殊的作用。其四,抽样调查的结果可被用来检验和修正全面调查结果。其五,抽样调查可对工业生产过程的稳定性进行监测,从而实现质量控制。其六,利用抽样调查方法还可以对总体的某些假设进行检验,以判断这些假设的真伪,为管理决策提供依据。第二节 抽样调查的历史发展及应用一、抽样调查的历史发展关于抽样调查的历史发展,可分三个不同的时间段进行考察。1、1895 年以前。抽样调查处在实践探索过程和萌芽阶段。大量事实表明,在 1895 年以前,抽样调查的实践应用已经在许多领域展开,这些都为抽样调查的进一步发展创造了条件,积累了宝贵经验。但这时的抽样调查仍处于探索过程之中,没有形成系统的理论,也没有得到普遍的认可。挪威的凯尔(Anders Niscolai Kiaer)对抽样调查的贡献,无论是在实践还是在理论方面,就当时的条件而言,都是十分卓越的。2、18951925 年。抽样调查逐步得以确认的过程。1895 年,国际统计学会(ISI)在瑞士首都伯尔尼召开第五次大会。会上,凯尔提出关于代表性调查的报告对代表性调查的研究和经验 ,由此开始,统计学界展开了持续 30 年之久的争论,到 1925 年在罗马的第十六届大会上,随着詹森的代表性方法的实践和鲍利的抽样精确度的测定的发表,代表性方法,即抽样方法,才得到人们的最终承认。3、1925 年以后。抽样调查进入全面发展阶段、逐步走向成熟。费暄发表研究人员用统计方法 ,蒂皮特按费暄的随机化原则制作发表了随机数字表 ,克拉汉与威沙特发表利用抽样方法估计各类产量和抽样技术的研究 ,卡弗(Carver)把组合分析理论应用到抽样误差的估计,内曼发表“论代表性方法的两个不同方面”的论文,费暄的实验设计一书出版,内曼的“区间估计理论” ,都为抽样推断的发展做出了重要贡献。二、我国的抽样调查史1949 年以前,抽样调查在我国的应用次数很少,有关抽样理论与方法的研究也不多见,介绍抽样知识的著作则更少。抗战期间,清华大学陈达教授主持的国情普查研究所曾在云南环湖户籍示范区进行人口普查,具体工作由戴世光负责,普查后又用抽样方法抽查部分人口以核对其准确性,这是中国首次在自己的学者主持下按现代抽样方式进行的调查,是一次有益的尝试。(一)思想认识方面1960 年前后,许宝騄在北京大学主持了一个有关抽样调查的研讨班。根据其讲义整理出版的抽样论至今仍在我国统计界有很大影响。后来,抽样调查因被视为“以偏概全”而一度遭否定,受到批判,直到“文革”结束。1996 年 5 月 15 日公布的修订后的中华人民共和国统计法中又以法律的形式对此作了规定。至此,抽样调查在我国的应用才得以最终确立。(二)实践运用方面1956 年 1 月,国家统计局颁发了“全国职工家计调查方案” ,开始建立了全国统一的、经常性的职工家计调查工作。1963 年开展了农作物产量抽样调查试点工作。1979 年,国家统计局制定并颁发试行了农村经济调查方案。1980 年 4 月,经国务院批准恢复职工家庭生活抽样调查。1985 年起进一步扩大为城市住户调查。1981 年 9 月,经国务院批准组建了农村抽样调查队和城市抽样调查队。1982 年 4 月起建立了城市物价抽样调查,用直接抽样调查的资料来编制物价指数。1982 年 5 月,经国务院批准,恢复农产量抽样调查。1983 年起,形成了每年一次的全国人口变动抽样调查制度。1987 年以后又进一步过渡为每年一次的全国 1人口抽样调查。1994 年,经国务院批准又组建了企业调查队,对全国二、三次产业中各种经济类型、各种经济规模的企业进行抽样调查。第三节 抽样调查的分类与设计一、抽样调查的分类抽样调查可以按不同的标准进行分类。按抽选样本的具体原则不同,可以分为概率抽样和非概率抽样。在概率抽样中,如果总体中每个单元被抽中的概率都相等,则为等概率抽样;如果每个单元被抽中的概率不完全相等,则为不等概率抽样。概率抽样按其组织方式不同,可分成:简单随机抽样;分层抽样;整群抽样;等距抽样;多阶抽样;二重抽样等不同类型。非概率抽样也就是非随机抽样,在抽样过程中不完全按随机原则进行,带有一定的主观随意性,所以无法估计抽样误差,也不能控制抽样误差。用非概率抽样取得的样本叫做非随机样本。非概率抽样主要包括:随意抽样、定额抽样、判断抽样、滚雪球抽样等。二、抽样调查方案的设计抽样调查方案的设计就是在实际进行抽样调查之前,对整个抽样调查工作过程所作出的通盘考虑和合理安排。一般应遵循以下两条基本原则:其一,保证抽样的随机性原则;其二,保证实现最大的抽样效果原则。抽样调查方案所应包括以下几个部分:第一,有关抽样调查要求方面的内容设计。第二,有关抽样推断工作方面的内容设计。第三,有关调查内容方面的设计。第四,有关组织工作方面的内容设计。三、抽样调查方案的检查设计好的方案在正式实施之前都必须进行检查,用试点的调查数据对方案进行验证,然后才能正式实施调查。抽样调查方案的检查主要包括两个方面:一是准确性检查;二是代表性检查。四、抽样调查的基本步骤抽样调查一般可概括为以下八个基本步骤:(1)明确调查目的要求;(2) 编制抽样框;(3) 设计调查问卷; (4)设计抽样方案,随机抽取样本;(5)培训调查员,组织开展调查;(6)检查调查结果,进行数据处理;(7)分析调查结果,撰写调查报告;(8)积累调查信息,总结调查经验,研究探讨新的调查方式方法或开拓现有调查方式方法应用的新领域。第四节 抽样调查的基础理论一、大数定律大数定律又称平均数定律或大数法则,它所描述的是当样本充分大时,样本统计量的极限行为。即是说在充分大规模的抽样下抽样平均数和总体平均数间的离差可以为任意小这一可能性的概率可以尽量接近于 1,即接近完全的精确性。二、中心极限定理中心极限定理的基本内涵是:一组独立同分布的变量的和或平均值当 n 充分大时近似地具有正态分布。通过这个定理,可以知道不论总体服从什么分布,当 n 很大时,样本的平均数 近似于具有参数 和 的正态分布(即极限正Yn态分布)。三、误差分布理论在一个既定的总体中,抽选一定含量的样本,可能抽选到的样本有多个,因此可以取得多个可能的样本指标(主要指平均数和成数)。如果将所有可能的样本指标组成频率分布,可发现样本指标 愈接近总体指标 的可能样本数愈yY多,即频率愈大;偏离 愈远的可能样本个数愈少,即频率愈小,形成两端小Y中间大的 可能值的分布,同时也就是抽样误差的分布。y四、概率理论概率也称或然率,就是指某一事件可能发生的机会,也就是某个事件可能发生的次数与所有可能发生事件总次数之比。等概率就是机会均等,不等概率就是机会不均等。概率通常有古典的和统计的两个意义:古典意义:就是事物有有限个均等的可能结果;统计意义:就是用统计的频率作概率的近似度量。第二章 抽样调查基本原理第一节 有关基本概念一、总体总体也叫母体,它是所要认识对象的全体,是具有同一性质的许多单位的集合。组成总体的每个个体叫做单位。在抽样以前,把总体划分成若干个互不重叠并且能组合成总体的部分,每个部分称为一个抽样单元,不论总体是否有限,总体中的抽样单元数一定是有限的。抽样单元又有大小之分,一个大的抽样单元可以分成若干个小的抽样单元,最小的抽样单元就是每一个个体。总体应具备同质性、大量性和差异性的特征。在抽样调查中,通常将反映总体数量特征的综合指标称为总体参数。常见的总体参数主要有:总体总和、总体均值、总体比率、总体比例。二、样本样本是由从总体中所抽选出来的若干个抽样单元组成的集合体。抽样前,样本是一个n 维随机变量,属样本空间;抽样后,样本是一个 n 元数组,是样本空间的一个点。抽样的效果好不好,依赖于样本对总体是否有充分的代表性。影响样本代表性的因素有以下几个方面:(1)总体标志值分布的离散程度。(2)抽样单元数的多少(或称样本容量的大小)。(3)抽样方法。一般将反映样本数量特征的综合指标称之为统计量。统计量是 n 元样本的一个实值函数,是一个随机变量,统计量的一个具体取值即为统计值。主要的样本统计量有:样本总和、样本均值、样本比率、样本比例。三、必要样本容量和样本可能数目样本中包含的抽样单元个数称为样本容量。样本容量与总体容量之比为抽样比,用 f表示,即 f=n/N。样本可能数目则是在容量为 N 的总体中抽取容量为 n 的样本时,所有可能被抽中的不同样本的个数。正确理解样本可能数目的概念,对于准确理解和把握抽样误差的计算、样本统计量的抽样分布、抽样估计的优良标准等一系列理论和方法问题都有十分重要的帮助。四、抽样框抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框),也可以是一段时序。第二节 样本统计量的抽样分布标准的统计问题为:总体未知,故需从总体中抽取一个较小的、花费不多的随机样本,然后构造样本统计量,并以其估计总体。问题是用样本指标估计总体指标的可靠程度如何?为此要研究样本统计量的抽样分布。在此之前,有必要先回顾一下有关正态分布的知识。一、正态分布如果总体各个体的标志值以总体平均数为中心,形成钟型对称分布,其分布曲线向两侧扩展,逐渐向横轴逼近,无限延伸出去,但不接触横轴,则这种分布就叫做正态分布,或高斯分布、常态分布。服从正态分布的总体称为正态总体。一个正态分布完全由总体的理论平均数和理论方差这两个参数所决定。其数学特征为:如果一个随机变量 X 服从正态分布,则其分布的密度函数(分布曲线方程)为:, ( - x )2)(1xexf 全部可能事件发生的概率之和等于 1。代表各个体事物分布的正态曲线内面积表明着全部可能的事件,因此,分布曲线下 x 轴以上的概论积分面积总保持为 1, 因此,当 不相同时,f(x)的形状也不相同, 愈小,分布就愈集中在 附近, 愈大,分布就愈X平坦。任何正态分布,它的样本落在任意区间(a,b)内的概率等于直线 x=a,x=b,横坐标和曲线 f(x)所夹的面积(可由正态分布概率积分表查得)。经计算,正态总体的样本落在:( -, +)概率是 68.27;X( -2, +2)概率是 95.45;( -3, +3)概率是 99.73;( -1.96, +1.96)概率是 95;二、抽样分布样本统计量是个随机变量。把根据所有可能样本计算出来的某一统计量的数值分布,称为抽样分布。抽样分布理论是理解抽样调查基本原理的基础。常见的抽样分布有极限分布和精确分布两类。极限分布也叫做大样本分布,它只有正态分布一种形式;精确分布又叫做小样本分布,其前提是总体服从正态分布,它是正态分布的导出分布,包括有 t 分布、F 分布和 2分布等形式。第三节 抽样误差一、抽样调查中的误差来源误差就是调查结果与现象的实际结果之间的偏差,它几乎在所有的统计调查中都或大或小的存在着。在抽样调查中,按照形成原因的不同,一般可将误差分成抽样误差和非抽样误差两大类。抽样误差是用样本统计量推断总体参数时的误差,它属于一种代表性误差。抽样误差通常会随样本量的大小而增减;影响抽样误差的因素还有:所研究现象总体变异程度的大小;抽样的方式方法。非抽样误差不是由于抽样引起的。它又包括调查误差、无回答误差、抽样框误差以及登记性误差。同抽样误差相反,非抽样误差是随着样本量的增加而增大的。二、抽样误差的计算由于从一个总体中抽取容量为 n 的样本时,有多种可能的结果,所以样本指标是随机变量,而总体指标是唯一确定的常量,故抽样误差也是一个随机变量。设 为总体的某个待估参数, 是通过样本资料计算而得到的关于 的估计量,则估计的实际误差为 - ,由于 是未知,故 - 是未知的。这表明根据某一个确定 的样本,无法确定抽样误差的大小,因此,关于抽样误差的计算,是建立在误差分布理论基础上,从统计平均意义角度来考虑的。因为,对一个确定的总体按同一种抽样方法可能得到一系列不同的样本,对每一个样本都会有一个估计的实际误差 i- ,因此,抽样误差可以用所有这些可能的实际误差的均方误差表示。也即将抽样误差表示为 2)()EMS其中 为估计量 的均方误差。由于 未知,所以在通常情况下, 仍然)(MSE )(MSE是未知的。但 可以分解成: 22 22)()( )()()( EEE式中第一项是估计量 的方差,记作 。 的平方根称为估计量 的标准误差V)(或标准差,记作 。 与 之比称为估计量的变异系数,记为 。式中第二)(S)( )(C项是估计量 的偏倚 的平方(即 )。B(E一般情况下,均方误差说明了估计量的准确性,而估计量的方差则表明了其估计结果的精确性。通常将精确度定义为估计量方差的倒数,而将准确度定义为估计量均方误差的倒数。当偏倚 为零时,称 为 的无偏估计量。此时, 的方差就等于它的均方误差,)( 即 )()(MSEV如果 随样本容量 n 的增大趋近于 ,则称 为 的一致估计。 第四节 抽样估计抽样估计就是以样本的实际资料为依据,计算一定的样本统计量,并按照一定的方法对总体参数作出估计和推断。一、抽样估计的特点第一,抽样估计在逻辑上运用的是归纳推理而不是演绎推理。第二,抽样估计在方法上运用不确定的概率估计法而不是运用确定的数学分析法。第三,抽样估计的结论存在着一定程度的抽样误差。二、抽样估计的方法抽样估计的方法多种多样。如果以估计中所依据的资料不同来区分,一般可以有简单估计、比估计和回归估计等三种方法。简单估计是最简单、最基本的一种估计方法,在实际中应用也最为广泛。如果以估计结果的表示方式来区分,则抽样估计可以有两种形式,即定值估计和区间估计。定值估计是指给所要估计的总体参数只给出一个明确的点估计值,同时确定出估计结果的误差;区间估计则是在一定的概率保证程度(置信度)之下,根据允许的最大绝对误差范围,确定出一个以点估计值为中心的区间作为总体待估参数 的估计区间(也称为置信区间)。三、置信区间一般地说,若估计量 是无偏的,且呈正态分布,则参数 的置信度为 1- 的置信区间可以写成( -KS( ), +KS( )当调查变量的总体方差 2已知时,上述置信区间可表示为( -Z/2 S( ), + Z/2 S( )即取 K= Z/2 , Z/2 的值可以通过查正态分布双侧临界值表加以确定。当调查变量的总体方差 2未知时,则用相应的样本方差 s2代替。然而,这时有可能会使误差产生一个增量,特别是当样本较小时,更容易影响估计的精度。因此,为了保持 1- 的置信度,就应该适当加宽置信区间,即用较大的t/2 值来代替 Z/2 。此时,置信区间就可以表示成( -t/2 ( ), +t/2 ( )SS其中 t/2 的值可通过查 t 分布临界值表来确定,在这里自由度为 df=n-1;( )表示以 s2代替 2后对抽样标准误 S( )的估计量。S 四、估计量的优良标准由于抽样指标是一个随机变量,随着抽取的样本不同,便有不同的估计值,因此,要判断一种估计量的好环,仅从某一次试验的结果来衡量是不够的,而应从多次重复试验中,看这种估计量是否在某种意义上最接近于被估计参数的真值。一般地说,用抽样指标估计总体指标应该有三项基本要求或标准:1、无偏性用样本指标估计总体指标要求所有可能的样本指标的平均值等于对应的总体指标值。2、一致性用样本指标估计总体指标要求当样本容量充分大时,抽样指标也充分地靠近总体指标。3、有效性用抽样指标估计总体指标要求作为优良估计量的方差应该比其他估计量的方差小。第三章 简单随机抽样第一节 简单随机抽样概述一、简单随机抽样的概念简单随机抽样也叫作纯随机抽样。其概念可有两种等价的定义方法:定义之一:简单随机抽样就是从总体 N 个抽样单元中,一次抽取 n 个单元时,使全部可能的样本被抽到的概率均相等。定义之二:简单随机抽样是从总体的 N 个抽样单元中,每次抽取一个单元时,使每一个单元都有相等的概率被抽中,连续抽 n 次,以抽中的 n 个单元组成简单随机样本。按简单随机抽样,抽到的样本称为简单随机样本。二、简单随机抽样的具体实施方法(一)抽签法抽签法是先对总体 N 个抽样单元分别编上 1 到 N 的号码,再制作与之相对应的 N 个号签并充分摇匀后,从中随机地抽取 n 个号签(可以是一次抽取 n 个号签,也可以一次抽一个号签,连续抽 n 次),与抽中号签号码相同的 n 个单元即为抽中的单元,由其组成简单随机样本。(二)随机数法随机数法就是利用随机数表、随机数骰子或计算机产生的随机数进行抽样。由于计算机产生的随机数实际上是伪随机数,不是真正的随机数,特别是直接采用一般现成程序时,产生的随机数往往不能保证其随机性。因此,一般使用随机数表,或用随机数骰子产生的随机数,特别在 n 比较大时。三、简单随机抽样的方法评估简单随机抽样是最简单、最单纯的抽样技术,它具有计算简便的优点,是研究其它复杂抽样技术的基础,也是比较各种抽样技术之间估计效率的标准,是贯彻随机原则最好的一种,并且数学性质很简单,是等概率抽样的特殊类型。它要求总体要比较均匀,且样本容量要比较大,但在社会经济现象中,均匀总体是很少见的;未能充分利用关于总体的各种其它已知信息;要有好的抽样框可用。第二节 总体参数的估计一、估计量1、总体均值和总和的简单估计量在简单随机抽样条件下,总体均值的简单估计量分别为: nyYni可以证明,样本均值是总体均值的无偏估计,即 YyE)(因此总体总和的简单估计量为 niniyNyY其中 N/n 也称作膨胀因子。2、总体比例的简单估计量总体比例的简单估计量为: npP1且 E)(总体中具有 D 类属性的单位总数的估计量为: NpP1二、估计量的方差在抽样推断中,有时往往只计算出估计量的值,而不大注意估计量的误差(方差或标准差)。但是,总体均值的估计量通常与总体均值的真值间不完全一致,即存在误差,而且所有可能的样本均值相对于总体均值的误差大小也是不一致的。总体均值估计量的方差为 21)(SnfyV其中,f 为抽样比,1-f 为有限总体不重复抽样校正系数,记为 fpc。由此进一步可推出 222)()1()( SnNSnfNY总体比例估计量的方差为 )()(PfPV总体中具有某种属性单元总数估计量的方差为 )1()()(21NnfN三、方差估计量估计量的方差的估计量分别为 21)(snfyV2)fNY而且 与 分别是 与 的无偏估计。)(yVY)(yV同理,可得 的无偏估计量为P)1()(Pnf的无偏估计量为)(1NV )1()(21pnfNV第三节 样本容量的确定一、必要样本容量的确定在确定样本容量时,必须在估计的精度要求和可供调查使用的费用之间进行权衡,使在费用一定的条件下精度达到最高,或在精度要求得到保证的前提下使费用最省。通常将在这一原则指导下所确定的样本容量称之为必要样本容量,它是在最大限度地满足规定精度要求以及尽可能节约调查费用的前提下,所应该抽取到的最少的样本容量。(一)依规定精度来定1、关于精度的不同提法提法之一:以置信度 1-,允许总体参数 的估计量 的最大绝对误差为,即 1)(P提法之二:以置信度 1-,允许总体参数 的估计量 的最大相对误差为r,即 为 相 对 误 差 )(.1)( rrP提法之三:以置信度 1-,允许总体参数 的估计量 的最大方差不超过V,即.1)(VP提法之四:以置信度 1-,允许总体参数 的估计量 的最大变异系数不超过 C,即 .1)(CP2、样本容量 n 的确定当 n 足够大时,可以认为 服从正态分布 N(,V( )(理由如前述样本统计量的抽样分布)。因此,由上述四种对估计量精确度的不同提法,可以分别得到下列方程式)(2VZ)(2VZr)( )()(SC因为 V( )是 n 的函数,求解以上四个方程,即可确定 n。(二)依调查费用来定设 C 表示抽样调查工作的总费用,可大致分为两个构成部分:一部分为固定费用,用 C0表示,不管调查单位数的多少,这部分费用都要花费,主要包括组织领导、宣传、设计等费用。一部分为可变费用,用 C1表示,它是每调查一个单位平均要花的费用,其费用的大小随调查单元数的多少变动,如调查表的印刷、调查的差旅费等。这样C= C0+ C1n当总费用一定,且 C0和 C1依其他有关资料也大致可以确定时,就可推算出必要的抽样单元数目 10(三)在精度和费用间谋求平衡依费用确定抽样数目后,可进行实地抽样调查,计算其样本指标和抽样方差,进一步估算其估计精度,考察其满足允许误差范围和可信程度的要求程度,以及根据精度和费用分别确定的抽样数目的符合程度,谋求精度和费用间的平衡。二、总体方差的确定运用精度要求来确定样本容量时,必须事先知道总体的方差。确定总体方差的方法一般有以下几种:其一,两步抽样法。即在正式开展抽样调查工作之前,先从总体中抽取一个容量为 n1的简单随机样本,求得 的估计值 或 P 的估计值 ,把 n1和 2S21s12s(或 n1和 )代入相应的公式计算所需的 n,然后,再补抽其余的 n-n1个单元进P行正式调查。其二,对于一次性的调查,采取在正式调查前进行试点调查,根据试点调查的结果估计 或 P。2S其三,对于经常性调查项目,可以利用以前调查的结果,也可对以前调查的结果作适当调整。其四,根据总体的结构,应用数学方法预测总体方差 或 P。2S其五,估计比例时,如果能借助某些基本信息或方法,或经验等,估计总体比例大约在 0.3-0.7 之间,则也可以直接取成数方差的最大值 0.25 来确定样本量,这通常是一种比较“安全”的选择。第四章 分层随机抽样第一节 分层随机抽样概述分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组) ,后在各层内分别独立地进行抽样。由此所抽得的样本称之为分层样本。各层所抽的样本也是互相独立的。如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。由此所得到的样本称做分层随机样本。在分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则。进行分层抽样时应注意:层内抽样设计的选择;分层变量的选择;各层样本量的分配;层数;层的分界。以前只重视,近年来,和引起了越来越多的关注。同简单随机抽样相比,分层抽样具有以下特点:分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好;分层抽样可以提高估计量的精度;分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些;分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的;分层抽样适合于调查标志在各单元的数量分布差异较大的总体;分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征。但对各层的估计缺乏精度保证;分层抽样中,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,从而提高估计的精确度;分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用;分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。第二节 总体参数的估计一、估计量、总体均值的估计量在分层抽样中,总体均值 的估计量一般用 表示,它是各层总体均值Ysty的估计量按层权 的加权平均,即hYhWYNyLst 1Lh1h、总体总和的估计量有了总体均值的估计量,就可推出总体总和的估计量 LhyYstst、总体比例 P 的估计量总体比例(成数)的估计量为:hhpWPLLst可以证明,在分层随机抽样中, 是 的无偏估计量, 是的无偏估styYstY计量, 是的无偏估计量。stP二、估计量的方差、总体均值估计量的方差对于一般的分层抽样,由于各层的抽样是相互独立的,诸 也相互独立,hY因此总体均值 估计量的方差是总体各层均值估计量方差的加权平均,即YLhh2)(W)(VyvYVstst式中 是第 h 层总体均值估计量的方差。)(hYV、总体总和估计量的方差有了总体均值估计量的方差,就可推导出总体总和估计量的方差: Lstst YVNYVhh22)()()(对于分层随机抽样,则有: Lhh2h2hh2 )(1)( nSSnfNYLst、总体比例估计量的方差估计总体比例,当 充分大时,有:hLhh2)()(PVWst对于分层随机抽样,则有:( )(stPVLhhh2)1(nf 1hN三、方差的估计量 Lh2lh2Lhh2 W1n1W)( sNnssfyVst LststyVNYhh2h2 )()()(与 分别是 与 无偏估计。)(styV)(stY)(styV)(stYLst npfWPhh21)()1是 的无偏估计。)(stP)(st第三节 总样本量的分配一、 总样本量在各层间的分配在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。通常考虑:精度和费用问题。即如何分配才能在费用一定时使总的精度和各层估计精度最高?数据处理问题。即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了?各层的容量大小问题。(一)比例分配在分层抽样中,若各层的抽样比都相同,即 fh=f,则称总样本量为按比例分配。此时 Nnh所以 ,因此, 。( 应取整)hhNWnhn对于比例分配的分层随机抽样,其均值估计量的方差可以有以下比较简单的形式: Lstprostpro SWnfyVYh21)()(若令 为各层内方差的平均,则:Lh22WS21)(SnfYVstpro当估计比例 P 时,同样有:,Lhh)()(1)( PfPnfVstpro其中 Lhh)1(W)1(P为各层内成数方差的平均。(二)最优分配1、一般情形在分层随机抽样中,在给定的费用条件下,使估计量的方差达到最小,或在精度要求(常用方差表示)一定条件下,使总费用最小的各层样本量的分配称为最优分配。在分层随机抽样中,费用函数可能是简单线性的,也可能是其它复杂形式,这里主要考虑简单线性的费用函数: L1h0Cn在估计总体均值时,对给定的各层样本量 nh,估计量的方差为:2h2SWNSV可见,第二项与样本量无关。考虑到 h0nC= V2h1SNh2S则在给定总费用 下使估计量的方差 最小,与在给定 下使 最小均等价于CVC使 )(hh2nCSW= 2h2h)(根据柯西许瓦兹(Cauchy-Schwarz)不等式,有 CV2h)(SW其中等号只有在以下情形时才成立( 达到极小值):( 为常数)KSnShh这意味着: hhCWn则 hhhSK因此hhCSWnK所以使 达到极小的最优分配即为CV= hL1hnShL1hSN即hL1hCSWn可见,最优分配的结果既考虑了总体各层的差异,也同时考虑了总体各层内变异程度上的差异和各层内平均调查费用的差异。当层的容量愈大、层内变异程度愈大,层内每调查一个单元的费用愈小,则在该层中抽取的单元应愈多。2、特殊情形内曼分配如果各层内每个单元的平均抽样费用相等,也即 时,最优分配简化为:0hCL1hL1hnSNW即= ( 应取整)hnL1hSL1hSnhn在内曼分配时,估计量 所能达到的最小方差为:stY)()(stopstopyVNSnSL1h2Lh2W)3、某些层需要超过 100%抽样时的修正 h若抽样比较大,而个别层的 也很大,则按最优分配,一些层S的 有可能超过 (即 1)。这时,可以对这些极端层进行 100%抽样。然hnhNf后将剩下的其余的层可用的样本量再按最优分配法在其它各层间重新进行分配。4、最优分配与比例分配的精度比较比例分配时估计量的方差为:,22211)( SNnSfyVstpro 而内曼分配时估计量的最小方差为:= ,)(stopLh22)W因此:- =)(stproyV)(stop Lh22)(1Sn= Lh2h0)(若诸 很接近,则比例分配与内曼分配的精度相差无己。只有当各层的 相差hS hS较大时,最优分配比比例分配在精度上才有较大的得益。二、总样本量的确定1、估计总体均值的情形设允许估计量的最大方差为,对某种已确定的样本量分配原则,有:,nwh代入总体均值估计量的方差的计算公式,于是对给定的:.LhhSWNVn122当 (比例分配 )时:hWw=LhhSWNVn1221NV当 (内曼分配)时:LhSWw1 2121)()(SNVSWNVnLhh2、估计总体总和的情形同样的道理,可得出对给定的分配形式( )有:nwh.LhhSNVn22当比例分配时 2222SNVSVNnLhh当内曼分配时 2222)()(SNVSVNnLhh3、估计总体比例的情形若 较大,则 ,此时可进一步求出估计 P 时对给定的分配hN2hS)1(hP形式( )有:nw.LhhhhPWNVwn)1(2比例分配时:.)1(n内曼分配时:.LhhhPWNVn)1(2第五章 比估计与回归估计第一节 比估计的一般形式一、比估计综述比估计是依据调查变量与辅助变量间的比率来对总体有关参数进行估计和推断。通常简称比估计。同简单估计相比,比估计具有以下特点:(1)在比估计中,除调查变量外,还需要了解与调查变量有关的辅助变量,并且要求辅助变量的总体均值或总体总和必须事先已知。充分利用辅助变量带来的信息估计总体参数,比单纯用调查变量资料会有更好的效果。(2)比估计方法,对抽样调查单元是有条件的,通常是用组成总体的最基层单位为调查单元。(3)比估计只适用于有限总体,因为只有有限总体才可能计算出为比估计所需要的辅助变量的总体总和与总体均值。(4)当每个单元的调查变量与辅助变量的比例(一般要求为正比例)十分稳定,且变异很小时,比估计就具有十分精确的估计效果,只要抽取少量的样本单元,就可得到满意的结论。(5)在比估计时,出于估计精度方面的要求,选择辅助变量时,须与调查变量的关系愈密切愈好,至少要求相关系数在 1/2 以上。应用比估计时应考虑两条:一是选与调查变量有较密切的正相关关系的变量作为辅助变量;二是样本容量要比较大。二、总体比率的估计设总体有 N 个单元,对每个单元考虑两个指标 y 和 x。抽取容量为 n 的简单随机样本,则总体比率 R 的估计量为: ,xy比率估计是有偏的,但当样本量 n 增大时,偏倚逐渐趋于零。所以,当 n 增大时, , 为 R 的近似无偏估计量,其方差为E)()2(11)( 2122 yxxyNiii RSSXnfxyXfRV 2 xyxyfNiNiiiiiixy XxYyS1122)()(是 y 与 x 的相关系数。当总体方差未知时,可用样本方差替代,以估计方差。此时,)2(1)(1)( 222 yxxyNiii sRsXnfxRyXnfRV 或( 未知时)1)(1)(222nxyxfniii,)2yxysRsnf三、总体均值和总和的比估计在简单随机抽样中,总体均值和总体总和的比估计量分别为: XxyYRNYR其中 或 必须已知。X当 n 充分大时, YER)(R)(即 与 分别是 与 的近似无偏估计。RY其方差为 )2(1)(1)()( 2122 yxxyNiiiR RSSnfRxynfVX ,)22xyxySSf()()( RVXNYRR1)1(22xynfiii )2()22 yxxyRSSfN)()1222 xyxynf其方差估计量为: )2(1)(1)( 22 yxxyniiiR sRsnfxRyfYV )(2RN四、比估计量与简单估计量的比较对简单随机抽样,若 n 足够大,则当 yxyxCYSX21时,有 )(RV第二节 分层比估计一、各层分别比估计各层分别比估计是先对各层分别进行比估计,然后按层权加权平均,以得出总体参数的估计,即: LhRRSYWLhhXxy.( 已知)LhRLhRSYY h为便于表达,下面仅对 Y 的估计量加以阐述。由此,容易得到关于 的估计量Y的结论。在分层随机抽样中,若每层的样本量 都较大,则 为 Y 的近似无hnRS偏估计。其方差为: )2()1)( 22 xhyhxhyhLhRSSfNYV当各层的总体方差未知时,可用相应的样本方差代替。由此得到方差估计量: )2()1)( 22 xhyxhyhLhRS srRsnfYY 的估计量的方差(或方差估计量)乘以 即可得出 的估计量的方差(或21NY方差估计量)。二、联合比估计联合比估计是先按分层随机抽样公式估计 Y 和 X:LhstyNYLhstxN然后用这两个量的比及已知的 X 对 Y 作估计:,RcC其中:.stcX联合比估计 只需要已知 X,而无需已知每层的 。此时:RCY hRYcC分层随机抽样中,若总样本量 n 是较大的,则 与 分别为 Y 与 的RCY近似无偏估计,其方差为: )2()1)( 22 xhyxhyhLhRC SSfNYV)()( 222 xhyxhyhLhR RnfW其方差估计量为: )2()1)( 22 xhycxhcyhLhRC srsfNYV )()( 222 xhycxhcyhLhR RnfW三、各层分别比估计量与联合比估计量的比较从偏倚的角度看,各层分别比估计量 的偏倚较大,从方差的角度看,除了各层比RSY率 均相等时, 外,一般只要各层的样本量均较大时,各层比估计更加hR)()(RCSVY有效。因此,当 均大时,用分别比估计量 否则,用联合比估计量 较好。hnRSRCY第三节 回归估计的一般形式一、回归估计概述回归估计就是根据样本各单元调查变量与辅助变量间的关系构造回归方程,并据回归系数对总体有关参数进行估计。回归估计的主要特点有:同比估计一样,回归估计充分利用了有关的辅助变量资料以有效地提高估计的精度;回归估计中要求辅助变量的总体均值或总和事先已知;回归估计一般只适用于有限总体,因为只有有限总体才可能计算出辅助变量的总体均值和总和;回归估计量一般优于比估计量和简单估计量。特别地当回归系数等于总体比率(即总体回归直线通过原点)时,回归估计量与比估计量的效果相同,当调查变量与辅助变量间的相关系数 =0 时,回归估计与简单估计的效果相同。但是,回归估计量的优越性只有在大样本的情形下才能得到较好的发挥,而在小样本时,它的性质就不大好。回归估计中辅助变量可以是一个,也可以是两个或多个;辅助变量应与调查变量存在一定的联系。二、回归估计量的一般形式对于简单随机抽样,总体均值与总和的线性回归估计量定义为: )()( XxyXyYlr lrlrYN其中, 已知, 、 是样本均值, 可以是事先设定的常数,也可以是Xx从样本中计算得到的某一特定的统计量,例如样本回归系数。 一旦确定,回归估计量的形式也就确定了。特别,当 =0 时, ; 时,ylrx。所以简单估计量和比估计量都可以看成是回归估计量的特例。当xyYlr=1 时,实质是用 估计 。)(xXyYlr1、 为设定的常数(如 =B)时的情形回归估计量则为: )()( XxByylr lrlrYN在简单随机抽样中, 是 的无偏估计量。其方差为:lrY1)()(1)( 2NXxBynfVi iilr)2(12yxxyBSSnf当 、 、 分别为简单随机样本的方差与协方差时,则方差2ysx2ys1)()(1)( 2nxynfYVni iilr)2(2yxxyBssf为 的无偏估计量。)(lrYV可以证明当 xyyNiiiii SXxYyB212)(时, 的方差达到极小,且lrY )1()(2minylrSfYV2、 需从样本计算时的情形当 需从样本计算时,受前面确定 B 的最佳值的思路的启发, 的一个有效估计应是总体回归系数 B 的最小二乘估计,也即取 为样本回归系数niiiiixyb12)(此时,总体均值的回归估计量为: )()( XbyXbyYlr在简单随机抽样中,当充分大时,有 )1()(2ylrSnfV方差的估计量为: i iilr xbfY12)()()2()第四节 分层回归估计一、各层分别回归估计先对每层分别进行回归估计( 已知)(hhlrhxXyY然后按层权加权平均,得总体平均数的估计量为:.LhlrlrsYW当 为设定的常数(如 = )时, 是 的无偏估计量,且hhBlrs.)2(1) 22 xhyxhyhLhhlrs SBSnfYV当回归系数需从样本估计时,令 nihii ihihxyb12)(当每层的 都较大时hn,Lh hyhlrs SnfWYV)1()()( 22其估计量为 Lh nihi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论