




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、( (应用统计学经济与管理中的数据分析应用统计学经济与管理中的数据分析) )第六章抽样调查根底第六章抽样调查根底2第六章 抽样调查根底【本章导读及学习目标】【本章导读及学习目标】抽样调查是统计学中两个具体研究样本获得方法的抽样调查是统计学中两个具体研究样本获得方法的分支之一分支之一(另外一个是本书第八章讨论的试验设计另外一个是本书第八章讨论的试验设计),它按一定的程序从所研究的对象的全体,它按一定的程序从所研究的对象的全体(总体总体)中中抽取一局部抽取一局部(样本样本)进行调查或者观测,再根据获得进行调查或者观测,再根据获得的样本数据对总体的未知参数做推断的样本数据对总体的未知参数做推断(本章
2、主要是本章主要是估计估计)。抽样调查有较深的数学处理,本章只介绍。抽样调查有较深的数学处理,本章只介绍一些根底。本章的主要目的是掌握几类重要的随机一些根底。本章的主要目的是掌握几类重要的随机抽样以及系统抽样的根本思想,掌握简单随机抽样抽样以及系统抽样的根本思想,掌握简单随机抽样的样本容量确定方法,了解其他几类随机抽样的样的样本容量确定方法,了解其他几类随机抽样的样本配置方法,掌握各类抽样的总体参数的简单估计本配置方法,掌握各类抽样的总体参数的简单估计方法,了解估计量的方差性质,知道比估计的概念方法,了解估计量的方差性质,知道比估计的概念。3第一节第一节 基基 本本 概概 念念抽样调查涉及的概念
3、比较多。首先对抽样抽样调查涉及的概念比较多。首先对抽样(sampling)做一个大的分类:概率抽做一个大的分类:概率抽样样(probability sampling)和非概率抽样和非概率抽样(non-probability sampling),其中概,其中概率抽样又可以称为随机抽样率抽样又可以称为随机抽样(random sampling)。概率抽样具有以下几个根本。概率抽样具有以下几个根本特点:能够确切地定义特点:能够确切地定义(或区分或区分)不同的样本,即能够明确说明一个确定的样本不同的样本,即能够明确说明一个确定的样本包含哪些个体;对每个可能的样本,都赋予一个被抽到的概率;通过某种包含哪些
4、个体;对每个可能的样本,都赋予一个被抽到的概率;通过某种随机形式从总体中抽取一个样本,使这个样本被抽中的概率等于所赋予的概率随机形式从总体中抽取一个样本,使这个样本被抽中的概率等于所赋予的概率;从样本估计总体参数时需要与抽样概率相联系。概率抽样的优点在于可以;从样本估计总体参数时需要与抽样概率相联系。概率抽样的优点在于可以估计抽样误差,可获得估计的精度。非概率抽样主要依赖主观判断,或根据操估计抽样误差,可获得估计的精度。非概率抽样主要依赖主观判断,或根据操作方便的原那么进行。非概率抽样一般不能估计其抽样误差。本章的重点是概作方便的原那么进行。非概率抽样一般不能估计其抽样误差。本章的重点是概率抽
5、样,对非概率抽样只讨论系统抽样。率抽样,对非概率抽样只讨论系统抽样。抽样可以逐个进行,即每次只从总体中抽取一个个体抽样可以逐个进行,即每次只从总体中抽取一个个体(或单元或单元),也可以整个样本,也可以整个样本一次同时抽取。在逐个抽取时,每次被抽到的个体可以不放回也可以重新放回一次同时抽取。在逐个抽取时,每次被抽到的个体可以不放回也可以重新放回整体中去,前者称为不放回抽样整体中去,前者称为不放回抽样(sampling without replacement),后者称为,后者称为放回抽样放回抽样(sampling with replacement)。如果整个样本一次同时抽取也是一种。如果整个样本一
6、次同时抽取也是一种不放回抽样。另外,当抽取总体中的每个个体时,个体被抽中的概率可以是相不放回抽样。另外,当抽取总体中的每个个体时,个体被抽中的概率可以是相等的,也可以是不等的。前者称为等概率抽样等的,也可以是不等的。前者称为等概率抽样(sampling with equal probabilities),后者称为不等概率抽样,后者称为不等概率抽样(sampling with unequal probabilities)。4一、抽样单元和抽样框一、抽样单元和抽样框为使抽样能够实施,同时也为了具体抽样的便利,通常将总体划分成互不重叠且有穷尽为使抽样能够实施,同时也为了具体抽样的便利,通常将总体划分
7、成互不重叠且有穷尽的假设干局部,每个局部称为一个抽样单元的假设干局部,每个局部称为一个抽样单元(sampling unit)。抽样单元不一定就是组成整体的最小单位。如在电视剧收视率抽样调查中,可以将每个抽样单元不一定就是组成整体的最小单位。如在电视剧收视率抽样调查中,可以将每个电视观众作为抽样单元,也可以将每个拥有电视机的家庭作为抽样单元;在人口变动量电视观众作为抽样单元,也可以将每个拥有电视机的家庭作为抽样单元;在人口变动量抽样调查中可以将县、乡抽样调查中可以将县、乡(街道街道)或居委会或居委会(村村)都作为抽样单元。抽样单元可以是自然形成都作为抽样单元。抽样单元可以是自然形成的,例如各级行
8、政单位、机关、学校、工厂以至个人;也可以是人为划分的,例如在田的,例如各级行政单位、机关、学校、工厂以至个人;也可以是人为划分的,例如在田地调查中,将整块田地划分为边长一米的方形小块作为抽样单元。地调查中,将整块田地划分为边长一米的方形小块作为抽样单元。抽样单元有大小之分。一个大的抽样单元抽样单元有大小之分。一个大的抽样单元(例如省例如省)可以分成假设干个小的抽样单元可以分成假设干个小的抽样单元(例如例如县县),前者称为初级单元或一级单元,前者称为初级单元或一级单元(primary sampling unit),后者称为次级单元或二级,后者称为次级单元或二级单元单元(secondary sam
9、pling unit)。这些概念对于理解较复杂的抽样方法,例如多阶抽样。这些概念对于理解较复杂的抽样方法,例如多阶抽样与整群抽样,非常重要。与整群抽样,非常重要。样本中包含的抽样单元数样本中包含的抽样单元数 称为样本量称为样本量(size of the sample),样本量与总体单元总数,样本量与总体单元总数 之比之比 称为抽样比称为抽样比(sampling fraction)。须强调,在复杂抽样中。须强调,在复杂抽样中 是指该抽样中的最根本的单元是指该抽样中的最根本的单元的数量。的数量。在总体中按抽样单元进行概率抽样时,需要一份有关抽样单元的名册、清单或地图。记在总体中按抽样单元进行概率抽
10、样时,需要一份有关抽样单元的名册、清单或地图。记录或说明总体所含全部录或说明总体所含全部(初级初级)抽样单元或一个较大的抽样单元所包含的全部次一级抽样单抽样单元或一个较大的抽样单元所包含的全部次一级抽样单元的这种名册、清单或地图称为抽样框元的这种名册、清单或地图称为抽样框(sampling frame)。在抽样框中,每个抽样单元。在抽样框中,每个抽样单元都被编上号。抽样框是设计并实施一个抽样方案所必须具备的根底资料。一旦某个单元都被编上号。抽样框是设计并实施一个抽样方案所必须具备的根底资料。一旦某个单元被选中,也需要根据抽样框找到这个单元,从而能够实施调查。被选中,也需要根据抽样框找到这个单元
11、,从而能够实施调查。5二、误差二、误差误差一般理解为估计值与真实值之间的差异。误差误差一般理解为估计值与真实值之间的差异。误差越小,估计量的精度越高。越小,估计量的精度越高。抽样调查中的误差来源主要有两个,一种是非抽样抽样调查中的误差来源主要有两个,一种是非抽样误差误差(non-sampling error),它是指由于调查中获,它是指由于调查中获得的原始数据不准确得的原始数据不准确(例如测量误差例如测量误差)、抽样框有缺、抽样框有缺陷陷(抽样框中的抽样单元有重复或遗漏抽样框中的抽样单元有重复或遗漏)、或在调查、或在调查中由于种种原因无法得到符合抽样设计方案的全部中由于种种原因无法得到符合抽样
12、设计方案的全部样本数据样本数据(例如局部调查对象拒绝答复以下问题例如局部调查对象拒绝答复以下问题)等等原因引起的。原因引起的。抽样调查误差的另一来源是抽样误差抽样调查误差的另一来源是抽样误差(sampling error),它是由于我们用局部的样本数据对整体的,它是由于我们用局部的样本数据对整体的总体参数进行估计所引起的误差。总体参数进行估计所引起的误差。6三、精度、信度与效度三、精度、信度与效度7图图6-1描述了描述了ABC三种抽样调查对各自的总体均值参数的估三种抽样调查对各自的总体均值参数的估计情况,图中的空心圆圈表示均值参数真值的位置,而散点计情况,图中的空心圆圈表示均值参数真值的位置,
13、而散点表示了抽样样本。从图中可以直观地看到,表示了抽样样本。从图中可以直观地看到,A偏倚小偏倚小(可以可以理解成样本理解成样本“重心和均值参数真值位置之间的系统性误差重心和均值参数真值位置之间的系统性误差)而样本的方差而样本的方差(可以理解为调查中的随机误差可以理解为调查中的随机误差)大,称这样的大,称这样的抽样调查效度抽样调查效度(validity)高而信度高而信度(reliability)低;低;B的系统性的系统性误差大而随机误差小,称这样的抽样调查效度差而信度高;误差大而随机误差小,称这样的抽样调查效度差而信度高;相比之下,相比之下,C的系统误差与随机误差都小,即均方误差小,的系统误差与
14、随机误差都小,即均方误差小,精度高。精度高。8第二节第二节 简单随机抽样简单随机抽样简单随机抽样简单随机抽样(simple random sampling)有两种等价的定有两种等价的定义:第一,从总体义:第一,从总体 个单元中,一次抽取个单元中,一次抽取 个单元,使全部可个单元,使全部可能的能的 种不同的结果每种被抽到的概率都等于种不同的结果每种被抽到的概率都等于 ,通过这种抽,通过这种抽样得到的样本叫做简单随机样本,样本容量为样得到的样本叫做简单随机样本,样本容量为 ;第二,从;第二,从总体总体 个单元中,逐个不放回地抽取单元,每次抽取到尚未个单元中,逐个不放回地抽取单元,每次抽取到尚未入样
15、中的任何一个单元的概率都相等,直到抽足入样中的任何一个单元的概率都相等,直到抽足 个单元为个单元为止,这样所得的止,这样所得的 个单元也组成一个简单随机样本。图个单元也组成一个简单随机样本。图6-2形形象地表示了简单随机抽样。象地表示了简单随机抽样。9一、样本容量确实定一、样本容量确实定(一一)参数为总体总和或总体均值的情形参数为总体总和或总体均值的情形(二二)参数为总体比例的情形参数为总体比例的情形10二、估计方法二、估计方法(一一)估计方法估计方法1. 简单估计2. 比估计(二二)估计量的无偏性估计量的无偏性(1) 总体均值(2) 总体总值(3) 总体比例(4) 总体比率11三、方差与区间
16、估计三、方差与区间估计1. 总体特征的方差的简单估计总体特征的方差的简单估计2. 比估计量的方差估计比估计量的方差估计12第三节第三节 分层随机抽样分层随机抽样13一、层数确定与样本量分配一、层数确定与样本量分配(一一)确定层数的根本思想确定层数的根本思想(二二)每层样本量的分配每层样本量的分配1. 比例分配比例分配2. 最优分配最优分配3. 奈曼最优分配奈曼最优分配(Neyman optimum allocation)14二、估计量及其性质二、估计量及其性质(一一)估计量估计量1. 简单估计2. 比估计(1) 分别比估计:(2) 联合比估计:(二二)估计量的性质估计量的性质1. 简单估计2.
17、 比估计15第四节第四节 多阶段抽样多阶段抽样一、多阶段抽样概述一、多阶段抽样概述多阶段抽样多阶段抽样(multi-stage sampling)是将整个抽样是将整个抽样过程分成假设干个阶段,每个阶段抽出一个级别的过程分成假设干个阶段,每个阶段抽出一个级别的单位,最终抽出被调查者。多阶段抽样可以是两阶单位,最终抽出被调查者。多阶段抽样可以是两阶段、三阶段或者更多阶段抽样。这里主要介绍两阶段、三阶段或者更多阶段抽样。这里主要介绍两阶段抽样。段抽样。假设总体由假设总体由 个初级单元组成,每个初级单元又由假个初级单元组成,每个初级单元又由假设干个二级设干个二级(次级次级)单元组成,假设在总体中按一定
18、单元组成,假设在总体中按一定的方法抽取的方法抽取 个初级单元,对每个被抽中的初级单元个初级单元,对每个被抽中的初级单元再抽取假设干二阶单元进行调查,这种抽样被称为再抽取假设干二阶单元进行调查,这种抽样被称为二阶段抽样二阶段抽样(two-stage sampling)。二阶段抽样的实施,首先按一定的方法从总体中随二阶段抽样的实施,首先按一定的方法从总体中随机抽取机抽取 个初级单元,再对每个被抽中的初级单元抽个初级单元,再对每个被抽中的初级单元抽取假设干个二级单元,因此在求二阶段抽样估计量取假设干个二级单元,因此在求二阶段抽样估计量的均值与方差时,就必须把这个二阶段抽样过程中的均值与方差时,就必须
19、把这个二阶段抽样过程中产生的所有样本加以平均。产生的所有样本加以平均。16一、多阶段抽样概述17二、估计量及其性质二、估计量及其性质(一一)估计量估计量1. 总体均值2. 总体比例(二二)估计量的性质估计量的性质1. 总体均值的方差2. 总体总值方差3. 总体比例的方差18第五节第五节 整群随机抽样整群随机抽样一、整群随机抽样概述一、整群随机抽样概述一些调查中,尽管调查对象是次级单元,但不易得一些调查中,尽管调查对象是次级单元,但不易得到包含所有这些单元的抽样框。例如,一个城市就到包含所有这些单元的抽样框。例如,一个城市就很难找到一份现成的包含其所有居民或房屋的名册很难找到一份现成的包含其所有
20、居民或房屋的名册,但有可能较容易地得到一个包括所有社区居委会,但有可能较容易地得到一个包括所有社区居委会的名册。在这种情况下采取整群抽样,简单易行,的名册。在这种情况下采取整群抽样,简单易行,并可以节约费用。并可以节约费用。设总体由一些大单元,即初级单元设总体由一些大单元,即初级单元(primary unit)组成,每个初级单元又由假设干个较小的次级单元组成,每个初级单元又由假设干个较小的次级单元(secondary unit)组成。从总体中按某种方式抽取组成。从总体中按某种方式抽取某些初级单元,观测其中包含的所有次级单元,这某些初级单元,观测其中包含的所有次级单元,这样的抽样称为整群抽样样的
21、抽样称为整群抽样(cluster sampling),或者,或者称为单阶整群抽样称为单阶整群抽样(single-stage cluster sampling)。如果总体中的单元可以分为多级,那。如果总体中的单元可以分为多级,那么可以对前几级单元采用多阶段抽样,而在最后一么可以对前几级单元采用多阶段抽样,而在最后一阶段中对该级抽样单元中所包含的全部最低级单元阶段中对该级抽样单元中所包含的全部最低级单元进行观测,此即多阶段整群抽样进行观测,此即多阶段整群抽样(multi-stage cluster sampling)。图图6-4给出了一个从给出了一个从124个班中随机抽取个班中随机抽取5个班的整个
22、班的整群抽样的例子。群抽样的例子。19一、整群随机抽样概述20二、群划分的原那么二、群划分的原那么关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,如何确定每个群的组成;二是如何确定群的规模,即群形成的单位时,如何确定每个群的组成;二是如何确定群的规模,即群的大小。的大小。对于第一个问题,群的划分应尽可能使群与群之间的差异小,而群内的对于第一个问题,群的划分应尽可能使群与群之间的差异小,而群内的差异越大越好。这样,每个群才有足够好的代表性。如果所有的群都相差异越大越好。这样,每个群才有足够好的代表性。如果所
23、有的群都相似,那么只抽取少数群就可获得相当好的精度;反之,假设群内的单元似,那么只抽取少数群就可获得相当好的精度;反之,假设群内的单元比较相似,而群与群之间的差异较大,那么整群抽样的效率就会很低,比较相似,而群与群之间的差异较大,那么整群抽样的效率就会很低,所以分群的原那么与分层的原那么是相反的。图所以分群的原那么与分层的原那么是相反的。图6-5直观地说明了理想直观地说明了理想的分层与整群抽样的思想,其中相同字母表示有相近的观测值的单元,的分层与整群抽样的思想,其中相同字母表示有相近的观测值的单元,左图表示分层抽样,实线,图左图表示分层抽样,实线,图6-5是层内的单元,右图表示整群抽样,是层内
24、的单元,右图表示整群抽样,虚线是群内的单元。虚线是群内的单元。21三、群规模大小相等时的估计量及其性质三、群规模大小相等时的估计量及其性质(一一)总体特征的估计量总体特征的估计量(二二)方差的估计方差的估计1. 总体方差的估计2. 总体特征的方差2223第六节第六节 系系 统统 抽抽 样样系统抽样系统抽样(systematic sampling)又称为机械抽样,首先将总体的全部单元按照又称为机械抽样,首先将总体的全部单元按照某一变量排队,接着依简单随机抽样方法从总体中抽取第一个样本点,然后按某一变量排队,接着依简单随机抽样方法从总体中抽取第一个样本点,然后按某种固定顺序和规律一次抽取其余样本点
25、,最终构成样本。某种固定顺序和规律一次抽取其余样本点,最终构成样本。系统抽样有两个特点:第一是抽样之前必须将系统抽样有两个特点:第一是抽样之前必须将 个单元进行排序;第二是第一个个单元进行排序;第二是第一个或第一组样本点之外的其他样本点的选取规那么既不同于第一个或第一组样本或第一组样本点之外的其他样本点的选取规那么既不同于第一个或第一组样本点,也不是随机的。点,也不是随机的。这里之所以称这种方法为系统抽样,是由于第一个样本点一经抽出,整个样本这里之所以称这种方法为系统抽样,是由于第一个样本点一经抽出,整个样本就完全确定了,这种整体性可以被看作是系统的。就完全确定了,这种整体性可以被看作是系统的
26、。在实际操作中,系统抽样有比较广泛的应用。比方,工厂生产线上进行产品质在实际操作中,系统抽样有比较广泛的应用。比方,工厂生产线上进行产品质量检查时就常常采用这个抽样方法。系统抽样的优点是抽样方式简单,对抽样量检查时就常常采用这个抽样方法。系统抽样的优点是抽样方式简单,对抽样框的要求不高,在某些情况下甚至可以不需要抽样框,因而容易实施。而且,框的要求不高,在某些情况下甚至可以不需要抽样框,因而容易实施。而且,系统抽样能使样本在总体中均匀分布,系统样本一般具有较好的代表性。系统抽样能使样本在总体中均匀分布,系统样本一般具有较好的代表性。系统抽样调查的精确度一般要高于简单随机抽样。但由于系统抽样中第
27、一个样系统抽样调查的精确度一般要高于简单随机抽样。但由于系统抽样中第一个样本单位的位置确定以后,其余的样本单位的位置也就自动确定,因此要防止由本单位的位置确定以后,其余的样本单位的位置也就自动确定,因此要防止由于所采用的样本间距和所研究对象本身的周期循环性于所采用的样本间距和所研究对象本身的周期循环性(如果存在的话如果存在的话)相重合而引相重合而引起系统性的偏差。另外,由于系统抽样不是严格的概率抽样,因此系统抽样的起系统性的偏差。另外,由于系统抽样不是严格的概率抽样,因此系统抽样的方差估计比较困难。方差估计比较困难。24一、系统抽样的实施方法一、系统抽样的实施方法(一一)直线等距抽样直线等距抽
28、样(二二)圆形等距抽样圆形等距抽样25二、估计量及其性质二、估计量及其性质(一一)总体特征的估计总体特征的估计(二二)方差及其性质方差及其性质1. 估计量的方差(1) 系统抽样与整群抽样之间的关系(2) 系统抽样与分层抽样之间的关系2. 估计量的方差的性质26第七节第七节 统计软件应用与案例研究统计软件应用与案例研究一、统计软件应用一、统计软件应用利用随机数表、随机数骰子、计算器或计算机产生的随机数利用随机数表、随机数骰子、计算器或计算机产生的随机数进行抽样,假设代表同一单元的随机数出现两次或两次以上进行抽样,假设代表同一单元的随机数出现两次或两次以上,那么从第二次开始就弃去不用,再抽下一个,
29、直到抽足,那么从第二次开始就弃去不用,再抽下一个,直到抽足 个不同的单元为止。个不同的单元为止。第第1步:翻开一个空白步:翻开一个空白Excel表,选择任意一列表,选择任意一列(图中显示的图中显示的是是A列列),选中单元格,选中单元格A1,单击【插入】菜单,如图,单击【插入】菜单,如图6-8所示所示。第第2步:从弹出框中选中【函数】选项,这时会出现【插入步:从弹出框中选中【函数】选项,这时会出现【插入函数】弹出框,在【选择函数】列表框中选择函数】弹出框,在【选择函数】列表框中选择RAND函数,函数,单击单击“确定按钮,如图确定按钮,如图6-9所示。所示。27一、统计软件应用第3步:在弹出的“函数参数对话框中单击【确定】按钮,如图6-10所示。此时会出现如图6-11所示的界面。按要求修改函数,比方,使随机数在03038之间取整数,如图6-12所示。单击单元格A1的右下角往下拖动,一直到出现400个随机数,即取完样本随机数,如图6-13所示。28二、案例研究二、案例研究(一一)分层并确定抽样单位数分层并确定抽样单位数(二二)层内的整群抽样层内的整群抽样(三三)估计省级人口变动情况估计省级人口变动情况(1) 计算总人口出生率(2) 计算抽样误差的公式(3) 假设省级的人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年慈善总会会计考试题库
- 2025年婚姻家庭咨询师初级笔试题库
- 2025年工业安全工程师面试题
- 2025年安全生产安全生产考试题库
- 2025年宁夏安全员考试重点题库及答案
- 2025年树葬行业应用与生态礼仪师考试预测题
- 2025年托育保健医生考试重点题解析
- 2025年山西C类安全员考试答案解析
- 2025年食堂安全管理员笔试冲刺题
- 2025年人力资源管理师综合素质评定考试试题及答案解析
- 2024年金属钼行业市场趋势分析
- 临床开展十二项细胞因子检测临床意义
- FlowmasterV7中文技术手册
- 房屋承包出租合同
- 石油化学工业的发展历程与前景
- 青海省图书馆(二期)、美术馆、文化馆弱电智能化系统设计方案
- 《滚珠丝杠螺母副》课件
- 复旦研究生入学教育考试
- 2023-2024学年九年级道德与法治上册 同步备课系列 教学设计教案(全册)
- 成熟生产线评价报告
- “高效的课件制作技巧及展示技能培训”
评论
0/150
提交评论