




已阅读5页,还剩79页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
企业抽样调查,2,主要内容,抽样调查基本知识服务业抽样调查概况企业抽样调查实例,抽样调查基本知识,4,主要内容,抽样调查的基本概念抽样调查的基本理论基本抽样方法抽样方法的选择对抽样调查的基本认识,5,一、抽样调查的基本概念,抽样调查概率抽样与非概率抽样总体与样本目标总体与抽样总体抽样框调查单位与抽样单位误差误差限与置信度抽样效率与设计效果,6,抽样调查,统计调查分为全面调查与非全面调查两类。抽样调查是非全面调查中的一种重要方法,它是从所研究对象的全体(总体)中抽取一部分(样本)进行调查,获取数据,并以此对总体目标量作出推断(估计)。这是广义的抽样调查概念。根据样本抽取方法的不同,抽样可分为概率抽样和非概率抽样。,7,概率抽样,概率抽样(probabilitysampling)也称随机抽样。概率抽样是严格地按照给定的概率来抽取样本的。特点:按一定的概率以随机原则抽取样本。随机不等与随便。随机有严格的科学定义,可用概率来描述,而随便带有人为或主观因素,它不是一个科学的概念。,8,概率抽样(续),每个单位被抽中的概率是已知的,或可计算出来。当用样本对总体目标量估计时,要考虑到该样本抽中的概率,也就是说,估计量不仅与样本观测值有关,也与被抽中的概率有关。通常所提到的抽样调查实际上指的就是概率抽样。国际交流:企业抽样调查包括本行业所有规模的企业。,9,非概率抽样,非概率抽样(non-probabilitysampling)是相对于概率抽样而言,并无严格的定义,不是按随机原则来抽选的。这种抽样效果的好坏在很大程度上依赖于抽样者的主观判断能力和经验,而且不能计算抽样误差,不能从概率意义上控制误差并以此来保证推断的准确性。此外,即使经验可能已表明某种非概率方法过去曾有较好效果,但这并不能保证该方法一直如此。不过尽管有其理论上的弱点,各种形式的非概率抽样仍在实践中广泛采用,主要原因是节省费用和方便。,10,非概率抽样(续1),通常我国的典型调查和重点调查,西方国家称为的有目的抽样或判断抽样等都属于非概率抽样。如果调查的目的是用样本数据推断总体的目标量,并以一定的把握程度保证总体目标量落在目的范围,这时非概率抽样是不合适的。,11,总体和样本,总体(population):总体就是全部被研究的单位,也称研究总体。按研究的总体不同,总体单位可以是人、户或企业。在服务业抽样调查中,总体就是这些行业的企业和个体户。样本(sample):是总体的一部分,从总体中按一定程序抽得的那部分个体或抽样单位。样本量n对总体总单位数N的比称为抽样比(samplingfraction):,12,目标总体与抽样总体,目标总体(targetpopulation):是真正作为研究对象的全体。如要研究山西省居民服务业的情况,目标总体就是所有从事居民服务业的企业和个体户。抽样总体(samplingpopulation):是用作抽样的总体,也就是抽样框。二者应一致,实际难做到。如目标总体是2006年所有从事居民服务业的企业和个体户,但很难做到对在调查时(2007年1月)已消亡的单位的调查,尽管在调查时消亡,但可能在2006年全年营业。先定义目标总体,再根据条件进行修订得到抽样总体。,13,总体参数与样本统计量,无论对总体还是样本,统计中通常使用平均数和标准差等这样一些数量关系进行描述,它们被用于描述总体特征时,称为总体参数,用于描述样本特征时,称为样本统计量。如:居民服务业抽取800家企业,调查结果计算出企业平均营业收入400万元(样本统计量),总体平均营业收入(总体参数)未知。抽样目的是样本(样本统计量)推断总体(总体参数)。如用800家的平均营业收入作为总体平均营业收入的估计值。,14,抽样框,抽样框(samplingframe):抽样框是指包含所有抽样单位的名单或名册。由于抽样方法不同,可有目录框和区域框,分级抽样框。名单中的每个单位都有可识别的基本信息;名单的范围应是完整的,不重不漏。现实中使用的抽样框并不十分完备,一方面,要改进和完善,如更新和维护;另一方面调查的设计者要认真分析抽样框的状况,以评价框的不完整对调查结果产生的影响,并尽可能采取一些补救的办法。,15,调查单位与抽样单位,调查单位(surveyunit):抽样调查要通过对样本单位的观察或调查来取得有关数据或记录有关特征,这些单位称为调查单位。如企业和个体户。抽样单位(samplingunit):抽样单位是指将总体划分成不重叠的有限多个部分的每个部分。区域、企业和个体户。,16,误差,抽样误差(samplingerror):是由于用样本估计总体而产生的误差,也叫代表性误差。非抽样误差(nonsamplingerror):是指除抽样误差以外的,由于各种原因而引起的误差,在各种方式的调查中都存在。,17,抽样框误差,遗漏单位与新增单位;重复;辅助信息是否准确。,18,无回答误差,单位无回答;项目无回答;部分无回答。,19,设计误差,问卷设计引起的误差;抽样设计(选用的方法、分层合理性)及抽选过程(随机)引起的误差。,20,调查员引起的误差,调查员的责任心和态度;调查员水平。,21,被调查者引起的误差,无意识回答误差;有意识回答误差。,22,处理误差,编码;编辑录入;加权;做表。,23,点估计和区间估计,点估计:抽样调查用样本统计量直接作为总体参数的估计值,称点估计。如用样本计算得到的企业平均营业收入作为总体企业的平均营业收入的估计值,就是点估计。区间估计:是对总体参数可能落入的一个数值范围作出的估计,估计值的取值范围称“置信区间”,与置信区间估计相联系的概率称“置信度”,表示置信区间估计包含了总体参数的可靠程度有多大。,24,抽样效率与设计效果,抽样效率(samplingefficiency):是指两个抽样方案的抽样方差之比;当某个估计量的方差比另一估计量的方差小时,则称方差小的估计量效率比较高。设计效果(designeffect,,简写为Deff):就是把一个设计方案的方差与简单随机抽样的方差进行比较。Deff小于1时,表示设计方案的效率高于简单随机抽样,反之,效率低于简单随机抽样。,25,三种性质的分布,总体分布(populationdistribution):是指研究对象这一总体的各个单位标志值的分布状况。样本分布(sampledistribution):样本单位标志值的的分布,就称为样本分布。随着样本的增多,样本分布逐渐接近总体分布。抽样分布:是指样本估计量的分布。如采用同样的抽样方法和同等的样本量,在居民服务业企业中抽取多套样本,每套样本都能计算出一个估计量,所有可能的估计量形成的分布就是抽样分布。,26,永久随机数,随机数就是按随机方法而生成的数码。即0,1,29这十个数字出现的机会是等概率的,但排列的顺序是随机的。永久随机数(PermanentRandomNumbers)则是指长久使用、不改变的随机数。比如一个企业一旦被赋予了一个随机数,则在以后的调查中都使用这个随机数,它类似企业法人代码,具有唯一和终身性。对于样本轮换和不同调查中共享样本非常有用。首先对每个单位赋予一个随机数,然后按随机数大小顺序排队,抽取所需要的样本量。,27,概率,概率是指用来测定样本被抽中可能性大小的一个非负的数值。,28,权数,在概率抽样中,每个样本单位都代表调查总体中的一些未被抽中单位,通常,将一个样本单位所代表的总体单位的数量即样本单位抽中概率的倒数称为这个样本单位的设计权数或基础权数。,29,权数(续1),100个企业中抽10个企业,每个企业被抽中的概率就是10/100=1/10,权数就是100/10=10,即一个样本企业代表了总体中的10个企业。分层抽样中,要在层内计算权数。如企业分成大、中、小3层。,30,分层抽样基础权数计算方法,31,权数(续2),最终权数与基础权数之间的关系最终权数等于基础权数:如果一项抽样调查不存在无回答或涵盖不全等情况,基础权数等于最终权数,可以直接用于估计。最终权数在基础权数基础上进行调整:存在无回答情况(无回答多与少);范围涵盖不全;企业分开;企业重复。,32,权数(续3),不同的抽样方法,权数是不一样的,即推算方法是不一样的。目录抽样:基础权数=N/n,最终权数在基础权数基础上进行调整(无回答、范围涵盖不全)。二阶段目录抽样:基础权数等于两个阶段权数之积。最终权数在基础权数基础上进行调整(无回答、范围涵盖不全),在两个阶段分别调整。如服务业个体抽样,第一阶段抽居村委会,基础权数等于层内居村委会个数样本居村委会个数;,33,权数(续4),第二阶段抽部分个体户,基础权数等于样本居村委会中个体户总数抽取的个体户数。为了避免权数调整,调查中可规定:PSU和个体户不允许无回答;合并和分开的PSU,维持原状;对样本PSUs维护个体户数。fgtybn37.xls,34,权数(续5),整群抽样:与目录抽样方法类似,只不过是将一个群当作一个样本单位对待。基础权数=N/n,最终权数在基础权数基础上进行调整(无回答、范围涵盖不全)。为了避免权数调整,调查中可规定:PSU和个体户不允许无回答;合并和分开的PSU,维持原状;对样本PSUs维护个体户数。,35,总量估计方法,各种抽样方法都有自己的总量估计计算方法,一些复杂抽样的总量估计计算公式比较复杂,但利用权数,各种抽样方法总量估计计算公式可统一、简单地表述为样本权数与指标值乘积的关系。为回答单位的最终权数,是样本单位的指标值。,36,二、抽样调查的基本理论,两个极限定理估计量的优良性不用怀疑要遵守抽样原则,37,两个极限定理,大数定理:随机事件的规律总是在对大量随机现象的观察中才能显现出来,随着观察次数的增大,随机影响将相互抵消,而使规律性有稳定的性质。中心极限定理:由于正态分布在数理统计中具有特别重要的地位,因此关于寻找在什么条件下将趋于正态分布,这类定理统称为中心极限定理。,38,估计量的优良性,无偏性:,的平均值(期望值),满足这个关系的称为是无偏的。相合性:当时,以为极限,满足这个性质的估计量称为是相合的。有效性(方差小):方差小的估计量比方差大的估计量有效。可用性:若趋于零的速度比均方误差的平方根趋于零的速度更快,则称是可用的。,39,三、基本抽样方法,简单随机抽样(simplerandomsampling)等距(系统)抽样(systematicsampling)分层抽样(stratifiedsampling)二阶与多阶抽样(twostageormultistagesampling整群抽样(clustersampling))不等概率抽样(samplingwithunequalprobabilities)二重抽样(doublesampling)或双相抽样(twophasesampling),40,简单随机抽样,方法:1到N编号,抽取n个,每一个样本都有同样的机会被抽中。条件:必须有包含全部单位的抽样框。优点:简单方便,不需要辅助信息。缺点:若样本分散,不好组织或调查成本高;N大时抽样框不容易编制。企业调查中,通常有某些用于分层的辅助信息,很少直接采用简单随机抽样,通常只是用于其他方法的某些过程,如分层抽样中层内样本的抽取。,41,等距(系统)抽样,方法:先将总体单位按某种顺序排队,随机确定一个起点抽取第一个样本单位,然后每隔(=N/n)个单位抽取其余单位。如果抽样间距不是整数,可四舍五入。条件:总体单位的一个确定的排列。优点:实施简单。缺点:精度估计比较困难。通常采用简单随机抽样的方差公式替代。如企业调查中按某规模大小排队,有利于提高精度,在某种程度上获得比例分层的效益,但此时采用简单随机抽样的方差公式可能偏于保守,高估了抽样误差。,42,分层抽样,方法:将总体分成若干独立层,各层内的样本量是独立抽取的,通常采用简单随机或等距抽样,不同层的样本量可以不同,抽选样本的方法可以不同。条件:总体中每个单位都能够分入其中一个层,需要有相应的辅助信息分层依据。优点:组织实施方便,样本散布均匀,精度较高。一是将单位差异较小的单位放在同一层,减少层内方差;二是在总样本量不变的情况下,控制各层中的样本量,方差大层多分配样本,减少抽样误差。企业调查中,分布呈现偏态,分层效果非常明显。,43,二阶与多阶抽样,方法:先将总体划分为若干个群,随机抽取一部分,然后在每个抽中的群中随机抽取要调查的单位。这是二阶抽样,可以在群内进一步分群,每个群内进行二阶段抽样,形成三阶或多阶抽样。前提条件:没有企业名录;调查组织机构出于组织管理和成本方面的考虑,如相对于样本量小但很分散,愿意选择数量大但相对集中的样本。优点:样本相对集中,不需要包含所有单位的抽样框。缺点:抽样时较为麻烦,而且从样本对总体的估计比较复杂。效率低。,44,整群抽样,是二阶段抽样的一种特殊情况,方法:先将总体划分为若干个群,随机抽取一部分,然后在每个抽中的群中抽取所有的单位。条件:必须有全部群单位的名录。优点:不要求有每个二级单位的抽样框;便于实施。缺点:精度较差,效率不高。,45,不等概率抽样,方法:抽选的概率与群的大小成比例。大单位被抽到的概率大,小单位抽到的概率小。PPS,目录抽样中,按每个单位规模(营业收入、从业人数)占总体规模的比重成比例的概率抽取样本。条件:必须有全部群单位规模的辅助信息,且规模指标与估计指标相关程度高。优点:群单位大小不相等时,精度较高,数据处理也不复杂。,46,二重抽样,方法:抽样时分两次抽取样本。先从总体中抽取一个较大样本,称第一重样本,对一重样本进行调查搜集某些信息,然后从中抽取一部分样本第二重样本,对抽中的第二重样本再次进行调查,进一步搜集有关信息。前提条件:抽样框缺乏辅助信息,需要对总体进行分层。优点:提高抽样效率。缺点:在抽取一重样本时需要增加一定的费用,只有当利用这些信息进行分层抽样,所提高的精度的得益大于所增加的费用时,采用二重抽样才是合算的。,47,二重抽样与两阶段抽样,两阶段抽样是先从总体中抽取一定规模的样本(初级抽样单位PSUs),并不对初级抽样单位中的所有二级单位都调查,而是在其中再抽出若干个二级单位进行调查;二重抽样则不同,要对第一重样本进行调查以获取总体的某些辅助信息,并且要利用这些辅助信息进行分层或估计。两阶段抽样中二级抽样单位与一级抽样单位是不同的,如一级抽样单位是居委会,二级抽样单位是个体户;而二重抽样两次的抽样单位是相同的。,48,四、抽样方法的选择,确定抽样方法的原则有效原则:在样本量一定的前提下,误差要小;或在一定精度前提下,样本量要少。如分层抽样,效率高。经济原则:费用要低。精度与费用是评价抽样设计优劣的准则。最优的抽样设计:在费用一定的前提下,达到精度最高;或在满足精度的要求下,调查费用最少。易操作原则:容易组织实施。适应抽样框的原则:充分利用抽样框及已有的信息实际中,原则不能同时兼顾,权衡利弊,选择抽样方法。,49,抽样方法的选择(续1),企业抽样方法的选择目录抽样经济普查建立了名录库,每年两次的维护更新制度;目录抽样设计简单,进行分层后,效率高样本量确定的前提下,分层提高精度;或在精度确定的前提下,分层能减少样本量;缺点:以省为总体进行抽样,样本分布分散。,50,抽样方法的选择(续),世界先进国家对产业活动单位调查,基本都采用目录抽样,具备及时更新维护的名录库。为减轻小企业回答负担,采用税务数据替代的方法。如加拿大Royce-Maranda界限方法,分层后每个单元格单位收入-以下的单位不发表调查,采用税务数据。借鉴经验,权衡利弊,企业选择目录抽样。注意:选择目录抽样方法,就要发挥其方法的优势时,接受其弊端样本分散。(把样本集中到有调查队的县或地市)。,51,抽样方法的选择(续),个体抽样方法的选择二阶段整群抽样(第一阶段):以省为总体,第一阶段抽取县区,第二阶段抽取样本县区内的村/居委会,对抽中村/居委会中的个体户全部进行调查。个体户无名录;建立个体户名录难度大;个体户变动频繁。,52,抽样方法的选择(续),二阶段抽样(目前):首先在由村/居委会构成的一阶段抽样框中抽取村/居委会,在抽中的村/居委会中(利用经济普查时清查的所有在调查范围内的个体户的名单,维护后采用简单随机方式从中)抽取个体户样本进行调查。对于个体户数多的的群(居村委会)采用二阶段抽样。解决调查量大的问题。通过一阶段整群,将大群划小,也能解决调查量大的问题。省里更愿意使用二阶段抽样。,53,五、对抽样调查的基本认识,关于对抽样调查准确性的认识准确(accuracy):客观的真值精确(precision):大量计量结果的均值,多次调查结果的摆动愈小就愈精确。关于样本对总体代表性问题的认识只要抽样是概率抽样,抽得的样本对总体的代表性都是有保证的。,54,对抽样调查的基本认识(续),关于概率抽样局限性的认识“抽样调查不能满足分级管理需要的认识”通过扩大各级样本量来满足;可行性问题。,服务业抽样调查概况,56,主要内容,企业抽样设计个体抽样设计,57,抽样设计,调查范围和总体行业范围:装卸搬运和其他运输服务业、仓储业、计算机服务业、软件业、租赁业、商务服务业、科技交流和推广服务业、居民服务业、其他服务业、社会福利业、体育和娱乐业12个行业大类。调查对象:法人企业和个体户。调查总体划分为企业子总体和个体子总体。,58,抽样设计(续1),目标总体:2007年1至11月正常营业的法人企业和个体户。在调查期(2007年12月)正常营业的法人企业和个体户。抽样总体:2006年营业、停业和筹建的法人企业;2004年经济普查时的所有居/村委会。,59,抽样设计(续2),估计精度要求:以省12个服务员行业为总体控制抽样精度,在95的概率保证程度下,营业收入的cv控制在5以内。,60,抽样设计(续3),基本抽样方法企业:目录抽样,直接从企业名录库中抽取样本企业。个体二阶段抽样第一阶段抽取样本村/居委会;第二阶段在样本村/居委会中抽取个体户。个体一阶段整群抽样,直接抽取样本村/居委会,对抽中的样本村/居委会中的个体户全部进行调查。,61,抽样设计(续4),调查目标估计全省(市)总体总量指标;估计全省(市)企业子总体和个体子总体总量指标。,62,企业抽样设计,搜集整理抽样框抽样框使用普查中心维护后的名录库。由总队到省统计局普查中心去搜集。然后整理为国家要求的格式。样本量类似调查的经验;相关测算;人力、物力、时间和精度等因素。,63,企业抽样设计(续1),2006年1至11月调查为例,国家首先确定14000个企业样本;行业:按每个行业大类的差异大小分配样本;地区:参考收入比重(某省营业收入/全国营业收入)确定各省样本量;迭代方法:将样本量分配到各省的各行业。,64,企业抽样设计(续2),分层和分配样本量(省级)按行业大类分层;在行业大类中划分必调查层和抽样调查层。国家标准必调查层界限.xls抽样层按营业收入分层(累积平方根2-4层)分配样本(大企业层抽样比高)按行业小类进一步分层在行业小类内等比例分配样本,65,企业抽样设计(续3),抽取样本采用永久随机数技术样本抽取方法.xls,66,利用随机数在层内抽取5个样本,67,企业抽样设计(续4),区分有效和无效样本有效样本:调查时点仍然属于服务业抽样调查统计范围的样本单位;无效样本:调查时点已经不属于服务业抽样调查统计范围的样本单位。未完成报表的样本企业原因说明.doc,68,企业抽样设计(续5),加权基础权数:一个样本单位所代表总体单位的数量,样本单位抽中概率的倒数。无回答加权调整:基础权数乘以无回答加权调整因子。总量和方差估计:stata软件,69,企业抽样设计(续6),新增企业的处理由于抽样框中资料的时点与调查时点存在差异,在调查时会遇到新增企业问题。新增企业指企业没有列入抽样框,但在调查时已经产生,如新建企业或由其他行业改行而来的企业。从普查中心搜集相关信息,计算企业个数净增速,调整非必调查层。,70,个体抽样设计,二阶段抽样整理抽样框一阶段抽样框:2005年试点调查时在经济普查基础上整理的居/村名录(个体户数或收入信息)。二阶段抽样框:抽中居/村内个体户名单,71,个体抽样设计(续1),确定一阶段样本量一阶段抽样框分层与分配样本分层:按收入或户数。分配样本:规模大层抽样比要高。抽取一阶段整群样本:随机数确定二阶段样本量:所承受的工作量抽取二阶段样本,72,个体抽样设计(续6),加权和估计加权:基础权数等于一阶段权数和二阶段权数之积。估计:Stata软件。,73,企业抽样调查实例,74,确定调查总体,调查范围和总体(以一个省为例)行业范围:租赁和商务服务业、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 矿山安全生产培训考试题及答案解析
- 2025年国家开放大学《地理学概论》期末考试备考试题及答案解析
- 朔州市2025年公需课考试题库及答案
- 2025年云南省普洱市事业单位工勤技能考试考试题库及参考答案
- 2025年国家开放大学(电大)《文学导读》期末考试备考试题及答案解析
- 定期定额基金从业考试及答案解析
- 微商从业要考试及答案解析
- 2025年国家开放大学(电大)《现代文学与文化》期末考试备考试题及答案解析
- 初级安全生产模拟题题库及答案解析
- 2025年国家开放大学(电大)《德语》期末考试备考试题及答案解析
- 江浙皖高中(县中)发展共同体2025-2026学年高三上学期10月联考技术试题(含答案)
- 2026年国网山东省电力公司高校毕业生提前批招聘(约450人)考试参考试题及答案解析
- 2025年全国应急管理普法知识竞赛试题库及答案
- 2025贵州盐业(集团)遵义有限责任公司招聘15人笔试备考试题及答案解析
- EMS供应商对比方案报告
- 管理会计(1)-课件
- Q-SY 08365-2021 气瓶使用安全管理规范
- 通脉颗粒课件
- COPD患者自我CAT评分表
- 化工自动化控制仪表作业安全操作资格培训教材课件
- 造纸培训制浆造纸培训造纸纸病分析处理(“毛布”文档)共112张
评论
0/150
提交评论