统计学 第四章 抽样估计.ppt_第1页
统计学 第四章 抽样估计.ppt_第2页
统计学 第四章 抽样估计.ppt_第3页
统计学 第四章 抽样估计.ppt_第4页
统计学 第四章 抽样估计.ppt_第5页
已阅读5页,还剩108页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一节抽样分布第二节抽样误差第三节参数估计方法第四节各种抽样组织形式的参数估计,第四章抽样估计,第一节抽样分布,一、抽样分布的基本问题二、常用的抽样分布定理,医生抽取病人少量的血化验工厂质检员抽样检测灯泡寿命超市设免费品尝产品抿一口茶,试凉热买书,随便翻几页看印刷质量,什么是抽样?,抽样在生活中随处可见,大学生每周上网花多少时间?,为了解学生每周上网花费的时间,中国人民大学公共管理学院的4名本科生对全校部分本科生做了问卷调查。调查的对象为中国人民大学在校本科生,调查内容包括上网时间、途径、支出、目的、关心的校园网内容,以及学生对收费的态度,包括收费方式、价格等问卷调查由调查员直接到宿舍发放并当场回收。对四个年级中每年级各发60份问卷,其中男、女生各30份。共收回有效问卷共200份。其中有关上网时间方面的数据经整理如下表所示,大学生每周上网花多少时间?,平均上网时间为8.58小时,标准差为0.69小时。全校学生每周的平均上网时间是多少?每周上网时间在12小时以上的学生比例是多少?你做出估计的理论依据是什么?,抽样估计是以样本观测结果去估计未知的总体数量特征。如何根据概率抽样的样本去估计总体的理论与方法,因此首先要明确总体分布、样本分布与抽样分布三者的关系。,一、抽样分布的基本问题,(一)总体分布及其特征总体分布就是总体中所有个体关于某个变量(标志)的取值所形成的分布。同一变量不同的总体或同一总体不同的变量,其分布是不同的。变量分布的形态很多,例如J型分布、U型分布和钟型分布等,不同的分布会有不同的特征,认识总体分布特征是统计研究的任务之一。,一、抽样分布的基本问题,总体参数的值应由总体全部单位的标志值计算而来:对于特定的总体,总体参数值是唯一的。对于无限总体和非全面调查的有限总体,总体参数的值通常未知,只能通过样本来估计。,反映总体分布特征的指标叫总体参数,一般用来表示。常用的总体参数有两个:总体均值(包括是非变量的均值);总体方差或标准差(包括是非变量的方差或标准差)。,总体均值(总体平均数):,设有限总体容量为N,各单位某项标志的值分别为;若是非标志则设具有某种属性的有N1个单位,不具有某种属性的有N0个单位,则,2、总体方差:,3、总体标准差:,4、总体成数(总体比例),5、总体是非标志的均值,如前是非标志的平均数为P,由于标准差有良好的数学性质,相比较而言,它的应用最为广泛。,6、总体是非标志的方差,(二)样本分布及其特征样本分布就是样本中所有个体关于某个变量(标志)的取值所形成的分布。同一变量不同的样本或同一样本不同的变量,其分布是不同的。由于样本来自于总体,包含了一部分关于总体的信息,所以样本分布是一种经验分布。当样本容量很大,或者是当逐渐增大时,样本分布会接近总体分布。如果样本容量很小,那么样本分布就有可能与总体分布相差很大,抽样估计的结果就会很差。,反映样本分特征的指标叫样本统计量,通常用T来表示。样本统计量是随机变量,它的取值随样本的不同而发生变化。样本统计值:是样本统计量的值,由样本单位的标志值计算而来,用来估计总体参数。,与总体参数相对应,常用的样本统计量有样本均值(或样本成数)样本方差(或样本标准差),样本均值:,设样本中n个样本单位某项标志的标志值分别为,若为是非标志则设具有和不具有某种属性的样本单位数目分别为和个,则,2.样本方差:,3.样本标准差:,4.样本成数(样本比例):,5.样本是非标志的均值:,6.样本是非标志的方差:,反映样本分布特征的样本统计量的值(即样本统计值)是可知的。但是由于抽样的随机性,样本统计值不是惟一确定的,因此样本统计量是随机变量,其值随样本不同而不同。抽样估计,就是要以可知但非惟一的样本统计值去估计惟一却未知的总体参数的值。,(三)抽样分布及其特征1.抽样分布的概念及影响因素一般意义上说,抽样分布就是样本统计量的概率分布,它由样本统计量的所有可能取值和与之对应的概率所组成。如果说样本分布是关于样本观测值的分布,那么抽样分布则是关于样本统计值的分布,而样本统计值是由样本观测值计算而来的。,实际的抽样分布形成取决于以下五个因素:,总体分布(越集中,抽样分布越集中)样本容量(最关键因素,容量越大抽样分布越集中)抽样方法(采用重复或不重复方法,抽样分布不同)抽样组织形式(不同形式下的样本个数及结构不同,抽样分布也不同)估计量构造(样本估计量不同,抽样分布不同),抽样方法,根据取样方式不同,可分为:,重复抽样,不重复抽样,从总体N个单位中随机抽取一个样本容量为n的样本,每次从总体中抽取一个,并把结果登记下来,又放回总体中重新参加下一次的抽选。又称放回抽样,总体单位数N不变,同一单位可能多次被抽中。,每次从总体中抽选一个单位后就不再将其放回参加下一次的抽选。又称不放回抽样.,总体单位数N连续不断地减少,同一单位只可能被抽中一次。,简单随机抽样,对总体未作任何处理的情况下,然后按随机原则直接从总体中抽出若干单位构成样本,抽取样本的具体方法:,抽签法,随机数表法,是将总体中每个单位的编号写在外形完全一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单位。,随机数表:事先按随机原则抽取的数字,写成的表。随机数字表是根据摇码器或计算机模拟产生的。其中不仅0-9出现的概率相等,而且由这10个数码组成的两位数、三位等出现的概率也是相等的。应用随机数表,可以从任一行、任一数字、任一方向开始,位数也可任意组合,甚至还可以略去其中一行或一列不用。关键在于要先建立一个原则,然后从头到尾都依这个原则去做。,当N很大时,不易构造抽样框,有时得不到完整的抽样框。抽出的单位很分散,给实施调查增加了困难。没有利用其他辅助信息以提高估计的效率,该方法可能不是最精确的。,简单随机抽样的缺点,分层抽样就是先将总体按一种或几种特征(性别班级教育地理位置等)分为几个同质性的总体(类、群),每一个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合在一起,即为总体的样本,称为分层样本。,类型抽样(分层抽样),总体N,例如,某地居民中成年人有6000人,其中老年人有800人,中年人有2000人,青年人有3200人,现从中调查300人,问如何确定各层调查人数?抽样比例:p=300/6000=5%老年层抽取样本数为:800*5%=40(人)中年层抽取样本数为:2000*5%=100(人)青年层抽取样本数为:3200*5%=160(人),等比例分层随机抽样,当总体中某一层人数过少,但又具有较高的研究价值,这时可增大这一层的抽样比例。如对老年人的研究。但这样做的结果,统计分析时要做适当的修正。另外,实践中分层抽样还有其他如分层最佳抽样、最低成本抽样等方法。,不等比例分层随机抽样,分层抽样的随机性体现在按总体分组比例每一组(层)中随机抽样。(随机抽样范围缩小到层)这种方法实质上是分层与单纯随机抽样的结合。为各层之间既不能有重复也不能有遗漏,然后用简单随机抽样或系统抽样的办法从每层中抽取一定数量的样本。层内个体之间的差异越小,而不同层之间的差异越大时,分层抽样的效果越好。实例:按照年级男女生比例进行分层抽取样本。,类型抽样的优点:,能提高样本的代表性;能降低影响抽样平均误差的总方差;组织起来较为方便;,系统抽样,就是先将总体各单位按一定顺序排列起来,每隔一定间隔选取一个样本,直至抽满n个样本为止。系统抽样时每个样本单位抽中的概率相同,为1/k。,系统抽样,具体做法是:(A)将总体的所有个体前后排列起来。(B)计算抽样距离。抽样距离K=N/n(N为总体包含个体数;n为样本所含个体数);(C)在头K个个体中,用完全随机的方式抽取一个个体,设其所在的位置的序号是A。(D)自A开始,每隔K个个体抽取一个个体,即陆续抽取的个体所在位置序号为A,A+K,A+2KA+(n-1)K。(E)将n个个体合起来,就构成了该总体的一个样本。,前面讲述的简单随机抽样、分层抽样和系统抽样,都是从全部总体中抽取样本单位。在缺乏总体抽样框的情况下,适宜采用整群抽样方法。,整群抽样,将总体全部单位分为若干“群”,然后以群作为抽样单位,从总体中抽取若干群作为样本,并对中选群的所有单位进行全面调查。,简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差,它们在第一步都是根据某种标准将总体分为一些小群。由于抽样方式的不同,导致两者间划分子群的原则也不同。在分层抽样中,层的划分依据的是层间异质性高,即层间差异大,层内则尽可能同质的原则,即层间差异小。,整群抽样与分层抽样异同,整群抽样因仅抽取某几个子群作为整体的代表,如果子群间差异显著,且每个子群内同质性很高,那么这种情况下抽取的几个子群显然无法代表总体。因此,整群抽样的分群原则应与分层抽样不同,它是使得群体间异质性低,即群间差异小,群内异质性高,即群内差异大。因此,分层抽样适用于界质分明的群体,而整群抽样适用于界质不清的总体。,整群抽样与分层抽样异同,当总体很大时,直接从总体中抽取单位,在技术上就会产生困难,因此一般采用多阶段抽样,也称多级抽样。多阶段抽样就是先从总体中抽出较大总体,再从选中的较大总体中抽出较大范围的单位,再从选中的大单位中抽较小范围的单位,依次类推,最后再按随机或系统或其它抽样方法从更小的范围抽出基本单位。,多阶段抽样,例如,要进行一次全国性抽样调查,第一步先从全国各个省和直辖市中抽取若干省和直辖市,然后从入选的省和直辖市中抽取若干个县,第三步再从入选的县级单位中抽出若干个乡和镇,最后再从抽到的乡和镇中确定调查的对象,就是多阶段抽样。其中每一阶段抽样,既可采用简单随机抽样,也可采用系统、整群、分层等方法。而且各阶段所用方法也不要求相同。,多阶段抽样,例:在某省100多万农户抽取1000户调查农户生产性投资情况。,多阶段抽样,多阶段抽样的适用范围,多阶段抽样具有整群抽样的优点,同时还可用于:,1、当抽样调查的面积很广或者总体范围太大无法直接抽取样本时,2、可以相对地节约人力物力,3、对那些基本单位数多且分散的总体,可使抽样工作大大简化,2.抽样分布形式在抽样估计中,最基本的抽样分布是样本均值的抽样分布和样本成数的抽样分布,以此得到抽样分布的形式。,第二节抽样误差,一、抽样中的误差构成二、抽样误差的表现形式,一般地,抽样中的总误差可以简单地分为两类,一类是抽样误差,一类非抽样误差。所谓抽样误差是由于抽样的非全面性和随机性所引起的偶然性误差,即因抽样估计值随样本不同所造成的误差。偶然性误差的特点是,它随着样本容量的增大而趋向于0。,一、抽样中的误差构成,所谓非抽样误差是由随机抽样的偶然性因素以外的原因所引起的误差,是非抽样调查所特有的。它主要是由于抽样框不够准确(与目标总体不一致)、有些观测单位的数据无法取得、已取得的一些数据不真实等原因引起的样本观察数据非同质、或残缺、或不真实而产生的误差。这种误差与抽样的随机性无关,往往具有系统偏向性。当非抽样误差超过一定程度时,抽样估计结果就会与实际情况严重不符,就会失去意义。因此,减少和控制非抽样误差具有很重要的意义。,抽样误差的表现形式一般有三种:抽样实际误差、抽样标准误和抽样极限误差。(一)抽样实际误差抽样实际误差是指样本估计值与总体参数值之间的离差,表示为。抽样实际误差是随机变量,因为依据不同样本得到的估计值与总体参数值之间的离差是不同的。,二、抽样误差的表现形式,(二)抽样标准误抽样标准误就是抽样分布方差的平方根,即抽样分布的标准差或样本统计量的标准差,表示为=。抽样标准误能衡量抽样误差大小的一般水平。从理论上看,对于确定的总体和样本容量,在相同的抽样方法和抽样组织形式下,抽样标准误是个惟一确定的值;但是,由于不同样本所得的抽样标准误的估计值互不相同,因而从这个意义上来说,抽样标准误又是随机变量。,二、抽样误差的表现形式,(三)抽样极限误差,是指以样本估计量估计总体参数时所允许的最大误差范围通常用表示,抽样极限误差的实际意义:实际上就是对总体参数可允许取的最高值或最低值进行了限制。即希望总体参数落在样本估计量的范围内,抽样极限误差越大,抽样估计的精确度越低,抽样极限误差取决于两个因素:,1、抽样标准误,即抽样分布本身具有多大的标准差。当抽样方法和样本容量固定时,抽样标准误差是一个定值。因此,抽样极限误差通常以抽样标准误差为标准单位来衡量,表示为抽样标准误差的多少倍。抽样标准误差越大(小),抽样极限误差就越大(小),抽样极限误差、抽样标准误差与抽样概率保证程度三者的关系可以这样表示:,其中,称为抽样概率度。,可见,抽样极限误差分别与概率度和抽样标准误差成正比。越大,抽样估计的可靠程度越高,但也越大,估计的精确度降低。,抽样极限误差与抽样标准误之比的系数称为抽样概率度。在正态分布下,抽样概率度用来表示,即=正是当显著性水平为时的标准正态分布的双侧临界值,概率保证程度的高低变化正好可以通过的大小变化来反映。,正是当显著性水平为时的标准正态分布的双侧临界值,概率保证程度与的值是一一对应的,68.27%,95.45%,99.73%,常用的:1=68.27%,90%,95%,95.45%,99.73%=1,1.64,1.96,2,3,2、抽样估计的概率保证程度(置信水平)是指抽样估计结果的可靠程度,即抽样估计结果是正确的概率(可靠程度)有多大。通常表示为,其中称为显著性水平。,指的是总体参数处于区间内的概率。即总体参数不在区间内的概率。,要求估计结果的可靠程度越高,则越大。,第三节参数估计方法,一、估计量的评价标准二、参数估计方法,一、估计量的评价标准,所谓估计量,就是用以估计总体参数的量。估计量一般情况下就是样本统计量。如样本均值,样本比例,样本方差等例如:样本均值就是总体均值的一个估计量。估计值:估计量的某一具体的值,就称为估计值。如果样本均值x=80,则80就是的估计值,评价估计量好坏的标准有四个:无偏性、有效性、一致性和充分性符合标准的称为优良估计量,当有两个以上个统计量可以估计某个总体参数时,应该如何选择?,若,则称为的无偏估计量。,若则称为比更有效的估计量,A,B,指随着样本单位数n的增大,样本估计量的取值趋近于总体参数真值,一致性,若估计量提取了样本中包含的有关总体参数的全部信息,则为充分估计量。例如:,充分性,为、s2n-1为、p为P的无偏、有效、一致、充分估计量。,数理统计证明:,同时满足上述四个标准,则为优良估计量,参数估计方法有两种:点估计区间估计,二、参数估计方法,(一)点估计,点估计:也称定值估计,用样本的估计量的某个取值直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计,关键问题是估计量的选择,点估计的优缺点,(二)区间估计,在点估计的基础上,给出总体参数估计的一个估计区间,该区间由样本统计量加减估计误差而得到根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在7080之间,置信水平是95%,(二)区间估计,是指用一个具有一定可靠程度的区间范围来估计总体参数。即在给定的概率保证程度(可靠程度)1下,找到两个数值1和2,构成总体参数取值的区间范围1,2。该区间称为置信区间,1称为估计下限,2称为估计上限,区间估计的特点:不指出被估计参数的确定数值,而是在一定的概率保证程度下指出被估计参数的可能范围。,区间估计的两个基本要求:置信度1精确度估计区间长度,一般在给定的概率保证程度下,尽可能提高估计的精度(通过降低抽样标准误)。,置信度1越大,越大,估计的精确程度越低。反之,置信度1越小,越小,估计的精确度越高。,希望置信度尽可能大(可靠程度高),同时精确度尽可能高(估计区间的长度短)。但在样本容量n一定时,两者矛盾。,置信水平,将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例,也称置信度表示为(1-为是总体参数未在区间内的比例常用的置信水平值有99%,95%,90%相应的为0.01,0.05,0.10,置信区间的表述,由样本估计量构造出的总体参数在一定置信水平下的估计区间。统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间。如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。同样,其他置信水平的区间也可以用类似的方式进行表述。,置信区间的表述,4.总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数。5.使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确(较窄)的区间。直观地说,较宽的区间会有更大的可能性包含参数。,置信区间的表述,6.但实际应用中,过宽的区间往往没有实际意义比如,天气预报说“在一年内会下一场雨”,虽然这很有把握,但有什么意义呢?另一方面,要求过于准确(过窄)的区间同样不一定有意义,因为过窄的区间虽然看上去很准确,但把握性就会降低,除非无限制增加样本量,而现实中样本量总是有限的。,若已知抽样极限误差,则总体参数处在样本估计量的范围内,那么总体参数的区间范围为:,在一定的概率保证程度下,找到相应的抽样极限误差的值,则可以确定估计区间的上下限,估计区间可表示为:,的估计区间(已知或未知但n30),的估计区间(未知但n30):,P的估计区间:,计算样本均值的标准误差,总体均值的区间估计(大样本的估计),【例】一家保险公司收集到由36个投保人组成的随机样本,得到每个投保人的年龄(单位:周岁)数据如下表。试建立投保人年龄90%的置信区间,解:已知n=36,1-=90%,z/2=1.645。根据样本数据计算得:,总体均值在1-置信水平下的置信区间为,投保人平均年龄的置信区间为37.37岁41.63岁,课练,某小区有1500位20至60岁的女性,用简单随机重复抽样的方法抽出50位,调查结果如下表,要求在95.45的概率保证程度下,估计该小区1500位20至60岁的女性的每日家务时间。,总体均值的区间估计(小样本的估计),【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(单位:h)如下。建立该批灯泡平均使用寿命95%的置信区间,解:已知n=16,1-=95%,t/2=2.131根据样本数据计算得:,总体均值在1-置信水平下的置信区间为,该种灯泡平均使用寿命的置信区间为1476.8h1503.2h,总体均值的区间估计(小样本的估计),【课练】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10克。试估计该批产品平均重量的置信区间,置信水平为95%,P(总体成数)的估计区间可表示为:,计算样本比例的标准误差,重复抽样条件下,不重复抽样条件下,总体比例的区间估计,【例】某城市想要估计下岗职工中女性所占的比例,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间。,解:已知n=100,p65%,1-=95%,z/2=1.96,该城市下岗职工中女性比例的置信区间为55.65%74.35%,样本容量的确定,在抽样调查中样本容量的确定是一个必须要解决的实际问题,它关系到样本对总体的代表性,也关系到抽样调查费用和人力的花费。样本太小会影响样本对总体的推断准确性和可靠性,样本过大则会造成不必要的人力和费用的消耗,以此在抽样调查中样本的容量要适当。,样本容量的确定,随机抽样的主要目的是在于通过样本的情况去估计调查总体的情况。如果样本容量过小,抽样误差太大,调查结果就不具有说明总体情况的代表性,失去了定量研究的意义;而样本量过大,又会导致成本支出较高,体现不了抽样调查的优越性。因此,对企业而言,样本容量的确定总是涉及成本与样本代表性之间的权衡。那么,怎样才能确定一个合理的样本量,使调查样本的代表性和成本支出都在一个合理的范围之内,以求得样本效益的最大化呢?,样本容量的确定,影响样本容量的因素,总体规模:在一定精度要求下,总体越大,其所需样本容量越大;总体各单位标志值的差异程度(即标准差的大小):标准差越大,所需样本容量越多允许的极限误差的大小:越大,所需样本容量越小;推断的可靠程度,即置信度:对可靠程度要求越高,所需样本容量越大;,样本容量的确定,影响样本容量的因素,抽样方法和抽样组织方式:重复抽样比不重复抽样所需样本容量要多;简单随机抽样所需样本容量最多。预期回答率r:n=n1/r调

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论