抽样推断.doc_第1页
抽样推断.doc_第2页
抽样推断.doc_第3页
抽样推断.doc_第4页
抽样推断.doc_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章抽样推断第一节抽样推断的意义和作用一、抽样推断的概念抽样推断是在抽样调查的基础上利用样本的实际资料计算出的样本数据,并运用概率估计方法,推算总体相应的数量指标的一种统计分析方法。大家知道,在计划经济条件下,统计为了达到对总体数量特征的认识,往往是采用对总体的所有单位进行全面调查。但从转变为市场经济以后, 对统计调查亦进行了改革, 由以全面调查为主的调查方法,逐步转变为提倡和推广抽样调查。这种调查方法,不同于全面调查,它是通过组织抽样调查取得部分单位的实际资料,来估计和判断总体的数量特征,以达到对现象总体的认识。抽样推断,从其内涵来说,包括抽样调查和抽样推断两部分,前者着重调查,后者着重推断。具体地说,所谓抽样调查,是指按照随机原则从调查对象的全部单位中抽取部分单位,进行调查,取得各项准确的数据;所谓抽样推断,是指运用数理统计原理,根据抽样调查资料, 对研究对象全体的数量特征, 作出具有可靠程度的估计和判断,以达到对现象总体正确认识的目的。总之,抽样推断,不仅是一种科学的非全面的调查方法,而且是一种根据非全面调查资料,推算全面情况的统计研究方法。抽样推断具有如下几个特点:1按照随机原则,抽选调查单位,是抽样推断的前提。 抽样调查,这种非全面调查与其他非全面调查,如典型调查、重点调查等选择单位的方法完全不同。典型调查、重点调查均由调查者有意识地选择调查单位,因而受调查者主观因素的影响。这样取得的调查资料,不能用来对总体的数量特征进行统计推断。抽样调查则是按随机原则抽选调查单位,完全排除调查者主观因素的影响。这样调查的部分单位资料,可以用来推断总体的数量特征。那么,什么是随机原则呢?随机原则就是在抽选调查单位时,保证总体中每个单位都有相等的中选可能性。所以随机原则又称同等可能性原则。这样,按随机原则抽取部分单位,就有更大的可能性使抽取出来的部分单位所构成的样本总体结构与调查总体结构相似,因而使样本总体对调查总体具有充分的代表性,抽样误差也就更小了。还须指出,抽样推断以随机原则为前提,才能使任何一个样本变量都是随机变量,因而任何一种样本指标(或统计量)也是随机变量,抽样推断才有可能利用大数定律和中心极限定理等概率论原理来研究样本指标(统计量)与总体指标(总体参数)的关系,确定优良估计的标准,为抽样设计寻求更有效的组织形式建立科学的理论基础。2运用概率估计法是抽样推断的特有估计方法。 样本数据和参数之间,并不存在自变量和因变量严格对应关系,因而它不能利用一定的函数关系推算总体参数,它却运用归纳推理原理,即不保证从正确的前提一定得到正确的结论,而只肯定从正确的前提得到的结论有一定程度的可靠性。概率估计从这一原理出发具体确定用样本指标推断总体指标的可靠程度的概率有多少。这种推断估计方法是其他推断估计方法所无,而是抽样推断估计所特有。3抽样推断的误差,可以事先计算并加以控制。 以样本指标估计相应的总体指标,肯定会存在一定的误差。但抽样误差的范围,可以事先通过有关资料加以计算,并可采取必要的组织措施来控制这一误差范围,保证抽样推断的结果达到一定的可靠程度。这是其他的估算方法所不能做到的。二、抽样推断的作用抽样推断在社会经济统计中,有其独特的重要作用。(1)对有些不可能或不必要进行全面调查, 但又需要了解其全面数量情况的社会经济现象,则可以运用抽样推断,实现调查的目的。例如,在工业生产中检验某些产品质量时,常常具有破坏性。如灯泡的寿命检验,棉纱的拉力检验等等,不可能对全部产品进行检验,而必须采用抽样,以样本资料推断总体的质量状况。又例如有些现象总体过大,单位过于分散,进行全面调查实际上是不可能的。如检验水库的鱼苗数,森林的木材积蓄量等,也必须采用抽样推断。又有些社会经济现象,从理论上说,可以进行全面调查,但调查范围太广、单位太大,因而不必要进行全面调查,采用抽样推断便可节省人力、费用、时间,并可提高资料的准确性。(2)抽样调查与全面调查同时进行, 可以发挥互相补充和检查调查质量的作用。全面调查由于范围广、工作量大、参加人员多,往往容易发生登记性误差和计算误差。如果在全面调查后,随即抽取一部分单位重新调查一次,将这些单位两次调查的资料,进行对照,加以比较,计算其差错率,并据以对全面资料加以修正,可以进一步提高全面调查资料的准确性。(3)抽样推断可以用于工业生产过程的质量控制。 抽样推断法可以有效地应用于对成批或大量连续生产的工业产品在生产过程中进行质量控制,检查生产过程是否正常,及时提供有关信息,便于采取措施,防止废品的发生。(4)利用抽样推断法还可以对于某种总体的假设进行检验, 判断其真伪,以作出正确的决策。例如,新工艺新技术的改革,是否能收到明显的效果,需要对未知或完全不知道的总体作出一些假设,然后利用抽样推断法,根据实验的材料对所作假设进行检验,作出判断。三、抽样推断法中几个基本概念(一)全及总体、抽样总体(1)全及总体,简称总体,是指所要研究对象的全体。 它是由所研究范围内具有某种共同性质的许多单位组成的集合体。例如,我们要研究某城市职工的生活水平,则该城市的全体职工构成全及总体。全及总体按各单位标志的性质不同 , 可分为变量总体和属性总体。前者总体中各单位的标志为数量标志,后者总体中各单位的标志为品质标志。对于变量总体又可以按其所包含的单位数以及相应的变量多少,而分为无限总体和有限总体。无限总体所包含的单位为无限多,因而各单位也就有无限多的取值。这种无限变量又可分为两类,一类是可列的无限变量,即变量值大小可以按顺序加以一一列举;另一类是不可列无限变量,它是一种连续变量,在任何一个区间内都有无限多的变量,不可能按顺序加以一一列举。有限总体所包含的单位是有限的,其变量值也是有限的,当然可以按顺序加以一一列举。(2)样本总体,又叫子样,简称样本。 它是从全及总体中随机抽取出来的,用以代表全及总体的部分单位的集合。如果全及总体称母集,那么样本总体称子集。在抽样推断实践中,一般样本单位达到或超过30个称大样本,在30个以下的称小样本。社会经济统计中的抽样推断,一般采用大样本。样本总体的单位数相对全及总体的单位数,是很少的。以很小的样本来推断很大的总体,是抽样推断法的重要特点。(二)全及指标和抽样指标1全及指标根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标,称为全及指标。不同性质的总体,需要计算不同的全及指标。例如,变量总体可以计算总体平均数,用大写英文字X表示。 而属性总体,则只能计算比重结构指标,称为总体成数。 用大写英文字母P表示;变量总体也可计算成数。此外,全及指标还有总体标准差和总体方差。它们是测度总体标志值分散程度指标。总体标准差用表示,总体方差用表示。2抽样指标由样本总体各个标志值或标志特征计算的综合指标,称为抽样指标。它有抽样平均数,用小写英文字母表示;抽样成数,用小写英文字母表示;样本标准差用表示;样本方差,用表示。(三)样本容量指样本中的单位数。样本容量在抽样设计中是一个十分重要的问题,因为样本容量大可以提高抽样的准确度,但耗费则要增大,样本容量小,则会降低抽样的准确度,但亦可以减少耗费。因此,如何科学的、恰当地规定合理的样本容量,则是要十分慎重考虑的问题。关于样本容量数目, 即样本必要的单位数目, 将结合抽样方式加以阐述。(四)抽样方法和样本数目抽样方法,即按随机原则从全及总体抽取样本总体的方法。按抽样方法的不同可以进行下列分类:1按抽取方式,可分为两类(1)重复抽样。 从总体N个单位中抽取一个容量为n的样本,每次从总体抽取一个,连续抽取n个, 每次抽出的一个单位,将其结果登记后又放回,重新参加下一次抽选。(2)不重复抽样。 从总体N个单位中抽取一个容量为n的样本,每次从总体抽取一个,连续抽取n个, 但每次抽出的一个单位,将其结果登记后,不再放回参加下一次的抽选。这两种选择的最大区别是,重复抽样,每次抽选都是独立的,即前一次抽选不影响后一次抽选,每个单位中选或不中选的机会在各次抽选中是相同的。而不重复抽样,每次抽选不是独立的,即前一次抽选会影响下一次抽选,每个单位中选或不中选的机会在各次抽选中是不相同的。2按抽样考虑顺序或不考虑顺序,又可分为两种(1)考虑顺序抽样。 是指若先抽取单位A,再抽取单位B,则构成样本AB;若先抽取B,再抽取A,则构成样本BA。样本AB和样本BA,视为两个样本。(2)不考虑顺序抽样。 是指仍按前一种抽取样本单位的结构,构成AB和BA样本,若不考虑顺序时,则视样本AB和样本BA为一个样本。将上述的两种分类,相互交叉则如下图所示:这样,就形成四种抽样方法,即:(1)考虑顺序的重复抽样;(2)不考虑顺序的不重复抽样;(3)不考虑顺序的重复抽样;(4)考虑顺序的不重复抽样。这四种抽取的具体方法,其从总体N个单位中抽取n个单位所构成的样本数目是不相同的。现将其样本可能数目的计算公式列示如表8-1。表8-1计算公式表抽样方法样本数目公式例:5个单位抽3个考虑顺序的重复抽样不考虑顺序的重复抽样考虑顺序的不重复抽样不考虑顺序的不重复抽样(个)(个)(个)(个)(五)样本的概率分布从上所述,从总体为N个单位中, 按照不同的抽取方法抽取容量为n的样本, 可以抽到不同数目的样本。但抽取的每个样本都可以计算其样本指标,而每一个样本指标的取值,却有一定的概率与其相对应,把某一抽样方法的全部样本指标与相应的概率排列起来,就得到样本的概率分布表。如将样本指标的取值分别记为,其相应概率记为,其排列后可得下列,见表8-2:表8-2概率分布例如:将1,2,3,4,5作为一个总体(这一总体的分布为正态分布)。现从这五个数字中, 按随机原则采取不考虑顺序不重复抽样方法,可抽出10个样本。每个样本计算其抽样平均数和相应概率,然后将样本取值和相应概率按大小顺序加以排列,可得概率分布表,如表8-3。表8-3概率分布样本样本平均数概 率1、2、31、2、41、2、51、3、41、3、51、4、52、3、42、3、52、4、53、4、5(1+2+3) 3=2(1+2+4) 3=2.33(1+2+5) 3=2.67(1+3+4) 3=2.67(1+3+5) 3=3(1+4+5) 3=3.33(2+3+4) 3=3(2+3+5) 3=3.33(2+4+5) 3=3.67(3+4+5) 3=41/101/101/101/101/101/101/101/101/101/10总体1,2,3,4,5,为小样本, 但因母体是正态分布,故其样本平均数亦是正态分布。如样本为大样本,则不论母体的分布是否为正态分布,只要样本容量,则样本平均数亦趋近于正态分布。表8-4 概率分布22.332.6733.333.674概率分布具有以下两个性质:1随机变量取值的概率都是非负的,即2随机变量所有取值的概率总和等于1,即根据变量的概率分布,就可以从概率意义上求工的平均数和方差。计算公式如下:从概率分布的基本概念出发,可以研究几个常见的抽样概率分布。(一)重置抽样的概率分布如果在同等条件下,进行n次相互独立的试验, 其结果构成一个容量为n的样本。在试验中,每次只能出现两种不同的情况,其中A出现的概率为,出现的概率为,则样本中包含A事件的个数是一个随机变量。在一次试验中,A出现的概率为,A不出现的概率为,则连续n次试验,A出现k次的概率为:列表如表8-5。表8-5计算公式0 12 k n由于这一分布的概率和二项式的展开式各项相同,所以称之为二项分布。二项分布的特征数:平均数和方差的计算为:例如,从一批包括6件正品,4件副品的10件产品中,用重复抽样的方法去随机抽取4件,所得的样本中,出现k件副品的概率二项分布有以下几个特点:1独立进行n次试验,事件A出现的各种可能事件共有n+1种,即可以0,1,2,n次出现共n+1种。 因此, 如果试验次数n为偶数时,则各种出现的情况必为奇数;反之,n为奇数时, 则各种出现的情况必为偶数。2二项分布的概率,开始随着变数x的增加而从小变大,到达最大可能值,然后随着x的增加而逐渐下降。当试验次数n为偶数时,二项展开式的项数为奇数,因而有一项为最大值; 当n为奇数时,二项展开式的项数为偶数,则有两项为最大值。3当事件A出现的概率和不出现的概率相等,即时,二项概率分布完全对称,所有概率都分布在轴上方,中间概率大,两边概率小,整个分布呈一个钟形。例如,掷一均匀硬币,正面和背面向上的概率各为,将一硬币连续掷6次,其出现正面向上的概率分布如图8-1所示。0123 456从上图可以看到,概率分布成一个完全对称的n边形的折线图。如果试验次数n增加,则图的边也不断增加,最终形成一条圆滑的曲线,这条曲线称为正态分布的概率曲线。4如果事件A出现的概率与不出现的概率不相等,即时,概率分布不对称而向左或向右倾斜,而且两个概率相差愈大,则概率分布的偏差也愈多。但如果试验次数n充分大时,概率分布也不断趋向正态。(二)不重置抽样的概率分布如果总体单位数为N, 其中有n个单位属于A事件,每次不重复抽取n个单位组成一个样本, 则样本中包含A事件的个数x是一个随机变量。从总体N个单位每次不重复抽取n个单位,共有种取法,其中含k个事件A的取法有种,所以列表如表8-7。表8-7计算公式012 k n这一分布为超几何分布。这一分布的平均数和方差的计算如下:从上可知,不重置抽样分布虽然与重置抽样分布不同,但有相同的平均数,不重置抽样分布的方差,只差一项因子,即当N很大时,这个因子接近于1,则两种分布的方差也趋于一致。用重置抽样分布的相同例子来说明。在一批10件产品(其中6件为正品,4件为副品)中,随机抽取4件,求样本中出现k件副品的概率分布。现在取样方法采用不重置抽样,而不是采用重置抽样,那么,它的概率分布也就不同了。分布列表如表8-8所示。表8-8分布列表01234加以整理得:01234 图中实线表示重置抽样的概率分布,为了便于比较,用虚线将不重置抽样的概率分布画出。根据以上概率分布,计算出平均数和方差如下:计算表明:不重置抽样分布的平均数,与重置抽样分布的平均数完全相同;而方差对比,则前者多了一个修正因子,即,也就是说,前者的分布方差等于后者的分布方差的23。(三)正态分布在抽样推断中,正态分布居于特别重要的地位。上述两种分布,即二项分布和超几何分布,都是离散型随机变量的分布,而社会现象中许多是属于连续型随机变量的分布,例如纤维的强力,灯管耐用时间和平均亩产等,都是要用连续型正态分布来描述其变化规律。抽样推断理论证明:大量独立的随机事件总和,可以看成是由许多基本的随机事件共同发生作用的结果, 都趋于正态分布。 所以在抽样推断中,更是广泛应用正态分布。特别还要指出的是,许多属于二项分布的离散型现象,当样本单位数很大,即当n很大时, 计算某一点或某区间的概率,会遇到难以克服的困难。假如利用正态分布作为二项分布的极限式,就可以简便地解决这个问题。1正态分布的密度函数正态分布其密度函数表示如下:式中,为正态分布的平均数,是它的标准差,这两个是决定方程的参数。所以正态分布可以简记为其图形如图8-3。正态分布的重要性质:(1)对称性。即为对称轴,曲线完全对称地向两边伸展。(2)非负性。即密度函数都处于轴的上方。(3)当时,值最大。当时,密度函数为最大值,其余时,密度函数都小于1。值随递增而递减。从上可知值的作用,如果固定不变,只改变值,则密度函数曲线沿轴平行移动,而不改变其形状。其图形如图8-4所示。(4)在处,为密度函数曲线的拐点。即在的区间里,曲线凸向上,此外,曲线凹向下。参数的作用是,如果固定不变,而变小时,则密度函数曲线中心部分纵坐标升高,由于曲线下的面积等于1,所以曲线两侧迅速趋于,表示变量的分布比较集中。反之当变大时,则曲线呈扁平状,表示变量分布比较分散。可用图描述如图8-5。(5)当时,密度函数即曲线向两边下垂,伸向无穷远处。2正态分布的标准化正态分布,函数为:利用分布函数,可以计算落在区间之间的概率。即但是,由于不同现象的随机变量可以有不同的平均数和方差,它们甚至连计量单位都不相同,因而对不同的问题,就有不同的正态分布,要利用上述分布函数F(x)对各类不同的正态分布求某点或某区间的概率,是很困难的。所以必需先对一般正态分布加以标准化,使不同的正态分布变换为具有同一的、数学期望为0,而方差为1的标准正态分布。为此,对随机变量作下列变换,使新的变量等于:则所以标准正态分布密度函数为:其分布函数:并简记为:这样,就可以利用标准正态分布函数计算区间的概率:由此可见,标准正态分布函数是的函数, 给定值就有相应的。为了应用上的方便,把从05相应的概率编成概率表,实际工作中,便可直接查用。在查表之前,需先将随机变量加以标准化,即将原变量变换为标准变量, 同时概率区间的上、 下限也必须加以相应的变换,然后才能据以查表找出所需的概率。例1 机床制造某种零件长度为,服从正态分布,其平均数为15厘米,均方差为0.2厘米,求零件长度在14.715.3厘米(即长度与平均数的正负离差不超过0.3厘米)的概率。查概率表得例2 解放军身高是按正态分布,经抽查平均身高175厘米,均方差4厘米,现军服厂要裁制100000套军服,问身高在171179厘米之间应裁几套。查概率表得身高在171-179厘米需裁制1000000.6827=68270套。 第二节抽样误差一、抽样误差抽样误差是指由于随机抽样的偶然周素使样本各单位的结构对总体各单位结构的代表性差别,而引起的抽样指标和全及指标之间的绝对离差。如抽样平均数与总体平均数的绝对离差,抽样成数与总体成数的绝对离差等等。必须指出,抽样误差是抽样所特有的误差。凡进行抽样就一定会产生抽样误差,这种误差虽然是不可避免的,但可以控制,所以又称为可控制误差。抽样误差与另外两种误差不同。一种是调查误差,即在调查过程中,由于观察测量、登记、计算上的差错所引起的误差:另一种是系统偏误,即由于违反随机原则,有意地选择较好或较差单位进行调查,造成样本代表性不足所引起的误差。这两种误差是可以防止和避免的。影响抽样误差大小的因素主要有:(1)总体单位的标志值的差异程度。 差异程度愈大则抽样误差愈大,反之则愈小。(2)样本单位数的多少。 在其他条件相同的情况下,样本单位数愈多,则抽样误差愈小。(3)抽样方法。 抽样方法不同,抽样误差也不相同。一般说,重复抽样比不重复抽样,误差要大些。(4)抽样调查的组织形式。 抽样调查的组织形式不同,其抽样误差也不相同,而且同一组织形式的合理程度也会影响抽样误差。二、抽样平均误差抽样平均误差是抽样平均数(或抽样成数)的标准差。它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。从同一总体中,按随机原则抽取同样单位数的多个样本,每个样本可以计算各样本平均数(或抽样成数), 将一系列抽样平均数(或抽样成数)计算其抽样平均数(或抽样成数)的标准差, 反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。仍用上例:设有1,2,3,4,5五个数字作为总体, 采用不重复抽样方法,随机抽取三个数字组成样本, 可以组成个样本。其总体平均数为:设抽样为表8-9误差表样 本样本平均数误 差误差平方1、2、31、2、41、2、51、3、41、3、51、4、52、3、42、3、52、4、53、4、5(1+2+3)3=2(1+2+4)3=2.33(1+2+5)3=2.67(1+3+4)3=2.67(1+3+5)3=3(1+4+5)3=3.33(2+3+4)3=3(2+3+5)3=3.33(2+4+5)3=3.67(3+4+5)3=4-1-0.67-0.33-0.3300.3300.330.67110.44890.10890.108900.108900.10890.44891根据表8-9资料:同理:抽样成数平均误差公式为:不过在抽样调查实践中不可能按照上例方法计算全部样本的误差,再计算抽样平均误差。但它可以根据总体方差,样本容量(抽样单位数目)和抽样方式,通过一定公式进行计算。当总体为N,样本容量为n时,抽样平均误差公式为:重复抽样不重复抽样平均数抽样平均误差成数抽样平均误差三、抽样极限误差抽样平均误差说明某一抽样方案总的误差情况,但在实际进行抽样调查时,只抽取一个样本。那么这个样本的误差,可能大于或小于平均误差。对于该项抽样调查,一定会要求有一个允许误差的范围。这一允许误差的范围,就称作极限误差。抽样结果的抽样指标与总体指标之间的离差,可能是正或是负。因此允许误差的范围采取绝对值形式,用表示,即:上两式很容易转化为下列不等式或上式表明抽样平均数是以总体平均数中心在之间变动,区间的总长度为。同样,抽样成数是以总体成数为中心,在之间变动,其区间之总长度为由于总体平均数和总体成数在抽样时是未知的,它要靠实际测定的抽样平均数和抽样成数来估计,因而抽样极限误差的实际价值是希望总体平均数在抽样平均数的范围内变动; 总体成数在抽样成数范围内变动。因此上述两个不等式就要转变为:这两个不等式与上面的两个不等式是完全等价的。极限误差若用平均误差来衡量,即表示极限误差为平均误差的倍。那么亦可变换为:上式表示极限误差与平均误差间的数量关系。由于值与样本估计值落入允许误差范围的概率有关,故称为概率度。一、抽样估计的特点二、抽样估计的理论基础三、抽样估计方法第三节抽样估计的原理和方法一、抽样估计的特点样本的充分代表性和样本资料的准确性,是抽样估计的必要前提。在此前提下,从样本资料达到对总体的正确认识,估计方法亦居于重要的地位。抽样估计的方法具有以下几个特点:(1) 逻辑上运用归纳推理而不是运用演绎推理。演绎推理是在封闭系统中,从一般命题导出特殊结论的逻辑方法,即从三段论中的大前提、小前提而得出的结论。结论的正确性已全部包含在前提的正确性之中。因此演绎推理只要前提正确则结论必定正确。这种推理并不增加多少知识内容。归纳推理与此相反,它是在开放系统中,从研究个别事实达到一般性结论,结论的内容大于前提。前提正确也可能有错误的结论。结论的正确性还决定于前提以外的许多事实。所以结论必须经过事实验证。但是如果这个结论正确,则必扩大人类的知识或增加知识的内容。抽样推断是运用归纳的推理,从局部来求对总体的认识。(2) 在方法上运用不确定的概率估计法而不是运用确定的数学分析法。由于样本数据和总体数量特征之间并不存在自变量和因变量的严格对应关系,因而不能运用数学函数关系建立一定的数学模型,用样本的具体观察值来推算总体特征值。抽样估计则是将样本观察值所决定的统计量(样本指标),视为随机事件。在具体的实际中,只抽取一个样本,并计算出相应的样本指标,用概率估计方法,肯定从正确的前提到结论有一定的可靠程度,藉以满足分析工作的需要。否则,就要改善抽样组织重新进行抽样,提高结论的可靠程度。(3) 估计的结论存在一定的抽样误差。抽样误差是抽样推断法所固有不可避免的。通常情况下,只是指出样本指标和总体指标的误差在一定范围内的概率保证程度。必须指出,作为统计量的样本指标是随机变量,因而抽样误差也是随机变量。它不是一个固定的数,而是随着样本指标的变化而变化。在其他条件不变的情况下,抽样误差大小与概率保证程度的关系是:允许的误差范围愈大,则概率保证程度愈大;反之,如果误差范围愈小,则概率保证程度愈小。两者成正比例关系。二、抽样估计的理论基础抽样估计是建立在概率论的大数法则基础上,大数法则的一系列定理为抽样估计提供了数学依据。大数法则是关于大量的随机现象具有稳定性质的法则。它指出如果被研究的总体是由大量的相互独立的随机现象所组成,而且每个因素对总体的影响都相对地小,那么对这些大量因素加以综合平均的结果,因素的个别影响将相互抵消,从而显现出它们共同作用的倾向,使总体具有稳定的性质。联系到抽样推断来看,大数法则证明:如果随机变量总体存在有限的平均数和方差,则对于充分大的抽样单位数n,可以几乎趋近于1的概率来期望抽样平均数与总体平均数的绝对离差为任意小。设为任意小的正数,则:式中:为抽样平均数,为总体平均数,n为样本单位数。这就从理论上揭示了样本和总体之间的内在联系,说明随着抽样单位数n的增加,抽样平均数有接近总体平均数的趋势。大数法则论证了抽样平均数趋近于总体平均数的趋势,为抽样推断提供了重要的依据。但是大数法则未能论证抽样平均数与总体平均数的离差不超过一定范围的概率大小问题。这一问题是由中心极限定理研究的。中心极限定理证明:如果总体变量存在有限的平均数和方差,那么不论这个总体变量的分布如何,随着抽样单位数的增加,抽样平均数便趋近于正态分布。这个结论对于抽样推断是十分重要的,这为抽样误差的概率估计提供了一个极为有效而且方便的条件。三、抽样估计方法抽样估计是利用实际抽样调查资料计算的样本指标值来估计相应的总体指标的数值。由于总体指标是表示总体数量特征的参数,因此也称为参数估计。在统计实践中,抽样估计有点估计和区间估计两种。下面分别加以介绍。(一)点估计点估计是一种以点代面的估计方法。其特点是根据总体指标的结构形式设计样本指标(统计量)作为总体参数的估计量,并且以样本指标的实际数值直接作为相应总体参数的估计值。衡量一个样本统计量是否是总体参数的优良估计,从总体上评价,有三个基本标准:1无偏性是指用样本指标估计总体指标时,要求样本指标的平均数等于被估计总体指标的平均数。用数学语言表达,如果抽样估计的期望值等于总体指标,即,则这个估计量叫做无偏估计量。数理统计已经证明,。不过从上可知:抽样平均数是总体平均数的无偏估计量;抽样成数是总体成数的无偏估计量,样本方差不是总体方差的无偏估计量,但修正的样本方差是总体方差的无偏估计量。2有效性是指用样本指标估计总体指标时,要求样本指标的方差最小。因此,有效性也即最小方差性。用数学语言表达,如果抽样估计量对总体指标并且除估计量外的估计量则为对的最佳有效估计量。3一致性是指用样本指标估计总体指标,当样本容量增加时,样本指标越来越接近总体指标,则称样本指标为总体指标的一致估计量。用数学语言表达,当样本单位数n无限增大时, 估计量与参数间绝对值之差大于任意常数的概率趋近于0,用公式表示为:则称为的一致估计量。抽样成数是(0,1)分布平均数形式,所以也完全符合优良估计的三个基本要求。总体参数点估计方法优点是:简便、易行、原理直观,常为实际工作所采用。其不足之处也是显著的,即点估计没有表明抽样估计的误差,更没有指出误差在一定范围内的概率保证程度。而另一种估计方法,即区间估计,就能够解决这一问题。所以是更好的估计方法。(二)区间估计在介绍区间估计之前,先研究一下抽样估计精度和抽样估计置信度。1抽样估计精度是指抽样估计的准确程度。它与抽样误差程度是相对的概念。在抽样估计中要求用样本指标值估计相应的总体参数数值,没有误差是不可能的。因此,总要提出精度的要求,作为评价估计好坏的标准。前面已经提到极限误差,即允许的抽样误差范围。但这一误差范围是以抽样平均数与总体平均数离差的绝对值表示的,但同一离差绝对值对于不同现象可以具有不同的意义。 例如粮食亩产超过500千克以上地区,其亩产误差范围千克, 可能是合适的,但对于亩产水平仅为100200千克地区,则不合适。因此,还要计算允许的相对误差范围,即以样本平均数为基数的误差率。误差率估计精度(亦称准确率)与误差率是相对的,即:估计精度1误差率我们可以根据样本平均数,对任何给定的精度要求,推算出可允许的误差范围。2抽样估计的置信度抽样误差是一个随机变量,所以抽样平均数(抽样成数)落在一定区间不是一个必然事件,而只能给予一定的概率保证。因此,在进行抽样估计时,一方面要考虑抽样误差的允许范围有多大,另一方面还要考虑落到这一范围的概率有多少。前者是估计的准确度问题,后者是估计的可靠性问题,两者紧密联系而不可分开。为了明确这一关系,以上例来说明。 上例设1,2,3,4,5五个数字作为总体,采用不重复抽样方法,随机抽取三个数字组成样本,可以组成个样本。其总体平均数为:。10个样本平均数的误差和误差平方,已制表格如前表。再将前表加以整理后,则如表8-10。表8-10样本平均数22.332.6733.333.674频数1123311频率(概率)根据表列数字,可以写出平均数落在各区间内的概率P。例如:将上述概率形式变换为抽样误差形式,即求得抽样平均数与总体平均数误差绝对值不超过一定范围的概率。从上可知,抽样误差范围和估计置信度是是密不可分的,抽样误差范围愈小,则估计置信度也愈小;反之,抽样误差范围愈大,则估计置信度也愈大。理论已经证明, 在样本单位数足够多(n30,称大样本)的条件下,抽样平均数的分布接近正态分布。正态分布的特点是,抽样平均数以总体平均数为中心,两边对称分布。其图形如图8-6。上图曲线和轴所包围的面积等于1。抽样平均数落在某一区间的概率P, 就可以曲线在这一区间所包围的面积表示。经计算结果如下:这说明抽样平均数与总体平均数误差范围不超过小的概率,分别为68.27%,95.45%,99.73%。为概率度,由于所以抽样误差概率就是概率度的函数,即。上述关系式,可作如下表述:当t =1时, F(t)68.27t2时, F(t)95.45%t3时, F(t) =99.73将这种对应函数关系编成正态分布概率表, 只要给定t值,便可以直接从表上查出抽样误差概率,即估计置信度。一般抽样估计,允许的误差范围在12个,即概率度t = 1或2。但对于有些需要避免作错误判断的估计, 将抽样误差范围扩大到,即概率度t = 3,以提高估计的可靠性。3区间估计方法前面所述点估计,是用样本指标值直接作为总体指标的估计值,一般不考虑抽样误差。而区间估计则与之不同,它是根据样本指标的分布律(在社会经济方面的样本属大样本,其分布律属正态分布)按照一定要求,先确定出两个数值,使总体指标包括在区间内的概率:,则为区间估计。区间叫做置信区间,为区间下限,为区间上限。叫做置信系数(或叫置信概率)。叫做显著性水平。置信区间表达了区间估计的准确性(或精确性),置信系数表达了区间估计的可靠性,它是区间估计的可靠概率,显著性水平表达了区间估计的不可靠概率。可见,区间估计必须同时具备估计值、抽样误差范围和概率保证程度三个要素。其估计特点是并不直接给予总体参数的被估计值,而只是规定总体参数被估计值的上限和下限,即总体参数存在的区间范围,并给予一定的概率保证程度。例如,某地粮食平均亩产为:450千克,又已知抽样平均误差从千克。则可作如下的区间估计:如给出95.45%的概率(置信度),然后推算因95.45%概率其相应的概率度,故千克,千克。置信区间为434千克466千克。显著性水平这一区间估计说明了该地区粮食平均亩产,有94.45%的保证程度估计在434466千克之间。 但这一估计也还存在要冒4.55%的失败风险。如果要减少失败风险,就要降低保证程度,即降低置信概率和扩大置信区间。抽样估计总是希望估计准确性要高一些,可靠性要大一点。但这两者是相互矛盾的,不可兼得。如果提高估计的准确性就必然要降低估计的可靠性;相反,如果要提高估计的可靠性,就必然要降低估计的准确性。因此,在区间估计实践中,只能提出其中的一个条件,然后推求另一条件的变动情况。如果所推求的另一条件不能满足工作的要求,就应该考虑增加样本单位、改善抽样组织,重新进行抽样,直到符合工作要求为止。从上可知,总体参数酌区间估计,由于所给的条件不同,便会产生两种不同估计方法:(1)根据已经给定的抽样误差范围,求概率保证程度。 这种估计方法的步骤是:首先,抽取样本,计算抽样指标,作为相应总体的估计值。其次,计算样本标准差,推算抽样平均误差。再次,根据给定的抽样误差范围,确定估计总体指标的下限和上限。最后,将抽样误差除以抽样平均误差求出概率度值,再根据值查正态分布概率表求出相应的置信度,并对总体参数作区间估计。(2)根据给定的置信度要求, 推算出抽取极限误差的可能范围。这一估计方法的具体步骤为广首先,抽取样本,计算抽样指标,作为总体参数的估计值。并计算出样本标准差用以推算抽样平均误差。其次,根据给定置信度的要求,查概率表求得概率度值。 最后,根据概率度和抽样平均误差推算抽样极限误差的可能范围,再根据极限误差求出被估计总体指标的上、下限,对总体参数作区间估计。一、假设检验的意义二、统计检验的步骤三、在假设检验中可能造成的两类错误四、几种主要类型的假设检验实例第四节假设检验一、假设检验的意义假设检验是抽样推断中的一项重要内容。它是根据原资料作出一个总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布的假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异,是否应当接受原假设选择的一种检验方法。用样本指标估计总体指标,其结论有的完全可靠,有的只有不同程度的可靠性,需要进一步加以检验和证实。通过检验,对样本指标与假设的总体指标之间是否存在差别作出判断,是否接受原假设。这里必须明确,进行检验的目的不是怀疑样本指标本身是否计算正确,而是为了分析样本指标和总体指标之间是否存在显著差异。从这个意义上,假设检验又称为显著性检验。进行假设检验,先要对假设进行陈述。通过下例加以说明。例如,设某工厂制造某种产品的某种精度服从平均数为方差为的正态分布,据过去的数据,已知平均数为75,方差为100。现在经过技术革新,改进了制造方法,出现了平均数大于75,方差没有变更,但仍存在平均数不超过75的可能性。试陈述为统计假设。根据上述情况,可有两种假设,一个是假想平均数不超过75,即假设另一个假想是平均数大于75,即假设如果我们把作为原假设,即被检验的假设,称作零假设,记作于是,假设相对于假设来说,是约定的、补充的假设,记作它和有两者选择其一的意思,即作为被检验的假设,则就是备择的,故称为备择假设或对立假设。还须指出,哪个是零假设,哪个是备择假设,是无关紧要的。我们关心的问题,是要探索哪一个假设被接受的问题。被接受的假设是要作为推理的基础。在实际问题中,一般要考虑事情发生的逻辑顺序和关心的事件,来设立零假设和备择假设。在作出了统计假设之后,就要采用适当的方法来决定是否应该接受零假设。由于运用统计方法所遇到的问题不同,因而解决问题的方法也不尽相同。但其解决方法的基本思想却是一致的,即都是“概率反证法”思想,即:(1)为了检验一个零假设(即虚拟假设)是否成立, 先假定它是成立的,然后看接受这个假设之后,是否会导致不合理结果。如果结果是合理的,就接受它;如不合理,则否定原假设。(2)所谓导致不合理结果,就是看是否在一次观察中, 出现小概率事件。通常把出现小概率事件的概率记为0,即显著性水平。 它在次数函数图形中是曲线两端或一端的面积。因此,从统计检验来说,就涉及到双侧检验和单侧检验问题。在实践中采用何类检验是由实际问题的性质来决定的。一般可以这样考虑:双侧检验。如果检验的目的是检验抽样的样本统计量与假设参数的差数是否过大(无论是正方向还是负方向),就把风险平分在右侧和左侧。比如显著性水平为0.05,即则概率曲线左右两侧各占,即0.0025。单侧检验。这种检验只注意估计值是否偏高或偏低。如只注意偏低,则临界值在左侧,称左侧检验;如只注意偏高,则临界值在右侧,称右侧检验。检验图形如下(右侧检验图如图8-7所示,左侧检验图如图8-9所示,双侧检验图如图8-9所示):对总体的参数的检量,是通过由样本计算的统计量来实现的。所以检验统计量起着决策者的作用。检验统计量有很多,可表示为如下形式:二、统计检验的步骤统计检验的步骤可归纳如下:(1)对问题详加调查研究之后, 根据试验或观察数据来选择一个适宜的概率模型;(2)陈述假设,即提出一个零假设和一个备择假设;(3)识别被检验的统计量及其分布;(4)指定显著性水平;(5)决定被检验统计量的分布形式和临界值;(6)计算被检验的实际统计量之值;(7)用实际统计量之值与临界值比较,以确定接受或拒绝。统计检验步骤的示意图如下:三、在假设检验中可能造成的两类错误根据样本资料对零假设作出接收或拒绝的决定时,可能会出现以下4种情况:(1)零假设为真,接受它;(2)零假设为真,拒绝它;(3)零假设为假,接受它;(4)零假设为假,拒绝它。上面的4种情况,很显然, (2)与(3)是错误的决定。当然人们一般都愿意做出正确的决定,但实际上难以做到。因此,必须考虑错误的性质和犯错误的概率。我们把零假设为真时拒绝它,称为第类错误(或拒绝错误),把零假设为假时接受它,称为第类错误(或接受错误)。为了直观起见,可把假设检验出现的4种情况图示如下:真伪接受正确决策第类型错误拒绝第类型错误正确决策第类型错误,记作,即显著性水平;第类型错误,记作。常用水平为0.05,0.01,是按所要求的精确度而事先规定的。它说明检验结果与拟定假设是否有显著性差距。如有就应拒绝拟定假设。但也有可能实际上是符合拟定假设,只是在抽样中偶然出现这样大的差距,那么否定就犯了第类错误。订立显著性水平就是说准备犯第类错误不超过显著性水平。从的涵义可以看出,1 就是在拟定假设为真时的条件下,被接受的概率。这是正确的判断。与不同,是事先由决策者根据需要规定的,而却是计算出来的。下面举一例,说明的计算方法。设某工厂制造一种绳索平均拉力强度为60牛顿,根据以往经验其标准差是14牛顿。现采取了一种新工艺方法加工,加工后抽取样本绳索49根作拉力试验,如果样本平均拉力增强,则认为新工艺为优;反之,则认为新工艺不如旧工艺。现规定=0.05,试计算的概率。本例问题的性质属双侧检验,在检验前,不知新工艺是否比旧工艺为优。所以拟定假设和对立假设为:牛顿,牛顿样本量为49,所以牛顿显著性水平相应Z值为1.96。牛顿双侧检验接受的区域为牛顿这就是说样本平均数大于56.08或小于63.92牛顿为接受区域,就应当接受拟定假设。即认为新工艺与旧工艺没有显著差异。只有在样本平均数少于56.08牛顿,新工艺不如旧工艺;样本平均数大于63.92牛顿,新工艺才优于旧工艺。现新工艺生产的绳索平均拉力强度牛顿,本来是应否定拟定假定62牛顿的。但是按本题所规定的假设检验条件,却要接受拟定假设。因为62牛顿是在接受区域之内,这就产生了第类型错误那么,的概率是多大呢?通过计算,按Z值查表确定。如果而牛顿不变时,从62到63.92牛顿之间的Z值是:查正态分布表,Z0.96时,面积为0.3315。同样,从56.08到60牛顿之间的Z值是:查表,Z = 2.96时,面积为0.4985。以上两项合计:0.3315+0.49850.8300由于正态曲线下面面积是对称的,所以当牛顿时,等于0.8300。用同样方法可以算出:当值为:56或64牛顿,54或66牛顿,52或68牛顿

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论