




已阅读5页,还剩88页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章统计量及其分布,5.1总体与样本5.2样本数据的整理与显示5.3统计量及其分布5.4三大抽样分布5.5充分统计量,引言,随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。,概率论的许多问题中,随机变量的概率分布通常是已知的,或者假设是已知的,而一切计算与推理都是在这已知的基础上得出来的。,但实际中,情况往往并非如此,一个随机现象所服从的分布可能是完全不知道的,或者知道其分布概型,但是其中的某些参数是未知的。,例5.0.1某公司要采购一批产品,每件产品不是合格品就是不合格品,但该批产品总有一个不合格品率p。由此,若从该批产品中随机抽取一件,用X表示这一件产品的不合格数,不难看出X服从一个二点分布b(1,p),但分布中的参数p是不知道的。一些问题:,p的大小如何;,p大概落在什么范围内;,能否认为p满足设定要求(如p0.05)。,数理统计的任务则是以概率论为基础,根据试验所得到的数据,对研究对象的客观统计规律性做出合理的推断。,服从怎样的分布;,分布中的参数;,学科分支:抽样调查、实验设计、回归分析、多元统计分析、非参数统计、贝叶斯方法,等等。,5.1总体与个体,总体的三层含义:,研究对象的全体;,数据;,分布,在数理统计中,把研究对象的全体称为总体(population)或母体,而把组成总体的每个单元称为个体。,例5.1.1考察某厂的产品质量,将产品只分为合格品和不合格品,以0记合格品,以1记不合格品,则,该厂生产的全部合格品与不合格品,若以p表示这堆数中1的比例(不合格品率),则该总体可由一个二点分布表示:,总体=,=由0或1组成的一堆数,比如:两个生产同类产品的工厂的产品的总体分布:,例5.1.2在二十世纪七十年代后期,美国消费者购买日产SONY彩电的热情高于购买美产SONY彩电,原因何在?,1979年4月17日日本朝日新闻刊登调查报告指出N(m,(5/3)2),日产SONY彩电的彩色浓度服从正态分布,而美产SONY彩电的彩色浓度服从(m5,m+5)上的均匀分布。,原因在于总体的差异上!,图5.1.1SONY彩电彩色浓度分布图q,等级IIIIIIIV美产33.333.333.30日产68.327.14.30.3,表5.1.1各等级彩电的比例(%),|X-m|5/3,5/3|X-m|10/3,10/355213,表5.1.2中的样本观测值没有具体的数值,只有一个范围,这样的样本称为分组样本。,独立性:样本中每一样品的取值不影响其它样品的取值-x1,x2,xn相互独立。,要使得推断可靠,对样本就有要求,使样本能很好地代表总体。通常有如下两个要求:,随机性:总体中每一个个体都有同等机会被选入样本-xi与总体X有相同的分布。,样本的要求:简单随机样本,用简单随机抽样方法得到的样本称为简单随机样本,也简称样本。,于是,样本x1,x2,xn可以看成是独立同分布(iid)的随机变量,其共同分布即为总体分布。,iidindependentidenticaldistribution,若总体的分布函数为,则样本的联合分布函数为,若总体的密度函数为,则样本的联合密度函数为,若总体的分布列为,则样本的联合分布列为:,总体分为有限总体与无限总体,实际中总体中的个体数大多是有限的。当个体数充分大时,将有限总体看作无限总体是一种合理的抽象。,对无限总体,随机性与独立性容易实现,困难在于排除有意或无意的人为干扰。,对有限总体,只要总体所含个体数很大,特别是与样本量相比很大,则独立性也可基本得到满足。,本书以无限总体为主要研究对象。,例5.1.5设有一批产品共N个,需要进行抽样检验以了解其不合格品率p。现从中采取不放回抽样抽出2个产品,这时,第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品,如果第一次抽到不合格品,则,而若第一次抽到的是合格品,则第二次抽到不合格品的概率为,P(x2=1|x1=1)=(Np1)/(N1),P(x2=1|x1=0)=(Np)(N1),显然,如此得到的样本不是简单随机样本。但是,当N很大时,我们可以看到上述两种情形的概率都近似等于p。所以当N很大,而n不大(一个经验法则是nN0.1)时可以把该样本近似地看成简单随机样本。,作业:P2564、6,5.2.1经验分布函数,5.2样本数据的整理与显示,设x1,x2,xn是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进行排列,为x(1),x(2),x(n),则称x(1),x(2),x(n)为有序样本,用有序样本定义如下函数,则Fn(x)是一非减右连续函数,且满足,Fn()=0和Fn()=1,由此可见,Fn(x)是一个分布函数,并称Fn(x)为经验分布函数。,例5.2.1某食品厂生产听装饮料,现从生产线上随机抽取5听饮料,称得其净重(单位:克)351347355344351,x(1)=344,x(2)=347,x(3)=351,x(4)=351,x(5)=355,这是一个容量为5的样本,经排序可得有序样本:,故其经验分布函数为,.,定理5.2.1设是取自总体分布函数为F(x)的样本,为其经验分布函数,当时,有,更深刻的结论:格里纹科定理,由伯努里大数定律:两点分布,只要n相当大,Fn(x)依概率收敛于F(x)。,格里纹科定理表明:当n相当大时,经验分布函数是总体分布函数F(x)的一个良好的近似。经典的统计学中一切统计推断都以样本为依据,其理由就在于此。,5.2.2频数-频率分布表,样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。,例5.2.2为研究某厂工人生产某种产品的能力,我们随机调查了20位工人某天生产的该种产品的数量,数据如下,(1)对样本进行分组:作为一般性的原则,组数通常在520个,对容量较小的样本;,(2)确定每组组距:近似公式为组距d=(最大观测值最小观测值)/组数;,(3)确定每组组限:各组区间端点为a0,a1=a0+d,a2=a0+2d,ak=a0+kd,形成如下的分组区间(a0,a1,(a1,a2,(ak-1,ak,对这20个数据(样本)进行整理,具体步骤如下:,其中a0略小于最小观测值,ak略大于最大观测值.,(4)统计样本数据落入每个区间的个数频数,并列出其频数频率分布表。,表5.2.1例5.2.2的频数频率分布表,组序分组区间组中值频数频率累计频率(%)1(147,15715240.20202(157,16716280.40603(167,17717250.25854(177,18718220.10955(187,19719210.05100合计201,5.2.3样本数据的图形显示,一、直方图,直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。,把每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。如:,二、茎叶图,数值分开茎和叶11211|211和2,例5.2.3某公司对应聘人员进行能力测试,测试成绩总分为150分。下面是50位应聘人员的测试成绩(已经过排序):,我们用这批数据给出一个茎叶图,见下页。,图5.2.3测试成绩的茎叶图,在要比较两组样本时,可画出它们的背靠背的茎叶图。,注意:茎叶图保留数据中全部信息。当样本量较大,数据很分散,横跨二、三个数量级时,茎叶图并不适用。,作业:P2612、7,5.3.1统计量与抽样分布,5.3统计量及其分布,当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。,定义5.3.1设x1,x2,xn为取自某总体的样本,若样本函数T=T(x1,x2,xn)中不含有任何未知参数。则称T为统计量。统计量的分布称为抽样分布。,按照这一定义:若x1,x2,xn为样本,则以及经验分布函数Fn(x)都是统计量。而当,2未知时,x1,x1/等均不是统计量。,尽管统计量不依赖于未知参数,但是它的分布一般是依赖于未知参数的。,下面介绍一些常见的统计量及其抽样分布。,5.3.2样本均值及其抽样分布,定义5.3.2设x1,x2,xn为取自某总体的样本,其算术平均值称为样本均值,一般用表示,即,思考:在分组样本场合,样本均值如何计算?二者结果相同吗?,x,x=(x1+xn)/n,注意:样本均值是一个随机变量,应理解为:,定理5.3.2数据观测值与均值的偏差平方和最小,即在形如(xic)2的函数中,,样本均值的基本性质:,定理5.3.1若把样本中的数据与样本均值之差称为偏差,则样本所有偏差之和为0,即,最小,其中c为任意给定常数。,证明:板述,例5.3.2:见书,若总体分布未知或不是正态分布,但E(x)=,Var(x)=2,则n较大时的渐近分布为N(,2/n),常记为。,样本均值的抽样分布:,定理5.3.3设x1,x2,xn是来自某个总体的样本,,为样本均值。,(1)若总体分布为N(,2),则,的精确分布为N(,2/n);,这里渐近分布是指n较大时的近似分布.,例:5.3.3:见书,5.3.3样本方差与样本标准差,称为样本标准差。,定义5.3.3,称为样本方差,,其算术平方根,在n不大时,常用作为样本方差,其算术平方根也称为样本标准差。,在这个定义中,,(xix)2,n1称为偏差平方和的自由度。其含义是:,在确定后,n个偏差,x1x,x2x,xnx,能自由取值,因为,只有n1个数据可以自由变动,而第n个则不,(xix)=0.,称为偏差平方和,,中,样本偏差平方和有三个不同的表达式:,(xix)2=xi2(xi)2/n=xi2nx,它们都可用来计算样本方差。,思考:分组样本如何计算样本方差?,以下定理表明:样本均值的数学期望和方差,以及样本方差的数学期望都不依赖于总体的分布形式。,定理5.3.4设总体X具有二阶矩,即E(x)=,Var(x)=2,x1,x2,xn为从该总体得到的样本,,x,和s2分别是样本均值和样本方差,则,E(x)=,Var(x)=2/n,E(s2)=2,证明:板述,5.3.4样本矩及其函数,样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量。,定义5.3.4ak=(xik)/n称为样本k阶原点矩,特别,样本一阶原点矩就是样本均值。,称为样本k阶中心矩。特别,样本二阶中心矩就是样本方差。,bk=(xix)k/n,当总体关于分布中心对称时,我们用,和s,刻画样本特征很有代表性,而当其不对称时,只用,就显得很不够。为此,需要一些刻画分布形状的统计量,如样本偏度和样本峰度,它们都是样本中心矩的函数。,样本偏度1反映了总体分布密度曲线的对称性信息。样本峰度2反映了总体分布密度曲线在其峰值附近的陡峭程度。,定义:1=b3/b23/2称为样本偏度,2=b4/b22-3称为样本峰度。,和s,图见书中图5.3.4,5.3.5次序统计量及其分布,另一类常见的统计量是次序统计量。,一、定义5.3.7设x1,x2,xn是取自总体X的样本,x(i)称为该样本的第i个次序统计量,它的取值是将样本观测值由小到大排列后得到的第i个观测值。其中x(1)=minx1,x2,xn称为该样本的最小次序统计量,称x(n)=maxx1,x2,xn为该样本的最大次序统计量。,在一个样本中,x1,x2,xn是独立同分布的,而次序统计量x(1),x(2),x(n)则既不独立,分布也不相同,看下例。,现从中抽取容量为3的样本,其一切可能取值有33=27种,表5.3.6列出了这些值,由此,例5.3.6设总体X的分布为仅取0,1,2的离散均匀分布,分布列为,我们可以清楚地看到这三个次序统计量的分布是不相同的。,可给出的x(1),x(2),x(3)分布列如下:,进一步,我们可以给出两个次序统计量的联合分布,如,x(1)和x(2)的联合分布列为,因为P(x(1)=0,x(2)=0)=7/27,,而P(x(1)=0)*P(x(2)=0)=(19/27)*(7/27),,二者不等,由此可看出x(1)和x(2)是不独立的。,二、单个次序统计量的分布,定理5.3.5设总体X的密度函数为p(x),分布函数为F(x),x1,x2,xn为样本,则第k个次序统计量x(k)的密度函数为,例5.3.7设总体密度函数为p(x)=3x2,0x1.从该总体抽得一个容量为5的样本,试计算P(x(2)1/2)。,例5.3.8设总体分布为U(0,1),x1,x2,xn为样本,试求第k个次序统计量的分布。,三、多个次序统计量的联合分布,对任意多个次序统计量可给出其联合分布,以两个为例说明:,定理5.3.6在定理5.3.5的记号下,次序统计量(x(i),x(j),(ij)的联合分布密度函数为,次序统计量的函数在实际中经常用到。如样本极差Rn=x(n)x(1),样本中程x(n)x(1)/2。,样本极差是一个很常用的统计量,其分布只在很少几种场合可用初等函数表示。,令R=x(n)x(1),由R0,可以推出0x(1)=x(n)R1R,则,例5.3.9设总体分布为U(0,1),x1,x2,xn为样本,则(x(n),x(1)的联合密度函数为,p1,n(y,z)=n(n1)(zy)n-2,0yz1,这正是参数为(n1,2)的贝塔分布。,作业:P2798、20,5.4三大抽样分布,有很多统计推断是基于正态分布的假设的,以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有明显表达式,它们被称为统计中的“三大抽样分布”。,5.4.12分布(卡方分布),定义5.4.1设X1,X2,Xn,独立同分布于标准正态分布N(0,1),则2=X12+Xn2的分布称为自由度为n的2分布,记为22(n)。,自由度是指独立随机变量的个数,常记为,分布的密度函数为,该密度函数的图像是一只取非负值的偏态分布,当随机变量22(n)时,对给定(01),称满足P(212(n)的12(n)是自由度为n的卡方分布的1分位数.分位数12(n)可以从附表3中查到。,显然,在自由度n取定以后,的值只与有关.,例如,当n=21,=0.05时,由附表3(P425)可查得,,32.6706,即,例设总体XN(,22),从总体X中抽取容量为16的样本X1,X2,X16.如果已知=0,求的概率;,5.4.2F分布,定义5.4.2设X12(m),X22(n),X1与X2独立,则称F=(X1/m)/(X2/n)的分布是自由度为m与n的F分布,记为FF(m,n),其中m称为分子自由度,n称为分母自由度。,其中,F分布的密度函数为:,该密度函数的图象也是一只取非负值的偏态分布,当随机变量FF(m,n)时,对给定(01),称满足P(FF1(m,n)=1的F1(m,n)是自由度为m与n的F分布的1分位数。,一个有用的结论:F(n,m)=1/F1(m,n)。,F1-(m,n)的值可由F分布表查得.,附表5(P431P434)分=0.1、=0.05、=0.025、=0.01给出了F分布的1-分位数.,如当m=2,n=18时,,对=0.01有,F1-0.01(2,18)=F0.99(2,18),=6.01,在附表5中所列的值都比较小,当较大时,可用下面公式,查表时应先找到相应的值的表.,例如,,0.166,F1-(2,18)=,解,因为,所以,F(3,n-3).,例设总体XN(0,1),X1,X2,Xn为简单随机样本,试问以下统计量服从什么分布?,且,与,相互独立,5.4.3t分布,定义5.4.3设随机变量X1与X2独立,且X1N(0,1),X22(n),则称,的分布为自由度为n的t分布,记为tt(n)。,t分布的概率密度函数为,t分布的密度函数的图象是一个关于纵轴对称的分布,与标准正态分布的密度函数形状类似,只是峰比标准正态分布低一些尾部的概率比标准正态分布的大一些。,n1时,t分布的数学期望存在且为0;n2时,t分布的方差存在,且为n/(n2);当自由度较大(如n30)时,t分布可以用正态分布N(0,1)近似。,自由度为1的t分布就是标准柯西分布,它的均值不存在;,当随机变量tt(n)时,称满足P(tt1(n)=1的t1(n)是自由度为n的t分布的1分位数.分位数t1(n)可以从附表4中查到。譬如n=10,=0.05,那么从附表4上查得t10.05(10)=t0.95(10),由于t分布的密度函数关于0对称,故其分位数间有如下关系t(n1)=t1(n1),=1.812,例设总体XN(0,1),X1,X2,Xn为简单随机样本,试问下列统计量各服从什么分布?,解,(1),因为XiN(0,1),i=1,2,n.且各Xi相互独立,所以,X1-X2N(0,2),即,有,t(2).,又因为,与,相互独立,故根据t分布的定义,解,(2),所以X1N(0,1),,有,t(n-1).,例设总体XN(0,1),X1,X2,Xn为简单随机样本,试问下列统计量各服从什么分布?,因为XiN(0,1),i=1,2,n.且各Xi相互独立,又因为,与,相互独立,故根据t分布的定义,,作业:P2929、11,5.4.4一些重要结论,定理5.4.1设x1,x2,xn是来自N(,2)的样本,其样本均值和样本方差分别为,和,x=xi/n,(3)(n1)s2/22(n1)。,则有,与s2相互独立;,(2)xN(,2/n);,.,为n维随机向量的数学期望向量,简称为的数学期望,而称,定义记n维随机向量为,若其每个分量的数学期望都存在,则称,为该随机向量的方差-协方差阵,简称协方差阵,记为。,.,定理5.4.4的证明:记则有:,.,取一个n维正交矩阵A,其第一行元素均为如:,.,令,根据多维正态分布的性质知Y仍服从n维正态分布,且,可以看出,的各个分量相互独立,且都服从正态分布,其中,(2)得证,.,又因为,且,故,从而,.,又因为和相互独立,而,且各分量相互独立,,从而,从而与相互独立,结论(1)得证。又因为,结论(3)得证.,从表面上看,,但实际上它们不是独立的,,它们之间有一种线性约束关系:,=0,这表明,当这n个正态随机变量中有n-1个取值给定时,剩下的一个的取值就跟着唯一确定了,故在这n项平方和中只有n-1项是独立的.所以(3)的自由度是n-1.,关于(3)的自由度的一些直观说明:,.,推论5.4.1,设(X1,X2,Xn)为来自正态总体XN(,2)的样本,则统计量,证,由定义得,推论5.4.2设x1,x2,xn是来自N(1,12)的样本,y1,y2,yn是来自N(2,22)的样本,且此两样本相互独立,则有,特别,若12=22,则,F=sx2/sy2F(m1,n1),推论5.4.3在推论5.4.2的记号下,设12=22=2,并记,则,.,例设总体XN(,2),从总体X中抽取容量为9的样本,求样本均值与总体均值之差的绝对值小于2的概率,如果:(1)已知;(2)未知,但已知样本方差值,注意(1)和(2)所用的统计量的区别,.,例设总体XN(,22),从总体X中抽取容量为16的样本X1,X2,X16.(1)如果已知=0,求的概率;(2)如果未知,求的概率;,注意(1)和(2)所用的统计量的区别,.,例设总体XN(,42),X1,X2,X10是n=10简单随机样本,s2为样本方差,已知Ps2=0.1,求.,解,因为n=10,n-1=9,2=42,,所以,2(9).,又,Ps2=,=0.1,,所以,14.6837.,故,14.6837x,26.105,5.5充分统计量,5.5.1充分性的概念,例5.5.1为研究某个运动员的打靶命中率,我们对该运动员进行测试,观测其10次,发现除第三、六次未命中外,其余8次都命中。这样的观测结果包含了两种信息:,(1)打靶10次命中8次;,(2)2次不命中分别出现在第3次和第6次打靶上。,第二种信息对了解该运动员的命中率是没有什么帮助的。一般地,设我们对该运动员进行n次观测,得到x1,x2,xn,每个xj取值非0即1,命中为1,不命中为0。令T=x1+xn,T为观测到的命中次数。在这种场合仅仅记录使用T不会丢失任何与命中率有关的信息,统计上将这种“样本加工不损失信息”称为“充分性”。,样本x=(x1,x2,xn)有一个样本分布F(x),这个分布包含了样本中一切有关的信息。,统计量T=T(x1,x2,xn)也有一个抽样分布FT(t),当我们期望用统计量T代替原始样本并且不损失任何有关的信息时,也就是期望抽样分布FT(t)像F(x)一样概括了有关的一切信息,这即是说在统计量T的取值为t的情况下样本x的条件分布F(x|T=t)已不含的信息,这正是统计量具有充分性的含义。,这,与无关,定义5.5.1设x1,x2,xn是来自某个总体的样本,总体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 渠道排洪规划水利工程设计合同协议书范本
- 解除劳动合同关系协议书
- C4D导出文件轻松分享你的3D创意04课件
- 2025年冶金冶炼项目提案报告模板
- 全院院感知识培训
- 全铝家居行业知识培训课件
- 2025秋湘教版数学九年级上册-课件 1.2反比例函数的图像与性质(第2课时)
- 《计算机数据通信教程》课件第10章广域网
- 援鄂医疗队员发言稿
- 问题楼盘施工方案怎么写
- 2025年“中央八项规定”精神学习知识竞赛测试题库及答案
- 2025年HACCP食品安全内审员考核试题含答案
- 2025年财务转正考试题库
- 胸外科护士进修总结
- 中医培训课件:火龙罐的中医技术
- 《外科学》第十九章-颅内和椎管内肿瘤课件
- 焊接质量事故表
- 能源数据收集计划表
- 道路工程安全技术交底记录大全
- 2022年名师工作室工作计划
- 荆门市产业情况介绍
评论
0/150
提交评论