第2章统计量与抽样分布.ppt_第1页
第2章统计量与抽样分布.ppt_第2页
第2章统计量与抽样分布.ppt_第3页
第2章统计量与抽样分布.ppt_第4页
第2章统计量与抽样分布.ppt_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章统计量与抽样分布,1.基本概念,总体与个体抽样、简单随机抽样样本、简单随机样本与样本空间分布族、参数空间统计量与样本矩,总体与个体,在数理统计中,把研究对象的全体称为总体(Population),把组成总体的每一个单元称为个体在实际中,总体通常是某个随机变量取值的全体,其中每一个个体都是一个实数以后我们把总体和数量指标X可能取值的全体组成的集合等同起来。随机变量X的分布就是总体的分布,抽样与简单随机抽样,从一总体X中随机抽取n个个体x1,x2,xn,其中每个xi是一次抽样观察结果,我们称x1,x2,xn为总体X的一组样本(观察)值。这里的xi具有二重性:1.对每一次抽样结果,它是完全确定的一组数;2.由于抽样的随机性,每一个xi都可以看作某一个随机变量Xi(i=1,2,n)所取的观察值。我们称X1,X2,Xn是容量为n的样本(Sample)。,抽样与简单随机抽样,定义:设X1,X2,Xn为来自总体X的容量为n的样本,如果随机变量X1,X2,Xn相互独立且与总体有相同的分布,则称这样的样本为总体X的简单随机样本,简称样本。这样获得简单随机样本的方法称为简单随机抽样。抽样方式:随机抽样,分层抽样,等距抽样,整群抽样,多阶段抽样以后如不特别声明,所提到的样本都是简单随机样本。,综上所述,所谓总体就是一个随机变量X,所谓样本(指简单随机样本)就是n个相互独立且与总体X有相同的分布的随机变量X1,X2,Xn,并称X1,X2,Xn为来自于总体X的样本.显然,若总体具有分布函数F(x),则X1,X2,Xn的联合分布函数(样本联合分布)为:,抽样与简单随机抽样,以后对样本X1,X2,Xn作两种理解:在理论推导中把其作为随机向量在用理论推导所得出的结论进行具体推断时,作为实数向量,代入具体的观察值进行计算。,样本空间,定义:样本X1,X2,Xn所有可能取值的全体称为样本空间(SampleSpace),或称为子样空间。样本空间为n维欧氏空间或它的一个子集。一个样本观察值(x1,x2,xn)是样本空间中的一个点。,分布族与参数空间,在概率论中,总假定所用随机变量的分布函数已知,而在数理统计中,认为其是未知的,但总假定其是某一个分布族的成员。一般可凭经验,直方图或经验分布函数来对总体给出假定。,分布族与参数空间,如果对总体了解甚少,那么总体所在的分布族可设为F(x):F(x)为分布函数,其它条件如果知道总体的分布形式,只是不知道具体参数,那么总体所在的分布族可设为,这里为总体的分布函数中的未知参数(可以是向量),未知参数的全部可容许值组成的集合称为参数空间,记为称为统计模型(StatisticalModel)。,分布族与参数空间,定义:若一个分布族中只含有有限个未知参数,或参数空间为欧氏空间的一部分,则称此分布族为参数分布族。凡不是参数分布族的分布族称为非参数分布族。由参数分布族出发所得到的统计方法称为参数统计方法;由非参数分布族出发所得到的统计方法称为非参数统计方法。这两类分布族在研究方法上有很大差异。,统计量与样本矩,我们对某一个问题归纳出所在的分布族,并从总体中抽出了一个样本后,就要进行统计推断,即判断这个样本是来自总体分布族中哪一个基本的分布.虽然样本含有总体的信息,但仍比较分散。为了使统计推断成为可能,首先必须把分散在样本中的信息集中起来,用样本的某种函数表示,这种函数称为统计量(Statistic)。,统计量与样本矩,定义:设X1,X2,Xn为总体X的一个样本,若样本的实值连续(可扩大为可测)函数TT(X1,X2,Xn)不依赖于可能含于总体中的未知参数,则称T为此分布族的一个统计量(Statistic)。往往从直观或某些一般性原则考虑提出统计量,再考虑它是否在某种意义下较好地集中了样本中与所讨论问题有关的信息量。,例如,XN(,2),其中已知,2未知。而(X1,X2)是从X中抽取的一个样本,则X1X2,是统计量,但(X1)/就不是统计量了。,样本矩(SampleMoment),设X1,X2,Xn是来自于总体X的一个样本,样本均值(SampleMean):,样本方差(SampleVariance):,样本标准差(SampleStandardDeviation):,样本矩(SampleMoment),再设Y1,Y2,Yn是来自总体Y的样本。两个样本之间的协方差:,两个样本之间的相关系数:,记E(X)=,D(X)=2,E(Xk)=ak定理1若X的二阶矩存在,则有,定理2若X的2k阶矩存在,则有,经验分布函数,定义设X1,X2,Xn为总体X的一个样本,x1,x2,xn是样本的观察值,把其从小到大重新排列得到,定义函数如下,称其为总体X的经验分布函数。,经验分布函数在点x的函数值其实就是观测值中小于或等于x的频率,它是一个右连续的非减函数,且,因而它具有分布函数的性质,可以将它看成是以等概率取的离散随机变量的分布函数。经验分布函数的图象是一个非减右连续的阶梯函数。,对于的每一数值而言,经验分布函数为样本的函数,它是一统计量,即为一随机变量,其可能取值为。事件发生的概率,由于相互独立且有相同的分布函数,因而它等价于次独立重复试验的贝努里概型中事件发生k次而其余次不发生的概率,即有:其中,它是总体的分布函数。,定理(格列汶科定理)设总体的分布函数为F(x),经验分布函数为Fn*(x),则对任何实数x有,从上面定理知道,经验分布函数Fn*(x)依概率1收敛于(理论)分布函数F(x)。可以利用经验分布函数构造出非参数统计推断中许多常用的统计量。,2抽样分布,统计量的分布称为抽样分布,求出统计量的分布函数是数理统计的基本问题之一。精确分布与小样本问题极限分布与大样本问题,正态总体的抽样分布,正态总体样本的线性函数的分布分布t分布F分布,正态总体样本线性函数的分布,定理1设总体XN(,2),X1,X2,Xn是总体X的容量为n的样本,令U=a1X1+a2X2+anXn,其中a1,a2,an是已知常数,则U也是正态随机变量,其均值、方差分别为E(U)=,D(U)=2,定理2设总体XN(,2),(X1,X2,Xn)是总体的容量为n的样本,A=(aij)是pn阶矩阵。记Y=(Y1,Y2,Yp)=A(X1,X2,Xn),则Y1,Y2,Yp也是正态随机变量,其均值、方差、协方差分别为E(Yi)=,D(Yi)=2Cov(Yi,Yj)=2当=0,且A是nn阶正交矩阵时,Y1,Y2,Yp也相互独立,且服从于N(0,2)正态变换下的不变性,分布,定义设随机变量X1,X2,Xn相互独立且服从N(0,1)分布,则称随机变量服从自由度为n的分布,记为,定理1设随机变量,则的密度函数为:,定理2设,则E(X)=n,D(X)=2n定理3设,且X1与X2相互独立,则定理4(Cochra)设随机变量X1,X2,Xn相互独立且服从N(0,1)分布,又设Q1+Q2+Qk=其中Qj是秩为nj的X1,X2,Xn的非负定二次型。则Qj相互独立,且分别服从于自由度为nj的分布的充要条件是:n1+n2+nk=n,引理设,则X的特征函数为(t)=(1-2it)-n/2.定理3的证明:,根据引理及特征函数性质,我们有得E(X)=n,E(X2)=n2+2n,D(X)=2n,定理5(抽样分布基本定理)设X1,X2,Xn是来自总体N(,2)的一个样本,则,注:1.的独立性仅当总体分布为正态时才成立。当总体分布的三阶中心矩为零时,可以推出两者是不相关的。2.服从精确的正态分布也只有在总体为正态分布时才成立。,(1),(2),与相互独立;,证令,则且,选取正交矩阵A:作为正交变换,则,且1.2.,且,则而仅是Z1的线性函数,与无关,故与相互独立。,t分布,定义设XN(0,1),,且X和Y相互独立,则称随机变量所服从的分布是自由度为n的t分布,记为Tt(n).,定理1设Tt(n),则T的概率密度为,此定理的证明也同前面类似。先写出X,Y的密度函数,然后利用随机变量的函数的分布的知识写出根号下Y/n的密度函数,再利用独立性写出(X,根号下Y/n)的联合密度函数,最后利用两个随机变量商的密度函数给出结果。,定理2设X1,X2,Xn是来自总体的一个样本,则有。定理3设X1,X2,Xm和Y1,Y2,Yn是分别来自总体和的样本,且假定两总体相互独立,则有,定理4设Tnt(n),n=1,2,.,则Tn依分布收敛于,N(0,1).,定理5设Tt(n),n1,则对正整数r(r2,则E(T)=0,D(T)=n/(n-2).注:t分布只存在阶数小于n的矩.,F分布,定义设随机变量X和Y是自由度分别为n1和n2的相互独立的分布随机变量,则称随机变量所服从的分布为自由度是(n1,n2)的F分布,记为FF(n1,n2).其中n1称为第一自由度,n2称为第二自由度。,定理1设FF(n1,n2),则F的概率密度为,定理2若X/2,Y/2,且相互独立,则定理3若XF(n1,n2),则1/XF(n2,n1).定理4若Xt(n),则X2F(1,n).定理5设X1,X2,Xm和Y1,Y2,Yn是分别来自总体和的样本,且假定两总体相互独立,则有,定理7设随机变量X1,X2,Xn相互独立且服从,又设Q1+Q2+Qk=其中Qj是秩为nj的X1,X2,Xn的非负定二次型。若n1+n2+nk=n,则Qj相互独立,且,定理6设XnF(m,n),则当n时,分位数(分位点),定义1设随机变量X的分布函数为F(x),0 x=F(x)=,则称x为此概率分布的(上侧)分位点(或分位数)。,分位数(分位点),当XN(0,1),将其上侧分位数记为u当X,将其上侧分位数记为当Xt(n),将其上侧分位数记为t(n).当XF(m,n),将其上侧分位数记为F(m,n).上面几类分位数的性质-u=u1-,-t(n)=t1-(n)F(m,n)=1/F1-(n,m),有时也需要上侧分位数和双侧分位数定义2设X为一随机变量,02=/2,则称1,2为此概率分布的双侧分位数。易证1=x1-/2,2=x/2,非正态总体的抽样分布,例1设总体,X1,X2,Xn为来自总体X的样本,求样本均值的分布。,例2设总体,X1,X2,Xn为来自总体X的样本,求样本均值的分布。,当样本容量n趋于无穷时,若统计量的分布趋于一定的分布,则称后者为该统计量的极限分布。它提供了统计推断的一种近似解法。所谓大样本指样本容量n30,最好大于50或100.,统计量的渐近分布,非正态总体大样本的抽样分布,定义1对于统计量Tn,若存在常数序列,使得,则称Tn的渐近分布为,定理1设总体X的分布函数为F(x),X1,X2,Xn为来自总体X的样本,则样本的均值的,渐近分布为,定理2设总体X的分布函数为F(x),X1,X2,Xn为来自总体X的样本,则,定理3设X1,X2,Xm与Y1,Y2,Yn是来自与的两独立样本,则当n趋于无穷m趋于无穷时有,定义2设统计量Tn为某个待估函数的估计量,则称Tn是的渐近正态估计。,若对于每个,3充分统计量与完备统计量,统计量既然是对样本的加工或压缩,在这个过程中可能有损失有关参数的一部分信息,现在问题是在这个过程中是否存在某些统计量,既起到压缩作用,又不损失参数的信息,这样的统计量称为充分统计量。,例,的函数,相同的T值,这样实际上是对样本起到了加工或压缩的作用。,),分布,即,正品和次品,服从两点,设总体,(,X,是来自总体的样本,考虑样本,数,对不同观察值可能对应,示样本中所含的次品个,定义,充分统计量(SufficientStatistics),一般情况下,利用条件分布证明统计量的充分性是比较困难的。但存在证明充分性的一个充分必要准则,就是下面的因子分解定理(Factorizationtheorem)。,定理,例设XB(1,p),试证样本均值是参数p的充分统计量。例设XN(,1),未知,试证样本均值是参数的充分统计量。,注:在因子分解定理中,如果未知参数是向量,T是随机向量,且定理条件成立,则称T关于是联合充分的。但这时一般不能由T关于的充分性而推出T的第j个分量关于的第j个分量是充分的。定理设T是的一个充分统计量,u=g(t)是单值可逆函数,则U=g(T)也是的充分统计量。,例,定义,的任一实值函数,,完备的(Complete)。,则称,例,证明,样本,,欲使上式恒成立,,只有左,边多项式的系数为零,,定理,一个样本,,其密度函数(分布率)可表示为,其中,如果包含一个k维矩形,且的值域包含一个k维开集,则是充分完备统计量。,例,解,对数分布密度函数为,因此样本的联合密度为,这样,次序统计量及其分布,定义设是取自总体X的一个样本,被称为该样本的第i个次序统计量,它是样本的满足如下条件的函数:每当样本得到一组观测值时,将它们从小到大排列为,第i个值是的观测值,称为该样本的次序统计量;称为最小次序统计量,称为最大次序统计量。,说明,即,定义样本最大次序统计量与样本最小次序统计量之差称为样本极差,常用表示。若样本容量为n,则样本极差为。它表示样本取值范围的大小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论