数理统计知识小结.doc_第1页
数理统计知识小结.doc_第2页
数理统计知识小结.doc_第3页
数理统计知识小结.doc_第4页
数理统计知识小结.doc_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计知识小结 -缪晓丹 20114041056第五章 统计量及其分布5.1总体与样本一、 总体与样本在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体。对于实际问题,总体中的个体是一些实在的人或物。这样,抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现机会多,有的出现机会小,因此用一个概率分布去描述和归纳总体是合适的,从这个意义上说:总体就是一个分布,而其数量指标就是服从这个分布的随机变量。例5.1.1考察某厂的产品质量,将其产品分为合格品和不合格品,并以0记合格品,以1记不格品,若以p表示不合格品率,则各总体可用一个二点分布表示:X0 1p1-p p不同的p反映了总体间的差异。在有些问题中,我们对每一研究对象可能要观测两个或更多个指标,此时可用多维随机向量及其联合分布来描述总体。这种总体称为多维总体。若总体中的个体数是有限的,此总体称为有限总体;否则称为无限总体。实际中总体中的个体数大多是有限的,当个体数充分大时,将有限总体看作无限总体是一种合理抽象。二、样本与简单随机样本1、样本为了了解总体的分布,从总体中随机地抽取n个个体,记其指标值为 , 则 称为总体的一个样本,n称为样本容量或简称为样本量,样本中的个体称为样品。当时,称为大样本,否则为小样本。首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此样本是随机变量,用大写字母 表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此样本又是一组数值,此时用小写字母 表示。简单起见,无论是样本还是其观测值,本书中均用 表示,从上下文我们能加以区别。每个样本观测值都能测到一个具体的数值,则称该样本为完全样本,若样本观测值没有具体的数值,只有一个范围,则称这样的样本为分组样本。从而知道分组样本与完全样本相比在信息上总有损失,但在实际中,若样本量特别大,用分组样本既简明扼要,又能帮助人们更好地认识总体。2、简单随机样本从总体中抽取样本可有不同的抽法,为了能由样本对总体作出较可靠的推断就希望样本能很好地代表总体。这就需要对抽样方法提出一些要求,最常用的有如下两个要求:1)样本具有随机性:要求每一个个体都有同等机会被选入样本,这便意味着每一样品 与总体X有相同的分布。2)样本要求有独立性:要求每一样品的取值不影响其它样品的取值,这便意味着 相互独立。若样本是n个相互独立的具有同一分布的随机变量,则称该样本为简单随机样本,简称为样本。注(1)若总体X的分布函数为F(x),则其样本的联合分布函数为(2)若总体X的密度函数为p(x),则其样本的联合密度为(3)若总体X的分布列为 ,则其样本的联合分布列为(4)对有限总体不放回抽样,若总体中有几个个体,抽取样本容量为n,当nN ()时,不放回抽样得到的样本可认为是简单随机样本。例5.1.5 设有一批产品共N个,需进行抽样检验以了解其不合格品率p,现从中抽出n个逐一检查它们是否是不合格品,记合格品为0,不合格品为1。则总体为一个二点分布:P(X=1)=p,P(X=0)=1-p。设 为该总体的一个样本,采用不放回抽样得到。这时,第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品:但当N很大时,上述两个概率近似都等于p,所以当N很大,而n不大时,不放回抽样得到的样本可近似看成简单随机样本。5.2样本数据的整理与显示一、经验分布函数1、定义 设是取自总体分布函数为F(x)的样本,若将样本观测值从小到大进行排列为,则为有序样本,如下函数称为经验分布函数。2、经验分布函数的性质 对每一个固定的x,是事件“”发生的频率,当n固定时,是样本的函数,是一个随机变量,且。(格里纹科定理)定理5.2.1:设是取自总体分布函数为F(x)的样本,是经验分布函数,有。注 此定理表明,当n相当大时,经验分布函数是总体分布函数的一个良好的近似。二、频数频率分布表样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表,其基本步骤是:1、对样本进行分组:首先确定组数k,作为一般性原则,组数通常在5-20个。对容量较小的样本,通常将其分为5组或6组,容量为100左右的样本可分7到10组,容量在200左右的样本可分913组,容量为300左右级以上的样本可分12到20组。2、确定每组组距:每组组距可以相同也可以不同。但实际中常选用长度相同的区间,以d表示组距。3、确定每组组限。4、统计样本数据落入每个区间的个数频数,并列出其频数频率分布表。具体例子略。三、样本数据的图形显示:常用的样本数据的图形显示主要有直方图和茎叶图,具体例子略。5.3统计量及其分布一、统计量与抽样分布样本来自总体,含有总体各方面的信息,但这些信息较为分散,有时不能直接利用。为将这些分散的信息集中起来以反映总体的各种特征,需要对样本进行加工,最常用的加工方法是构造样本的函数,为此:定义5.3.1 设为取自某总体的样本,若样本函数中不含有任何未知参数,则称T为统计量。统计量的分布为抽样分布。按上述定义:设为样本,则都是统计量,当未知时,等都不是统计量。注 统计量不依赖于未知参数,但其分布一般是依赖于未知参数的。二、常用的统计量1、样本均值、样本方差、样本k阶矩及k阶中心矩定义 设是来自某总体的样本。称 为样本均值 为样本方差 为样本标准差 为样本(无偏)方差 为样本(无偏)标准差 为样本k阶(原点)矩为样本k阶中心矩注(1)=(2)在分组样本场合下:若为第i组的组中值,为该i组的个数,k为组数,则=2、次序统计量定义5.3.7设是取自总体X的样本,将其从小到大排序得到.定义:不论取怎样的一组观测值, 总取为其观测值,称为第i个次序统计量,从而有.,分别称为样本的最小、最大次序统计量。注 样本独立同总体分布,但既不独立又不同分布。三、统计量与的性质定理5.3.1 。定理5.3.2数据观察值与均值的偏差平方和最小,即在形如的函数中,最小,其中c为任意给定常数。定理5.3.3 设是来自某个总体的样本,为样本均值。1) 若总体分布为,则的精确分布为。2) 若总体分布未知或不是正态分布,但,则n较大时的渐近分布为,记为。定理5.3.4 设总体X具有二阶矩,即0。1、 性质 可加性 若且X与Y独立,则。证明 略。 若, 则EX=n, VarX=2n。分布的分位数定义 若,对给定的,称满足的是自由度为n的 分布的分位数。注 要会查分位数。t分布、F分布仍有相应的分位数定义。二、F分布1、定义 设,且X与Y独立,则称的分布为自由度为(m,n)的F分布,记为FF(m,n),m、n分别为分子、分母的自由度。F(m,n)的密度函数可由商的分布来推导,此处略。2、性质(1) 若。(2) 。三、t分布1、定义定义5.4.3 设随机变量X服从则称的分布为自由度为n的t分布,记为tt(n)。t(n)分布的密度可由商的分布公式来推导,此处略,但必须注意:注(1) t(n)分布的密度函数为偶函数,从而n1时,Et=0。(2) t(n)分布当n充分大时(n30),可用N(0,1)分布近似。2、性质(1) 若;(2)四、Fisher定理及其推论1、Fisher定理定理5.4.1 设是来自正态总体的样本,分别是样本均值与样本方差,则(1);(2);(3)独立。注(1) 在证明Th5.4.1的过程中有一重要结论即:独立同N(0,1)分布的随机变量经过正交变换后得到的仍是独立同N(0,1)分布的随机变量。 (2) 证明思路:而后研究经过两步变换得到的随机变量之间的关系。2、三个推论推论5.4.1 设是来自正态总体的样本,为样本均值、样本方差,则。分析 按t分布定义来证。推论5.4.2设是来自的样本, 是来自的样本,且两样本相互独立,记,则有。特别当时,分析 据F分布的定义结合Th5.4.1。推论5.4.3 在推论5.4.2的记号下,设,则有。第六章 参数估计6.1点估计的几种方法一、参数估计问题这里所指的参数是指如下三类未知参数:1、 类型已知的分布中所含的未知参数。如二点分布b(1, p)中的概率p;正态分布中的和;2、 分布中所含的未知参数的函数:如正态分布的变量X不超过给定值a的概率是未知参数的函数;3、 分布的各种特征数也都是未知参数,如均值EX,方差VarX,分布中位数等等。一般场合,常用表示参数,参数所有可能取值的集合称为参数空间,记为。参数估计问题就是根据样本对上述各种参数做出估计。二、概率函数总体X的概率函数是指:当X为离散型总体时,就是总体的分布列;当X为连续性总体时,就是总体的密度函数。三、参数估计形式分为点估计与区间估计。设是来自总体的样本,我们用一个统计量的取值作为的估计值,称为的点估计量,简称估计。若给出参数的估计是一个随机区间,使这个区间包含参数真值的概率大到一定程度,此时称为参数的区间估计。四、矩法估计1、替换原理及矩法估计用样本矩去替换总体矩(矩可以是原点矩也可以是中心矩),用样本矩的函数去替换总体矩的函数,这就是替换原理。用替换原理得到的未知参数的估计量称为矩法估计。注 矩法估计适用于总体分布形式未知场合,因此只要知道总体相应的矩即可,而不必知道其具体分布。2、概率函数已知时未知参数的矩法估计设总体的概率函数,是未知参数,是总体的样本,若存在,则存在。设,如果也能够表示成的函数,则可给出的矩估计量为,其中设是的函数,则利用替换原理可得到的矩估计量,其中是的矩估计,。例6.1.2 设总体为指数分布,其密度函数为,为样本,为未知参数,求的矩估计。解 ,为的矩估计。注 , 也为的矩估计。因此矩估计不唯一,此时,尽量采用低阶矩给出未知参数的估计。例6.1.3 设总体,为样本,求的矩估计。解 由,得,所以的矩估计为3、矩估计的步骤 (1)计算总体的各阶矩,令;(2)解出,即;(3)令,其中;(4)若,则为的矩估计量。五、最大似然估计1、最大似然原理一个试验有若干个可能的结果A,B,C,若在一次试验中结果A出现,则一般认为试验条件对结果A出现有利,也即A出现的概率最大。例6.1.5 产品分为合格品和不合格品两类,用随机变量表示某个产品是否合格,表示合格品,表示不合格品,从而,其中未知是不合格品率,现抽取个产品看是否合格,得到样本,这批观测值发生的概率为:当已知时,仅是p的函数,既然一次抽样观测到,此时应认为试验条件对该组样本的出现有利,即该组样本出现的概率最大,从而可求出当=?时达到最大,此时把求出的=?做为参数的估计就得到的最大似然估计,问题转化为求的最大值点。如果总体为连续型的,求未知参数的最大似然估计仍可转化为求的最大值点问题。为此给出似然函数与最大似然估计的定义。2、似然函数与最大似然估计定义6.1.1 设总体X的概率函数为 是一个未知参数或几个未知参数组成的参数向量, 为来自总体X的样本,称样本的联合概率函数为似然函数,用表示,简记为,即如果统计量满足则称是的最大似然估计,简记为MLE。由于是的单调增函数,因此对数似然函数达到最大与似然函数达到最大是等价的。 3、求最大似然估计的两种方法(1)似然方程法当是可微函数时,的极大值点一定是驻点,从而求最大似然估计往往借助于求下列似然方程(组)的解得到,而后利用最大值点的条件验证求出的是最大值点。(2)定义法虽然求导函数是求最大似然估计量最常用的方法,但并不是所有场合求导都是有效的。4、最大似然估计的不变性性质 如果是的最大似然估计,则对任一函数,是的最大似然估计。注 上述性质称为最大似然估计的不变性,从而使求复杂结构的参数的最大似然估计变得容易,具体应用略。62点估计的评价标准 在评价某一个估计好坏时,首先要说明是在哪一个标准下,否则所论好坏则毫无意义。有一个基本标准是所有的估计都应该满足的,它是衡量估计是否可行的必要条件,这就是估计的相合性。一、相合性1、定义定义6.2.1 设为未知参数,是的一个估计量,是样本容量,若对任一 有 即依概率收敛于,则称为的相合估计。相合性被认为是对估计的一个最基本要求,如果一个估计量在样本量不断增大时,它都不能把被估参数估计到任意指定的精度,那么这个估计是很值得怀疑的,通常,不满足相合性要求的估计一般不予考虑。注 证明估计的相合性一般可应用大数定律或直接用定义来证,有时借助于依概率收敛的性质。2、相合性的判别定理定理6.2.1 设是的一个估计量,若则是的相合估计。定理6.2.2 若分别是的相合估计,是的连续函数,则是的相合估计,二、无偏性定义6.2.2 是的一个估计,若对,有,则称是的无偏估计,否则称为有偏估计。注 相合性是大样本所具有的性质,而无偏性对一切样本均可以用。无偏性可以改写成,这表明无偏估计没有系统偏差,当我们使用估计时,由于样本的随机性,与总是有偏差的,这种偏差时而正,时而负,时而大,时而小,无偏性表示,把这些偏差平均起来其值为零,这就是无偏性的含义。注 无偏性不具有不变性,即若是的一个无偏估计,一般而言不是的无偏估计,除非是的线性函数。注 (1)无偏估计可以不存在;(2)无偏估计可以不唯一;(3)无偏估计未必是一个好的估计。具体例子略。三、有效性参数的无偏估计可以有很多,如何在无偏估计中进行选择?直观的想法是希望该估计围绕在参数真值的波动越小越好,波动大小可用方差来衡量,因此人们常用无偏估计的方差的大小作为度量无偏估计优劣的标准,这就是有效性。定义6.2.3 设是的两个无偏估计,如果对任意

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论