第六章抽样分布_第1页
第六章抽样分布_第2页
第六章抽样分布_第3页
第六章抽样分布_第4页
第六章抽样分布_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第六章 抽样分布学习目标² 学习目的统计推断是数理统计学研究的基本内容,本章中通过学习样本,总体,统计量、随机抽样的概念, 分布,分布、分布及其分位数和正态总体的抽样分布等内容。为下一步学习参数估计和假设检验以及回归分析等统计推断的方法打下必要的理论基础。² 知识要求1熟悉总体、个体、样本、简单随机抽样和统计量的概念。2掌握分布、分布和分布的定义与性质。3掌握正态总体的某些常用统计量的分布。² 能力要求学会查表计算分布、分布和分布的上侧分位数。 数理统计的核心问题是由样本推断总体,即统计推断问题。具体方法是利用从总体中所抽取的样本信息来对总体做出科学的推断。这就

2、需要由样本信息形成推断总体的统计量,而统计量是随机变量,通过前面学习概率论的基本知识,我们知道随机现象可以通过随机变量的概率分布和数字特征来描述,但是在很多实际问题中,我们所研究的随机变量的概率分布和数字特征是未知的。例如,某中药厂要了解生产药品的质量,需要掌握药丸的崩解时间、药片的溶解速度,如果把这批药品全部进行检验,就可以得到其分布函数以及有关的数字特征,但这一检验是破坏性的,故无实际意义。有的指标的获得虽然不是破坏性的,如蜜丸的丸重、质量等,但获取这些指标的工作量大,要耗费人力物力,所以也难以实现。可行的办法是通过抽样检查,对部分产品进行试验分析,进而推断出整批产品的情况,即应用数理统计

3、的原理,从局部推断总体的规律性。第一节 基本概念一、总体与样本定义6-1 在数理统计中,把研究对象的全体称为总体,总体中的每个元素称为个体。总体和样本是数理统计中两个最基本的概念,例如,我们要考察某药品企业生产的某批针剂的质量,则该批针剂的全体就是一个总体,其中的每一只针剂都是这个总体的一个个体。在实际问题中,我们不能笼统地研究所关心的对象,只考察它的某一项数值指标,而是要对总体的一个或者若干个数值指标进行研究,例如,考察针剂质量,我们要了解它的有效期、药物含量等。总体可分为有限总体和无限总体两类。如果总体所包含的观察单位是有限的,则称该总体为有限总体。如果总体所包含的观察单位是无限的,且没有

4、明确的时间与空间范围则称为无限总体。例如,用某种中药治疗高血压病人,那么高血压病人究竟有多少,显然没有确切的数字,这样的观察单位就是没有明确时间与空间范围的无限总体。为了研究总体,需要从总体中抽出若干个个体,这就有了样本的概念。定义6-2 在一个总体中抽取个个体,这个个体称为总体的一个容量为的样本;样本中所含个体的数目称为样本含量,根据样本容量的大小,我们可以将统计问题划分为大样本问题和小样本问题,但大样本、小样本没有严格的界定标准,视统计量和统计问题的要求而定。通常当时,称为大样本,否则称为小样本。由于是从总体中随机抽取出来的,可以看成是个随机变量,但在一次抽取之后,它们都是具体的数值,称为

5、一组样本值,记为。若两次抽样中,每次各抽取个样本,得到的两个样本值是不同的,因此为了方便起见,在不致混淆的情况下,我们赋予双重意义:视不同场合,有时指一组样本值;有时泛指任意一次抽样结果,即理解为几个随机变量。二、随机抽样显然,研究样本要比研究总体容易得多,从总体中抽取样本的过程就称作抽样。抽样的目的是对总体的规律性进行统计推断,因而要求抽取的样本能够很好的反映总体的数字特征,因此样本应满足以下条件:(1) 代表性样本 与总体同分布;(2) 独立性样本 相互独立。 具备上述两个条件的样本称为简单随机样本。本书讨论的抽样均指简单随机抽样,是按照随机性的原则,保证总体中每个个体被抽中的机会是均等的

6、,而且是每抽取一个个体后总体分布不变的一种抽样方法。由此方法得到的样本都是简单随机样本。在实际工作中,抽样时要尽量遵循两个原则:其一,随机性的原则,为了保证样本具有一定的代表性,总体中的每一个单位都有同等的被抽中的机会。例如,在药厂检查药品质量时,如若有意识的选优,那就违反了随机性原则,所得指标就不能正确的反映总体的质量情况。其二,独立性原则,即抽取一个个体后,总体成分不变,例如,某药厂从一小批药丸中,抽样检查合格品,要求有放回地抽样,可满足独立性原则;而对于有限总体,无放回的抽样则不满足独立性原则;但对于无限总体,由于抽取的样品放回与否不改变总体成分,可看作不影响抽样的独立性。一般在实际应用

7、中,即使总体个数有限,只要被抽取的个体数较小,比如不超过总体的5%,便可以看作近似满足独立性原则,而采取无放回抽样。三、统计量数理统计的主要任务是以样本的特性去推断总体的特性,但在抽取样本后,一般不直接利用样本对总体进行估计推断,而是先要对样本进行处理,即针对不同问题构造样本的不同函数来进行统计处理。定义6-3 设为总体的一个样本, ()为一个样本函数,如果中不含任何未知参数,则称为一个统计量。例如,若是来自总体,且已知,未知,则是统计量,而就不是统计量。统计量是对总体的分布函数或数字特征进行估计与推断的最重要的一个基本概念,统计量是一个随机变量,它随样本的不同而不同,是一个不包含任何未知参数

8、的样本函数,统计量一方面表示样本本身的分布状况和特征,另一方面也是总体参数的估计量。求出统计量 ()的分布函数是数理统计的基本问题之一。在统计学中常用的统计量有:平均数、中位数、众数、方差、标准差、变异系数与标准误等,当用它们来描述总体的特征时,称为总体参数;当用它们来描述样本的特征时,叫做样本统计量。下面介绍几个常用的样本统计量:样本均值样本方差样本标准差第二节 抽样分布统计量的分布称为抽样分布,即是指统计量作为随机变量所服从的概率分布,抽样分布是统计推断的理论基础。在大多数情形下,统计量服从正态分布或以近似正态分布,此外,常用的抽样分布有分布、分布和分布,它们在数理统计中占有极为重要的地位

9、。一、 常用分布(一)分布(卡方)分布是从正态分布派生出来的一个连续型分布,由于许多分布可以用分布来近似,主要用于列表资料的分析和拟合优度检验,在多元统计学中也常用到它。定义6-4 设随机变量相互独立,且均服从标准正态分布,则随机变量 式(6-1)所服从的分布称为分布,记作,其中称为自由度。分布的概率密度函数为 式(6-2)其中为函数,定义为 图6-1描绘了密度函数的图形。从图中可以看出,分布是不对称的偏态分布,且只在第一象限取值,其形状依赖于自由度的大小,随着的逐渐增大,曲线逐渐趋于对称,当自由度时, 分布趋向正态分布。图6-1 不同自由度的分布曲线知识链接分布是由海尔墨特(Helmert)

10、和皮尔逊(Karl Pearson)分别于1875年及1900年相互独立地在自己的研究工作中找到的概率分布,这一分布在统计学中应用非常广泛。分布具有可加性,如果两个独立的随机变量和分别服从自由度和的分布,那么它们的和服从自由度为(+)的分布。即若随机变量和相互独立,且则这个性质可以推广到多个独立的变量和或者差的情形。 分布的几何意义是:分布曲线下从0到给定值的面积,如图6-2所示。分布的分位数:对于不同自由度及不同的数,如果其满足定义是自由度为的分布上侧分位数,如图6-2所示。图6-2 分布的上侧分位数当自由度确定后,分布曲线下右侧尾部面积为时,横轴上相应的值记为, 值与值的对应关系见附表3分

11、布临界值表。值愈大,值愈小;反之,值愈小,值愈大。例6-1 已知=0.05,=15时,求(1);(2);(3)解 (1)查附表3得:=24.996; (2)=27.488; (3)=6.262. 例6-2 已知,求满足及的和。解 =,查附表3得:=18.307;,查附表3得:=3.247.分布与正态分布的关系:(1)从图6-1可见,当逐渐增大时,曲线逼近于正态曲线。(2)当=1时,变量等于标准正态变量的平方,因此,等于标准正态分布的双侧分位数的平方和。例如,而分布的应用:(1)直接应用:用于检验某一分布的实际频数与理论频数是否符合;某些统计量的分布可用分布作近似处理,如各组含量不小于5,且组数

12、不小于3时,秩和检验统计量的分布可近似地用分布来代替;另外,分布可应用于正态总体方差的区间估计等。(2)间接应用:如分布和分布是在分布的基础上推导出来的。(二)分布设是一个连续型随机变量,当时, ,但是当未知时,就不服从标准正态分布了,事实上,在小样本研究中,未知的情形是常见的,这无疑给小样本资料的统计分析带来了极大的困难,为此我们引进了分布。知识链接英国化学家戈塞特(William Gosset)基于在酿酒公司多年的实验观察,发现大样本统计方法并不适用于所有场合,有时人们只能根据少量观察就必须做出结论。因为,有些实验不能多次重复进行,必须依据极少量的实验结果做出判断,像有些化学实验、生物学实

13、验和药学实验等便属于这样的情况,但是它们也应该成为统计学的研究对象。戈塞特在他的老师数理统计的创始人皮尔逊的研究成果上,经过多年的潜心研究,终于在1908 年的生物统计学上,以笔名“Student”发表了重要的分布,又称Student 分布,这一发现开创了小样本统计推断的新纪元。定义6-5 设随机变量与相互独立,服从,服从自由度为的分布,则随机变量 式(6-3)所服从的分布称为分布(或学生氏分布),记作,称为自由度。分布的概率密度为 式(6-4)分布函数曲线如图6-3所示,是关于Y轴对称的“钟形”曲线,均值为0,形状类似于标准正态分布,分布的图形随着自由度的变化而变化,当较小时,其图形差异明显

14、,利用函数的性质,可以证明,当自由度时,分布的极限分布为标准正态分布。因此,对大样本的情形,分布可用标准正态分布近似。分布曲线不是一条曲线而是一簇曲线。分布是小样本总体均数的区间估计及假设检验的理论基础。图6-3 不同自由度的分布曲线分布上侧分位数: 对于不同的自由度及不同的数,我们称满足 的点是自由度为的分布上侧分位数,如图6-4(a)所示。为了方便计算,附表4中编制了分布临界值表,对于自由度和较小的值,表中列出了相应的值,对于较大的值,可由分布关于轴的对称性得: 当时,可用标准正态分布的分位数来近似:,例如,。分布双侧分位数: 对于不同的自由度及不同的数,我们称满足P=的点是自由度为的分布

15、双侧分位数,如图6-4(b)所示。例6-3 (1)当=0.05,自由度=6时,求和; (2)当=0.95,自由度=10时,求解 (1)由附表4第1行=0.05与第1列=6交叉点得当=0.05,自由度=6时, (2)=-1.812图6-4 分布的分位数分布的应用:(1)估计容许区间,包括估计正常值范围,以及直线回归分析中个体值的容许区间; (2)估计置信区间,包括估计总体均数的置信区间,以及估计直线相关与回归分析中某些参数的置信区间。(3)假设检验,包括关于定量资料均值的假设检验,以及直线相关与回归分析中某些参数的假设检验中,都需要用到分布的知识。(三)分布分布是一种连续型分布,它不仅是方差分析

16、的基础,而且与正态分布、 分布、t分布都有着密切的联系。知识链接在方差分析中,最初人们是通过研究组间方差与组内方差之比入手的, R.A.Fisher(18901962)于1924年发现方差之比有一个分布,并以的形式来编表,1934年George W.Snedecor 以 Fisher 的姓的第一个字母来称这个比值,故后来有一些统计工作者称分布为“ Snedecors Distribution”定义6-6 设随机变量与相互独立,分别服从自由度为与的分布,则随机变量 式(6-5)所服从的分布称为分布,记作,其中称为第一自由度,称为第二自由度。分布的概率密度为 式(6-6)分布的图形如图6-5所示,

17、呈不对称的山状曲线,峰向左偏斜,随着与的同时增大,其均数趋近于1,且的曲线趋向于对称。图6-5 不同自由度的分布曲线注意:(1)分布总是不对称的正偏态分布,而且不以正态分布为其极限分布。(2)分布中的两个自由度与不可倒置。分布的上侧分位数:对于不同的自由度及不同的数,我们称满足 的点是自由度为的分布的上侧分位数,如图6-6所示。图6-6 分布的上侧分位数利用附表5中的分布临界值表,我们可以得到对于常用的(=0.10,0.05,)和不同自由度相应的值。例如,=10,=15时=2.06,=2.54。容易证明,。由于用附表5查得的上侧临界值为P=时的,欲得其相应的右侧临界值,即P=,需用如下公式换算

18、例如,分布的应用:(1)分布用于两总体方差齐性检验,将在本书第八章中介绍。(2) 在各种方差分析以及多元统计量分析中,可应用分布做出统计推断。二、单个正态总体的统计量的分布正态分布在数理统计中占据着十分重要的位置,在实际应用中,许多量的概率分布或者是正态分布,或者接近于正态分布。因为正态分布有许多优良性质,便于进行较深入的理论研究,因此,我们下面重点来讨论正态总体下的抽样分布,其中最重要的统计量自然是样本均值和样本方差。设从总体中抽取容量为的样本,样本均值与样本方差分别是.定理6-1 设总体服从正态分布,则样本均值服从正态分布,即证 因为随机变量相互独立,并且与总体服从相同的正态分布,所以它们

19、的线性组合服从正态分布。例6-4 某药品企业需检测某批片剂的质量,重复测量一直径为的片剂,假设每次测量的结果相互独立,且服从正态分布,若以表示次测量结果的算术平均值,则为使,的最小值应取多少?解 由定理6-1可知: 即查附表1可得:,故的最小值应取16。利用定理6-1这一基本的抽样分布定理,可以得出一些常用统计量的分布,下面的结果以后经常要用到。定理6-2 设总体服从正态分布,则统计量服从标准正态分布,即由定理6-1的结论标准化即可得到定理6-2。例6-5 从总体中随机抽取一容量为36的样本,求样本均值落在50.8到53.8之间的概率。解 由定理6-2可知: = 定理6-3 设总体服从正态分布

20、,则统计量服从自由度为的分布,即证 注意到,则又上述统计量相互独立,并按照分布的定义可得结果。例6-6 设为来自正态总体一个样本,求解 由定理6-3可知: 即=反查分布的临界值表得:=0.95定理6-4 设总体服从正态分布,则(1)样本均值与样本方差相互独立;(2)统计量服从自由度为的分布,即证 = = =在此式中 从而可得 再由分布的可加性,即得 这个结论表明:是一个服从分布的随机变量,自由度为。例6-7 设从总体中抽取一容量为16的样本,其中均未知,求解 由定理6-4可知:即=反查分布的临界值表得:=0.025定理6-5 设总体服从正态分布,则统计量服从自由度为的分布,即证 由定理6-2知

21、,统计量又由定理6-4知,统计量因为与相互独立,所以与也相互独立,于是根据分布的定义得结论。 证毕。注意:比较定理6-2和定理6-5可见,当用样本标准差来代替统计量中的总体标准差时,所得的统计量将不服从,而是服从。例6-8 设为来自正态总体一个样本,为样本标准差。(1)试问服从什么分布? (2)求满足的值。解 (1)由定理6-5可知:, (2)反查分布的临界值表得:三、 两个正态总体的统计量的分布设从总体中抽取容量为的样本,从总体中抽取容量为的样本。假设所有的抽样都是相互独立的,由此得到的样本与都是相互独立的随机变量。我们把取自两个总体的样本均值分别记作样本方差分别记作定理6-6 设总体服从正

22、态分布,总体服从正态分布,则统计量服从标准正态分布,即证 由于独立的正态统计量的线性组合服从正态分布,所以标准化即得结论。当时,我们有推论 设总体服从正态分布,总体服从正态分布,则统计量定理6-7 设总体服从正态分布,总体服从正态分布,则统计量其中,且称为两个样本的联合方差。证 由定理6-6的推论知,统计量又由定理6-4知:因为与相互独立,由分布的可加性知:因为和相互独立,所以由分布的定义得结论:定理6-8 设总体服从正态分布,总体服从正态分布,则统计量服从自由度为的分布,即证 由定理6-4知:因为与相互独立,所以与独立,结合分布的定义得结论。若,则有。以上结果将在后面的假设检验、方差分析和回

23、归分析中多次用到。例 6-9 设和是分别来自正态总体及的两个相互独立的样本,而和分别为两个样本的方差。(1)问:服从什么分布?(2)若,求。解 (1)由定理6-8可知,若,则有 (2)反查分布的临界值表得:学习小结一、学习内容抽 样 分 布基 本 概 念常用的正态总体统计量的分布常用的抽样分布总 体分布随 机 抽 样统 计 量三种常用的抽样分布的定义、性质及其应用,分位数的概念及计算单个正态总体统计量的分布两个正态总体统计量的分布样 本分布分布二、学习体会本章中总体、个体、样本、简单随机抽样和统计量等概念,都是数理统计中最基本的概念,学习时可以结合实例加以理解。分布、分布、分布是数理统计中常用的抽样分布,学习中可通过观察图形理解它们的性质,掌握分位数的概念并会查表计算,了解各种抽样分布的应用。由于正态总体在数理统计中应用的普遍性,使得正态总体在数理统计中占有特别重要的地位,因此掌握正态总体样本均值、样本方差和一些常用统计量的分布是非常重要的,这一部分是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论