统计量及其分布_第1页
统计量及其分布_第2页
统计量及其分布_第3页
统计量及其分布_第4页
统计量及其分布_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章第五章 统计量及其分布统计量及其分布 5.1 总体与样本总体与样本5.2 样本数据的整理与显示样本数据的整理与显示5.3 统计量及其分布统计量及其分布5.4 三大抽样分布三大抽样分布5.5 充分统计量充分统计量 引引 言言 随机变量及其所伴随的概率分布全面描述了随机随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。现象的统计性规律。 概率论的许多问题中,随机变量的概率分布通常概率论的许多问题中,随机变量的概率分布通常是已知的,或者假设是已知的,而一切计算与推理都是已知的,或者假设是已知的,而一切计算与推理都是在这已知的基础上得出来的。是在这已知的基础上得出来的。 但实际中,情况

2、往往并非如此,一个随机现象所但实际中,情况往往并非如此,一个随机现象所服从的分布可能是完全不知道的,或者知道其分布概服从的分布可能是完全不知道的,或者知道其分布概型,但是其中的某些参数是未知的。型,但是其中的某些参数是未知的。例例5.0.1 某公司要采购一批产品,每件产品不某公司要采购一批产品,每件产品不 是合格品就是不合格品,但该批产品总有一是合格品就是不合格品,但该批产品总有一 个不合格品率个不合格品率 p 。由此,若从该批产品中随。由此,若从该批产品中随 机抽取一件,用机抽取一件,用 X 表示这一件产品的不合格表示这一件产品的不合格 数,不难看出数,不难看出 X 服从一个二点分布服从一个

3、二点分布b( (1 , p) ), 但分布中的参数但分布中的参数 p 是不知道的。一些问题:是不知道的。一些问题: p 的大小如何;的大小如何; p 大概落在什么范围内;大概落在什么范围内; 能否认为能否认为 p 满足设定要求满足设定要求(如(如 p 0.05)。)。 数理统计的任务则是数理统计的任务则是以概率论为基础,以概率论为基础,根据试验所得到的数据,对研究对象的客观根据试验所得到的数据,对研究对象的客观统计规律性做出合理的推断。统计规律性做出合理的推断。 学科分支:学科分支:抽样调查、实验设计、回归抽样调查、实验设计、回归分析、多元统计分析、非参数统计、贝叶斯分析、多元统计分析、非参数

4、统计、贝叶斯方法,等等。方法,等等。5.1 总体与个体总体与个体总体的三层含义总体的三层含义: 在数理统计中,把研究对象的全体称为在数理统计中,把研究对象的全体称为总体总体(population)或母体或母体,而把组成总体的每个单元,而把组成总体的每个单元称为称为个体个体。 例例5.1.1 考察某厂的产品质量,将产品只分为考察某厂的产品质量,将产品只分为合格品和不合格品,以合格品和不合格品,以0记合格品,以记合格品,以1记不记不合格品,则合格品,则X 0 1P 1 p p 该厂生产的全部合格品与不合格品该厂生产的全部合格品与不合格品 若以若以 p 表示这堆数中表示这堆数中1的比例(不合格品率)

5、,的比例(不合格品率),则该总体可由一个二点分布表示:则该总体可由一个二点分布表示:总体总体 = = = 由由0或或1组成的一堆数组成的一堆数 比如比如:两个生产同类产品的工厂的产品两个生产同类产品的工厂的产品的总体分布:的总体分布:例例5.1.2 在二十世纪七十年代后期,美国消费者购买在二十世纪七十年代后期,美国消费者购买日产日产SONY彩电的热情高于购买美产彩电的热情高于购买美产SONY彩电,原因何在?彩电,原因何在? 1979年年4月月17日日本日日本朝日新闻朝日新闻刊登调查报刊登调查报 告指出告指出N(m, (5/3)2),日产,日产SONY彩电的彩色浓彩电的彩色浓 度服从正态分布,而

6、美产度服从正态分布,而美产SONY彩电的彩色浓彩电的彩色浓 度服从度服从( (m 5 , m+5) )上的均匀分布。上的均匀分布。原因在于总体的差异上!原因在于总体的差异上!图图5.1.1 SONY彩电彩色浓度分布图彩电彩色浓度分布图q等级等级 I II III IV 美产美产 33.3 33.3 33.3 0 日产日产 68.3 27.1 4.3 0.3|X-m|5/35/3|X-m|10/310/3 |X-m|5抽样抽样 : 要了解总体的分布规律,在统计分析工作中,往往要了解总体的分布规律,在统计分析工作中,往往是是从总体中抽取一部分个体进行观测从总体中抽取一部分个体进行观测,这个过程称为

7、,这个过程称为抽抽样。样。样本样本 在抽取过程中,每抽取一个个体,就是对总体在抽取过程中,每抽取一个个体,就是对总体X进进行一次随机试验,行一次随机试验,每次抽取的每次抽取的n个个体个个体 ,称为总体称为总体X的一个容量为的一个容量为n的样本(的样本(sample)或子)或子样样;其中样本中所包含的个体数量称为;其中样本中所包含的个体数量称为样本容量样本容量。样本。样本中的个体称为中的个体称为样品样品。12,nX XX样本具有两重性:样本具有两重性: 一方面,由于样本是从总体中随机抽取的,抽一方面,由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机取前无法预知它们的数值

8、,因此,样本是随机 变量,用大写字母变量,用大写字母 X1, X2, , Xn 表示;表示; 另一方面,样本在抽取以后经观测就有确定的另一方面,样本在抽取以后经观测就有确定的 观测值,因此,样本又是一组数值。此时用小观测值,因此,样本又是一组数值。此时用小 写字母写字母 x1, x2, , xn 表示是恰当的。表示是恰当的。在本书中,无论是样本还是其观测值,样本一般均用在本书中,无论是样本还是其观测值,样本一般均用 x1, x2, xn 表示,大家要注意从上下文中加以识别。表示,大家要注意从上下文中加以识别。啤酒厂生产的瓶装啤酒规定净含量为啤酒厂生产的瓶装啤酒规定净含量为640 克。由于随机性

9、,事实上不可能使得所有的啤酒克。由于随机性,事实上不可能使得所有的啤酒 净含量均为净含量均为640克。现从某厂生产的啤酒中随机克。现从某厂生产的啤酒中随机 抽取抽取10瓶测定其净含量,得到如下结果瓶测定其净含量,得到如下结果:641, 635, 640, 637, 642, 638, 645, 643, 639, 640这是一个容量为这是一个容量为10的样本的观测值,的样本的观测值,对应的总体为该厂生产的瓶装啤酒的净含量。对应的总体为该厂生产的瓶装啤酒的净含量。完全样本完全样本例例5.1.4 考察某厂生产的某种电子元件的寿命,选考察某厂生产的某种电子元件的寿命,选了了100只进行寿命试验,得到

10、如下数据:只进行寿命试验,得到如下数据:表表5.1.2 100只元件的寿命数据只元件的寿命数据 寿命范围寿命范围 元件数元件数 寿命范围寿命范围 元件数元件数 寿命范围寿命范围 元件数元件数 ( 0 24 4 (192 216 6 (384 408 4 (24 48 8 (216 240 3 (408 432 4 (48 72 6 (240 264 3 (432 456 1 (72 96 5 (264 288 5 (456 480 2 (96 120 3 (288 312 5 (480 504 2 (120 144 4 (312 336 3 (504 528 3 (144 168 5 (336

11、 360 5 (528 552 1 (168 192 4 (360 184 1 552 13表表5.1.2中的样本观测值没有具体的数值,中的样本观测值没有具体的数值,只有一个范围,这样的样本称为只有一个范围,这样的样本称为分组样本分组样本。 独立性独立性: : 样本中每一样品的取值不影响其样本中每一样品的取值不影响其 它样品的取值它样品的取值 - x1, x2, , xn 相互独立。相互独立。要使得推断可靠,对样本就有要求,使样本能很要使得推断可靠,对样本就有要求,使样本能很好地代表总体。通常有如下两个要求:好地代表总体。通常有如下两个要求: 随机性随机性: : 总体中每一个个体都有同等机会总

12、体中每一个个体都有同等机会 被选入样本被选入样本 - xi 与总体与总体X有相同的分布有相同的分布。样本的要求:简单随机样本样本的要求:简单随机样本用简单随机抽样方法得到的样本称为用简单随机抽样方法得到的样本称为简单随机样本简单随机样本,也简称也简称样本样本。于是,样本于是,样本 x1, x2, , xn 可以看成是可以看成是独立同分布独立同分布( iid ) 的随机变量,的随机变量,其共同分布即为总体分布。其共同分布即为总体分布。 iidindependent identical distribution若总体若总体 的分布函数为的分布函数为X则样本则样本 的联合分布函数为的联合分布函数为1

13、2n1()()()()niiF x F xF xF x( )F x12n(,)XXX121122(,)P(,)nnnF xxxXxXxXx1122()()()nnP XxP XxP Xx若总体若总体 的密度函数为的密度函数为( )p xX则样本则样本 的联合密度函数为的联合密度函数为12n(,)XXX12n1(,)()niip x xxp x若总体若总体 的分布列为的分布列为()kP XkpX则样本则样本 的联合分布列为:的联合分布列为:12n(,)XXX1122n1(,)innxiP XxXxXxP总体分为总体分为有限总体有限总体与与无限总体无限总体实际中总体中的个体数大多是有限的。当个体数

14、充分实际中总体中的个体数大多是有限的。当个体数充分大时,将有限总体看作无限总体是一种合理的抽象。大时,将有限总体看作无限总体是一种合理的抽象。对无限总体,随机性与独立性容易实现,困难在于对无限总体,随机性与独立性容易实现,困难在于排除有意或无意的人为干扰。排除有意或无意的人为干扰。对有限总体,只要总体所含个体数很大,特别是与对有限总体,只要总体所含个体数很大,特别是与样本量相比很大,则独立性也可基本得到满足。样本量相比很大,则独立性也可基本得到满足。本书以无限总体为主要研究对象。本书以无限总体为主要研究对象。例例5.1.5 设有一批产品共设有一批产品共N个,需要进行抽样检个,需要进行抽样检验以

15、了解其不合格品率验以了解其不合格品率p。现从中采取不放回。现从中采取不放回抽样抽出抽样抽出2个产品,这时,第二次抽到不合格个产品,这时,第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品,品的概率依赖于第一次抽到的是否是不合格品,如果第一次抽到不合格品,则如果第一次抽到不合格品,则而若第一次抽到的是合格品,则第二次抽到不合而若第一次抽到的是合格品,则第二次抽到不合格品的概率为格品的概率为P(x2 = 1 | x1 = 1) = (Np 1)/(N 1)P(x2 = 1 | x1 = 0) = (Np) (N 1)显然,如此得到的样本不是简单随机样本。显然,如此得到的样本不是简单随机样本。

16、但是,当但是,当N 很大时,我们可以看到上述两种很大时,我们可以看到上述两种情形的概率都近似等于情形的概率都近似等于p 。所以当。所以当N 很大,很大,而而n不大(一个经验法则是不大(一个经验法则是 n N 0.1)时)时可以把该样本近似地看成简单随机样本。可以把该样本近似地看成简单随机样本。作业:作业:P256 4P256 4、6 65.2.1 经验分布函数经验分布函数5.2 样本数据的整理与显示样本数据的整理与显示设设 x1, x2, , xn 是取自总体分布函数为是取自总体分布函数为F(x)的样的样本,若将样本观测值由小到大进行排列本,若将样本观测值由小到大进行排列, ,为为 x(1),

17、 x(2), , x(n),则称,则称 x(1), x(2), , x(n) 为为有序样本有序样本,用有序样本定义如下函数用有序样本定义如下函数 (1)( )(1)( )0, ( )/ ,1,2,.,11,kknnxxFxk nxx xknxx 则则Fn(x)是一非减右连续函数,且满足是一非减右连续函数,且满足Fn() = 0 和和 Fn() = 1由此可见,由此可见,Fn(x)是一个分布函数,是一个分布函数,并称并称Fn(x)为为经验分布函数经验分布函数。(1)( )(1)( )0, =0.1,求求 .解解因为因为n=10,n- -1=9, 2=42,所以所以22294S 2(9).又又Ps

18、2 =2229944sP =0.1,所以所以220.99(9)4 =查表查表14.6837.故故 14.6837x16926.1052294P 5.5 充分统计量充分统计量5.5.1 充分性的概念充分性的概念例例5.5.1 为研究某个运动员的打靶命中率,我们为研究某个运动员的打靶命中率,我们 对该运动员进行测试,观测其对该运动员进行测试,观测其10次,发现除第次,发现除第 三、六次未命中外,其余三、六次未命中外,其余8次都命中。这样的次都命中。这样的 观测结果包含了观测结果包含了两两种信息:种信息:(1) 打靶打靶10次命中次命中8次;次;(2) 2次不命中分别出现在第次不命中分别出现在第3次

19、和第次和第6次次 打靶上。打靶上。第二种信息对了解该运动员的命中率是没有什第二种信息对了解该运动员的命中率是没有什么帮助的。一般地,设我们对该运动员进行么帮助的。一般地,设我们对该运动员进行n 次观测,得到次观测,得到 x1, x2, xn,每个,每个xj 取值非取值非0即即1,命中为命中为1,不命中为,不命中为0。令。令 T = x1+xn ,T为观为观测到的命中次数。在这种场合仅仅记录使用测到的命中次数。在这种场合仅仅记录使用T 不会丢失任何与命中率不会丢失任何与命中率 有关的信息,统计上有关的信息,统计上将这种将这种“样本加工不损失信息样本加工不损失信息”称为称为“充分充分性性”。样样本

20、本 x=(x1,x2,xn) 有一个样本分布有一个样本分布F (x),这个分布包含了样本中一切有关这个分布包含了样本中一切有关 的信息。的信息。统计量统计量T =T (x1,x2,xn) 也有一个抽样分布也有一个抽样分布FT(t) ,当我们期望用统计量,当我们期望用统计量T 代替原始样代替原始样本并且不损失任何有关本并且不损失任何有关 的信息时,也就的信息时,也就是期望抽样分布是期望抽样分布 FT(t) 像像 F (x) 一样概括一样概括了有关了有关 的一切信息,这即是说在统计量的一切信息,这即是说在统计量 T 的取值为的取值为 t 的情况下样本的情况下样本 x 的条件分布的条件分布 F (x

21、|T=t) 已不含已不含 的信息,这正是统计量的信息,这正是统计量具有充分性的含义。具有充分性的含义。12nTXXX 如如下下两两个个统统计计量量一一个个样样本本,我我们们来来研研究究的的是是来来自自两两点点分分布布设设例例 ,1,. 3,1BXXn1122(,)nnP Xx XxXx Tt 11111()()()nniiniiittn tnP XxP XtxC 11111(,)()nniiniiP XxXtxPXt 111()()tn tttn ttnnCC 11111111111()()()nniiiiiintxtxxxittn tnC 这这 与与 无关无关 定义定义5.5.1 设设 x1

22、, x2, , xn 是来自某个总体是来自某个总体 的样本,总体分布函数为的样本,总体分布函数为F( x ; ),统计,统计 量量 T = T(x1, x2, , xn) 称为称为 的的充分统计充分统计 量,量,如果在给定如果在给定T 的取值后,的取值后,x1, x2, xn 的条件分布与的条件分布与 无关无关. .例例 5.5.3定理:设随机向量定理:设随机向量(x1, x2, , xn )的分布密度是的分布密度是p(x1, x2, , xn ) , T(x1, x2, , xn )是是(x1, x2, , xn ) 的一个函数,且的一个函数,且T的分布密度为的分布密度为g(y) ,则,则(

23、x1, x2, , xn ) 关于关于T 的条件密度为:的条件密度为:11(,)(,|)( )nnp xxp xxTyg y 5.5.2 因子分解定理因子分解定理充分性原则:充分性原则: 在统计学中有一个在统计学中有一个 基本原则基本原则-在充分在充分统计量存在的场合,任何统计推断都可以基于充分统计量存在的场合,任何统计推断都可以基于充分统计量进行,这可以简化统计推断的程序。统计量进行,这可以简化统计推断的程序。定理定理5.5.1 设总体概率函数为设总体概率函数为 f(x ; ), X1, , Xn 为样本,则为样本,则 T=T(X1, Xn) 为充分统计量的充分为充分统计量的充分 必要条件必

24、要条件是:存在是:存在两两个函数个函数g(t, )和和h(x1, , xn), 使得对任意的使得对任意的 和任一组观测值和任一组观测值 x1, x2, xn,有,有p(x1, x2, xn, ) =g(T(x1,x2,xn), )h(x1,x2,xn) (5.5.1)其中其中g(t, )是通过统计量是通过统计量 T 的取值而依赖于样本的。的取值而依赖于样本的。例例5.5.4 设设x1, x2, , xn是取自总体是取自总体U(0, )的样本,的样本, 即总体的密度函数为即总体的密度函数为p(x ; )=1/ x 其他其他于是样本的联合密度函数为于是样本的联合密度函数为p(x1; )p(xn; )=0, 其它其它 (1/ )n, 0 min ximax xi 由于诸由于诸xi 0,所以我们可将上式改写为,所以我们可将上式改写为p(x1; )p(xn; ) = (1/ )nI x(n) 取取T =x(n),并令,并令 g(t ; )= (1/ ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论