拟合优度检验_第1页
拟合优度检验_第2页
拟合优度检验_第3页
拟合优度检验_第4页
拟合优度检验_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 在前面的讨论中,我们总假定总体的分在前面的讨论中,我们总假定总体的分 布形式是已知的。例如,假设总体分布为正布形式是已知的。例如,假设总体分布为正 态分布态分布 n( , 2), 总体分布为区间总体分布为区间 (a, b) 上的上的 均匀分布,等等。均匀分布,等等。 然而,在实际问题中,然而,在实际问题中,我们所遇到的总我们所遇到的总 体服从何种分布往往并不知道体服从何种分布往往并不知道。需要我们先。需要我们先 对总体的分布形式提出假设,如:总体分布对总体的分布形式提出假设,如:总体分布 是正态分布是正态分布n( , 2),总体分布是区间总体分布是区间(a, b) 上均匀分布等,然后利用数据

2、上均匀分布等,然后利用数据 (样本样本) 对这一对这一 假设进行检验,看能否获得通过。假设进行检验,看能否获得通过。 8.4 拟合优度检拟合优度检 验验 这是一项非常重要的工作这是一项非常重要的工作, 许多学者视它为近代统计学的许多学者视它为近代统计学的 开端。开端。 解决这类问题的方法最早由英国统计学解决这类问题的方法最早由英国统计学 家家 k. pearson (皮尔逊皮尔逊) 于于1900年在他发表的年在他发表的 一篇文章中给出一篇文章中给出, 该方法后被称为该方法后被称为 pearson 2 检验法,简称检验法,简称 2检验检验。 设设f(x)为一已知的分布函数,现有样本为一已知的分布

3、函数,现有样本 x1, x2, , xn,但我们并不知道样本的总体,但我们并不知道样本的总体 分分 布是什么。现在试图检验布是什么。现在试图检验 h0:总体:总体 x 的分布函数为的分布函数为f(x) ; (1) 对立假设为对立假设为 h1:总体:总体 x 的分布函数非的分布函数非f(x)。 如果如果 f(x) 形式已知,但含有未知参数形式已知,但含有未知参数 或参或参 数向量数向量 =(1, 2, r ) ,则记其为则记其为f(x, )。 这种检验通常称为这种检验通常称为拟合优度检验拟合优度检验。 不妨设总体不妨设总体 x 是连续型分布。检验思想是连续型分布。检验思想 与步骤如下与步骤如下:

4、 (1). 将总体将总体 x 的取值范围分成的取值范围分成 k 个互不重叠的个互不重叠的 小区间小区间 i1, i2, , ik, . ( ( ( 1210 1212101 kk kkk aaaaa aaiaaiaai , (2). 计算各子区间计算各子区间 ii 上的理论频数。上的理论频数。 如果总体的分布函数为如果总体的分布函数为f(x, ),那么每个,那么每个 点落在区间点落在区间 ii 上的概率均为上的概率均为 ,k.,iafafp iii 21 ),(),()( 1 ) ( i np n 个点中,个点中,理论上理论上有有n pi ( )个点落在个点落在 ii 上上, (称为理论频数称

5、为理论频数)。当分布函数中含有未知。当分布函数中含有未知 参数参数 时,理论频数也未知,要用时,理论频数也未知,要用 来估计来估计 n pi ( ),其中,其中 为为 的极大似然估。的极大似然估。 (3). 计算各子区间计算各子区间 ii 上的实际频数上的实际频数 fi 。 fi = x1, x2, , xn ii , i=1, 2, , k . 计数符号,取集计数符号,取集 合中元素的个数合中元素的个数 )2( ) ( ) ( 1 2 2 , k i i ii np npf (4). 计算理论频数与实际频数的偏差平方和。计算理论频数与实际频数的偏差平方和。 可以证明:在可以证明:在 h0 成

6、立,且成立,且 n时时, 和和式式中中的的影影响响力力。频频数数比比较较大大的的那那些些项项在在 理理论论去去除除的的其其目目的的是是:缩缩小小每每一一项项用用 ) ( i np )3( 2 1 2 , k-r- 1 2 2 是是参参数数个个数数。是是子子区区间间数数,分分布布,的的 由由度度为为统统计计量量的的分分布布收收敛敛到到自自即即 rk rk (5). h0 的显著性水平为的显著性水平为 的检验的拒绝域为的检验的拒绝域为 )4( )( 2 1 2 , k-r- 注意注意:该检验方法是在:该检验方法是在 n 充分大时使用充分大时使用 的,因而,使用时要注意的,因而,使用时要注意 n 必

7、须足够地大必须足够地大, 以及以及 npi 不能太小不能太小这两个条件。这两个条件。 在实用上,在实用上,一般要求一般要求 n 50,以及所有以及所有 npi 5。如果初始子区间划分不满足后一个如果初始子区间划分不满足后一个 条件条件, 则适当地将某些子区间合并,可使则适当地将某些子区间合并,可使 npi 满满足上述要求。足上述要求。 例例1:为检验棉纱的拉力强度为检验棉纱的拉力强度 x (单位单位: 千克千克) 服服 从正态分布,从一批棉纱中随机抽取从正态分布,从一批棉纱中随机抽取300条进条进 行拉力试验,结果列在表行拉力试验,结果列在表8.2中。给定中。给定 = 0.01, 检验假设检验

8、假设 h0:拉力强度:拉力强度 x n(, 2) . 解:解:本例中,并未给出各观测值本例中,并未给出各观测值 xi 的具体值的具体值, 只给出了各观测值的取值范围,这样的数据只给出了各观测值的取值范围,这样的数据 称为区间数据。称为区间数据。样本均值样本均值与与样本方差样本方差可通过可通过 下列式计算:下列式计算: . 21 1 2 1 1 2 2 1 2 1 1 k i ii i k i ii i xn aa n n s aa n n x, .26. 0 1 41. 1 ),( 222 22 s n n x n , 为为极大似然估计极大似然估计的的和和,对正态总体对正态总体 (1). 先将

9、数据先将数据 xi 分成分成13组,每组落入一个区组,每组落入一个区 间,区间的端点为:间,区间的端点为: . 18. 2 78. 0 64. 0 13122 10 aaa aa , , (2). 计算数据落入各子区间的理论频数。计算数据落入各子区间的理论频数。 因分布中含有两个未知参数,所以,理论因分布中含有两个未知参数,所以,理论 频数只能近似地估计。落入第频数只能近似地估计。落入第 i 个子区间个子区间ii 的理论频数的估计为的理论频数的估计为 , 其中其中 .13 2 1 26. 0 41. 1 26. 0 41. 1 ) ( 1 2 , , i aa pp ii ii i p n ,

10、因因0.46 1.85 1.85 0.46 131221 pnpnpnpn 。见见表表最最后后两两组组合合并并成成一一组组 我我们们将将前前两两组组和和所所以以,均均大大于于,而而 8.3)( 5 113 pnpn (3). 计算数据落入各子区间上的实际频数计算数据落入各子区间上的实际频数 fi 。 fi = x1, x2, , xn ii , i=1, 2, , 10 . .15.22 1 2 2 k i i ii pn pnf (4). 计算检验统计量的值计算检验统计量的值 因为因为 k =10,r =2,所以上述,所以上述 2分布的自分布的自 由度为由度为 k- -r- -1=7。由由

11、.48.18)(15.22 2 1 2 rk (5). h0 的显著性水平为的显著性水平为 的检验的检验 于是,拒绝原假设,即认为棉纱拉力强于是,拒绝原假设,即认为棉纱拉力强 度不服从正态分布。度不服从正态分布。 孟德尔在关于遗传问题的研孟德尔在关于遗传问题的研 究中,用豌豆做实验。豌豆有黄究中,用豌豆做实验。豌豆有黄 和绿两种颜色,在对它们进行两和绿两种颜色,在对它们进行两 代杂交之后,发现一部分杂交豌代杂交之后,发现一部分杂交豌 豆呈黄色,另一部分呈绿色。其豆呈黄色,另一部分呈绿色。其 数目的比例大致是数目的比例大致是 3:1。 2检验的一个著名应用例子是孟德尔豌豆检验的一个著名应用例子是

12、孟德尔豌豆 实验。奥地利生物学家孟德尔在实验。奥地利生物学家孟德尔在1865年发表的年发表的 论文,事实上提出了基因学说,奠定了现代遗论文,事实上提出了基因学说,奠定了现代遗 传学的基础。他的这项伟大发现的过程有力地传学的基础。他的这项伟大发现的过程有力地 证明了统计方法在科学研究中的作用。因此,证明了统计方法在科学研究中的作用。因此, 我们有必要在这里将这一情况介绍给大家。我们有必要在这里将这一情况介绍给大家。 这只是一个表面上的统计规律。但它启这只是一个表面上的统计规律。但它启 发孟德尔去发展一种理论,以解释这种现象。发孟德尔去发展一种理论,以解释这种现象。 他大胆地假定存在一种实体,即现

13、在我们称他大胆地假定存在一种实体,即现在我们称 为为“基因基因”的东西,决定了豌豆的颜色。这的东西,决定了豌豆的颜色。这 基因有黄绿两个状态,一共有四种组合:基因有黄绿两个状态,一共有四种组合: 孟德尔把他的实验重复了多次,每次都孟德尔把他的实验重复了多次,每次都 得到类似结果。得到类似结果。 (黄黄, 黄黄),(黄黄, 绿绿),(绿绿, 黄黄),(绿绿, 绿绿). (黄黄, 黄黄),(黄黄, 绿绿),(绿绿, 黄黄),(绿绿, 绿绿). 孟德尔认为孟德尔认为, 前三种配合使豆子呈黄色前三种配合使豆子呈黄色, 而第四种配合使豆子呈绿色。从古典概率的而第四种配合使豆子呈绿色。从古典概率的 观点看

14、,黄色豆子出现的概率为观点看,黄色豆子出现的概率为3/4,绿色豆,绿色豆 子出现的概率为子出现的概率为1/4。这就解释了黄绿颜色豆。这就解释了黄绿颜色豆 子之比为什么总是接近子之比为什么总是接近 3:1 这个观察结果。这个观察结果。 孟德尔这个发现的深远意义是他开辟了孟德尔这个发现的深远意义是他开辟了 遗传学研究的新纪元。下面的例子就是用遗传学研究的新纪元。下面的例子就是用 2 检验来检验孟德尔提出黄绿颜色豌豆数目之检验来检验孟德尔提出黄绿颜色豌豆数目之 比为比为 3:1的论断。的论断。 例例2:孟德尔豌豆试验中,发现黄色豌豆为孟德尔豌豆试验中,发现黄色豌豆为25 粒粒, 绿色豌豆绿色豌豆11

15、粒,试在粒,试在 =0.05下下, 检验豌豆检验豌豆 黄绿之比为黄绿之比为3:1。 解:解:定义随机变量定义随机变量 x . , 0 , 1 豌豌豆豆为为绿绿色色 豌豌豆豆为为黄黄色色, x 我们要检验我们要检验,记记 . 01 21 xppxpp . 4/14/3 210 pph,: (1). 将将 (- -, ) 分成两个区间分成两个区间 . 0.5 ( ) 0.5( 21 ,ii (2). 计算每个区间上的理论频数,这里计算每个区间上的理论频数,这里 n = 25+11=36, 不存在要估计的未知参数不存在要估计的未知参数, 故故 . 94)/1 (36 274)/3(36 21 npn

16、p, (3). 实际频数为,实际频数为,f1=25, f2=11 . (4). 计算统计量的值计算统计量的值 .592. 0 9 )911( 27 )2725( 22 2 1 2 2 i i ii np npf .841. 3)05. 0()( 0.592 0.05 2 2 1 2 1 2 k- k,因因为为 (5). h0 的显著性水平为的显著性水平为 的检验的检验 所以,接受原假设,即认为豌豆的黄绿所以,接受原假设,即认为豌豆的黄绿 之比为之比为 3:1 。 例例3:某医院一年中出生的婴儿共计某医院一年中出生的婴儿共计1521人人, 其中男婴其中男婴802人,女婴人,女婴719人。给定人。

17、给定 =0.05, 试问:能否认为男婴、女婴出生概率相同?试问:能否认为男婴、女婴出生概率相同? 解:解:用用 x 表示服从两点分布的随机变量表示服从两点分布的随机变量, x 取取 0, 1两个值,两个值,x=1表示男婴,表示男婴, x=0表是女婴。表是女婴。 则问题就是检验假设则问题就是检验假设 h0:p1 = px=0=0.5. (1). 将将 (- -, ) 分成两个区间分成两个区间 . ) 0.5( 0.5 ( 21 ,ii (2). 计算每个区间上的理论频数。因为两个计算每个区间上的理论频数。因为两个 区区 间上的理论概率间上的理论概率 p1= p2=0.5, 而而 n=1521, 故故 . 5 .6075 . 01521 21 npnp (3). 各区间上实际频数:各区间上实际频数:f1=802, f2=719 . (4). 计算统计量的值计算统计量的值 .529. 4 5 .760 )5 .760719( 5 .760 )5 .760802( 22 2 .841. 3)05. 0()(529. 4 0.05 2 2 1 2 1 2 k- k,因为因为 (5). h0 的显著性水平为的显著性水平为 的检验的检验 所以,拒绝原假设,即认为男婴女婴出所以,拒绝原假设,即认为男婴女婴出 生概率有显著差异。生概率有显著差异。 . 473. 01

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论