4分布拟合检验_第1页
4分布拟合检验_第2页
4分布拟合检验_第3页
4分布拟合检验_第4页
4分布拟合检验_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

7.4 分布拟合优度检验 教学目的:了解有限离散总体分布的拟合优度检验、列联表的独立性检验 和正态性检验,能用 R 软件来完成这些检验,会解决简单的实际问题。 教学重点:列联表的独立性检验和正态性检验。 教学难点:解决简单的实际问题。 本章前四节所介绍的各种检验法, 是在总体分布类型已知的情况下, 对其 中的未知参数进行检验, 这类统计检验法统称为参数检验 . 在实际问题中, 有 时我们并不能确切预知总体服从何种分布, 这时就需要根据来自总体的样本对 总体的分布进行推断, 以判断总体服从何种分布. 这类统计检验称为非参数检 验. 解决这类问题的工具之一是英国统计学家 K. 皮尔逊在 1900 年发表的一篇 文章中引进的 2检验法,不少人把此项工作视为近代统计学的开端。 内容要点: 一、引例 例如, 从 1500 到 1931 年的 432 年间, 每年爆发战争的次数可以看作一个 随即变量, 据统计, 这 432 年间共爆发了 299 次战争, 具体数据如下: 战争次数 X 发生 X 次战争 的年数 0 223 1 142 2 48 3 15 4 4 根据所学知识和经验, 每年爆发战争的次数 X, 可以用一个泊松随机变量 来近似描述, 即可以假设每年爆发战争次数分布 X 近似泊松分布. 于是问题归 结为:如何利用上述数据检验 X 服从泊松分布的假设. 二、 2检验法的基本思想 检验法是在总体 X 的分布未知时, 根据来自总体的样本, 检验总体分布 的假设的一种检验方法. 具体进行检验时,先提出原假设: 0H: 总体 X 的分布函数为 )(xF 然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是 否接受原假设. 这种检验通常称作拟合优度检验. 它是一种非参数检验 . 一般地, 我们总 是根据样本观察值用直方图和经验分布函数, 推断出总体可能服从的分布, 然 后作检验. 三、 2检验法的基本原理和步骤 1) 提出原假设:0H :总体 X 的分布函数为 )(xF 如果总体分布为离散型, 则假设具体为0 :总体 X 的分布律为 ,21,ipxXPi 如果总体分布为连续型, 则假设具体为0H :总体 X 的概率密度函数 ).(xf 2) 将总体 X 的取值范围分成 k 个互不相交的小区间, 记为 kA,2,1 ,如 可取为 );,(,(, 1,2210 kkaaa 其中 可取 , 可取 ;区间的划分视具体情况而定,使每个小区间 所含样本值个数不小于 5,而区间个数 k不要太大也不要太小; 3) 把落入第 i个小区间 iA的样本值的个数记作 if,称为组频数,所有组频数 之和 kff21等于样本容量 n; 4) 当 0H为真时,根据所假设的总体理论分布,可算出总 体 X 的值落入第 i个小区间 iA的概率 ip, 于是 inp就是落入第 i个小区间iA 的样本值的理论频数. 5) 当 0H为真时, n次试验中样本值落入第 i个小区间 iA的频率 nfi/与概率ip 应很接近, 当 不真时, 则 fi/与 ip相差较大. 基于这种思想, 皮尔逊引进 如下检验统计量 .)(122kiinpf 并证明了下列结论. 定理 1 当 n 充分大 )50(时, 则统计量 2近似服从 )1(2k分布. 根据该定理, 对给定的显著性水平 , 确定 l值, 使2lP , 查 分布表得, ),1(2kl 所以拒绝域为).1(2k 若由所给的样本值 nx,21 算得统计量 2的实测值落入拒绝域, 则拒绝 原假设 0H, 否则就认为差异不显著而接受原假设 0H. 四、总体含未知参数的情形 在对总体分布的假设检验中, 有时只知道总体 X 的分布函数的形式, 但其 中还含有未知参数, 即分布函数为 ),(21rxF 其中 r, 为未知参数. 设 nX,21 是取自总体 X 的样本, 现要用此 样本来检验假设: 0H :总体 X 的分布函数为 ),(21rxF 此类情况可按如下步骤进行检验: 1) 利用样本 n,21 ,求出 r,21 的最大似然估计 r,21 , 2) 在 ),(rxF 中用 i代替 ),(i则 ),(rxF 就变成完全 已知的分布函数 .,21r 3) 计算 ip时, 利用 ).,(21rxF 计算 ip的估计值 );,21(kip 4) 计算要检验的统计量 ki iiipnf122/)( , 当 n 充分大时,统计量 2近似服从 )1(2rk分布; 5) 对给定的显著性水平 , 得拒绝域 ).1(/)(2122 rkpnfki ii 注: 在使用皮尔逊 2检验法时,要求 50n,以及每个理论频数),1(5kinpi ,否则应适当地合并相邻的小区间,使 ip满足要求. 例题选讲: 例 1(讲义例 1) 将一颗骰子掷 120 次, 所得数据见表 7-5-2165206234in出 现 次 数点 数 问这颗骰子是否均匀、对称? (取 05.) 解 若这颗骰子是均匀的、对称的, 则 16 点中每点出现的可能性相同, 都 为 1/6. 如果用 iA表示第 i点出现 )6,21(i 则待检假设 6/1)(:0iAPH.6,21i 在 0H成立的条件下, 理论概率 ,/)(iiAp 由 12n得频率 .2inp 计算结果如下表. iifii )/(2iiif 1 2 3 1 /6 2 0 9/20 2 2 6 1 /6 2 0 36/20 3 2 1 1 /6 2 0 1/20 4 2 0 1 /6 2 0 0 5 1 1 2 25/20 5 /6 0 6 1 5 1 /6 2 0 25/20 合 计 1 20 4.8 因此分布不含未知参数, 又 ,6k,05. 查表得 .071)5()1(20.2k 由上表, 知 ,71.84)(6122iinpf 故接受 ,0H 认为这颗骰子是均匀 对称的. 例 2(讲义例 2)检验引例中对战争次数 X提出的假设 X:0服从参数为 的泊松分布. 根据观察结果, 得参数 的最大似然估计为 .69x 按参数为 0.69 的 泊松分布, 计算事件 iX的概率 ,ip的估计是 ,!/.0iepi4,321 根据引例所给数表, 将有关计算结果列表如下: 战争次数x 0 1 2 3 4 实测频数if22 3 14 2 48 15 4ip 0. 58 0. 31 0. 18 0. 01 0. 02in 21 6.7 14 9.5 51 .6 12 .0 2. 16 14.16iiipnf/)( 0. 183 0. 376 0. 251 1.623 43.2 将 5ipn的组予以合并, 即将以生 3 次及 4 次战争的组归并为一组.因 0H所 假设的理论分布中有一个未知参数, 故自由度为 .214 按 ,05. 自由度为 2 查 分布表得 ,9.5)(20. 因统计量 2的观察值 ,91.543. 未落入拒绝域. 故认为每年发生战 争的次数 X服从参数为 0.69 的泊松分布. 例 3 一农场 10 年前在一鱼塘 里按比例 20:15:40:25 投放了四种鱼:鲑鱼, 鲈鱼,竹夹鱼,和鲇鱼的鱼苗.现在在鱼塘里获得一样本如下: 序 号 1 2 3 4 种 类 鲑 鱼 鲈 鱼 竹 夹鱼 鲇 鱼 数 量(条) 132 100 200 168 60 试取 05.检验各类鱼数量的比例较 10 年前是否有显著改变. 解 以 X记鱼种类的序号, 按题意需检验假设:H:0 的分布律为 所需计算列在下表 中. 现在 6041.2,.4k,0r 但 )(5.rk ,14.85.7)3( 205. 故拒绝 ,0H认为各鱼类数量之比较 10 年前有 显著改变. 例 4 在一次实验中, 每隔一定时间时观察一次由某种铀所放射的到达计 数器上的 a粒子数 X, 共观察了 100 次, 得结果如下表所示 X1 2 3 4ip 0.20 0.15 0.40 0.2514.681502.687.409.2.3/421Apnfpf iiiiii 铀放射的到达计数器上的 粒子数的实验记录 12109876543210 291765 AAAAfii 应 服 从 泊 松 分 布从 理 论 上 考 虑 知粒 子 的 次 数个是 观 察 到 有其 中 Xifi .,210,!ieXPi :5.0下下下 H.,21,!ieii 解 因在 0H中参数 未具体给出, 所以先估计 . 由最大似然估计法得 .24x在 0H假设下, 即在 X服从泊松分布的假设 下, X所有可能取的值为 ,1,0 将其分成如表所示的两两不相交的子集将其 分成如表所示的两两不相交的子集 ,120A 则 iP有估计,!2.4.iepi,10 计算结果如表所示, 其中有些 5ipn的组予以适当合并, 使得每组均有5ipn 如表中第四列花括号所示. 此处, 并组后 ,8k但因在计算概率时, 估 计了一个参数 , 故 ,1r 2的自由度为 .618 查表得 59.)6()8(05.205. 现在 ,2.18.1.6 故在水平 0.05 下接受 ,0H 即认为样本 来自泊松布总体. 例 5(讲义例 3)为检验棉纱的拉力强度(单位: 公斤)X 服从正态分布, 从 一批棉纱中随机抽取 300 条进行拉力试验, 结果列在表 7-5-5 中, 我们的问题 是检验假设 :0H)01.(),(2NX . 表 7-5-5 棉纱拉力数据 5648.137 138.2.20.60475 6.9.1.98.3257.2.0642 34851 ii fxfxi 解 可按以下四步来检验: (1) 将观测值 ix分成 13 组: ,0a,64.1 ,78.02a ,81.2a ,3 但是这样分组后, 前两组和最后两组的 inp比较小, 故把它们合并成为一个 组(见分组数据表) (2) 计算每个区间上的理论频数. 这里 )(xF就是正态分布 ),(2N的分布函 数, 含有两个未知数 和 ,2 分别用它们的最大似然估计 X和niiX122/)( 来代替. 关于 X的计算作如下说明: 因拉力数据表中的每个区 间都很狭窄, 我们可认为每个区间内 i都取这个区间的中点, 然后将每个区间 的中点值乘以该区间的样本数, 将这些值相加再除以总样本数就得具体样本均 值 X 计算得到: ,41.260 对于服从 ).,(2N的随机变量 Y, 计算它在上面第 i个区间上的概率 .ip (3) 计算 3021,x 中落在每个区间的实际频数 ,if 如分组表中所列. (4) 计算统计量值: ,07.2)(102kipnf 因为 ,210rk 故 2的自 由度为 ,7120 查表得 ,.48.)7(201. 故拒绝原假设, 即认为棉 纱拉力强度不服从正态分布. 棉纱拉力数据的分组表 31.96.023.1604.29.10 485784976.5.8 26321.048.13 8584320

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论