拟合优度检验-文档资料_第1页
拟合优度检验-文档资料_第2页
拟合优度检验-文档资料_第3页
拟合优度检验-文档资料_第4页
拟合优度检验-文档资料_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第七章 拟合优度检验2拟合优度检验的应用n总体分布未知,从样本数据中发总体分布未知,从样本数据中发现规律(现规律(总体分布总体分布),再利用拟),再利用拟合优度检验对合优度检验对假设的总体分布假设的总体分布进进行验证。行验证。【引例引例1】某地区某地区在在1500到到1931年的年的432年间,共爆发了年间,共爆发了299次战次战争,具体数据如下(每年爆发战争,具体数据如下(每年爆发战争的次数可以看作一个随机变量争的次数可以看作一个随机变量X):):战争次数战争次数 X01234 22314248154 发生发生 X 次战争的年数次战争的年数 根据我们对泊松分布产生的一般条件的理根据我们对泊

2、松分布产生的一般条件的理解,可以用一个泊松随机变量来近似描述解,可以用一个泊松随机变量来近似描述每每年爆发战争的次数。年爆发战争的次数。也就是说,我们可以假也就是说,我们可以假设每年爆发战争次数分布设每年爆发战争次数分布 X 近似泊松分布。近似泊松分布。现在的问题是:现在的问题是: 上面的数据能否证实上面的数据能否证实 X 具有泊松分布的具有泊松分布的假设是正确的?假设是正确的?【引例引例2】某钟表厂对生产的某钟表厂对生产的钟进行精确性检查,抽取钟进行精确性检查,抽取100个个钟作试验,校准钟作试验,校准24小时后进行小时后进行检查,将每个钟的误差(快或检查,将每个钟的误差(快或慢)按秒记录下

3、来。慢)按秒记录下来。问该厂生产的钟的误差是否服从正态分布?问该厂生产的钟的误差是否服从正态分布?【引例引例3】某工厂制造了一某工厂制造了一批骰子,声称它是均匀的。批骰子,声称它是均匀的。 为检验骰子是否均匀,要把骰子实地投掷为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与若干次,统计各点出现的频率与1/6的差距。的差距。问题是:问题是: 得到的数据能否说明得到的数据能否说明“骰子均匀骰子均匀”的假的假设是可信的?设是可信的?K.皮尔逊皮尔逊 解决这类问题的工具是英解决这类问题的工具是英国统计学家国统计学家K.皮尔逊在皮尔逊在1900年发表的一篇文章中介绍了年发表的一篇文章中介

4、绍了 2 检验法。检验法。8拟合优度检验的工具- 2 检验n2 检验法检验法是在总体是在总体 X 的分布未知时,的分布未知时,根据来自总体的样本,检验关于总根据来自总体的样本,检验关于总体分布的假设的一种检验方法。体分布的假设的一种检验方法。 H0:总体:总体 X 的分布函数为的分布函数为 F(x) 然后根据样本的然后根据样本的经验分布经验分布和所假设的和所假设的理论分布理论分布之间的吻合程度来决定是否接之间的吻合程度来决定是否接受原假设。受原假设。 这种检验通常称作这种检验通常称作拟合优度检验拟合优度检验,它,它是一种是一种非参数非参数检验。检验。使用使用 2 检验法检验法对总体分布进行检验

5、时,对总体分布进行检验时,先提出原假设先提出原假设:10拟合优度检验的一般步骤n将总体将总体 X 的取值范围分成的取值范围分成 k 个互不重叠个互不重叠的小区间,记作的小区间,记作A1, A2, , Ak。 n把落入第把落入第 i 个小区间个小区间 Ai 的样本值的个数的样本值的个数记作记作 fi ,称为,称为实测频数实测频数; 所有实测频数所有实测频数之和(之和(f1+ f2+ + fk)等于样本容量)等于样本容量 n。n根据所假设的理论分布,可以算出总体根据所假设的理论分布,可以算出总体X 的值落入每个的值落入每个 Ai 的概率的概率 pi,npi就是落就是落入区间入区间 Ai 的样本值的

6、的样本值的理论频数理论频数。皮尔逊引进如下统计量表示皮尔逊引进如下统计量表示经验分布经验分布与与理论分布理论分布之间的差异之间的差异:在理论分布在理论分布已知的条件下已知的条件下,npi是常量是常量实测频数实测频数理论频数理论频数iifnp221()kiiiifnpnpn观测频数观测频数与与理论频数理论频数比较,判断二者比较,判断二者不符合程度是否由于机会所造成。不符合程度是否由于机会所造成。12统计量统计量 的分布是什么的分布是什么?2皮尔逊为什么会选用这个统计量皮尔逊为什么会选用这个统计量?两个问题:关于第一个问题,皮尔逊证明了如下关于第一个问题,皮尔逊证明了如下定理定理: 若原假设中的理

7、论分布若原假设中的理论分布 F(x) 已经完全给定,已经完全给定,那么当那么当 n 时,统计量:时,统计量:221()kiiiifnpnp的分布的分布渐近渐近 (k-1) 个自由度的个自由度的 分布。分布。2 如果理论分布如果理论分布 F(x) 中有中有 r 个未知参数需用相个未知参数需用相应的估计量来代替,那么当应的估计量来代替,那么当 n 时,统计时,统计量量 的分布渐近的分布渐近 (k-1-r)个自由度的个自由度的 分布。分布。2214皮尔逊定理的几点说明n统计量的选择统计量的选择n自由度的确定自由度的确定n连续性矫正连续性矫正15统计量的选择n求求 k 个个 OiTi 之和,之和,显然

8、它们恒等于显然它们恒等于0n求求 k 个个 (OiTi)2 之和,之和,得不出相对的不符合程度得不出相对的不符合程度nOi9、Ti6,OiTi3;Oi49、Ti46,OiTi3。前者的不符合程度远大于后者。前者的不符合程度远大于后者。n求求 k 个个 (OiTi)/Ti2 之和,之和,但仍有问题但仍有问题n如:如:Oi8、Ti5以及以及Oi80、Ti50时时 (OiTi)/Ti 都都等于等于0.6。16统计量的选择n为了解决上述问题,以为了解决上述问题,以 Ti 为权求加权值为权求加权值22111kkkiiiiiiiiiiiiOTfnpOTTTTnp21kiiiiiOTTT21kiiiiOTT

9、17自由度的确定变量之间存在着一个制约关系:变量之间存在着一个制约关系:1()0kiiifnp故统计量故统计量 渐近渐近 (k-1) 个自由度的个自由度的 分布。分布。22221()kiiiifnpnp 在在 F(x) 尚未完全给定尚未完全给定的情况下,每个未知的情况下,每个未知参数用相应的估计量代替,就相当于增加一个参数用相应的估计量代替,就相当于增加一个制约条件,因此,自由度也随之减少一个。制约条件,因此,自由度也随之减少一个。若有若有 r 个未知参数需用相应的估计量来代替,个未知参数需用相应的估计量来代替,自由度就减少自由度就减少 r 个。个。故统计量故统计量 渐近渐近 (k-1-r)

10、个自由度的个自由度的 分布。分布。22 如果根据所给的样本值如果根据所给的样本值 X1,X2, ,Xn算得统算得统计量计量 的实测值落入拒绝域,则拒绝原假设,的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设。否则就认为差异不显著而接受原假设。得拒绝域得拒绝域:(不需估计参数不需估计参数)(估计估计 r 个参数个参数)根据根据皮尔逊皮尔逊定理,对给定的显著性水平定理,对给定的显著性水平 ,查查 分布表可得临界值分布表可得临界值 ,使得,使得2222()P2221,k221,kr 20连续性矫正n当当df1时应做连续时应做连续性矫正,矫正方法如性矫正,矫正方法如下:下:21 皮尔

11、逊定理是在皮尔逊定理是在 n 无限增大时推导出来无限增大时推导出来的,因而在使用时要注意的,因而在使用时要注意 n 要足够大要足够大,以,以及及 npi 不太小不太小这两个条件。这两个条件。 根据根据计算实践计算实践,要求,要求 n 不小于不小于50,以及,以及npi 都不小于都不小于 5。否则应适当合并区间,使。否则应适当合并区间,使 npi 满足这个要求满足这个要求 。皮尔逊定理小结皮尔逊定理小结 奥地利生物学家孟德尔进行了长达奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验,并根据试八年之久的豌豆杂交试验,并根据试验结果,运用他的数理知识,发现了验结果,运用他的数理知识,发现了分离规

12、律分离规律。孟德尔孟德尔 以遗传学上的一项伟大发现为例,说明统计以遗传学上的一项伟大发现为例,说明统计方法在研究自然界和人类社会的规律性时,是方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用。起着积极的、主动的作用。【例例1】子二代子二代子一代子一代黄色纯系黄色纯系绿色纯系绿色纯系他的一组观察结果为:他的一组观察结果为:黄黄70,绿,绿27近似为近似为2.59:1,与理论值相近。,与理论值相近。 根据他的理论,子二代中,黄、绿之比根据他的理论,子二代中,黄、绿之比 近似为近似为3:1,这里,这里,n=70+27=97,k=2,检验孟德尔的检验孟德尔的3:1理论理论:提出假设提出假

13、设H0: O-T=0 (p1=3/4,p2=1/4)理论频数为:理论频数为: np1=72.75,np2=24.25实测频数为实测频数为70(黄黄),),27(绿绿)。)。自由度为自由度为2-1=1未落入拒绝域。未落入拒绝域。故认为试验结果符合孟德尔的故认为试验结果符合孟德尔的3:1理论。理论。2221iiiifnpnp按按 =0.05,自由度为,自由度为1,查表得,查表得21,0.053.8412由于统计量由于统计量=0.41583.84122(7072.75)(2724.25)0.415872.7524.25【引例引例1】某地区某地区在在1500到到1931年的年的432年间,共爆发了年间

14、,共爆发了299次战次战争,具体数据如下(每年爆发战争,具体数据如下(每年爆发战争的次数可以看作一个随机变量争的次数可以看作一个随机变量X):):战争次数战争次数 X01234 22314248154 发生发生 X 次战争的年数次战争的年数【例例2】引例引例1,检验每年爆发战争次数分,检验每年爆发战争次数分布是否服从泊松分布。布是否服从泊松分布。 按参数按参数 为为0.69的泊松分布,计算事件的泊松分布,计算事件X=i 的概率的概率pi ,pi的估计是:的估计是:H0:O-T=0 (X 服从参数为服从参数为 的泊松分布)的泊松分布)根据观察结果,得参数根据观察结果,得参数 的极大似然估计为:的

15、极大似然估计为:0.69X0.690.69 / !,0,1,2,3,4iipei i解:解:将有关计算结果列表如下将有关计算结果列表如下:2. 因因H0所假设的理论分布中有一个所假设的理论分布中有一个未知参数未知参数 ,故自由度为故自由度为4-1-1=2。1. 将将npi 5的组予以合并,即将发生的组予以合并,即将发生3次及次及4次战争次战争的组归并为一组。的组归并为一组。按按 =0.05,自由度为,自由度为4-1-1=2,查表得:,查表得:22,0.055.991统计量统计量:22.435.991未落入拒绝域。未落入拒绝域。 故认为每年发生战争的次数故认为每年发生战争的次数 X 服从参数服从

16、参数为为 0.69的泊松分布。的泊松分布。30 2 检验的另一应用-独立性检验独立性检验n是指研究是指研究两个或两个以上两个或两个以上的的计数资料计数资料(或属性资料)之间是否相互独立的(或属性资料)之间是否相互独立的假设检验,先假设所观测的各属性之假设检验,先假设所观测的各属性之间没有关联,然后检验这种无关联的间没有关联,然后检验这种无关联的假设是否成立。假设是否成立。n方法方法1:列联表:列联表 2 检验检验【例例】下表给出不同给药方式与给药效果下表给出不同给药方式与给药效果,问给药方式与给药效果是否有关联。问给药方式与给药效果是否有关联。22211kkiiiiiiiiOTfnpTnp检验

17、统计量:检验统计量:【例例】下表给出不同给药方式与给药效果下表给出不同给药方式与给药效果,求证:给药方式与给药效果有无关联。求证:给药方式与给药效果有无关联。若事件若事件 A 和事件和事件 B 是相互独立的,则是相互独立的,则P(AB)=P(A)P(B)33列联表 2 检验一般步骤n提出零假设:假设实测数提出零假设:假设实测数与与理论数无差异。即理论数无差异。即H0:OT0。n计算理论数:若事件计算理论数:若事件 A 和事件和事件 B 是相互独立是相互独立的的,则则 P(AB)=P(A)P(B)。n例如:例如:在给药方式和效果之间是相互独立的前提下在给药方式和效果之间是相互独立的前提下,计算口

18、服(事件,计算口服(事件B)有效(事件)有效(事件A)的)的概率概率 P(BA)P(B)P(A) = (98/193) (122/193)。其。其理论数理论数T1(98/193)(122/193) 193 = (98)(122)/193 。n每个理论值用每个理论值用Tij表示,表示,Tij=(i行总数行总数)(j列总数列总数)/总数。总数。34列联表 2 检验一般步骤n计算计算 2 值:若值:若 2 2,则拒绝,则拒绝H0。n确定确定 df:因为每一行的各理论数受该行总数:因为每一行的各理论数受该行总数约束,每一列的各理论数受该列总数约束,约束,每一列的各理论数受该列总数约束,所以所以 df(

19、r-1)(c-1)。n给出结论。给出结论。2. 计算理论数:计算理论数:1. 零假设零假设H0:OT0Tij=(i行总数行总数)(j列总数列总数)/总数总数3. 计算计算 2 值值4. 确定确定dfdf(r-1)(c-1) (2-1)(2-1) 1取取 =0.05,220.051.3915. 给出结论:给出结论: 接受接受H0,不同给药方式的治疗效果没有显著,不同给药方式的治疗效果没有显著不同。不同。注意:本例的注意:本例的 df =1应当矫正,矫正后的应当矫正,矫正后的 2 值更值更小,不会影响结论,可以不再矫正。小,不会影响结论,可以不再矫正。38rc 列联表列联表 2 检验nrc列联表是

20、列联表是 22 表的扩展;反之,表的扩展;反之, 22 表也可以看成是表也可以看成是 rc列联表的一个列联表的一个特例。特例。nrc 列联表理论数的计算与列联表理论数的计算与22列联表列联表相同:相同:nTij=(i行总数行总数)(j列总数列总数)/总数。总数。ndf=(r-1)(c-1)。【例例】检查鱼的饲养方式与鱼的等级是否有检查鱼的饲养方式与鱼的等级是否有关,设计了如下试验:按不同方式分为三种关,设计了如下试验:按不同方式分为三种网箱饲养类型:网箱饲养类型:A、B、C,统计不同饲养方,统计不同饲养方式下鱼的等级情况,得如下数据,试分析。式下鱼的等级情况,得如下数据,试分析。 等级等级饲养

21、方式饲养方式总数总数ABC甲甲22181656乙乙18161448丙丙11131438丁丁8111029总数总数595854171等级等级饲养方式饲养方式总数总数ABC甲甲22(19.32) 18(18.99) 16(17.68)56乙乙18(16.56) 16(16.28) 14(15.16)48丙丙11(13.11) 13(12.89) 14(12.0)38丁丁8(10.01) 11(9.84) 10(9.16)29总数总数5958541712. 计算理论数:计算理论数:1. 零假设零假设H0:OT0Tij=(i行总数行总数)(j列总数列总数)/总数总数22221221()(22 19.3

22、2)(18 18.99)(109.16).2.09319.3218.999.16iiiiOTT22221221()(22 19.32)(18 18.99)(109.16).2.09319.3218.999.16iiiiOTT22221221()(22 19.32)(18 18.99)(109.16).2.09319.3218.999.16iiiiOTT3.计算计算2值值等级等级饲养方式饲养方式总数总数ABC甲甲22(19.32) 18(18.99) 16(17.68)56乙乙18(16.56) 16(16.28) 14(15.16)48丙丙11(13.11) 13(12.89) 14(12.0

23、)38丁丁8(10.01) 11(9.84) 10(9.16)29总数总数5958541714. 计算计算df:df=(r-1)(c-1) =(4-1)(3-1) =643226,0.052.09312.59 接受原假设,即商品鱼的规格与饲接受原假设,即商品鱼的规格与饲养方式无关。养方式无关。5. 结论结论44rc 列联表列联表 2 检验的局限性与吻合度检验一样,理论数不得小于与吻合度检验一样,理论数不得小于5。4522 列联表的精确检验法列联表的精确检验法aba + bcdc + da + c b + dN044325369134235369224145369314055369表1表2表3表

24、445369044325369表145369根据组合公式, 9分解为4和5,共:49C 9分解为3和6,共:39C9在行间分解为4和5,在列间分解为3和6,共:43999!9!()()4!5! 3!6!CC根据组合公式, 9分解为0,4,3和2,共:043299529!0!4!3!2!CCCC0443253699!()()4!5! 3!6!CC043299529!0!4!3!2!CCCC出现表1的概率是:0432995243994!5!369 0 4 3 2CCCCCC! ! ! ! ! !044325369134235369224145369314055369表1表

25、2表3表40432995243994!5!369 0 4 3 2CCCCCC! ! ! ! ! !2214975443994!5!369 2 214CCCCCC! ! ! ! ! !3105965543994!5!369 310 5CCCCCC! ! ! ! ! !各列联表的概率:各列联表的概率:1322985343994!5!36913 2 2CCCCCC! ! ! ! ! !4!5!3!6!9!1!3!2!3!求任一列联表概率的通式:求任一列联表概率的通式:aba + bcdc + da + c b + dN()!()!()!()! ! ! ! !abcdacbdPN a b c d注意:

26、注意:原假设是处理间不存在差异;原假设是处理间不存在差异;如果如果 P ,接受原假设;,接受原假设;如果如果 P ,接受备择假设。,接受备择假设。饲料未增重/只增重/只总数A415B066总数4711【例例1】用两种饲料用两种饲料 A 和和 B 饲养小白鼠,一周后测饲养小白鼠,一周后测小白鼠增重情况(如下表)。问用小白鼠增重情况(如下表)。问用不同饲料不同饲料饲养的饲养的小白鼠体重是否小白鼠体重是否存在差异存在差异?饲料未增重/只增重/只总数A415B066总数4711解:解:1. 原假设原假设H0:两种饲料的饲养效果相同:两种饲料的饲养效果相同2. 计算计算 P 值值()!()!()!()! ! ! ! !abcdacbdPN a b c d5!6!4!7!0.01511!4!1!0!6!饲料未增重/只增重/只总数A415B066总数4711解:解:3. 结论结论双侧检验,双侧检验,P 值与值与 /2比较比较P =0.015 0.025

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论