生物统计学拟合优检验_第1页
生物统计学拟合优检验_第2页
生物统计学拟合优检验_第3页
生物统计学拟合优检验_第4页
生物统计学拟合优检验_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、这一类数据的特点是都属于离散型数据,是通过数这一类数据的特点是都属于离散型数据,是通过数 数的办法获得的原始数据,它们不再符合基于数的办法获得的原始数据,它们不再符合基于正态正态 分布分布的的 u u分布、分布、t t分布和分布和 F F分布等,因此也就不能再分布等,因此也就不能再 用基于正态分布的用基于正态分布的u u检验、检验、t t检验、检验、F F检验检验等对数据进等对数据进 行统计推断,而必须引入新的检验方法,这就是我行统计推断,而必须引入新的检验方法,这就是我 们即将给大家介绍的新内容:们即将给大家介绍的新内容: 拟和优度检验拟和优度检验 第六章 拟合优度检验 第一节 拟合优度检验

2、的一般原理 一、什么是拟合优度检验 1、概念 拟合优度检验(goodness of fit testgoodness of fit test)是用来检验实际观测 数与依照某种假设或模型计算出来的理论数之间的一致性,以 便判断该假设或模型是否与观测数相配合。 拟合优度检验也有两种类型的错误。 2、检验的类型 第一种类型是检验观测数与理论数之间的一致性。 第二种类型是通过检验观测值与理论数之间的一致性来判断事 件之间的独立性。 这两种类型的问题都使用了近似的 2 2 检验。 二、拟合优度检验的统计量 -离散型数据的2 拟和优度检验实际上是离散型数据的显著性测验。由 于离散型数据不符合正态分布,因此

3、不能用基于正态 分布的 u u 检验、t t 检验、F F 检验等,拟和优度检验 需要有独特的检验统计量,我们通过实例来介绍有关 的规定。 例1:以紫花大豆和白花大豆品种杂交,在F2代共得到 289株,其中紫花208株,白花81株,如果花色受一对 等位基因控制,则根据遗传学理论, F2代紫花与白花 植株的分离比应为3:1,即紫花应该为216.75株,白 花为72.25株,问现在的试验结果是否符合一对等位基 因的遗传规律? 如果我们用 n 来表示观察值总数,用“O”来表示实际观测值, 用“T”来表示理论值,并且按照属性性状或质量性状对我们得 到的后代进行分组,以“Oi”表示第 i 组的实测值,以

4、“Ti”表 示第 i 组的理论值, 则有 n = 289,O1= 208,O2= 81,且 , k i i nO 1 如果按照某种理论或模型第i i组的概率为 p pi i,则有 ,1 1 k i i P 且第i i 组的理论数 T Ti i 应按:T Ti i = n = np pi i 计算, nT k i i 1 上例中的 T1= np1 = 2890.75 = 216.75, T2 = np2 = 2890.25 = 72.25, 且 p1+ p2 = 0.75 + 0.25 =1, T1+ T2 = 216.75 + 72.25 = 289 现在的问题是 Oi 与 Ti 的差异是由于

5、抽样误差造成的还是由 于实测值 Oi 不符合某种理论或模型造成的? 为了表示这种差异,我们以 进行计算,可是有: k i ii TO 1 025.728175.216208 1 k i ii TO 2 1 k i ii TO 若取 表示实测值和理论值的不相符, 显然:0 2 1 k i ii TO 但是存在: O Oi i= 9= 9,T Ti i = 6 = 6, O Oi i-T-Ti i = 3 = 3, (O Oi i-T-Ti i)2 2 =9 =9, O Oi i= 49= 49,T Ti i = 46 = 46, O Oi i-T-Ti i = 3 = 3,(,(O Oi i-T

6、-Ti i)2 2 =9 =9, 显然,前者的偏离大于后者。 k i i ii T TO 1 2 2 1 k i ii TO 单纯以 来表示实测值与理论值的偏差有缺陷, 若能以 来度量实测值与理论值的偏差, 0 1 k i ii TO 则不但避免了 ,而且还解决了前述问题。 由于在 n n 一定时,理论值更稳定,所以采用 Ti 的值求平 均的偏离程度更可靠。 我们将 命名为 2 2 ,并且有 k i i ii T TO 1 2 k i i ii T TO 1 2 2 近似地符合 分布。 2 2 2 1 s n k i i ii T TO 1 2 2 当自由度df=1时, 总是大于 , 2 2

7、2 1 s n 需要矫正,可以按照 计算, k i i ii c T TO 1 2 2 5 . 0 据此,我们可以对离散型数据进行近似的2检验! 但这种近似的检验是有条件的,即观察值总数不得少于3030, 每种属性(或分组)的理论值不得少于5 5,否则,离散型数据 的卡平方 2 2 与连续型数据的 2 2 的偏差就很大,这种检验的 精度就不准了。 三、拟和优度检验的程序 1、根据属性性状对调查数据进行分组; 2、根据某种理论、模型或假定,以n n为基础计算理论数 T Ti i; 3、假设:H H0 0:O=TO=T, 实测值与理论值相符,即试验结果符合某种理论、模型、假定; H HA A:O

8、TO T,实测值与理论值不相符,即试验结果不符 合某种理论、模型或假定。 4、显著水平: = 0.05= 0.05, = 0.01= 0.01 5、统计量的计算: 或 k i i ii T TO 1 2 2 6、确定H H0 0的拒绝域: k i i ii c T TO 1 2 2 5 . 0 2 , 2 dfdf 7、结论,生物学的解释。 (永远是单尾检验) 第二节第二节 拟和优度检验拟和优度检验 (适合性测验,吻合度检验)(适合性测验,吻合度检验) 一、适宜的对象:一、适宜的对象: 按属性分组,每一分组的理论数按属性分组,每一分组的理论数 T Ti i可以按照总体分布或某种可以按照总体分布

9、或某种 理论、模型或假说等事先计算出来。理论、模型或假说等事先计算出来。 二、测验的目的:二、测验的目的: 通过实测值判断试验结果是否与某总体分布、某理论、模型或通过实测值判断试验结果是否与某总体分布、某理论、模型或 假说等相吻合。假说等相吻合。 三、自由度的确定:三、自由度的确定: df = k-1df = k-1,其中,其中 k k 为属性性状的分组数,在例为属性性状的分组数,在例1 1中,中, 按花色将大豆分成两组,则按花色将大豆分成两组,则 k = 2k = 2,df = 1df = 1。 四、应用实例:四、应用实例: 例例3:以紫花大豆和白花大豆品种杂交,在:以紫花大豆和白花大豆品种

10、杂交,在 F2 代共得到代共得到 289株,其中紫花株,其中紫花208 株,白花株,白花81株,如果花色受一对等株,如果花色受一对等 位基因控制,则根据遗传学理论,位基因控制,则根据遗传学理论, F2 代紫花与白花植株代紫花与白花植株 的分离比应为的分离比应为3:1,问现在的试验结果是否符合一对等,问现在的试验结果是否符合一对等 位基因的遗传规律?位基因的遗传规律? 分析:属性性状:紫花、白花,分析:属性性状:紫花、白花, 符合的理论:分离规律,符合的理论:分离规律, 紫花的概率紫花的概率 p1:0.75,白花的概率,白花的概率 p2:0.25, 紫花的理论数紫花的理论数 T1 = np1 =

11、 216.75 株,株, 白花的理论数白花的理论数 T2 = np2 = 72.25 株株 推断过程: H H0 0:O =TO =T,H HA A:OTOT, =0.05=0.05, 4129. 1 25.72 25.7281 75.216 75.216208 22 1 2 2 k i i ii T TO 841. 3 2 05. 0, 1 查表,df = k-1 = 2-1 =1 时, 接受 H H0 0:O =TO =T, 2 05. 0, 1 2 即大豆F F2 2代的花色遗传符合一对等位基因的遗传规律。 当 df = 1 时需要对 2 进行矫正 由于矫正后的 c2 比 2 还小,所以

12、,在这个特例中, 对 2 不进行矫正,对结论没有影响。 , 0 2 05. 0, 1 22 05. 0, 1 2 H c 则接受而若 。,接受则拒绝而若 Ac HH 0 2 05. 0 , 1 22 05. 0 , 1 2 , 得到相反的结论。进行矫正,有时可能会若不对 2 例4:黄圆豌豆与绿皱豌豆杂交,第二代分离数目如下: Y-R- 黄圆黄圆 Y-rr 黄皱黄皱 yyR- 绿圆绿圆 yyrr 绿皱绿皱 总数总数 31510110832556 问试验结果是否符合自由组合律? 解:若性状间相互独立,根据孟德尔的自由组合律,则可以 有: 1:3:3:9: yyrryyRrrYRY 计算出相应性状的

13、理论数Ti,列于下表: Y-R-Y-rryyR-yyrr 实际观测数实际观测数O31510110832 理论频率理论频率p9/163/163/161/16 理论数理论数T312.75104.25104.2534.75 O-T2.25-3.253.75-2.75 (O-T)25.062510.562514.06257.5625 (O-T)2/T0.0160.1010.1350.218 2=0.016+0.101+0.135+0.218=0.470 H H0 0:O = TO = T, H HA A:O TO T, = 0.05= 0.05, 2 2 = 0.470 = 0.470 当 df=k-

14、1=4-1=3df=k-1=4-1=3 时,查表 TOH:接受 0 2 05.0,3 2 , ,815. 7 2 05. 0, 3 即试验结果是否符合自由组合律。 例例2 2:有人做给药方式与药效之间关系的试:有人做给药方式与药效之间关系的试 验,得出以下数据,验,得出以下数据, 问不同的给药方式对问不同的给药方式对 药物的效果有无影响?药物的效果有无影响? 药 效 给药方式 有 效无 效总 数 口 服584098 注 射643195 第三节 独立性检验 一、适宜的对象 当实际观测值对应的理论数不能用某种理论、模型 等进行计算,而需要从样本资料去推算时,所进行 的2 检验。 二、检验的目的 这

15、种类型的检验是要通过检验观测值与理论数之间 的一致性来判断事件之间的独立性,也就是要研究 两个或两个以上的因子彼此之间是相互独立的还是 相互影响的,研究不同试验处理的差异显著性。 药 效 给药方式 有 效 无 效总 数 口 服585840409898 注 射646431319595 总 数1221227171193193 三、理论数的确定 例2 2:有人做给药方式与药效之间关系的试验,得出以下数 据, 问不同的给药方式对药物的效果有无影响? 1、首先假设两个因子(即给药方式和药效)之间无关联,彼 此独立。 按照独立事件概率的乘法,可以计算出各个实际观测值的对 应理论数。 不论有效与否: (A)

16、)(A (B) )(B )(B 口服的概率P P(B B)= 98/193= 98/193, 注射的概率P = 95/193P = 95/193 不论给药方式:不论给药方式: 有效的概率有效的概率 P P(A A)= 122/193= 122/193, 无效的概率无效的概率P = 71/193P = 71/193 口服并有效的概率:口服并有效的概率: P P(B AB A)= P= P(B B) P P(A A)= 98/193= 98/193122/193122/193 口服并有效的人数:口服并有效的人数: T T11 11 = n = nP P(B AB A)= =19319398/193

17、 98/193 122/193 122/193 )(95.61 193 12298 人 )(A 同理: 05.36 193 7198 12 T 药药 效效 给药方式给药方式 有有 效效 无无 效效总总 数数 口口 服服 58 58 61.9561.95 40 40 36.0536.05 9898 注注 射射 64 64 60.0560.05 31 31 34.9534.95 9595 总总 数数1221227171193193 这种类型的检验是要通过检验观测值与理论数之间的一致 性来判断事件之间的独立性。 自由度的确定:df=1df=1 ,05.60 193 12295 21 T 95.34

18、193 7195 22 T 四、应用实例 (一)、2 22 2列联表的检验 例5:有人做给药方式与药效之间关系的试验,得出以下数据, 问不同的给药方式对药物的效果有无影响? 药药 效效 给药方式给药方式 有有 效效 无无 效效总总 数数 口口 服服 58 58 61.9561.95 40 40 36.0536.05 9898 注注 射射 64 64 60.0560.05 31 31 34.9534.95 9595 总总 数数1221227171193193 解:H0:O =T, 给药方式与药效无关联, 即不同的给药方式对药效没影响。 HA:OT,给药方式与药效有关联, 即不同的给药方式对药效有

19、影响。 = 0.05, 当df=1时,查表 841. 3 2 05. 0, 1 2 05. 0, 1 2 接受 H0:O = T,即:不同的给药方式对药效没影响。 k i i ii T TO 1 2 2 95.34 95.3431 05.60 05.6064 05.36 05.3640 95.61 95.6158 2222 391. 1 自由度为自由度为1 1,卡方要矫正!,卡方要矫正! (二)r rc c 列联表的检验 有时,我们在研究工作中,遇到的问题将不仅仅只是2 22 2列 联表的检验问题,而是 r rc c 列联表的检验。 1、理论数与自由度的确定: 结果结果 处理处理 12 c总数

20、总数 1T11T12T1cT1. 2 TijTi. rTr1Tr2Trc 总数总数T.1T.2T.jn 11, crdf ji Tij 总数 列总数行总数 2、应用实例: 例 6:用三种 射线照射“天津一号”大麦。将处理后的 种子做根尖压片,观测染色体畸变情况,得到以下结果, 问不同的处理方式所引起的染色体畸变的差异是否显著? 结果结果 处理处理 有桥细胞数有桥细胞数无桥细胞数无桥细胞数总数总数 40Kr+N219233783570 40Kr31932973616 25Kr19436203814 总数总数7051029511000 结果结果 处理处理 有桥细胞数有桥细胞数无桥细胞数无桥细胞数总

21、数总数 40Kr+N2 192 228.8 3378 3341.2 3570 40Kr 319 231.8 3297 3384.2 3616 25Kr 194 244.4 3620 3569.6 3814 总数总数7051029511000 解: 理论数与自由度的确定:df =(3-1)(2-1)=2 H0:O =T, HA:OT, = 0.05, 479.52 1 2 2 k i i ii T TO ,991. 5 2 05. 0, 2 , 2 05. 0, 2 2 接受HA:O T,即三种不同的处理射线对染色体畸变的影响差异显著。 习题习题7.2:用两种不同的药物治疗末种疾病,服用:用两种

22、不同的药物治疗末种疾病,服用A药物的药物的30 人中有人中有18人痊愈,服用人痊愈,服用B药物的药物的30人中有人中有25人痊愈,问两种人痊愈,问两种 药物的疗效有无差异?药物的疗效有无差异? 问题的分析:问题的分析: 1、离散型数据、离散型数据 2、属于、属于22列联表的独立性检验问题列联表的独立性检验问题 统计推断:统计推断: H0: O = T (两种药物的种类与疗效无关,即两种药物的疗效无差异)(两种药物的种类与疗效无关,即两种药物的疗效无差异) HA: O T (两种药物的种类与疗效有关,即两种药物的疗效有差异)(两种药物的种类与疗效有关,即两种药物的疗效有差异) =0.05 (df

23、=1,需要校正卡方需要校正卡方) 疗效疗效 药物药物 痊愈痊愈未痊愈未痊愈行总数行总数Ri A18 21.512 8.530 B25 21.5 5 8.5 30 列总数列总数Cj431760 841. 3 2 05. 0, 1 k i i ii c T TO 1 2 2 5 . 0 2.955 查表,当查表,当df =(2-1)(2-1) =1 时,时, 2 05. 0, 1 2 接受 H0:O=T, 推断结论:两种药物的种类与疗效无关,即两种药物的疗推断结论:两种药物的种类与疗效无关,即两种药物的疗 效无差异效无差异 由于由于H0:O=T,而不是关于总体参数(,而不是关于总体参数(或或)的假

24、设,)的假设, 因此卡方检验又被称为因此卡方检验又被称为非参数统计推断。非参数统计推断。 疗效疗效 药物药物 痊愈痊愈未痊愈未痊愈行总数行总数Ri A18 21.512 8.530 B25 21.5 5 8.5 30 列总数列总数Cj431760 实验数据符合实验数据符合Tij5、n30的要求,所以进行了卡方检验。的要求,所以进行了卡方检验。 如果上述实验的数据不符合如果上述实验的数据不符合Tij5、n30的要求,即:的要求,即: 疗效疗效 药物药物 痊愈痊愈未痊愈未痊愈行总数行总数Ri A5 41 26 B3 43 26 列总数列总数Cj8412 问两种药物的疗效有无差异?问两种药物的疗效有

25、无差异? 疗效疗效 药物药物 痊愈痊愈未痊愈未痊愈行总数行总数Ri A5 1 6 B3 3 6 列总数列总数Cj8412 !6!6 !126 12 C !4!8 !128 12 C 将将12个人分成两组,每组个人分成两组,每组6个人,一共有几种组合?个人,一共有几种组合? 将将12个人分成两组,一组个人分成两组,一组8个人,一组个人,一组4个人,一共有几种组合?个人,一共有几种组合? 将将12在行间分解在行间分解6和和6、在列间分解为、在列间分解为8和和4的全部组合数为:的全部组合数为: 疗效疗效 药物药物 痊愈痊愈未痊愈未痊愈行总数行总数Ri A5 1 6 B3 3 6 列总数列总数Cj84

26、12 !33!1!5 !12 !4!8 !12 !6!6 !128 12 6 12 CC 而将而将12分解为分解为5、1、3、3的组合方式共有的组合方式共有: 0.2424 !3!3!1512 4866 !4!8 !12 !6!6 !12 !3!3!1 !5 !12 ! ! P 由古典概率可知:由古典概率可知: 若随机现象的基本事件总数为若随机现象的基本事件总数为n,事件数为,事件数为m,则随机事件,则随机事件 A的概率为:的概率为: n m AP)( 疗效疗效 药物药物 痊愈痊愈未痊愈未痊愈行总数行总数Ri A5 1 6 B3 3 6 列总数列总数Cj8412 试验数据出现下列试验数据出现下

27、列22联表的概率为:联表的概率为: 若若 P , 则接受则接受 H0:O=T 若若 P 0.05P0.05时,差异不显著,算出的时,差异不显著,算出的P0.05P0.05P0.05时,则差异不显著;若算出的时,则差异不显著;若算出的 P 0.05P 接受零假设,否则则否。接受零假设,否则则否。 P(2) P(0) P(1) 测 验: 1 1、一个小麦杂交组合的F2代单株,经抗锈病鉴定,得到抗病型植株 124124株,中度抗病型植株388388株,感染型植株453453株,问这一遗传分离 是否符合1 1:2 2:1 1的分离比例。 2 2、在日常生活中,有人惯用左手,也有人惯用右手;有人左眼的视

28、 力好,也有人右眼的视力好。现调查400400个学生,其调查结果如下表, 试问使用左手和使用右手,与左眼视力和右眼视力的好坏是否有联系 性? 调查项目惯用左手惯用右手总 计 左眼好27110137 右眼好27236263 总 计54346400 3 3、一种农药杀虫率为 95% 95% 。在一次试验中,要求对总体的估计不超过 3% 3% 的范围,问至少需要多大的样本才能满足要求? 解 答: 1 1、一个小麦杂交组合的F F2 2代单株,经抗锈病鉴定,得到抗病型植株 124124株,中度抗病型植株388388株,感染型植株453453株,问这一遗传分离 是否符合1 1:2 2:1 1的分离比例。

29、 (1 1)适合性测验 (2 2)属性性状数 k=3k=3,df=3-1=2df=3-1=2 (3 3)不完全显性,抗:中抗:感染 = 1= 1:2 2:1 1 (4 4)卡方: k i i ii T TO 1 2 2 2 2、在日常生活中,有人惯用左手,也有人惯用右手;有人左眼的视 力好,也有人右眼的视力好。现调查400400个学生,其调查结果如下表, 试问使用左手和使用右手,与左眼视力和右眼视力的好坏是否有联系 性? 调查项目惯用左手惯用右手总 计 左眼好27110137 右眼好27236263 总 计54346400 (1)独立性测验 (2)自由度 df = 1 (3)卡方: k i i

30、 i i T TO 1 2 2 5.0 3、一种农药杀虫率为95%。在一次试验中,要求对总体的 估计不超过3%的范围,问至少需要多大的样本才能满足要 求? (1)有关二项分布 p(百分数)的区间估计问题 (2)误差范围:3%(置信半径) 即置信区间的长度:L2-L1= 2 3%。 (3)置信区间的估计公式: n pp upL ) 1 ( 2/2, 1 n L )95. 01 (95. 0 96. 195. 0 2, 1 03. 0 )95. 01 (95. 0 96. 1 n 2 2 03. 0 05. 095. 096. 1 n 拟合优度检验拟合优度检验-复习思考题复习思考题 1 1拟合优度

31、检验的统计量是如何确定的?拟合优度拟合优度检验的统计量是如何确定的?拟合优度 检验的种类?检验的种类? 2 2拟合优度检验的观察数据应该符合怎样的规定?拟合优度检验的观察数据应该符合怎样的规定? 3 3拟合优度检验的自由度应该如何计算?拟合优度检验的自由度应该如何计算? 4 4R R C C列连表独立性测验的理论数据应该如何确定?列连表独立性测验的理论数据应该如何确定? 5 5精确的精确的2 2 2 2列联表差异显著性测验时,为什么要列联表差异显著性测验时,为什么要 将一个最小的非零数据在其它总和不变的条件下,将一个最小的非零数据在其它总和不变的条件下, 依次降为零,然后再计算其发生的概率进行

32、测验?依次降为零,然后再计算其发生的概率进行测验? 如果我们用 n 来表示观察值总数,用“O”来表示实际观测值, 用“T”来表示理论值,并且按照属性性状或质量性状对我们得 到的后代进行分组,以“Oi”表示第 i 组的实测值,以“Ti”表 示第 i 组的理论值, 则有 n = 289,O1= 208,O2= 81,且 , k i i nO 1 如果按照某种理论或模型第i i组的概率为 p pi i,则有 ,1 1 k i i P 且第i i 组的理论数 T Ti i 应按:T Ti i = n = np pi i 计算, nT k i i 1 上例中的 T1= np1 = 2890.75 = 2

33、16.75, T2 = np2 = 2890.25 = 72.25, 且 p1+ p2 = 0.75 + 0.25 =1, T1+ T2 = 216.75 + 72.25 = 289 k i i ii T TO 1 2 2 1 k i ii TO 单纯以 来表示实测值与理论值的偏差有缺陷, 若能以 来度量实测值与理论值的偏差, 0 1 k i ii TO 则不但避免了 ,而且还解决了前述问题。 由于在 n n 一定时,理论值更稳定,所以采用 Ti 的值求平 均的偏离程度更可靠。 我们将 命名为 2 2 ,并且有 k i i ii T TO 1 2 k i i ii T TO 1 2 2 近似地

34、符合 分布。 2 2 2 1 s n k i i ii T TO 1 2 2 当自由度df=1时, 总是大于 , 2 2 2 1 s n 需要矫正,可以按照 计算, k i i ii c T TO 1 2 2 5 . 0 据此,我们可以对离散型数据进行近似的2检验! 但这种近似的检验是有条件的,即观察值总数不得少于3030, 每种属性(或分组)的理论值不得少于5 5,否则,离散型数据 的卡平方 2 2 与连续型数据的 2 2 的偏差就很大,这种检验的 精度就不准了。 不论给药方式:不论给药方式: 有效的概率有效的概率 P P(A A)= 122/193= 122/193, 无效的概率无效的概率P = 71/193

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论