生物统计学课件 2、抽样分布及应用㈠.ppt_第1页
生物统计学课件 2、抽样分布及应用㈠.ppt_第2页
生物统计学课件 2、抽样分布及应用㈠.ppt_第3页
生物统计学课件 2、抽样分布及应用㈠.ppt_第4页
生物统计学课件 2、抽样分布及应用㈠.ppt_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 抽样分布及其应用,第一节 单个母总体抽样 第二节 显著性检验的原理 第三节 两个母总体抽样 第四节 检验两个样本平均数差异 (含F分布、方差的齐性检验) 第五节 配对数据的显著性检验,第二章要点提示,抽样分布既是本课程的基础,又是本课程的难点,学习时要注意抽样分布的特点及其与上一章正态分布的统一性;要注意样本统计量如 、 y 、 、 的概率分布类型(正态分布)及其参数与母总体概型及其参数的联系和区别(中心极限定理); 应充分理解显著性检验的原理和特点,熟悉两尾检验与一尾检验的异同;重点掌握检验和12时依据的抽样分布类型及标准误、S和差数标准误1- 2、S1- 2的计算公式,并与检验时依据的差数的抽样分布和计算差数平均数的标准误 、S的公式相区别。 涉及教材内容:第四章第六、七节,第五章第一、二、三节。 作业布置:P56 P57 T6、 T7、 T10、 T11、 T12、 T13、 T15、 T16;教材P78 T9、 T11、 T12。,第一节 单个母总体抽样,例2.1 给定一有限总体2,3,3,4,即 N = 4,= 3,2 = 1/2;现从中以n = 2进行 复置抽样,则所有可能的样本数为 Nn = 16 个,计算各样本的统计量并整理成右表 。 解 视为变量的衍生总体参数: = / Nn = 4816 = 3 2 =148 48 2 16/ 16 = 1/4 视y为变量的衍生总体参数: y = (y) / Nn = 9616 = 6 2y =592 96 216/16 = 1 以上两个衍生总体均由“一切可能的抽 样观察结果组成”,并且实际应用中遇到的 多为无限总体,可以想象得到,但“看不见, 也摸不着” 。,2,3,3,4,2,2,2,3,2,3,2,4,3,2,3,3,3,3,3,4,第一节 单个母总体抽样,第一节 单个母总体抽样,前例可归纳出抽样研究的部分结论: 由Nn个构成的衍生总体; N( ,2 )且有: = , 2 = 2 /n 并有: u =( ) 由Nn个y构成的衍生总体; y N( y ,2y )且有: y = n, 2y = n2 又有: u = (y y ) y 和表明抽样分布的类型实质上 还是正态分布,只是其变量特殊罢了。 只有以自由度 n 1算得的样本方差 S2才是2 的无偏估计值。 (但 S 不是的无偏估计值),( S2 / Nn = 816 = 1/2 = 2 ),第一节 单个母总体抽样,例2.2 调查336个平方米的小地老虎 虫危害结果,= 4.73头 ,= 2.63头。 求抽样 n = 30时 4.37头的概率。 解 由上述结论知,须先求标准误: = /n = 2.6330 = 0.48头 u =()/n = - 0.75 =(4.374.73)0.48 P( 4.37 ) = ( - 0.75) = 0.2266 查附表2表明本例所求结果实际为 获得 | -0.36 |这种抽样误差的两尾概率 (之和)为20.2266 = 0.4532。,fN(),n = 1,n =4,n = 9,第一节 单个母总体抽样,回眸例1.5求获得抽样误差的概率: =43.5g ,=4.65g,N =623; = 44.05 g,S = 4.523g,n = 25 解 按惯例所求两尾概率即抽样误差 的绝对值达到0.55的概率,因此有: = /n = 4.6525 = 0.93g u =0.55/n = 0.59 反查附表2或顺查附表1可得: P( | |0.55) = P(|u| 0.59) = 2 P(u - 0.59) = 2 (- 0.59) = 2 0.2776 = 0.5552 0.56,以上两例已由总体标准差深化到总 体标准误 ,使连续性变量的概率分布研 究从误差y 升华到抽样误差 , 即 。 但这还不够,历史上也没有因此避免 正态分布在应用上的危机,因为要获得 的准确数值,其难度比大得多。到1908 年W.S.Gosset公开发表一篇论文才使抽样 误差的研究走出应用上的困境。 如例2.1中定义样本标准误S = S /n, 则可将抽样误差转换成另一个标准化变量 t = ( )S/n = 0.55 0.9 = 0.61 查附表3可知获得0.55的两尾概率 当在0.5以上(n1 = 24)。,第二节 显著性检验的原理,一、什么是显著性检验? 在由样本研究总体时,先提出关于 总体的统计假设 ( Ho ) ,然后利用样本 提供的信息去反证它是否成立。 这种证明 Ho 是否成立的过程就叫 统计假设测验,简称假设测(检)验。 如果假设测验只针对一个 Ho , 并不 同时研究其它假设, 则称为显著性检验。 还有一些假设测验问题,需要研究 两个或更多的统计假设, 必须采取包括 多重比较在内的方差分析法才能解决, 因而不再一般化地称之为假设测验, 所 以假设测验大多局限于显著性测验。,例如某地小麦亩产一般o= 300kg, 并从多年种植的经验知= 75kg,今引 进一新品种得 n = 25个亩产量观察值, 算得=327kg ,如何评价其表面效应? 解 本例表面效应 “27kg产量差异”,要区分它是本质差别还是抽样误差 1. 先假定表面效应是抽样误差; Ho: = o或 = 300kg 2.按误差理论计算获此抽样误差的概率; P( | | 27 ) = P( | o| 27 ) = P( |u|2775/25 ) = 2 P(u -9/5) = 2 (- 1.8)= 2 0.036 = 0.072 3.根据小概率原理推断Ho是否成立; 按惯例= 0.05,故Ho成立。,第二节 显著性检验的原理,= 0.05也叫显著水平,是一个概率 临界值,它是根据“小概率事件在当前 这次试验(观察) 中实际不可能发生”这 种“道德确定性”、基于农业和生物学领 域的行业要求而规定的小概率标准。 = 0.05只能理解为否定 Ho时容许犯 错误的概率, 本例获得27kg抽样误差的 概率虽然很小, 但尚未小到否定Ho时规 定的显著水平, 反过来讲就是没有95% 以上的把握来认定其表面效应是“本质 差别”而不是抽样误差; 或者说表面效应 虽然较大, 但还没有大到有95%以上的 把握来排除它是抽样误差的可能性。,上述通过计算两尾概率评价其表面效 应的做法通常针对的提问方式是:“新品 种的单产与当地品种有无显著差异?” 实际上评价表面效应还有一种问法: “新品种的单产是否高于当地品种?” 解 这样提问往往是根据专业方面的信息 已明知新品种的单产不可能低于当地品种, 于是检验方法由双侧检验变成单侧检验。 1. 仍假定表面效应是抽样误差; Ho: o或 300kg 2.计算获此抽样误差的单侧概率; P( 27 ) = P( o 27 ) = P( u9/5) = (- 1.8) = 0.036 3.根据小概率原理推断:Ho不成立。,第二节 显著性检验的原理,二、显著性检验的特点 1. 是一种概率反证法; 先假定 (单向) 成立,再计算标准误, 然后将表面效应转换成标准化变量后查 算其属于抽样误差的概率是否为小概率, 是则拒绝Ho; 否则接受Ho。 2. 用了小概率原理; 否定Ho有95%以上的把握,但不可能 为100%,即表面效应只要大到视其为抽 样误差时的双侧或单侧概率小到显著水 平就能否定Ho,不然就暂且接受Ho ,决 不意味着接受Ho时有95%以上的把握。 3. 不同的场合依据不同的抽样分布。,三、关于 t 分布 定义:t = ( ) S 其中S = S /n 叫样本标准误 参数: t = 0, t = / (-2 ) 曲线特性: 以t = 0 处的纵轴对称,并以之为曲 线最高点位置, 而后往两侧递降;不同的 决定一条特异的 t 分布曲线; 曲线形 状随着的增加, 峰顶由下往上朝标准 曲线的峰顶逼近, 两尾由上往下朝标准 曲线的两尾收拢; 而当 (120) 时, t 分布曲线与标准曲线N(0, 1)重合。 4. 附表 3与 t 分布的关系。,第二节 显著性检验的原理,附表3所列为9种双侧概率对应的 | t | , 如右图所示, 当 n 1= 9时, 0.05 和0.10栏目下的2.262和1.833就表明 所得标准化变量 t 在 n =10时绝对值 超过2.262的概率(双侧面积)为0.05, 超过1.833的概率(双侧面积)为0.10。 按照显著性检验原理,计算获 得某抽样误差的概率只是为了确认 它是否为小概率,那反过来也就可 以根据0.05的显著水平确定标准化 变量 u 或 t 的“临界值”,再和抽样 误差标准化的结果相比较就是了, 由此而来的显著性检验步骤见下例。,0.90,0.05,0.025,0.025,1.833 ,2.262 ,t,f ( t ),= 9,第二节 显著性检验的原理,f ( t ),t,=,= 2,= 7,= 4,N(0, 1),第二节 显著性检验的原理,四、显著性检验的步骤 例2.3 已知某品种母猪的怀孕期为 0 = 114d,现抽查其10头母猪得怀孕期 平均日数 = 114.5d,S = 1.581d,则检 验所得样本的怀孕期是否显著超过114d 的步骤为: H0: o或 114d ; S = S/n = 1.58110 = 0.50 t = ( )S =0.50.50 = 1.00 按自由度 = 9 查得: 单侧 t0.05 = 双侧 t0.10 = 1.833 推断:t t0.05 , H0 成立。即所得样本的怀孕期没有显著超过114d 本次测验的显著水平: = 0.05,本例是按照题目要求进行单侧检验, 实际应用中这种提问方式必须有所谓的 “附加知识”为依据,即有来自专业方面 的信息表明所得样本的怀孕期不可能低 于114d,否则就只能用双侧检验。 H0: = o或 = 114d ; S = S/n = 1.58110 = 0.50 t = ( )S =0.50.50 = 1.00 (3) 按自由度 = 9 查得两尾 t0.05 = 2.262 (4) 推断:tt0.05 , H0 成立。意即所得 样本的怀孕期与114d无显著差异。 本例双侧检验对 H0 的态度与单侧检 验相同,但实际研究中有不相同的。,第二节 显著性检验的原理,例2.4 按饲料配方规定,每1000kg某 种饲料中维生素C不得少于0 = 247g, 现从某工厂的产品中随机抽查12份样品 得平均含量 = 252g,S = 9.115g,则检 验所得样本的Vc含量是否显著超过247g 的步骤为: H0: o或 247g ; S = S/n = 9.11512 = 2.631 t = ( )S =52.631 = 1.90 按自由度 = 11 查得: 单侧 t0.05 = 双侧 t0.10 = 1.796 推断:t t0.05 , H0 不成立。即 所得样本的Vc含量显著超过247g 本次检验的显著水平: = 0.05,本例是按照题目要求进行单侧检验, 实际应用中这种提问方式必须有所谓的 “附加知识”为依据,即有来自生产方面 的要求表明所得样本来自Vc含量不低于 247g的总体,否则就只能用双侧检验。 H0: = o或 = 247g ; S = S/n = 9.11512 = 2.631 t = ( )S =52.631 = 1.90 (3) 按自由度 = 11 查得双侧 t0.05 = 2.201 (4) 推断:tt0.05 , H0 成立。意即所得 样本的Vc含量与247g无显著差异。 本例双侧检验对 H0 的态度与单侧检 验截然不同,说明有“附加知识”时应用 一尾测验有利于否定H0 。,第三节 两个母总体抽样,例2.5 假定第一总体2,4,6, N1=3, 1=4 ,12 = 8/3 ;第二总体3,6, N2=2, 2= 4.5 ,22 = 9/4。现从中分别以n1=2和n2=3 进行复置抽样,试研究1- 2抽样分布。 解 来自两个母总体的之差数1- 2构成的 衍生总体容量N1 n1 N2 n2 = 9 8 = 72,其全 部可能的取值及次数分布列表如右,按数据整 理时用过的加权法计算其参数如下: 1- 2 = f ( 1- 2 ) f = -36/72 = 1 - 2 = 1 - 2 = - 0.5 2 1- 2 = f ( 1- 2 + 0.5) 2 / f = 150/ 72 = 2 1 + 2 2 = 12 / n1 + 22 / n2 = 8/32 + 9/43 = 25/12,e =(1- 2) 1- 2=(1- 2) (1-2),第一节 单个母总体抽样,复置抽样时总体和随机样本的关系,n = 1,n = 2,第三节 两个母总体抽样,复置抽样时总体和随机样本的关系,n = 1,n = 2,n = 3,第三节 两个母总体抽样,复置抽样后差数1- 2构造衍生总体示意图,第三节 两个母总体抽样,由例2.5针对“平均数的差数”1- 2进行的抽样研究结果,实际上也是 中心极限定理内容之一:1- 2 N( 1- 2 , 2 1- 2 ),于是又有: u = ( 1- 2 ) 1- 2 1- 2 = ( 1- 2 )(1-2 )/ 可见,来自两个母总体的差数1- 2与其真值1- 2的抽样误差e取值 的概率分布也可以用正态分布来描述,当两个母总体的参数已知时,同 样可以转化为用标准分布求算概率。 只是因为实际应用中遇到的多为两个母总体参数未知的情况,所以 差数的抽样误差无法转化成正态离差 u 而只能转化成另一个标准化离差 t ,即:t =( 1- 2 ) 1- 2 S1- 2 , 其中,S1- 2叫差数的样本标准误,由S1 2 、S2 2算出,并且计算公式和差 数的总体标准误相类似。,第四节 检验 两个样本平均数差异,一、测验1- 2 例2.6 根据以往资料,某小麦品种每 m2产量的2= 0.4(kg2 )。今在该地的一块 地上以A、B两法取样,A法取12个样点, 得每m2产量1=1.2kg;B法取8个样点, 得 2 = 1.4kg。试问两法差异是否显著? 解 题意指两种取方法得到的单产有无本 质差别,即表面效应能否视为抽样误差。 ,(1)H0: 1 =2 或 1-2 = 0 (2)12 =22 = 2 = 0.4(kg2 ) 1-2=(0.4/12+0.4/8)=0.2887kg u=(1.21.4)0.2887= -0.69 (3)查得两尾u0.05 = 1.96 (4)推断: |u| u0.05 , H0成立 表明两种取样方法无本质差别。 关于原始数据用不同的单位对显著 性检验过程的影响问题, 要具体步骤具 体分析,本例若以“斤”或500g为单位, 则2 = 40.4(斤2 ), 1-2 = 20.2887(斤),而u= -0.69不变.,第四节 检验 两个样本平均数差异,一、测验1- 2 例2.7 某种猪场分别测定长白后备种猪和蓝 塘后备种猪90kg时的背膘厚度 ,各获得n1 = 12 和n2 = 11头猪的观察值,并算得 1 = 1.202mm, SS1 = 0.11mm2;2 =1.817mm,SS2 = 0.151mm2, 故检验两品种背膘厚度有无显著差异的步骤为: (1) H0:1=2或 1-2 = 0 (2) F= S大2 / S小2 =0.151/100.11/11= 1.51ns 查得右尾F0.05,10,11 = 2.86,于是有: Se2 = (SS1 + SS2) / (1+2) =0.261 21 = (1S12 +2S22)/(1+2) = 0.0124 S 1-2 = = 0.0465 t =( 1- 2 ) 1- 2 S1- 2 =( 1- 2 ) (1-2) S1- 2 = (1.202 1.817)/ 0.0465 = -13.226 (3)按 = 11+10 = 21查得两尾t0.05 = 2.080 (4)推断: | t | t0.05 H0不成立,本例属于实际应用中普遍遇到 的参数12 及22 未知的情形, 不可能用 u-test而只能用 t-test, 由于S1- 通过合并均方 Se2 计算 时必须以两样本均方经F-test证实 无显著差异(齐性检验)为先决条 件, 故要在用加权法合并两个样 本方差前插入一个 F-test 过程。 倘若经 F-test 证实有显著差异, 表明12 22 , 那就不能计算 Se2而只能仿照中心极限定理有关 结论计算: S 1-2 = , 只是以它为分母转换出来的标准 化变量已不再是严格意义上的 “t” 变量先了解一下F分布。,第四节 检验 两个样本平均数差异,关于F的定义及其分布 从一个母总体 N (, 2) 中随机抽取两个 独立样本, 算得两个样本均方依次为S12、S22, 则定义:F= S12 / S22 。 抽样研究的结果证明, F是一个连续性随机 变量, 理论上存在着抽样分布,这就是F分布。 它具有平均数为:F = 2 / (2 -2) F分布是由自由度1、2 决定的曲线系 统, 因为受F 0的限制, 任一条限于纵坐标右侧; F分布曲线不对称往左倾斜,左倾程度随 着1、2的一齐增加而减小, 2 时, F 的取值从大于 1 的那边由右往左1,曲线峰顶 向上、向右往 F 1 的垂线逼近; 附表4 (右尾F临界值表)与F分布的关系。,第四节 检验 两个样本平均数差异,F,f (F),1= 1,2 = 7,1= 1,2= 4,1= 1,2= 2,5.59 ,7.71 ,18.51 ,这里只显示1 = 1的反 J 型 曲线, 1 = 2 时也是如此; 当13 时,F分布曲线就 转为偏态,呈现反 S 型。,第四节 检验 两个样本平均数差异,例2.8 在抽穗期间测定喷矮壮素玉米 8株, 得到株高1= 176.3cm, SS1=3787.5 cm2,对照区玉米9株,得株高2=233.3 cm,SS2 = 18400cm2,试测验矮化效果。 (1) H0:12 或1-2 0 F = S大2 / S小2 = 2300541.1= 4.25* 查得F0.05,8,7 = 3.73 (2)S 1-2 = = (67.64 +255.56 ) = 18 “ t ” ( 1- 2 ) S1- 2 = (176.3 233.3)18 = -3.17 (3)k = S2 1/(S2 1 + S2 2) 1- k = 0.79 = 67.64 323.2 = 0.21,故= 1 k2/1+(1-k)2/212 = 1 (0.212/ 7+ 0.79 2/ 8) = 11.85 按查得单侧t0.05 = 双侧t0.10 = 1.782 (4)推断: | t | t0.05 H0不成立 本例经F-test知两个样本所属的总 体方差12 22 , 因此不能计算合并 Se2而只能模仿中心极限定理计算S 1-2, 由于以它为标准误转换出来的标准化变 量已不再是严格意义上的“ t ” , 所以查 表时不能简单地根据合并自由度15即 1+2,而必须予以修正, 这就是: Aspin-Welch检验。,第四节 检验 两个样本平均数差异,一、测验1- 2 例2.9 某家禽研究所用粤黄鸡对A、B两种 饲料的增重效果进行对比试验,时间60d,各 获得8只鸡的观察值,算得 1 = 705.625g, SS1= 2022g2; 2 = 696.125g,SS2 = 967g2, 检验增重效果有无显著差异的步骤为: (1) H0:1=2或 1-2 = 0 (2) F= S大2 / S小2 =2022/7967/7= 2.09ns 查得右尾F0.05,7,7 = 3.76,于是有: Se2 = (SS1 + SS2) / (1+2) =2989 14 = (1S12 +2S22)/(1+2) = 213.5 S 1-2 = = 7.306 t =( 1- 2 ) 1- 2 S1- 2 =( 1- 2 ) (1-2) S1- 2 = (705.625 696.125)/ 7.306 = 1.300 (3)按 = 7+7 = 14查得两尾t0.05 = 2.145 (4)推断: | t | t0.05 H0成立,本例属于实际应用中经常遇 到的两样本观察值个数n1 = n2 = n 的情形,此时计算公式可简化: Se2 = (SS1 + SS2) / (1+2) = (1S12 +2S22)/(1+2) = (S12 +S22)/2 S 1-2 = = 即使经 F-test 证实有显著差异, 表明12 22 时也是如此: S 1-2 = = 只是以它为分母转换出来的标 准化变量因不是严格意义上的 “t” 变量,仍需修正自由度。,第五节 配对数据的显著性检验,关于“差数的抽样”还有不同于两个独立样本的抽样研究,也 就是从一个参数、2既定的母总体中随机抽取容量相同的两个 样本,若将两者的观察值随机配对,则配对观察值差数 d 将服从 正态分布,即 d N(d ,2d ), 且 d= 0,2d = 22 ; 继续研究“差数的平均数”,即d /n = ,根据例2.1所述中 心极限定理结论,定有: N(,2), 且 = d = 0,2 = 2d /n = 22 /n。 u = ( )/ = /(22/n) 于是,当参数2 未知时,同理应有: t = ( ) / S = / Sd / n,第五节 配对数据的显著性检验,二、测验 例2.10 研究某批注射液对家兔体温的影响, 测得10只家兔注射前后的体温(C),根据 所得自身配对数据算得d = -7.3 (C), Sd = 0.445(C),就该成对数据进行显著 性检验的方法如下: 1、单侧检验 (1) H0: d 0 (di为抽样引起的误差) = d /n = -7.3 / 10= -0. 73 SSd = (d - ) 2 = 1.781 S = Sd/ n = = 0.141 t =( d)/ S = -0.73 / 0.141 = -5.177 按自由度 = 10 1,查得一尾t0.05 = 1.833 (4) 推断: | t | t0.05 H0不成立。 .,2、双侧检验 (1) H0: d = 0 (di为抽样引起的误差) S = Sd/ n = = 0.141 t =( d)/ S = -0.73 / 0.141 = -5.177 按自由度 = 9, 查得 两尾t0.05 = 2.262 (4) 推断: | t | t0.05 H0不成立。 . 本例系同一试验单位在不同时间分别 接受前后两次不同处理,用其前后两次的 观察值进行自身对照比较,叫自身配对。 自身配对也可以是同一试验单位的不 同部位或不同方法的观察值进行自身对照 比较,两种情形在动科试验中都较常见。,第五节 配对数据的显著性检验,二、测验 例2.11 从8窝仔猪中每窝选性别相同、体重 接近的2头配对,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论