第二章 统计推断-1_第1页
第二章 统计推断-1_第2页
第二章 统计推断-1_第3页
第二章 统计推断-1_第4页
第二章 统计推断-1_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第一节 统计推断的基本原理和步骤统计推断的基本原理和步骤 总体与样本之间的关系包括两个方面。如何从总体到样本的研究及如何通过样本去推断总体。由样本推断总体是以各种样本统计量的抽样分布为基础的。对总体做统计推断(statistical inference),可以通过两条途径进行。一是首先对所估计的总体提出一个假设(hypothesis),例如假设这个总体的平均数等于某个值0(=0),然后,通过样本数据去推断这个假设是否可以接受。如果可以接受,样本很可能抽自这个总体;否则,很可能不是抽自这个总体。二是通过样本统计量估计总体参数。前一种途径称为统计假设检验(statistical test of

2、hypothesis),后一种称为总体参数估计(estimation of poplation parameter)。这两种不同的统计推断方法,在实际应用中可互相参照使用。 统计推断的内容很广泛,本章重点讲解统计推断的一般原理以及对总体平均数及标准差的推断。 下面通过一个例子来说明假设检验的基本原理和有关概念。 例 21 用实验动物做实验材料,要求动物平均体重 =20000g,若 20000g需再饲养,若 20000g则应淘汰。 动物体重是服从正态分布 N( ,2)的随机变量。已知总体标准差= 040g,但总体平均数是未知的。为了得出对总体平均数的推断,从动物群体中,随机抽取含量为n的样本,通

3、过样本平均数x推断总体平均数。 2.1.1假设假设 总体平均数是未知的,为了得到对总体平均数的推断,可以假设总体平均数等于某一给定的值0(0)。或者说,与0差等于0(-0=0)。这样的假设通常称为零假设零假设(null hypothesis)。记为 H0:=0 或H0: -0=0。 与零假设相对立的假设称为备择假设备择假设(alternative hypothesis)。从备择假设的名称上就可以看出,它是在拒绝的情况下,可供选择的假设。备择假设记HA。例如,HA: 0、HA: 0。 2.1.2小概率原理小概率原理 它的基本内容是:小概率的事件,在一次试验中,几乎是不会发生的。若根据一定的假设条

4、件计算出来该事件发生的概率很小,而在一次试验中,它竟然发生了,则可以认为假设的条件不正确。因此,否定假设。 根据上述原理所建立起来的检验方法称为显著性显著性检验检验(significance test)。究竟概率小到什么程度算是小概率,要根据实际情况或实验要求而定,生物统计工作中,通常规定5或1以下为小概率。 5%或 1%(或其他的值)称为显著性水平显著性水平(significance level),记为“”。上述的统计量 称为u检验统计量(test statistic)。下面几种统计假设检验中还会遇到统计量 t,统计量 X2以及统计量F,它们都称为检验统计量检验统计量。 2.1.3单侧检验与

5、双侧检验 若备择假设为HA: 0,或HA: 0,若已知不可能小于0。 HA:0和0。 (3)显著性水平,习惯上规定在 =0.05水平上拒绝 H0,称为“差异显著”。而在001水平上拒绝 H0,称为“差异极显著”。 4)检验统计量: u=(X-0)/( /n1/2 ) (5)相应于2中各备择假设的 H0的拒绝域分别为: uu。 u0(377.2) =0.05 计算统计量 u,分别输入有关数据。 u=(-0)/( /n1/2 ) u=1.8182 查表 u0.05=1.6449,uu0.05,拒绝H0假设,接受HA假设。因栽培条件的改善,显著地提高了豌豆的籽粒重量。 =0.01 u0.01=2.3

6、263 单样本统计推断单样本统计推断.xls 例22 已知玉米单交种群单101的平均穗重300克,标准差为 9.5。喷药处理后,随机抽取9个玉米穗重分别为: 308、311、298、315、312、300、323、294、319克,这种药物对玉米穗重量是否有影响? 单样本统计推断单样本统计推断.xls 2. 2 . 2 未知时平均数的显著性检验-t检验(t-test) 在统计中所遇到的绝大多数问题,总体标准差都是未知的,而平均数已知(0)。在未知时,平均数的显著性检验,一般广泛使用t检验。 t检验的过程类似u检验,但统计量计算的不同,还必须计算样本的标准(偏)差s。 s/n 1/2 通常记为S

7、X t=(-0)/( s/n 1/2 ) 自由度为:df=n-1 用EXCEL中的函数中的统计函数中的TINV函数查出临界值, TINV(probability,degrees_freedom) Probability P= 2(上尾),或P=1-2(下尾), 双尾 P= 或 P=1- Degrees_freedom 为分布的自由度。 例 2.3 已知玉米单交种群单101的平均穗重300克。喷药处理后,随机抽取9个玉米穗重分别为: 308、311、298、315、312、300、323、294、319克,喷药后与喷药前的玉米穗重差异是否显著? 解: 假设: H0:=0(300) HA:0(30

8、0) 计算统计量 t,分别输入有关数据。计算统计量平均值(X)和标准差s,可通过选择数据分析中的“描述统计”计算, 在公式拦输入公式。 t=2.5579 单样本统计推断单样本统计推断.xls 用EXCEL中的函数中的统计函数中的TINV函数查出, t8,0.05/2=2.3060,t t8,0.05/2 ,拒绝H0假设,接受HA假设。因喷药前后的玉米穗重差异显著。 t8,0.01/2=3.3554 例 2.4 某地区10年前普查13岁男孩的平均身高为1.51米,现抽查200个13岁男孩,身高平均为1.53米,标准差S=0.073米,问10年来该地区男孩身高是否明显增长? t=3.8649 t0

9、.05=1.6525 t0.01=2.3452 单样本统计推断单样本统计推断.xls 223 变异性的显著性检验变异性的显著性检验X2 检验(检验(X2 test or chi-test) 虽然在实际工作中,经常遇到的是对假设的总体平均数做检验,但是对假设的总体标准差做检验的情况也很多。对单个标准差标准差做检验使用 X2检验,X2检验是建立在X2分布基础上的。 设X是服从正态分布N(,2)的随机变量,并从中获得含量为n的随机样本,计算出样本方差s2,则(n-1)s2/2服从n-1自由度的X2分布。统计量 X2df=(n-1)S2/2 假设:H0:=0 HA:0 HA:X2, X2X/22 或X

10、2X1-/22。 可以用EXCEL中的函数中的统计函数中的CHIINV函数查出X2分布的上侧分位数。 CHIINV(probability,degrees_freedom) Probability P= (上尾), P=1- (下尾), 双尾 P=/2(上尾), 或P=1-/2(下尾) Degrees_freedom 自由度。 X2检验的原理与t检验基本相似。 例2.5 一个混杂的小麦品种,株高标准差为14cm,经过提纯以后随机抽出10株,它们的株高为 90、105、101、95、100、100、101、105、93、97cm,考查提纯后的群体是否比原群体整齐? 假设:H0:=0(14) HA

11、:p0 则在分子中增加-0.5/n, 反则+0.5/n 检验过程类似单样本U检验例2.7 有一批蔬菜种子的平均发芽率为0.85,现随机抽取500粒,用种衣剂进行浸种处理,结果有445粒发芽率,试检验种衣剂对种子发芽有无效果。假设 H0:p= p0 HA: pp0=0.05U=(p- p0)/ p =(445/500-0.85)/( 445/500(1-445/500)500)1/2 =2.5U0.05/2=1.96UU0.05/2接受HA=0.01U0.01/2=1.5758U2 =0.05 F=S12/S22 双样本统计推断 FINV (df1,df2) 上尾检验 df1=n1-1 数据的类

12、型数据的类型 成组数据成组数据资料的特点是指两个样本的各个变量是从各自总体中抽取的,两个样本之间的变量没有任何关联,即两个抽样样本彼此独立。这样,不论两样本的容量是否相同,所得数据皆为成组数据。 成对数据成对数据资料的特点要求两样本间配偶成对,每一对除随机地给予不同处理外,其他试验条件应尽量一致。成对数据,由于同一配对内两个供试单位的试验条件非常接近,而不同配对间的条件差异又可以通过各个配对差数予以消除,因而,可以控制试验误差,具有较高精确度。 1和 2 未知,但通过F检验确认1= 2时,我们可以用等方差二样本的t检验: t=(X1-X2)/(n1-1)S12+(n2-1)S22)/(n1+n

13、2-2)(1/n1+1/n2)1/2 当MSe= (n1-1)S12+(n2-1)S22)/(n1+n2-2)时 t=(X1-X2)/(Se(1/n1+1/n2) 当Sx1-x2=(MSe(1/n1+1/n2) 时t=(X1-X2)/ Sx1-x2 df=n1+n2-2合并方差Sx1-x2 =(S12/n1+S22/n2 )1/2 (N50时) 例2.8 用高蛋白和低蛋白两种饲料饲养一月龄大白鼠,在三个月时,测定两组大白鼠的增重量(g),两组的数据分别为: 高蛋白组:134,146,106,119,124,161,107,83,113,129,97,123; 低蛋白组:70,118,101,8

14、5,107,132,94 试问两种饲料饲养的大白鼠增重量是否有差别? (1) F检验 H0:1=2 HA:12 =0.05 F=S12/S22 =425.3333/258.7879 =1.6436 F0.05=3.0946 FX2 =0.05 t=(X1-X2)/ Sx1-x2 =1.5732 t0.05=1.7396 t0 =0.05 d=(X1-X2)/(Sd/n)1/2 =4.2015 d0.05=1.8946 dd0.05 接受HA假设 =0.01 d0.01=2.9980 dd0.01 接受HA假设 两组饲料对试验动物肝中维生素A含量的作用差异极其显著 双样本统计推断 例 2.13

15、某猪场从10窝猪仔中随机抽取2头,并随机分配到两个饲料组,进行饲料对比试验,试验30天后,其增重结果如下,试检验两种饲料饲喂的仔猪平均增重差异是否显著?饲料1 10.0 11.2 12.1 10.5 11.1 9.8 10.8 12.5 12.0 9.9饲料2 10.5 10.5 11.8 9.5 12.0 8.8 9.7 11.2 11.0 9.0 参数估计是统计推断的另一个方面,它是指由样本结果对总体参数在一定概率水平下所作出的估计。参数估计包括区间估计和点估计。 点估计: 利用样本构造一个统计量,用它来作为总体参数的估计值. 点估计的方法很多,常用的矩估计法,最大似然法,最小二乘法等.

16、当 算术平均值: X=xi/n I=1,2,3,n ,样本方差 S2= (xi-X)2 /(n-1)时,总体参数2=S2, =X 为无偏估计. 区间估计: 是以一定置信度对参数真值得可能范围进行估计. 1 平均值的区间估计 已知 (X-U/2/n 1/2 , X+U/2/n 1/2 ) 未知 (X-t/2S/n 1/2 , X+t/2S/n 1/2 ) 2 方差2的区间估计 ( (n-1)S2/X2 1-/2 , (n-1)S2/X2 /2 ) 例416 用高蛋白和低蛋白两种饲料饲养一月龄大白鼠,在三个月时,测定两组大白鼠的增重量(g),两组的数据分别为: 高蛋白组:134,146,106,1

17、19,124,161,107,83,113,129,97,123; 低蛋白组:70,118,101,85,107,132,94。 进行置信度为95时两种蛋白饲料饲养的大白鼠增重的差数区间估计和点估计。 双样本统计推断 前面所介绍的样本平均数的U检验、t检验以及样本方差的同质性检验都是在已知总体参数值的情况下所进行的检验,因此,也叫参数检验法。参数检验法所要求的条件比较高,一般需要了解总体的分布。 但在生物学研究中,有许多情况是不知道总体的分布特性的,这时,进行假设检验就需要采用非参数检验法。 非参数检验比较简单、直观,且计算量较小,但灵敏度要低于参数检验,在精度要求不高时比较适用。 例 4 2

18、4为了比较甲、乙两药剂治疗某种疾病的疗效,各进行10组试验,其治愈率()分别为: 甲药剂: 94,88,83, 92,87, 95, 90, 90,86,84; 乙药剂:86,84,85,78,76,82,83,84,82,83。 试比较两种药剂的疗效有无显著差异。 符号检验法有许多优点,但也有不足之处,比如要求两样本的数据必须一一对应,另外符号检验只是简单地比较这些数的大小,而不管具体数字,因此必然损失了许多可利用的信息。 秩和检验法从一定程度上克服了符号检验法的不足。 设有容量分别为n1 和n2的两个样本(n1 n2),我们希望检验这两个样本是否来自于同一个总体。首先将这两个样本合在一起按

19、数字从小到大依次进行编号,共有n1+n2=n个序号,在秩和检验法中,每个序号就是它对应数据的秩。这样,我们就用秩1,2,n来代替原始的n个数据。如果两个样本所属总体的均值没有差异,那么对应于第一个样本的秩的和与对应于第二样本的秩的和应该大致相等。如果一个样本的秩和明显小于另一样本,这时,就需要计算 P(秩和= Q)=p0。假设 H0:两总体的平均数相等,如果P0a,则否定HO;如果P0=a,则接受H0。 下面通过具体例子来介绍秧和检验的程序。 下面通过具体例子来介绍秩和检验的程序。 例425用甲、乙两种方法进行对虾育苗试验,甲、乙两种方法均用5个小池,池子大小水体都相同,每池放卵均为250万粒

20、,最后出池检查孵出的仔虾数目如下: 方法甲(万尾):148,143,138,145,142; 方法乙(万尾):139,136,141,133,140。 试检验方法甲孵出的虾苗数是否明显超过方法乙。用秩和检验法来解此题。 根据秩和检验表(附表7),查出秩和临界值T1和T2,进行比较,作出推断。 如果T1TT2 则接受H0;如果T=T2,则否定H0,接受HA 。 如上例中,T=18,在a= 0.05下,当n1=5,n2=5时的秩和检验区间为(T1 =19,T2=36),T=T1,因此认为方法甲孵出仔虾数显著高于方法乙。 在使用秩和检验表时,只适用n1=10、n2ua,故否定H0,接受HA,推断A、

21、B两种杀虫剂的效果有显著差异。 例 4.27 调查水稻不同插秧期的每穗结实粒数如下: 6月4日:31,84,71,38,46,46,54,44,88,24,45,89; 6月17日:31,44,65,32,40,53,54,60,34,49,52。 试检验两插秧期对水稻结实粒数有无影响? 前章详细讲述了样本平均数和样本频率的假设检,这些都是针对计量资料即连续型资料来进行检验的。 对计数资料和属性资料,即离散型资料的假设检验通常都采用X2检验检验。计数资料和属性资料的X2检验,一般有两种类型。 一类是适合性检验,这种方法是对样本的理论数先通过一定的理论分布推算出来,然后用实际观测值与理论数比较,

22、从而得出实际观测值与理论数之间是否吻合,因此适合性检验也叫吻合度检验吻合度检验。 另一类是独立性检验独立性检验,是研究两个或两个以上属性的计数资料或属性资料间是相互独立的或是相互联系的,这时可以假设所观测的各属性之间没有关联,然后证明这种无关联的假设是否成立。 从前章中知道,X2的原意是从方差为2的正态总体中,随机抽取含量为n的样本,计算出样本方差S2 。在研究样本方差的分布时,通常将它标准化,得到一个不带有任何单位的纯数: 这是随自由度df=k-1而变化的连续型分布。 对计数资料或属性资料进行X2检验,其基本原理是应用理论推算值与实际观测值之间的偏离程度来决定其X2 值的大小。理论值与实际值

23、之间偏差越大,越不符合,偏差越小,越趋于符合,若两值完全相等时,表明理论值与实际值完全符合。 在计算理论推算值E与实际观测值O之间的符合程度时,最简单的方法是比较两者差数的大小,但由于OE有正有负,则(O E)趋近于零,不能真实地反映理论推算值与实际观测值差值的大小,故采用(O一 E)2,这样就可以消除负号的影响。实际观测值与理论推算值相差越大,则(OE)2也越大,反之亦然。由实际观测值与理论推算值差的平方和似乎可以度量观测值与理论值的相差程度,实际上这个绝对差异数还不足以表示相差程度。例如,在某动物育种实验中,F2 代出现下面的分离: 显然两次实验的(OE)2 都是16,但二者不能等量齐观。

24、对于K组资料,采用差的平方和使其转化为相对比值,这个值便是X2 值,即: 式中,O为实际观测值,E为理论推算值。 由公式可知,X2 最小值为0,随着X2值的增大,观测值与理论值符合度越来越小,所以X2的分布是由0到无限大的变数。实际上其符合程度由X2概率决定。由X2值表可知,X2值与概率P成反比,X2值越小,P值越大;X2越大,P值越小。因此,可由X2分布对计数资料或属性资料进行假设检验。X2检验的步骤为: (1)提出无效假设H0:观测值与理论值的差异由抽样误差引起,即观测值=理论值。同时给出相应的备择假设HA:观测值与理论值的差值不等于0,即观测值与理论值不相等; (2)确定显著水平 ,一般

25、可确定为 0.05或 0.01; (3)计算样本的X2;求得各个理论次数Ei,并根据各实际次数Oi,代入计算样本的X2。 (4)进行统计推断。由于df=K-1,查表值Xa2 。 如果计算X2 Xa2,即表明Pa,应接受H0,否定HA,则表明在a显著标准下理论值与实际值差异不显著,二者之间的差异系由抽样误差引起。 如果实得 X2 Xa2,即表明Pa,应否定H0,接受 HA,则表明在a显著标准下理论值与实际值差异是显著的,二者之间的差异是真实存在的。 由于X2分布是连续的,而计数资料是离散的,故所得的X2值是一个近似值。为了使离散型的计算结果适合于连续型分布给出的概率,在计算 X2时应注意以下两个

26、问题: (1)任何一组的理论次数Ei都必须大于5,如果Ei=2时,由于Xc2与X2相差不大,所以一般不再进行连续性矫正。 比较观测数与理论数是否符合的假设检验叫适合性检验,也称吻合性检验。例如,在遗传学上,常用X2 检验来测定所得的结果是否符合孟德尔分离规律、自由组合定律等。许多与已有理论比率进行比较的资料,也需用X2来作适合性检验。适合性检验是生产检验最常用的方法之一。 作适合性检验时,可提出无效假设从:OE=0,即认为观测数与理论数之间没有差异,再计算样本X2 值,根据规定的显著性水平和自由度df从Xa2值表中查出Xa2 ,当X2 Xa2时,拒绝H0,接受HA;X2Xa2时,接受HA。 例

27、 5.1 有一鲤鱼遗传试验,以荷包红鲤(红色)与湘江野鲤(青灰色)杂交,其F2代获得青灰色为1503, 红色为99,问这一资料的实际观察值是否符合孟德尔的青:红=3:l的一对等位基因的遗传规律? 本例为判断实际观察值与理论比率是否相符的问题,属于典型的两组数据的适合性检验问题。 (1)H0:鲤鱼体色已分离符合3:1比率; HA:鲤鱼体色F2分离不符合3:1比率; (2)取显著水平 a=0.05; (3)计算统计数X2:由于该资料只有K=2组,故自由度df=K-1=2-1=1,因而计算X2时需要进行连续性矫正。 (4)查 X2值表,当 df=1时,Xa2=3.840。现实得 Xc2= 301.

28、63,远大于 Xa2,故应否定H0,接受HA;即认为鲤鱼体色F2分离不符合3:1比率。 遗传学中,有许多显、隐性比率可以划分为两组的资料,如欲测其与某种理论比率。 适合性,则X2值可用表53中的简式进行计算。 例5-2 进行大豆花色的遗传研究,共观测F2代289株,其中紫色208株,白色81,试检验大豆花色分离是否符合3:l的分离规律? (1) H0:大豆花色F2分离符合3:1比率; HA:大豆花色地分离不符合3:1比率; (2)取显著水平 a= 0.05; (3)由表53计算统计数X2值; 例53孟德尔用豌豆的两对相对性状进行杂交实验,黄色圆滑种子与绿色皱缩种子的豌豆杂交后,F2代分离的情况为:黄圆315粒,黄皱101粒,绿圆108粒,绿皱32粒,共556粒,问此结果是否符合自由组合规律? 对于资料组数多于两组的X2值,还可通过下面简式进行计算: 式中,Oi为第i组的实际观测数,pi为第i组的理论比率,总次数记为n。 对于例5.3中两对等位基因F2的分离,按9:3:3:1的自由组合分离比率,计算如下: 独立性检验是研究两个或两个以上因子彼此之间是独立的还是相互影响的一类统计方法。例如,慢性气管炎和吸烟量有无关系,若无关系则说明两者是独立的,若有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论