生物统计基础知识-农业推广_第1页
生物统计基础知识-农业推广_第2页
生物统计基础知识-农业推广_第3页
生物统计基础知识-农业推广_第4页
生物统计基础知识-农业推广_第5页
已阅读5页,还剩168页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物统计学基础知识,主讲教师:詹克慧,农业推广硕士研究生课程,主要内容,第三节生物统计学的基本方法,第一节生物统计学的基本概念,第四节农业试验及设计方法,第二节生物统计学的基本原理,第五节方差分析,第六节直线回归分析,生物统计学及其特点,生物统计学(BiometryorBio-statistics)是数学中的概率论与数理统计学在生物科学中的应用而形成的一门系统性学科。,统计学,理论统计学即数理统计学,应用统计学,社会科学领域的统计学,自然科学领域的统计学,1.逻辑性较强;,2.假设较多,比较抽象;,3.统计方法的分析过程复杂;,4.规律性较强;,5.分析方法的分析步骤不具灵活性。,其特点:,第一节生物统计学的基本概念,1.数据(data)在科学试验或调查过程中,对研究对象的某些特征、特性进行观察记载得到的数字资料的总称。数据具有变异性和趋中性。,2.变数(variable)生物个体具有变异性的特征、特性。变数的某一具体数值称为变量(variate)或观测值(observedvalue)。连续性变数(continuousvariable)是指观测值在一定范围内可以取任何一个数值,这些观测值一般是通过测量或称量的方法获得的。离散性变数(discontinuousordiscretevariable)是指观测值只能取0或正整数的变数,其观测值一般通过观察和计数的方法获得的。,第一节生物统计学的基本概念,3.总体(populationoruniverse)根据研究目的而确定的,具有共同性质的个体所组成的集团,或者说是整个研究对象中每个个体某一变数所有观测值的总称。,5.样本(sample)从总体中抽出一部分有代表性的个体或观测值。,4.总体的参数或参量(parameter)根据总体全体观测值算出的总体特征数。常用希腊字母表示。如总体平均数,方差2,标准差等。,6.统计数或统计量(statastic)根据样本所有观测值计算出的样本特征数。常用英文字母表示。例如样本平均数,方差S2,标准差S等。,第一节生物统计学的基本概念,算术平均数:,7.平均数(averageormean)是数据的代表值,表示资料中观测值的中心位置。,中(位)数(median):,众数(mode):,几何平均数(geometricmean):,所有观测值的总和除以观测值数目所得的商。,将资料所有观测值排序后,居于中间位置的那个观测值的值(或,当观测值数目为偶数时,那两个观测值的和之半)。,资料中最常见的一数,或次数分布表中次数最多的那组的组中值。,n个观测值的乘积的n次方根。,其中以算术平均数最为常用。,第一节生物统计学的基本概念,极差(range)一组数据的最大值与最小值之差。,8.变异数表示数据资料变异大小的数值。,离均差平方和简称平方和(sumofsquares,SS)可较好地衡量资料的变异。定义公式:计算公式:其中C为矫正数,为资料中所有观测值总和的平方除以观测值的个数。,第一节生物统计学的基本概念,8.变异数表示数据资料变异大小的数值。,方差(variance)是平方和除以观测值的个数。,总体方差(populationvariance):,样本方差(samplevariance):,分类资料:,分类资料:,第一节生物统计学的基本概念,8.变异数表示数据资料变异大小的数值。,标准差(standarddeviation)是方差的正根值。,总体标准差(PopulationSD):,样本标准差(SampleSD):,变异系数(CoefficientofVariation,记为C.V.)是指资料的标准差与平均数之比。即:,不可能事件,第二节生物统计学的基本原理,随机事件,事件,概率,必然事件,某事件出现的概率用P()表示;例如P(A)、P(B)等。,概率的有效范围为01,即0P(A)1。,必然事件记为,其概率为1,即P()=1。,不可能事件记为,其概率为0,即P()=0。,随机事件的概率在01之间,即0P(A)1。,1.事件(event)与概率(probability),第二节生物统计学的基本原理,事件间的关系,和事件,积事件,互斥事件,对立事件,事件系,事件的独立性,完全事件系,完全互斥事件系,第二节生物统计学的基本原理,计算事件概率的法则,互斥事件的加法定律,可以引伸到:n个两两互斥的事件的概率等于这n个事件的概率之和。,即:如果AB=,则P(A+B)=P(A)+P(B)。,即:如果AiAj=,则P(Ai)=P(Ai)。,第二节生物统计学的基本原理,计算事件概率的法则,互斥事件的加法定律,独立事件的乘法定律,可以引伸到:n个相互独立的事件同时发生概率等于这n个事件各自发生的概率之乘积。,即:P(AB)=P(A)P(B)。,完全互斥事件系的概率之和为1。,即,如果AiAj=同时A1+A2+An=,则P(Ai)=1。,第二节生物统计学的基本原理,2.二项分布(binomialdistribution):由对立事件构成的总体称为二项总体(binomialpopulation),二项总体观测值的概率分布即为二项分布。,若某事件出现的概率为p,其对立事件出现的概率为q=1-p,做n次重复独立试验,该事件出现X次的可能性(概率)有多大?现在是:n=2,p=3/4,q=1/4,X可以为0,1,2。P(X=0)=(1)(1/4)(1/4)=(1)(3/4)0(1/4)2=(1)p0q2-0P(X=1)=(2)(3/4)(1/4)=(2)(3/4)1(1/4)1=(2)p1q2-1P(X=2)=(1)(3/4)(3/4)=(1)(3/4)2(1/4)0=(1)p2q2-2其中系数为在n个中取X个进行组合的数目。,所以,概率分布函数为:,第二节生物统计学的基本原理,比较下面两个概率分布图,会发现二项分布的形状是由n和p两个参数决定的。当p=q=0.5时,分布是对称的;当pq时,分布就不对称;p和q差异越大,分布就越偏斜。,第二节生物统计学的基本原理,利用概率分布表,可以计算出随机变量X的总体平均数和总体方差2。,对数列求和得X的总体均数为:,同法求得X的总体方差为:,将方差开平方得X的总体标准差为:,第二节生物统计学的基本原理,于是,随机变量X落在区间(X1,X2)内的概率为:,3.正态分布(normaldistribution)连续性变数的概率分布,其概率密度函数为:记为其中为X的平均数,为X的方差。,其概率分布函数为:,第二节生物统计学的基本原理,正态曲线的特性:,单峰,倒钟状,当X=时,f(x)达最大值;,当X时,f(x)0;,以X=为轴左右对称;,曲线与横轴间面积为1;,在X=处有两个拐点;,若不变,改变使曲线左右平移,形状不变;=0时,对称轴与纵轴重合;说明代表了数据的中心位置;,当不变,改变使曲线形状改变,对称轴不变;当变小时,曲线变高瘦,中部的面积变大;当变大时,曲线变矮胖,中部的面积变小;说明衡量了资料的变异程度。,第二节生物统计学的基本原理,于是原变量X在区间(X1,X2)之间的概率就可以用u在区间(u1,u2)之间的概率来计算。,因为X的平均数为,方差为2,所以的平均数为:方差为:,统计学家已经将标准正态分布的概率计算出来,我们只要学会查表就可以计算对应于不同的u的(u)值。,第二节生物统计学的基本原理,统计学一个主要任务是研究总体和样本之间的关系,总体和样本之间的关系可以从两个方向进行研究:从总体到样本:即研究从总体中抽出的所有可能样本的统计数的分布及其与原总体之间的关系。即抽样分布的情况。从样本到总体:即研究从总体中抽出的一个随机样本,用该样本的统计数来估计总体的参数,即参数估计;对总体的参数作出推断,即统计假设测验。,4.抽样分布(samplingdistribution)研究样本统计数的概率分布。,第二节生物统计学的基本原理,研究样本的方法对于比较小的总体,可以将总体中所有可能的样本都抽出来进行研究样本统计数的分布。对于较大或无限总体,可以从中抽出比较多的样本来研究样本统计数的分布。,抽样又分为复置抽样和不复置抽样复置抽样将抽得的个体放回总体继续参加抽样。不复置抽样抽得的个体不放回总体参加后续的抽样。,大数定律:对客观事物进行足够多地观察,客观事物的规律性就会充分显现出来。大数定律保证了参数估计的可靠性。统计上,E()=,E(S2)=2,E(S),第二节生物统计学的基本原理,样本平均数的抽样分布,如果有一个总体,大小为N,平均数为,方差为2。,从这总体中抽取一个大小为n的样本,可以算出样本平均数。,这个不是常数,而是一个随机变量。因为你下次再从这总体中抽取一个大小为n的样本,这个的值就不同了。,如果N是个有限大的数,将一共有m=Nn种可能的样本。如果N是个无限大的数,则m是个无限大的整数。这m个可以构成一个总体。称为样本平均数的衍生总体。,统计学已经证明,样本平均数总体的平均数等于原总体的平均数,样本平均数总体的方差等于原总体方差的n分之一。即,两个独立样本平均数差数的总体分布,如果从一个具有参数1,12的正态总体中抽取大小为n1的样本,样本平均数为;又从另一个具有参数2,22的正态总体中抽取大小为n2的样本,样本平均数为。则两样本平均数之差数将服从总体平均数为,总体方差为的正态分布。,将转换为正态离差就可以计算出差数落在某区间的概率。,如果两个独立样本来自不同的非正态总体,只有当1222,且n1n2都足够大时,两样本平均数之差数才近似服从正态分布。否则分布很难确定。,第二节生物统计学的基本原理,请注意,上面讨论到的抽样总体,不论是样本平均数总体还是两样本平均数之差数的总体其平均数和方差与原总体的平均数和方差都有相应的关系,该关系与原总体的分布无关。,如果原总体的分布为已知,则相应的抽样总体的分布就更为清楚了。,以下讨论原总体的分布与相应的抽样总体的分布之间的关系。,第二节生物统计学的基本原理,实际应用中,当n30时,就可以应用此定理。,如果原总体服从正态分布,则无论样本容量n是大是小,样本平均数将服从平均数为,方差为的正态分布。即,如果原总体不是正态分布的,但已知其总体均数为,方差为,则当从中抽取的样本容量n足够大时,中心极限定理指出,样本平均数将服从平均数为,方差为的正态分布。即,将转换为正态离差u,就可以计算出落在某区间的概率。,第二节生物统计学的基本原理,在前面介绍了标准化正态分布即u分布的定义公式:现在由此可以衍生出另外两个符合正态分布的样本平均数和样本平均数差数衍生总体的u值转换公式:,样本平均数衍生总体:,样本平均数差数衍生总体:,正态总体中的数值,正态总体的平均数,正态总体的标准差,第二节生物统计学的基本原理,学生氏分布t=,若随机变量t的概率密度函数为:则称随机变量t服从自由度为n-1的t分布。,分布曲线的特性:,单峰,倒钟状,以t=0为轴左右对称;,不同的df有不同的曲线,当df小时,曲线肥矮,当df大时,曲线高瘦,当df时,曲线与标准正态曲线重合;,曲线与横轴间面积为1。,第二节生物统计学的基本原理,第二节生物统计学的基本原理,根据前面介绍了二项总体的理论分布,二项总体是由对立事件构成的总体,其总体的观测值是由抽样次数“n”来定义的,因此同一种二项总体因n值不同,其总体内的观测值种类多少也是不相同的,这给研究其抽样分布带来了困难。,为此,可将出现此事件记为X=1,出现彼事件记为X=0,这样二项总体的观测值都转换为0和1的总体,这种总体称为“二项分布的两点总体”,以后统称二项总体。,先计算出这样的总体的平均数和方差。,若此事件出现的概率为p,彼事件出现的概率为q=1-p,可以计算出总体平均数=p和总体方差2=pq。其实这就是前面所介绍的二项总体“n=1”的情况。,=(1p+0q)/(p+q)=p2=(p(1-p)2+q(0-p)2)/(p+q)=(pq2+qp2)/(p+q)=pq,第二节生物统计学的基本原理,二项总体平均数的抽样分布,根据前面所介绍的知识,当n比较大时,构成的分布可近似符合正态分布,可将其转换为u值或t值:,从此总体中抽取大小为n的样本,样本平均数X/n将服从平均数为p,方差为pq/n的二项分布。这里所说的样本平均数是指成数或百分数,也可用表示。,第二节生物统计学的基本原理,从两个二项总体中抽出两个样本容量分别为n1和n2的样本,两个样本平均数差数d=将服从平均数为p1-p2,方差为的二项分布。,二项总体平均数差数的抽样分布,同样地,如果两个样本的容量都比较大,差数的分布也近似地符合正态分布,可以将其转换为u值或t值:,第二节生物统计学的基本原理,2分布(卡平方分布),随机变量2的概率密度函数为:则称随机变量2服从自由度为n-1的2分布。,从一正态总体N(,2)中抽出一个样本,这个样本的观测值转换为u值,所有u的平方之和定义为2。如果将所有样本容量为n的样本都抽出,得到很多的2值构成了卡平方分布。即,第二节生物统计学的基本原理,2分布曲线的特性:,20,图象都在第一象限;,不对称的曲线,随着自由度增加变得稍对称但顶峰变矮,并逐渐趋向正态分布。,df3时,曲线与横轴间面积为1;df3时,曲线与纵横两轴间面积为1。,第二节生物统计学的基本原理,2分布总体虽然是从正态总体衍生来的,但是它解决的问题主要是离散型变数资料,尤其是计数资料。使用较多的不是它的定义公式而是它的计算公式,分布,随机变量的概率密度函数为:则称随机变量服从第一自由度为n1-1的、第二自由度为n-1的分布。,第二节生物统计学的基本原理,从一正态总体N(,2)中抽出样本容量分别为n1和n2的两个样本,两个样本方差的比值定义为F值。如果将该总体所有可能的样本都抽出,得到很多的F值构成了F分布。即F=S12/S22,分布曲线的特性:,0,图象都在第一象限;,曲线受两个自由度的影响,随着自由度的增加趋向对称;,不对称的单尾型曲线,曲线与横轴间面积为1。,第二节生物统计学的基本原理,第三节生物统计学的基本方法,1.统计假设测验:通过对抽样调查得到的样本数据进行分析而对样本所来自的总体作出统计判断的方法。,一些常见的例子:,(1)产品检验:某产品某个技术指标值为,现从一批该产品中抽取大小为的样本,测得样本平均数为,标准差为,试测验该批产品的该技术指标平均数是否与已知的间有显著差异。,(2)品种比较:调查A品种株,平均产量为,标准差为;调查B品种株,平均产量为,标准差为;试测验两品种的真正产量与之间有无显著差异。,*这种测验称为单个平均数的假设测验。,*这种测验称为两个平均数相比较的假设测验。,第三节生物统计学的基本方法,统计假设,针对研究的问题对总体参数提出一对统计假设。其中:*认为试验的处理没有效应的假设称为无效假设(H0-nullhypothesis);*当H0不能被接受时所采纳的假设称为备择假设(HA-alternativehypothesis)。,如果是对总体平均数提出假设,则一个总体H0:=0(C)对HA:0H0:0对HA:0H0:0对HA:0两个总体H0:1=2对HA:12H0:12对HA:12H0:12对HA:12,如果是对总体方差提出假设,则一个总体H0:2=02(C)对HA:202H0:202对HA:202H0:202对HA:202两个总体H0:12=22对HA:1222H0:1222对HA:1222H0:1222对HA:1222,第三节生物统计学的基本方法,统计测验的基本方法和一般步骤:,2.利用试验数据计算一个统计量的值。再根据该样本统计量的抽样分布,计算出当H0为正确时出现这样一个值的概率。对不同资料进行测验时,由于统计量及其的分布不同,计算统计量和概率的公式有所不同。,3.当此概率小于预先设定的水平,就根据“小概率事件实际上不可能发生”原理拒绝H0,接受HA。该水平称为显著水平(记为)。常用的为5%或1%。,1.针对研究的问题提出一对统计假设。其中:*认为试验的处理没有效应的假设称为无效假设(H0-nullhypothesis);*当H0不能被接受时所采纳的假设称为备择假设(HA-alternativehypothesis)。,第三节生物统计学的基本方法,两尾测验:接受区域位于中间,否定区域位于两侧的.,单尾测验:接受区域位于一侧,否定区域位于另一侧.,第三节生物统计学的基本方法,测验:(记施用这种肥料后的真正产量为),1.设假设H0:=0=35gvsHA:0=35g,例题:某玉米品种正常单株产量为0=35g,标准差=5g。施用某种肥料后,调查n=100株,算得样本平均数=37g。问这种肥料是否对产量有显著影响。,2.如果H0是正确的话,从上章可知:因此有统计量服从标准正态分布。即u有95%的可能落在(1.96,1.96)之间。,3.现在,落在(1.96,1.96)以外,若要用=5%为显著水平,可断言:H0不正确。,第三节生物统计学的基本方法,例题:某玉米品种正常单株产量为0=35g,标准差=5g。施用某种肥料后,调查n=100株,算得样本平均数=37g。问这种肥料是否对产量有显著影响。,问施用该肥料后,产量是否增加了。,1.设假设H0:0=35gvsHA:0=35g,2.如果H0是正确的话,从上章可知:因此有统计量服从标准正态分布。即u有95%的可能落在(,1.64)之间。,3.现在,落在(,1.64)以外,若要用=5%为显著水平,可断言:H0不正确。,第三节生物统计学的基本方法,假设测验会出现两种不同类型的错误。,假设测验依据“小概率事件实际上不可能发生原理”。利用估计值来对总体的相应参数进行判断。这种判断不是绝对正确的,有可能会犯错误。,假设测验中犯这两类型错误的概率有多大?,第一类错误是指:将一个正确的H0错判为不正确。例如,我们的例子中,H0:=0vsHA:0如果本来=0,但却判断为0,有多大可能?,因为我们用1-的把握作推断,只有当算出的测验值落在接受区间以外,才会推翻H0,所以犯第一类错误的概率等于。,第三节生物统计学的基本方法,假设测验会出现两种不同类型的错误。,假设测验依据“小概率事件实际上不可能发生原理”。利用估计值来对总体的相应参数进行判断。这种判断不是绝对正确的,有可能会犯错误。,假设测验中犯这两类型错误的概率有多大?,第二类错误是指:将一个错误的H0错判为正确。例如,我们的例子中,H0:=0vsHA:0如果本来0,但却判断为=0,有多大可能?,我们称犯第二类错误的概率为,的计算比较复杂,它要求真正的为已知。,第三节生物统计学的基本方法,犯这两类型错误的概率(与)之间的关系。,如果样本容量n不变,减少,则增大。,即提供置信度(减小显著水平,或减少犯第一类错误的概率),将增大犯第二类错误的可能性;。,对于相同的n和,与0相距越远,则越小。,当n、与0都相同时,越小则越小。,两个样本平均数相比较的假设测验,单个样本平均数的假设测验,当总体方差2为已知时;,当总体方差2为未知时;,成组数据的平均数比较;,成对数据的平均数比较;,两总体方差12和22为已知时;,两总体方差12和22为未知但可以认为12=22时;,两总体方差12和22为未知但可认为1222时;,第三节生物统计学的基本方法平均数的假设测验,当总体标准差为已知时的一般步骤:,两尾测验时H0:=0vsHA:0,计算统计量:,(大端)一尾测验时H0:0vsHA:0,(小端)一尾测验时H0:0vsHA:0,两尾测验时,|u|u则有(1-)的概率推翻H0;,(大端)一尾测验时,uu则有(1-)的概率推翻H0;,(小端)一尾测验时,uu则有(1-)的概率推翻H0。,单个样本平均数的假设测验,第三节生物统计学的基本方法,第三节生物统计学的基本方法,当总体标准差为未知时的一般步骤:,两尾测验时H0:=0vsHA:0,计算统计量:,(大端)一尾测验时H0:0vsHA:0,(小端)一尾测验时H0:0vsHA:0,两尾测验时,|t|t则有(1-)的概率推翻H0;,(大端)一尾测验时,tt则有(1-)的概率推翻H0;,(小端)一尾测验时,tt则有(1-)的概率推翻H0。,单个样本平均数的假设测验,第三节生物统计学的基本方法,两总体方差12和22为已知时的一般步骤:,计算统计量:,两个样本平均数相比较的假设测验,第三节生物统计学的基本方法,两总体方差12和22为未知但可以认为12=22时,计算统计量:,因为可以认为12=22=2,所以变成,但2未知,用样本方差se2估计,变成,如果第一样本的方差为第二样本的方差为,那么合并样本的方差将是2的更好估计。,两个样本平均数相比较的假设测验,第三节生物统计学的基本方法,两总体方差12和22为未知但可认为1222时,计算统计量:,因为不可以认为12=22,因此用s12估计12,用s22估计22,,自由度的校正公式为:,其中,两个样本平均数相比较的假设测验,第三节生物统计学的基本方法,成对数据的平均数比较,成对数据一般是通过配对设计获得的,该设计得到的数据结构为:,因此,可以按照单个样本平均数的假设测验的方法来分析,第三节生物统计学的基本方法,成对数据的平均数比较,计算统计量:,2.计算如果H0正确,20个卵中的正常孵化数大于等于19个的概率。,对于二项资料百分数的假设测验,理论上应该按二项分布进行。,例题:某品种家蚕的卵在某地区的自然孵化率为70%,即p=0.7。现将这种卵放入某种孵化器进行孵化。抽取大小为n=20的样本,发现有19个卵能正常孵化。请用95%的置信度(=0.05)测验用这种孵化器进行孵化是否(比自然孵化)能显著提高孵化率。,3.因为算得的概率小于显著水平,推翻H0,判断差异显著,即用这种孵化器能显著提高孵化率。,1.提出统计假设H0:p0.7vsHA:p0.7,第三节生物统计学的基本方法,两个样本百分数相比较的假设测验,单个样本百分数的假设测验,用观察百分数进行计算的测验公式;,连续性矫正的计算公式;,用观察百分数进行计算的测验公式;,连续性矫正的计算公式;,这是测验某一个样本百分数所来自的总体百分数p与已知的百分数p0之间是否有显著差异的方法。因为百分数又称为成数,所以这种测验又称为成数的假设测验。,这是测验两个样本百分数和所来自的总体百分数p1和p2之间是否有显著差异的方法。对于这种测验,通常假设两总体的方差是相等的,即。,第三节生物统计学的基本方法,两尾测验时H0:p=p0vsHA:pp0,计算统计量:,(大端)一尾测验时H0:pp0vsHA:pp0,(小端)一尾测验时H0:pp0vsHA:pp0,两尾测验时,|u|u则有(1-)的概率推翻H0;,(大端)一尾测验时,uu则有(1-)的概率推翻H0;,(小端)一尾测验时,uu则有(1-)的概率推翻H0。,用观察百分数进行计算的测验公式;,第三节生物统计学的基本方法,单个样本百分数的假设测验,计算统计量:,第三节生物统计学的基本方法,连续性矫正的计算公式;,单个样本百分数的假设测验,计算统计量:,第三节生物统计学的基本方法,用观察百分数进行计算的测验公式,两个样本百分数相比较的假设测验,计算统计量:,第三节生物统计学的基本方法,连续性矫正的计算公式;,两个样本百分数相比较的假设测验,第三节生物统计学的基本方法-方差的同质性测验,一个样本方差与已知总体方差的统计测验,若从一个总体抽取一个大小为n的样本,算得样本方差为s2,想了解此总体方差2是否与已知方差02间有显著的差异。,两个样本方差是否来自同一总体方差的统计测验,多个样本方差是否来自同一总体方差的统计测验,若样本方差s12来自总体方差12,样本方差s22来自总体方差22,想了解这两个总体方差之间是否有显著差异。,若总共有k个样本,第i个样本的样本方差si2来自总体方差i2。想了解这k个总体方差之间是否有显著差异。,第三节生物统计学的基本方法,计算统计量:,一个样本方差与已知总体方差的统计测验,如果是大样本,计算出的2值可利用正态分布转为u值,直接与u比较,做出推断。即:,第三节生物统计学的基本方法,计算统计量:,两个样本方差是否来自同一总体方差的统计测验,若大小为n1的样本方差s12来自总体方差12,大小为n2的样本方差s22来自总体方差22,想了解这两个总体方差12之间是否有显著差异。,第三节生物统计学的基本方法,计算统计量:,H0:12=22=k2vsHA:并非都相等,其中:,3.如果,22,则有(1-)概率推翻H0。,第三节生物统计学的基本方法-适合性测验,先将数据列成上面的表。,测验假设H0:比率为1:1vsHA:比率不是1:1,计算:,因为2=0.2927=3.84,接受H0,认为实际比率与理论比率1:1相符。,例题:玉米花粉粒中形成淀粉粒或糊精是由一对等位基因控制的性状。淀粉粒加碘将变蓝色,而糊精加碘则不会变蓝。如果等位基因的复制是等量的,并且在配子中分配是随机的,F1代中的两种花粉粒的数目应该是1:1的。现调查了6919粒花粉,发现有3437粒会变蓝。问实际比率与理论比率1:1之间是否有显著差异。,第三节生物统计学的基本方法-独立性测验,独立性测验是检查两个(对计数指标有)影响(的)因素是否相互独立(或有关)的方法。,例如,“小麦种子是否经过灭菌处理”与“长出的麦穗是否发病”这两件事情是否有关。所以它的统计假设为:,H0:两个因素相互独立vsHA:两个因素相互有关,根据各因素的水平数多少分为:,22相依表的独立性测验,2C相依表的独立性测验,RC相依表的独立性测验,22相依表的独立性测验,例题:调查经过灭菌处理与未经过灭菌处理的两类小麦种子长出的麦穗发生小麦散黑穗病的株数,得下表,试分析种子灭菌与否和植株是否发病有无关系。,用于处理有两行两列的计数资料,即两个因素各自可分为两种水平时的情况。,第三节生物统计学的基本方法-独立性测验,H0:灭菌与否和发病无关vsHA:发病与灭菌与否有关,如果H0正确,灭不灭菌的发病率都应该等于210/460。经灭菌的种子调查了76株,理论上应有76(210/460)=34.7株发病,,统计推断:种子灭菌与否和发病不发病有显著关系。,26(34.7),50(41.3),184(175.3),200(208.7),76-34.7=41.3株无病;,384-175.3株无病。,第三节生物统计学的基本方法-独立性测验,方差分析解决的问题:,研究一个或两个样本平均数的假设测验,可采用u测验或t测验的方法。但是对多个样本的差异显著性测验,采用u测验或t测验的方法是不恰当的。如果有5个样本,两两间都进行比较,则需要做10次测验,不仅比较烦琐,而且置信概率大大降低,仅为0.9510=0.59870.95,这样犯第一类错误的概率就增加了。,多个样本平均数之间的差异大小可以用这些平均数计算出的方差St2来表示,方差大,差异大;方差小,差异小。但是必须要用一个比较的标准来判断,如何确定这个标准呢?如果我们从一个总体中抽出若干个样本,这些样本平均数之间也会有差异,但不是本质性的差异,这种差异叫抽样误差,也是随机误差的一种,可以计算出它们之间的方差Se2。如果St2和Se2大小差不多,毫无疑问,这多个样本之间没有差异;如果St2比Se2大得多,那就说明它们之间有本质性的差异。很显然,要比较这两种方差的差异,可以用F测验来解决,即方差分析(analysisofvariance)的方法。因此,要达到这种目的,必须计算出这两种变异的平方和、自由度和方差。,第四节方差分析,第四节方差分析,线性可加数学模型是将数据中的每一个观测值划分为若干个线性可加部分的数学表达式。,对于一个总体xi=+i一个样本xi=+ei,对于多个总体xij=+i+ij多个样本xij=+ti+eij,固定模型(fixedmodel):,随机模型(randommodel),试验因素的效应i是固定的,也称为模型。,试验因素的效应i是随机的,也称为模型。,例:某课题组研制出了5个防治小麦纹枯病的新配方,通过试验来比较它们的防治效果,从中找出最好的配方。这5种配方和不喷药的处理效应与总平均效应的差值是常数,因此这些处理效应为固定模型。,例:某植保站为了搞清目前在小麦生产上使用的防治小麦纹枯病的农药品种情况,从中随机抽出20种来做试验。其目的是通过这20种的试验结果来反映目前使用农药的现状,而不是找出最好的农药种类,因此这些处理效应为随机模型。,方差分析的基本思路:,将试验数据的总变异分解为设置的若干可控因素引起的变异,扣除这些可控因素引起的变异后,把剩余的变异当作为由误差引起的。变异的分解主要是对平方和与自由度进行分解。分解后分别计算各自的方差,再将要试验因素引起的方差与误差引起的方差比较,如果试验因素引起的方差显著地大于误差引起的方差,便判定该因素对研究的变数有显著的效应,拒绝H0,,接受HA;否则,判定该因素对变数没有显著的效应,接受H0,拒绝HA。,第四节方差分析,在方差分析中数据的变异用方差来衡量。,第四节方差分析,多样本的数据资料:,第四节方差分析,如果共有k组数据,每组有n个观察值,各观察值分别记为xij。其中i=1,2,k;j=1,2,n。试比较不同组的数据间有无显著差异。,H0:vsHA:并非所有都相等,容易证明:总平方和组间平方和+组内平方和。,同样可以证明:总自由度组间自由度+组内自由度。,第四节方差分析,来看一个简单数据的变异分解:,利用定义公式计算:,xij-4,可以看出:SST=SSt+SSe,第四节方差分析,为方便起见,先计算出校正项:,利用计算公式计算:,把分解的结果列成方差分析表:,MSt是样本组间方差,估计了总体的组间差异和试验误差()。,MSe是样本组内方差,估计了总体误差()。,F=MSt/MSe测验了统计假设H0:vsHA:,如果F测验显著,说明组间有显著差异。,第四节方差分析,把各种平方和及自由度的计算结果抄入一张表内。称它为方差分析表。,计算出类间均方(方差)和误差均方(方差)并将结果填入表中。,16,2,第四节方差分析,样本类间均方(方差)16估计了总体类间均方的倍(即16);,样本误差均方(方差)2估计了总体误差均方:(即2)。,=16/2估计了。,第四节方差分析,从统计理论知:两个方差之比服从第1自由度为分子自由度,第2自由度为分母自由度的分布。将上表中的类间方差除以误差方差,算出值。若F0.05判断类间差异显著;若F0.01判断类间差异极显著。,本例中,=16/2=8F0.05=4.26。,第四节方差分析,8,8.02,4.26,多重比较(F测验显著基础上进行),如果方差分析表显示组间有显著差异,你就会想知道,在所有的k组之间,共有k(k1)/2对比较,到底是哪组与哪组之间有显著差异,那些之间没有差异。多重比较就是做这项工作的方法。多重比较的方法有很多种,但常用的主要有以下两种:1.最小显著差数法(LeastSignificantdifference-LSD法或t测验法)2.最小显著极差法即新复极差法(LeastSignificantRange-SSR法或Duncan法),第四节方差分析,最小显著差数法(LSD法),LSD法实质上是t测验法。其基本原理是:在样本间的F测验为显著的前提下,计算出显著水平为时的最小显著差数LSD;任何两个平均数的差数LSD,即为在水平上差异显著;反之,则为在水平上差异不显著,这种方法又称为F测验保护下的最小显著差数法。已知:若tt,即为在水平上显著。因此,最小显著差数为:当两样本的容量n相等时,可用公共的方差Se2来计算样本平均数的标准误:,用Se2的自由度查表,F测验分母的方差,比较的平均数包含的观测值个数,该方法一般只适合两个平均数之间的比较,特别是当试验中有对照(Check,简称CK),每一个样本平均数与对照平均数进行比较时,或者在进行试验前已确定的样本平均数之间的比较,通常采用此方法。但是应用LSD法必须先做F测验,在F测验显著基础上进行。,第四节方差分析,最小显著极差法(LSR法),在多重比较中,包括着多个样本,这多个样本中平均数最大的一个与平均数最小的一个比较,实际上已不再是一对独立随机样本的比较,用LSD法,必然增大I型错误的概率,容易接受不真实的备择假设,为此D.B.Duncan提出了新复极差法,又称最小显著极差法(shortestsignificantranges,SSR),这种多重比较测验方法是把多个样本中两个极端平均数的差数当作极差对待,如果极差不显著,则包括在这两个极端处理平均数间的各处理平均数的任何成对比较,其差异也是不显著的。极差是否显著用极差相当于样本平均数标准误的倍数来表示,其中,在一定自由度下,当平均数个数为2、3、k时,SR值已由统计学家求出,见附表7。这样只要计算出样本平均数的标准误,从附表7中查出SR,就可以计算出LSR:,LSR法适合多个样本平均数间的相互比较,在比较时,根据比较的平均数个数的不同采用的标准是不一样的。该方法不需要F测验保护,但与F测验的结果也会出现一些较小的差异。,第四节方差分析,多重比较结果的表示方法,列梯形表法:,下划线法:,字母标记法:,将全部平均数从大到小顺次排列,然后算出各平均数间的差数。凡达到a=0.05水平的差数在右上角标一个“*”号,凡达到a=0.01水平的差数在右上角标两个“*”号,凡未达到a=0.05水平的差数则不予标记。,将平均数按大小顺序排列成一行,在不显著极差的平均数后面划一道横线,有连线的平均数间差异不显著,没有的表示差异显著。,该方法是最常用的多重比较结果的表示方法,在科技论文中一般采用此方法,但是比较过程较复杂。下面重点介绍其标记过程。,=0.01乙甲丙丁32.1030.5824.2820.36,第四节方差分析,第四节方差分析,字母标记法:,aa,b,c,AA,BB,第四节方差分析,字母标记法:,aa,bb,AAA,BB,ccc,CCC,第四节方差分析,方差分析的基本假定,试验误差应该是随机的、彼此独立的,并且具有平均数为0的正态分布。,所有试验处理必须具有共同的误差方差,即误差同质性。因为只有当误差方差相等时,才可以将各处理的误差进行合并。,各效应之间具有可加性;因为这样才能有平方和的分解式。,第四节方差分析,不符合基本假定资料的处理方法,剔除某些表现特殊的观察值、处理或重复。,用观测值的平均数来进行分析。,将整个试验分成为几个试验误差较为同质的部分来进行分析。,针对数据的性质进行数据转换。,第四节方差分析,数据转换,平方根转换如果样本平均数与其方差有比例关系,采用此法转换。泊松分布的资料适合此转换。,对数转换如果数据不具可加性,或样本平均数与其其极差或标准差成比例关系,采用此法转换。一般的二项总体资料适合此转换。,反正弦代换如果数据为二项分布的百分数,而且小于30%或大于70%时,采用此法转换。公式为,转换后的数值应为角度,在excel中可用来转换。,第五节试验设计与结果的统计分析,试验的观察对象和试验材料是生物体本身,因而带有生物群体多样性、变异性等特点;,试验在开放的自然条件下进行。,生物试验的种类,试验目的要明确;,试验条件要有代表性;,对试验的基本要求,试验结果要有可靠性;,试验结果要能够重演。,生物试验的特点,第五节试验设计与结果的统计分析,试验材料固有的差异;,实验时因操作管理技术不一致所引起的差异;,试验误差的来源,尽可能控制偶然性因素的影响。,试验条件的差异;,选用同质一致的试验材料;,改进操作和管理技术,使之标准化;,控制试验误差的途径,保证试验条件的一致性;,偶然性因素的影响。,测定方法:空白试验,产生原因:土壤本质差异和土壤利用,土壤肥力差异,差异类型:趋向式和斑块式,解决方法:匀地试验,绿肥掩青,试验地轮换,第五节试验设计与结果的统计分析,第五节试验设计与结果的统计分析,试验方案是根据试验目的和要求所拟进行比较的一组试验处理的总称。,按考察因素的数目不同可划分为单因素试验和多因素试验。,单因素试验只考察一个因素的不同水平对试验指标的不同影响,每个水平又称为一个处理。因此,处理数因子的水平数。,多因素试验同时考察两个或两个以上因素。不同因素的水平相互结合构成不同的处理组合(简称处理)。因此,处理数不同因子水平数的乘积。,第五节试验设计与结果的统计分析,在多因素试验的基础上,找出若干个有希望的处理组合,作进一步的综合考察,便构成了综合性试验。,单因素试验和多因素试验常常是分析性的。其作用在于检测某个(或某些)因素的单独效应或(和)因素间的相互作用。,综合性试验则是在对于起主导作用的那些因素及其相互关系已经基本清楚的基础上设置的试验。目的在于探讨处理组合的综合作用,而不在于检测因素的单独效应和相互作用。,第五节试验设计与结果的统计分析,试验因素对变数所起的增加或减少的作用称为该因素试验效应。,在单因素试验中,因素内两种水平间变数的相差属简单效应。,在多因素试验中,一个因素的水平相同,另一个因素不同水平间试验变数的相差也属简单效应。,一个因素内,各简单效应的平均数称平均效应或称主要效应(简称主效)。,第五节试验设计与结果的统计分析,在多因素试验中,两个因素简单效应间的平均差异称为因素间的交互作用效应,简称互作。它反映了一个因素的各水平在另一因素的不同水平中反应不一致的现象。,在多因素试验中,如果每种组合有一个以上的观察值,就可以考察因子之间的交互作用效应。以下用一个简单的例子说明一下交互作用的概念。,考察两个因素:其一是施氮肥对增产的效应,有两个水平:N1为不施氮肥;N2为施氮肥;其二是施磷肥对增产的效应,有两个水平:P1为不施磷肥;P2为施磷肥;共有22=4个处理组合:N1P1、N1P2、N2P1、N2P2。,第五节试验设计与结果的统计分析,试讨论种不同的试验结果:(第一种情况),不管施不施磷,施氮都增产6。,不管施不施氮,施磷都增产8。,又施磷又施氮比两样都不施增产24-10=14。刚好等于两样单独使用的增产效应之和:6+8=14。这时称这两因素(相互独立),之间没有交互作用。,第五节试验设计与结果的统计分析,试讨论种不同的试验结果:(第二种情况),不施磷的条件下,施氮增产6。,又施磷又施氮比两样都不施增产28-10=18。增产效应大于两样单独使用的效应之和:6+8=14。这时称这两因素(相互促进),之间有正交互作用。,施磷的条件下,施氮增产10。,不施氮的条件下,施磷增产8。,施氮的条件下,施磷增产12。,第五节试验设计与结果的统计分析,试讨论种不同的试验结果:(第三种情况),不施磷的条件下,施氮增产6。,施磷的条件下,施氮增产2。,不施氮的条件下,施磷增产8。,施氮的条件下,施磷增产4。,又施磷又施氮比两样都不施增产20-10=10。增产效应小于两样单独使用的效应之和:6+8=14。这时称这两因素(相互抑制),之间有负交互作用。,第五节试验设计与结果的统计分析,试讨论种不同的试验结果:(第四种情况),不施磷的条件下,施氮增产6。,施磷的条件下,施氮增产-4。,不施氮的条件下,施磷增产8。,施氮的条件下,施磷增产-2。,又施磷又施氮比两样都不施增产14-10=4。增产效应小于两样单独使用的效应之和:6+8=14。这两因素更严重地相互抑制,有更大的负交互作用。,第五节试验设计与结果的统计分析,将这种不同的试验结果作图,比较它们的区别:,第五节试验设计与结果的统计分析,两个因子之间的交互作用称为一级互作;一级互作易于理解,实际意义明确。,三个因子之间的交互作用称为二级互作;四个因子之间的交互作用称为三级互作;如此类推。二级以上的高级互作较难理解,实际意义不大,一般不予考察。,第五节试验设计与结果的统计分析,试验方案包含的内容:,明确试验目的;,根据试验目的确定考察因素及其水平;,试验中设置必要的对照处理;,确定重复次数;,选择合理的试验设计及小区技术;,确定考察的试验指标,即变数。,第四节试验设计的基本原则,农业和生物学的试验中常将排除系统误差和控制偶然误差的试验设置称为试验设计。这是试验设计的狭义理解。广义的试验设计是指整个研究工作的设计。,在此所讲的“试验设计”是指狭义理解。,重复,第五节试验设计与结果的统计分析,为了降低试验误差,提高试验的精确度,试验设计应以下面三个基本原则为依据:,试验中同一处理必须要有多于个观测值。如果是田间试验,则每处理应安排多于个小区。,在一个试验区域中,每一种处理都有同等的机会设置在任何一个试验小区。,将试验环境分为若干相对一致的小环境,在小环境内设置整套处理,使每种处理能得到基本相同的试验条件的方法。,随机排列,局部控制,减少误差;,没有重复就不能估计误差,因而无法对处理间的差异进行比较。,第五节试验设计与结果的统计分析,估计误差;,重复的作用:,例如:为了比较四个品种之间是否有真正的差异。将试验地分为四小块,分别种品种、,结果如右图。我们无法得出结论,说品种的产量高于品种,因为我们无法知道产量差(7-4=)是由于品种不同还是环境条件不同。,但是,如果将试验地分为12小块,每品种各种小块,结果如右图。我们就能估计出试验误差,如果品种与品种的平均产量之差显著大于试验误差,我们就能断言:品种的平均产量显著高于品种的平均产量。,如果某处理有次重复,就可以用下面的公式来估计试验误差:,随着的增大,误差会减少。但是,但是当大到一定程度后,误差减少的作用就越来越小了。,第五节试验设计与结果的统计分析,随机排列的作用:正确地估计误差。,下面的例子中,虽然有了重复,但由于小区是顺序排列的,估计出的误差可能有偏。,如果将试验地划分好之后,不是将各处理顺序排列,而是不按人的主观意志,随机地排列,,就有可能得到无偏的误差估计值。,第五节试验设计与结果的统计分析,局部控制:进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论