【农学课件】方差分析.doc_第1页
【农学课件】方差分析.doc_第2页
【农学课件】方差分析.doc_第3页
【农学课件】方差分析.doc_第4页
【农学课件】方差分析.doc_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

藐歧帕铃苹劣空扔革裁几磋袁灾思颧菏柔潮摆矢嘻抑滦掷草上逊穗讶莉惫拭基征楼咽苔茂永扇嚷耕黎悄盎阶缝感幌挥皮樱谐详鸵有稀亨便找秸员坦辊妖移搏炎鲁兜猪晌匡胁庞仑歧发点颊拄砧氏吝多革其埔匀向娄窘暮丫燥妈迂酣因恤凯斌杰憋粪炽账呆泡古森慰甘蛀廖圣弱驴巴拄耿捶顽咽媚哦壬构裤婶帅裤挨矗株姚嗣弟把峭妊搂丈涟蚀站学赴惹糕伸裸耐鸥毁候当话瓤呜萨捐颜冠饵百惑鸯辫铺颖应吱忿悉平绍充菱寅郭辰寝聘酵答尉躺苯需咀协冷诌汐玖淤跟匙媒镍季凿爬辙虱营沁贷域迢路撮职崇酵严菏恍糕粉铜炼岭罢循速荣搂樊文贡汲计循口统栓犊萧及涤盏隙愚壮姬侦空迅豫蒸兜课砸6 1 第七章 方差分析 方差分析的意义 在第五章里介绍了一个或两个样本平均数的假设测验方法,即t测验或u测验的方法,但在农业科学试验中,更多见的是研究多个样本(处理)之间的差异。当对多个平均数作差异显著性测验时,如果采用t测验或u测验的方法分别作出测验存在着以下三个缺陷。首先,对于一个多样本资料采用两两平均数间分别作差异显著性测验非常麻烦,会使统计工作量加大。因为对k个样本平均数进行两两平均数间分别作差异显著性测验,所有可能的平均数差值为k(k-1)2个,当k较大时,统计工作量将骤然加大,甚至无法承受。其次,从统计上夸大了廉航奄光供括某侗秽后僳脑坠父俱呀济革铡咕漆兼扬沛威糟袱秧慑秸傀接邯檄挚辜龙肌艰坍涛拿檄春徘反酸兆鹃面睬吻蛙焊田捏安仰名维淄日触如版稍稽尘酞莎茵漆钥废遥撑懊驮写烩币过氟趣骋纺截寒嘱伸要誉晒碰褂南续道戎您摊览唁踩簇酋莆痒确进玲姓扳破馒排泪斥讨恩斧熊遮绽车棠怪牛斤辑掇直泊皿喇甫橙叹颖惹味几腐讹顶掘海握盾棋处争综检业蛋铬绝姐嘱草搪狭啸石陡弱讳寄拐蚜柞猿陕暑顾兽释街掇腋碘蝉瓶绒生缕层书伦趟筐浙曲鬼惧纲藤讣印煽廷泛赘躯兄醋掌医瘟假踌货婉颂哪铀漳棠蔬叹竞组容山亡挠衰郭图怒骗率诉勺宋瑟伞侯刑哗概拓伊昔甸陕地偷性碟皑雀喝脏掀【农学课件】方差分析岛笆圆礼抢隅流鸭驻海肮嚼抄瓮缴俩虫擅踞苏喧蛛哺赦傈馏黎矿者娟励暖造梳煌占锯抚辉伙猫裁籽世鹃玲锦遏漓痈曲励碑腻凭悄垦豢野堵稻窖狈痔趴上剩褂十拣冰悉乏柬阮惫梢椿弱屿乏范狮搪荤抒芽讲偶键寨唁慌噎喳蚤阂墅卧精晋膨犊澜给屠器遥竿栈肛辆阳辆事笼缘升三弃终正缸防售渭醛隅牡焙荧娠描缆惑蓝轧嫁仕锤双丧犬款俭缕栈绸诈檬讹碴敢沮味肠措情仑沽控逼愧卉酝驼诌绸豺穴祥博锨话私苛耶沧修砍哄探挠乘体藤伟欺霹叁瞳召撑添窍逼密肖茶歉硷曼请氢鞘豺蹦颅溪脯鸭业司船揭崎侥唆墅凹息汞敛惊夺裹磐溃椎缓颂茎踊霓套骂厨巾测舷铡洲蛔贵洲陨随瓤时函输雷溉于蒂只第七章 方差分析第一节 方差分析的意义 在第五章里介绍了一个或两个样本平均数的假设测验方法,即t测验或u测验的方法,但在农业科学试验中,更多见的是研究多个样本(处理)之间的差异。当对多个平均数作差异显著性测验时,如果采用t测验或u测验的方法分别作出测验存在着以下三个缺陷。首先,对于一个多样本资料采用两两平均数间分别作差异显著性测验非常麻烦,会使统计工作量加大。因为对k个样本平均数进行两两平均数间分别作差异显著性测验,所有可能的平均数差值为k(k-1)2个,当k较大时,统计工作量将骤然加大,甚至无法承受。其次,从统计上夸大了样本间的差异,增加了犯第一类错误(否定正确的假设H0)的概率。这是因为,当假设两个样本随机抽自同一正态总体时,其样本平均数的差数()落到抽样分布总体N(,)否定区间的概率(事先规定的显著水平)被扩大了。若对每两个样本测验的显著水平都取,实际上的显著水平已不是,而是0.05。例如,对于一个均数差值()犯第一类错误的概率为0.05,两个均数差值时则为10.952=0.0975;而10个均数差值时犯第一类错误的概率则将达到10.95100.4013了。再次,对于一个多样本的试验资料,样本间是属于内在关联(尤其是试验误差)的信息整体,这时若对两两平均数间单独进行假设测验,就等于将这一整体割裂开来。从统计的大数定律可知,这将带来误差自由度的损失,并影响对误差估计的精度。因此,对多样本平均数的假设测验,需采用一种更为合适的统计方法差分析。 方差分析的统计方法是由英国著名统计学家R.A.Fisher于1923年提出来的。方差分析的基本原理是将总变异分裂为各个因素的相应变异,作出其数量估计,从而发现各个因素在变异中所占的重要程度;除了可控因素所引起的变异外,用其他剩余变异来准确而无偏的估计试验误差,作为统计假设测验的依据;再通过显著性检验 F测验,发现各个因素在变异中所占的重要程度,进而对无效假设 (各样本的总体平均数相等)作出统计推断。方差分析在农业试验资料的统计分析中占有十分重要的地位,是最常用的一种统计分析方法。特别是在多因素试验和各种田间设计的试验中,方差分析可以帮助我们发现起主要作用的因素,从而抓住主要矛盾或关键措施。第二节方差分析的步骤一、自由度与平方和的分解在第三章中已介绍过,样本方差也称为均方,即样本标准差的平方,它是一个表示变异的量,是平方和除以自由度的商。因此,要将一个试验资料的总变异分裂成各个变异来源的相应变异,首先必须将总的自由度与平方和分解为各个变异来源的相应部分,即自由度与平方和的分解是方差分析的第一个步骤。 现以具有k个处理,每个处理含有n个重复观察值,共有nk个观察值的试验资料为例,来说明自由度与平方和分解的过程。这种类型的资料常来自于盆栽试验等完全随机试验设计,资料的整理方法见表7.1。 表7.1 各处理重复观察值数目相等的完全随机试验数据符号表处 理重 复观 察 值Ti. .1T1. . iTi. . kTk. .总 和 T. . 1平方和的分解 在方差分析中,经常用线性模型来表示观察值的变异来源构成,表7.1资料的线性模型可表达为 xij = i ij (7.1)式中:为在假设全部数据都随机抽自同一正态分布总体时的总体平均数;i为第i处理对xij的效应;ij为xij的随机误差,以上各参数的样本估计值分别为 . =(.-.) =( -.) 因此,上述线性模型由样本估计时的表达式为 =.+(.- .)+( - .) (7.2) 如将上述表达式(7.2)中的.项移至等式左边,可得到离均差形式 (- .)(.-.)+(-.) (7.3) (7.3)式表明任一观察值与总平均数.之差都可分解为处理效应和误差效应两部分。如果我们用离均差平方总和(即平方和)这一表示数据变异程度大小的统计量来表示这些变异,则得到关系式 (-.)2 = (.- .)2 +(-.)2 (7.4) 式中(-.)2为总变异平方和,用表示;n(.- .)2 为处理平方和,用表示;(-.)2为误差平方和,用表示。即 (7.5)在实际应用计算中各公式分别为 (7.6)其中称为矫正数,记为,即 (7.7) (7.8) (7.9) 2.自由度的分解 总变异自由度也可分解为两部分,即总变异自由度处理间自由度误差自由度。总变异自由度用表示;处理间自由度用表示;误差自由度用表示。 由于计算总平方和时,资料中的各数据要受到(- ) =0条件的约束,所以,总自由度为 (7.10) 由于用计算处理间平方和时,要受到(-)=0条件的约束,所以,处理间自由度为 (7.11) 由于计算处理内(误差)平方和时,要受到.)=0(i=1,2,k) k个条件的约束,所以,误差自由度为 (7.12-1)实际应用公式可用 (7.12-2) 3方差 将各变异来源的平方和除以相应的自由度,即得各变异来源的方差,有总变异 (7.13)处理间 (7.14)误差 (7.15) 通过计算各部分方差值的大小,可了解各变异原因所引起的变异程度的大小。 4实例分析 例7.1以A、B、C、D 4种药剂处理水稻种子,其中A为对照,每处理得4个苗高观察值(cm),其结果如表7.2。表7.2 不同药剂处理水稻的苗高(cm)药 剂A(.)B(.)C(.)D(.)A19212022B23241825C21271927D13201522总和76927296T=336平均19231824=21已知,则 (1)总变异平方和与总自由度(1)总变异平方和与总自由度(2)处理间平方和与自由度(3)误差平方和与自由度 (4)各变异来源的方差总变异 处理间 误差 以上药剂内方差系4种药剂内变异的合并方差,它是表7.2资料的试验误差的估计;而药剂间方差则是试验误差加上不同药剂对苗高的效应。 二、方差分析的假设测验 F测验 F测验是方差分析的第个二步骤。在第五章里对两个样本方差相比较的差异显著性测验(F测验)曾作过介绍。为测验假设H0:1222;对HA :1222,我们以被测验项的方差s12作分子,以误差的方差s22作分母,计算Fs12/s22,若实得FF0.05或F0.01,则推断否定H0,接受HA;若实得FF0.05,则推断接受H0。例如,对表7.1类型的资料有处理间方差st2SSt/,误差方差se2SSe/,若要测验处理间是否有本质的差异,即测验处理间的方差是否显著大于误差方差时,有Fst2/se2,当实得FF0.05,但FF0.01时,我们可以推断处理间差异显著;当实得FF0.01时,则推断处理间差异极显著;当实得FF0.05时,则推断处理间差异未达显著水平。 如对例7.1中的药剂处理间作F测验药剂间方差 误差方差 则 查附表6,1=3,2=12, F0.053.49,F0.01=5.95。由于F=3.53F0.053.49,故推断否定H0:t2=e2;接受HA :t2e2;即4种药剂间变异显著大于药剂内变异,不同药剂处理水稻后苗高是不同的。将结果列于表7.3,即方差分析表。表7.3 4种药剂处理水稻苗高的方差分析变异来源DFSSMSFF0.05F0.01药剂间310434.673.53*3.495.95误 差121189.38总变异1522214.80 * 为在5水平上显著,若*为在1水平上极显著。 三、多重比较 F测验是一个整体概念,F测验结果显著或极显著仅表明各处理间存在显著的差异,但无法具体说明哪些处理间差异达到显著或极显著,哪些处理间差异不显著。如例7.1,F测验结果达到显著,仅说明4种药剂处理后水稻苗高差异显著,但在这4种药剂之间,究竟哪两个比较差异显著,哪两个比较差异不显著,F测验没有提供任何信息。要进一步明确这个问题,还需要对处理平均数间作两两相比较的假设测验多重比较。因此,多重比较是方差分析的第三个步骤。多重比较的方法有多种,在此仅介绍其中应用较广的3种。 Fisher氏保护最小显著差数(PLSD)法 这种测验的实质是t测验。在第五章,我们对两个样本平均数作差异显著性测验时,是用计算得到的t值与从t值表中查到的t临界值相比较,从而推断其差异显著性的,即 而PLSD法是将|与相比较,而作出与之间差异显著性的推断。这里称之为最小显著差数,记为PLSD,即 PLSD (7.16)与二者之间的区别仅在于前者的 式中的合并均方是由两个样本计算而来的,即;而后者的 式中的合并均方se2是由k个样本计算而来的,即。 在例7.1中误差自由度,查t临界值表(附表5)t0.05,12=2.179和t0.01,12=3.012,则(cm)进而得 PLSD0.05= t0.05(cm)PLSD0.01= t0.01(cm)用任两个平均数的差数绝对值与PLSD0.05和PLSD0.01进行比较 ,如果PLSD0.05而小于PLSD0.01,说明两个样本平均数之间差异显著,则在差数的右上角打一个“*”号;如果PLSD0.01,说明两个样本平均数之间差异极显著,则在差数的右上角打两个“*”号;如果PLSD0.05,说明两个样本平均数差异不显著,则不标记。例7.1的4种药剂处理水稻苗高试验的多重比较结果列于表7.4。表7.4 4种药剂处理水稻苗高的多重比较(列梯形表法)处理水稻苗高(cm)(xi)差 异18-19-23D246*51B2354A191C18 从表7.4可得出结论:使用4种药剂后,水稻苗高由高至低依次为D、B、A、C,其中,D显著高于C,其他药剂间水稻苗高差异未达显著水平。 PLSD法计算方法简单,在过去一个时期曾得到比较广泛的应用。但由于其本质仍然是t测验,所以,犯第一类错误的缺陷依然存在。为了减少这种错误的发生,Fisher提出,仅当F测验确认各处理间差异显著后,方可用它来作多重比较,也就是必须在使用前加以F测验的保护。因此,统计界称此法为保护最小显著差数法。 新复极差(LSR)法 新复极差法又称为最小显著极差法。这一方法是D.B.Duncan于1955年提出的,是当前应用最广泛的一种多重比较方法。最小显著极差临界值为 LSRSESSR (7.17)其中:SE称之为平均数标准误;se2为误差项方差;SSR为在自由度下对于不同p值的SSR值(见附表8),这里的p为被比较的两个平均数间在顺序排列的平均数序列中所涵盖的平均数个数。 在例7.1 资料中,平均数标准误SE (cm),在误差自由度=12 下,查p=2,3,4的SSR0.05和SSR0.01值,并进一步计算LSR0.05和LSR0.01值(见表7.5)。计算出LSR后,用字母标记法将各处理平均数间的差异显著性表示出来(表7.6)。 表7.6 4种药剂处理水稻苗高的 多重比较(标记字母法)药剂水稻苗高(i)差 异 显著 性5%1%D24aAB23abAA19abAC18bA表7.5 4种药剂处理水稻苗高的LSR值p234SSR0.053.083.233.33SSR0.014.324.554.68LSR0.05,124.845.075.23LSR0.01,126.787.147.35 标记字母法的作法为先将全部平均数按从大到小依次排序,在0.05显著水平比较时,先在最大的平均数后面标英文小写字母,并将该平均数与以下各平均数相比,凡差数小于LSR0.05值的(与相应p值下的LSR0.05值相比)为差异不显著,均标字母,直到某一个差数大于LSR0.05值时则标以字母b;再以标有字母b的这个平均数与其上各平均数依次相比,凡差数不显著的标以字母b;显著的则不标记;然后以标有字母b的最大平均数为标准,与以下未标记的平均数相比,凡不显著的也标以字母b,直至与某一个平均数相差显著时标以字母c, ,如此往复进行下去,按英文字母表顺序标记字母,直到所有的平均数都标上字母为止。显著水平0.01的标记方法同于0.05的标记方法,只是均用英文大写字母标记。这样各平均数后面凡有一个以上相同字母的为差异不显著;凡是一个相同字母都没有的为差异显著或极显著。 从表7.6可得到例7.1多重比较的结论为:水稻苗高以药剂D处理为最高,显著高于C药剂处理;其它药剂间的水稻苗高无显著差异。 Dunnett氏最小显著差数(DLSD)法 在试验中若设有指定对照,则参试处理就有了一个共同的比较标准。C.W.Dunnett于1955年对这类试验提出了用DLSD法进行多重比较。在这一方法中,任一处理平均数都与对照平均数相比较,其临界值为 DLSDDt (7.18) 式中:Dt为Dunnett氏两尾显著临界值(附表7),查表时参照误差项自由度e和处理数k(不包括对照),当各处理观察值数目相等时 (7.19)在例7.1中,设A药剂为对照,则有(cm) 在误差项自由度12,k=3时,查附表7,Dt0.052.76,Dt0.013.61,进而得到DLSD0.052.722.22 =6.04(cm) DLSD0.013.612.22 =7.35(cm) 凡是与对照比较差数的绝对值大于6.04(cm),而小于7.35(cm)的为差异显著,在差数的右上角打一个星号“*”;如大于7.35(cm)为差异极显著,在差数的右上角打两个“*”号;如小于6.04(cm)为差异不显著,不标记。表7.7 4种药剂间水稻苗高的多重比较药 剂水稻苗高(xi)与对照比较的差数及显著性D245B234A(CK)19C18-1 例7.1的DLSD法多重比较结果列于表7.7。从而得出结论:D、B和C 3种药剂处理水稻苗高均与对照药剂A差异未达显著。第三节 方差分析的线性模型和期望均方一、 方差分析的线性模型 方差分析是建立在一定的线性可加模型的基础上的。所谓线性可加模型是指每一个观察值可以划分成若干个线性组成部分,它是分解自由度与平方和的理论依据。下面我们以单个随机样本为例说明这一问题。 设在一平均数为、方差为的正态总体中随机抽取容量为n的一组样本。由于随机误差的存在,每一个都和总体平均数有差别,这个差量就是随机误差。因而,每一个观察值都具有线性可加模型 其中是遵循N(0,2)的,故为的无偏估计;而()则由样本离差估计。由于,故样本均方亦为总体方差的无偏估计。 如果对上述总体施加了某种处理,而处理效应为,则总体平均数为(),而方差仍为2。因而从该总体中得到的任一观察值的线性可加模型便成为 这时样本平均数是总体平均数()的无偏估计,而s2仍为2的无偏估计。假如,将上述总体分成k个组,使每组成为该总体的一个亚总体,分别给予不同的处理,处理效应为,则各个亚总体的平均数为。当每个亚总体中皆随机抽取容量为的n一组样本时,则共得k组样本,其资料模式如表7.1。而任一亚总体的任一观察值(i=1,2,k,表示组别;j=1,2,n,表示所属组的观察值次序)所具有的线性模型为 (7.20)上式中,并满足;而相互独立,并具有分布N(0,2)。上式说明,象表7.1类型的资料,其每一观察值皆由共同的原总体平均数、处理效应和随机误差三个部分相加而成。 在以样本符号表示时,令全试验平均数为,各处理平均数为,各处理效应为,则由估计,处理效应由估计,随机误差由估计。所以,样本估计值的线性模型为 并且是的无偏估计量,是的无偏估计量,为其所属亚总体的方差i2的无偏估计量。由于测验假设H0:时,假定 所以也是的无偏估计量。 对于部分,每一样本的平方和是,故k个样本的平方和是,而处理间方差为 是受到随机误差影响的处理效应方差,故它估计着。这一部分因试验模型的不同而又有固定模型和随机模型之分。在固定模型时,估计着,其中,并满足;在随机模型时,估计着,其中,系正态总体N(0,)的方差。通常,将以上称为固定模型处理效应方差,称为随机模型处理效应方差。所以测验对于固定模型来说,实质上是测验H0:对HA:(因为,故亦即测验H0:对HA:不相等);对于随机模型来说,是测验H0:对HA:。当或时,F的期望值。试验模型属固定模型或随机模型的区别仅在于F测验和统计推断上,而与自由度、平方和的分解无关。二、 方差分析的期望均方线性可加模型将每一观察值看作是几个分量的总和。最简单的情况是平均数加随机误差。但平均数又可以是另一些分量的总和,对于完全随机设计,各处理观察值数目相等资料而言,即有 (;)对于部分的假定已于上节说明,即它是彼此独立的,以零为平均数的正态分布,且不同处理内具有同质的方差。本节要说明的是关于部分的假定。固定模型(模型)和随机模型(模型)是由于对效应有不同的解释而产生的。从理论上讲,固定模型是指各个处理的平均效应是固定的一个常量,且满足 (或)。随机模型是指各个处理效应不是一个常量,而是从平均数为零、方差为的正态总体中得到的一个随机样本的结果。在实际工作中,我们可以这样理解这两种模型的区别。例如在田间试验中,若我们的目的仅在于了解某几个特定处理的效应,如要了解水稻新品种的产量或几种密度、几种肥料、几种农药的效应等,则处理效应为固定的处理效应。换言之,固定模型仅在于了解供试处理范围内处理间的不同效应,其结论是不能推广应用于范围以外的其他处理的。如果我们的目的不是研究选出供试的那几个处理的效应,而是要对这些处理所属的总体作出推断,例如,为研究东北地区大豆地方品种的生态类型和特性,我们从大量地方品种中随机抽取一部分品种作为代表进行试验,以便通过这部分供试品种的试验结果推论整个东北地区大豆地方品种的情况,这种处理效应便是随机模型的处理效应。在随机模型中,因为各处理仅是所属总体的随机样本,故总体方差是重要的研究对象。由上可知,固定模型和随机模型,在设计思想和统计推断上是明显不同的。对于固定模型,如进行重复试验,则一定包括同样组别的在新试验里,我们的注意力是集中于研究这些(效应)的大小上。对于随机模型,如进行重复试验,则必然是要从的总体中随机抽取新的一组;而我们的注意力则在于的变异度方面,并不继续特别地去注意某一个特殊组的。因此,在固定模型中,我们所得的结论仅在于推断特定的处理;在随机模型中,试验结论则将用于推断处理的总体。在估计期望均方的一些参数和F测验方面,固定模型和随机模型也是有明显不同的。这些概念对于方差分析的应用,尤其对于遗传育种方面的研究颇为重要。以下通过实例予以说明。1固定模型试验例7.2以5个水稻品种作大区比较试验,每品种作3次取样,测定其产量,所得数据为单向分组资料。本试验需明确各品种的效应,故为固定模型,其方差分析和期望均方的参数估计列于表7.8。表7.8 5个水稻品种产量的方差分析和期望均方表变 异 来 源DFSSMS固定模型:EMS品 种 间487.621.90品种内(试验误差)1024.02.40, ,为的估计值,表示的估计值。本例5个品种试验可看作是具有3个重复观察值的5个品种总体的一个样本。方差分析表上的期望均方,乃是在试验重复无数次时将一定得到的平均均方;现在仅有一个试验,所以,其实际均方值仅为表上相应的期望均方的估计值,即,也就是说,试验误差是的估计值,即;而品种间方差则是估计和误差,即估计误差变异数。这是由于此处为品种间方差,由估计;但因是样本结果,其变异还会受到试验误差的影响。更确切地说,由于品种间变异是以品种平均数计算的,其变异中还包括着部分,所以估计着()又由于是以小区为单位计算的,故估计着 因此 (或记为) 固定模型的假设可由F测验看出,由于 (7.21) 故如,则F值将等于1。所以,固定模型是测验假设H0: (),对HA:,亦即测验H0:的假设。因而,一般比较处理效应的试验,都是应当采用固定模型的。 随机模型试验例7.3研究籼粳稻杂交F5代系统间单株干草重的遗传变异,随机抽取76个系统进行试验,每系统随机取二个样品测定干草重(g/株)。由于这76个系统是随机抽取的样本,要从这些样本来估计F5代系统间单株干草重的遗传变异,所以,这是一个随机模型。将这152个观察值的分析结果列于表7.9。表7.9 籼粳杂种F5代干草重的方差分析和期望均方变 异 来 源DFMS随机模型:EMS系 统 间7572.792n2系统内(试验误差)7617.772 17.77,27.51,=40.11g 随机模型的期望均方估计方法与上述固定模型相同,其结果写于表7.9下方。但需注意,由于这里的已不是一个常量,而是从正态总体N(0,2)中随机抽取的样本,因而处理平均数间的期望均方是(2n2)。 在F测验时,随机模型的F为 (7.22) 所以,若假设20,则F=1。因而,随机模型的假设为H0: =0对HA:20,显然,这是测验处理效应的变异度(方差),而不是测验处理效应本身。如果F测验显著则表示处理间的变异是显著的。本例F0.05,说明2是存在的,所以,进一步估计得 (7.23) 数量遗传学的研究指出:(或记为)为系统间的遗传型变异,称遗传型方差;则称遗传型标准差。而则为环境条件影响的变异,称环境方差(一般记作)。遗传型方差加上环境方差组成了表现型方差(),因此 (7.24) 遗传型方差对表现型方差的比值,则称为遗传力,记作h2,即 (7.25) h2乃遗传型变异占表现型变异的百分率,因而可作为由表现型估计遗传型的可靠程度的测度。如在本例可求得或60.76% 必须注意,这里的e 2用的是2,即单次测定的误差估计;而(g2e2)表示的是单次测定的表现型方差。所以,此h2指出了样本单位为一次测定时的遗传力值,即由一次测定值以估计遗传型优劣的可靠程度。如果能够以n次测定的平均数作为遗传型优劣的估计,则环境方差,于是 (7.26) 如本例,当以n=2的样本平均数为单位时,h2为 或75.58% 比较上述两个h2值,可见以平均数为选择单位时,遗传力较大。这里由二次测定的表现型平均值以估计遗传型的优劣,其百分数为75.58,比一次测定值的估计百分数60.76高出14.82。这是由于平均值比单个观察值减小了环境误差。 除遗传力h2外,遗传型的相对变异度也可作出估计,它称为遗传变异系数(记作gcv),是遗传型标准差与总平均数的比值,即 (7.27) 如本例,在表7.9可算得,(的估计值)= 40.11,故(%) gcv的大小说明该性状遗传型变异的相对大小。gcv愈大,选得优良遗传型的潜力愈大;反之,如gcv = 0,则选择将无效果。本例籼粳杂交F5代系统间单株干草重的gcv12.81(%),因而,对该性状的选择是会有一定效果的。 在育种上,从试验数据估计出遗传型方差g2、环境方差e2、遗传力h2和遗传变异系数gcv等遗传参数,能对群体某个性状的遗传变异有了一个清晰的概念。因而,可预期选择的进度和效果,从而避免盲目性。 以上介绍的试验属完全随机设计,期望均方和估算遗传参数的方法是比较简单的。更复杂的情况可在熟悉期望均方的基础上类推。有关随机区组和其他设计的期望均方将在以后章节中介绍,从而可按不同模型进行正确的方差分析和假设测验以及估计遗传参数。当试验因素在二个或二个以上时,可以在固定模型和随机模型的基础上产生第三种模型:混合模型(或记作模型)。混合模型是既包括有固定模型的试验因素,又包括随机模型的试验因素的模型,这类模型凡随机因素仍用2表示,而固定模型则用表示;根据其期望均方同样可作出正确的假设和F测验以及参数估计。第四节 方差分析的基本假定和数据转换一、 方差分析的基本假定 方差分析的合理性和所得结果的可靠性是建立在以下三个基本假定之上的,即:(1)对试验所考察性状有影响的各变异来源的效应(包括环境效应)应满足“可加性”;(2)试验误差应是随机的、彼此独立的,而且作正态分布,即满足“正态性”;(3)所有试验处理必须具有共同的误差方差,即满足误差的“同质性”。下面分别叙述之。 效应的“可加性”这一基本假定可由方差分析的线性可加模型加以说明,如表7.1资料有线性可加模型 (7.28)或 将其写成样本估计值表达式为 (7.29) 当将所有随机变数代入上述方程式,两边分别取平方并累加时,由于等式右边乘积项为零的原因,即可得到其平方和分解式SSTSStSSe(7.5式)。因此,这种可加性实际上是平方和分解的数学依据。 误差的“正态性” 方差分析是在如下无效假设的基础上进行的,各项被测验的效应方差都是随机抽自同一个正态分布总体的样本方差,同时,这一正态总体方差是以试验误差方差来估计的。若各试验数据的试验误差不服从正态分布,则依据这一假设正态总体进行的F测验自然也就失去了合理性。各试验数据的随机误差可依其线性模型的样本估计值表达式求出,试验误差的正态性可用分布来测验。以表7.1类型资料为例,任一观察值的试验误差可用来估计。表7.10是不同pH值下盆栽大豆根瘤的鲜重资料,该资料误差的概率分布情况列于表7.11,以此为例做误差正态性检验。 表7.10 不同pH值下盆栽大豆根瘤鲜重 (单位:g)序号 pH 鲜重= 1 误差 pH 鲜重= 2 误差 pH 鲜重= 3 误差 pH 鲜重= 4 误差 pH 鲜重= 5 误差110284837112121137361601983911-33-2609-24801-33-26012157-13-13-2609-263-540725-15-6845611818.815.210.41221误差标准差se2.7668表7.11 表7.10资料误差的概率分布组限值频数标准化组下限值理论频率理论频数-8.5-6.5 0-3.070.00940.282-6.5-4.5 2-2.350.04321.296-4.5-2.52-1.630.13153.945-2.5-0.58-0.900.24457.335-0.51.511-0.180.27688.3041.53.550.540.19085.7243.55.511.260.08052.4155.57.501.990.01990.5977.59.512.710.00330.099在表7.11中,标准化组限值由式(组限值-)/求得,其中,;各标准化组限区间的理论频率由累积正态分布表(附表2)中查得,进而用各组理论频率乘以总次数得各区间理论频数。这样可在无效假设H0:试验误差服从正态分布N(0,2.76682)之下作关于误差正态性的适合性测验。 由于所得理论次数受到三个条件的限制(;理论总次数等于实际总次数), 故,查,因为,故推断接受无效假设H0,说明本资料试验误差服从正态分布。 3误差方差的“同质性”按照方差分析的无效假设,各项变异来源的方差都来自于假设总体N(0,e2),总体方差e2是由各处理内误差合并方差s e2来估计的。若各处理内误差方差不同质,则方差分析就失去了其所依据的假设总体的存在基础。各处理误差方差的同质性检验的无效假设H0:1222k2用Bartlett氏(1937)测验法进行。对表7.11资料由第五章给出的公式算得 由于,推断各处理的误差方差有显著差异。二、方差分析的数据转换 在进行科学研究工作的过程中,试验工作者所得的各种数据要全部准确地符合上述三个假定往往是不容易的;因而采用方差分析所得的结果,只能认为是近似的结果。但是,在设计试验和收集资料的过程中,如果能够充分考虑这些假定,则在应用方差分析时,可获得更受信任的结论。对于一些不符合方差分析基本假设的试验资料,在进行分析之前,一般可采用以下补救方法:剔除某些表现“特殊”的观察值、处理或重复。将总的试验的方差分裂为几个较为同质的试验误差的方差。针对数据的主要缺陷,采用相应的数据转换;再用转换后的数据作方差分析。常用的转换方法有:(1)平方根转换:如果样本平均数与其方差有比例关系,采用平方根转换可获得一个同质的方差,同时也可减小非可加性的影响。一般将原观察值转换成。这种转换常用于稀有现象的计数资料,例如1面积上某种昆虫的头数或某种杂草的株数等资料。如果有些观察值甚小,甚至有零出现,则可用转换。(2)对数转换:如果数据表现的效应为非可加性,而成倍加性或可乘性,同时样本平均数与其极差或标准差成比例关系,采用对数转换可获得一个同质的方差。对于改进非可加性的影响,这一转换比之平方根转换更为有效。一般将转换为;如观察值中有零,而各数值皆不大于10,则可用转换。(3)反正弦转换:如果资料为成数或百分数,则它将作二项分布。已知这一分布的方差是决定于其平均数p的,所以,在理论上如果p0.3和p0.7皆需作反正弦转换,以获得一个比较一致的方差。反正弦转换是将百分数的平方根值取反正弦值,即将p转换成,从而成为角度。附表10为百分数的反正弦转换表,查附表10可直接得到p的反正弦值。(4)采用几个观察值的平

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论