信息量准则AIC在玉米品种区域试验分析的应用_论文.doc_第1页
信息量准则AIC在玉米品种区域试验分析的应用_论文.doc_第2页
信息量准则AIC在玉米品种区域试验分析的应用_论文.doc_第3页
信息量准则AIC在玉米品种区域试验分析的应用_论文.doc_第4页
信息量准则AIC在玉米品种区域试验分析的应用_论文.doc_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息量准则在品种区域试验的应用信息量准则aic在玉米品种区域试验分析的应用孙京波指导教师 胡希远摘 要:作物区域试验对育种和农业生产具有非常重要的意义。关于作物区域试验数据分析的模型和方法在文献中多种多样,对于实际试验分析者,究竟选用什么样的模型和方法分析作物区域试验才合理是目前必须解决的一个重要现实问题。本文通过sas这一国际标准的分析软件,基于混合线性模型拟合的信息量准则(aic)对玉米区域试验数据资料进行了有关模型的构建、筛选和处理,对各种模型在玉米品种区域试验数据拟合效果和稳定性分析结果进行了比较。结果发现不存在广泛最适的玉米品种稳定性分析模型,对不同的区域试验数据应利用aic准则选用最佳的模型进行稳定性分析。关键词:区域试验,玉米,方差分析,混合模型,信息量准则application of information criteria in the variety regional testabstractregional trial production plays an important role in agriculture, but data analysis methods of the experiment are varied with a bit confusing. in this paper , through sas the analysis of the international standard software ,we will analyze the experimental data of corn for the model constructing ,slecting and treating. meantime , the mixed model analysis is applied under the information criterion (aic). the results showed thatthere is nooptimalmodel forstability analysisof maize varieties, but testsof differentvarietiesof regionalstability analysis havethe best model. keywords: regional trial,cornvariance, mixed model, information cretion目录第一章 绪论41.1 研究背景41.2 模型选择方法及其研究现状41.3 拟研究的内容51.3.1 信息量准则在品种稳定性分析模型选择应用研究51.4 本研究的创新点6第二章 模型和模型选择准则62.1 模型的概念62.2 模型选择的两类标准62.2.1有效准则62.2.2相合准则62.3 模型选择的方法72.3.1 aic准则72.3.2 cp统计量72.3.3 基于 f 检验的逐步回归法72.3.3.1 向前法82.3.3.2 向后法82.3.3.3 逐步法82.3.4 准则82.3.5 校正准则82.4 准则法和逐步回归法的优缺点9第三章 信息量准则在区域试验稳定性分析模型选择应用研究93.1 线性混合模型和模型选择应用于区试的必要性103.2 区域试验品种稳定性分析的发展113.3品种稳定性分析模型113.3.1.稳定性方差模型123.3.2 finlay-wilkinson回归模型123.3.3eberhart-russell回归模型123.3.4 ammi-1模型133.3.5环境方差模型133.4 稳定性模型分析的程序143.5模型评价与选择143.6 数据资料143.6.1 材料和方法143.6.2 试验数据初步分析163.6.3不同分析模型的数据拟合效果163.6.4不同品种稳定性分析模型对品种稳定性的评判18第四章结论32参考文献33致 谢34附件1:sas 程序以2004年01组为例35第一章 绪论1.1研究背景及其研究现状区域试验布点多、范围广,能在较多样的生态环境和接近大田生产的条件下进行试验,有助于迅速明确新品种的推广价值和适应范围。而与之配套的方差分析却是工农业生产和科学研究中对试验数据进行分析的一种重要的数理统计方法,其应用极其广泛。但是,可供应用统计方法和分析软件等因素的限制,传统上通常是依据一定试验设计中试验因子、环境因子及其之间互作等可能效应的多少来确定anova模型,极少考虑针对特定试验数据的最佳anova模型选择。因此anova模型未必就一定能最佳体现所有试验数据的信息;即使偶尔有考虑anova模型的选择问题,多是采用传统的具有一定局限性的f检验结果进行因子选择1。传统方差分析法分析结果的准确性及其研究结论的可靠性会受到不同程度地限制。由于多环境下品种与环境互作效应形成机理的复杂性,关于区域试验数据的分析目前还没形成一个普遍认可的最佳模型或方法。但是,akaike于1973年从信息论的角度出发提出了aic准则,赤池弘次建议,当要从一组可供选择的模型中选出一个最佳模型时,选择aic为最小的模型是可取的。在理论结构上看,aic采用了最小限度的定义,具体化地采用了“吝啬原理”。由此看来,数据的拟合既好而又尽可能节省参数数目的模型才是最佳的。sas中的proc mixed 程序具有广泛的实用性。胡希远已经对多误差试验分析的特点以及利用proc glm分析的局限性予以探讨,阐述分析利用proc mixed分析试验数据的原理方法和优点1。1.2模型选择方法及其研究现状建立模型包括模型选择和参数估计两个方面。参数估计已经发展到相当完满的程度,但是所有参数估计方法都是以给定模型为前提的,并没有考虑到模型本身不确定的问题。模型选择的过程和方法通常包括以下几个步骤3-5:首先,根据所研究问题的特点和专业知识,以及样本数据提供的明显信息,提出若干可能的候选模型;其次,通过模型对样本数据的拟合从中选出一个或几个模型。为了充分利用样本数据包含的信息,要求模型对数据拟合要好,但是拟合度越好,模型一般越复杂。复杂的模型不仅 计算量大而且不利于运用模型解决实际问题。在进行模型选择时,以下三个方面的问题必须考虑:拟合度,复杂度和泛化能力。如果样本中所有可以用的信息不足以使模型选择的唯一性15,那么模型选择就是个不适定问题。为了进行模型选择,人们提出多种准则,如包括向前法,向后法和逐步回归选择法(以f 测验为基础的);复相关系数法(r2);均方误差法(mse)、修整的复相关系数准则(rc2);预报平方和准则(交叉验证准则)和mallows cp准则等。模型选择的方法很多,最简单的就是比较所有备选模型的 。将最大的模型作为最优模型,但这种方法的弊端是它往往不考虑变量的模型构造的贡献而导致的模型多余的复杂度,而通常随着变量数目的增加而上升,因此将导致过度拟合的出现。其中f测验在农业科学领域最为常用。该准则的缺点是取不同的显著水平和选择方法所得到的模型选择的结果不同,形成最佳模型的非客观性,它最终只能提供一个“最佳”模型,不能将候选模型按照优劣排序,此外,由于多次测量和变量相关性的问题, 最终得到的模型也不一定是最佳模型6。马娄斯从预测的观点基于残差平方和准则提出与aic准则相似的cp统计量准则。cp准则是现今在回归模型中用得最普遍的模型选择准则。cp准则有一个优点就是它不要假定分布类型是已知,然而在计算 cp统计量时,怎样来估计未知参数误差方差没有十分令人满意的方法,而且误差方差的不同估计值还会影响变量选择的结果。所有这些模型除了各自的不足之外,共同的局限是:不能用于具有方差协方差结构等较复杂模型的选择6,7。上世纪70年代,赤池弘次将kullbackleiber信息量和极大似然理论相结合,并利用似然估计渐进性质,推导了最佳模型选择的信息量准则8,称作aic(akaike information criterion ) 。该准则具有严密的理论依据,使用简单,适用范围广,受到学者们的广泛关注。信息量准则除用于模型均值结构选择外,人们还将其用于模型最佳方差协方差结构的选择7,9-11。胡希远27进行的一些研究显示,在田间变异较小或者样本容量较小的条件下,从严格理论上讲,空间协方差为真模型,但实际上,区组设计方差分析模型所得固定效应估计及其差异显著性测定验结果和空间协方差模型的结果几乎无异。这时,如果运用aic进行最佳模型选择,它将较多的选择区组设计方差分析模型,但这无妨有关效应估计和测验结果的有效性。目前关于模型选择的研究多是关于回归模型问题的研究,包括线性多元回归和曲线回归的研究,而关于试验分析,特别是农业试验分析模型选择问题的研究目前仍鲜有研究报道。1.3研究内容1.3.1信息量准则在品种稳定性分析模型选择应用研究分析16组玉米品种多点试验数据,通过sas中proc mixed程序并应用信息量准则(aic)评估以下五种品种稳定性模型:稳定性方差模型、finlay-wilkinson回归模型、eberhart-russell回归模型、稳定性模型、ammi-1模型、环境方差模型。最后分析不同品种的稳定应。1.4 本文创新点应用模型选择信息量准则(aic)对玉米田间试验品种稳定性模型(或称线性混合模型)进行比较、筛选,证明信息量准则对田间试验模型选择是必要的。第二章 模型和模型选择准则2.1模型的概念模型是对现实世界的一个特定对象,为了特定的目的,根据特有的内在规律,做出一些必要的简要假设,运用适当的数学工具,得到的一个数学结构。一个好的模型,除了能够最大限度地发掘提取先验和测量数据中的信息,还应该有较为简单的形式。一个好的模型,当然要很好的符合观察数据。很明显,模型设置的参数变量个数越多它对样本数据的拟合程度就越好。但是,参数多了在理论上处理就很麻烦。模型是科学研究的基础,参数模型是一种重要的模型类。对参数模型而言,模型选择和参数求解是数据处理中非常关键的问题,而参数模型的选择及评价包括模型类的选择和已知模型的阶数确定29。好的模型设定大体有三种含义:包含变量不多,不少,函数形式正确。2.2模型选择的两类准则2.2.1 有效准则 当真模型不属于一组候选模型的时候,一种衡量准则所表现的尺度就是测量被选择模型和真模型之间的距离。在一组候选模型中总是存在一个和真模型最近的模型。定义被选择模型和真模型之间的距离与最近模型与真模型之间的距离的比值被称为观测效率。真模型是无限维的模型,或者候选模型集合中不包含真模型是在回归和时间序列中经常出现的假设。前面提过模型选择的目标是从一组有限维的候选模型中选出真模型的最好的近似。与真模型的距离最近的候选模型则是一个合适的选择。所要求的“最近”,需要有个定义好的距离或者信息测度来衡量,比如aic准则中用到的kullback-leibler距离。2.2.2 相合准则很多研究人员假设真模型是有限维的,而且真模型是被包含在候选模型集合当中的。在这样的假设下,模型选择的目的就是正确的从候选模型中选出真模型。如果一个模型选择准则渐进的以概率1选出真模型,则该准则被称为相合的。在这里,研究人员假设所有的变量都是可以测量的,并且假设可以列出的所有重要变量即足以满足所要了解的考察对象的性质。对于统计学家来说,这是一个很强的假设,但是在物理学领域当中他们的确是成立的。2.3 模型选择方法2.3.1 aic准则aic = - 2 lnl + 2q .2.1lnl为模型拟合极大似然值的自然对数值;q为模型中待估计方差协方差参数的数目。这是一个在统计分析特别是在统计模型的选择中有着广泛应用的准则。其显著特点之一就是“吝啬原理 (principle of parsimony)”的具体化。对一组数据,模型的拟和优度是同程度时,采用参数数目最少的模型为最优模型。aic最小化模型法表明,由尽可能少的参数来表现模型是重要的。aic在数学上并不复杂,但实践表明这一准则能够处理复杂的模型问题。但是aic有一定的缺点,由aic来进行判断的模型其分布类型必须是已知的。1973年,日本学者赤池akaike(akaike,1973)基于fisher的极大对数似然准则提出akaike信息准则(aic),成为了70年代出现的信息理论方法的里程碑。aic是通过真模型与拟合模型之间的kullbackleiber距离在大样本条件下导出来的,其复杂度只是考虑了参数个数。宋喜芳等12证明aic信息量准则方差分析模型选择应用形式的数学推导。2.3.2 cp统计量由 mallows 提出的 cp 统计量近年来受到广泛重视13-18 ,cp 统计量准则主要用于多元线性回归分析时回归自变量的筛选。cp统计量与aic准则是相似的,事实上可以证明cp与aic渐进相等。在样本数较少的情况下,cp准则可以节省参数。cp准则还有一个优点就是它不需要假定分布类型是己知的。然而在计算cp统计量时,怎样来估计未知参数误差方差仍没有十分令人满意的方法,而且误差方差的不同估计值还会影响变量选择的结果,这可以说是cp准则的一个缺点。.2.2其中n为样本观察数,p为模型的参数个数,为p 个变量的残差平方和,为协方差估计19。2.3.3 基于 f 检验的逐步回归法2.3.3.1 向前法在建立最优回归模型的逐步回归法当中,向前法是从回归方程仅含常数项开始,把自变量逐个引入回归方程。第一步,把与因变量y有最大简单相关系数的变量作回归系数的显著性检验,若它显著的异于零,则把该自变量选入方程。而后在与余下的自变量中,考虑在消除了已选入变量的影响之后,对与y由最大相关系数的变量,作回归系数显著性检验,己决定是否选入。这样做下去,一直到在排除已选入变量y的影响之后,为选入变量对y的回归系数的检验都不显著为止。这一方法有一个明显的缺点,就是由于各自变量之间可能存在着相关关系,此后续变量的选入可能会是前面选入的自变量变得不重要。这样最后得到的“最优”回归方程可能会包含一些对y影响不大的自变量。2.3.3.2 向后法向后法与向前法正好相反。它是将全部变量选入回归模型,即从全模型开始,然后逐个剔除对残差平方和贡献较小的变量。若一开始所有自变量的f值经检验后都显著,则“最优”回归方程就是全模型。不然,如果有若干个f值不显著,则剔除具有最小f值的变量。然后对剩下的变量建立新的回归方程。重复这个过程,直到剩下的自变量都不能剔除为止。2.3.3.3 逐步法逐步法即通常所称的逐步回归法,本质上是向前法,但吸收了向后法的做法。前面己经指出向前法有一个缺点,就是后续变量的引入会使得一些己在回归方程中的自变量变得不重要。因此在逐步法当中,在每一步增加了对己选变量的显著性检验。也就是在每一步,经f检验选择进入方程的变量,而后又作f检验,看是否需要剔除某些自变量。这个过程一直进行到既没有变量需要进入也没有变量需要剔除为止。2.3.4 准则对一个回归模型的拟合优度的度量指标之一是 ,其定义为:.2.3其中 ess 是解释平方和,rss是残差平方和,tss是总平方和。如此定义的介于0和1之间,越接近1,此回归模型拟合得越好。不足之处:首先,它是度量的样本数据内拟合优度,即度量了给定样本中所估计的值与实际值有接近程度,并不能保证对样本外也能很好地预测。其次,由于在模型中增加更多的自变量的确使变大,但同时也使预测误差的方差也变大。2.3.5 校正准则作为对增加自变量个数来提高值的一种惩罚,为此亨利泰尔提出校正。记为.2.4相比较而言,校正的准则是一个比原来的更加优良些的指标。2.4 准则法和逐步回归法的优缺点逐步回归方法在应用上面临着一个较大的困难是f检验显著水平的选择。若显著水平选得太大则最后得到的方程含较多的自变量;相反,若显著水平选得太小,最后得到的方程所含的自变量则偏少。事实上,每一步是在一组相关的f变量中找出最大值或最小值作f检验。直观上供选择的自变量越多找出的最大值(或最小值) 也就越大 (或越小),也就是出现参数估计不准确的问题。显然除了一些极端情况之外,这些量并不服从f分布,因而并不能保证所挑选出的回归方程在某种准则下是好的或是较好。在一个大样本中,如果一个模型选择准则具有最小的均方误差,那么它就是渐近有效的。aic,cp都是渐进有效的。因此,模型拟合优劣的比较既要考虑模型拟合效果,又要考虑模型参数数目的影响作用。信息量指标aic (akailes in-formation criterion) 便是符合此要求的模型评价指标。信息量准则aic虽然可以用于最佳模型的选择,但是它是一种描述性统计数,具有不能进行统计显著性测验的特点。第三章 信息量准则在区域试验稳定性分析模型选择应用研究作物品种区域试验(以下简称区试)通过多环境(多地点或多年多点)下的试验来分析和评价新品种的特征特性,以决定其利用价值以及适宜推广区域,是连接作物育种和农业生产的纽带,具有多方面的重要意义。作物品种区域试验是作物品种选育中不可缺少的一个环节,从农业生产的角度看,它有利于农业生产水平的提高和持续稳定发展;从社会效益的角度看,它关系到育种家、种子生产经营者和种子使用者三方面的利益;从种子管理的角度看,它是进行品种审定(或登记)和种植推广的重要依据;从商品市场的角度看,它有利于提高种子在国内和国际市场的竞争能力。培育性状稳定、产量质量水平高的品种是育种者不懈追求的目标。由于我国大部分作物种植区跨度大,生态条件差异也很大,并不是只要一个品种就能同时适合我国作物种植区的各种生态条件,为此用种者需要根据特定地区的生态条件选择适合特定地区种植的作物品种,以求获得最大的经济效益。目前统计分析上主要是统计方法的应用较为混乱,各种分析方法的随意应用乃至错误释义等造成了分析结果的可靠性降低。例如区试中各种方差分析的模型和多重比较方法不统一;采用回归方法分析品种稳定性而不考虑其模型适合性等。总之,试验和统计分析中存在的问题,最终都会导致品种评价不准确甚至不正确。在作物品种区域试验中,由于作物品种、人工管理或自然灾害等方面的原因,经常会发生个别试验点缺区、缺品种的现象,从而区试试验报告的数据不平衡。各因子主效应及品种-环境互作效应作用在非平衡情况下的分析方法通常是先进行缺区估计,然后进行传统的方差分析,但缺区估计只是一种近似的手段,且在有些复杂的情况下无法使用。线性混合模型 (linear mixed model,)是nelder和wedderbum1972年定义的,于1989年由 mccullaght和 nelder作了详尽的使用说明,其后在医学、经济等领域被广泛应用。作物品种稳定性研究是基因型与环境互作研究中的热点,是对作物品种进行客观而合理评价的理论基础及确定新品种推广价值和适应范围的重要依据。要对品种全面合理的评价,除了需要准确、可靠和有代表性的试验资料外,也离不开合理有效的试验分析模型和方法20-24。本文通过对10套区域试验数据|(平衡、非平衡数据)资料的分析,比较几种主要稳定性分析模型的数据拟合效果和品种稳定性判定等结果的差异状况。探讨目前比较流行的5种品种稳定性分析模型方法在作物品种稳定性分析中的适用性和对品种特性评价的影响,实现有针对性地选择利用各种稳定性分析模型,从而提高作物品种评价的准确性。3.1 线性混合模型和模型选择应用于区试的必要性作物品种区域试验现行的统计方法是每年对区域试验进行综合分析,以确定该年各参试品种的生产能力的差异及其适应区域25。由于区域试验实行淘汰制度,每年区试涉及参试品种更换,或者偶尔调整个别试点,加上人为或自然因素影响造成的试点报废或缺区,使得品种区试中经常出现非平衡数据。传统的方差分析(anova) 方法只能对平衡数据进行最佳无偏估算,不能有效地分析有缺失的非平衡数据。方差分析方法(anova) 用于分析平衡数据,具有计算简单,估计值无偏的优点,并通过f检验做统计检验, 迄今为止仍为人们采用。但是,方差分析法不能分析非平衡数据。handerson方法可用于分析非平衡数据,但可能导致估算的方差分量有偏,仍具有一定的局限性。朱军等将分析混合线性模型的minque方法,应用于作物品种区域试验非平衡资料的分析,提出了单一性状和综合性状的新思路。由于minque法不需要进行迭代运算 ,对线性模型的没有正态分布的限定,而且方差分量的估计值和随机效应的预测值无偏,因而具有一定的实用价值。可靠公正的区试结果,要靠精确规范的试验和科学合理的统计分析来保证,而我国以往区试在质量和统计分析上都存在一些问题。试验质量方面主要是一些作物的试验精度不足; 试验方案的制定依赖于经验, 缺乏确切的统计学依据; 试点布局经常因经费和人员等因素变动。缺乏严格的生态学依据。 明道绪69等对我国多年的区试作精确度分析,发现所研究的331点次试验中有 50以上的试验其精度鉴别不出距对照10的产量差异。因此,关于遗传材料及其环境互作效应的方差分量的估计就显得很重要。由于每年参试材料可能不同,加之多年多点的环境因素的影响,常常获得一些不规则的不平衡数据,鉴于传统的方差方法不能有效地分析此类非平衡数据资料,本文通过线性混合模型中品种稳定性分析模型的比较,以及固定效应的估算,随机效应的预测,概述了作物多环境试验的混合模型分析方法,并推导具体的计算公式,试图为作物种质资源筛选,群体改良,品种区域化鉴定以及作物品种的合理布局提供依据。3.2 区域试验品种稳定性分析的发展作物品种区域试验旨在鉴定品种的丰产性、稳产性和适应性。作物品种的稳定性、适应性是决定其推广应用价值的重要指标,研究和评价稳定性的数学方法、模型也多种多样,如:线性回归方法、聚类分析,非参数分析,非线性回归分析,主分量分析,对应分析等。研究证明,作物品种的许多性状都存在基因型与环境互作(g e),它是品种稳定性问题产生的根源。柏章才等26根据2007年国家甜菜品种区域试验结果,对参试品种的稳定性和适应性进行了分析,评价出适合广泛种植的品种、针对性选择品种*地点互作效应较高的地区使用的品种。许自成等71 通过线性混合模型中随机效应方差分量的估计和随机效应的预测,以及固定效应的估算,概述了作物多环境试验的混合模型分析方法,并推导具体的计算公式。统计软件sas中proc mixed的发展使得线性混合模型分析非平衡试验数据在技术上变得简单可行。在构建线性混合模型时要根据研究目的和资料特点选择一种模型,然后在此模型下选择合适的协方差结构,只有选择合适的协方差结构对固定效应的估计和推论才有意义27,28。proc mixed程序是一种行之有效的可以实现区域试验非平衡数据分析的方法,且简单易行;proc mixed自动给出的信息量准则,能够对分析模型进行拟合效果最佳的选择,从而找出最佳模型对数据进行科学地分析,提高区域试验数据反映待测品种稳定性的精确性,否定了某个模型的万能性;proc mixed线性混合模型分析结果中也包含对随机误差和系统误差的处理,进而提高数据分析的准确性。3.3品种稳定性分析模型和方法由于随机完全区组设计是我国作物区域试验的主要设计之一,区域试验的数据通常有以具重复值的形式给出,也有以品种-环境组合处理均值(无重复数据)的形式给出。国外对重复测量资料分析方法的研究已比较多,其中最重要的一种方法就是使用混合模型29。因此,下面的模型以随机完全区组设计为主要依据,给出具重复值和无重复数据(处理均值)两种情形时的模型形式。3.3.1 稳定性方差模型稳定性方差模型(stability variance model)由shukla于1972年提出,因此亦称为shukla稳定性方差模型。该模型的数学表达为86.3.1 (i = 1, , i; j = 1, , j; k = 1, , k)为第i个品种在第j个环境中的第k次重复的观测值;为总体平均值;为第i个品种的主效应;为第j个环境的主效应;为第j个环境中第k个区组的效应;为第i个品种与第j个环境的基因型-环境互作效应;为与对应的试验误差。随机效应、和假设相互独立、均值均为零,方差分别为、和。其中为品种稳定性方差,其值越小,品种越稳定。若采用处理均值,其模型数学表达为 .3.2,。随机效应和的方差分别为和。后者为品种稳定性方差。3.3.2 finlay-wilkinson回归模型该模型由finlay和wilkinson于1963年提出30,可表示为 .3.3为第i个品种基因型对环境变量的回归系数,或称为敏感性;为随机偏差(未被回归解释的基因型-环境交互效应)。和的方差分别以和表示。gogel等31,32建议采用reml拟合该模型。绝对值较大的品种被认为稳定性较差9。相应于处理均值的finlay-wilkinson回归模型可表示为 .3.4,的方差为。3.3.3 eberhart-russell回归模型eberhart-russell回归模型与finlay-wilkinson回归模型形式相同 33,不同点在于前者假设模型(4.3)中的和模型(4.4)中的对每个品种均相同,而后者假设每个品种具有各自的值,它们的方差分别被表示为和。3.3.4 ammi-1模型加性主效乘式互作模型常简称为ammi模型34,它因乘积项多少的不同可形成一系列的模型。本文仅讨论乘积项只有一项的ammi模型 (以ammi-1表示) 。对有重复的试验观测,其ammi-1模型可表示为 .3.5该模型较模型(3.3)增加了环境主效应,其余项与模型(3.3)中的意义相同。对处理均值资料ammi-1模型为3.6除增加了环境主效应外,其他与模型(3.4)相同。3.3.5 环境方差模型环境方差模型(environmental variance model)可表示为3.7 和是相互独立均值均为零的随机变量,其方差分别为和。品种基因型与环境互作效应被假定在同一环境j中彼此相关35。向量=的方差协方差是完全无结构的,即方差协方差矩阵var () =的元素可以取任何值,只要为非负。的主对角线元素相当于各品种的方差,该方差的大小作为品种稳定性的度量(环境方差)。环境方差模型相当于scheffe 36 提出的两向混合模型。对于处理均值数据模型(3.7)可简化为 .3.8。同样,=的方差协方差矩阵var()=是无结构的。其主对角线元素是品种的环境方差:值越小,对应的第i个品种越稳定37,38。环境方差模型由于未对方差协方差结构作任何限制,因此它在多数情况下应是最接近实际的模型。其缺点是,模型待估参数较多,在数据较少或品种数多于试验环境数时难以取得模型估计值。3.4 稳定性模型分析的程序上述模型可统一运用sas中的pro mixed程序进行分析。假定试验数据已存为sas数据集,在数据集中以变量y、v和l分别代表品种-环境处理均值 (例如产量)、品种和环境,则基于处理均值数据各稳定性模型分析的sas程序如表3-1所示。表3-1针对品种-环境处理均值数据5种稳定性分析模型的sas程序编码tab.3-1 syntax for the sas commands to fit 5 stability analysis models for variety-environment treatment mean data所有模型均需要的语句:proc mixed ; class v l; model y = v /ddfm = satterthwaite;模型model语句 syntax稳定性方差模型stability variancerandom int / sub =l; repeated v/ sub = l type = un(1); run;finlay-wilkinson模型repeated v/ sub = l type = fa1(1); run;eberhart-russell模型repeated v/ sub =l type = fa(1); run;ammi-1模型random int / sub = l; repeated v/ sub = l type = fa1(1); run;环境方差模型environmental variancerepeated v/ sub = l type = un; run;注:本行所列语句应出现在其他语句之前note: the commands in this row should be written before the other commands for each scenario.3.5 模型评价与选择上述各种模型采用极大似然法拟合时,可采用基于似然值的信息量准则评价和选择最佳模型,如akaike信息量准则(aic):aic = - 2 lnl + 2qlnl为模型拟合极大似然值的自然对数值;q为模型中待估计方差协方差参数的数目。该式中右边第一项可解释为衡量模型对试验数据拟合优良度的一个度量,第二项可解释为对增加模型参数个数的一种平衡。当有若干个模型可供应用时,数据拟合效果好,而又尽可能节省参数数目的模型,即aic值最小的模型为最佳模型。在利用sas 中的proc mixed程序进行分析时,aic值将由该程序自动给出。3.6 数据资料3.6.1 材料和方法数据取自我国玉米作物区域试验的产量资料,数据为子粒产量。资料来源详细状况见表3-2。所有试验采用随机区组设计,重复3次;小区面积12m(2m6m) ,田间管理略高于大田水平,产量结果为籽粒产量,单位kg/12m。 玉米区域试验描述tab.3-2 regional trial description试验 trial试验trial品种数cultivar number环境数environment number重复数replication number产量单位yield unit数据来源data resource02年1组玉米17213kg/12m202年2组玉米21213kg/12m203年1组玉米17223kg/12m203年3组玉米16213kg/12m203年4组玉米14213kg/12m204年1组玉米18223kg/12m204年2组玉米18223kg/12m204年3组玉米19223kg/12m204年4组玉米19223kg/12m205年1组玉米17223kg/12m205年2组玉米15223kg/12m205年3组玉米16223kg/12m205年4组玉米16223kg/12m205年5组玉米15223kg/12m205年6组玉米15223kg/12m2表3-2 区域试验产量列表tab.3-2 yield data of regional trial试验 trial02年1组02年2组03年1组03年3组03年4组04年1组04年2组04年3组04年4组05年1组05年2组05年3组05年4组05年5组05年6组v110.8511.6712.0210.9112.9313.1812.5014.0910.1311.0211.3512.0011.6011.4610.77v212.1611.7112.3612.2313.0113.0713.2313.4610.8212.1912.5311.9312.7411.0812.75v311.6711.0011.1811.8011.0711.9311.5412.3412.6811.2811.7112.2811.5110.7810.75v412.4711.1810.9512.9711.6712.5512.6412.1510.0711.2511.6411.2110.2911.0412.05v511.8211.3811.8711.8210.8512.4513.3513.1311.6511.7311.3411.4811.7210.7411.20v610.7411.6312.1812.3611.8012.9512.6813.5111.0910.8311.7211.4311.3311.5311.17v711.0712.5810.6911.7712.0512.5211.4012.8411.7811.6310.5611.9411.0110.7511.29v811.9611.3911.6411.6713.3312.8912.5913.1813.5311.8911.6611.4211.6410.749.76v912.0611.4711.9711.4411.1412.6012.7511.8113.5811.9210.7011.0611.2512.0710.45v1011.9212.4711.9410.1310.5612.0912.1113.4312.6311.4810.7311.3610.6611.9511.22v1111.1411.9411.6111.6712.0412.9311.6413.0912.5811.4111.8411.6610.9211.3711.96v1211.3810.8411.8111.2411.3711.1613.1112.8513.5411.3510.7111.2311.5012.1711.31v1312.1011.3611.0312.3411.4412.2912.5211.4411.3911.0611.1510.2711.5210.9111.55v1411.6111.8612.0112.0911.6913.2312.6513.4911.4811.0211.5411.6510.4612.1710.96v1511.3612.0911.6311.3713.7212.5013.0911.4011.0311.4711.4310.9610.98v1611.5310.4012.2811.3012.1712.2811.8511.9910.94v1711.1512.7412.9612.9012.3310.87v1812.2613.1312.8011.50v1912.4511.5611.6911.54v2012.54v2111.253.6.2 试验数据初步分析综合方差分析结果(略)与各点次方差分析结果基本一致,区组间方差不显著,品系和试点间方差都达到极显著水平,说明各试点的生态条件差异很大, 反映了各品系在各试点的适应性和增产潜力有明显的不同; 互作极显著表明各品系的平均产量随地点的变化而有显著的变化。但是变化是不一致的,既有的品系增产,有的品系减产,换另外一个点这种增产或减产明显发生了变化。3.6.3不同分析模型的数据拟合效果表3-3 不同稳定性分析模型的aic值。较小的aic值表示较好的模型拟合效果tab.3-3 aic values of different stability models. smaller aic value indicates better fitting models试验 trial稳定性方差模型stability variancefinlay-wilkinson模型eberhart-russell模型ammi-1模型环境方差模型environmental variance02年1组1154.21182.01169.61148.81137.002年2组-1368.91367.71347.1-03年1组-1133.71125.51097.91139.803年3组-986.0987.7962.01028.903年4组-981.7942.9942.5952.904年1组-1259.51241.01246.51221.104年2组1313.01313.61320.01310.51312.104年3组1412.71415.21390.01414.21391.604年4组1501.41602.51514.21552.91386.205年1组1085.11092.31094.41081.11066.905年2组989.71006.8990.6967.31023.605年3组1014.11012.71015.41000.91032.005年4组1082.11104.51103.61065.71096.305年5组1000.9996.51016.4976.8994.905年6组-1118.01095.41087.11028.9注:- 表示参数寻优未达到收敛。下划线的数据表示最佳模型。note: - denotes convergence did not be reached. best models are underlined.3.6.4不同品种稳定性分析模型对品种稳定性的评判不同分析模型的稳定性参数估计结果tab.3-4 parameter estimates of cultivar variability for different analysis models试验稳定性方差模型finlay-wilkinsoneberhart-russellammi环境方差模型2002年01组v12.04482.21721.96321.09276.8357v22.00012.1091.9384-0.55046.2003v31.20731.74921.152-0.21164.0917v40.42782.08050.3832-0.014664.8346v51.20462.32631.0136-0.051486.4112v60.79962.06340.76540.52685.0215v71.58312.29961.42320.069146.6472v80.66321.69950.6384-0.071

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论