高级生物统计026.ppt_第1页
高级生物统计026.ppt_第2页
高级生物统计026.ppt_第3页
高级生物统计026.ppt_第4页
高级生物统计026.ppt_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六节通径分析,在研究多个相关变量间的线性关系时,除了可以采用多元线性回归分析和偏相关分析外,还可以采用通径分析(pathanalysis)。由SWright(1921)提出,并经遗传育种工作者不断完善和改进的通径分析,在研究多个相关变量间关系中具有精确、直观等优点,在遗传育种工作中广泛应用于研究遗传相关、近交系数、亲缘系数、遗传力,确定综合选择指数、复合育种值,剖分性状间的相关系数为直接作用与间接作用的代数和等等。,通径分析中的重要统计量就是通径系数。在统计学上,通径分析就是标准化变量的多元线性回归分析,通径系数就是标准化变量的偏回归系数,是一个没有单位的纯量,各自变量到依变量的通径系数反映了自变量对依变量直接作用的相对大小和性质。,一、通径系数与决定系数,(一)通径、相关线与通径图设有三个相关变量:y,x1,x2,其中y后果(依变量);x1、x2原因(自变量)。若x1、x2相互独立(r12=0),可图示为,例如,父、母无亲缘关系,若x1、x2彼此相关(r120),可图示为,例如,用代替,改画为,通径箭形图中的单箭头“”,表示变量间呈因果关系,方向由原因到结果。相关线箭形图中的双箭头“”,表示变量间呈平行关系。一条相关线相当于两条尾端相联的通径。通径图表示相关变量间呈因果关系或平行关系的箭形图。,(二)通径系数与决定系数,通过作通径图,形象直观地表达了相关变量间的关系,但这是定性地表达。仅定性表达还不够,还须进一步用数量表示因果关系中原因对结果影响的相对重要程度与性质,平行关系中变量间相关的相对重要程度与性质。换句话说还须用数量表示“通径”与“相关线”的相对重要程度和性质,也就是将“通径”、“相关线”、“通径图”数量化。,表示“通径”相对重要程度和性质的数量叫通径系数。表示“相关线”相对重要程度和性质的数量叫相关系数。生物统计学已给出了计算相关系数的方法,即:若二相关变量x1、x2有n组观测值,则x1与x2的相关系数r12的计算公式为:,下面给出通径系数的确切定义与数学表达式,设y与x1、x2间存在线性关系回归方程或其中表示这三个相关变量间关系的通径图(见图2-1),图21,现将y,x1,x2,e用标准差标准化,变为不带单位的相对数,再研究标准化变量的线性关系。,由(2-1)式得(2-2)(2-1)式-(2-2)式(2-3)(2-3)式0:记,y、x1、x2、e为y、x1、x2、x3、e的标准化得或,、是变量标准化的偏回归系数,分别表示x1、x2对y影响的相对重要程度和性质;表示误差e对y影响的相对重要程度和性质,分别称为x1、x2、e到y的通径系数。,若相关变量y、x1、x2间存在线性关系回归方程式为:或,定义,则变量标准化后的各偏回归系数分别称为原因x1、x2到结果y的通径系数,记为P0.1、P0.2;称为误差项e到结果y的通径系数,记为P0.e,即,通径系数的平方称为决定系数,表示原因(自变量或误差)对结果(依变量)的相对决定程度,记为d0.1,d0.2,d0.e,即,若,即b0=0,b1=b2=1则,定义的推广:若=b0+b1x1+b2x2+b3x3或y=b0+b1x1+b2x2+b3x3+erij0,通径图如(图2-2)所示,图2-2,则,二、通径系数与相关系数的关系,对于,表明,在直线回归分析中,x1到y的通径系数P0.1在数量上等于x1与y的相关系数r10。但二者是有实质区别的,因为通径系数表达的是因果关系,而相关系数表达的是平行关系。在一定条件下,这个结论对于多元线性回归分析也成立。,小结,通径系数是表示相关变量间因果关系的一个统计量;通径系数是标准化变量的偏回归系数,是没有单位的偏回归系数;在一定条件下,通径系数是自变量与依变量之间的相关系数;就通径系数所表示的因果关系来说,具有回归系数的性质;就通径系数是不带有单位的相对数来说,又具有相关系数的性质。所以可以说通径系数是兼有回归系数与相关系数性质的一个统计量。,二、通径系数的性质,定理1若或且r120,通径图如图2-3所示。则(一)(二),,求和,再除以(n-1):,证明(一),证明(一),x1与e无关,Cov(x1,e)=0r10=P0.1+r12P0.2证毕。,直接作用与间接作用分析,对于r10=P0.1+r12P0.2直接通径:x1yP0.1直接作用间接通径:x1x2yr12P0.2间接作用通径链指间接通径(包括直接通径)。,定义通径链系数为组成该通径链的全部通径与相关线系数的乘积。表明:x1与y的相关系数r10等于x1与y间的直接通径系数P0.1与间接通径系数r12P0.2之和,即x1与y的相关系数r10被剖分为x1对y的直接作用与x1通过x2对y的间接作用的代数和。对r20=P0.2+r21P0.1可作同样分析。,将(一)改写为:此为通径系数P0.1、P0.2正规方程组。其矩阵形式为:,证明(二),平方、求和再除以(n-1):,x1、x2与e独立无关;Cov(x1,e)=0,Cov(x2,e)=0,即d0.1+d0.2+d0.e+2P0.1r12P0.2=1证毕。,2P0.1r12P0.2可当成是相关原因x1、x2共同对结果y的相对决定程度,叫做相关原因x1、x2共同对结果y的决定系数,记为d0.12,于是得,(标准化变量的回归平方和),x1、x2对回归可靠程度R2的总贡献,把P0.1r10,P0.2r20分别称为x1、x2对回归可靠程度R2的总贡献。(标准化变量的离回归平方和,以后证明),若或且rij0,通径图如图2-4所示。,推广,则(一),此为通径系数P0.1、P0.2、P0.m的正规方程组。,其矩阵形式为,若记正规方程组的系数矩阵为R、未知元列向量为P、常数项列向量为B,则,定理2,若或且通径图如图2-5。,则(一)(二),推广,若或且通径图如图2-6所示。,则(一)(二),定理3,若通径图见图2-7。,则,(一)(二)(三),证明(一),证明(二),同样可证r40=P0.4,证明(三),定理4(一),若且通径图如图2-8所示。则,定理4(二),若且通径图如图2-9所示。则,定理5,两个结果的相关系数等于连接它们的全部通径链系数之和。,例如且通径图如图2-10所示。,因为y1与y2间有四条通径链所以,例如且通径图如图2-11所示。,因为y1与y2间共有九条通径链所以,一般,若y1与y2有m个公共原因:x1,x2,xm且两两相关,即rij0,则,注意本节从定理3开始不再涉及误差项,这是因为误差项与各自变量独立,考虑误差项与不考虑误差项结论相同。但在进行性状相关的通径分析时,则须考虑误差项。利用定理5可以计算任意两个结果间的相关系数。定理5在遗传育种的理论研究上有着十分重要的应用。,能否正确地找出连接二个变量间的全部通径链是利用通径分析计算变量间相关系数的关键。确定通径链有如下几条原则:,1、通径链的方向只能先退后进,决不能先进后退,右图中,是一条正确的通径链;是一条错误的通径链。,2、通径链可以是连续后退或连续前进,也可以是先连续后退再连续前进,中途仅改变一次方向。,如(图2-12)中是正确的通径链是错误的通径链。,3.由于一条相关线相当于一次方向的改变,所以(1)邻近的通径必须以尾端与相关线相连;(2)一条通径链中最多只能包含一条相关线;(3)不同的通径链可以通过同一条相关线。,如(图2-13)中,y1与y2间的全部正确的通径链为:其中,后两条是不同的通径链,但重复通过了相关线“”。,y1与x4间的全部正确的通径链为:而与为错误的通径链。,y1与x3间的全部正确的通径链为:而为错误的通径链。,4、应避免重复,如(图2-14)中,x2是影响y1与y2的直接原因;x4与x5是通过x2而影响y1与y2的间接原因。由得,如果认为连接y1与y2通径共有5条:一条是经过直接原因的通径链y1x2y2另4条是经过间接原因x4、x5的通径链:,从而,那就错了,因为这犯了重复的错误。在有直接原因与间接原因的情况下,或者利用直接原因而不利用间接原因,或者利用间接原因而不利用直接原因,但决不能二者同时利用。显然利用直接原因简便得多,且不容易出错。我们约定,为了避免重复,仅利用直接原因,而不利用间接原因。,【例2-1】计算一代双堂兄弟间的亲缘系数。,因为在随机交配下,一个个体代的通径系数等于1/2,且9、10间的全部连接通径链:,所以,结束放映,第四节通径分析的数学模型、参数估计与统计检验,一、数学模型与参数估计二、显著性检验,一、数学模型与参数估计,通径分析实际上就是标准化变量的多元线性回归分析。对于多元线性回归一般模型ya=0+1xa1+2xa2+mxam+a,a=1,2,n,进行标准化变换,即令其中得,通径分析的数学模型可改写为:,结束放映,二、显著性检验,回归方程显著性检验(线性关系显著性检验)通径系数显著性检验通径系数差异显著性检验两次通径分析相应通径系数差异显著性检验,回归方程显著性检验(线性关系显著性检验),平方和与自由度的计算公式为:,事实上相关指数,=,进行回归方程显著性检验的无效假设与备择假设如下:不全为0由统计量检验y与x1,x2,xm之间是否存在线性关系。,结束放映,结束放映,通径系数显著性检验,通径系数显著性检验的无效假设与备择假设为:Ho:j=0,HA:j0,j=1,2,m。F检验,t检验通径系数标准误检验通径系数是否显著。,结束放映,其无效假设、备择假设为:Ho:i-j=0HA:i-j0F检验,t检验通径系数差异标准误检验通径系数差异是否显著。,设第一次通径分析有n1组观测值、涉及m1个自变量,其回归方程、离回归平方和及高斯乘数如下:设第二次通径分析有n2组观测值、涉及m2个自变量,其回归方程、离回归平方和及高斯乘数如下:,结束放映,两次通径分析相应通径系数差异显著性检验,注意:将较大的均方放在分子。,1、先进行两次通径分析误差方差齐性检验(两尾F测验),结束放映,2、两次通径分析相应通径系数差异显著性检验,两次通径分析相应通径系数差异显著性检验的无效假设、备择假设为:F检验,t检验两次通径分析相应通径系数差异标准误。检验两次通径分析相应通径系数差异显著性。,结束放映,第四节应用举例,【例2-4】,为了研究玉米每穗粒重y(依变量)与其构成因子:行粒数x1、百粒重x2和穗行数x3(x1,x2和x3为自变量)之间的关系,通过田间试验,获得30组观测数据,通径分析如下。,结束放映,1、计算各相关变量间的相关系数,计算各相关变量间的相关系数,计算结果见表2-8。,结束放映,2、计算各通径系数P0.1,P0.2,P0.3,关于P0.1,P0.2,P0.3的正规方程组为:,结束放映,通径系数为:P0.3=B3y=0.3836P0.2=B2y-B23P0.3=0.6991P0.1=B1y-B12P0.2-B13P0.3=0.7227,高斯乘数为:C33=1/A33=1.3951C23=C32=-B23C33=0.5717C13=C31=-B12C23-B13C33=0.3925C22=1/A22-B23C32=1.2594C12=C21=-B12C22-B13C32=0.0003C11=1/A11-B12C21-B13C31=1.1356,结束放映,3、显著性检验,(1)线性关系显著性检验-F检验因为而,所以因为F=63.8696F0.01(3,26)=4.64,即P0.01,表明穗粒重y与行粒数x1、百粒重x2和穗行数x3间存在极显著的线性关系,可对y与x1、x2、x3进行通径分析。,结束放映,(2)通径系数显著性检验,采用t检验法:因为,所以因为t1=10.0375,t2=9.2230,t3=4.807均大于t0.01(26)=2.779,所以通径系数P0.1=0.7227,P0.2=0.6691,P0.3=0.3836均极显著(P0.01),即行粒数,百粒重,穗行数对穗粒数重均有极显著的直接作用。,结束放映,(3)通径系数差异显著性检验,采用t检验法检验三个通径系数两两间差异是否显著。因为,由于t12=0.22581;t13,t23均大于t0.01(26)=2.779,表明P0.1,P0.2间差异不显著,而P0.1、P0.3间,P0.2、P0.3间差异极显著(P0.01),这里表现为P0.1、P0.2极显著地高于P0.3。,所以,结束放映,结束放映,4、通径图,通径图如图2-16所示。,5、原因对结果的直接作用与间接作用分析,原因对结果的直接作用与间接作用分析,见表2-10、表2-11、表2-12和表2-13。,结束放映,结束放映,6、进行决定程度分析,将各决定系数按其绝对值大小排列如下:d0.1=0.5223,d0.2=0.4887,d0.23=-0.2434,d0.13=-0.1916,d0.12=0.1582,d0.3=0.1471,d0.e=0.1186,结束放映,7、进行各自变量对回归方程估测可靠程度R2总贡献分析,计算各P0.iri0:P0.1r10=0.69960.7227=0.5056P0.2r20=0.63820.6991=0.4462P0.3r30=-0.18340.3836=-0.0704,结束放映,根据以上计算分析,得出如下结论,(1)穗粒重y与行粒数x1、百粒重x2、穗行数x3间的线性关系极显著,相关指数R2=0.8814,若用y与x1、x2、x3间的线性回归方程来估测y,其可靠程度达88.14%,说明行粒数,百粒重,穗行数确实是穗粒重的主要构成因子。,(2)行粒数x1、百粒重x2、穗行数x3对穗粒重y的直接作用分别为:P0.1=0.7227,P0.2=0.6991,P0.3=0.3836,均达到1%显著水平;P0.1与P0.2均极显著地高于P0.3;P0.1,P0.2间差异不显著。表明,三个性状对穗粒重都有极显著的直接作用,而行粒数、百粒重对穗粒重的影响极显著高于穗行数对穗粒重的影响;但行粒数、百粒重对穗粒重的影响差异不显著。这意味着:从直接作用来看,行粒数、百粒重是影响穗粒重的第一位重要因子,穗行数是影响穗粒重的第二位重要因子。,结束放映,(3)从表2-10看到,x1对y的直接作用数值较大,P0.1=0.7227,x1通过x2、x3对y的间接作用之和为:0.1095+(-0.1326)=-0.0231,虽然为负,但绝对值较小。从表2-11不难看到x2也具有类似特性。表明x1,x2对y的作用主要为直接作用。此外,x1、x2对y的决定系数为d0.1=0.5223,d0.2=0.4887,其绝对值居各决定系数之第一、二位,且x1,x2对回归估测可靠程度R2的总贡献分别高达0.5056,0.4462,这进一步说明

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论