生物统计学课件7、回归与相关分析.ppt_第1页
生物统计学课件7、回归与相关分析.ppt_第2页
生物统计学课件7、回归与相关分析.ppt_第3页
生物统计学课件7、回归与相关分析.ppt_第4页
生物统计学课件7、回归与相关分析.ppt_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章 回归与相关分析,(针对两个变量的相互关系进行分析) 第一节 直线回归 第二节 直线相关 第三节 多项式回归 第四节 协方差分析*,第七章要点提示,本章对两个变量的相互关系进行分析,是多元统计分析的基石。学习时首先要求区分“回归”术语古今含义的不同之处,充分认识一元线性回归与相关分析的基础地位; 熟悉回归关系与相关关系的本质区别及两者在统计表述方法上的联系(如r与b在数学意义上的统一性)和各自的侧重点; 重点掌握直线回归与相关分析的显著性检验方法和双变量回归模型的协方差分析技术,以便将统计控制手段与试验控制手段一起综合运用到试验设计和统计分析中去。 涉及教材内容:第八章,第九章第四节,第十章。 作业布置:教材第九章一、二、三节内容自习;教材P1175 T4、 T5、 T6 ; P210 T4 、T5 。,第一节 直线回归,一、回归的含义 “回归”原文为regression,该术语最先由英国的F.Galton于1886年左右研究人类身高遗传的规律时所作的“高尔顿解释”中使用,详情如右图所示: 高尔顿对此所作的解释是:大自然有 一种约束机制,使人类身高分布保持某种稳定形态而不作两极分化,也就是有回归于中心的作用,这个中心值即该种族身高在一定历史时期的平均值。 现在就“回归”所作的定义是: 如果两个变量X和Y,总是Y随着X的变化而变化,且这种变化关系不可逆,则称X和Y为回归关系。其中: X叫自变量dependent variable;Y叫因变量或依变量independent variable。,高:xg 71 72 g (69) 64 a 矮:xa 67 调查n 1074个家庭,统计结果: X 68英寸 69英寸 得: X 1 (1英寸2.54cm) 但分组统计的结果却并非如此 父母为高个子组时,g 721 父母为矮个子组时, a 641 走向指回归的本意 走向指回归的今义,第一节 直线回归,二、建立直线回归方程 例7.1 在四川白鹅的生产性能研究中,得到如下一组n = 12(只)关于雏鹅重(g)与70日龄重(10g)的关系的数据,其结果如下表,试予分析。 解 描散点图 本例已知雏鹅70日龄重随雏鹅重的变化而变化,且不可逆;又据散点图反映的趋势来看,在80120g的重量范围, 70日龄重随雏鹅重呈上升的线性变化关系。 故可假定直线回归方程为: y a bx 读作“Y依直线回归”,70 90 110 130,y a bx,340 300 260 220,第一节 直线回归,数据整理 由原始数据算出一级数据6个: X1182 Y32650 XY3252610 X 2118112 Y 2896696700 n12 再由一级数据算出二级数据5个: SSX X 2 (X) 2 /n1685.00 SSY Y 2 (Y ) 2 /n 831491.67 SP XY X Y /n 36585.00 XX/n 98.5 Y/n 2720.8333 计算三级数据 b SP/ SSX 21.7122 365851685 a bX582.1816 2720.8333 21.712298.5 得所求直线回归方程为: y 582.1816 + 21.7122 x,80 100 120,y a bx,320 280 240 200,80,120,第一节 直线回归,三、直线回归关系的显著性检验 将a bx 代入Y a bx 得: y b(xx )及 y b(xx ) 于是由因变量离均差的两个线性分量: (Y )2(Yy )( y ) 2 可推导出因变量总SS的如下分解公式: (Y )2(Yy ) 2 ( y ) 2 简写成:SSY SSR SSr 分别叫“离回归平方和”与“回归平方和” 其计算公式及本例分解结果: SSRSP2/ SSX365852 / 1685 794339.6 SSrSSY SSR 37152.07 83149167 794339.6 故 F MSR / MSr 213.81* (F0.01, 1, 1010.04) (794339.6 1)/(37152.0710) 表明双变量直线回归关系极显著,所得方程 y 582.1816 + 21.7122 x可用于预测。,也可对回归系数进行t-test来证实。 只是要利用分子df1时,Ft2的关系 推导出回归系数的标准误SbSe/SSX 其中,Se2SSr/dfr3715.21 37152.0710 于是t-test的步骤如下: H0: = 0(为回归系数b的真值) Sb Se2/ SSX 1.4849 3715.211685 t (b)Sb 21.71221.484914.62 (3) 按自由度dfr 10 查得两尾 t0.01 = 3.169 (4) 推断: t t0.01 H0 不成立。 可见t-test与F-test的效果完全一致。 若显著性检验结果不显著,则三选一: Y与X没有回归关系; Y与X有回归关系,但不是直线回归; Y与X有回归关系,但不是简单回归, 而是多元回归。,第二节 直线相关,一、相关的含义 如果两个变量X和Y,总是X和Y 相互制约、平行变化,则称X和Y为相关关系。 此时,X和Y没有严格意义上的自变量和因变量之分,既可以说Y随着X的变化而变化, 也可以讲X随着Y 的变化而变化。即不存在谁决定谁或谁依赖谁的问题。 如人或动物的胸围和体重,作物的生物产量和经济产量,树干的胸径与材积等。 可见,相关关系以双向、平行为特征。 但相关关系如果仅从数学角度看,和回归关系是统一的,因为其双变量变化规律如果是线性关系的话,也可以由根据“最小二乘法”原理得出的直线方程来表述,所以有些文献不区分回归关系和相关关系,将二者笼统地称之“回归”或者“相关”。 从统计上讲,相关分析的侧重点和回归分析不完全一样。,二、相关系数 前已述及,具有线性回归关系的双变量中,Y变量的总变异量分解为: SSY SSr SSR 对于具有线性相关关系的双变量, Y变量的总平方和也可以分解成同样的两个分量,只是分别改称为“非相关平方和”与“相关平方和”于是有: r SSR / SSY SP/ SSX SSY “ r ”叫相关系数,其绝对值越大, SSR所占的比重就越大,在散点图上就表现为各散点越靠近直线;反之, 即SSr所占的比重越大,各散点越远离直线。并且有以下性质: r 的正负和b一样取决于SP的正负; r0,正相关;r0,负相关 r1,1或r(1,1); 决定系数 r 2bb 或 r bb,第二节 直线相关,三、相关分析举例 例7.2 为研究绵羊胸围(cm)和体重(kg)的相互关系,调查了10只绵羊胸围和体重的对应观察值X和Y, 所得结果如下表,试予分析。 解 描散点图 本例已知绵羊胸围(X)和体重(Y)为相关关系,散点图也显示两者的变化规律呈线性正相关,SP0。 故可假定直线相关方程为: y a bx 或 x a b y 后一个方程也可写成:y a b x,y a bx,80 74 68 62 56 50,第二节 直线相关,数据整理 由原始数据算出一级数据6个: X720 Y680 XY49123 X 251904 Y 246818 n10 再由一级数据算出二级数据5个: SSX X 2 (X) 2 /n64 SSY Y 2 (Y ) 2 /n 578 SP XY X Y /n 163 XX/n 72 Y/n 68 计算三级数据 b SP/ SSX 16364 2.547 a 72 2.54768 115.4 b SP/ SSY 163578 0.282 a 68 0.282 72 52.82 即所求相关方程可以有两个(如右图) r SP/ SSX SSY 0.8475 r 2bb2. 547 0.2820.7192,y 52.82 0.282 x,76 72 68,40 50 60 70 80,80 70 60 50,y 2.547x115.4,第二节 直线相关,、直线相关关系的显著性检验 和直线回归关系的显著性检验原理一样,直线相关关系的双变量也可导出Y变量总SS的如下分解公式: (Y )2(Yy ) 2 ( y ) 2 简写成:SSY SSR SSr 分别叫“非相关平方和”与“相关平方和” 其计算公式引用三级数据后简化为: SSY (1 r 2 )SSY r 2 SSY 或者 SSX (1 r 2 )SSX r 2 SSX SSR r 2 SSY0.7182 578 415 SSr (1 r 2 ) SSY 0.2818 578 163 故 F MSR / MSr 20.4* (F0.01, 1, 811.26) (n 2 ) r 2 / (1 r 2 ) 表明双变量直线相关关系极其显著, 所得两个直线相关方程都可用于预测。,也可对回归系数进行t-test来证实。 只是要利用df(分子)1时,Ft2的关系 推导出相关系数的标准误: Sr (1 r 2 ) / (n 2 ) 并且 Se2SSr/dfr 1638 20.4 于是t-test的步骤如下: H0: = 0(为相关系数 r 的真值) Sr 0.28188 0.1877 t(r )Sr0.84750.18774.516 (3) 按自由度dfr 8 查得两尾 t0.01 = 3.355 (4) 推断: t t0.01 H0 不成立。 可见t-test与F-test的效果完全一致。 若显著性检验结果不显著,则三选一: Y与X没有相关关系; Y与X有相关关系,但不是直线相关; Y与X有相关关系,但不是简单相关, 而是复相关。,第二节 直线相关,四、回归与相关关系的统一性 既然相关关系和回归关系的显著性检验原理一样,那么,不论回归还是相关关系,其检验都可用“相关系数” r 进一步简化如下:即由 t2 F (n 2 ) r 2 / (1 r 2 ) 解得: r t2 / ( n 2 t2 ) 于是利用这一关系将各个自由度下的 t 临界值t0.05和 t0.01换算出相关系数r的临界值r0.05和 r0.01,从而得到直接用于检验回归或者是相关关系显著性的临界值表(附表8)。 如从教材P309查得M2,dfr8时 r0.05 0.632, r0.01 0.765 今得 r 0.8475* r0.01 再由例7.1从P309查得M2,dfr10时 r0.05 0.576, r0.01 0.708 算得 “ r ” 0.9774* r0.01 检验效果与F-test或者是t-test完全一样。,例7.2关于体重(Y)的ANOVA表: SOV DF SSY MS F F 0.01 相关 1 415 415 20.4* 11.26 非相关 8 163 20.4 总 9 578 也可针对胸围(X)做ANOVA表: SOV DF SSX MS F F 0.01 相关 1 46 46 20.4* 11.26 非相关 8 18 2.25 总 9 64 例7.1只针对70日龄重(Y)做ANOVA表: SOV DF SSY MS F 回归 1 794339.6 794339.6 213.81* 离回归 10 37152.07 3725.21 总 11 831491.67,第三节 多项式回归,例7.3 给动物口服某种药物1000mg,每间隔1小时(时长X)测定血液浓度Y(g/ml),每5头供试动物的平均血液浓度整理结果如下,试就其数量变化特点建立多项式回归方程并予以分析。 解 先描散点图; 初步判断为二次多项式 通常称之为抛物线; 这种变化关系在农业和 动物科学领域普遍存在; 完成这类实例分析的方 法是将曲线单回归的问题通 过变量代换转化为二元线性 回归的问题来解决,这也是 完成更高次多项式回归分析 的基本点。,y2ab1xb2x2的图象,一、确定多项式方程次数的方法,b2 0,b2 0,当两个变数间的曲线关系很难确定时,可以使用多项式去逼近,称为多项式回归(polynomial regression )。 最简单的多项式是二次多项式,其方程为:y2 ab1xb2x2 它的图象是抛物线。当b20时,曲线凹向上,有一个极小值;b2 0时,曲线凸向上,有一个极大值,见右图。 本例(x, y)的散点图呈单锋趋势,没有明显的其它凹凸变化,故预期可用二次式配合。 但多项式回归方程通常只能用于描述试验范围内Y依X的变化关系,外推一般不可靠,这一点首先必须明确。,三次多项式的方程为:y3ab1xb2xb3x3 它的图形是具有两个弯曲(一个极大值和 一个极小值)和一个拐点的曲线。当b30时, 这类曲线由凸向上转为凹向上;当b3 0时, 这类曲线由凹向上转为凸向上,见右图。 多项式方程的一般形式: yab1xb2x2 bkxk 这是k-1个具有个弯曲(k-1个极值)和k-2 个拐点的曲线;两个变数的n对观察值最多可 配到 k n 1 次多项式;k越大,包含的 统计数越多,计算和解释越复杂;一个多项式 回归方程应取多少次为宜,可根据资料的散点 图作出初步选择;散点图趋势所表现的曲线的 峰数谷数1,即为多项式回归方程次数。 散点波动较大或峰谷两侧不对称,可再高一次。,一、确定多项式方程次数的方法,b30,b30,y3 = a+b1x+b2x2+b3x3 的图象,二、建立多项式回归方程,变量代换(代换得到的变量个数以m表示) 设例7.3的二次多项式方程为:y2 ab1xb2x2 令x1 x ,x2x 2 ; 则方程线性化为: y2 ab1x1b2x2 数据整理 由原始数据算出一级数据9个: X1 X 45 Y419.65 X1Y XY 1930.45 X2 X 2285 Y 224426.5833 X1 X2 X3 2025 n9 X2 2 X 4 15333 X2Y X2Y10452.11 再由一级数据算出二级数据9个: SS1 X 2 (X) 2 /n60 SS2 X2 2 (X2) 2 /n6308 SP10 X1Y X1 Y /n 167.8 SP20 X2Y X2 Y /n 2836.8067 SP12 SP21 X1 X2 X1 X2 /n 600 SSY 4859.2364 Y/n 46.6278 x1 X1 /n 5 x2 X2 /n 31.6667 仍按“最小二乘方”原理计算三级数据bi 例7.1已知 a bx,则二次多项式可类推,即:a b1x1 b2x2 也就是列方程组求算各回归系数时,不必把常数项列为未知数求解,这样 一来,就可用阶数更少的矩阵运算来减少解方程的工作量。,二、建立多项式回归方程,1、 只将bi 列为未知数求解的方法; 对于任意次多项式, yab1xb2x2 bkxk 若令x1x,x2x2,,xkxk, 则该式可化为: ykab1x1b2x2 bkxk 这时多元线性方程采用矩阵方法只需求 m = k 元方程组的解。 SS11 SP12 SP1k b1 SP10 SP21 SS22 SP1k b2 SP20 A . . . , b . Z . SPm1 SPm2 SSmk bk SPm0 也就是说,以二级数据为元素构建的矩阵 AbZ 阶数只有 mm 。 求得A-1,并由bA-1 Z 可获得相应的多项式回归方程中 k 个回归 系数bi的解,本例 m = k = 2,求解过程如下: A SS11 SP12 60.0000 600.0000 ,Z SP10 -167.8000 SP21 SS22 600.0000 6308.0000 SP20 -2836.8067,二、建立多项式回归方程,1、 只将bi 列为未知数求解的方法; 采用矩阵方法求解的关键在于求逆矩阵,这属于线性代数范围的知识, 教材分别在P203和P204提示了逆矩阵求算方法,本例用二级数据构建两个矩 阵后简化了计算,只需对二阶矩阵求逆(Cij叫高斯乘数),结果如下: A -1 SS11 SP12 -1 0.341349 -0.032468 C11 C12 SP21 SS22 -0.032468 0.003247 C21 C22 bA-1 Z 0.341349 -0.032468 -167.8000 34.8271 -0.032468 0.003247 -2836.8067 -3.7630 于是获得多项式回归方程中两个回归系数:b134.8271,b2-3.763 a b1x1 b2x2 -8.3459 46.627834.82715(3.763)31.6667 IA-1 A 1.000140 0.000120 1 0 (单位矩阵) 0.001376 1.002652 0 1,二、建立多项式回归方程,2、 把常数项 a 列为未知数求解的方法; 对于任意次多项式, yab1xb2x2 bkxk 若令x1x,x2x2,,xkxk, 则该式可化为: ykab1x1b2x2 bkxk 一般的多元线性方程,采用矩阵方法需求 m+1 元方程组的解。 1 x12 x22 xk2 1 x12 x122 x12k y1 1 x11 x21 xk1 1 x11 x112 x11k y2 X . . . . . . . . , Y . 1 x1n x2n xkn 1 x1n x1n2 x1n yn 求得XX, XY和(XX)-1,并由b(XX)-1 (XY) 获得相应的 多项式回归方程中k个回归系数 bi 和一个常数项 a 的解。 教材从直线回归的内容开始就介绍了利用矩阵计算三级数据 a 和 b 并 进行显著性检验的方法,以此作为用矩阵进行多元回归与相关分析的铺垫。 这在当今电脑普及的时代意义非同小可,因为用矩阵进行回归与相关分析可 一石三鸟:更容易理解计算机解方程的程序;其中的m+1阶(或 m=k 阶) 逆矩阵可验证所得方程组的解是否正确包括其精度是否足够;该逆矩阵的 对角线上的元素用于检验回归与相关关系的显著性非常方便。,图71 服药时间与血液浓度的关系,至此即获得了二元线性回归方程: Y -8.345934.8271x13.763x2 y = -8.3459 34.8271x3.763x2,二、建立多项式回归方程,多项式回归分析中,Y 变量的总平方和SSY 亦可分解为回归和离回归 两部分,即:SSY SSR SSr 上式中, SSR为 k 次多项式的总回归效应平方和,即 Y 变量总变异 中能被 X 的 k 次多项式所说明的部分,计算过程用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论