《回归与相关分析》PPT课件.ppt_第1页
《回归与相关分析》PPT课件.ppt_第2页
《回归与相关分析》PPT课件.ppt_第3页
《回归与相关分析》PPT课件.ppt_第4页
《回归与相关分析》PPT课件.ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章回归与相关分析,(针对两个变量的相互关系进行分析)第一节直线回归第二节直线相关第三节多项式回归第四节协方差分析*,第七章要点提示,本章对两个变量的相互关系进行分析,是多元统计分析的基石。学习时首先要求区分“回归”术语古今含义的不同之处,充分认识一元线性回归与相关分析的基础地位;熟悉回归关系与相关关系的本质区别及两者在统计表述方法上的联系(如r与b在数学意义上的统一性)和各自的侧重点;重点掌握直线回归与相关分析的显著性检验方法和双变量回归模型的协方差分析技术,以便将统计控制手段与试验控制手段一起综合运用到试验设计和统计分析中去。涉及教材内容:第九章全五节,第十章、第十一章各一节。作业布置:教材第十、十一章所余三节内容自习;教材P191T5、T6、T9;P224T7。,第一节直线回归,一、回归的含义“回归”原文为regression,该术语最先由英国的F.Galton于1886年左右研究人类身高遗传的规律时所作的“高尔顿解释”中使用,详情如右图所示:高尔顿对此所作的解释是:大自然有一种约束机制,使人类身高分布保持某种稳定形态而不作两极分化,也就是有回归于中心的作用,这个中心值即该种族身高在一定历史时期的平均值。现在就“回归”所作的定义是:如果两个变量X和Y,总是Y随着X的变化而变化,且这种变化关系不可逆,则称X和Y为回归关系。其中:X叫自变量dependentvariable;Y叫因变量或依变量independentvariable。,高:xg7172g(69)64a矮:xa67调查n1074个家庭,统计结果:X68英寸69英寸得:X1(1英寸2.54cm)但分组统计的结果却并非如此父母为高个子组时,g721父母为矮个子组时,a641走向指回归的本意走向指回归的今义,第一节直线回归,二、建立直线回归方程例7.1一些夏季害虫的盛发期迟早与春季温度高低有关。江苏武进县观察1956-1964年3月下旬至4月中旬的3段旬均温累积值X和一代三化螟盛发期Y(5月10日起算)所得结果如下,试予分析。解描散点图本例已知害虫盛发期迟早随春季气温的变化而变化,且不可逆,又据散点图反映的趋势来看,在3045的温度范围,盛发期天数随值呈下降的线性变化关系。故可假定直线回归方程为:yabx读作“Y依x直线回归”,30354045,yabx,第一节直线回归,数据整理由原始数据算出一级数据6个:X333.7Y70XY2436.4X212517.49Y2794n9再由一级数据算出二级数据5个:SSXX2(X)2/n144.64SSYY2(Y)2/n249.56SPXYXY/n159.04XX/n37.08Y/n7.78计算三级数据bSP/SSX1.10(159.04)144.64abX48.557.78(1.10)37.08得所求直线回归方程为:y48.551.10 x,y48.551.10 x,30354045,31.7,44.2,第一节直线回归,三、直线回归关系的显著性检验将abx代入Yabx得:yb(xx)及yb(xx)于是由因变量离均差的两个线性分量:(Y)2(Yy)(y)2可推导出因变量总SS的如下分解公式:(Y)2(Yy)2(y)2简写成:SSYSSQSSUQU分别叫“离回归平方和”与“回归平方和”其计算公式及本例分解结果:SSUSP2/SSX159.042/144.64174.89SSQSSYSSU249.56174.8974.67故FMSU/MSQ16.4*(F0.01,1,712.25)(174.891)/(74.677)表明双变量直线回归关系极显著,所得方程y48.551.10 x可用于预测。,也可对回归系数进行t-test来证实。只是要利用df(分子)1时,Ft2的关系推导出回归系数的标准误SbSe/SSX其中,Se2SSQ/dfQ74.67710.67于是t-test的步骤如下:H0:=0(为回归系数b的真值)SbSe2/SSX0.271510.67144.64t(b)Sb(-1.1)0.2715-4.05(3)按自由度7查得两尾t0.01=3.50(4)推断:tt0.01H0不成立。可见t-test与F-test的效果完全一致。若显著性检验结果不显著,则三选一:Y与X没有回归关系;Y与X有回归关系,但不是直线回归;Y与X有回归关系,但不是简单回归,而是多元回归。,第二节直线相关,一、相关的含义如果两个变量X和Y,总是X和Y相互制约、平行变化,则称X和Y为相关关系。此时,X和Y没有严格意义上的自变量和因变量之分,既可以说Y随着X的变化而变化,也可以讲X随着Y的变化而变化。即不存在谁决定谁或谁依赖谁的问题。如人或动物的胸围和体重,作物的生物产量和经济产量,树干的胸径与材积等。可见,相关关系以双向、平行为特征。但相关关系如果仅从数学角度看,和回归关系是统一的,因为其双变量变化规律如果是线性关系的话,也可以由根据“最小二乘法”原理得出的直线方程来表述,所以有些文献不区分回归关系和相关关系,将二者笼统地称之“回归”或者“相关”。从统计上讲,相关分析的侧重点和回归分析不完全一样。,二、相关系数前已述及,具有线性回归关系的双变量中,Y变量的总变异量分解为:SSYSSQSSUQU对于具有线性相关关系的双变量,Y变量的总平方和也可以分解成同样的两个分量,只是分别改称为“非相关平方和”与“相关平方和”于是有:rSSU/SSYSP/SSXSSY“r”叫相关系数,其绝对值越大,SSU所占的比重就越大,在散点图上就表现为各散点越靠近直线;反之,即SSQ所占的比重越大,各散点越远离直线。并且有以下性质:r的正负和b一样取决于SP的正负;r0,正相关;r0,负相关r1,1或r(1,1);决定系数r2bb或rbb,第二节直线相关,三、相关分析举例例7.2为研究绵羊胸围(cm)和体重(kg)的相互关系,调查了10只绵羊胸围和体重的对应观察值X和Y,所得结果如下表,试予分析。解描散点图本例已知绵羊胸围(X)和体重(Y)为相关关系,散点图也显示两者的变化规律呈线性正相关,SP0。故可假定直线相关方程为:yabx或xaby后一个方程也可写成:yabx,yabx,807468625650,第二节直线相关,数据整理由原始数据算出一级数据6个:X720Y680XY49123X251904Y246818n10再由一级数据算出二级数据5个:SSXX2(X)2/n64SSYY2(Y)2/n578SPXYXY/n163XX/n72Y/n68计算三级数据bSP/SSX163642.547a722.54768115.4bSP/SSY1635780.282a680.2827252.82即所求相关方程可以有两个(如右图)rSP/SSXSSY0.8475r2bb2.5470.2820.7192,y52.820.282x,767268,4050607080,80706050,y2.547x115.4,第二节直线相关,、直线相关关系的显著性检验和直线回归关系的显著性检验原理一样,直线相关关系的双变量也可导出Y变量总SS的如下分解公式:(Y)2(Yy)2(y)2简写成:SSYSSQSSUQU分别叫“非相关平方和”与“相关平方和”其计算公式引用三级数据后简化为:SSY(1r2)SSYr2SSY或者SSX(1r2)SSXr2SSXSSUr2SSY0.7182578415SSQ(1r2)SSY0.2818578163故FMSU/MSQ20.4*(F0.01,1,811.26)(n2)r2/(1r2)表明双变量直线相关关系极其显著,所得两个直线相关方程都可用于预测。,也可对回归系数进行t-test来证实。只是要利用df(分子)1时,Ft2的关系推导出相关系数的标准误:Sr(1r2)/(n2)并且Se2SSQ/dfQ163820.4于是t-test的步骤如下:H0:=0(为相关系数r的真值)Sr0.281880.1877t(r)Sr0.84750.18774.516(3)按自由度8查得两尾t0.01=3.355(4)推断:tt0.01H0不成立。可见t-test与F-test的效果完全一致。若显著性检验结果不显著,则三选一:Y与X没有相关关系;Y与X有相关关系,但不是直线相关;Y与X有相关关系,但不是简单相关,而是复相关。,第二节直线相关,四、回归与相关关系的统一性既然相关关系和回归关系的显著性检验原理一样,那么,不论回归还是相关关系,其检验都可用“相关系数”r进一步简化如下:即由t2F(n2)r2/(1r2)解得:rt2/(n2t2)于是利用这一关系将各个自由度下的t临界值t0.05和t0.01换算出相关系数r的临界值r0.05和r0.01,从而得到直接用于检验回归或者是相关关系显著性的临界值表(附表10)。如从教材P376查得M2,dfQ8时r0.050.632,r0.010.765今得r0.8475*r0.01再由例7.1从P376查得M2,dfQ7时r0.050.666,r0.010.798算得“r”0.8371*r0.01检验效果与F-test或者是t-test完全一样。,例7.2关于体重(Y)的ANOVA表:SOVDFSSYMSFF0.01相关141541520.4*11.26非相关816320.4总9578也可针对胸围(X)做ANOVA表:SOVDFSSXMSFF0.01相关1464620.4*11.26非相关8182.25总964例7.1只对盛发期(Y)做ANOVA表:SOVDFSSYMSFF0.01回归117517516.4*12.25离回归77510.7总8250,第三节多项式回归,例7.3观测n7块小麦田孕穗期的叶面积指数(x)和每667m2的籽粒产量(y)的关系,得结果如下,试就其数量变化特点建立多项式回归方程并予以分析。解先描散点图;初步判断为二次多项式通常称之为抛物线;这种变化关系在农业和生物学领域普遍存在;完成这类实例分析的方法是将曲线单回归的问题通过变量代换转化为二元线性回归的问题来解决,这也是完成更高次多项式回归分析的基本点。,y2ab1xb2x2的图象,一、确定多项式方程次数的方法,b20,b20,当两个变数间的曲线关系很难确定时,可以使用多项式去逼近,称为多项式回归(polynomialregression)。最简单的多项式是二次多项式,其方程为:y2ab1xb2x2它的图象是抛物线。当b20时,曲线凹向上,有一个极小值;b20时,曲线凸向上,有一个极大值,见右图。本例(x,y)的散点图呈单锋趋势,没有明显的其它凹凸变化,故预期可用二次式配合。但多项式回归方程通常只能用于描述试验范围内Y依X的变化关系,外推一般不可靠,这一点首先必须明确。,三次多项式的方程为:y3ab1xb2xb3x3它的图形是具有两个弯曲(一个极大值和一个极小值)和一个拐点的曲线。当b30时,这类曲线由凸向上转为凹向上;当b30时,这类曲线由凹向上转为凸向上,见右图。多项式方程的一般形式:yab1xb2x2.bkxk这是k-1个具有个弯曲(k-1个极值)和k-2个拐点的曲线;两个变数的n对观察值最多可配到kn1次多项式;k越大,包含的统计数越多,计算和解释越复杂;一个多项式回归方程应取多少次为宜,可根据资料的散点图作出初步选择;散点图趋势所表现的曲线的峰数谷数1,即为多项式回归方程次数。散点波动较大或峰谷两侧不对称,可再高一次。,一、确定多项式方程次数的方法,b30,b30,y3=a+b1x+b2x2+b3x3的图象,二、建立多项式回归方程,变量代换(代换得到的变量个数以m表示)设例7.3的二次多项式方程为:y2ab1xb2x2令x1x,x2x2;则方程线性化为:y2ab1x1b2x2数据整理由原始数据算出一级数据9个:X1X39.34Y2688X1YXY15229.56X2X2236.8408Y21034112.00X1X2X31508.0760n7X22X410029.7617X2YX2Y92170.76再由一级数据算出二级数据9个:SS1X2(X)2/n15.75SS2X22(X2)2/n2016.39556SP10X1YX1Y/n123SP20X2YX2Y/n1223.8928SP12SP21X1X2X1X2/n177.030704SSY1920Y/n384x1X1/n5.62x2X2/n33.8344仍按“最小二乘方”原理计算三级数据bi例7.1已知abx,则二次多项式可类推,即:ab1x1b2x2也就是列方程组求算各回归系数时,不必把常数项列为未知数求解,这样一来,就可用阶数更少的矩阵运算来减少解方程的工作量。,二、建立多项式回归方程,1、只将bi列为未知数求解的方法;对于任意次多项式,yab1xb2x2.bkxk若令x1x,x2x2,,xkxk,则该式可化为:ykab1x1b2x2.bkxk这时多元线性方程采用矩阵方法只需求m=k元方程组的解。SS11SP12SP1kb1SP10SP21SS22SP1kb2SP20A.,b.Z.SPm1SPm2SSmkbkSPm0也就是说,以二级数据为元素构建的矩阵AbZ阶数只有mm。求得A-1,并由bA-1Z可获得相应的多项式回归方程中k个回归系数bi的解,本例m=k=2,求解过程如下:ASS11SP1215.750000177.030704,ZSP10123.0000SP21SS22177.0307042016.395336SP201223.8926,二、建立多项式回归方程,1、只将bi列为未知数求解的方法;采用矩阵方法求解的关键在于求逆矩阵,这属于线性代数范围的知识,教材分别在P171和P195提示了逆矩阵求算方法,本例用二级数据构建两个矩阵后简化了计算,只需对二阶矩阵求逆(Cij叫高斯乘数),结果如下:A-1SS11SP12-14.819803-0.42315765C11C12SP21SS22-0.423157650.03764733C21C22bA-1Z4.819803-0.42315765123.000074.936168-0.423157650.037647331223.8926-5.972095于是获得本例多项式回归方程中两个回归系数:b174.9,b2-5.97ab1x1b2x238474.95.62(5.97)33.8344165.05IA-1A1.0000005680.00000034610(单位矩阵)0.0000063801.00000394201,二、建立多项式回归方程,2、把常数项a列为未知数求解的方法;对于任意次多项式,yab1xb2x2.bkxk若令x1x,x2x2,,xkxk,则该式可化为:ykab1x1b2x2.bkxk一般的多元线性方程,采用矩阵方法需求m+1元方程组的解。1x12x22xk21x12x122x12ky11x11x21xk11x11x112x11ky2X.,Y.1x1nx2nxkn1x1nx1n2x1nyn求得XX,XY和(XX)-1,并由b(XX)-1(XY)获得相应的多项式回归方程中k个回归系数bi和一个常数项a的解。教材从直线回归的内容开始就介绍了利用矩阵计算三级数据a和b并进行显著性检验的方法,以此作为用矩阵进行多元回归与相关分析的铺垫。这在当今电脑普及的时代意义非同小可,因为用矩阵进行回归与相关分析可一石三鸟:更容易理解计算机解方程的程序;其中的m+1阶(或m=k阶)逆矩阵可验证所得方程组的解是否正确包括其精度是否足够;该逆矩阵的对角线上的元素用于检验回归与相关关系的显著性非常方便。,13.3711.356934914.1216.9744374XY17.8761.9369384739.34236.8408XX39.34236.84081508.0760236.84081508.076010029.76172688XY15229.5692170.76E:matlabR12binwin32matlab.exe165.03532698b74.892698415.96825397,图11.13小麦孕穗期叶面积指数与产量的关系,至此即获得了二元线性回归方程y2165.0353269874.89269841x15.96825397x2y2=165.0474.89x5.97x2,二、建立多项式回归方程,本例互逆矩阵验算结果(m1)(m1)34.5247293912.762465601.10370464(XX)-112.762465604.816934980.422904171.103704640.422904170.037624930.999260160.000002960.00001274(XX)(XX)-10.023255000.999906760.000402400.047196000.000188300.99919211100I010001,739.34236.8408XX39.34236.84081508.0760236.84081508.076010029.7617,多项式回归分析中,Y变量的总平方和SSY亦可分解为回归和离回归两部分,即:SSYSSUSSQ上式中,SSU为k次多项式的总回归效应平方和,即Y变量总变异中能被X的k次多项式所说明的部分,计算过程用矩阵表述为:SSYYY(1Y)2/n1034112.0026882/71920.00SSQ为k次多项式的离回归平方和,其中:SSQYYb(XY)12.71431034112.00(165.0353269874.892698415.96825397)(XY)SSUSSYSSQ1920.0012.71431907.2857也可利用二、三级数据直接计算总回归效应平方和SSU:SSUb1SP10b2SP201907.943674.9362123.0000(-5.9721)1223.8928SSQSSYSSU1920.001907.943612.0564,三、多项式回归的假设测验,总回归关系的F-test,总回归关系的R-test,各次分量项偏回归关系的F-test,本例总回归效应极显著既然不能排除多项式方程中个别乃至若干个分量项不显著的可能性,就有必要分别对各次分量项进行偏回归关系的F-test。这与多元线性回归中偏回归关系的假设测验相类似,亦需先计算各次分量项的偏回归平方和SSbi,即:SSbibi2/C(i+1)(i+1)此时SSbi具有自由度df1,故由:FSSbi/(SSQ/n-(k+1)可测验第i次分量是否显著。本例由逆矩阵对角线上的元素算得Y对各次分量项的偏回归平方和为:SSb174.892698412/4.816934981164.4160SSb2(-5.96825397)2/0.03762493946.7142变异来源DFSSMSFF0。01一次分量11164.41601164.4160366.33*21.20二次分量1946.7142946.7142297.84*离回归412.71433.1786总61920.00结果表明,在用二次多项式描述叶面积指数与亩产量时,二次分量和一次分量均应保留(但SSUSSb1SSb2!)。,各次分量项的F测验表变异来源DFSSMSFF0。01一次分量11164.41601164.4160366.33*21.20二次分量1946.7142946.7142297.84*离回归412.71433.1786结果表明,在用二次多项式描述教材表11.4资料时,二次分量和一次分量均应保留。,各次分量项偏回归关系的F-test,课后习题,以光呼吸抑制剂亚硫酸氢钠的不同浓度溶液(x,100mg/L)喷射沪选19水稻,2小时后测定剑叶的光合强度(y,co2mg/dm/h),得结果于下表。试计算(1)光合强度依亚硫酸氢钠浓度的多项式回归方程及离回归标准差。(2)光合强度最高时的亚硫酸氢钠浓度。X012345Y19.1023.0523.3321.3320.0519.35,第四节协方差分析,例7.4有一大豆浸种试验研究结果,k10,随机区组设计,n3,每个试验小区(1.5m2)点播的种子粒数均等。以各小区大豆收获时的籽粒干重(10g)为试验指标进行观察记载。考虑到每个小区结荚株数只占小区总株数的一部分,并且与该小区试验指标之间可能存在着回归关系,故在称量小区干重y的同时,对其结荚株数x一并予以记载(见下图),试进行协方差分析。N,肥力梯度,一、数据整理,Cx(X)2/nk16380SSxX2Cx816.97Cy(Y)2/nk5868.8SSyY2Cy628.69CxyXY/nk9804.7SPTXYCxy574.16,二、dfT、SPT、SSx、SSy的分解dfTdftdfrdfe299218SPTSPtSPrSPeSPtTxtTyt/nCxy52.687140.76737.46935.2SPrTxrTyr/kCxy463.5718384.2232160.2286175.2SPeSPTSPtSPr57.91SSxtTxt2/nCx71.64(712672692)/316380SSxrTxr2/kCx530.87(183223222862)/1016380SSxeSSxSSxtSSxr214.46SSytTyt2/nCy106.41(40.7237.4235.22)/35868.8SSyrTyr2/kCy476.07(84.22160.22175.22)/105868.8SSyeSSySSytSSyr46.21,三、SSye、dfye的再分解与F-testSSueSPe2/SSxe15.6457.912/214.46SSQeSSyeSSue30.5746.2115.64dfyedfuedfQe18117得检验回归关系的ANOVA表如下:SOVDFSSMSFF0.01回归115.6415.648.69*8.41离回归1730.571.80总1846.21本例因为结荚株数与籽粒干重的直线回归关系极其显著,必须将试验指标的方差分析过程与回归分析结合起来,也就是要做协方差分析。否则(即回归关系的F-test不显著),就可不必理睬协变量而直接对干重指标进行方差分析。,四、列协方差分析表,修正部分数据后再进行F-testSOVDFSSxSPSSySSyDFMSFF0.01处理t971.6452.68106.4179.3098.894.89*3.68误差e18214.4657.9146.2130.57171.80te27286.10110.59152.62109.8726区组2530.87463.57

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论