第八章直线相关与回归分析_第1页
第八章直线相关与回归分析_第2页
第八章直线相关与回归分析_第3页
第八章直线相关与回归分析_第4页
第八章直线相关与回归分析_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章 一元回归与相关分析概述:许多问题需要研究多个变量之间的关系,例如生物的生长发育速度就与温度,营养,湿度等许多因素有关。相关关系:两变量 X,Y 均为随机变量,任一变量的每一可能值都有另一变量的一个 确定分布与之对应。回归关系:X 是非随机变量(如施肥)或随机变量(如穗长) ,Y 是随机变量,对 X 的每一确定值 xi 都有 Y 的一个确定分布与之对应。区别:1.相关中的两个变量地位对称,互为因果;回归中 X 是自变量,Y 是因变量。两种意义不同,分析的数学概念与推导过程不同,但如果使用共同标准即使 y 的残差平方和最小(最小二乘法) ,可得到相同的参数估计式。因此主要讨论 X 为非随机变量(不包含有随机误差)的情况,所得到的参数估计式也可用于 X 为随机变量的情况。2.分析目的不同。回归分析是建立 X 与 Y 之间的数学关系式,用于预测;而相关分析研究 X 与 Y 两个随机变量之间的共同变化规律,例如当 X 增大时 Y 如何变化,以及这种共变关系的强弱。分类:从两个变量间相关(或回归)的程度分三种:(1)完全相关。一个变量的值确定后,另一个变量的值可通过公式求出(函数关系) ;生物学研究中不太多见。(2)不相关。变量之间完全没有任何关系。一个变量的值不能提供另一个变量的任何信息。(3)统计相关(不完全相关) 。介于上述两情况之间。知道一个变量的值通过某种公式就可以提供另一个变量的均值的信息。一个变量的取值不完全决定另一个变量的取值,但可或多或少地决定它的分布。科研中最常遇到。研究“一因一果” ,即一个自变量与一个依变量的回归分析称为一元回归分析;研究“多因一果” ,即多个自变量与一个依变量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。 对两个变量间的直线关系进行相关分析称为直线相关分析;研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。注意:1.相关与回归只是一种工具,不是不相干的数据拼凑在一起。2.除 X、Y 等需研究的因素外,其他的要严格控制一致。 (身高与胸围的关系要控制体重)3.对子一般在 5 对以上4.需限制自变量范围,结果不能随意外延。第一节 一元线性回归(一)直线回归方程的建立对于两个相关变量,一个变量用 x 表示,另一个变量用 y 表示,如果通过试验或调查获得两个变量的 n 对观测值:( x1, y1) , ( x2, y2) , ( xn, yn)为直观看出 x 和 y 间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图 例 11.1 对大白鼠从出生第 6 天起,每三天称一次体重,直到第 18 天。数据见表 11.1。试计算日龄 X 与体重 Y 之间的回归方程。表 11.1 大白鼠 6-18 日龄的体重序号 1 2 3 4 5日龄 xi 6 9 12 15 18体重 yi 11 16.5 22 26 29散点图对 X、Y 之间的关系有直观的、整体上的印象,但是否有某种规律性,是接近一条直线还是一条曲线等,哪一条直线或曲线可以最好地代表 X, Y 之间的关系,不能做出判断。051015202530351 31 61 91 121日 龄体重图 11.1 大白鼠日龄体重关系图一、一元正态线性回归统计模型:对于每个 Y 的观察值 yi 来说,由于总是带有随机误差,观察值就应该是在均值的基础上再加上一个随机误差,即:(11.2)iiixy其中 。随机误差服从正态分布。这是一元正态线性回归的统计模型。),0(2NIDi二、参数 和 的估计模型中的 和 是参数,一般不知道。由于只能得到有限的观察数据,无法算出准确的 与 的值,只能求出估计值 a 和 b,并得到 yi的估计值为:(11.3)iibxaya 和 b 应使残差 最小。为了避免使正负 ei互相抵消,定义使残差平方和iiiye达到最小的直线为回归线,即令:niiiy12)(,且 SSe 对 a、 b 的一阶偏导数等于 0ni iiebxayS12)(0bSe得: ni iii iibxayx1 0)()2整理后,得(11.4)nininiiiiyxbxa1112解此方程,得: xbya xynyxyniiiiiniininiii 12121211 )(/)()(这种方法称为最小二乘法 记 ,称为 X 的校正平方和;niixS12)(,称为 Y 的总校正平方和;niiyy12)(,称为校正交叉乘积和,niiixyxS1)(则: (11.7)xyba 叫样本回归截距,是回归直线与 y 轴交点的纵坐标,当 x=0 时, = a;yb 叫样本回归系数,表示 x 改变一个单位,y 平均改变的数量; b 的符号反映了 x 影响y 的性质, b 的绝对值大小反映了 x 影响 y 的程度;叫做回归估计值,是当 x 在在其研究范围内取某一个值时, y 值平均数 x 的估计值回归方程的基本性质:1 最小niiiy2)(2 0niii1)(3.直线通过( , )xy转化后得到回归方程的另一种形式(中心化形式): )( xbby在实际计算时,可采用以下公式: niixyiynixyxSxS1212.,.,.例 11.1 对大白鼠从出生第 6 天起,每三天称一次体重,直到第 18 天。数据见表 11.1。试计算日龄 X 与体重 Y 之间的回归方程。表 5.1 大白鼠 6-18 日龄的体重序号 1 2 3 4 5日龄 xi 6 9 12 15 18体重 yi 11 16.5 22 26 29解:把数据代入上述公式,得:ni nini yxx1121 ,5.04,8,0niy12,5.394niiyx15.390,5.136.04651.390,2.).(2.49652xyxSS69.217./.104xbyaxy即:所求的回归方程为:y = 2.6996 + 1.5167 x带有统计功能的计算器,只需把数据依次输入,然后按一下键就可得到上述结果。根据直线回归方程可作回归直线,并不是所有的散点都恰好落在回归直线上,说明用 去估计 y 是有偏差的。三、直线回归的偏离度估计 偏差平方和 的大小表示了实测点与回归直线偏离的程度,因而偏niiiy12)(差平方和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为 n-2。于是可求得离回归均方为: )2/()(ny离回归均方是模型中 2 的估计值。离回归均方的平方根叫离回归标准误,记为 ,即 Syx 的大小表示了回归直线与实测点偏差的程度,即回归估测值 与实际观测值 y偏差的程度,于是把离回归标准误 Syx 用来表示回归方程的偏离度。以后将证明:利用此式先计算出 ,然后再求 Syx 。 四、直线回归的显著性检验x 和 y 变量间即使不存在直线关系,但由 n 对观测值(xi ,yi)也可以根据上面的方法求得一个回归方程。显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。需要判断直线回归方程的真实性。先探讨依变量 y 的变异,然后再作出统计推断。1、 直线回归的变异来源的分解图1) 一元回归的方差分析(1) 无重复的情况。y 的总校正平方和可进行如下的分解:yyxS)/(2nyyx yxySPy/)(22)(y)()()(yyni ni ni iiiiii i iiii yyyy11122 2)()()( )(0)( )()( )11211xxyni niiiii iiini iiiiniiSbxbxy xbabxani ni niiiii yy111222 )(即: SSy = SSe + SSRy 的总校正平方和 残差平方和 回归平方和自由度: n-1 n-2 1反映了 y 的总变异程度,称为 y 的总平方和,记为 SSy; 反映了由于 y 与 x 间存在直线关系所引起的 y 的变异程度,称为回归平方和,记为 SSR; 反映了除 y 与 x 存在直线关系以外的原因,包括随机误差所引起的 y的变异程度,称为离回归平方和或剩余平方和,记为 SSe。把 y 的总校正平方和分解成了残差平方和与回归平方和。MS e 可作为总体方差 2 的估计量,而 MSR 可作为回归效果好坏的评价。如果 MSR 仅由随机误差造成的话,说明回归失败,X 和 Y 没有线性关系;否则它应显著偏大。因此可用统计量(11.10))2/(nSMFeReR对 H0: = 0 进行检验。若 F F0.99(1, 3),拒绝 H0,差异极显著。即应认为回归方程有效。(2) 有重复的情况:设在每一个 xi 取值上对 Y 作了 m 次观察,结果记为 yi1, yi2, yim, 则线性统计模型变为:, i = 1, 2, n, j = 1, 2, mjiijy估计值仍为: iibxa现在 y 的总校正平方和可分解为:SSy = SSR + SSLOF + SSpe其中 SSLOF称为失拟平方和,SS pe为纯误差平方和,表达式和自由度分别为: 1,.)(12mndfySnimjijyniiRf12,.)( nmdfySmnijiijpeiiiLOF 12,)(2,可试证明上述分解中的三个交叉项均为 0。统计检验步骤为:I. 令 ,它服从 F(n-2, mn-n) peLOFMS1若 F 检验差异显著,则可能的原因有:(1)除 X 以外还有其他变量影响 Y 的取值,而统计时没有加以考虑;(2)模型不当,即 X 与 Y 之间不是线性关系;此时无必要再进一步对 MSR 作检验,而应想办法找出原因,并把它消除后重作回归。若差异不显著,则把 MSLOF 和 MSpe 合并,再对 MSR 作检验:II. ,它服从 F(1, mn-2) peLOFdffS2若差异显著,说明回归是成功的,X, Y 间确有线性关系;若差异仍不显著,则回归失败,其可能的原因为:(1)X,Y 无线性关系;(2)误差过大,掩盖了 X, Y 间的线性关系。如有必要,可设法减小实验误差,或增加重复数重做实验后再重新回归。二)一元回归的 t检验由于 MSe 的自由度为 n-2,因此上述两方差的自由度也均为 n-2。有了 a 和 b 的方差与均值,我们就可构造统计量对它们进行检验:H0 : = 0HA: 0 (双侧检验)或: HA: 0 (或 F, 接受 H0,可认为两总体方差相等。计算公共的总体方差: 123.0108.5764)2()(11nMSSeee(2). 检验回归系数 1 与 2 是否相等:H 0: 1 = 2; HA: 1 2876.1035.)162875.(123.004.)(2121 xebSMbSt查表,得 t0.975(11) = 2.201 t, 接受 H0,可认为两回归系数相等。共同总体回归系数的估计值为: 146.2875.942121 xyxx SSbb(3). 再检验 1, 2 是否相等:H 0: 1 = 2; HA: 1 2 1702.256.3)16875.239718(23.0 )(2121 xxea SXnMSat查表,t 0.975(11) = 2.201, 接受 H0,可认为 : 1 = 2。,)95.0tt若检验结果为 1 2,此题即可结束;但若检验结果为 1 = 2,则需把全部原始数据放在一起,重新进行回归:Sxx = 902.9333, Sxy = 965.4667, Syy = 1035.7333, = 93.067, = 68.533, xyb = = 1.0693, xya = = 30.9787从而得到合并的回归方程 。xy0693.178.3现在证明 t 检验与前述的 F 检验是一致的:前已证明:SS e = Syy b Sxy, SSR = Syy SSe = b Sxy,xbM222tSbSFxbyeR五、点估计与区间估计前边已经证明 a 和 b 是 和 的点估计;但作为预测值仅给出点估计是不够的,一般要求给出区间估计,即给出置信区间。 和 的区间估计已经证明 a 和 b 是 和 的点估计,并求出了它们的方差。因此给出置信区间就很容易了:)2(/ntSMxe 的 95%置信区间为:(11.13)xeStb/)(975.0同理 )2()1(2ntSxMae的 95%置信区间为:(11.14)1()2(2975.0xeSnta这与以前假设检验中的置信区间求法完全一样。若置信水平为 99%,把分位数相应换为 t0.995(n-2)即可。对例 11.1 中的和给出 95%置信区间。解:从前边的计算可知:a = 2.6996, b = 1.5167, Sxx = 90, MSe = 1.0568, n = 5, 12x查表,得 t0.975(3) = 3.182387.4)90125(068.12.3)1()3(4.95.8.2975.0975.0 xexeSnMt 的 95%置信区间为:2.6996 4.3887, 即(-1.6891, 7.0883)的 95%置信区间为:1.5167 0.3448, 即(1.1719, 1.8615)第二节 相关分析直线相关分析是根据 x、 y 的实际观测值,计算表示两个相关变量 x、 y 间线性相关程度和性质的统计量相关系数 r 并进行显著性检验。一、相关系数。例:(1)X 7 7 1 6 5 3 8 9 3 1 1 总和 50Y 5 9 6 1 3 1 9 4 6 6 6 总和 52(2)X 9 8 7 9 6 5 3 3 1 1 总和 50Y 9 9 8 6 6 5 4 3 1 1 总和 52(3)X 1 1 3 3 5 6 7 1 8 9 总和 50Y 9 9 8 6 6 5 4 3 1 1 总和 52可见:(1)X、Y 关系紊乱(2)X 减小、Y 也减小(3)X 增大、Y 减小作散点图,如果再以 X 和 Y 的平均数作坐标原点,将原散点图划分为四个象限,如果各点均匀分布则 0,落在 2、4 象限则小于 0负相关,落在 1、3 象限则大于 0正相关,为消除变异程度(n-1)和单位的影响,需除以标准差。yxxy SPyxnyxSxynr 2222 )(1)()()(1根据以前的推导结果,有: yeyRyxyx SSbr 122性质: 。1r当 时,从上式可看出 SSe = 0,即用 可以准确预测 y 值。此时若 X 不是随机变y量,则 Y 也不是随机变量了。当 r = 0 时,SS e = Syy,回归一点作用也没有,即用 X 的线性函数完全不能预测 Y 的变化。但这时 X 与 Y 间还可能存在着非线性的关系。当 时,情况介于上述二者之间隔。X 的线性函数对预测 Y 的变化有一定作用,1)()(yxnynxy222 )()(但不能准确预测,这说明 Y 还受其他一些因素,包括随机误差的影响。综上,r 可以作为 X,Y 间线性关系强弱的一种指标。非常直观,接近于 1 就是线性关系强,接近于 0 就是线性关系弱;而其他统计量都需要查表后才知检验结果。二、决定系数和相关系数前面已经证明了等式: 从这个等式:y 与 x 直线回归效果的好坏取决于回归平方和 与离回归平方和 的大小,或者说取决于回归平方和在 y 的总平方和 中所占的比例的大小。这个比例越大,y 与 x 的直线回归效果就越好,反之则差。比值 叫 做 x 对 y 的决定系数,记为 r2,即 决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低。显然有 0r 21。因为:而 SPxy/SSx 是以 x 为自变量、y 为依变量时的回归系数 byx。若把 y 作为自变量、x 作为依变量,则回归系数 bxy =SPxy/Ssy ,所以决定系数 r2 等于 y 对 x 的回归系数与 x 对 y的回归系数的乘积。即决定系数反应了 x 为自变量、y 为依变量和 y 为自变量、x 为依变量时两个相关变量 x 与 y 直线相关的信息,即决定系数表示了两个互为因果关系的相关变量间直线相关的程度。但决定系数介于 0 和 1 之间,不能反应直线关系的性质是同向增减或是异向增减。另外,r 显著即一个显著的回归方程并不一定具有实践上的预测意义 如一个资料 x 、 y 两个变量间的相关系数 r =0.5,在 df = 24 时 ,r 0.01(24) = 0.496,r r0.01(24),表明相关系数极显著。而 r2=0.25,即 x 变量或 y 变量的总变异能够通过 y 变量或 x 变量以直线回归的关系来估计的比重只占 25%,其余的 75% 的变异无法借助直线回归来估计。 计算相关系数:根据公式三、相关系数的显著性检验 在一般情况下 r 不是正态分布,直接检验有困难。但当总体相关系数 = 0 时,r 的分布近似于正态分布,此时用 MSe 代替 ,就可以对 作 t 检验。这种检验与对20:H回归系数 b 的检验: 是等价的。可证明如下:0:Hb 的 t 检验统计量为:t = b/S b。 b=Sxy/Sxx, 2)(y22)()(yy2)(2)(2)(/)(y)(y22)(yxyyxyx bSPSr 222)(21)2(11(22 nrSnSSnbSMS xyxyxyxyyxeb代入 t 的表达式,得:。)(12122 trnrrSyx因此可用上述统计量对 作统计检验。0:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论