




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十章 一元回归与相关分析概述:许多问题需要研究多个变量之间的关系,例如生物的生长发育速度就与温度,营养,湿度等许多因素有关。相关关系:两变量X,Y均为随机变量,任一变量的每一可能值都有另一变量的一个确定分布与之对应。回归关系:X是非随机变量(如施肥)或随机变量(如穗长),Y是随机变量,对X的每一确定值xi都有Y的一个确定分布与之对应。区别:1.相关中的两个变量地位对称,互为因果;回归中X是自变量,Y是因变量。两种意义不同,分析的数学概念与推导过程不同,但如果使用共同标准即使y的残差平方和最小(最小二乘法),可得到相同的参数估计式。因此主要讨论X为非随机变量(不包含有随机误差)的情况,所得到的
2、参数估计式也可用于X为随机变量的情况。2.分析目的不同。回归分析是建立X与Y之间的数学关系式,用于预测;而相关分析研究X与Y两个随机变量之间的共同变化规律,例如当X增大时Y如何变化,以及这种共变关系的强弱。分类:从两个变量间相关(或回归)的程度分三种:(1)完全相关。一个变量的值确定后,另一个变量的值可通过公式求出(函数关系);生物学研究中不太多见。(2)不相关。变量之间完全没有任何关系。一个变量的值不能提供另一个变量的任何信息。(3)统计相关(不完全相关)。介于上述两情况之间。知道一个变量的值通过某种公式就可以提供另一个变量的均值的信息。一个变量的取值不完全决定另一个变量的取值,但可或多或少
3、地决定它的分布。科研中最常遇到。研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析; 研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。 一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。 对两个变量间的直线关系进行相关分析称为直线相关分析; 研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。 注意:1.相关与回归只是一种工具,不是不相干的数据拼凑在一起。 2.除X、Y等需研究的因素外,其他的要严格控制一致。(身高与胸围的关系要控制体
4、重) 3.对子一般在5对以上4.需限制自变量范围,结果不能随意外延。第一节 一元线性回归(一)直线回归方程的建立对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值: (x1,y1),(x2,y2),(xn,yn) 为直观看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图 例11.1 对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表11.1。试计算日龄X与体重Y之间的回归方程。表11.1 大白鼠6-18日龄的体重序号12345日龄xi69121518体重yi1116.5222629散点图对X、Y之间的关系有直观
5、的、整体上的印象,但是否有某种规律性,是接近一条直线还是一条曲线等,哪一条直线或曲线可以最好地代表X, Y之间的关系,不能做出判断。图11.1 大白鼠日龄体重关系图一、 一元正态线性回归统计模型:对于每个Y的观察值yi来说,由于总是带有随机误差,观察值就应该是在均值的基础上再加上一个随机误差,即: (11.2)其中。随机误差服从正态分布。这是一元正态线性回归的统计模型。二、 参数和的估计模型中的和是参数,一般不知道。由于只能得到有限的观察数据,无法算出准确的与的值,只能求出估计值a和b,并得到yi的估计值为: (11.3)a和b应使残差最小。为了避免使正负ei互相抵消,定义使残差平方和达到最小
6、的直线为回归线,即令:,且SSe对a、b的一阶偏导数等于0得: 整理后,得 (11.4)解此方程,得:这种方法称为最小二乘法 记 ,称为X的校正平方和; ,称为Y的总校正平方和; ,称为校正交叉乘积和,则: (11.7)a叫样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时, =a;b叫样本回归系数,表示x 改变一个单位,y平均改变的数量;b 的符号反映了x影响y的性质,b的绝对值大小反映了x 影响y 的程度;叫做回归估计值,是当x在在其研究范围内取某一个值时,y值平均数x的估计值回归方程的基本性质: 1 最小2 0 3.直线通过(,) 转化后得到回归方程的另一种形式(中心化形式):在实际
7、计算时,可采用以下公式:例11.1 对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表11.1。试计算日龄X与体重Y之间的回归方程。表5.1 大白鼠6-18日龄的体重序号12345日龄xi69121518体重yi1116.5222629解:把数据代入上述公式,得: 即:所求的回归方程为:y = 2.6996 + 1.5167 x带有统计功能的计算器,只需把数据依次输入,然后按一下键就可得到上述结果。根据直线回归方程可作回归直线,并不是所有的散点都恰好落在回归直线上,说明用 去估计y是有偏差的。三、直线回归的偏离度估计 偏差平方和的大小表示了实测点与回归直线偏离的程度,因而偏差平方
8、和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为n-2。于是可求得离回归均方为: 离回归均方是模型中2的估计值。 离回归均方的平方根叫离回归标准误,记为 ,即 Syx的大小表示了回归直线与实测点偏差的程度,即回归估测值 与实际观测值y偏差的程度,于是把离回归标准误Syx用来表示回归方程的偏离度。以后将证明: 利用此式先计算出 ,然后再求Syx 。 四、直线回归的显著性检验x和y变量间即使不存在直线关系,但由n对观测值(xi,yi)也可以根据上面的方法求得一个回归方程。显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。需要判断直线回归方程的真实性。先探讨依变
9、量y的变异,然后再作出统计推断。1、 直线回归的变异来源 的分解图1) 一元回归的方差分析(1) 无重复的情况。y的总校正平方和可进行如下的分解:即: SSy = SSe + SSR y的总校正平方和 残差平方和 回归平方和自由度: n-1 n-2 1反映了y的总变异程度,称为y的总平方和,记为SSy; 反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSR; 反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSe。把y的总校正平方和分解成了残差平方和与回归平方和。MSe可作为总体方差s2的估计量,而MSR可作为
10、回归效果好坏的评价。如果MSR仅由随机误差造成的话,说明回归失败,X和Y没有线性关系;否则它应显著偏大。因此可用统计量 (11.10)对H0: b = 0进行检验。若F < Fa(1, n-2),则接受H0,否则拒绝。简化公式:对例11.1作方差分析解:由以前计算结果: SSy = 210.2,df = 4; SSe = 3.1704, df = 3, SSR = 210.2 3.1704 = 207.03, df = 1 查表得F0.95(1, 3) = 10.13, F0.99(1, 3) = 34.12F > F0.99(1, 3),拒绝H0,差异极显著。即应认为回归方程有效
11、。(2) 有重复的情况:设在每一个xi取值上对Y作了m次观察,结果记为yi1, yi2, yim, 则线性统计模型变为:, i = 1, 2, n, j = 1, 2, m估计值仍为:现在y的总校正平方和可分解为:SSy = SSR + SSLOF + SSpe其中SSLOF称为失拟平方和,SSpe为纯误差平方和,表达式和自由度分别为:可试证明上述分解中的三个交叉项均为0。统计检验步骤为:I. 令,它服从F(n-2, mn-n) 若F检验差异显著,则可能的原因有:(1)除X以外还有其他变量影响Y的取值,而统计时没有加以考虑;(2)模型不当,即X与Y之间不是线性关系;此时无必要再进一步对MSR作
12、检验,而应想办法找出原因,并把它消除后重作回归。若差异不显著,则把MSLOF和MSpe合并,再对MSR作检验:II. ,它服从F(1, mn-2) 若差异显著,说明回归是成功的,X, Y间确有线性关系;若差异仍不显著,则回归失败,其可能的原因为:(1)X,Y无线性关系;(2)误差过大,掩盖了X, Y间的线性关系。如有必要,可设法减小实验误差,或增加重复数重做实验后再重新回归。二)一元回归的t检验由于MSe的自由度为n-2,因此上述两方差的自由度也均为n-2。有了a和b的方差与均值,我们就可构造统计量对它们进行检验:H0 : b = 0HA: b ¹ 0 (双侧检验)或: HA: b
13、> 0 (或b< 0) (单侧检验)统计量: 其中,Sb为回归系数标准误。 当H0成立时,ta t(n-2),可查相应分位数表进行检验。对例11.1中的b作t-检验:H0: b=0解: 查表,t0.995(3) = 5.841 < t, 差异极显著,应拒绝H0,即b ¹ 0,或X与Y有着极显著的线性关系。上述统计量还有一个用途:进行两个回归方程间的比较。即检验H0: b1 = b2和H0: a1 = a2。如果两H0均被接受,则可认为两组数据是抽自同一总体,从而可将两回归方程合并,得到一个更精确的方程。例11.3 两组实验数据如下:x1919394969810210
14、5108y16668697173788285x280828587899195y255576062646771是否可从它们得到统一的回归方程?解:从原始数据计算可得:组别nSxxSyySxyMSeba1898.37574.0257.875336.0294.00.13571.140-38.152787.062.286162.0187.429174.00.10801.074-31.15(1). 首先检验总体方差是否相等: 查表,F0.975(6, 5) = 6.978 > F, 接受H0,可认为两总体方差相等。计算公共的总体方差:(2). 检验回归系数b1与b2是否相等:H0: b1 = b2
15、; HA: b1 ¹ b2查表,得t0.975(11) = 2.201 > t, 接受H0,可认为两回归系数相等。共同总体回归系数的估计值为:(3). 再检验a1,a2是否相等:H0: a1 = a2; HA: a1 ¹ a2查表,t0.975(11) = 2.201, 接受H0,可认为: a1 = a2。若检验结果为a1 ¹ a2,此题即可结束;但若检验结果为a1 = a2,则需把全部原始数据放在一起,重新进行回归:Sxx = 902.9333, Sxy = 965.4667, Syy = 1035.7333, = 93.067, = 68.533, b
16、= 1.0693, a = 30.9787从而得到合并的回归方程。现在证明t检验与前述的F检验是一致的:前已证明:SSe = Syy b × Sxy, SSR = Syy SSe = b × Sxy, 五、点估计与区间估计前边已经证明a和b是和的点估计;但作为预测值仅给出点估计是不够的,一般要求给出区间估计,即给出置信区间。和的区间估计已经证明a和b是和的点估计,并求出了它们的方差。因此给出置信区间就很容易了: 的95%置信区间为: (11.13)同理a的95%置信区间为: (11.14)这与以前假设检验中的置信区间求法完全一样。若置信水平为99%,把分位数相应换为t0.9
17、95(n-2)即可。对例11.1中的a和b给出95%置信区间。解:从前边的计算可知: a = 2.6996, b = 1.5167, Sxx = 90, MSe = 1.0568, n = 5, 查表,得t0.975(3) = 3.182 a的95%置信区间为: 2.6996 ± 4.3887, 即(-1.6891, 7.0883)b的95%置信区间为:1.5167 ± 0.3448, 即(1.1719, 1.8615)第二节 相关分析直线相关分析是根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量相关系数r并进行显著性检验。一、 相关系数。例:
18、(1)X 7 7 1 6 5 3 8 9 3 1 1 总和50 Y 5 9 6 1 3 1 9 4 6 6 6 总和52 (2)X 9 8 7 9 6 5 3 3 1 1 总和50 Y 9 9 8 6 6 5 4 3 1 1 总和52 (3)X 1 1 3 3 5 6 7 1 8 9 总和50 Y 9 9 8 6 6 5 4 3 1 1 总和52可见:(1)X、Y关系紊乱(2)X减小、Y也减小(3)X增大、Y减小 作散点图,如果再以X和Y的平均数作坐标原点,将原散点图划分为四个象限,如果各点均匀分布则 0,落在2、4象限则小于0负相关,落在1、3象限则大于0正相关,为消除变异程度(n-1)和单
19、位的影响,需除以标准差。 根据以前的推导结果,有:性质: 。当时,从上式可看出SSe = 0,即用可以准确预测y值。此时若X不是随机变量,则Y也不是随机变量了。当r = 0时,SSe = Syy,回归一点作用也没有,即用X的线性函数完全不能预测Y的变化。但这时X与Y间还可能存在着非线性的关系。当时,情况介于上述二者之间隔。X的线性函数对预测Y的变化有一定作用,但不能准确预测,这说明Y还受其他一些因素,包括随机误差的影响。综上,r可以作为X,Y间线性关系强弱的一种指标。非常直观,接近于1就是线性关系强,接近于0就是线性关系弱;而其他统计量都需要查表后才知检验结果。二、决定系数和相关系数前面已经证
20、明了等式: 从这个等式:y与x直线回归效果的好坏取决于回归平方和 与离回归平方和 的大小,或者说取决于回归平方和在y的总平方和 中所占的比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。 比值 叫 做 x 对 y 的决定系数,记为 r2,即 决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低。显然有0r21。因为:而SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。若把y作为自变量、x作为依变量,则回归系数 bxy =SPxy/Ssy ,所以决定系数r2等于y对x的回归系数与x对y的回归系数的乘积。即决定系数反应了x为自变量、y为依变量和
21、y为自变量、x为依变量时两个相关变量x与y直线相关的信息,即决定系数表示了两个互为因果关系的相关变量间直线相关的程度。但决定系数介于0和1之间,不能反应直线关系的性质是同向增减或是异向增减。另外,r显著即一个显著的回归方程并不一定具有实践上的预测意义 如一个资料x 、y两个变量间的相关系数r =0.5,在 df = 24 时 ,r0.01(24) = 0.496,r>r0.01(24),表明相关系数极显著。而r2=0.25,即x变量或y变量的总变异能够通过y变量或x变量以直线回归的关系来估计的比重只占25%,其余的 75% 的变异无法借助直线回归来估计。 计算相关系数:根据公式三、相关系数的显著性检验 在一般情况下r不是正态分布,直接检验有困难。但当总体相关系数= 0时,r的分布近似于正态分布,此时用MSe代替,就可以对作t检验。这种检验与对回归系数b的检验:是等价的。可证明如下:b的t检验统计量为:t = b/Sb。 b=Sxy/Sx
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 风险管理中的沟通渠道优化试题及答案
- 2025年公司战略与行业风险趋势研究试题及答案
- 2025年法学概论考试的法律实务技能与试题及答案
- 2025年生态风险与公司战略的关系试题及答案
- 2025冷冻鲍鱼买卖合同书
- 建立并维护客户关系的计划
- 风险管理中的团队协作与沟通试题及答案
- 公司未来发展的蓝图计划
- 2025年度物品保管合同示范文本
- 数据通信原理试题及答案
- 2025年保密观知识竞赛题库及答案(各地真题)含答案详解
- 建筑规范学习培训课件
- 洗衣员工合同协议书
- 终止采购合同协议书
- 机械答辩试题库及答案
- 中国成人呼吸系统疾病家庭氧疗指南(2024年)解读课件
- 电站运行考试题及答案
- 2025-2030中国静脉曲张治疗行业市场发展趋势与前景展望战略研究报告
- GB/T 12008.7-2025塑料聚氨酯生产用聚醚多元醇第7部分:碱性物质含量的测定
- 封隔器加工合同协议
- 2025年全国国家版图知识竞赛(中小学组)题库
评论
0/150
提交评论