统计分析与SAS软件第五章线性回归分析_第1页
统计分析与SAS软件第五章线性回归分析_第2页
统计分析与SAS软件第五章线性回归分析_第3页
统计分析与SAS软件第五章线性回归分析_第4页
统计分析与SAS软件第五章线性回归分析_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、一元线性回归一、一元线性回归二、一元线性回归方程二、一元线性回归方程三、回归关系的显著性检验三、回归关系的显著性检验四、置信区间四、置信区间五、多元线性回归五、多元线性回归六、回归诊断六、回归诊断第五章 线性回归分析 l 生产实践中,常常能找到一个变量与另外一生产实践中,常常能找到一个变量与另外一个变量之间的关系:小麦的施肥量与产量、个变量之间的关系:小麦的施肥量与产量、水稻的株高和穗长、冬天的温度与来年病虫水稻的株高和穗长、冬天的温度与来年病虫害的发生程度等等。害的发生程度等等。l 回归分析就是找出合适的回归方程,从而用回归分析就是找出合适的回归方程,从而用一个变量来预测另一个变量。一个

2、变量来预测另一个变量。l 一元线性回归:最简单的回归关系,即一个一元线性回归:最简单的回归关系,即一个变量变量y在一个变量在一个变量x上的回归关系,称上的回归关系,称x为自变为自变量,量,y为因变量(或称响应变量、依赖变量)为因变量(或称响应变量、依赖变量)第一节 一元线性回归l 如果两个变量如果两个变量x,y之间存在线性回归关系,之间存在线性回归关系,则有回归模型:则有回归模型:总体:总体:yi + xi + i a 称为回归截距称为回归截距 b 称为回归系数称为回归系数i 称为随机误差称为随机误差样本:样本:yi a + b xi + i回归方程:回归方程: a + b xy 第一节 一元

3、线性回归 l 回归参数的计算回归参数的计算最小二乘法最小二乘法 期望拟合的线性回归方程与试验资料的误差期望拟合的线性回归方程与试验资料的误差最小,拟合的误差也称作离回归平方和或残最小,拟合的误差也称作离回归平方和或残差差 ,可以利用数学中求极值的方法解出,可以利用数学中求极值的方法解出 a 和和 b 而使得误差平方和为最小。而使得误差平方和为最小。2112)(iininiiibxayyyQ 误差平方和:误差平方和:第二节第二节 线性回归方程线性回归方程l分别求Q 对a 和b 的偏导数,令其等于 0:0)(2)(2xbnaybxayaQ0)(2)(22xbxaxyxbxaybQl 整理得正规方程

4、组:yxbnaxyxbxa22112)(iininiiibxayyyQ第二节第二节 线性回归方程线性回归方程l 解正规方程组:) 1 (yxbna)2(2xyxbxal(3)式各项乘 :x) 5 (/)(2nyxnxbxal(1)式除以 n 得:(/ )/(3)abx ny n (2)-(5)式得: nyxxynxxb/)(22即:)()(2yyxxxxb)4()/(/xbynxbnya 于是: 于是:xxySSSPxxyyxxb/)(/ )(2 线性回归方程便已求出为:bxay第二节第二节 线性回归方程线性回归方程l 对此统计假设有两种检验方法:l 检验线性回归关系是否存在,就是检验建立回归

5、模型的样本是否来自存在回归关系的总体,即 H0 : 0 vs HA: 0 l 只有在此检验结果为显著时,用 a 估计 ,用 b 估计 ,用 估计 y 才是有意义的。y F F 检验法检验法 和 t 检验法检验法注:df1=1,df2=n-2的一尾F值等于df=n-2的两尾t值的平方第三节 回归关系的显著性检验l 如果在模型 yi + xi +i 中, 0,这就意味着不管 xi为什么值, yi 都不发生实质性变化;换言之,x和 y 之间没有显著的回归关系。1.F1.F检验法检验法l 利用下图说明F检验法的基本原理。 y 当自变量为 ,对应的 因变量的实测值为 , 因变量的预测值为 。 于是 的离

6、均差 可分解为两个部分:xyy yy l 离均差 l 随机误差l 回归引起的偏差yy yyyy) (yy yy )(yyxyyxy 第三节 回归关系的显著性检验l 对数据资料所有点的求和得: l 对于任一个点有: )() ()(yyyyyyl 两边平方得: 222)()( 2) ()(yyyyyyyyyy222) ()(2) ()(yyyyyyyyyy)()(xxbybxxbybxay证明:证明:上式右边的中间项为0:)(bxxbyyyy)()()(xxbyyxxbyyyy)()(2xxbyyxxb)() (xxbyy即 )()() (xxbyyyy即第三节 回归关系的显著性检验222) ()

7、 ()(yyyyyy 误差平方和eQSS 回归平方和rUSS 的总平方和yTSSy于是: 的总平方和便分解为两个部分:y第三节 回归关系的显著性检验0)(xxxyxySSSSSPSPbyyyy对所有点求和得: 变异来源变异来源 自由度自由度 平方和平方和均方均方值值回归回归误差误差n-2UQ 总变异总变异n-1T05. 0F01. 0F2Us2es2Us2es检验结论:若检验结论:若F F0.05,则存在显著的线性回归关系。,则存在显著的线性回归关系。利用方差分析表利用方差分析表第三节 回归关系的显著性检验2 2. .t t 检验法检验法其中回归系数其中回归系数其标准误其标准误: : bsbt

8、 2222ebxxyyQsnnsSSSSxx第三节 回归关系的显著性检验H0: 0 vs HA:0选择选择 t t 统计量统计量: : b研究光照强度与净光合强度的关系研究光照强度与净光合强度的关系光照光照强度强度X X净光合净光合强度强度Y Y 一级计算:一级计算:300700100015002200300040005000600070001402603003804104925806907408302230700482214367000027807641949200010 xyxyxyn实例:实例:回归系数回归系数 b : :094868.049431004688460 xxySSSPb回归

9、截距回归截距 a: : 955.1903070094868. 02 .482xbya实例:实例:变异来源变异来源自由度自由度 平方和平方和均方均方值值回归回归误差误差84447841081044478413513295.3211.26总变异总变异945559505. 0F01. 0FF检验结论:回归关系达极显著,可得线性回归方程检验结论:回归关系达极显著,可得线性回归方程用光照强度估测净光合强度是合理的。用光照强度估测净光合强度是合理的。xy094868. 0955.1901 1、F F检验法检验法实例:实例:P161P161108102102494210000.005229ebxxQsnsS

10、SSS实例:实例:P161P16114.18005229. 0094868. 0bsbt2 2、t t 检验检验0.050.010.012 10 282.3063.355| | 18.143.355edfntttt ,结论:回归关系极显著,可得线性回归方程结论:回归关系极显著,可得线性回归方程 用光照强度来预测净光合强度是合理的。用光照强度来预测净光合强度是合理的。实例:t 检验190.9550.094868yx第四节节 预测值的置信区间预测值的置信区间ysty05. 0211yexxxssnSS因此因此由由x预测预测y时,时,y 的的95%95%置信区间为:置信区间为:由由x预测预测y时,时

11、,y有一定的误差,其标准误差为:有一定的误差,其标准误差为:实例: 由x预测y的预测区间67.384942100030702500101176.362ys第一步:计算当第一步:计算当x=2500=2500时,时, y 的点估计值:的点估计值: 第二步:求第二步:求y的标准误差:的标准误差:125.4282500094868. 0955.190y实例: 由X预测Y的预测区间95.33867.38036. 2125.42805. 0ysty0.05428.1252.036 38.67517.30yyts第三步:求第三步:求y的置信区间:的置信区间:第四步:结论第四步:结论有有9595的把握预测当树

12、冠的光照强度为的把握预测当树冠的光照强度为25002500时,净光合作用的强度在时,净光合作用的强度在338.95338.95到到517.30517.30之间。之间。第五节节 多元线性回归分析多元线性回归分析一、多元线性回归分析概述一、多元线性回归分析概述 上面讨论的只是两个变量的回归问题,其中因变量只与一个自变量相关。但在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类多自变量的回归问题为多元回归分析。 这里着重讨论简单而又最一般的线性回归问题,这是因为许多非线性的情形可以化为线性回归来做。多元线性回归分析的原理与一元线性回归分析完全相同,但在计算上却要复杂得多。01 122

13、mmyxxx一、多元线性回归分析概述一、多元线性回归分析概述多元线性回归模型多元线性回归模型多元线性回归方程多元线性回归方程mmxbxbxbby22110第五节节 多元线性回归分析多元线性回归分析式中式中0 0 1 1 2 2 m m 为(偏)回归系数为(偏)回归系数式中式中b b0 0 b b1 1 b b2 2 b bm m 为(偏)回归系数的估计值为(偏)回归系数的估计值根据最小二乘法原理,根据最小二乘法原理, 的估计值的估计值 应该使应该使 )(mbi,1,2, 0i), 2 , 1 , 0(mii二、参数估计方法二、参数估计方法最小二乘准则最小二乘准则由求极值的必要条件得:由求极值的

14、必要条件得:min)()(122211012nimimiiiniiixbxbxbbyyyQ),2, 1(0)(20)(2110mjxyybQyybQnajiiijniii第五节节 多元线性回归分析多元线性回归分析采用矩阵形式:采用矩阵形式: Y = XB+E二、参数估计方法二、参数估计方法最小二乘准则最小二乘准则解得:解得:nmnnmmmxxxxxxxxxxxxX213233122221112111111nyyyY21mbbbbB210YXXXB)(1第五节节 多元线性回归分析多元线性回归分析n2101 1、回归方程的假设检验、回归方程的假设检验三、假设检验三、假设检验原假设原假设 H H0

15、0 :1 12 2 m0 0F F统计量为:统计量为:/(1)U mFQnm回归平方和:回归平方和: 自由度:自由度:m2)(yyUi误差平方和:误差平方和: 自由度:自由度:n-m-12)(iiyyQ第五节节 多元线性回归分析多元线性回归分析2 2、回归系数的假设检验、回归系数的假设检验统计量为统计量为t t:ibiSbt 其中:其中:C C(i+1)(i+1)为矩阵为矩阵(X(XX)X)-1-1的的( (i+1)(+1)(i+1)+1)元素元素 Q 为误差平方和为误差平方和,自由度:自由度:df= =n- -m-1-1)1)(1(iiybcSSi第五节节 多元线性回归分析多元线性回归分析原

16、假设原假设 H H0 0 :i0 01 1)t t检验检验1mnQSy2 2、回归系数的假设检验、回归系数的假设检验统计量为:统计量为:1/1/)1)(1(2mnQcbmnQUFiiii其中:其中:Ui 为为x xi对对y y的回归平方和,的回归平方和,Q 为误差平方和为误差平方和 C C(i+1)(i+1)为矩阵为矩阵(X(XX)X)-1-1的的( (i+1)(+1)(i+1)+1)元素元素 自由度:自由度:df1 = = 1 df2 = = n-m-1第五节节 多元线性回归分析多元线性回归分析原假设原假设 H H0 0 :i0 02 2)F F检验检验四、回归模型的选择四、回归模型的选择

17、由于自变量较多时,不是每一个自变量的回归由于自变量较多时,不是每一个自变量的回归关系都显著,对回归不显著的自变量不能简单的关系都显著,对回归不显著的自变量不能简单的进行剔除。进行剔除。 尤其时自变量之间存在严重的线性关系时,自尤其时自变量之间存在严重的线性关系时,自变量之间相互影响,很难对自变量的去留做出抉变量之间相互影响,很难对自变量的去留做出抉择。择。 为了获得最优回归方程,就需要对自变量进行为了获得最优回归方程,就需要对自变量进行筛选。筛选。第五节节 多元线性回归分析多元线性回归分析常用的自变量的筛选方法:常用的自变量的筛选方法:第五节节 多元线性回归分析多元线性回归分析1 1、向前引入

18、法(、向前引入法(ForwardForward) 按显著性程度,逐个将回归模型外自变量引入按显著性程度,逐个将回归模型外自变量引入回归模型,直到没有显著的自变量引入为止。回归模型,直到没有显著的自变量引入为止。2 2、向后剔除法(、向后剔除法(BackwardBackward) 对全回归模型中不显著的自变量依次剔除,直到对全回归模型中不显著的自变量依次剔除,直到回归模型中剩余自变量都显著为止。回归模型中剩余自变量都显著为止。3 3、逐步筛选法(、逐步筛选法(StepwiseStepwise) 逐个引入最显著的自变量,同时对模型中不显逐个引入最显著的自变量,同时对模型中不显著的自变量进行剔除,直

19、到没有引入和剔除为止。著的自变量进行剔除,直到没有引入和剔除为止。五、回归模型的判别准则五、回归模型的判别准则1. R1. R2 2 决定系数决定系数 Adj RAdj R2 2 矫正的决定系数矫正的决定系数 n为观测数,为观测数,p为含截距的参数个数,为含截距的参数个数,i为截距数为截距数 决定系数的值越大,越接近于决定系数的值越大,越接近于1 1模型拟合越好。模型拟合越好。第五节节 多元线性回归分析多元线性回归分析总平方和回归平方和TrSSSSR222_11niAdjRRnp 五、回归模型的判别准则五、回归模型的判别准则2. PRESS 2. PRESS 统计量统计量预测残差平方和预测残差

20、平方和 其中其中 ri 为残差,为残差,hi 为杠杆率为杠杆率 PERSS PERSS统计量用来比较不同方法所建立的回归模统计量用来比较不同方法所建立的回归模型的优劣,型的优劣,PRESSPRESS的值越小,模型越好。的值越小,模型越好。21iihrPRESS1iiihXX XX第五节节 多元线性回归分析多元线性回归分析五、回归模型的判别准则五、回归模型的判别准则3. Cp 3. Cp 统计量统计量 其中其中 k 为参数个数,为参数个数,n 为观测数为观测数 ESS(k)(k)为含为含k k个参数的误差平方和个参数的误差平方和 ESS(T)(T)为全回归的误差平方和为全回归的误差平方和 Cp

21、Cp统计量的值越小,回归模型越好。统计量的值越小,回归模型越好。第五节节 多元线性回归分析多元线性回归分析nkmnTESSkESSCp) 1(2) 1()()(一、残差(一、残差(Residual)分析)分析残差:指实测值和预测值之间的差。残差:指实测值和预测值之间的差。iiiyyr)(iiirVarre 第六节节 回归诊断回归诊断标准化残差:标准化残差:学生化残差:学生化残差:)()1 (iiiirVarhre学生化残差使残差具有优良的可比性学生化残差使残差具有优良的可比性残差图:以观测值残差图:以观测值(x或或y)为横坐标,残差为纵坐标为横坐标,残差为纵坐标第六节节 回归诊断回归诊断方差非

22、齐性时,可用加权最小二乘法回归,或方差非齐性时,可用加权最小二乘法回归,或者对因变量的数据进行适当的变换,如:者对因变量的数据进行适当的变换,如:第六节节 回归诊断回归诊断),(),(),(0Y10lnY0YZYZYYZ观测值不独立时(共线性):观测值不独立时(共线性):说明自变量之间存在着一定的相关性。可能说明自变量之间存在着一定的相关性。可能遗漏了某些重要的自变量;可用逐步回归、遗漏了某些重要的自变量;可用逐步回归、偏最小二乘法回归或岭回归等进行分析。偏最小二乘法回归或岭回归等进行分析。第六节节 回归诊断回归诊断异常点的识别:异常点的识别:1. 杠杆率杠杆率hi 刻划第刻划第i各观测值到中

23、心的远近。各观测值到中心的远近。2. 一般把标准化残差的绝对值一般把标准化残差的绝对值2的点认为是的点认为是可疑点,绝对值可疑点,绝对值3的点认为是异常点。考虑的点认为是异常点。考虑是否作为例外值加以剔除或做其它处理。是否作为例外值加以剔除或做其它处理。1iiiXXXXh杠杆率较大的数据点可以判别为可疑点。杠杆率较大的数据点可以判别为可疑点。第六节节 回归诊断回归诊断二、贡献分析二、贡献分析贡献分析:从研究观测点对回归结果的影响入贡献分析:从研究观测点对回归结果的影响入手,找出对回归结果影响比较大的观测点。手,找出对回归结果影响比较大的观测点。若存在对回归结果影响比较大的观测点时,得若存在对回

24、归结果影响比较大的观测点时,得到的回归模型无法保证其稳定性和应用效果。到的回归模型无法保证其稳定性和应用效果。我们希望每个观测点对回归结果都产生一定的我们希望每个观测点对回归结果都产生一定的影响,个别观测的改变不会对回归模型产生较影响,个别观测的改变不会对回归模型产生较大的影响。大的影响。对强影响点的值进行复验,或增大样本容量。对强影响点的值进行复验,或增大样本容量。1)()()(1iiiiiixXXxsYYDFFITS1、DFFITS统计量统计量此统计量衡量一个观测排除与否对预测值的影响此统计量衡量一个观测排除与否对预测值的影响( )( )iiiYiYsi为剔除第 个观测后回归模型 的预测值

25、为剔除第 个观测后回归模型的误差均方根第六节节 回归诊断回归诊断一般当一般当 时,时,该观测值应作为强影响点加以关注。该观测值应作为强影响点加以关注。| 2 (1)/DFFITSknk(注: 为自变量个数)2)()() 1(iiiiiiskbbXXbbD2、Cooks D统计量统计量此统计量衡量一个观测排除与否对回归系数的影响此统计量衡量一个观测排除与否对回归系数的影响一般当一般当 |Di|4/n 时,该观测值应作为强影响点时,该观测值应作为强影响点加以关注。加以关注。为回归模型的误差均方的估计值个观测后回归系数为剔除第2)(iisbib第六节节 回归诊断回归诊断第六节节 回归诊断回归诊断三、共线性诊断三、共线性诊断共线性:拟合共线性:拟合多元线性回归多元线性回归时,自变量之间时,自变量之间存在线性或近似线性的关系。存在线性或近似线性的关系。共线性存在时,可能会隐藏某些自变量的显共线性存在时,可能会隐藏某些自变量的显著性,增加拟合模型的方差,产生很不稳定著性,增加拟合模型的方差,产生很不稳定的回归模型。的回归模型。进行共线性诊断的方法是基于对自变量的观进行共线性诊断的方法是基于对自变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论