




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章 回归与回归诊断教学目标:回归分析是基于观测数据建立变量间的依赖关系,并可用于预报、控制等问题。不仅要熟练掌握线性回归模型的建模理论与方法,而且要能够利用回归分析的SAS过程解决有关实际应用问题。为学生将来从事科研和应用打下坚实的基础。重难点:各种回归模型的建模理论与方法,参数估计、模型与参数的检验;利用回归分析的SAS过程解决有关实际应用问题。第一节 多元线性回归一多元线性回归模型假设是一个可观测的随机变量,非随机因素和随机误差对有影响,并且它们之间具有线性关系 (1)其中是均值为零、方差为的误差项,它表示除了之外其它因素对的影响以及试验或测量误差,是未知参数.本章假定。该模型称为线性
2、回归模型,且称为因变量,为自变量。假定我们有了因变量和自变量的组独立的观测值,它们满足(1)式,即 (2)其中误差项相互独立,且服从分布。二参数估计方法最小二乘准则获得参数向量的估计的一个最重要方法是最小二乘法,该法是找的估计,使得偏差向量的长度之平方和达到最小,即其中。分别对的每一分量求偏导数,并令其为零,可以得到方程组它称为正规方程这个线性方程组有唯一解的充要条件是的秩为等价地,的秩为以后在线性回归模型的讨论中,我们总假定这个条件满足于是我们得到的最小二乘估计为根据微积分的极值理论,只是函数的一个驻点可以证明确实使达到最小记并将其代入(1),去掉误差项,得到回归方程在线性回归模型(1)中还
3、有一个重要参数,它是模型误差项的方差,因而有时简称为误差方差.反映了模型误差以及观察误差的大小,在回归分析中起着重要作用.现在我们讨论的估计问题.误差向量是一个不可观测的随机向量,用最小二乘估计代替其中的,得到称为残差向量,其中为对称幂等矩阵。称数为残差平方和,它的大小反映了实际数据与理论模型(1)的偏离程度或者说拟合程度.可以证明为的无偏估计。三假设检验问题1. 回归方程的显著性检验和之间是否存在显著的线性关系,还需要对回归方程进行检验。(1)方差分析表方差来源自由度平方和均方比回归误差总和(2)线性回归关系的显著性检验检验假设:构造统计量。可以证明当为真时,。当不真时,又偏大的趋势。如观测
4、值,则接受;否则拒绝。(3)检验的值在SAS及其他一些数据分析软件中,对显著性检验问题,其输出结果通常是检验的值。在上述线性回归关系的显著性检验问题,其检验的值为,对于给定的显著水平,任何检验准则均为。2. 回归系数的显著性检验回归关系显著并不意味着每个自变量对因变量的影响都显著,可能其中的某个或某些对的影响不显著。希望从回归方程中剔除那些对的影响不显著得自变量,从而建立一个简单有效的回归方程,以便于实际应用。检验的影响是否显著等价于检验假设:由于的一个估计为。可以证明其中为的主对角线上的第个元素的平方根。由此得到检验准则为对上述统计量,其值为,于是若,则接受,反之就拒绝。四使用REG过程进行
5、多元线性回归计算PROC REG过程PROC REG过程是SAS系统中回归分析的一种,它可拟合线性回归模型,可提供多种选取最优模型的方法及模型诊断检查方法,其基本语句形式为:PROC REG options(数据集);Model dependent(因变量)=regressors(自变量)/options;Output Out=SAS data set keyword=name ;例 建立用电量KWH与空调每天使用的小时数AC和烘干器每天使用的次数DRYER的经验公式。解 data kilowatt;input kwh ac dryer;cards;35 1.5 163 4.5 266 5.0
6、 217 2.0 094 8.5 379 6.0 393 13.5 166 8.0 194 12.5 182 7.5 278 6.5 365 8.0 177 7.5 275 8.0 262 7.5 185 12.0 143 6.0 057 2.5 333 5.0 065 7.5 133 6.0 0;procplotdata=kilowatt;plot kwh*ac='*'run;procregdata=kilowatt;model kwh=ac dryer;run;printcli;%计算的预测值和95%置信限run; Plot of kwh*ac. Symbol used i
7、s '*'. kwh 95 * * 93 * 91 89 87 85 * 83 * 81 79 * * 77 * 75 * 73 71 69 67 * * 65 * * 63 * * 61 59 57 * 55 53 51 49 47 45 43 * 41 39 37 35 * 33 * * 31 29 27 25 23 21 19 17 * 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5 10.5 11.5 12.5 13.5 ac Dependent Variable: kwh Analysis of Variance (方差分析) Source D
8、F Sum of Squares Mean Square F Value Pr > F Model 2 9299.80154 4649.90077 300.24 <.0001与的线性回归关系是高度显著 Error 18 278.76989 15.48722误差方差的估计 Corrected Total 20 9578.57143 Root MSE 3.93538 R-Square复相关系数 0.9709 Dependent Mean 64.85714 Adj R-Sq修正的复相关系数 0.9677 Coeff Var 6.06777 Parameter Estimates(参数估计
9、) Variable DF Parameter EstimateStandard Error t Value Pr > |t值| Intercept 1 8.10539 2.48085 3.27 0.0043 ac 1 5.46590 0.28076 19.47 <.0001 dryer 1 13.21660 0.85622 15.44 <.0001 ObsDep Var kwh Predicted Value Std Error Mean Predict 95% CL Predict Residual 1 35.0000 29.5208 1.7965 20.4322 38.
10、6095 5.4792 2 63.0000 59.1351 1.1927 50.4958 67.7745 3.8649 3 66.0000 61.8681 1.1202 53.2718 70.4644 4.1319 4 17.0000 19.0372 2.0605 9.7045 28.3699 -2.0372 5 94.0000 94.2154 1.6663 85.2368 103.1939 -0.2154 6 79.0000 80.5506 1.6111 71.6167 89.4845 -1.5506 7 93.0000 95.1117 2.0584 85.7811 104.4423 -2.
11、1117 8 66.0000 65.0492 0.9779 56.5299 73.5686 0.9508 9 94.0000 89.6458 1.8127 80.5429 98.7486 4.3542 10 82.0000 75.5329 1.0036 67.0003 84.0654 6.4671 11 78.0000 83.2836 1.5978 74.3602 92.2070 -5.2836 12 65.0000 65.0492 0.9779 56.5299 73.5686 -0.0492 13 77.0000 75.5329 1.0036 67.0003 84.0654 1.4671 1
12、4 75.0000 78.2658 1.0372 69.7155 86.8161 -3.2658 15 62.0000 62.3163 0.9458 53.8129 70.8196 -0.3163 16 85.0000 86.9128 1.6939 77.9115 95.9141 -1.9128 17 43.0000 40.9008 1.5231 32.0352 49.7664 2.0992 18 57.0000 61.4199 1.9993 52.1462 70.6937 -4.4199 19 33.0000 35.4349 1.6015 26.5085 44.3613 -2.4349 20
13、 65.0000 62.3163 0.9458 53.8129 70.8196 2.6837 21 33.0000 40.9008 1.5231 32.0352 49.7664 -7.9008 Sum of Residuals 0 Sum of Squared Residuals 278.76989 Predicted Residual SS (PRESS) 390.52367补例1 某公司在各地区销售一种特殊的化妆品。该公司观测了15个城市在某季度内对该化妆品的销售量及各地区适合使用该化妆品的人数和人均收入,得到数据如表2所示。假设误差服从正态分布,试建立与,之间的线性回归方程并研究相应的统
14、计推断问题。补表1 化妆品销售的调查数据地区销量(箱)人口(千人)人均收入(元)123456789101112131415162120223131671698119211655252232144103212274180375205862659833019553430372236157370245032543802283823473782300824502137256040204427266020882605解 设与的观测值之间满足关系在SAS系统下,编程序如下:data sell;input y x1 x2;cards;162 274 2450120 180 3254223 375 38021
15、31 205 283867 86 2347169 265 378281 98 3008192 330 2450116 195 213755 53 2560252 430 4020232 372 4427144 236 2660103 157 2088212 370 2605;procregdata=sell;model y=x1 x2output out=sell1 p=pr=r student=stdr;procprintdata=sell1;run;输出结果如下:Analysis of Variance(方差分析的有关结果)Source DF Sum of Squares Mean Squ
16、are F Value Pr > FModel 2 53845 26922 5679.47 <.0001Error 12 56.88357 4.74030Corrected Total14 53902分析:。检验假设:至少一个非零。其检验统计量的观测值,取,则检验的,从而拒绝,这表明与的线性回归关系是高度显著的。Parameter Estimates(参数估计的输出结果)Variable DF Parameter Estimate Standard Error t Value Pr > |t|Intercept 1 3.45261 2.43065 1.42 0.1809x1
17、1 0.49600 0.00605 81.92 <.0001x2 1 0.00920 0.00096811 9.50 <.0001分析:各参数的估计分别为;各参数估计可得标准差分别为;检验假设()的统计量的观测值分别为1.42、81.92、9.50,相应的检验值分别为0.1809、<0.0001<0.05、<0.0001<0.05。表明均显著地不为零,即人口数和人均收入对销售量的影响是高度显著的,所以回归方程为。拟合值与残差Obsy x1 x2 p(拟合值) r(残差) stdr(标准化残差)1 162 274 2450 161.896 0.10428 0.
18、051942 120 180 3254 122.667 -2.66732 -1.319813 223 375 3802 224.429 -1.42938 -0.727734 131 205 2838 131.241 -0.24062 -0.114835 67 86 2347 67.699 -0.69928 -0.357826 169 265 3782 169.685 -0.68486 -0.346747 81 98 3008 79.732 1.26806 0.666418 192 330 2450 189.672 2.32800 1.228339 116 195 2137 119.832 -3
19、.83202 -1.9248210 55 53 2560 53.291 1.70948 0.9173311 252 430 4020 253.715 -1.71506 -0.9296612 232 372 4427 228.691 3.30921 1.8910013 144 236 2660 144.979 -0.97934 -0.4696014 103 157 2088 100.533 2.46693 1.2429915 212 370 2605 210.938 1.06194 0.57619第二节 曲线回归一可化为线性的曲线回归在一些实际问题中,通过专业知识或画散点图可以知道因变量与自变量
20、不是线性关系,首先猜测它们之间的曲线类型,然后通过适当的变换使其成为线性关系。如、等等。二曲线回归的例子例 用Reg过程分析发动机性能数据,并建立最适合这组数据的回归关系式,然后进行预测。表4.2 发动机马力与转速数据序号speedpower122.064.03220.062.47318.054.94416.048.84514.043.73612.037.48715.046.85817.051.17919.058.001021.063.211122.064.03序号speedpower1220.059.631318.052.901416.048.841514.042.741612.036.63
21、1710.532.051813.039.681915.045.792017.051.172119.056.652221.062.612323.065.312424.063.89输出 散点图和预测置信限图解 (1)建立数据集及画出散点图。data engine;input speed power;cards;22.0 64.03;procregdata=engine graphics;model power=speed;plotpower纵坐标*speed横坐标 / conf95对均值的95%置信区间作图pred95对预测值的95%置信区间作图;symbolv=star散点图用星号;run;分析
22、:从上图可以看出,power随着speed的增加而增加,但增加到一定位置时,有向下弯曲的趋势。说明了它们之间不是线性关系,应用曲线拟合该数据。(2)曲线拟合(二次多项式)。先建立包含speed平方值的数据集engine2,然后拟合数据。data engine2;set engine;speedsq=speed*speed;run;procregdata=engine2;model power=speed speedsq;run;输出结果及分析如下: Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr >
23、 F Model 2 2285.64535 1142.82268 749.84 <.0001 Error 21 32.00598 1.52409 Corrected Total 23 2317.65133 Root MSE 1.23454 R-Square 0.9862 Dependent Mean 52.19333 Adj R-Sq 0.9849 Coeff Var 2.36533分析:由于,所以回归方程是显著的。决定系数,误差方差的估计为1.52409。 Parameter Estimates Parameter Standard Variable DF Estimate Error
24、 t Value Pr > |t| Intercept 1 -17.66377 5.43598 -3.25 0.0038 speed 1 5.53776 0.64485 8.59 <.0001 speedsq 1 -0.08407 0.01852 -4.54 0.0002分析:由于speed的,以及speedsq的,所以回归系数显著。回归方程为。(3)类似地可以从二次回归曲线中得到预测值、预测值的置信界限,以及画出回归曲线图。只要在上面程序后加上以下程序即可:printcli;plot power*speed='a'pred.*speed='p'l9
25、5.*speed u95.*speed /overlay图形重叠symbol='L'run;Dep Var Predicted Std Error Obs power Value Mean Predict 95% CL Predict Residual 1 64.0300 63.4763 0.4296 60.7580 66.1947 0.5537 2 62.4700 59.4628 0.3289 56.8059 62.1198 3.0072 3 54.9400 54.7767 0.3526 52.1067 57.4468 0.1633 4 48.8400 49.4181 0.3
26、490 46.7501 52.0861 -0.5781 5 43.7300 43.3869 0.3479 40.7195 46.0542 0.3431 6 37.4800 36.6831 0.5238 33.8941 39.4720 0.7969 7 46.8500 46.4865 0.3388 43.8243 49.1488 0.3635 8 51.1700 52.1815 0.3566 49.5091 54.8538 -1.0115 9 58.0000 57.2039 0.3387 54.5416 59.8661 0.7961 10 63.2100 61.5537 0.3503 58.88
27、49 64.2224 1.6563 11 64.0300 63.4763 0.4296 60.7580 66.1947 0.5537 12 59.6300 59.4628 0.3289 56.8059 62.1198 0.1672 13 52.9000 54.7767 0.3526 52.1067 57.4468 -1.8767 14 48.8400 49.4181 0.3490 46.7501 52.0861 -0.5781 15 42.7400 43.3869 0.3479 40.7195 46.0542 -0.6469 16 36.6300 36.6831 0.5238 33.8941
28、39.4720 -0.0531 17 32.0500 31.2138 0.8102 28.1430 34.2847 0.8362 18 39.6800 40.1190 0.4048 37.4172 42.8209 -0.4390 19 45.7900 46.4865 0.3388 43.8243 49.1488 -0.6965 20 51.1700 52.1815 0.3566 49.5091 54.8538 -1.0115 21 56.6500 57.2039 0.3387 54.5416 59.8661 -0.5539 22 62.6100 61.5537 0.3503 58.8849 6
29、4.2224 1.0563 23 65.3100 65.2309 0.5729 62.4005 68.0613 0.0791 24 63.8900 66.8173 0.7723 63.7890 69.8456 -2.9273 Sum of Residuals 0 Sum of Squared Residuals 32.00598 Predicted Residual SS (PRESS) 52.24297三回归曲线拟合好坏的度量决定系数,均方误差,剩余标准差等。第三节逐步回归在回归分析中,一方面,为获得较全面的信息,总希望模型中包含尽可能多的自变量;另一方面,考虑到获得如此多自变量的观测值的实
30、际困难及费用,则希望回归方程中包含尽可能少的且重要的自变量。加之理论上可以证明预报值的方差随自变量数目的增加而增大,且包含较多自变量的模型拟合的计算量大,又不便于利用拟合的模型对实际问题作解释。因此在实际应用中,希望在一定的准则下,选取对因变量影响较为显著的自变量,建立一个既简单实用又合理的回归模型。一、穷举法穷举法就是从所有可能的回归方程中按一定的准则选取最优的一个或几个。设有个自变量,对任何拟合包含个自变量的所有可能的线性回归方程,就需要拟合个线性回归模型,再按一定的准则从中选取最优的或较优的。下面介绍四种准则。1复相关系数准则(准则)在一个包含个自变量的线性回归模型中(即模型中含有个参数
31、),复相关系数的定义为其中和分别表示拟合该模型的残差平方和及回归平方和,而总平方和是不随变化的一个量。越大,表明与个自变量的线性回归关系越显著,而,因此可解释为的总变化量中包含自变量的线性回归方程所描述的比例。越大,该回归方程描述因变量与总变化量的比例越大,从而拟合的误差平方和就越小,即拟合效果越好。可见是衡量拟合优劣的一个很重要的统计量。可以证明且回归方程中不断添加自变量时,的值单调不减。因而通过使达到最大来选择最优回归方程是无意义的。实际应用中,给定某个,将所有包含个自变量的个回归方程中使达到最大的回归方程作为候选模型,当增加时,这些候选模型所对应的一般开始增加较快,后逐渐趋于平缓,于是我
32、们将由较快增加到趋于平缓的分界点处的值所对应的那个回归方程选为最优的回归方程。综上所述,利用选择回归方程的准则如下:1)拟合所有可能的个线性回归方程,并计算各模型的值;2)在包含相同个数自变量的所有回归方程所对应的中,选择出的最大值,再同后一组的最大的作比较,当的增加不再显著时,便选择相应的所对应的回归方程为最优方程。2.修正的复相关系数准则或均方残差准则(或准则)由于中没有直接考虑模型中待估参数的个数的作用,所以我们将进行修正即通过的自由度将引入到中,使的不断增加对得增加起平缓作用。利用使达到最大选择最优回归方程的准则称为修正的复相关系数准则,或准则。由于达到最大选择最优回归方程的准则等价于
33、使达到最小的准则,因此在实际应用中,在一定精度要求下选择使接近于最小,但包含较少数目的自变量的回归方程作为最优方程。3准则统计量的定义为其中是包含个回归参数(因而含个自变量)的回归方程的残差平方和,表示包含所有个自变量的回归方程的均方残差。如果仅包含某个自变量的线性回归模型已能很好地拟合所给数据,则可证明由此知,对于拟合较好的回归方程,其值应和值相差不大。故此可得到利用值选择最优回归方程的方法如下:1)对每个可能的回归方程,计算其值;2)做出图(为纵坐标,为横坐标),在图中最靠近直线=的点所对应的回归方程被认为是最优回归方程。4.预报平方和准则预报平方和准则的基本思想如下:对于给定的某个自变量
34、,在数据中删除第组观测值后,利用这个自变量及其余的观测值拟合线性回归方程,并利用该拟合的方程对作预报,得预报值为,则预报误差为。依次取,得到各预报误差。令则选取使达到最小或接近最小的回归方程为最优回归方程。上式计算量较大,理论上可由下式计算其中,是矩阵的主对角线上的第个元素,是包含这个自变量的全部组观测值所成的设计矩阵。因此只需拟合一个回归方程便可求得所有的,从而得到综上所述,用选择最优回归方程的准则如下:对所有可能的个线性回归方程,分别计算它们的值,选取使达到最小或接近最小的回归方程为最优方程。二、逐步回归法逐步回归法和穷举法相比,计算量较小,一般也能得到一个较合理的“最优”回归方程,但不足
35、之处在于该方法最终只提供一个“最优”回归方程,而没有其它选择的余地。逐步回归法的基本步骤是依次拟合一系列回归方程,后一个回归方程是前一个的基础上增加或减少一个自变量,其增加或减少自变量的准则是用残差平方和的增加或减少量来衡量,一般用偏检验统计量。设模型中已有个自变量,其集合为,当不在中一个自变量加入到这个模型中时,偏统计量的一般形式为其中称为额外回归平方和,它描述了将引入到含中各变量的线性模型中(或在含中各变量及的线性模型中剔除)时,其误差平方和的减少量(或增加量)。可以证明,当含中各变量的线性回归模型为真时,。下面详细叙述逐步回归法的具体步骤。首先给定两个显著水平,一个用作选取自变量,记为;
36、另一个用作剔除自变量,记为。然后按下列步骤进行:第一步,对每个,拟合仅包含的线性回归模型。这时相应于统计量中的集合为空集,因此对每个计算设,如,则选择含的回归模型为当前模型。否则,没有自变量选入模型,选择过程结束。这时认为所有的自变量对的影响均不显著。第二步,在第一步选出的含的回归模型基础上,再将其余自变量逐个加入到此模型中,并计算设,如,则选取过程结束。第一步选出的模型(即仅含的线性回归模型)为最优模型。如,则将加入到第一步所选的模型中,即有 (20)当进入模型后,是否可剔除。为此计算,如,则被剔除,这是仅包含的回归模型为当前模型,否则(20)式为当前模型。第三步,在第二步选出的回归模型基础
37、上,再将其余自变量逐个加入到此模型中,并计算相应的偏F检验统计量的值,与相应的F分布的上侧分位数比较确定是否有其他自变量进入模型。如有新的自变量进入模型,再检验原模型中的自变量是否因这个新变量的进入而可被剔除。例如,若第二步种选择结果是模型(20),再将其余个自变量逐个加入该模型,并计算设,如,则选取过程结束。模型(20)为最优模型。如,则将加入到第一步所选的模型中,即有 (21)当进入模型后,是否可被剔除,则要计算如,则剔除中较小的一个所对应的自变量,再接着检验另一个变量是否可被剔除。若均不能被剔除,则(21)式为当前模型。重复以上步骤,直到没有自变量进入模型,同时已在模型中的自变量均不能被
38、剔除,则选择过程结束,最后一个模型即认为是最优的。例 用逐步回归法建立回归关系式,并进行预测。解 data D431;input x1 x2 x3 x4 y;cards;7 26 6 60 78.51 29 15 52 74.311 56 8 20 104.311 31 8 47 87.67 52 6 33 95.911 55 9 22 109.23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.121 47 4 26 115.91 40 23 34 83.811 66 9 12 113.310 68 8 12 109.4;procregdata=D431;model y=x1-x4 / selection=stepwise sle=0.10sls=0.10;printcli;run; Dependent Variable: yStepwise Selection: Step 1 Variable x4 Entered: R-Square = 0.6745 and C(p) = 138.7308 Analysis of Variance Source DF Sum of Squares Mean Square F Value Pr > F Model 1 1831.89616 1831.8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 创新医疗培训体验-基于移动端的教育应用探索
- 个人货品售卖合同范例
- 医疗行业中的商业创新与机遇挖掘
- 利用区块链技术提升企业运营效率的案例
- 保理转让合同范例范例
- 乌鲁木齐拆迁工程合同范例
- 医疗数据备份与恢复技术解析
- 幼儿园小班下学期工作总结,幼儿园小班班级工作总结模版
- AI与区块链技术的融合引领产业升级新趋势
- 新质生产力课堂
- 敦煌的艺术智慧树知到期末考试答案章节答案2024年北京大学
- 轨压阀打开故障原因
- 社区饮水机占地合同
- 风力发电收购协议书
- 2024年全国甲卷高考语文试卷(真题+答案)
- 个人拍摄合同范本
- 第10课和谐校园共同维护(课件)-【中职专用】高一思想政治《心理健康与职业生涯》(高教版2023·基础模块)
- 2024年04月江苏省农业农村厅直属事业单位2024年公开招考工作人员笔试历年高频考题摘选后附答案详解
- 多图中华民族共同体概论课件第十三讲先锋队与中华民族独立解放(1919-1949)根据高等教育出版社教材制作
- 伤口造口进修汇报护理
- 口才与演讲实训教程智慧树知到期末考试答案2024年
评论
0/150
提交评论