实验四-回归分析SAS过程(1)28页_第1页
实验四-回归分析SAS过程(1)28页_第2页
实验四-回归分析SAS过程(1)28页_第3页
实验四-回归分析SAS过程(1)28页_第4页
实验四-回归分析SAS过程(1)28页_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、课时授课计划课次序号: 10 一、课题:实验四 回归分析SAS过程(1)统计推断与预测二、课型:上机实验三、目的要求:1. 掌握利用SAS建立多元回归方程的方法;2. 能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制.四、教学重点:会对实际数据建立有效的多元回归模型;能对回归模型进行运用,对实际问题进行预测或控制.教学难点:多元回归模型的建立.五、教学方法及手段:传统教学与上机实验相结合六、参考资料:应用多元统计分析,高惠璇编,北京大学出版社,2005;使用统计方法与SAS系统,高惠璇编,北京大学出版社,2001;多元统计分析(二版),何晓群编,中国人民大学出版社,2

2、008;应用回归分析(二版),何晓群编,中国人民大学出版社,2007;统计建模与R软件,薛毅编著,清华大学出版社,2007.七、作业:2.3(单) 2.4 八、授课记录:授课日期班次九、授课效果分析:实验四 回归分析SAS过程(1)2学时一、实验目的和要求掌握利用SAS建立多元回归方程的方法,掌握PROC REG过程,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制二、实验内容1. PROC REG过程一般格式:PROC REG <DATA=SAS data set>MODEL 因变量=回归变量/ <选项部分> ;其它选择语句 ;OUTPUT

3、 OUT=SAS数据集名 关键字名=输出数据集中的变量名;RUN;(1)PROC REG语句此语句是PROC REG过程的必需语句,指出要进行分析的数据集省略此项,SAS系统对最新建立的数据集进行分析(2)MODEL语句中的选项部分该语句定义建模用的因变量、回归变量(自变量)、模型的选择及拟合结果输出的选择在关键词“Model”之后,应指明因变量,等号后依次列出回归变量,每个变量间用空格分开此语句的选项部分提供了最优模型的选择方法和其他拟合结果的输出选项,其中包括:1) 选择合适的建立模型方法:SELECTION=name其中“name”可以是FORWARD(或F)、BACKWARD(或B)、

4、STEPWISE、RSQUARE、ADJRSQ、CP等之一l SELECTION=FORWARD SLENTRY=显著性水平向前选择最优模型法(FORWARD):从仅含常数项的回归模型开始,逐个加入自变量,对每一个尚不在方程内的自变量按一定显著性水平,根据其一旦进入模型后对模型的贡献大小逐步引入方程,直至再没有对模型有显著贡献的自变量“SLENTRY=显著性水平”为自变量进入模型的控制水平,写在选择方法语句之后若省去此句,则SAS系统默认的水平为SLENTRY=0.05l SELECTION=BACKWARD SLSTAY=显著性水平向后删除法(BACKWARD):先建立包含全部自变量的线性回

5、归模型,然后按一定的显著性水平从模型中逐步剔除变量缺省SLSTAY =0.1l SELECTION=STEPWISE SLENTRY =入选水平 SLSTAY=剔除水平逐步回归法(STEPWISE):按向前选择法(前进法)进入变量,再对模型内所有变量检验,看是否有因新变量引入而对模型的贡献变得不显著,若有就剔除,若无则保留,直至方程内所有变量均显著逐步法有两个控制水平,即选入水平(SLENTRY=入选水平)和剔除水平(SLSTAY=剔除水平),而且剔除水平应低于选入水平缺省SLENTRY =0.15 SLSTAY =0.15l SELECTION=RSQUARE在所有可能的回归方程中用 准则选

6、择最优模型的方法在每一个给定的自变量个数的水平上,打印出使达到最大的那个回归模型的拟合结果l SELECTION=ADJRSQ:修订的准则选择最优模型法l SELECTION=CP:准则选择最优模型法注意:以上方法只可在选项部分写出其中一种,不可并用2)对模型选取细节的选项l DETAILS:对模型选取方法FORWARD、BACKWARD、STEPWISE,若打印出每一步引入和删除自变量及相关信息选用此项如一个自变量选入模型时的偏F值、模型的值和一个自变量被剔除时模型值及有关参数估计的信息l NOINT:取消回归模型的常数项,即拟合过原点的回归方程3)对估计细节内容的选择:在选项部分,还可以选

7、择一个或多个(中间用空格分开)参数估计和拟合残差等相关内容,常用的有:l CORRB:输出参数估计的相关系数矩阵,第行第列为与相关系数估计l COVB:输出估计参数的协方差矩阵,即MSE(XTX)-1l P:输出因变量拟合值、观测值、拟合残差若已选CLI、CLM、R,无需该选项l R:输出有关残差及用于影响性分析的各量,包括拟合值的标准差、残差、学生化残差(残差除以标准差)及Cook距离(度量了当删除某观测值后,参数估计的总变化量)l I:输出矩阵输出形式为注意:以上选择内容可以和最优模型选择方法并用于Model语句的“选项部分”对BACKWARD、FORWARD、STEPWISE的模型选择方

8、法,以上估计细节内容只是最终选择模型的相应结果;对RSQUARE准则,只给出全模型的相应结果;对于ADJRSQ和CP方法,给出具有最大和值的模型的相应结果(3)OUTPUT语句建立SAS的输出结果数据集此语句建立一个与估计内容有关的SAS数据集语句格式为:OUTPUT OUT=SAS数据集名 关键字名=输出数据集中的变量名;l 关键字名为需要的统计量名,它们有PREDICTED(或P)=name:因变量拟合值,指定名称为name;RESIDUAL(或R)=name:残差及指定的名称;STUDENT=name:标准化(或学生化)残差;L95M=name:因变量期望值的95%的置信区间的置信下限;

9、U95M=name:因变量期望值的95%的置信上限;L95=name:因变量值的95%置信区间的置信下限;U95=name:因变量值的95%的置信区间的置信上限;COOKD (COOK氏D值)=name:Cooki距离,用于影响性分析的统计量;H=name:杠杆量,即,,是设计矩阵的第行;PRESS=name:值,用以估计第组观测值对拟合值的影响;DFFITS=name:用以估计第组观测值对参数估计的影响;STDP=name:期望值的标准误差STDR=name:残差的标准误差;STDI=name:预测值的标准误差;其中等号前的部分为输出语句的关键词,后面的name飞等号前的变量指定一名称 以上

10、介绍了一些常用的选项无论选项如何,PROC REG过程总是自动输出相应模型的参数估计值及其标准差,检验参数是否为零的统计量值及相应的值方差分析表、检验回归关系显著性的统计量和值,复相关系数及其平方值等2示例例1(书上例2.3)某科学基金会的管理人员欲了解从事研究工作的中、高水平的数学家的年工资额Y与他们研究成果(论文、著作等)的质量指标、从事研究工作时间、能获得资助的指标为此按一定设计方案调查了24位此类型的数学家,得数据如书上表2.3所示(1)假设误差服从分布,建立与之间的线性回归方程并研究相应的统计推断问题;(2)假设某位数学家的关于的值为,试预测他的年工资额并给出置信度为95%的置信区间

11、解:(1)建立回归模型进行统计推断 设与回归模型,观测值满足,其中()相互独立,且即 1)SAS系统回归分析的proc reg 过程进行统计推断程序:data examp2_3;input y x1-x3;cards;33.2 3.5 9 6.140.3 5.3 20 6.438.7 5.1 18 7.446.8 5.8 33 6.741.4 4.2 31 7.537.5 6.0 13 5.939.0 6.8 25 6.040.7 5.5 30 4.030.1 3.1 5 5.852.9 7.2 47 8.338.2 4.5 25 5.031.8 4.9 11 6.443.3 8.0 23 7

12、.644.1 6.5 35 7.042.8 6.6 39 5.033.6 3.7 21 4.434.2 6.2 7 5.548.0 7.0 40 7.038.0 4.0 35 6.035.9 4.5 23 3.540.4 5.9 33 4.936.8 5.6 27 4.345.2 4.8 34 8.035.1 3.9 15 5.0;run;proc reg data=examp2_3; /* 调用回归分析的reg过程 */model y=x1-x3/i; /* 模型因变量y,自变量x1、x2、x3,输出Hessian矩阵*/ run; 2)由方差分析表进行统计推断Analysis of Var

13、iance 方差分析表 Sum of MeanSource DF Squares Square F Value Pr > F方差来源 自由度 平方和(SS) 均方(MS) F0=MSR/MSE 检验p值Model p-1=3 SSR=627.81700 MSR=SSR/3=209.27233 F0=68.12 <.0001Error n-p=24-4=20 SSE=61.44300 MSE=SSE/20=3.07215Corrected Total 23 SST=689.26000 Root MSE 1.75276 R-Square 0.9109 Dependent Mean 39

14、.50000 Adj R-Sq 0.8975 Coeff Var 4.43735从方差分析表得出;线性回归关系显著性检验: 统计量,其观测值,拒绝,认为与的线性回归关系是高度显著的 另外,由方差分析表给出, 也表明线性回归关系高度显著 3) 回归参数的统计推断的SAS输出结果 Parameter Estimates参数估计表 Parameter StandardVariable DF Estimate Error t Value Pr > |t| 参数 参数估计值 标准差估计值 t值 Intercept 1 17.84693 2.00188 8.92 <.0001x1 1 1.10

15、313 0.32957 3.35 0.0032x2 1 0.32152 0.03711 8.66 <.0001x3 1 1.28894 0.29848 4.32 0.0003由程序结果给出参数估计值,检验假设,对给出显著性水平,由参数估计表最后一列检验值看出,拒绝,认为()对均有显著影响4)回归参数的区间估计进一步,取置信水平,由于,利用表中的参数估计值和相应的标准差估计式,求得的置信度95%的置信区间分别为(2)关于的预测 The REG Procedure Model: MODEL1 Dependent Variable: y X'X Inverse, Parameter E

16、stimates, and SSE 参数估计 SSEVariable Intercept x1 x2 x3 y回归参数值Intercept 1.3044630488 -0.101873528 0.0004420084 -0.121579266 17.846930636x1 -0.101873528 0.035355881 -0.001674335 -0.007647007 1.1031303951x2 0.0004420084 -0.001674335 0.0004482371 -0.000443861 0.3215196814x3 -0.121579266 -0.007647007 -0.0

17、00443861 0.0289991653 1.2889408958y 17.846930636 1.1031303951 0.3215196814 1.2889408958 SSE=61.443003635由上表1-4行,2-5列构成的矩阵为,,代入得 -经验回归方程对于给定的值,由经验回归方程可得预测值令,由直接计算可得的置信度为95%的置信区间此置信区间的长度较小,因而对实际有较好的参考价值 求因变量均值和因变量均值的置信区间:OUTPUT OUT=b L95M=u1 U95M=u2 L95=v1 U95=v2;Proc print data=b;run;结果:The SAS Syste

18、m 08:32 Wednesday, September 22, 2012 3 置信下限 置信上限 置信下限 上限 Obs y x1 x2 x3 u1 u2 v1 v2 1 33.2 3.5 9 6.1 30.8968 34.0314 28.4861 36.4421 2 40.3 5.3 20 6.4 37.4854 39.2609 34.6107 42.1356 3 38.7 5.1 18 7.4 37.4707 40.1261 34.9086 42.6882 4 46.8 5.8 33 6.7 42.5205 44.4618 39.7083 47.2740 5 41.4 4.2 31 7.

19、5 40.4232 43.8053 38.0859 46.1426 6 37.5 6.0 13 5.9 34.8524 37.6481 32.3359 40.1645 7 39.0 6.8 25 6.0 39.8817 42.3580 37.2597 44.9800 8 40.7 5.5 30 4.0 37.1681 40.2629 34.7453 42.6857 9 30.1 3.1 5 5.8 28.5559 32.1443 26.2774 34.4228 10 52.9 7.2 47 8.3 49.6366 53.5616 47.4495 55.7487 11 38.2 4.5 25 5

20、.0 36.2392 38.3482 33.4885 41.0989 12 31.8 4.9 11 6.4 33.7304 36.3460 31.1552 38.9212 13 43.3 8.0 23 7.6 41.7930 45.9327 39.6615 48.0643 14 44.1 6.5 35 7.0 44.1509 46.4352 41.4626 49.1235 15 42.8 6.6 39 5.0 42.5368 45.6863 40.1307 48.0925 16 33.6 3.7 21 4.4 32.9302 35.7734 30.4289 38.2746 17 34.2 6.

21、2 7 5.5 32.1359 35.9164 29.9103 38.1420 18 48.0 7.0 40 7.0 46.0530 48.8515 43.5374 51.3670 19 38.0 4.0 35 6.0 39.6197 42.8729 37.2446 45.2480 20 35.9 4.5 23 3.5 33.0568 36.3778 30.7017 38.7328 21 40.4 5.9 33 4.9 40.0280 42.5347 37.4163 45.1464 22 36.8 5.6 27 4.3 36.9005 39.5954 34.3514 42.1445 23 45

22、.2 4.8 34 8.0 42.6520 46.1184 40.3390 48.4313 24 35.1 3.9 15 5.0 32.2029 34.6304 29.5643 37.2690说明:10程序窗口直接调入Txt数据文件做回归分析Example2_3数据存在桌面ex2-3.txt文件里,无变量名,调用Txt文件做回归分析,程序:DATA examp2_3; INFILE 'C:UsersAdministratorDesktopex2-3.txt' INPUT Y X1 X2 X3;PROC PRINT;RUN;proc reg data=examp2_3; /* 调

23、用回归分析的reg过程 */model Y=X1-X3/i; /* 模型因变量y,自变量x1、x2、x3,输出Hessian矩阵*/ run; 输出结果同上。 20 菜单操作调入Excel文件,进行回归分析1) 建立SAS数据集FileImport Data选Excel 97,找examp2_3.xls文件点OKOption选项选第一行为变量名,点next在逻辑库文件选Work(临时库,也可事先建立一个永久数据库),取个文件名a点击finish, 则在Work库里就出现a文件(如想将结果保存,可点Next,选择存放地址,建立一个SAS文件,如a.sas)。2)导入SAS数据集点击solutis

24、tsAnalysisAnalystFile下打开Open by sas data-在Select Liberty work找到a文件,双击;3)统计分析Statises-regresslinear Y导入到dependent,X1,X2,X3导入到explanatory解释变量(全部自变量拟合),点OK得步骤(1)结果;4)进一步的选择一些选项:model选项下多种选则,可选,默认full moden(完整的),Forward(向后), Backward(向前选取变量),stepwise(逐步回归), R-square(r2准则)如,Adiusted R square(修正R2准则)等默认,全

25、模型。Tests检验:可以选择显著性水平 ,默认0.05.Predictions预测:Predict original sample(原始数据预测),List predictions(列出预测),Add residuals(残差预测),Add residuals limits(残差预测区间)。Predictions 11:45 Thursday, September 23, 2013 1 Lower Upper Predicted prediction prediction Residual Obs Y X1 X2 X3 Y limit of Y limit of Y of Y 原始数据 Y的

26、预测值 Y的置信区间下限 置信上线 Y的残差 1 33.2 3.5 9 6.1 32.4641 30.8968 34.0314 0.73590 2 40.3 5.3 20 6.4 38.3731 37.4854 39.2609 1.92686 3 38.7 5.1 18 7.4 38.7984 37.4707 40.1261 -0.09841 4 46.8 5.8 33 6.7 43.4911 42.5205 44.4618 3.30886 5 41.4 4.2 31 7.5 42.1142 40.4232 43.8053 -0.71425 6 37.5 6.0 13 5.9 36.2502

27、34.8524 37.6481 1.24978 7 39.0 6.8 25 6.0 41.1199 39.8817 42.3580 -2.11985 8 40.7 5.5 30 4.0 38.7155 37.1681 40.2629 1.98450 9 30.1 3.1 5 5.8 30.3501 28.5559 32.1443 -0.25009 10 52.9 7.2 47 8.3 51.5991 49.6366 53.5616 1.30090 11 38.2 4.5 25 5.0 37.2937 36.2392 38.3482 0.90629 12 31.8 4.9 11 6.4 35.0

28、382 33.7304 36.3460 -3.23821 13 43.3 8.0 23 7.6 43.8629 41.7930 45.9327 -0.56288 14 44.1 6.5 35 7.0 45.2931 44.1509 46.4352 -1.19305 15 42.8 6.6 39 5.0 44.1116 42.5368 45.6863 -1.31156 16 33.6 3.7 21 4.4 34.3518 32.9302 35.7734 -0.75177 17 34.2 6.2 7 5.5 34.0262 32.1359 35.9164 0.17385 18 48.0 7.0 4

29、0 7.0 47.4522 46.0530 48.8515 0.54778 19 38.0 4.0 35 6.0 41.2463 39.6197 42.8729 -3.24629 20 35.9 4.5 23 3.5 34.7173 33.0568 36.3778 1.18274 21 40.4 5.9 33 4.9 41.2814 40.0280 42.5347 -0.88136 22 36.8 5.6 27 4.3 38.2479 36.9005 39.5954 -1.44794 23 45.2 4.8 34 8.0 44.3852 42.6520 46.1184 0.81485 24 3

30、5.1 3.9 15 5.0 33.4166 32.2029 34.6304 1.68336Plot 选项:Plot observed vs predicted, Plot observed vs independent, Confidence limits;和散点图,接近直线,说明二者高度相关。 X1和Y回归关系散点图,X2和Y回归关系散点图X3和Y回归关系散点图.Residual:残差部分,选项如下图:残差图散点图学生化残差散点图散点图累积正态残差QQ图残差正态QQ图残差和标准化残差散点图自变量X1残差图自变量X1标准化残差图自变量X2残差图自变量X3残差图预测值和标准化残差散点图30 M

31、ATLAB 编程运行>> X1=3.5 5.3 5.1 5.84.2 6 6.8 5.5 3.1 7.2 4.5 4.9 86.5 6.6 3.7 6.27 4 4.5 5.9 5.64.8 3.9'>> X2=9 2018 33 31 13 25 30 5 47 25 11 23 35 39 21 7 40 35 23 33 27 34 15'>> X3=6.1 6.4 7.4 6.77.5 5.9 6 4 5.88.3 5 6.4 7.6 75 4.4 5.5 7 6 3.5 4.9 4.3 8 5'>> Y=33.2

32、 40.3 38.7 46.8 41.4 37.5 39 40.7 30.1 52.9 38.2 31.8 43.3 44.1 42.8 33.6 34.2 48 38 35.9 40.4 36.8 45.2 35.1'>> X=ones(24,1),X1,X2,X3;>> b,bint,r,rint,stats=regress(Y,X);>> b,bint,stats ,rcoplot(r,rint);b = 17.8469 1.1031 0.3215 1.2889bint = 13.6711 22.0228 0.4157 1.7906 0.244

33、1 0.3989 0.6663 1.9116置信区间均不包含0,回归参数检验显著。stats = 0.9109 68.1192 0.0000 3.0722由残差图看,除第3、12、19个数据外,其余残差的置信区间均包含0点,第3、12、19个点视为异常点. 例2(书上例2.4) 利用上例2.3关于数学家年工资额以及研究成果质量指标、从事研究工作时间、获得资助指标的观测数据进一步检验:(1)对线性回归模型,检验是否有;(2)检验的交叉乘积项对的综合影响是否显著解:(1)约简模型假设检验proc reg过程检验程序:data examp2_4;input y x1-x3;cards;33.2 3.

34、5 9 6.140.3 5.3 20 6.438.7 5.1 18 7.446.8 5.8 33 6.741.4 4.2 31 7.537.5 6.0 13 5.939.0 6.8 25 6.040.7 5.5 30 4.030.1 3.1 5 5.852.9 7.2 47 8.338.2 4.5 25 5.031.8 4.9 11 6.443.3 8.0 23 7.644.1 6.5 35 7.042.8 6.6 39 5.033.6 3.7 21 4.434.2 6.2 7 5.548.0 7.0 40 7.038.0 4.0 35 6.035.9 4.5 23 3.540.4 5.9 3

35、3 4.936.8 5.6 27 4.345.2 4.8 34 8.035.1 3.9 15 5.0;run;data aa;set examp2_4;z=x1+x3; /* 约简模型的新自变量z*/run;proc reg data=aa;model y=z x2; /* 建立因变量Y,自变量Z、x2的约简回归模型 */run;约简模型的方差分析 The REG Procedure Model: MODEL1 Dependent Variable: y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr &

36、gt; F Model 3-1=2 627.38353 313.691 F0=106.46 p0<.0001 Error =24-3=21 SSE(R)=61.87647 MSE=2.94650 Corrected Total 23 689.26000 Root MSE 1.71654 R-Square =0.9102 Dependent Mean 39.50000 Adj R-Sq 0.9017 Coeff Var 4.34566检验假设检验p值,拒绝假设,认为对有显著影影响约简模型的回归系数的统计诊断 Parameter Estimates (参数估计) Parameter Stan

37、dardVariable DF Estimate Error t Value Pr > |t|参数 参数估计值 标准差估计值 t值 Intercept 1 17.89290 1.95684 9.14 <.0001z 1 1.20345 0.18912 6.36 <.0001x2 1 0.31865 0.03556 8.96 <.0001回归参数检验结果:,说明均对对有显著影响(2)约简模型与全模型比较选择全模型:,由例2.3知残差平方和,回归参数个数,自由度,检验,回归显著且,参数估计均显著经验回归方程为约简模型:相应于假设约简模型为残差平方和回归参数个数自由度,检验p值,参数估计均显著。经验回归方程构造两模型比较的检验统计量观测值 检验值 由此认为成立,回归模型可用约简模型描述此时回归方程为说明:和例2.3建立的全模型相比,对应的回归系数估计值相差不大,且两回归方程对所给数据有几乎相同的拟合优度但上述方程可使我们对与的相互关系有更进一步的了解(3)检验的交叉乘积项对的综合影响全模型:引入交叉乘积项全模型拟合检验程序data bb;set examp2_4;z1=x1*x2; /* 加交叉乘积项的全模型的新变量*/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论