版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Statistical Analysis System 教师:薛河儒教师:薛河儒 教授教授 Email: Statistical Analysis System第七章第七章 回归分析回归分析 回归分析概念:回归分析概念: 回归分析回归分析(Regression Analysis)是研究一个变量是研究一个变量Y与其它若干变量与其它若干变量X之间相关关系的一种数学工具,它是在一组试验或观测数据的之间相关关系的一种数学工具,它是在一组试验或观测数据的基础上,寻找被随机性掩盖了的变量之间的依基础上,寻找被随机性掩盖了的变量之间的依 存关系。粗略地讲,存关系。粗略地讲,可以理解为用一种确定的函数关系去近
2、似代替比较复杂的相关关可以理解为用一种确定的函数关系去近似代替比较复杂的相关关系,这个函数称为回归函数,在实际问题中称为经验公式。回归系,这个函数称为回归函数,在实际问题中称为经验公式。回归分析所研究的主分析所研究的主 要问题就是如何利用变量要问题就是如何利用变量X,Y的观察值(样的观察值(样本),对回归函数进行统计推断,包括对它进行估计及检验与它本),对回归函数进行统计推断,包括对它进行估计及检验与它有关的假设等。有关的假设等。Statistical Analysis System目目 录录7.1 一般回归分析过程一般回归分析过程 REG7.2 多项式回归分析过程多项式回归分析过程 RSRE
3、G7.3 逐步回归分析过程逐步回归分析过程 STEPWISE7.4 非线性回归分析过程非线性回归分析过程 NLINStatistical Analysis System7.1 一般回归分析过程一般回归分析过程 REG7.1.1 概述概述 REG过程是一个通用回归过程,用最小二乘法估计过程是一个通用回归过程,用最小二乘法估计线性回归模型。线性回归模型。 此过程可以有多个模型此过程可以有多个模型(MODEL)语句,语句,输入数据可以是原始样本数据,也可以是相关阵,输入数据可以是原始样本数据,也可以是相关阵, 可打可打印模型中的参数估计值、预测值、残差及置信区间等,印模型中的参数估计值、预测值、残差
4、及置信区间等,并可作线性假设检验。并可作线性假设检验。Statistical Analysis System7.1 一般回归分析过程一般回归分析过程 REG7.1.2 过程说明过程说明 可用下列语句调用可用下列语句调用REG过程:过程: (红色表示常用的选项红色表示常用的选项) PROC REG 选项选项;/ ALL/ SIMPLE/ NOPRINT/ CORR/ USSCP label:MODEL 因变量表因变量表=回归变量表回归变量表/选项选项; / NOPRINT/ NOINT/ I/ XPX/ ALL/ P/ R/ CLM/ CLI / DW/ PARTIAL OUTPUT OUT=数
5、据集数据集 关键字关键字=名称表名称表;/ PREDICTED(或或P) /RESIDUAL(或或R)/ I95/ U95/ STDR/ TDI/ STUDENT BY 变量表变量表;/对对BY指定的变量分组分别进行分析指定的变量分组分别进行分析Statistical Analysis System7.1 一般回归分析过程一般回归分析过程 REG7.1.3 使用说明使用说明 1. 如果有一个回归变量有缺项值,那么该观测值不参与分析。如果有一个回归变量有缺项值,那么该观测值不参与分析。 2. 输入数据集可以是样本数据集,也可以是相关阵或离差阵。输入数据集可以是样本数据集,也可以是相关阵或离差阵。
6、例如,例如, 设有回归变量设有回归变量X1,X2,X3及因变量及因变量Y,其样本数据集为,其样本数据集为RAW,则可先用,则可先用CORR过程产生一个输出数据集,然后再调用过程产生一个输出数据集,然后再调用REG过程建立回归方程过程建立回归方程Y=b0+b1X1+b2X2+b3X3例如:例如: PROC CORR DATA=RAW OUTP=R; VAR Y X1 X2 X3; PROC REG DATA=R; MODEL Y=X1 X2 X3;Statistical Analysis System7.1 一般回归分析过程一般回归分析过程 REG 例例7.1 一元一次及二次回归。一元一次及二次
7、回归。 测得某种液体的热容量测得某种液体的热容量Y和温度和温度X的数据,试确定的数据,试确定X与与Y的关系式。的关系式。 程序如下:程序如下: TITLE一元一次及二次回归一元一次及二次回归; DATA CT; INPUT X Y; XSQ=X*X; CARDS; 5 1.0029 10 1.0013 15 1.0001 20 0.9990 25 0.9981 30 0.9979 35 0.9978 40 0.9981 45 0.9987 50 0.9996 ; PROC REG; MODEL Y=X/P CLI; MODEL Y=X XSQ/P CLI; OUTPUT OUT=CXX P=p
8、red L95=l95 U95=u95;/将数据将数据p,l95,u05给给CXX并输出并输出 PROC PLOT DATA=CXX;/画画CXX的散点图的散点图 PLOT pred*X=P u95*X=U l95*X=L/OVERLAY VPOS=40 HPOS=60;/在一个坐标平面内重叠显示在一个坐标平面内重叠显示 RUN; 程序中建立了两个程序中建立了两个Y与与X的关系式的关系式:Y=a+bX及及Y=a+bX+cX*X并分别以二次模型的观测值、值信并分别以二次模型的观测值、值信度为度为95的置信区间的上限及下限的置信区间的上限及下限为纵坐标,为纵坐标,X 为横坐标,在同一坐为横坐标,在
9、同一坐标系中作散点图。标系中作散点图。Statistical Analysis System一元二次回归一元二次回归 Analysis of VarianceSum of Mean Source DF Squares Square F Value ProbF Model 2 0.00003 0.00001 1775.948 0.0001 Error 7 0.00000 0.00000 C Total 9 0.00003 Root MSE 0.00008 R-square 0.9980 Dep Mean 0.99935 Adj R-sq 0.9975 C.V. 0.00842 Parameter
10、 Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 1.004940 0.00009898 10152.922 0.0001 X 1 -0.000428 0.00000827 -51.783 0.0001 XSQ 1 0.000006424 0.00000015 43.852 0.0001Statistical Analysis System一元一次回归一元一次回归Model:MODEL1Dependent Variable: Y Analysis
11、of VarianceSum of Mean Source DF Squares Square F Value ProbF Model 1 0.00001 0.00001 6.752 0.0317 Error 8 0.00001 0.00000 C Total 9 0.00003 Root MSE 0.00131 R-square 0.4577 Dep Mean 0.99935 Adj R-sq 0.3899 C.V. 0.13080 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Para
12、meter=0 Prob |T| INTERCEP 1 1.001407 0.00089295 1121.461 0.0001 X 1 -0.000074788 0.00002878 -2.598 0.0317由输出结果知,第一个线性模型在0.05水平下是显著的,预测模型为:Y=1.001407-0.000075X而二次模型在0.0001水平下是显著的,预测模型为: Y=1.004940-0.000428X+0.000006424X*X复相关系数接近1,预测值与实测值更接近,回归效果更好,因此Y与X 的关系应选用二次模型。Statistical Analysis System7.1 一般回归分
13、析过程一般回归分析过程 REG 例例7.2 多元线性回归。多元线性回归。 某地区二化螟的第一代成虫发生量某地区二化螟的第一代成虫发生量Y与四个因素有关,与四个因素有关,这四个因素是:这四个因素是: X1:冬季积雪期限:冬季积雪期限(单位为周单位为周) X2:每年化雪日期每年化雪日期(以以2月月1日为日为1) X3:二月份平均气温:二月份平均气温() X4:三月份平均气温:三月份平均气温() Y:二化螟发生总量:二化螟发生总量(头头)试建立二化螟发生总量的回归方程。试建立二化螟发生总量的回归方程。Statistical Analysis System7.1 一般回归分析过程一般回归分析过程 RE
14、G程序如下:程序如下: TITLE1多元线性回归多元线性回归; DATA AMO; INPUT Y X1-X4 ; CARDS; 9 10 26 0.2 3.6 17 12 26 -1.4 4.4 34 14 40 -0.8 1.7 42 16 32 0.2 1.4 40 19 51 -1.4 0.9 27 16 33 0.2 2.1 4 7 26 2.7 2.7 27 7 25 1.0 4.0 13 12 17 2.2 3.7 56 11 24 -0.8 3.0 15 12 16 -0.5 4.9 8 7 16 2.0 4.1 20 11 15 1.1 4.7 ; PROC REG ; MO
15、DEL Y=X1 X2 X3 X4/P CLI ; RUN;Statistical Analysis System多元线性回归多元线性回归Analysis of VarianceSum of Mean Source DF Squares Square F Value ProbF Model 4 1993.17075 498.29269 4.546 0.0329 Error 8 876.82925 109.60366 C Total 12 2870.00000 Root MSE 10.46918 R-square 0.6945 Dep Mean 24.00000 Adj R-sq 0.5417
16、C.V. 43.62157 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 138.070972 50.55376284 2.731 0.0258 X1 1 -1.008792 1.42454732 -0.708 0.4990 X2 1 -1.658353 0.82923516 -2.000 0.0805 X3 1 -11.188564 3.88023702 -2.883 0.0204 X4 1 -16.978982 6.421
17、56442 -2.644 0.0295在在0.05水平下水平下回归模型显著,回归模型显著,在在0.1水平下水平下X2,X3及及X4均显著,均显著,X1不显著。不显著。 回回归方程为:归方程为: Y=138.070972-1.008792X1-1.658353X2-11.88564X3-16.978982X4Statistical Analysis System7.2 多项式回归分析过程多项式回归分析过程 RSREG 7.2.1 概述概述 RSREG过程拟合二次响应曲面,过程拟合二次响应曲面, 回归模型中可包含回归模型中可包含自变量的平方项及交叉乘积项自变量的平方项及交叉乘积项,因此又称多项式回
18、归模因此又称多项式回归模型。型。 SAS系统中的其它过程,如系统中的其它过程,如GLM过程,也可解过程,也可解决响应曲面问题,但是决响应曲面问题,但是RSREG过程更有效。过程更有效。Statistical Analysis System7.2 多项式回归分析过程多项式回归分析过程 RSREG7.2.2 过程说明过程说明 可用下列语句调用可用下列语句调用RSREG过程:过程: PROC RSREG 选项选项; MODEL 因变量因变量=自变量自变量/选项选项; BY 变量表变量表; 1. PROC RSREG 选项选项; 常用的选项有:常用的选项有: DATA=数据集数据集 指定输入数据集,缺
19、省时为最新建立指定输入数据集,缺省时为最新建立的数据集。的数据集。 2. MODEL 响应变量响应变量=自变量自变量/选项选项; Statistical Analysis System7.2 多项式回归分析过程多项式回归分析过程 RSREG常用的选项有:常用的选项有: LACKFIT 要求进行拟合不佳检验。若选用此项,则须先将自变要求进行拟合不佳检验。若选用此项,则须先将自变量排序。量排序。 COVAR=n 指定模型中前指定模型中前n个自变量为简单回归自变量而不是二次个自变量为简单回归自变量而不是二次项。项。NOPRINT 抑制打印方差分析及典型分析。抑制打印方差分析及典型分析。 3. BY变
20、量表变量表; 对对BY变量所定义的观测值分组分别进行分析。变量所定义的观测值分组分别进行分析。7.2.4 举例举例 例例7.3 有一大麦氮磷肥用量配比试验,施氮量有一大麦氮磷肥用量配比试验,施氮量X1(公斤公斤/亩亩)为五个为五个水平,施磷量水平,施磷量(公斤公斤 /亩亩)为四个水平。测得氮磷肥配比试验平均产为四个水平。测得氮磷肥配比试验平均产量量Y(公斤公斤/亩亩),试建立,试建立Y与与X1及及X2的二元二次回归方程。的二元二次回归方程。 Statistical Analysis System7.2 多项式回归分析过程多项式回归分析过程 RSREG程序如下:程序如下: TITLE二元二次多项
21、式回归二元二次多项式回归; DATA YIELD; INPUT X1 X2 Y; LABEL X1=氮氮 X2=磷磷 Y=产量产量; CARDS; 0.0 0 84.5 0.0 2 105.5 0.0 4 156.0 0.0 6 154.0 2.5 0 100.0 2.5 2 131.5 2.5 4 177.0 2.5 6 188.0 5.0 0 142.0 5.0 2 165.5 5.0 4 211.0 5.0 6 217.0 7.5 0 175.5 7.5 2 193.0 7.5 4 245.0 7.5 6 255.0 10.0 0 161.0 10.0 2 172.0 10.0 4 23
22、3.5 10.0 6 235.5 ; PROC RSREG; MODEL Y=X1 X2; RUN;Statistical Analysis System二元二次多项式回归二元二次多项式回归 Coding Coefficients for the Independent Variables Factor Subtracted off Divided by X1 5.000000 5.000000 X2 3.000000 3.000000 Response Surface for Variable Y: 产量 Response Mean 175.125000 Root MSE 15.111235
23、 R-Square 0.9284 Coef. of Variation 8.6288 Degrees of Type I Sum Regression Freedom of Squares R-Square F-Ratio ProbF Linear 2 39193 0.8775 85.817 0.0000 Quadratic 2 2268.598214 0.0508 4.967 0.0234 Crossproduct 1 5.445000 0.0001 0.0238 0.8795 Total Regress 5 41467 0.9284 36.319 0.0000 Degrees of Sum
24、 of Residual Freedom Squares Mean Square Total Error 14 3196.891786 228.349413 Degrees of Parameter Standard T for H0: Parameter Freedom Estimate Error Parameter=0 Prob|T| INTERCEPT 1 74.147857 11.119123 6.668 0.0000 X1 1 18.047714 3.605044 5.006 0.0002 X2 1 19.627500 5.704366 3.441 0.0040 X1*X1 1 -
25、0.948571 0.323092 -2.936 0.0108 X2*X1 1 0.066000 0.427410 0.154 0.8795 X2*X2 1 -0.968750 0.844744 -1.147 0.2707对原自变量对原自变量X1、X2分别进行转分别进行转换:换:X1=(X1-5)/5 X2=(X2-3)/3模型中的线性及二次回归项均显模型中的线性及二次回归项均显著著(=0.05),交叉项不显著。,交叉项不显著。 由由原变量建立的回归方程为:原变量建立的回归方程为: Y=74.147857+18.047714X1+19.627500X2-0.948571X1*X1 +0.066
26、000X1*X2-0.968750X2*X2X1*X2与与X2*X2两项不显著。两项不显著。 输出结果还给出了用变换后的输出结果还给出了用变换后的变量建立的模型参数估计值变量建立的模型参数估计值。Statistical Analysis System7.3 逐步回归分析过程逐步回归分析过程 STEPWISE 7.3.1 概述概述 STEPWISE过程可在全体自变量中找出其作用最显著的部分自变量来建立回归方程,此过程提供五种逐步回归方法。Statistical Analysis System7.3 逐步回归分析过程逐步回归分析过程 STEPWISE 7.3.2 过程说明过程说明 可用下列语句调用
27、可用下列语句调用STEPWISE过程:过程: PROC STEPWISE 选项选项; MODEL 因变量因变量=自变量自变量/选项选项; BY 变量变量;Statistical Analysis System7.3 逐步回归分析过程逐步回归分析过程 STEPWISE 7.3.4 举例举例 例例7.4 逐步回归分析逐步回归分析 某地区某地区1963年至年至1980年年18年的春粮播种面积为年的春粮播种面积为X1(万亩万亩),化肥施用量为,化肥施用量为X2(500吨吨) ,肥猪头,肥猪头数数X3(万头万头),水稻抽穗扬花期降水量为,水稻抽穗扬花期降水量为X4及春及春粮产量粮产量Y(500吨吨),试
28、建立春粮产量的预报模型。,试建立春粮产量的预报模型。Statistical Analysis System程序如下:程序如下: TITLE1逐步回归分析逐步回归分析; DATA YIELD; INPUT X1-X4 Y; LABEL X1=播种面积播种面积 X2=施肥用量施肥用量; LABEL X3=养猪养猪头数头数 X4=降水量降水量 Y=春粮产春粮产量量; CARDS; 137 4 15 27 309 148 6 26 38 400 154 10 33 20 454 157 18 38 99 520 153 13 41 43 516 151 10 39 33 459 151 15 37 4
29、6 531 154 16 38 78 558 155 27 44 52 607 155 36 51 22 541 156 46 53 39 597 155 47 51 28 558 157 48 51 46 619 156 60 52 59 618 159 96 52 70 742 164 191 57 52 805 164 186 68 38 859 156 195 74 32 855 ; PROC STEPWISE; MODEL Y=X1-X4; RUN;Statistical Analysis System逐步回归分析逐步回归分析tepwise Procedure for Depende
30、nt Variable YStep 1 Variable X3 Entered R-square = 0.85890646 C(p)= 43.16549537DF Sum of Squares Mean Square F ProbFRegression 1 328629.63607533 328629.63607533 97.40 0.0001Error 16 53984.36392467 3374.02274529Total 17 382614.00000000Parameter Standard Type IIVariable Estimate Error Sum of Squares F
31、 ProbFINTERCEP 138.02412869 47.41140043 28595.15580345 8.48 0.0102X3 9.83361669 0.99640045 328629.63607533 97.40 0.0001Bounds on condition number: 1, 1-Step 2 Variable X2 Entered R-square = 0.92950851 C(p) = 16.56035153DF Sum of Squares Mean Square F ProbFRegression 2 355642.96789963 177821.48394981
32、 98.90 0.0001Error 15 26971.03210037 1798.06880669Total 17 382614.00000000Parameter Standard Type IIVariable Estimate Error Sum of Squares F ProbFINTERCEP 264.80789133 47.62183599 55597.57931226 30.92 0.0001X2 1.07390189 0.27706310 27013.33182430 15.02 0.0015X3 5.70949076 1.28887726 35284.00963138 1
33、9.62 0.0005Bounds on condition number: 3.139764, 12.55906- 第一步引入变量X3,第二步引入变量X2,第三步又引入变量X4,以后既没有变量剔除也没有变量引入,故最终模型中仅包含变量X3,X2和X4。输出结果给出了由这三个变量建立的线性模型的参数估计值及显著性检验等。Statistical Analysis System逐步回归分析逐步回归分析Step 3 Variable X4 Entered R-square = 0.96392407 C(p) = 4.61653451DF Sum of Squares Mean Square F Pr
34、obFRegression 3 368810.84281379 122936.94760460 124.69 0.0001Error 14 13803.15718621 985.93979901Total 17 382614.00000000Parameter Standard Type IIVariable Estimate Error Sum of Squares F ProbFINTERCEP 205.05939930 38.86931817 27440.74604456 27.83 0.0001X2 1.09987019 0.20528681 28301.61086710 28.71
35、0.0001X3 5.62602957 0.95468018 34240.38241305 34.73 0.0001X4 1.35926946 0.37194002 13167.87491417 13.36 0.0026Bounds on condition number: 3.14353, 21.85908-All variables in the model are significant at the 0.1500 level.No other variable met the 0.1500 significance level for entry into the model.Summary of Stepwise Procedure for Dependent Variable Y Variable Number Partial ModelStep Entered Removed In R*2 R*2 C(p) F ProbF 1 X3 1 0.8589 0.8589 43.1655 97.3999 0.0001 2 X2 2 0.0706 0.9295 16.5604 15.0235 0.0015 3 X4 3 0.0344 0.9639 4.6165 13.35
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 豆蔻提取物对人胃腺癌细胞生长的体外抑制效应及机制探究
- 谱聚类问题中连续优化模型的构建与分析
- 调脂颗粒醇提物对LO-2人肝细胞株B类Ⅰ型清道夫受体的调控机制探究
- 调强放射治疗对食管鳞状细胞癌患者淋巴细胞的影响及临床意义探究
- 2026浙江杭州市上城区湖滨街道社区卫生服务中心编外招聘1人考试参考题库及答案详解
- 2026罗技管理培训生校园招聘考试模拟试题及答案详解
- 语言韵律视角下单音位移与三音叠连的多维解析与关联探究
- 语篇分析:革新大学英语教学的关键路径
- 语润心田:语文教师教学言语对小学生积极心理品质的影响探究
- 语境教学赋能初中英语口语教学的实证探究
- 2026陕西榆林能源集团有限公司社会招聘应往届高校毕业生225人备考题库附答案详解
- 请结合马克思主义基本原理中有关科学社会主义的重要阐述理论联系实际谈一谈你对科学社会主义基本原则的认识(二)
- 2026届山东省青岛市高三5月三模历史试题(含答案)
- AI赋能下北师大版小学数学四年级上册《确定位置》教学设计反思
- 输变电工程多维立体参考价(2025年版)
- 宋词-教学讲解课件(全)
- 《在长江源头各拉丹冬》课件ppt
- 英语四级翻译讲解课件
- 99S203 消防水泵接合器安装图集
- GB∕T 23505-2017 石油天然气工业 钻机和修井机
- 钢结构连廊施工方案
评论
0/150
提交评论