




已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章 回归分析回归分析是根据统计资料建立经验公式的统计方法。回归分析可用于预测和控制,在自然科学,社会科学和应用技术中都有重要应用,它是统计学最重要的工具。回归分析方法和理论从 Gauss 提出最小二乘法开始,至今已近 200 年,目前仍在蓬勃发展,例如在回归诊断、维度缩减、半参数回归、非参数回归、LOGISTIC 回归等方向不断有新的突破。本章介绍参数回归分析模型及其参数估计、检验、模型选择等理论和有关计算方法。参数回归分析主要分三类:线性回归、可以转化为线性回归的回归和非线性回归。本章依次介绍这三类模型。有关回归分析的一般理论可参见陈希儒(1984) ,方开泰(1988) ,Seber(1976) ,何晓群(1997) ,何晓群、刘文卿(2001) 、Richard(2003) 。Robert(1999)和王吉利(2004)提供了许多有趣的应用例子。第一节 多元线性回归模型一、两个例子例 1 试验测定迟熟早籼广陆矮 4 号在某年 5 月 5 日至 8 月 5 日播种时(每隔 10 天播一期) ,播种至齐穗的天数(y)和播种至齐穗的总积温(x,日度)的关系,数据列于下表,建立播种至齐穗的天数与总积温两者之间的关系。y x播种至齐穗的天数 总积温(日度) 70 1616.367 1610.955 1440.052 1400.751 1423.352 1471.351 1421.860 1547.164 1533.0例2 某站为预报早稻播种育秧期间(下/3-下/4)的低温阴雨日数,通过相关普查和点聚图分析,最后选择了三个相关较好的预报因子:X1-前一年9月份的阴雨日数距平;X2-前一年10月份-当年1月份的阴雨日数距平和;X3-当年1月份的阴雨日数距平.y- 历年早稻播种育秧期间的低温阴雨日数距平试建立y与X1、X2、X3之间的关系。年份 Y X1 X2 X31981 -8 0 -6 21982 4 2 20 31983 7 -1 19 41984 -7 -5 -16 -21985 12 6 5 11986 6 3 -20 -21987 -14 -10 -10 -21988 4 6 13 21989 9 5 29 21990 3 -2 6 51991 -1 3 -32 31992 4 1 11 -51993 7 7 11 41994 -3 -9 -4 21995 5 2 3 01996 -11 -3 4 -61997 -8 0 -53 -51998 -1 4 4 -51999 -11 -9 8 -72000 6 -5 29 2二、基本概念常见的变量间关系分为两大类:确定性关系和相关关系。确定性关系也称为函数关系,具有确定性关系的自变量完全确定因变量的值。现实世界中大量存在相关关系,具有相关性关系的变量间不能完全确定。例如人身高与脚长是两个变量,它们关系密切,但是脚长不能完全确定认的身高,脚长为 25 公分的人,他的身高是不确定的。又如松树的胸径与材积关系很密切,但是胸径不能完全确定材积。例 1 中播种至齐穗的天数与总积温,但是 x 不能完全决定 y 的大小;例 2 中的 y 与X1、X2、X3。具有相关关系的变量间由一些变量可以大体预报其它变量。前者称为解释变量,也叫做自变量或预报因子,后者称为响应变量,也叫做因变量或预报对象。我们希望得到由解释变量预报响应变量的公式,以便通过解释变量去预测或控制响应变量。回归分析是建立预报公式的一种方法。其特点是:首先确定预报公式的类型,列出待估参数;然后取得解释变量和响应变量的多次观测值,这些观测值可能是实验得到的,也可能是调查出的;再用这些数据进行拟合。计算方法是数学的一个分支,它也包含数据拟合,回归分析与计算方法的数据拟合不同,计算方法的数据拟合只估计未知参数,而回归分析不仅仅估计参数,而且要对拟合的结果作统计分析,因此必须对观测值建立数学模型。最简单的回归模型是多元线性回归模型。解释变量和未知参数都是线性出现的回归模型称为线性回归模型。回归分析的目的是用一个回归公式来做预测。回归公式等号左边的值是因变量,等号右边的是一系列的自变量及参数(又称回归系数,它是一个常数)的线性组合。1、线性回归模型定义 pjjXY10其中, 是因变量; 是自变量; 均是参数,它们的值由统计估计而来; 是误j j,0 差。称为多元线性回归模型,其中 称为回归系数。pDE,.;102为了确定线性回规模型的未知参数,必须有解释变量和响应变量的若干次观测值。则有:npnn pxy101101记 , , ,npnpknxX.1221 pk.10n.21nY.21其中 称为回归设计矩阵,通常简称为设计矩阵,一个线性回归模型可以用矩阵表示如下:XY2、线性回归的假设线性回归的重要假设如下:(1) 所有自变量是固定的,或由实验结果导出;(2) 回归模型是正确的;(3) 自变量的测量没有误差;(4) 误差的平均值是 0;(5) 误差的方差是常数,其值以 表示;2(6) 误差之间不相关。(7) 当我们要检验回归模型是否有效时(Significance) ,我们附加另外一个假设,误差服从正态分布(1)-(6)可以表示为:IVarE2)(0三、参数的估计如何利用观测值估计模型中的参数 ?通常用最小二乘法,即选择适当 使p,.10 离差平方和 )()().()( 2110 XyxySjpnj jj 最小。早在 1809 年 Gauss 就提出称为最小二乘法。的最小二乘估计是。 YXT1)(称为 的拟合值(回归值) ,拟合向量记为jpjj xxy.10 jyXyn.1称为第 j 次纪录观测的残差。残差向量jpjjj xxy.10。XYn.1残差平方和: 2SEni ipii xxy1 210).(回归平方和: niiYXR12)(总平方和: niiST12)(误差方差 的估计为均方误差 MSE,即2)1/(2mnSEpM定理 的估计具有如下性质2,(1) ( 是 无偏估计) 。 。)(E 12)()XVarT(2) , ( 是 的无偏估计) 。22(3) 是的线性无偏最小方差估计(在 的线性无偏估计中, 方差最小) 。即通常 所称 Gauss-Markov 定理。(4) 正态性:若 则 ;若观测个数 n 很大,),0(2IN )(,12XNT即使 不服从正态分布,仍近似地有 。(5) 单个参数的分布:令 ,若 则 的第 i+1 个分量p.10),0(2N,其中 是 对角线上第)(,1,2iTii XN1,)(iTX1)(XT个元素。从而可用 估计 的标准差。1 1,2iiSDERi(6) 若 则有 SST=SSR+SSE。若再有 ,则),0(2I pi .20。)1,()1/(pnFpnSER(7) 若 则 SSE 与 独立。从而:,02IN。)1()/)( pntSTDRii(8) 若 则 的极大似然估计与最小二乘估计相同。,2I四、假设检验存在两个问题:(1)y 与 是否有较好的线性关系?即回归模型是否有意义?如px,.1果真正的模型中 ,或 的绝对值都很小,则 的值 对 y 影响都ii2,0ipx,.1很小,不能起预报作用,我们认为 y 与 没有较好的线性关系,回归模型没有意义。px,.1(2)回归模型能否简化,即 中是否存在某个自变量,它与 y 无关或它能被其它自变mx,.1量代替,因而回归模型中可以删去这个自变量?为此可以做如下两类检验。1、线性关系显著性 F 检验即要检验。piHi,.21,0:定理指出 SST=SSR+SSE,其中总方差 SST 反映响应变量的发散程度;回归平方和 SSR 反映由回归引起的分散性,SSE 反映误差变量的分散性。若 成立,SSR/SSE 应当很小,若0HSSR/SSE 很大,则否定 。为此取统计量 SSR/SSE。0定理 若 成立,则.:210pH)1,()/(nFnSERF当 F 很大时(超过临界值 ) ,则回归效果显著。)(1,pnF因此,只需计算 F 的值,并做 F 检验即可,若 F 很大,则否定 。0H回归模型线性关系显著性也有其他检验方法:复相关系数平方,STER/12修正的复相关系数平方。)/(1)(2mnRnADJQ由于 )();/(122FR复相关系数平方和修正的复相关系数平方越大,线性关系越显著。由于复相关系数和修正的复相关系数的分位数表不易查到,我们不介绍用这两个统计量做检验的方法。2、单个解释变量显著性 t 检验。常常要考虑第 i 个解释变量 是否在模型中有作用。一个好的模型,所有变量都应起ix作用。如果 的系数 为零或绝对值很小, 无作用。为此对每个 i 要检验ixii,0:0iH定理 当 成立时,有i= 。it )1()/)( pntSTDERii若 绝对值很大,则应当否定 。当 时拒绝原假设,认为 起作i iH0)(2ti yxi对用。五、预报做预报是回归分析的重要目的。对回归问题,当 得到后,pxy.10称为经验回归方程。有了经验回归方程,若再给定解释变量的值 ,就可得到预报值),.(1opxuopoxxy.10但是,y 的真值满足 ,存在预报误差opxy.10ox)(.)()(100由此可见,预报误差由两部分组成可得预报误差是零均值的。预报值的置信区间理论比较复杂。可以如下计算:设解释变量的值为 ,),.(1omxu令 , ,则概率为 的预报区间端点为),.1(0omxX010)(Xv1预测值的标准误差 2预测误差的标准差 1预测值的置信区间 2/122/0 )()(vmnty六、计算结果例1(续)data han;input y x;cards;70 1616.3 67 1610.9 55 1440.0 52 1400.7 51 1423.352 1471.3 51 1421.8 60 1547.1 64 1533.0;PROC REG;Model y=x;run;运算结果:Analysis of VarianceSum of MeanSource DF Squares Square F Value Pr FModel 1 402.75088 402.75088 68.35 |t|Intercept 1 -69.70404 15.46820 -4.51 0.0028x 1 0.08536 0.01033 8.27 FModel 3 790.89946 263.63315 13.53 0.0001Error 16 311.65054 19.47816Corrected Total 19 1102.55000Root MSE 4.41341 R-Square 0.7173Dependent Mean 0.15000 Adj R-Sq 0.6643Coeff Var 2942.27112Parameter EstimatesParameter StandardVariable DF Estimate Error t Value Pr |t|Intercept 1 0.34059 0.99172 0.34 0.7357X1 1 0.82384 0.20358 4.05 0.0009X2 1 0.12874 0.05317 2.42 0.0277X3 1 0.59901 0.29557 2.03 0.0597由上面可知:回归方程为:Y=0.34059+0.82384X1+0.12874X2+0.59901X3可知早稻育秧期间的低温阴雨日数与头年9月份的阴雨日数距平关系最密切。从上面也可以看出回归方程的线性关系是显著的。但实际上除X1外,其余回归系数都不显著。1、 建立了青海省海北地区土壤湿度与旬降水、旬平均气温之间的回归关系分析:在模式的建立过程中,采用了青海省海北牧业气象试验站3月18日至10月28日23旬的土壤湿度、旬降水、旬平均气温的资料,用多元统计回归建立了方程。方差分析表中,给出Sr =6647.21656 ,Se= 16148 ,自由度为2和20, F = 3323.60828 /807.38700= 4.12,还给出服从自由度(2,20)的F 分布随机变量大于 4.12的概率为0.0318 FModel 2 6647.21656 3323.60828 4.12 0.0318Error 20 16148 807.38700Corrected Total 22 22795Root MSE 28.41456 R-Square 0.2916Dependent Mean 243.04348 Adj R-Sq 0.2208Coeff Var 11.69114Parameter EstimatesParameter StandardVariable Label DF Estimate Error t Value Pr |t|Intercept Intercept 1 244.93781 13.45982 18.20 ; BY variable-list;FREQ variable;ID variable;VAR variable-list;ADD variable-list;DELETE variable-list;REWEIGHT | ;WEIGHT variable;label: MTEST ;OUTPUT OUT= SAS-data-set keyword= names .;PAINT | ;PLOT ,.;PRINT ;REFIT;RESTRICT equation1, . equationk;label: TEST equation1, . equationk / option;其中,PROC REG 与 MODEL 两道指令是必须的,不可省略。一个 REG 程序种可含多个 MODEL 指令。在每个 MODEL 指令之后,可有一个 OUTPUT 指令及多个 RESTRICT,TEST,MTEST 等指令。至于 WEIGHT,FREQ,ID 指令则可有可无,而且只需使用一次,其效力即可贯穿整个 REG 程序。PROC REG options; 下列选项可被用于 PROC REG 语句中: ALL ANNOTATE= SAS-data-setCORR COVOUTDATA= SAS-data-set GOUT= graphics-catalogGRAPHICS NOPRINTOUTEST= SAS-data-set OUTSEBOUTSSCP= SAS-data-set OUTSTBOUTVIF PCOMIT= valuesPRESS RIDGE= valuesSIMPLE SINGULAR= nUSSCP(1) DATA=输入文件名称(2) OUTTEST=输出文件名称(3) COVOUT(4) OUTSSCP=输出文件名称(5) NOPRINT 所有分析结果皆不印出(6) SIMPLE 印出所有参与分析的变量的简单描述性统计量(7) USSCP(8) ALL 要求印出所有的分析结果(9) CORR 要求打印在 MODEL 指令或 VAR 指令中界定之变量间的相关系数矩阵label: MODEL dependents= regressors / ;下列选项可被用于 MODEL 语句中: ACOV ADJRSQ AICALL B BEST=BIC CLI CLMCOLLIN COLLINOINT CORRBCOVB CP DETAILSDW GMSEP GROUPNAMES=I INCLUDE= INFLUENCEJP MSE NOINTNOPRINT OUTSEB OUTSTBOUTVIF P PARTIALPC PCOMIT= PCORR1PCORR2 PRESS RRIDGE= RMSE SBCSCORR1 SCORR2 SELECTION=SEQB SIGMA= SLENTRY=SLSTAY= SP SPECSS1 SS2 SSESTART= STB STOP=TOL VIF XPX其后的选项可分为六类:第一类选项 此处有三个选项与报表的打印有关;(1) NOPRINT 不打印 MODEL 指令所界定的分析结果(2) ALL 打印 MODEL 指令所有分析的结果(3) NOINT 规定回归模型中不包含截距第二类选项 控制计算过程的打印,有两个选项;(1) XPX 印出回归模型的 )(X(2) I 印出上述矩阵的逆矩阵。第三类选项 界定有关参数估计值的有关事宜,有十六个SS1 SS2 STB TOL VIF COVB CORRB SEQBCOLLIN COLLINNOINT ACOV SPEC PCOOR1 PCOOR2SCORR1 SCORR2第四类选项 此类选项有七个,均与预测值、预测误差有关;(1)P 由输入数据及回归模型预测值因变量的值。这个选项将产生包含原数据、因变量的实际值与预测值以及预测误差的报表(2) R(3) CLM 印出各个预测平均数的 95%置信区间之上限与下限(4) CLI(5) DW(6) INFLUENCE(7) PARTIAL第五类选项 界定回归模型的选择,有下列十个选项:(1) SELECTION=FORWARD(或 F)SELECTION=BACKWARD(或 B)SELECTION=STEPWISESELECTION=MAXR 最大相关法SELECTION=MINR 最小相关法SELECTION=RSQUARE复相关系数平方法SELECTION=ADJRSQ 矫正后的复相关系数法SELECTION=CP CP 法SELECTION=NONE 进行全型的回归分析(2) DETAILS(3) INCLUDE=正整数 这个选项规定将 MODEL 指令的前几个变量纳入每个回归模型里;(4) START=正整数 规定分析的第一个回归模型内至少应包括的自变量之数目(5) STOP=正整数 这个指令指示 REG 程序搜寻出一个含 STOP=个数的最佳回归模型后即停止(6) SLENTRY(7) SLSTAY(8) BEST(9) GROUPNAMES(10) NOINT第六类选项 与 SELECTION=RSQUARE,ADJRSQ,CP 的设定有关,有十四个选项;ADJRSQ AIC BIC CP GMSEP JP MSERMSE PC SBC SIGMA SP SSE BBY variable-list;REG 程序依据此指令所列举的变量将文件分成几个小的文件,然后对没一个小的文件分别执行分析。当选用此指令时,文件内的数据必须先按照 BY 变量串的值做由小到大的重新排列,这个步骤可籍 PROC SORT 达成FREQ variable;FREQ 变量的值表示各观察值重复出现的次数ID variable;指明一个变量,其功用在于识别观察体VAR variable-list;此指令的功用是要求将那些在 MODEL 指令中未提到的数值变量也一起包括在向量内乘积矩阵里,此选项须与选项 OUTSSCP=并用ADD variable-list;DELETE variable-list;REWEIGHT | ;WEIGHT variable;label: MTEST ;OUTPUT OUT= SAS-data-set keyword= names .;OUT=输出文件名称,这个文件含原输入文件的所有变量,以及本指令中所提到的变量keyword=变量名称串;下列是十六种关键字及其定义:(1) PREDICTED(P)(2) RESIDUAL(R)(3) L95M(4) U95M(5) L95(6) U95(7) STDP(8) STDR(9) STDI(10) STUDENT(11) COOKED(12) H(13) PRESS(14) RSTUDENT(15) DFFITS(16) COVRATIOPAINT | ;PLOT ,.;PRINT ;REFIT;RESTRICT equation1, . equationk;label: TEST equation1, . equationk / option;EXAMPLE1 预测人体吸入氧气的效率本资料的数据来自一群中年男子的健康资料。每一名男士提供七个数据,分别是:年龄(AGE) ,体重(WEIGHT) ,吸氧的效率(OXY) ,跑 1。5 英里所需的时间以分钟计(RUNTIME) ,休息时的心跳(RSTPULSE) ,跑步时的心跳(RUNPULSE) ,和最高心跳率(MAXPULSE) 。其中吸氧效率(OXY)是因变量,另外六个是自变量。/* This data set contains 31 observations . */data fitness;input age weight oxy runtime rstpulse runpulse maxpulse;cards;44 89.47 44.609 11.37 62 178 182 51 69.63 40.836 10.95 57 168 17240 75.07 45.313 10.07 62 185 185 51 77.91 46.672 10.00 48 162 16844 85.84 54.297 8.65 45 156 168 48 91.63 46.774 10.25 48 162 16442 68.15 59.571 8.17 40 166 172 49 73.37 50.388 10.08 67 168 16838 89.02 49.874 9.22 55 178 180 57 73.37 39.407 12.63 58 174 17647 77.45 44.811 11.63 58 176 176 54 79.38 46.080 11.17 62 156 16540 75.98 45.681 11.95 70 176 180 56 76.32 45.441 9.63 48 164 16643 81.19 49.091 10.85 64 162 170 50 70.87 54.625 8.92 48 146 15544 81.42 39.442 13.08 63 174 176 51 67.25 45.118 11.08 48 172 17238 81.87 60.055 8.63 48 170 186 54 91.63 39.203 12.88 44 168 17244 73.03 50.541 10.13 45 168 168 51 73.71 45.790 10.47 59 186 18845 87.66 37.388 14.03 56 186 192 57 59.08 50.545 9.93 49 148 15545 66.45 44.754 11.12 51 176 176 49 76.32 48.673 9.40 56 186 18847 79.15 47.273 10.60 47 162 164 48 61.24 47.920 11.50 52 170 17654 83.42 51.855 10.33 50 166 170 52 82.78 47.467 10.50 53 170 17249 81.42 49.156 8.95 44 180 185;proc reg data=fitness outest=regout;oxyhat: model oxy=age weight runtime runpulse maxpulse rstpulse/selection=stepwise;model oxy=age weight runtime runpulse maxpulse rstpulse/selection=maxr;run;Stepwise Selection: Step 4Variable maxpulse Entered: R-Square = 0.8430 and C(p) = 4.9695Analysis of VarianceSum of MeanSource DF Squares Square F Value Pr FModel 4 717.69550 179.42388 34.90 FIntercept 100.07910 11.57739 384.21858 74.72 F1 runtime 1 0.7434 0.7434 15.4416 84.01 FModel 3 6805.87146 2268.62382 5.688 0.0092Error 14 5583.73965 398.83855C Total 17 12389.61111Root MSE 19.97094 R-square 0.5493Dep Mean 81.27778 Adj R-sq 0.4527C.V. 24.57122Parameter EstimatesParameter Standard T for H0:Variable DF Estimate Error Parameter=0 Prob |T|INTERCEP 1 43.650072 18.05441597 2.418 0.0298X1 1 1.785339 0.53976542 3.308 0.0052X2 1 -0.083291 0.42037025 -0.198 0.8458X3 1 0.161022 0.11157815 1.443 0.1710所以回归方程是32116.08.75.643xxyOutput StatisticsDep Var Predict Std Err Lower95% Upper95%Obs Y Value Predict Predict Predict Residual1 64.0000 65.4745 10.401 17.1803 113.8 -1.47452 60.0000 68.6951 10.983 19.8111 117.6 -8.69513 71.0000 53.5599 11.707 3.9100 103.2 17.44014 61.0000 67.1698 8.623 20.5138 113.8 -6.16985 54.0000 59.5425 9.427 12.1766 106.9 -5.54256 77.0000 61.0769 13.912 8.8754 113.3 15.92317 81.0000 64.1744 10.165 16.1115 112.2 16.82568 93.0000 77.9395 6.269 33.0451 122.8 15.06059 93.0000 89.8013 9.982 41.9151 137.7 3.198710 51.0000 79.3489 8.438 32.8495 125.8 -28.348911 76.0000 77.9019 5.110 33.6885 122.1 -1.901912 96.0000 99.4165 7.364 53.7642 145.1 -3.416513 77.0000 102.3 7.120 56.8297 147.8 -25.303814 93.0000 90.3032 8.953 43.3627 137.2 2.696815 95.0000 107.3 8.343 60.8583 153.7 -12.278816 54.0000 67.0699 7.345 21.4312 112.7 -13.069917 168.0 119.2 11.277 70.0026 168.4 48.807318 99.0000 112.8 9.867 64.9748 160.5 -13.750619 . 82.3678 6.521 37.3090 127.4 .Sum of Residuals 0Sum of Squared Residuals 5583.7397Predicted Resid SS (Press) 10720.7292上表是预报值表,第一列给出观测值的序号;第二列给出响应变量的观测值;第三列给出响应变量的预报值;第四列给出预报值的标准差;第五列给出预报值为95%置信下限,第六列给出预报值的95%置信上限。从上表可见18次观测也给出预报值和95%置信区间;对第19次观测给出预报值为82.3678,95%置信区间为(37.3090,127.4)。第三节 多元线性回归模型的选择有多个解释变量的方幂或交叉积当作预报因子,当用三次,四次多项式拟合时,随着多项式次数升高,预报因子个数急剧增加。例如地质学中的趋势面分析,自变量个数为2,多项式次数为 4 时,预报因子个数为 1+2+3+4+5=15。在气象,经济等问题中,有时解释变量本身个数也非常多,例如解释变量是在印度洋 20 个地点,每个地点 9 个时段的温度,这时解释变量有 180 个。过多的自变量不仅使计算复杂,也不能抓住主要因素,还给计算带来麻烦(XX 不满秩或行列式近于零),从而降低精度。实际上,自变量间很可能存在相关关系,有的自变量可以用另几个自变量很好地线性表示,这样的自变量应当从模型中删去。所以我们应当从许多解释变量中选出一些解释变量,由它们组成的回归模型,既包含起显著作用的解释变量,同时又使解释变量个数尽可能少。选择解释变量过程称为模型选择。怎样选择自变量个数少的回归模型呢?有时可以从实际意义上判定,例如某种植物产量的回归模型中温度和某些时期降水、温度和施肥量是主要的,其它自变量不重要,这是该种植物生长特性决定的。但更多的情况是要我们用数学计算来判定。有许多数学原则可以用来选择自变量,从而确定回归模型,例如 (平均残差平方和)最小原则,复相关2系数最大原则、修正复相关系数最大原则、 统计量最小原则、 统计量最小原则、pCpJ统计量、平均估计方差(AEV) 、刀切法(PRESS)、AIC、BIC 等等。由此产生许多选择模pS型法。本节主要介绍向前选择法,向后选择法,逐步筛选法。这 3 个方法每步增减一个变量,选择增减的变量以 F 检验为原则。先选择两个 F 水平 :outin,(1)从有 k 个解释变量的模型 kxbby.10选择剔除变量的原则是: 中剔除一个变量 ,变成k,.21 ixkii bxxy 110,计算剔除的 F 统计量 (计算方法见塞伯,线性回归分析), i=1,2,.k。选择 ,使i ix剔除它的 最小,而且满足 。i outiF(2)从有 k 个解释变量的模型 kxbby.10中增加一个变量 (i=k+1,k+2L) ,变成i ikxxy.10计算增加的 F 统计量 ,(i=k+1,k+2L) (计算方法见塞伯,线性回归分析) 。选择 ,i ix使增加它的 最大,而且满足 。i iniF1、向前选择法的原理是:(1) 选择 1 个 F 水平 。in(2) 拟合仅有常数项,没有解释变量的模型 。0by(3) 若解释变量 中 已被选入回归模型,mx,.1pssx,.11,pssbxby10对每一个未被选入的变量计算将它选入的 F 值 。i(4)若其中有的 大于 ,则将 最大的变量选入模型,转(3) ;若其中所有的iFini小于 ,则停止选择过程,输出计算结果。iFin于是得到若干个回归方程,从中选出最合意的一个。2、 向后选择法的原理是:(1)选择 1 个 F 水平 ,将全部 p 个变量全选入回归方程。out(2)若解释变量 已被选入回归模型,kkssx,.11,kssbxby10对于 中每 1 个,计算将它剔除的 F 值 。kkss,.11 i(3)若其中有的 小于 ,则将其中 F 最小的的剔除,转(2) ;若所有的 大于iFout iF,则停止选择过程,输出计算结果。outF于是得到若干个回归方程,从中选出最好的一个。向前选择法的缺点是:1 个变量一旦被选入,就不能被剔除。向后选择法的缺点是:1个变量一旦被剔除,就不能被选入。使用最广泛的是“逐步回归方法”也称为逐步选择法,1 个变量被选入,有可能被剔除;1 个变量一旦被剔除,有可能被选入。3、逐步回归的一般步骤是: (1) 选择两个 F 水平 。outin(2) 拟合仅有常数项,没有解释变量的模型 。0by(3) 若解释变量 中 是显著的,已被选入回归模型,mx,.1kkssx,.11,kssbxby10对每一个未被选入的变量计算将它选入的 F 值 ,若其中有的大于 ,则将 最大的变i inFi量选入模型;若无解释变量能选入,则停止逐步回归过程,输出计算结果。(4) 若解释变量 已被选入回归模型,pssx,.11,pssbxby.10对于 中每 1 个,计算将它剔除的 F 值 。若其中有的小于 ,则将其中pss,.11 i outFF 最小的剔除,再在剩下的解释变量中重复上述步骤,看能否再剔除,;若无解释变量能剔除,则转步(3) 。SAS 软件做向前选择法、向后选择法、逐步回归时,只需在 model 语句“=”号后加一个 Selectionforward 选项、Selectionbackward、SelectionStepwise 即可。SAS 中还有其它八种方法用于选择自变量,从而决定回归模型例 1某种水泥在凝固时放出的热量 y(卡/克)与水泥中下列 4 种化学成分有关:的比例(%):23232232 ,4, SiOCaFeOAlCaSiaOAlCa 。13 次试验数据如表,试用向前选择法,向后选择法,逐步回归法选择模型。41,x表水泥在凝固时放出的热量x1 x2 x3 x4 y7 26 6 60 78.51 29 15 52 74.311 56 8 20 104.311 31 8 47 87.67 52 6 33 95.911 55 9 22 109.23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.121 47 4 26 115.91 40 23 34 83.811 66 9 12 113.310 68 8 12 109.4解 采用下列 SAS 程序data cement;input x1-x4 y;cards;7 26 6 60 78.51 29 15 52 74.311 56 8 20 104.311 31 8 47 87.67 52 6 33 95.911 55 9 22 109.23 71 17 6 102.71 31 22 44 72.52 54 18 22 93.121 47 4 26 115.91 40 23 34 83.811 66 9 12 113.310 68 8 12 109.4;proc reg data=cement;model y=x1-x4/selection=forward;/*向前选择法*/model y=x1-x4/selection=backward;/*向后选择法*/model y=x1-x4/selection=stepwise;/*逐步回归法*/run;执行上述程序后,SAS输出许多数表,包括3种方法每步方差分析和参数估计。为节省篇幅,仅介绍:向前选择法的总括(表头为Summary of Forward Selection);向后选择法总括(表头为Summary of Backward Elimination);逐步回归法总括(表头为Summary of Stepwise Selection)Summary of Forward SelectionVariable Number Partial ModelStep Entered Vars In R-Square R-Square C(p) F Value Pr F1 x4 1 0.6745 0.6745 138.731 22.80 0.00062 x1 2 0.2979 0.9725 5.4959 108.22 F1 x3 3 0.0000 0.9823 3.0182 0.02 0.89592 x4 2 0.0037 0.9787 2.6782 1.86 0.2054输出中显示 默认为0.1。上表为 向后选择法总括表。第1步:4个(解释)变量中首先outF剔除回归效果最不好的变量 。第2步:在剩下的3个(解释)变量中剔除回归效果最不x好的变量 。由检验知不能再剔除变量,所以合格的模型,解释变量分别是 , ,4x 4x1, , , , , , 。23124x12xSummary of Stepwise SelectionVariable Variable Number Partial ModelStep Entered Removed Vars In R-Square R-Square C(p) F Value Pr F1 x4 1 0.6745 0.6745 138.731 22.80 0.00062 x1 2 0.2979 0.9725 5.4959 108.22 FRegression 3 787.53154935 262.51051645 11.70 0.0001Error 19 426.20758109 22.43197795Total 22 1213.73913043Parameter Standard Type IIVariable Estimate Error Sum of Squares F ProbFINTERCEP -188.08463998 71.47777701 155.32170709 6.92 0.0164X2 -0.77291455 0.25585470 204.71220126 9.13 0.0070X5 1.44327955 0.38621147 313.26953175 13.97 0.0014X6 0.79289002 0.27573775 185.48167445 8.27 0.0097Bounds on condition number: 1.054845, 9.387921All variables left in the model are significant at the 0.1500 level.No other variable met the 0.1500 significance level for entry into the model.由上面的参数估计表可见,筛选出的回归方程是,652793.04.173.081xxy由上面的方差分析表可见,线性关系是高度显著的。以下是逐步回归过程总括Summary of Stepwise Procedure for Dependent Variable YVariable Number Partial ModelStep Entered Removed In R*2 R*2 C(p) F ProbF1 X5 1 0.3751 0.3751 10.5463 12.6028 0.00192 X2 2 0.1210 0.4960 6.8267 4.8009 0.04053 X6 3 0.1528 0.6488 1.6018 8.2686 0.0097由上表可看出具体筛选过程是:首先,在没有自变量的回归模型中,对 6 个自变量作F 检验,发现其中 影响最大,经 F 检验,它符合选入标准,于是得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宿迁市中石化2025秋招笔试模拟题含答案油品分析质检岗
- 中国移动成都市2025秋招企业文化50题速记
- 开封市中石油2025秋招面试半结构化模拟题及答案炼油设备技术岗
- 白银市中石化2025秋招面试半结构化模拟题及答案油田勘探开发岗
- 儋州市中储粮2025秋招笔试粮食政策与企业文化50题速记
- 国家能源怀化市2025秋招采矿工程类面试追问及参考回答
- 国家能源深圳市2025秋招笔试题库含答案
- 鹰潭市中石油2025秋招笔试模拟题含答案市场营销与国际贸易岗
- 山南市中储粮2025秋招购销统计岗高频笔试题库含答案
- 黑河市中石油2025秋招笔试模拟题含答案安全环保与HSE岗
- 2025年AI技术在项目管理中的应用洞察报告
- 糖尿病患者健康教育讲座
- 青春期生理健康课
- 2025年铁路线路工高级技师练习题库(答案+解析)
- DB44T 2603-2025 预制菜术语及分类
- DB4201T 632-2021 岩溶地区勘察设计与施工技术规程
- 2025年高考真题-政治(湖南卷) 含答案
- 变电二次培训活动方案
- 学堂在线 管理沟通的艺术 期末考试答案
- 钢结构工程投标方案
- 护理十八项核心制度考试题及答案
评论
0/150
提交评论