《回归变量筛选》PPT课件.ppt_第1页
《回归变量筛选》PPT课件.ppt_第2页
《回归变量筛选》PPT课件.ppt_第3页
《回归变量筛选》PPT课件.ppt_第4页
《回归变量筛选》PPT课件.ppt_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

线性回归变量的筛选 多重回归程序模式 DATAA inputX1 X4Y cards 10233 611315 79203 610614 510223 711117 513213 710922 510223 611015 510233 510316 98233 31008 610243 411417 010203 410413 710213 411013 410233 910420 38213 510910 26233 21147 48213 711311 69223 610512 3 PROCREGCORR MODELY X1 X4 RUN 多重回归 TheSASSystem14 40Friday April30 20081TheREGProcedureCorrelationVariableX1X2X3X4YX11 0000 0 13570 5007 0 09390 8973X2 0 13571 0000 0 14890 12340 0462X30 5007 0 14891 0000 0 03580 6890X4 0 09390 1234 0 03581 0000 0 0065Y0 89730 04620 6890 0 00651 0000TheSASSystem14 40Friday April30 20082TheREGProcedureModel MODEL1DependentVariable YAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr FModel4221 4717555 3679430 06 0001Error1018 417581 84176CorrectedTotal14239 88933RootMSE1 35711R Square0 9232DependentMean14 47333AdjR Sq0 8925CoeffVar9 37665 多重回归 ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr t Intercept1 51 9020713 35182 3 890 0030X112 026180 272047 45 0001X210 654000 302702 160 0561X317 796942 332813 340 0075X410 049700 083000 600 5626 逐步回归的思想是变数被逐个引入到模型中 而且对引入的变数 其F统计量必须是在选择的水平上显著的 引入一个变数之后 逐步法还要测验所有已经包含在模型中的变数 并删除在选择的水平上不显著的一切变数 仅当经过测验并把所有不显著的变数删除后 再考虑是否引入新变数 当在模型外的所有变数在选择的水平上都不显著 而且在模型内的任一个变数的F统计量在选择的水平上都是显著时 逐步回归过程才停止 此外 若刚被删除的变数又被引入时 逐步过程也停止 SLENTRY 值 简记为SLE 值 是逐步回归方法规定选入这个模型里的显著性水平 当缺省时 其值为0 15 第一节逐步回归 逐步回归SAS过程 语法格式Procreg 或GLM DATA 选项 MODEL响应变量名 自变量名列 SELECTION F或B或S VAR变量名列 FREQ变量名列 WEGHT变量名列 BY变量名列 OUTPUT PLOT 选项 变量筛选语法选项 MODEL语句选项 SELECTION method 规定变量筛选的方法 method可以是以下几种选项FORWARD 或F 前进法 按照SLE规定的P值从无到有依次选一个变量进入模型BACKWARD 或B 后退法 按照SLS规定的P值从含有全部变量的模型开始 依次剔除一个变量STEPWISE 或S 逐步法 按照SLE的标准依次选入变量 同时对模型中现有的变量按SLS的标准剔除不显著的变量 NONE 即不选择任何选项 不作任何变量筛选 此时使用的是含有全部自变量的全回归模型 变量筛选MODEL语句选项 SLE 概率值 入选标准 规定变量入选模型的显著性水平 前进法的默认是0 5 逐步法是0 15SLS 概率值 剔除标准 指定变量保留在模型的显著水平 后退法默认为0 10 逐步法是0 15标准化偏回归系数STB可用来比较各个自变量作用的大小COLLIN要求详细分析自变量之间的共线性 给出信息矩阵的特征根和条件指数 来判断自变量之间有无多重共线性 变量筛选MODEL语句选项 SLE 概率值 入选标准 规定变量入选模型的显著性水平 前进法的默认是0 5 逐步法是0 15SLS 概率值 剔除标准 指定变量保留在模型的显著水平 后退法默认为0 10 逐步法是0 15标准化偏回归系数STB可用来比较各个自变量作用的大小COLLIN要求详细分析自变量之间的共线性 给出信息矩阵的特征根和条件指数 来判断自变量之间有无多重共线性 逐步 前进 后退 法回归程序模式 datab inputidyx1x2x3x4 cards procregdata b modely x1x2x3x4 stb modely x1x2x3x4 selection FORWARDstb modely x1x2x3X4 selection BACKWARDstb modely x1x2x3x4 selection stepwisestb run 前进 后退法回归程序模式 DATAA inputX1 X4Y cards 10233 611315 79203 610614 510223 711117 513213 710922 510223 611015 510233 510316 98233 31008 610243 411417 010203 410413 710213 411013 410233 910420 38213 510910 26233 21147 48213 711311 69223 610512 3 PROCREGCORR MODELY X1 X4 SELECTION FORWARDSLE 0 05STB RUN AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr FModel1193 15219193 1521953 73FIntercept 8 064293 1135424 118096 710 0224X12 397620 32711193 1521953 73 0001Boundsonconditionnumber 1 1 ForwardSelection Step2VariableX3Entered R Square 0 8818andC p 6 3911AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr FModel2211 54256105 7712844 78FIntercept 30 012908 2612931 1775613 200 0034X11 969650 3063297 6688041 35 0001X37 336592 6294218 390377 790 0163 TheREGProcedureModel MODEL1DependentVariable YForwardSelection Step2Boundsonconditionnumber 1 3346 5 3385 ForwardSelection Step3VariableX2Entered R Square 0 9205andC p 3 3585AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr FModel3220 8114373 6038142 44FIntercept 46 9663610 1926236 8248021 230 0008X12 013140 26314101 5078258 53 0001X20 674640 291839 268875 340 0412X37 830232 2631320 7619311 970 0053Boundsonconditionnumber 1 3466 11 148 SummaryofForwardSelectionVariableNumberPartialModelStepEnteredVarsInR SquareR SquareC p FValuePr F1X110 80520 805214 376453 73FModel3220 8114373 6038142 44 t EstimateIntercept1 46 9663610 19262 4 610 00080X112 013140 263147 65 00010 75342X210 674640 291832 310 04120 19929X317 830232 263133 460 00530 34139 逐步 前进 后退 法回归程序模式 datab inputidyx1x2x3x4 cards procregdata b modely x1x2x3x4 stb modely x1x2x3x4 selection FORWARDstb modely x1x2x3X4 selection BACKWARDstb modely x1x2x3x4 selection stepwisestb run 后退法回归程序模式 DATAA inputX1 X4Y cards 10233 611315 79203 610614 510223 711117 513213 710922 510223 611015 510233 510316 98233 31008 610243 411417 010203 410413 710213 411013 410233 910420 38213 510910 26233 21147 48213 711311 69223 610512 3 PROCREGCORR MODELY X1 X4 SELECTION BACKWORDSLS 0 05STB RUN TheREGProcedureModel MODEL1DependentVariable YBackwardElimination Step0AllVariablesEntered R Square 0 9232andC p 5 0000AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr FModel4221 4717555 3679430 06FIntercept 51 9020713 3518227 8305115 110 0030X12 026180 27204102 1681355 47 0001X20 654000 302708 597204 670 0561X37 796942 3328120 5740811 170 0075X40 049700 083000 660320 360 5626Boundsonconditionnumber 1 3501 19 045 BackwardElimination Step1VariableX4Removed R Square 0 9205andC p 3 3585AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr FModel3220 8114373 6038142 44FIntercept 46 9663610 1926236 8248021 230 0008X12 013140 26314101 5078258 53 0001X20 674640 291839 268875 340 0412X37 830232 2631320 7619311 970 0053Boundsonconditionnumber 1 3466 11 148 Allvariablesleftinthemodelaresignificantatthe0 0500level SummaryofBackwardEliminationVariableNumberPartialModelStepRemovedVarsInR SquareR SquareC p FValuePr F1X430 00280 92053 35850 360 5626TheSASSystem14 40Friday April30 200814TheREGProcedureModel MODEL1DependentVariable YAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr FModel3220 8114373 6038142 44 t EstimateIntercept1 46 9663610 19262 4 610 00080X112 013140 263147 65 00010 75342X210 674640 291832 310 04120 19929X317 830232 263133 460 00530 34139 逐步法回归程序模式 DATAA inputX1 X4Y cards 10233 611315 79203 610614 510223 711117 513213 710922 510223 611015 510233 510316 98233 31008 610243 411417 010203 410413 710213 411013 410233 910420 38213 510910 26233 21147 48213 711311 69223 610512 3 PROCREGCORR MODELY X1 X4 SELECTION BACKWORDSLS 0 05STB MODELY X1 X4 SELECTION FORWARDSLE 0 05STB MODELY X1 X4 SELECTION STEPWISESLS 0 05SLE 0 05STB RUN 逐步 前进 后退 法回归程序模式 TheREGProcedureModel MODEL1DependentVariable YStepwiseSelection Step1VariableX1Entered R Square 0 8052andC p 14 3764AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr FModel1193 15219193 1521953 73FIntercept 8 064293 1135424 118096 710 0224X12 397620 32711193 1521953 73 0001Boundsonconditionnumber 1 1 逐步法回归程序模式结果 StepwiseSelection Step2VariableX3Entered R Square 0 8818andC p 6 3911AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr FModel2211 54256105 7712844 78FIntercept 30 012908 2612931 1775613 200 0034X11 969650 3063297 6688041 35 0001X37 336592 6294218 390377 790 0163 逐步法回归程序模式结果 StepwiseSelection Step3VariableX2Entered R Square 0 9205andC p 3 3585AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr FModel3220 8114373 6038142 44FIntercept 46 9663610 1926236 8248021 230 0008X12 013140 26314101 5078258 53 0001X20 674640 291839 268875 340 0412X37 830232 2631320 7619311 970 0053Boundsonconditionnumber 1 3466 11 148 逐步法回归程序模式结果 Model MODEL1DependentVariable YAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr FModel3220 8114373 6038142 44 t EstimateIntercept1 46 9663610 19262 4 610 00080X112 013140 263147 65 00010 75342X210 674640 291832 310 04120 19929X317 830232 263133 460 00530 34139 程序运行的主要结果 第二节回归方程筛选优劣的几个准则 1决定系数 回归方程较好 当最小且接近自变量的个数P 选择为佳 4 Bayesian信息量BIC达最小 3 赤池信息量AIC达最小 第二节回归方程筛选优劣的几个准则 5 估计均方误差 达最小 7 均方误差 8 统计量 9 多元正态假设下预测均方误差 10 均方根误差 达最小 第一节多重共线性 六 SAS程序 变量筛选 datafitness inputx1x2x3y datalines 149 24 2108 115 9161 24 1114 816 4171 53 1123 219 0175 53 1126 919 1180 81 1132 118 8190 72 2137 720 4202 12 1146 022 7212 45 6154 126 5226 15 0162 328 1231 95 1164 327 6239 00 7167 626 3 procregdata fitnessoutest est modely x1x2x3 selection rsquaremsejpgmsepcpaicbicsbcbbest 2 因子选择procprintdata est run 第一节多重共线性 NumberinEstimatedMSEModelR SquareC p AICBICofPredictionJ p MSE 因子个数 决定系数 CP统计量 AICBIC信息准则 均方误差 10 944540 98504 44302 17181 56161 50381 2724510 931752 10696 73604 15561 92361 85241 56737 20 99132 5454 13 9065 9 57870 31570 28650 2251020 98289 9016 6 4206 6 12870 62350 56580 44455 30 99194 0000 12 7318 6 81340 39050 32540 23866模型选择比较与估计信息Numberin ParameterEstimates ModelR SquareSBCInterceptx1x2x310 94455 23879 8 01325 0 2140010 93177 53184 6 541080 14612 20 9913 12 71284 9 74274 0 596050 2123020 9828 5 22693 8 426070 145240 62299 30 9919 11 14019 10 13740 0 051940 586660 28768 第三节 多重共线性 多重线性回归模型 要求设计矩阵X的秩R X P 1 即要求X中的列向量线性无关 的LS估计 但在实际应用不容易满足 往往出现自变量间线性相关与近似线性相关的情况 当存在不全为零的P 1个数 使得 1 3 共线性 Multicollinearity collinearity 这里主要讨论 几乎 共线性 顺便也讨论一下精确的共线性 定义 自变量之间存在强烈的线性关系 迹象 XTX至少有一个很小的特征值 j 0 注意 j 0forj 1 2 p 这里 j是XTX的特征值 影响 典型的影响是使参数估计的方差增大从而使整个估计不精确 第三节多重共线性 故可得 上式两边左乘X得 第三节病态回归 对线性模型其最小二乘法估计为 当接近奇异时 即呈现所谓 病态 LS估计的性能变坏 事实上 由于 1 2 可见 当S呈现所谓 病态 时 即当其某一特征根很接近0时 其均方误差 估计值与理论值的方差均很大 即它们差的平方和的Q值很大 而且很不稳定 各个变量有近似的线性关系 故在此情况下很难把该LS估计为良好估计 第一节多重共线性 1 特征根判定准则 总的说来 Var 2 XTX 1具体地说 Var j forj 0 1 p 1 这里R2j是即其它自变量对自变量j回归的确定系数 线性回归的理想要求是 Y对X有很强的线性关系 而X之间有较弱的线性关系 2确定系数判定准则 4 方差膨胀因子作共线性的测度 1 VIF varianceinflationfactor VIFj 1 1 R2j forj 0 1 2 p 1 当max VIFj 30时 有强共线性问题当max VIFj 10时 有共线性问题当 VIFj 接近1时 弱共线性问题 这是经验公式 无精确理论基础 注意 VIF0 1 1 R20 其对应模型是此模型右边无常数项 第一节多重共线性 5 条件指数 Collinearity 由特征根判定准则知 近似为零的特征值则可知X自变量间存在多重共线性 那么特征值近似为零的标准如何确定 可用以下介绍的条件指数确定之 为近微弱多重共线性 为中等多重共线性 为较强多重共线性 为严重强多重共线性 解决方法 1 从模型中除去一些变量 例如对应于比较大的VIFj的Xj 这个问题与变量选择和模型确定的方法有关 如果 j 0 则剔除 j会导致 即最小二乘估计成为有偏估计 实例 某种水泥在凝固时放出的热量y 卡 克 与水泥中下列的4种化学成分有关 x1 3Cao Al2O3的成分 x2 3Cao SiO2的成分 x3 4Cao Al2O3 Fe2O3的成分 x4 2Cao SiO3的成分 作y关于x1x2x3x4的逐步回归方程 热量y与其4种成份的数据表 逐步回归例 首先须确定测验每一个变数是否显著的F测验的水平 SLENTRY 简记为SLE 以作为引入变数的标准 同时 还须确定删除变数的F测验的水平 SLSYR 简记为SLS 为了使最终的回归方程中包含较多的变数 SLE不宜太小 SLS也不宜太大 本例引入测验水平取0 10 删除测验水平也取0 10 72666078 5129155274 31156820104 3113184787 675263395 91155922109 2371176102 7131224472 5254182293 12147426115 9140233483 81166912113 31068812109 4 datab inputidx1x2x3x4Y cards procregdata b modely x1x2x3X4 stb modely x1x2x3X4 selection FORWARDstb modely x1x2x3X4 selection BACKWARDstb modely x1x2x3X4 selection stepwisestb run datafitness inputx1x2x3y datalines 149 24 2108 115 9161 24 1114 816 4171 53 1123 219 0175 53 1126 919 1180 81 1132 118 8190 72 2137 720 4202 12 1146 022 7212 45 6154 126 5226 15 0162 328 1231 95 1164 327 6239 00 7167 626 3 procregdata fitnessoutest est modely x1x2x3 tolvifcollin 共线诊断procprintdata est run 第二节回归共线诊断变量筛选法 ParameterEstimates ParameterStandardVariance VariableDFEstimateErrortValuePr t ToleranceInflation 容限 方差膨胀因子 x11 0 051940 07034 0 740 48420 00535186 74170 x210 586660 094596 200 00040 980681 01970 x310 287680 102342 810 02610 00535186 85657 CollinearityDiagnostics NumberEigenvalueIndexInterceptx1x2x3特征值条件指数 20 148385 086070 005300 000070170 937690 00006166 30 0131817 068630 769500 001500 033080 00106 40 00005428265 926780 224220 998430 018310 99887 13 838391 000000 000980880 000007570 010920 00000696 Condition ProportionofVariation 方差比例 Intercept1 10 137401 21480 8 34 0001 0 注 方差比例 变量对特征值的贡献 方差比例 0 5的变量构成相关变量集合 tol1 1 R1 0表明X1与其他变量有很强的相关性 datafitness inputx1x2x3y datalines 149 24 2108 115 9161 24 1114 816 4171 53 1123 219 0175 53 1126 919 1180 81 1132 118 8190 72 2137 720 4202 12 1146 022 7212 45 6154 126 5226 15 0162 328 1231 95 1164 327 6239 00 7167 626 3 procregdata fitnessoutest est modely x1x2x3 selection rsquaremsejpgmsepcpaicbicsbcbbest 2 因子选择procprintdata est run 第三节从全子集筛选最优子集回归法 NumberinEstimatedMSEModelR SquareC p AICBICofPredictionJ p MSE 因子个数 决定系数 CP统计量 AICBIC信息准则 均方误差 10 944540 98504 44302 17181 56161 50381 2724510 931752 10696 73604 15561 92361 85241 56737 20 99132 5454 13 9065 9 57870 31570 28650 2251020 98289 9016 6 4206 6 12870 62350 56580 44455 30 99194 0000 12 7318 6 81340 39050 32540 23866 模型选择比较与估计信息Numberin ParameterEstimates ModelR SquareSBCInterceptx1x2x310 94455 23879 8 01325 0 2140010 93177 53184 6 541080 14612 20 9913 12 71284 9 74274 0 596050 2123020 9828 5 22693 8 426070 145240 62299 30 9919 11 14019 10 13740 0 051940 586660 28768 模型信息 TYPE PARMS 最小二乘法回归模型 DEPVAR 因变量名字 RMSE 均方根误差估计Interceptx1x2x3 对应的各种估计 IN 不含截距回归估计量参数个数 P 含截距回归估计量参数个数Y 1 作为回归估计的参数为 1Obs MODEL TYPE DEPVAR RMSE Interceptx1x2x3y IN P 1MODEL1PARMSy1 12803 8 0132 0 21400 1122MODEL1PARMSy1 25195 6 54110 14612 1123MODEL1PARMSy0 47444 9 7427 0 596050 21230 1234MODEL1PARMSy0 66675 8 42610 145240 62299 123MODEL1PARMSy0 48853 10 1374 0 051940 586660 28768 134Obs EDF MSE RSQ CP JP GMSEP AIC BIC SBC 191 272450 9445340 98501 503801 561644 44302 171805 2388291 567370 9316752 10691 852351 923606 73604 155607 5318380 225100 991282 54540 286490 31572 13 9065 9 57868 12 7128480 444550 982779 90160 565790 62352 6 4206 6 12867 5 2269570 238660 991914 00000 325440 39053 12 7318 6 81341 11 1402 岭回归RIDGEleverageplots procregdata fitnessOUTEST RIDGE1 modely x1x2x3 outstboutvifRIDGE 0 0to0 1by0 010 20 3 plot ridgeplot OUTPUT run PROCPRINTDATA RIDGE1 RUN 第四节病态回归的改进 岭回归 LS估计 岭回归 岭回归的方法主要是在病态的S中沿主对角线人为加进正数 使其特征值大一些 接近0的程度小一些 它仍为系数的线性估计 K为常数 且对LP估计有所改善 具体的说 是希望找到某个K 0 使系数估计值的均方误差小 但具体操作时K与方程的方差有关 较难做到均方误差小 岭迹分析与岭参数选择 当K趋于0时 岭迹反应系数当不稳定性 当K增大 会使岭迹趋于稳定 一般可选取进入稳定最小的K作为岭参数 岭估计是K的函数它与 所有的K值 构成一条曲线 称岭迹 岭参数确定的办法不唯一 常常以其估计的均方误差增加不大且方差的膨胀系数小作为选取原则 第二节病态回归的改进 根据岭迹图选择k值的原则 1 回归系数的岭估计基本稳定 2 改变最小二乘估计回归系数的符号不合理现象 3 回归系数不出现不合理的绝对值 4 残差平方和增加不大 岭回归的SAS过程 已知某国每年的进口总额为Y 国内总产值为X1 存储量为X2 总消费量为X3分析进口总额为Y与其它三个自变量间的关系 表1外贸数据 SAS程序datafitness inputx1x2x3y CARDS 149 24 2108 115 9161 24 1114 816 4171 53 1123 219 0175 53 1126 919 1180 81 1132 118 8190 72 2137 720 4202 12 1146 022 7212 45 6154 126 5226 15 0162 328 1231 95 1164 327 6239 00 7167 626 3 procregdata fitnessOUTEST RIDGE1 modely x1x2x3 outstboutvifRIDGE 0 0to0 1by0 010 20 3 指定步长选K plot ridgeplot 出岭迹图 OUTPUT run PROCPRINTDATA RIDGE1 RUN MODEL TYPE DEPVAR RIDGE PCOMIT RMSE Interceptx1x2x3y1MODEL1PARMSy 0 48853 10 1374 0 0520 586660 288 12MODEL1RIDGEVIFy0 00 186 7421 01970186 857 13MODEL1RIDGEy0 00 0 48853 10 1374 0 0520 586660 288 14MODEL1RIDGESTBy0 00 0 488530 0000 0 3430 212941 306 15MODEL1RIDGEVIFy0 01 8 5800 981948 585 16MODEL1RIDGEy0 01 0 55334 9 17610 0460 599020 144 17MODEL1RIDGESTBy0 01 0 553340 00000 3040 217430 654 18MODEL1RIDGEVIFy0 02 2 8500 962192 851 1均 39MODEL1RIDGEy0 02 0 57031 8 92210 0570 595610 127 110MODEL1RIDGESTBy0 020 570310 00000 3780 216190 575 111MODEL1RIDGEVIFy0 03 1 4980 943441 498 112MODEL1RIDGEy0 03 0 57976 8 72760 0610 591010 120 113MODEL1RIDGESTBy0 03 0 579760 00000 4060 214520 543 114MODEL1RIDGEVIFy0 04 0 9760 925310 976 115MODEL1RIDGEy0 04 0 58761 8 55200 0640 586120 116 1 16MODEL1RIDGESTBy0 040 587610 00000 4190 212750 525 117MODEL1RIDGEVIFy0 05 0 7210 907730 721 118MODEL1RIDGEy0 05 0 59537 8 38550 0650 581170 113 119MODEL1RIDGESTBy0 05 0 595370 00000 4270 210950 513 1 RIDGEVIF 方差膨胀因子RIDGESTB 标准化回归的系数估计PARMS原始变量的回归系数估计DEPVAR 响应变量 选K 0 02 20MODEL1RIDGEVIFy0 06 0 5770 890640 577 121MODEL1RIDGEy0 06 0 60354 8 22440 0650 576220 111 122MODEL1RIDGESTBy0 060 603540 00000 4310 209150 504 123MODEL1RIDGEVIFy0 07 0 4880 874050 487 124MODEL1RIDGEy0 07 0 61232 8 06720 0660 571310 109 125MODEL1RIDGESTBy0 070 612320 00000 4340 207370 497 126MODEL1RIDGEVIFy0 08 0 4280 857910 428 127MODEL1RIDGEy0 08 0 62177 7 91290 0660 566460 108 128MODEL1RIDGESTBy0 080 621770 00000 4360 205610 491 129MODEL1RIDGEVIFy0 09 0 3860 842220 385 130MODEL1RIDGEy0 09 0 63190 7 76120 0660 561680 107 131MODEL1RIDGESTBy0 09 0 631900 00000 4360 203880 486 132MODEL1RIDGEVIFy0 10 0 3540 826950 354 133MODEL1RIDGEy0 10 0 64270 7 61170 0660 556960 106 134MODEL1RIDGESTBy0 10 0 642700 00000 4360 202160 481 135MODEL1RIDGEVIFy0 20 0 2400 694730 239 136MODEL1RIDGEy0 20 0 77803 6 21040 0650 513710 099 137MODEL1RIDGESTBy0 200 778030 00000 4260 186460 450 138MODEL1RIDGEVIFy0 30 0 2040 591870 204 139MODEL1RIDGEy0 30 0 93785 4 94560 0620 476720 094 140MODEL1RIDGESTBy0 30 0 937850 00000 4110 173040 427 1 RIDGEVIF 方差膨胀因子RIDGESTB 标准化回归的系数估计PARMS原始变量的回归系数估计DEPVAR 响应变量 选K 0 02或K 0 04即可 主成份定义 第五节病态回归的改进 主成分回归 第二节病态回归的改进 主成分回归 主成份的确定和回归的建立 而 主成份回归的思想 主成份回归是选择原自变量的主成份为隐变量作回归 它们相互线性无关 使正规方程的系数矩阵成为对角阵 为回归系数的求解和分析带来方便 又因已为把接近于0的特征根所对应的主成份舍去从而消除原有变量间的多重共线关系 并能保证均方误差比LP小 也就消除了使最小二乘法回归性能变差的根源 共线诊断条件指数 Collinearity 方差膨胀因子 VIF 容限 TOLERANCE procregdata fitness modely x1x2x3 tolvifcollin run 主成分回归pcomitleverageplots procregdata fitnessOUTEST PRIN1 modely x1x2x3 outstboutvifPCOMIT 12 OUTPUT run PROCPRINTDATA PRIN1 RUN 主成份回归的SAS程序 procregdata fitnessOUTEST PRIN1 modely x1x2x3 outstboutvifCOMIT 12 OUTPUT run PROCPRINTDATA PRIN1 RUN 主成份回归结果输出 MODEL TYPE DEPVAR RIDGE PCOMIT RMSE Interceptx1x2x3y1MODEL1PARMSy 0 48853 10 1374 0 051940 586660 28768 12MODEL1IPCVIFy 1 0 250831 000840 25037 13MODEL1IPCy 10 55018 9 12290 072740 609480 10626 1 4MODEL1IPCSTBy 10 550180 00000 480500 221230 48258 15MODEL1IPCVIFy 2 0 249560 000940 24971 16MODEL1IPCy 21 05294 7 73600 073770 082430 10734 17MODEL1IPCSTBy 21 052940 00000 487340 029920 48749 1PARMS 最小二乘法回归模型的参数估计IPCVIF 方差膨胀因子IPCSTB 标准化回归的系数估计IPC 原始变量表示的回归系数估计 DEPVAR 因变量 RIDGE 岭回归参数 PCOMIT 要删除的主成分分量个数 特征根 1 9992 0 9982 0 0026 RMSE 均方根 第二节病态回归的改进 偏最小二乘法回归 偏最小二乘法回归是多元回归改进的方法 它各自从多个因变量建立配对建立回归 对多重回归 主成份是仅从原变量X中提取后作回归 它反映大部分X的信息 但与Y的关系考虑不够 偏最小二乘法回归不仅在X中提取正交成份且考虑保留与Y较多的相关性 偏最小二乘法回归SAS程序procplsdata fitnessoutmodel PAR1cv onemethod simpls modely x1x2x3 sollution procprintdata PAR1 run 偏最小二乘法回归SAS输出2 2 抽取成份信息自变量第一成份t1 第二成份t2所解释的变差百分率分别为66 32 及33 59 而因变量所解释的变差百分率分别为97 9191 及9 109 可见第二成份对因变量所解释的变差已很微小ThePLSProcedurePercentVariationAccountedfor

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论