版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章§4.2回归变量的选择与逐步回归在实际问题中,影响因变量Y的因素(自变量)可能很多,人们希望从中挑选出影响显著的自变量来建立回归关系式,这就涉及到变量选择问题.
在回归方程中若漏掉对Y影响显著的变量,那么建立的回归式用于预测时会产生大的偏差.但回归式中若包含的变量太多,且其中有些对Y影响不大,显然这样的回归式不仅使用不方便,而且反而会影响预测的精度.因而选择合适的变量用于建立一个“最优”的回归方程是十分重要的问题.1
什么是“最优”回归方程?直观考虑应该是方程中包含的所有变量对因变量Y的影响都是显著的;而不包含在方程中的变量对Y的影响是不显著的(可忽略)。也就是从自变量集{x1,x2,…,xm}中选出适当的子集{xi1,xi2
,…,xil}(l
<=m),使得建立Y与xi1,xi2,…,xil
的回归方程就是这样的“最优”回归方程。这就是回归变量的选择问题。第四章§4.2回归变量的选择与逐步回归
§4.2.1变量选择问题2
回归变量的选择问题在实用上和理论上都是十分重要的。这个问题最大的困难就是如何比较不同选择(即不同子集)的优劣,即最优选择的标准。从不同的角度出发,可以有不同的比较准则,在不同的准则下,“最优”回归方程也可能不同。第四章§4.2回归变量的选择与逐步回归
§4.2.1变量选择问题3
(1)
均方误差s2最小
(2)
Cp统计量最小准则
(3)
修正R2准则
(4)预测均方误差最小
(5)AIC,SBC或BIC准则
第四章§4.2回归变量的选择与逐步回归
§4.2.1变量选择问题4在REG过程中逐步筛选变量的方法通过以下有关的选项给出:FORWARD:
向前加入法,即逐个加入变量;BACKWARD:
向后删除法,全部加入后逐个剔除;STEPWISE:
逐步筛选法,边进边出;第四章§4.2回归变量的选择与逐步回归
§4.2.2变量选择问题5MAXR:逐个加入和对换,使R2增加最大;开始加入使R2增加最大的变量,以后每一步选择模型内外变量进行对换--
1.选择使R2增加最大的对换;2.选择加入一个使R2增加最大的新变量.MINR:逐个加入和对换,使R2增加最小.开始加入使R2增加最小的变量,以后每一步选择模型内外变量进行对换--
1.选择R2增加最小的对换;2.选择加入一个使R2增加最小的新变量.第四章§4.2回归变量的选择与逐步回归
§4.2.2变量选择问题6
ADJRSQ:选Adj-RSQ最大的模型CP:选最先满足Cp≤p的模型
其中p为进入回归式的变量个数Hocking建议:
Cp≤p(预测)Cp≤2p-m+1(估计)
(m为全模型的变量个数)第四章§4.2回归变量的选择与逐步回归
§4.2.2所有可能回归法7
以上介绍的选择回归子集的几种方法中,最常用的是逐步筛选法。逐步回归的基本思想和基本步骤如下:
基本思想:逐个引入自变量,每次引入对Y影响最显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉。最终得到的方程中即不漏掉对Y影响显著的变量,又不包含对Y影响不显著的变量。
基本步骤:首先给出引入变量的显著性水平αin和剔除变量的显著水平αout。然后按以下框图筛选变量。第四章§4.2回归变量的选择与逐步回归
§4.2.2逐步回归基本思想8第四章§4.2回归变量的选择与逐步回归
§4.2.2逐步回归基本思想(框图)9
例4.2.1
(水泥数据)某种水泥在凝固时放出的热量Y(卡/克)与水泥中四种化学成分x1~x4有关.共观测了13组数据(见表4.1),试用逐步回归方法求“最优”回归方程,然后进行预测。
解
(1)调用REG过程完成逐步回归计算。假设引入变量的显著性水平αin=0.15,剔除变量的显著水平αout=0.15(一般取αin=αout,也可取为不等.但要求αin<=αout,否则可能出现死循环)。要求计算预测值和95%置信界限。SAS程序如下:
第四章§4.2回归变量的选择与逐步回归
§4.2.2逐步回归例子10
procregdata=d411;modely=x1-x4/selection=stepwise
sle=0.15sls=0.15;printcli;title'StepwiseSelection';run;0.15是系统的缺省值,可以省略第四章§4.2回归变量的选择与逐步回归
§4.2.2逐步回归例子11
以上SAS程序的输出结果,首先给出筛选变量的过程:
第一步引入x4
,一元线性回归模型的R2=0.6745;
第二步引入x1,Y与x4,x1
的二元回归模型的
R2=0.9725;
第三步引入x2,Y与x4,x1
和x2
的三元回归模型的
R2=0.9823;
第四步因引入新变量后原变量x4变得不重要了,故第四步剔除x4,Y与x1、x2的二元回归模型的R2=0.9787.经过四步,筛选变量的过程结束后,“最优”回归方程中包含两个变量.回归方程式为:
Y=52.5774+1.4683x1+0.6623x2.第四章§4.2回归变量的选择与逐步回归
§4.2.2逐步回归例子12
或要求计算所有可能回归子集.并且对每种变量个数输出最好的二个回归子集(best=2).
procregdata=d411;
modely=x1-x4/selection=rsquare
badjrsqcpaic
mse
sbc;
title'R-SquareSelection';run;
例4.2.2(水泥数据)
试用全子集法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年唐山海运职业学院单招《英语》通关考试题库附答案详解【考试直接用】
- 2024-2025学年公务员(国考)高频难、易错点题附参考答案详解(B卷)
- 2024-2025学年临床执业医师练习题含答案详解(夺分金卷)
- 2024-2025学年度护士资格证测试卷附参考答案详解(黄金题型)
- 2024-2025学年度崇左幼儿师范高等专科学校电视播音主持期末考试预测复习含答案详解(基础题)
- 提升护理服务响应速度与患者满意度
- 2026一年级道德与法治上册 时间管理小达人
- 2025年海南省省考面试真题(附答案)
- 上海市供销合作总社校招面笔试题及答案
- 2026一年级道德与法治上册 玩也有学问
- 2026年中考英语复习:24类话题作文+范文
- 数据中心供配电系统概述
- 印前处理人员基础技能培训手册
- 透析用水与透析液管理
- DB4201T 574-2019 武汉市优 秀历史建筑保护修缮技术规程
- DB1405∕T 045-2023 乡土树种选用指南
- DB42T 1419-2018 河蟹池塘“3 5”养殖模式技术规程
- DB14∕T 3234-2025 行政事业单位办公区后勤服务评价规范
- 科学四年级下册人教鄂教版《一天的气温》教学设计(表格式)
- DBJD25-67-2019甘肃省建筑与装饰工程预算定额地区基价不含税中册
- 基于核心素养的阅读教学体系构建与实践探索
评论
0/150
提交评论