版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、自变量选择信息时代的一个重要特征是数据便宜信息值钱,我们经常要从海量数据中挖掘有用信息。比如影响产品质量的因素,从生产过程、员工培训过程到原材料供应过程,可能多达几百个,甚至上千个。对这些质量指标和影响因素制造商在日常生产管理过程中都有记录。现在的问题是如何从这众多的影响因素中找出影响产品质量的重要因素。有时只需判断一个自变量对因变量是否有重要影响,而不需要了解它们之间的精确定量关系。比如判断原材料供应对产品质量是否有重要影响比了解它们之间的精确定量关系更重要。线性回归模型的自变量选择就是用于有众多自变量时识别重要自变量的方法。用于线性回归模型自变量选择的方法可分为两类:全局择优法和逐步回归法
2、。一、全局择优法全局择优法就是用衡量回归模型与数据拟合程度的准则,从全部可能的回归模型中选择对数据拟合最优的回归模型。对于一个包含P个自变量的回归问题,全部可能的回归模型有cPcPcP2P个,全局择优法要求出每个回归模型的准则值,然后找出最优的回归模型。回归模型对数据的拟合程度可用残差平方和来表示。残差平方和越小,模型拟合的越好。但残差平方和的大小与因变量的计量单位有关,因此我们定义了决定系数。决定系数越大,模型拟合的越好。决定系数不仅与因变量的计量单位无关,而且能说明在因变量的变异中,归功于自变量变化的部分所占比例。但不论是用残差平方和还是用决定系数来度量线性拟合模型拟合程度,都会得出模型中
3、包含越多自变量拟合就越好的结论。但在样本容量给定的情况下,自变量越多,模型就越复杂,模型参数估计就越不精确,导致模型应用的效果就越差。因此我们需要能综合用残差平方和表示的模型拟合精度和用模型中包含的自变量个数表示的模型复杂程度的准则,以便选择出最优的回归模型。回归分析中用于选择自变量的准则很多。由于残差平方和RS鄙口决定系数R2只考虑模型拟合精度,因而只能作为自变量个数相同时自变量选择的准则。残差均方s2和修正决定系数R2dj是一个综合模型拟合精度和模型复杂程度的准则。综合性准则除了残差均方和修正决定系数外,还有如下一些准则:.MallowsCp准则RSSpCpn2(P1)s其中,s2为包含全
4、部自变量的拟合模型的残差均方,RS舫当前拟合模型的残差平方和,p为当前拟合模型的自变量个数。信息准则信息准则根据公式-2*logLik+k*npar计算,其中logLik=-nlog(RSS/n)+log(2兀)+1/2为当前拟合模型的对数似然函数,npar为当前拟合模型的参数个数,当k=2时称为AIC准则,当k=log(n)时称为BIC准则。在小样本情况下,AIC准则的表现不太好,为此人们提出的修正AIC准则AICc,其计算公式为AICc-2*logLik+2*nparnn-npar-1AIC2*nparnpar1/nnapr1R中计算当前拟合模型信息7隹则的函数有(其中fit为当前拟合模型
5、对象)AIC(fit,k=2)k=2(缺省)时计算AICnlog(型Sp)110g(2)2(p2)nk=10g(n)时计算BICn1og(RS包)11og(2)(p2)1og(n)nextractAIC(fit,scale,k=2)指定sca1e=s2,计算当前拟合模型的G准则不指定scale,k=2(缺省)时计算AICnlogGRSSp)2(p1)nRSSc不指7Escale,k=log(n)时计算BICnlog(-)(p1)log(n)nR勺附加程序包qpcR中的函数AICc(fit)可计算当前拟合模型的修正信息准则RSSAICcnlog(-)1log(2)n预测平方和准则n2PRESSe
6、)i1其中,e(i)V?(i)3,表示删除第i个案例后,用剩余的(n-1)个案例估计的拟1hii合模型对第i个案例的预测误差。R勺附加程序包qpc种的函数PRESS(fit)可计算预测平方和。此函数的返回值是一个列表,其中包含三个元素,(1)名字为stat的预测平方和;(2)名字为residuals的预测残差向量;n2e(i)(3)名字为的P2,其计算公式为:P21L2Yi与一些可能的相关之间的关系。数!Ilibrary(alr3) attach(highway) y=log(Rate) x1=log(Len) x2=log(ADT) x3=log(Trks) x4=log(Sigs*Len+
7、1)/Len !、)x5=Slimx6=ShldIx7=Lanex8=AcptIIx9=Itgx10=Lwidx11=(Hwy=1)x12=(Hwy=2)R勺的附加程序包leaps中的函数leaps()和regsubsets()均可用来完成全局最优的选择。leaps()依据G准则、修正R准则和R准则来选择全局最优回归模型;regsubsets()函数则只能选出不同自变量个数的局部最优的模型,我们再从这些局部的最优模型中选出全局最优的模型。例:高速公路事故数据考虑汽车意外事故率(事故数/百万行车)据包括197许在明尼苏达州的39段高速公路。ADT以千计的平均是流量(估计)Trks卡车容量在全部容
8、量中的百分比Lane在两个方向上的交通车道总数Acpt路段中每英里的进入点Sigs路段中每英里信号交换数Itg路段中每英里的快车道类型交换数Slim时速限制(在1973年)Len段的长度(英里)Lwid道路宽度(英尺)Shld道路的外侧路肩宽度Hwy公路类型的因子变量,0:州际高速公路、1:首要干道高速公路、2:主干道高速公路、3:其它Rate1973年每百万公里行车的事故率考虑log(Rate)对log(Len),log(ADT),log(Trks),log(Sigs1),Slim,Shld,Lane,Acpt,Itg,Lwid,Hwy的回归,其中Sigs1=(Sigs*Len+1)/Len
9、hwm=lm(yx1+x2+x3+x4+x5+x6+x7+x8+x9+x10+x11+x12+x13)summary(hwm)EstimateStd.ErrortvaluePr(|t|)(Intercept)x1x2x3x4x5x6x7x8x9x10 x11x12x13Signif.codes:0*.1Residualstandarderror:on25degreesoffreedomMultipleR-squared:,AdjustedR-squared:F-statistic:on13and25DF,p-value:kappa(hwm)1lihrarw/car、-iaiyicai)libr
10、ary(leaps)leaps(xmcbind(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,x13),y=y,.nbest=1).$which123456789ABCDFALSEFALSEFALSEFALSETRUEFALSEFALSEFALSEFALSEFALSEFALSEFALSEFALSETRUEFALSEFALSEFALSETRUEFALSEFALSEFALSEFALSEFALSEFALSEFALSEFALSE:FALSEFALSEFALSETRUETRUEFALSEFALSEFALSEFALSEFALSEFALSETRUEFALSEITRUEFALS
11、EFALSETRUETRUEFALSEFALSEFALSEFALSEFALSEFALSETRUEFALSEITRUETRUEFALSETRUETRUEFALSEFALSEFALSEFALSEFALSEFALSETRUEFALSE:TRUETRUEFALSETRUETRUEFALSEFALSEFALSEFALSEFALSEFALSETRUETRUETRUETRUETRUETRUETRUEFALSEFALSEFALSEFALSEFALSEFALSETRUETRUETRUETRUETRUETRUETRUEFALSEFALSETRUEFALSEFALSEFALSETRUETRUETRUETRUETRU
12、ETRUETRUEFALSEFALSETRUEFALSEFALSETRUETRUETRUETRUETRUETRUETRUETRUEFALSEFALSETRUEFALSETRUETRUETRUETRUETRUETRUETRUETRUETRUEFALSETRUETRUEFALSETRUETRUETRUETRUE12TRUETRUETRUETRUETRUEFALSETRUETRUETRUETRUETRUETRUETRUE,leaps()函数的一般用法为leaps(x=,y=,method=c(Cp,adjr2,r2),int=TRUE,nbest=10,names=NULL)其中,X=用来指定自变量
13、的矩阵;y=用来指定因变量的向量;method=用来指定准则,缺省为G准则;int=表示模型是否包含常数项的逻辑值,缺省为TRUE表示包含常数项nbest=用来指定要报告的不同个数自变量的局部最优模型数。names用来指定自变量名称的字符向量。ilhihway=(x1=x1,x2=x2,x3=x3,x4=x4,x5=x5,x6=x6,x7=x7,x8=x8,x9=x9,x10=x10,x11=x11,x12=x12,x13=x13,y=y)a=regsubsets(yx1+x2+x3+x4+x5+x6+x7+x8+x9+x10+x11+x12+x13,data=hihway)Isummary(
14、a)ISubsetselectionobjectCall:(yx1+x2+x3+x4+x5+x6+x7+x8+x9+x10+x11+x12+x13,data=hihway)13Variables(andintercept)IForcedinForcedoutx1FALSEFALSEIx2FALSEFALSEx3FALSEFALSE:x4FALSEFALSE|x5FALSEFALSEI:x6FALSEFALSE|:x7FALSEFALSE|x8FALSEFALSEI:x9FALSEFALSEI;x10FALSEFALSEx11FALSEFALSEiregsubsets()函数的一般用法为regs
15、ubsets(formula,data=,nbest=1,nvmax=8,=NULL,=NULL,intercept=TRUE,method=c(exhaustive,backward,forward,seqrep)其中,formula用来指定包含全部自变量的模型;data=用来指定存放数据的数据框;nbest=用来指定要报告的不同个数自变量的局部最优模型数。nvmax即来指定最大模型的自变量个数;=用来指定强制进入模型的自变量;=用来指定强制剔除的自变量;intercept=表示模型是否包含常数项的逻辑值,缺省表示包含常数项;method=ffl来指定选优的方法,包括全局、向后、向前和逐步,
16、缺省为全局。二、逐步回归法全局择优法需要大量的运算。当有5个自变量时,所有可能的回归数为25-1=15个;当有10个自变量时,所有可能的回归数为210-1=1023个;当有50个自变量时,所有可能的回归数为250-1,大约是1015个。因此在自变量个数较多时,全局择优法是无法实现的,此时需要别一类自变量选择方法,逐步回归法。逐步回归法分为向前选择、向后剔除和逐步筛选三种。向前选择从不含自变量的回归模型开始;依据某个标准从候选的自变量中选择一个最优的自变量添加到模型中;直到候选自变量中没有符合标准的自变量可添加为止。向后剔除从包含全部自变量的回归模型开始;依据某个标准从模型中剔除一个最差的自变量
17、;直到模型中没有符合标准的变量可剔除为止。逐步筛选(a)从任意一个回归模型开始;(b)依据某个标准从候选的自变量中选择一个最优的自变量添加到模型中,或者依据某个标准从模型中剔除一个最差的自变量;(c)直到既没有符合标准的候选自变量可添加,模型中也没有符合标准的自变量可剔除为止。以上逐步回归法中选择自变量的标准既可以用衡量回归模型与数据拟合程度的准则,也可以用检验系数显著性的t统计量、F统计量或者P值来构造。R数step()可用于逐步回归方法,这个函数的一般用法为step(object,scope,scale=0,direction=c(both,backward,forward),k=2)其中
18、,object指定逐步回归的初始模型;Scopes定逐步回归搜索的模型范围。如果是包含lower和upper两个公式的列表,则lower指定强制包含在模型中的自变量(这些自变量必须包含在初始模型中),upper指定最大的模型。如果是单个公式,则表示最大的模型。如果是缺省,则初始模型为最大的模型;如果scale=s2,则用G准则,缺省表示使用信息准则;direction=指定逐步回归方法,缺省为逐步筛选,forward为向前选择、backward为向后剔除;如果k=log(n),则用BIC准则,缺省表示使用AIC准则。m0=lm(y1,data=hihway)ssummary(ml)Call:lm(formula=yx5+x1+x12+x4+x2,data=hihway)Residuals:Min1QMedian3QMax:Coefficients:EstimateStd.ErrortvaluePr(|t|)(Intercept)x5x1x12ix4x2*:Signif.codes:0*.1Residualstandarderror:on33degreesoffreedomMultipleR-squared:,AdjustedR-squared:F-statistic:on
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年华北电力大学马克思主义基本原理概论期末考试真题汇编
- 2025年西安翻译学院马克思主义基本原理概论期末考试笔试题库
- 2024年保定学院马克思主义基本原理概论期末考试真题汇编
- 2025年南阳农业职业学院马克思主义基本原理概论期末考试真题汇编
- 2024年贵州医科大学神奇民族医药学院马克思主义基本原理概论期末考试真题汇编
- 2025年广州华南商贸职业学院马克思主义基本原理概论期末考试笔试题库
- 2025年南昌钢铁有限责任公司职工大学马克思主义基本原理概论期末考试笔试题库
- 2024年湘潭科技职业学院马克思主义基本原理概论期末考试真题汇编
- 2025年长江职业学院马克思主义基本原理概论期末考试笔试真题汇编
- 2025年江西管理职业学院马克思主义基本原理概论期末考试真题汇编
- 2026年教师资格之中学综合素质考试题库500道及完整答案【名师系列】
- 招标人主体责任履行指引
- 财务审计工作程序及风险防范措施
- 健康管理师考试题库及答案题库大全
- 雨课堂学堂云在线《中国传统艺术-篆刻、书法、水墨画体验与欣赏(哈工 )》单元测试考核答案
- 公墓骨灰安葬协议书
- 2025国家粮食储备局考试真题与答案
- 2025年汽车后市场汽车维修行业技术更新换代趋势可行性研究报告
- 2024年一建网络图案例专题
- 2025深圳生物会考试卷及答案
- 水泥厂安全检查表
评论
0/150
提交评论