偏回归平方和.docx_第1页
偏回归平方和.docx_第2页
偏回归平方和.docx_第3页
偏回归平方和.docx_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医药 多元线性回归模型变量选择的总偏回归平方和法 复制链接 下一个天堂 下一个天堂 当前离线 经验42298 点威望9 点点券42261 点家元0 在线时间12 小时注册时间2010-2-2帖子14131精华1积分56445UID2001605狗仔卡 大家网教授大家网教授, 积分 56445, 距离下一级还需 43555 积分威望9 点经验42298 点积分56445精华1帖子14131 串个门 加好友 打招呼 发消息电梯直达 1楼 发表于 2010-4-25 09:30:57 |只看该作者 |倒序浏览 -作者:李进文 陈朝辉 孙燕 曾平【摘要】提出一个新概念总偏回归平方和(Pt, total partial regression sum of squares),将Pt定义为全部自变量Xi(i=1,2,m,m为自变量数目或个数)的偏回归平方和Pi之总和。根据Pi占Pt的比例Ri(PiPt),进行m+1个回归方程计算后,可选择出“较优”自变量组合,从而得到一至数个“较优”多元线性回归模型,以供进一步分析。 【关键词】偏回归平方和; 总偏回归平方和; 多元线性回归; 变量选择1问题的提出多元线性回归在诸多学科中有广泛应用。在多元线性回归的实际应用中,考虑的自变量Xi(i=1,2,m,m为自变量数目或个数)经常包括所有可能影响因变量Y的因素。在众多的Xi中,有的对Y有显著影响,有的影响很小甚至基本无影响。如果把对Y影响小的Xi保留在回归模型中,不仅增加收集数据和分析数据的负担,使得回归方程不稳定,而且会因Xi的数目过多而不便于使用。因此,自变量选择在理论和应用上都十分重要。自变量选择通常有两类方法14:一是全局择优法,可选出全局“最优”回归模型。该法是对自变量各种不同的组合所建立的回归方程进行比较,进而从全部组合中挑出一个“最优”回归方程。挑选“最优”回归模型的指标一般有R2法、校正R2法、残差均方和或剩余标准差最小法、Cp统计量法、AIC、BIC及AICC信息量准则等。对于给定的方法和准则,“最优”回归方程应从所有可能回归子集(共有2m-1个)选出。问题是,根据不同的方法和准则,选出的“最优”回归模型不一定相同,真正哪个回归模型“最优”,同样面临选择的困难。而且,从所有可能回归子集中选择“最优”回归方程,计算量较大或极大(视m值而定)。二是逐步选择法(包括前进法、后退法和逐步回归法)。每一种逐步选择法选出的“最优”回归方程不一定相同。同一种方法,给定的检验水准(0.10,0.05,0.01,0.001)不同,选出的“最优”回归方程亦不同。而且,在确定哪些变量应当添加或者剔除时,采用的统计规则(显著性水平或者方差统计值的大小)都有一定的武断性5。笔者认为,从统计学意义上说,真正的最优回归方程是不存在或不可能得到的。与其花费大量的时间和高计算成本而得不到“最优”回归方程,不如少些武断性,用少量的时间和低计算成本得到1至数个“较优”多元线性回归模型以供选择,在实践中发挥相似的效果和作用。基于上述考虑,本研究从偏回归平方和的概念出发,提出一个概念总偏回归平方和(Pt total partial regression sum of squares),Pt这个概念或术语,作者尚未见文献报道。借助Pt,我们提出简便实用的选择“较优”多元线性回归模型的总偏回归平方和法。2原理与方法设1个应变量Y与m个自变量Xi(i=1,2,m,m为自变量个数)呈线性相关。从多元回归全模型中取消一个自变量Xi后,回归平方和U减少的部分,称为这个自变量Xi对Y的偏回归平方和(Pi),即这个自变量Xi对Y的回归贡献。关于每个自变量Xi在多元回归中所起的作用大小,可通过相应Xi的偏回归平方和Pi来衡量。Pi表明对Y的回归贡献。Pi越大,表示相应的Xi在回归中对Y的作用越大;当Pi很小时,表示相应的Xi在回归中所起的作用越小。总偏回归平方和(Pt)表示全部Pi之和,如能计算出每个Pi与Pt之比Ri(PiPt,Ri0,1),根据Ri大小不同,可较快选择出“较优”自变量组合或子集。方法如下: 估计全模型即包括所有自变量Xi回归方程的残差平方和Q:Q=Y*Y-Y*X*(X*X)-1*X*X 计算每个自变量Xi的偏回归平方和Pi2:Pi=Qi-Q (i=1,2,m)(1)式(1)中Qi表示自变量Xi不在回归模型时的残差平方和,即Y与m-1个自变量X1,Xi-1,Xi+1,Xm的选模型的残差平方和。Q为包括所有自变量Xi回归方程即全模型的残差平方和。至此所计算回归方程总数为m+1个。 计算总偏回归平方和Pt :Pt=Pi(i=1,2,m)(2) 计算各Pi占Pt的比例:Ri=PiPt(Ri0,1)(3)根据各Ri大小选择自变量,选出“较优”回归方程。 将Ri按由大到小秩序排列,然后计算累积Ri。一般地,可选择使累积Ri095(或085,090,099,需按数据的实际情况而定)的自变量组合,作为“较优”回归模型的自变量组合,从而得到所求“较优”回归方程。3实例实例1Hald水泥问题是一多元回归的经典实例,在诸多文献4,6中均有研究,说明存在一些不确定的模型。用本法作变量选择,结果见表1。表1各自变量的偏回归平方和、总偏回归平方和及其比例与累积比例(略)由表1可知,X1和X2的累积Ri为0.9878,而X4与X3对回归的贡献是微不足道的,两者的Ri均不到001,故“较优”自变量子集应为XX1,X2,这个结果与Cp统计量法选出的结果相同。如需选3个自变量进入回归方程,自变量子集应是XX1,X2,X4,而不是XX1,X2,X3,与用最小残差方差、最小残差标准差、R2及校正R2选出的结果相一致。但本法仅计算了m+1=5个回归方程子集便得到与用2m-1=15个回归方程子集相一致的结论,表明本法计算量明显减小。本法的结果亦与逐步选择法(包括前进法、后退法和逐步回归法)的结果相同。实例2为了研究正常少年儿童心像面积Y与性别(X1),年龄(X2),身高(X3),体重(X4),胸围(X5)的关系,某单位调查了254名男性,267名女性,月龄在30月178月的正常少年儿童,全部可能的回归方程的主要结果见文献7,应用本法选择自变量子集的数据见表2。表2各自变量的偏回归平方和、总偏回归平方和及其比例与累积比例(略)由表2可知,自变量子集X1,X3,X4的累积Ri为0.97950.95,故较优自变量子集应为XX1,X3,X4。如限定选2个自变量,自变量子集应是XX1,X3,其累积Ri为0.91000.90。如限定选4个自变量,自变量子集应是XX1,X3,X4,X5,其累积Ri为0.99390.99。本法仅计算了m+1=6个回归方程子集便得到与用2m-1=31个回归方程子集相一致的结论,进一步表明本法计算量小,结果可靠。4讨论本研究在提出总偏回归平方和(Pt)概念的基础上,用Pt法选择自变量子集,进而优选出所需多元回归模型。本法的变量选择结果与全局择优法及逐步选择法的结果基本一致。本法计算量小,简便实用。本法的不足之处是累积Ri的选择标准亦有一定的主观性,标准不同,选出的自变量子集相异。另外,变量较多时,本法虽能选出“较优”回归模型,但不一定是在某一准则下“最优”的。这些尚有待进一步研究。【参考文献】1 孙振球,徐勇勇医学统计学第1版北京:人民卫生出版社,2002,2422512 高惠璇统计计算第1版北京:北京大学出版社,2005,3133243 柳青,主编中国医学统计百科全书(多元统计分册)第1版北京:人民卫生出版社,2004,2631.4 黄小兰比较几种挑选“最优”回归模型的指标中国卫生统计,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论