浅谈加权最小二乘法及其残差图.doc_第1页
浅谈加权最小二乘法及其残差图.doc_第2页
浅谈加权最小二乘法及其残差图.doc_第3页
浅谈加权最小二乘法及其残差图.doc_第4页
浅谈加权最小二乘法及其残差图.doc_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅谈加权最小二乘法及其残差图 兼答孙小素副教授何晓群 刘文卿abstractthe paper introduces some problems in relation to weighted least square regression ,and answers a question about weighted residual plots. 关键词:异方差;加权最小二乘法;残差图;spss一、引言好几年没有翻统计研究了。最近,有一同行朋友打电话告诉我统计研究2005年第11期上刊登了一篇有关我与刘文卿合作编著的应用回归分析(2001.6.中国人民大学出版社)教材的文章。赶紧找到这期的统计研究,看到其中孙小素副教授的文章加权最小二乘法残差图问题探讨与何晓群教授商榷一文,以下简称孙文。认真拜读后感触良多。首先衷心感谢孙小素副教授阅读了我们应用回归分析拙作的部分章节,同时感谢统计研究给我们提供这样一个好的机会,使我们能够借助贵刊对加权最小二乘法的有关问题谈谈更多的认识。孙文谈到应用回归分析教材中有关加权最小二乘法残差图的问题。摆出了与加权最小二乘法相关的三类残差图,指出第三类残差图的局限性。直接的问题是三类残差图的作用,而更深层的原因应该是对加权最小二乘法统计思想的理解和认识上的差异。二、对加权最小二乘法的认识1. 加权最小二乘估计方法拙作应用回归分析中对加权最小二乘法有详尽的讲述,这里仅做简要介绍。多元线性回归方程普通最小二乘法的离差平方和为: (1)普通最小二乘估计就是寻找参数的估计值使式(1)的离差平方和达极小。式(1)中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在式(1)平方和中的取值就偏大,在平方和中的作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由式(1)求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。加权最小二乘估计的方法是在平方和中加入一个适当的权数 ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为: (2)加权最小二乘估计就是寻找参数的估计值使式(2)的离差平方和达极小。所得加权最小二乘经验回归方程记做 (3) 理论上最优的权数为误差项方差的倒数,即 (4)误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接受大的权数,以提高其在平方和中的作用。由(2)式求出的加权最小二乘估计就是参数的最小方差线性无偏估计。一个需要解决的问题是误差项的方差是未知的,因此无法真正按照式(4)选取权数。在实际问题中误差项方差通常与自变量的水平有关,可以利用这种关系确定权数。例如与第j个自变量取值的平方成比例时,即=k时,这时取权数为 (5)更一般的情况是误差项方差与某个自变量取值的幂函数成比例,即=k,其中m是待定的未知参数。此时权数为 (6)这时确定权数 的问题转化为确定幂参数m的问题,可以借助spss软件解决。应用回归书中和孙文中都讲了这个方法,本文不再重述。需要注意的是,在实际问题中比例关系=k只是近似的,式(6)确定的权数只是式(4)最优权数的近似值,因此所得的参数最小二乘估计也只是近似的最小方差线性无偏估计。 2. 变量变换的加权最小二乘法孙文中谈到:加权最小二乘法的实质是要对原始数据实施变换,获得新的解释变量和被解释变量,变换的方法是: (表示变换后的被解释变量) (7),h=0,1,2,p (是对应于原始变量的新解释变量) (8)对变换后的变量()重新进行普通最小二成估计(注意,此处的回归模型不包含常数项,增加了数据变换后派生出的一个新解释变量),即可得到加权最小二乘法的经验回归方程: (9)以上是孙文中对加权最小二乘法的解释,其中公式(7)、(8)、(9)分别对应孙文中的公式(3)、(4)、(5)。 3. 两种方法的异同相同之处。显然,式(3)与式(9)两个回归方程是等价的,把式(3)同时乘以后就转化为式(9)。不同之处。首先,式(3)的回归方程使用起来比较方便,因为利用该回归方程进行预测和控制时,无须按式(8)变换自变量的新值,直接将自变量的新值代入式(3)即可。对这一点孙小素副教授也是认同的。其实,所有方法的优劣评价根本就在于他是否方便于建模最终的应用。其次,虽然两种加权回归方法所得的回归方程是等价的,但是对回归效果的拟合优度和检验是不同的,式(3)的加权最小二乘的总离差平方和、回归离差平方和、残差平方和的计算公式和关系为: (10)其中是用加权的算术平均数。由于式(9)的变换加权最小二乘回归方程不含常数项,所以不满足离差平方和分解式,而是对直接的平方和满足分解式,总平方和、回归平方和、残差平方和的计算公式和关系为: (11)等价于 (12)对不含常数项的普通最小二乘回归,spss软件就是用上述公式计算平方和并进而计算判定系数和做f检验的。然而,这种做法的合理性是有欠缺的,因为总平方和不能如实反映因变量的变差,仅是为了满足平方和分解式而这样做,有削足适履的嫌疑。另外一种做法是以作为总离差平方和,把作为回归离差平方和,而不使用作为回归离差平方和,excel软件不含常数项(即指定常数项为零)的普通最小二乘回归就是采用的这个方法。对孙文所引用的应用回归分析例题,有关的计算结果见表1(a)(d)。从表中可以清楚看出用变换加权最小二乘法计算离差平方和存在明显的问题,判定系数和检验统计量f严重失真。对同样的数据做变换加权最小二乘估计,市面上流行的不同软件的拟合优度检验却差别很大,spss软件计算出的f=442.2,=0.968;excel软件计算出的f=74.26,=0.837。对其他数值就不逐一对比了。表1(a) 普通最小二乘方差分析表(spss)来源平方和自由度均方f显著性r2回归18440108118440108300.77.53e-170.912残差17782022961317 总计2021831130 表1(b) 加权最小二乘方差分析表(spss)来源平方和自由度均方f显著性r2回归6.65516.655423.77.51e-190.936残差0.455290.0157 总计7.11030 表1(c) 变换加权最小二乘方差分析表(spss)来源平方和自由度均方f显著性r2回归13.89126.945442.21.88e-220.968残差0.455290.0157 总计14.34631 表1(d) 变换加权最小二乘方差分析表(excel)来源平方和自由度均方f显著性r2回归2.33221.16674.266.39e-120.837残差0.4554290.0157总计2.78831针对上述问题,变换加权最小二乘法实际上常用于式(5)成立的情况,即m=2,此时变换后的自变量1,回归参数就相当于回归常数项了,对变换后的数据就可以用含有常数项的普通最小二乘估计方法,各种统计软件对变换加权最小二乘法回归的拟合优度检验的输出结果就都一致了。遗憾的是,即使是在这种特殊情况下也仍然与直接用加权最小二乘估计方法不一致,这只需仔细比较两种情况的总离差平方和公式和的差异即可。这种通过变换变量求解加权最小二乘估计方法的作用是什么呢?引用文献1第180页的一段文字给予解释:“许多回归软件包允许用户有选择地使用具体的权数进行加权最小二乘分析。如果不能选择,通过对观察值的具体变换,使用不加权的最小二乘法,仍能得到加权最小二乘估计量。”可见通过变换变量求解加权最小二乘估计的方法仅是作为参数估计的一种计算手段而存在的,如果你使用的软件仅具有普通最小二乘功能,就只能用变换变量的方法求解加权最小二乘的参数估计。应用回归分析教材是结合spss软件编写的,而spss软件允许用户直接使用权数进行加权最小二乘分析,不必通过变换变量的方法求解加权最小二乘估计,因此我们在教材中没有给出这种通过变换变量求解加权最小二乘估计的方法。纵上所述,在拥有像spss这种能够直接计算加权最小二乘估计的软件时,就不必使用变换变量求解加权最小二乘估计的方法了。即使使用的是变换变量求解加权最小二乘估计的方法,也应该把式(9)变换回式(3)的形式,用来直接表示出原始变量之间的关系。因此孙文把式(9)称为加权最小二乘法的经验回归方程就显然不合适了。我们也没有见到其他的文献用这个称法。 三、三类残差图的作用以残差为纵坐标轴以自变量(或回归值)为横坐标轴画的散点图就是残差图。孙文中的三类残差图如下:1. 普通残差图。指用原始数据对线性回归模型做普通最小二乘估计所得的普通残差所做的残差图,也就是孙文中所称的第一类残差图。2. 加权普通残差图。其残差是用原始数据做加权最小二乘估计所得的普通残差(在孙文中记做),也就是孙文中所称的加权派生残差图,或第三类残差图。3. 加权变换残差图。其残差是用变换数据做加权最小二乘估计所得的普通残差(在孙文中记做),也就是孙文中所称的加权残差图,或第二类残差图。的计算方法有两种,第一种方法是用式(9)的变换加权最小二乘法得到,第二种方法是把加权普通残差乘以得到,即。 拙作应用回归分析一书中重点讲述的是普通残差图的作用,可以从直观上判断回归模型是否存在异方差性,还可以进一步用普通残差的绝对值与自变量计算等级相关系数,做相关性检验来判断是否存在异方差性。在教材正文中对加权残差图只是给出了软件绘制的方法和图形,并没有对图形结果做任何文字说明和评价。由于考虑有些初学者可能会产生误解,我们在教材第121页“本章小结与评注”中对加权残差图做了简要解释,引述如下:“从残差图来看,普通最小二乘估计只能照顾到残差大的项,而小残差项往往有整体的正偏或负偏。加权最小二乘估计的残差图,对大残差和小残差拟合的都好,大残差和小残差都没有整体的正偏或负偏。” 以上这段文字指出了加权残差图的作用,如果在普通残差图中小残差有整体的正偏或负偏,而在加权普通残差图中得到明显的改善,这就说明加权最小二乘估计是显著有效的。两种残差图在应用回归分析和孙文中都已给出,本文就不重复绘制图形了,而是把三种残差的具体数值列在表2中,说明加权普通残差的作用。表2 三种残差的数值序号126487771.2161e-061692110.233 210592101.1314e-06-27140.015 39099541.0069e-06-105-66-0.066 4131105089.2837e-07-111-74-0.071 5122109798.6927e-07-159-124-0.116 6107119127.6917e-07-253-221-0.194 7406127476.9485e-07-2540.004 8503134996.3760e-078350.028 9431142695.8669e-07-129-105-0.080 10588155225.1710e-07-78-58-0.042 11898167304.6212e-071301460.099 12950176634.2599e-071031160.0769501e-07-146-135-0.0856346e-07-195-188-0.114 151222211633.2481e-0778800.046 161702228802.8895e-074134090.220 171578241272.6684e-071831760.091 181654256042.4408e-071341220.060 191400265002.3181e-07-195-211-0.102 201829276702.1726e-071341150.054 212200283002.1005e-074524310.197 222017274302.2012e-073433240.152 232105295601.9676e-072502250.100 241600281502.1173e-07-135-156-0.072 252250321001.7388e-071801470.061 262420325001.7068e-073172810.116 272570352501.5110e-072341900.074 281720335001.6309e-07-468-507-0.205 291900360001.4640e-07-500-546-0.209 302100362001.4519e-07-317-364-0.139 312300382001.3394e-07-286-340-0.124 这个例子共有31对数据,把数据分为3组,第110对数据为第1组,是小方差组;1121对数据为第2组,是中等方差组;2231对数据为第3组,是大方差组。从表中看到,第1组10个普通残差中有8个是负值,说明普通残差图中小残差有整体的负偏。而10个加权残差中只有6个是负值,说明加权残差对小残差整体负偏的情况已经有了明显改进。10个普通残差中绝对值最大的是= -253,加权回归后改善为= -221。图形是对数值的直观展示,从两张残差图上也是可以看出相同现象的。第3组10个普通残差和加权残差的正负性相同,正负值各有5个,说明普通最小二乘和加权最小二乘对大残差项拟合的都好。仔细观察这组的两种残差还是能发现区别的,10个普通残差中绝对值最大的是= -500,加权回归后成为= -546。不是像小残差组那样得到改善,而是误差变得更大。其道理也很简单,加权最小二乘估计照顾小残差项是以牺牲大残差项为代价的,有得必有失,也是有局限性的。孙文中认为加权残差图存在一定的局限性,具体表现在:“第一,这类残差图不能用来检验模型是否存在异方差问题。第二,这类残差图也不能用来说明模型中的异方差问题是否得到妥善处理。”关于第一点,准确地说是不必用加权残差图检验模型是否存在异方差问题,并非不能用,这是因为检验模型是否存在异方差问题的工作已经由普通残差图完成。实际上用加权普通残差图检验异方差的效果是优于普通残差图的,这是因为存在异方差时普通残差对误差的估计是失真的,而加权残差则能够更真实地反映误差项的大小。关于第二点,如果从加权残差图中看到小残差项已经没有整体的正偏或负偏,则说明加权最小二乘估计已经消除了异方差的影响。孙文中提出的加权变换残差图(第二类残差图)是有其长处的,可以比加权普通残差图(第三类残差图)更直观地看出加权最小二乘估计是否真正解决了异方差问题,这只要看看残差图中散点在左右两端分布得是否平齐即可。还可以由加权变换残差用等级相关系数法做检验,判断异方差是否真正得以消除,这个作用是加权普通残差不具备的。这两个作用在孙文中已经详细介绍。顺便指出孙文以加权变换残差为纵轴,分别以两个变换后的自变量和为横轴绘制出两张残差图是不必要的,实际上这两张残差图是等价的,从图形上看只是左右颠倒。加权变换残差的数值是对原始数据的残差做了变换,其数值大小只具有相对意义。加权普通残差是原始数据的残差,其数值大小具有绝对意义,它综合了普通残差和加权变换残差的部分功能,当然同时也丧失了部分功能。孙文中讲述了用变换加权最小二乘法计算加权变换残差的方法。实际上,在用spss软件计算出权数和加权普通残差后,只须根据关系就可以计算出加权变换残差,而不必用变换加权最小二乘方法。拙作应用回归分析在正文中对加权变换残差图完全没有提及,不过“本章小结与评注”中的一句话“如果把误差项加权,那么加权的误差项是等方差的”,可以看作是对加权变换残差的诠释。拙作应用回归分析关于加权普通残差图的内容是这样讲述的:“为了画残差图,需要计算出加权最小二乘估计的残差,这需要重新做回归。第一步,在weight estimation对话框的options选项中,保存最优权作为新的变量。第二步,进入线性回归对话框,点选左下角的wls,线性回归对话框会增加一行weight变量框,把在第一步保存的最优权变量选入。第三步,点选线性回归对话框的save选项,保存残差变量,运行。第四步,以自变量x为横轴,以加权最小二乘估计的残差为纵轴画残差图”这段内容的直接作用是介绍加权普通残差图的绘制方法,其间接作用是介绍spss软件加权最小二乘估计功能的使用方法,也就是“第二步”的内容。在spss软件中,加权最小二乘回归具有普通最小二乘回归的很多功能,包括共线性诊断、异常值判定、自相关分析、区间预测等等,这些功能都是以“第二步”的内容为基础的,计算残差只是众多功能之一而已。用图形来评价结果往往只是一种粗糙的辅助手段。正像我们在拙作应用回归分析第121页“本章小结与评注”上强调指出:“关于异方差性的诊断,方法很多,至于哪种检验方法最好,目前还没有一致的看法。残差图方法直观但较粗糙。等级相关系数检验要比残差图检验方法更为可取。”四、对异方差问题的深入思考拙作应用回归分析教材定位于统计学专业的本科生或非统计学专业的硕士生,作为3学分54学时的课程教材,限制篇幅和深度,教材中对一些问题不可能全面展开叙述,在此对异方差的一些问题再做进一步探讨。当回归模型存在异方差时,加权最小二乘估计只是对普通最小二乘估计的改进,这种改进有可能是细微的,不能理解为加权最小二乘估计会得到与普通最小二乘估计截然不同的回归方程,或者一定有大幅度的改进。对本例的数据,普通最小二乘的经验回归方程是,加权最小二乘的经验回归方程是,两者相差不大。比较加权普通残差图与普通残差图的差异就可以如实反映这种改进幅度。看来需要强调指出的是这个改进幅度不是指是否变为等方差了,而是指回归方程也就是回归系数估计值的差异幅度,在这一问题上加权普通残差图是优于加权变换残差图的。实际上,可以构造出这样的数据,回归模型存在很强的异方差,加权回归后变为等方差了,但是普通最小二乘与加权最小二乘所得的回归方程却完全一样。加权最小二乘以牺牲大方差项的拟合效果为代价改善了小方差项的拟合效果,这也并不总是研究者所需要的。在社会经济现象中,通常变量取值大时方差也大,在以经济总量为研究目标时,更关心的是变量取值大的项,而普通最小二乘恰好能满足这个要求。动态数据的指数平滑法把近期数据加上大的权数,强调近期数据的贡献就是这样的统计思想。加权最小二乘估计的理论权数是式(4),但是实际使用的只能是近似的,通常取为某个自变量平方的倒数,即。对本例的数据,取,加权最小二乘回归方程为,判定系数=0.933。而取最优权数所得加权最小二乘回归方程为,=0.936,两者非常接近。所以当手头没有spss软件时,直接取是一个可行的方法,这时对加权最小二乘回归的效果要用残差图等方法验证。如前所述,当用变换变量方法做加权最小二乘估计时,选取的一个好处是回归模型中仍然含有常数项,这时不同软件对回归拟合优度检验的结果就一致了。异方差问题是社会经济现象建立回归模型时的普遍问题,加权最小二乘估计是解决异方差的一个常用方法,另外一个方法是当模型存在异方差性时,人们往往还考虑对因变量作变换,使得对变换过后的数据误差方差能够近似相等,即方差比较稳定,所以通常称这种变换为方差稳定化变换,常见的变量变换有如下几种。(1)如果与存在一定的比例关系,使用;(2)如果与存在一定的比例关系,使用;(3)如果与存在一定的比例关系,使用方差稳定变换在改变误差项方差的同时,也会改变误差项的分布,改变回归函数的形式。因而当误差项服从正态分布,因变量与自变量之间遵从线性回归函数,只是误差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论