




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章 复共线性问题4.1引言 在第二章中,我们在高斯马尔科夫假定下,讨论了经典线性单方程计量模型的参数估计,假设检验区间估计与预测等问题。并且,我们已证明了:在GM假定下,回归系数的LS估计再线性无偏估计类中具有最小的方差。由此,奠定了LS估计在经典计量理论中的重要地位。然而,在实际经济问题的研究中,GM假定往往并不满足。这种假设条件的破坏对经典计量理论的影响是具有挑战性的,将直接引发相关理论的革命。本章介绍的复共线性(multicollinearity)问题,在经济计量学的理论研究与实际应用中,具有极其重要的价值。在下面的讨论中将会发现,由于复共线性关系的存在,LS估计的性能将急剧变得很差,不再是可使用的最佳估计。所谓“复共线性”是指在模型解释变量之间存在一个或多个近似的线性关系:若上式左边精确地等于0,则称间存在精确的或完全的线性关系。当精确线性关系成立时,显然有:,从而,GM假定中的秩条件自然被破坏。若之间虽然不存在精确的线性关系,但存在复共线性关系,则之间必有一个变量可通过其它解释变量近似线性表示,说明此变量与其它结实变量之间的相关性极强,没有必要单独作为解释变量存在于模型中。若将这些变量均作为解释变量包含在模型中,则不仅不能有效地改进模型的拟合与预测,相反,将使模型参数的估计性能变坏,模型拟合与预测将在事实上不能反映客观事物本来面目。因此,如何识别和诊断出这种复共线性关系的影响机制,成为模型理论研究与应用实践急待解决的问题。事实上,在近几年来的不断探索过程中,人们已发现:复共线性关系的产生机制和影响机理非常复杂。它不但与解释变量间的结构依存关系相关,同时,还与模型形式设定、变量分布、滞后影响、样本信息差异和异常值等有关。本章介绍相关的理论和改进方法。4.2估计的新度量均方无差我们在上一章讨论的高斯马尔科夫定理给出了:在GM假定下,回归系数的LS估计在线性无偏差估计类中具有最小的方差。此时,制定估计优良的前提是线性无偏的。下面引入“均方误差”则是在更一般意义上给出了度量估计优量的新标准。一 均方无差(MSE)对于参数估计的一般问题,设为维未知参数向量,为 的某种估计,则估计的均方差(Mean Square Error)定义为:显然,均方误差度量了估计与未知参数偏离的大小。对作进一步的分解有:显然,它为估计的各分量方差之和。,它为估计的各分量偏差的平方和。可见,要使方程差较小,则必须要求和均小。特别地,当为的无偏估计时,则分解式中第二项等于0,此时,只剩下分量方差之和。因此,均方误差不仅适用于无偏估计情形,同时还适用于有偏估计情形。它从方差和偏差两个方面综合反映了估计的性能,是一个较好的、全面的估计性能新度量。二 LS估计的均方误差。我们假定单方称线性回归模型为:其中,设计阵假定已经中心化,并且。此时,截距项的LS估计为:,的LS估计为:。注:设 则 (中心化)其中,可见,从参数的角度来看,中心化不过是把原参数作了一个线性变换,且在此变换中,保持不变。现记,则有:,从而与的LS估计为:即有: 可见,中心化提供了将回归系数与截距项分离加以分别估计的技术,使我们可以将精力更加集中于对回归系数估计与性能的研究。 其次,在中心化基础上我们再来讨论其标准化问题。记 则中心化的模型变形为:其中,从而与的LS估计分别为: 其中,为阵,而为的相关系数阵。 由于为的无偏估计,故有:再由于故有:现记为相关系数矩阵的特征根,由于可逆,故的特征根为: 从而上式变为:可见,若至少存在一个接近于零的特征根时,则将趋于无穷大。此时,尽管高斯马歇尔科夫定理仍可保证,在线性无偏估计类中最佳,但其方差本身值却非常大,不再是一个优良估计。1955年,Stein证明了当维数大于2时,正态均值向量LS估计为不可容许估计。在统计文献中,称此现象为Stein现象。在此基础上人们发展了丰富多彩的有偏估计理论。例如:著名的岭估计、主成分估计、岭型主成分估计、特征根估计、压缩估计、双类估计和双类估计等。它们在均方误差准则下均局部或一致地改进了参数的LS估计。4.3复共线关系的诊断 在上节中我们利用特征根理论揭示了LS估计性能变坏的条件,当相关阵的特征根中至少有一近似于零时我们称设计阵是病态的,也称相应的回归模型为病态的。那么设计阵病态真正意味着什么?下面我们证明:当设计阵病态时,的列向量间存在近似的线性关系,亦即,在解释变量之间存在复共线性关系。 事实上,记,而 为对应于的特征根的标准正交特征向量,且,则有:。从而,。亦即有:。现记,则上式等价于:。此说明解释变量之间存在近似的线性关系,即复共线性关系(Multi-Collinearity)。 如何发现和诊断复共线性关系,亦以及如何对复共线性关系存在的严重程度进行客观、科学度量是十分重要的研究课题关系。下面介绍三种主要的诊断和度量方法。一 特征分析法 设是病态,则至少有一个特征根十分接近于零。设后个特征根,又记为它们相应的标准正交化特征向量,则有:,现记,则有。此即全部的个复共线性关系。称通过上述诊断复共线性关系的方法为特征分析法。特征分析法的优点在于:计算简单,且能给出全部的复共线性关系。其缺点在于:的特征根“十分接近于零”的判定标准不明确,因而存在不确定性。二 条件数(条件指标法)定义方阵的条件数(Condition Number)为:,虽然,条件数度量了的特征根散布程度,可以用它来识别复共线性关系是否存在,以及复共线性的严重程度。通常来说,若,则认为没有复共线性关系存在;则认为存在中等程度或较强的复共线性;若则认为存在严重的复共线性。条件数方法考虑了最大与最小特征根之间的相对差异程度,没有反映其它特征根与最大特征根之间的差异程度。一般地,有如下条件指标的定义。方阵的第个条件指标定义如下:条件数或条件指标法给出了复共线性关系的严重程度的测定标准,但仅仅依赖条件指标法来诊断复共线性关系,往往会发生漏诊现象,例如,著名的Gorman-Torman数据例因为并不是共有的条件指标法就一定存在复共线性。三 方差膨胀因子法:方差膨胀因子(Variance Inflation Factor)是度量复共线性严重程度的另一重要指标。由于,可见,矩阵中主对角元素对的方差影响至关重要。若记为对其余个解释变量的复相关系数,则可以证明:并称为方差膨胀因子。由于度量了解释变量与其它个解释变量线性相依程度,因此,这种依赖关系越强,即解释变量之间复共线性愈严重,就愈接近1,也越大。反过来,若与其余个解释变量相依程度愈低,即复共线性愈弱,将越接近于0。4.4岭回归 复共线性关系的存在直接导致了LS估计性能的破坏,以致于不再能作为估计来建立预报方程。如勉强所为,拟合与预测结果会与实际情况严重偏离,LS估计事实上成为不可容许估计。针对此问题,统计学家发展了一系列改进LS估计的方法。其中,1970年有Hoerl 和Kennard提出的岭估计(Ridge Estimate)是较为常用的一种有效估计,也是目前影响最大的一种有偏估计,以下对此作简要介绍。一 岭估计的概念与性质对于线性回归模型: (4.4.1)其中,阶设计算阵假定已经中心化,且列满秩,故有的LS估计为:;的LS估计为:。现定义回归系数的岭估计为:,其中,并称之为岭参数。显然,若取样本数据无关的常数,则岭估计为非线性估计。由于可取不同的数值,因此,岭估计给出了一个的估计类。若在岭估计中特别取,则有:,即的LS估计是岭估计的特殊情况。 在前面的讨论中,我们已探明LS估计性能破坏的原因是的特殊根中有部分接近于零。岭估计则将变为,从而,由于岭参数的引入,将使的特征根不在接近零,使变量间的复共线性关系得以改善。为说明使成立的岭参数一定存在,我们引进模型(4.4.1)的典则形式。设为对应于特征根的标准正交化特征向量,记,则模型(4.4.1)变为: (4.4.2)称为典则回归系数,此时,由于已经中心化,故Z也已中心化,从而对模型(4.4.2)来讲,截距项的LS估计仍为对于典则回归系数来讲,由于,故得的LS估计为: ( 4.4.3)代入得的LS估计为: (4.4.4)于是,相应的岭估计分别为: (4.4.5)和 (4.4.6)利用均方误差MSE的重要性质:在估计和参数的正交变换下,MSE保持不变,则有: (4.4.7) (4.4.8)于是,对回归系数的讨论等价于对典则回归系数的讨论。下面给出岭估计的一些重要性质。(1),其中,。可见,岭估计LS估计的一个线性变换。(2),可见,只要,则岭估计为的有偏估计。但由于,故岭估计类中除LS估计外,所有估计均为有偏估计。(3)对任意,总有。可见,岭估计是对LS估计向原点的一种压缩。因此:(4)存在,使成立:,亦即,在均方误差意义下,一定存在岭估计优于LS估计。证明:由前讨论知,只需证明存在,使成立: (4.4.9) (4.4.10) (4.4.11)故 (4.4.12) (4.4.13) (4.4.14),又和在均连值,故当充分小时,有: ,亦即,在充分小时为关于的减函数。从而,存在,使成立,亦即有:此外,还可证明岭估计的其它良好性质。例如,对任意,为的可容需估计,岭估计还是Bayes估计等,在此不作详细介绍。二岭参数的选择岭参数的选择是岭回归的关键。到目前为止,统计学家已发展了十多种选择岭参数的方法。下面介绍其中几种供参考。值得指出的是:尽管岭参数选择方法很多,但还没有一个方法能够一致地优于其它方法。这正是以后岭回归分析中研究的重点。1岭迹法(Ridge Trace):所谓岭迹,就是岭估计的分量,作为的函数,当在内变化时在平面直角坐标系所描绘的图形。岭迹法:就是将个分量的岭迹函在同一个图上。选择使得各回归系数的岭估计大体稳定,并兼顾回归系数符合的合理性,残差平方和不太多等。如下图所示。岭迹如何计算的问题,可按下述方法进行。将变形为:于是,可根。一般据的特征根和特征向量。由(4.4.15)方便地获得岭迹。岭迹法的缺点是:值的确定具有一定程度的主观随意性,缺少严格的令人信服的理论依据。2方差膨胀因子法:方差膨胀因子法是探测复共线性关系的重要方法之一,一般认为方差膨胀因子时,模型的复共线性关系将十分严重。对于岭估计来讲,它的协方差阵为: (4.4.16)不难发现,岭估计的方差膨胀因子随的增大而减少,因而是关于的减函数。选择岭参数的方差膨胀因子法是:选择,使成立,(4.4.17)3.准则准则是一种模型选择的准则。对于模型(4.4.1)设为的某个线性估计, 。这里,为给定的,依赖于。则可导出如下统计量: (4.4.18)其中为估计对应的残差平方和。对于岭估计 (4.4.19)来讲,相应的统计量为:其中,准则选择岭参数,就是选使达到最小的.在应用上,我们可以采用数值解法或图解法求解。4Hoerl-Kennard公式法 (4.4.21)此方法基于如下原因。由(4.4.13)和(4.4.14),有: (4.4.22)故当成立时,有即当时,为的单调下降函数,故取 (4.4.23)时,有,即有但由于和均未知, 故在上式中用相应估计替换,则得到Hoerl-Kennard公式(4.4.21).5.双公式法:1981年,Vinod和 Ullah将选的公式统一为: (4.4.24)其中,为已知方阵,且为对角阵,为的标准正交化特征矩阵。此时,对应的岭估计称为双类岭估计(double h-class ridge estinate)特别,取则称为Lawless-Wang公式(1976年): (4.4.25)又若取,则称为Hoerl-Kennard-Baldwin公式(1975年): (4.4.26)可以证明,若满足条件: (4.4.27)则对一切和,双类岭估计比LS估计有较小的均方误差。这里,为的最小特征根。三岭回归举例例4.4.1空气污染问题:1973年,Mcdonal和 Schwing在 Technometrics 15(1973)463-81上研究了死亡率与空气污染与气候以及社会经济状况等因素的关系。一共考虑了十五个因素:年平均降雨量。1月份平均气温3月份平均气温年龄在65岁以上的人口占总人口的百分数每家的人口数中学毕业年龄住符合标准的家庭比例数每平方哩居民数非白种人占总人口的比例 “白领阶层”中受雇百分数收入在300美元以上的家庭百分数碳氢化物的相对污染势二氮氧化物的相对污染势二氧化硫的相对污染势相对湿度样本容量利用准则,可确定当时达到最小,相应的解释变量为。在全变量集下,的15个特征根为:45372275472054513487122270960
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网络管理员的素质与能力提升试题及答案
- 团队敏捷开发的优势与挑战的试题及答案
- 信息处理考试备考试题及答案
- 网络管理员考试新兴技术试题及答案探讨
- 2025至2030年中国水性SBS改性沥青防水涂料行业投资前景及策略咨询研究报告
- 2025至2030年中国松香玉大理石板材行业投资前景及策略咨询研究报告
- 计算机二级VB考试追踪情况试题及答案
- 2025至2030年中国全棉男式梭织睡裤行业投资前景及策略咨询研究报告
- 自信备考拥抱挑战2025年计算机二级VB考试试题及答案
- 2025年中国酸乳市场调查研究报告
- 2025年一级注册建筑师历年真题答案
- 十五五时期经济社会发展座谈会十五五如何谋篇布局
- 初中电与磁试题及答案
- 浙江开放大学2025年《行政复议法》形考作业1答案
- 国家开放大学《西方经济学(本)》章节测试参考答案
- 湖南省炎德英才名校联合体2025届高考考前仿真联考二英语+答案
- 重庆地理会考试卷题及答案
- 福建省三明市2025年普通高中高三毕业班五月质量检测地理试卷及答案(三明四检)
- 2024年四川省天全县事业单位公开招聘医疗卫生岗笔试题带答案
- 人教版(2024)七年级下册英语Unit 5 Here and Now 教案
- 【7语期中】合肥市包河区2024-2025学年七年级下学期4月期中语文试题
评论
0/150
提交评论